エントロピー＆ジニ関数について。

簡単に書いてあるけど、これが本質なんだよなあ。。。

https://qiita.c【機械学習】決定木をscikit-learnと数学の両方から理解する

１．

＞機械学習をやってみたいと思った場合、scikit-learn等を使えば誰でも比較的手軽に実装できるようになってきています。但し、仕事で成果を出そうとしたり、より自分のレベルを上げていくためには「背景はよくわからないけど何かこの結果になりました」の説明では明らかに弱いことが分かると思います。

Scikit-learnを使えば、確かに簡単に実装できます。私は、タイタニック号の生存者予測をしました。しかし、数学的に説明できないと確かに、気持ち悪い！下記記載も非常に分かり易かった。clf=clf.fit(x,y)のクラスfitで「学習させる」と言うコマンドなんですねえ。。。

２．

＞いよいよ、モデル構築のコードです。

clf = DecisionTreeClassifier()
clf = clf.fit(X, y)

単純なモデルであればこれで終わりです。
clfという変数にこれから決定木モデルを作ります！と宣言のようなことを行い、次の行で、そのclfに準備したXとyをフィット(=学習)させるというイメージです。

３．

＞実際にpythonでモデルを動かす際は、3で紹介したコードに引数として下記のように設定できます（下記は不純度の指標をジニ係数にした場合。エントロピーにしたい場合はここをentropyにします）。

clf = DecisionTreeClassifier(criterion="gini")
clf = clf.fit(X, y)

それと、これもDecision Treeの基本として、分かり易かった。

[入門]初心者の初心者による初心者のための決定木分析

さて、ここで疑問が湧きました。Scikit-Learnのライブラリを使えば、簡単に機械学習の実践が出来るけど、誰がやっても同じ結果になるんじゃない？　と言う超素朴な疑問です。

そんな訳で、祭日の本日（2/11）は、手元にある古い日経ソフトウェア誌（2019年1月号）を読んでおりました。分かったことは、デフォルトで、Scikit-learnを使えば勿論、誰がやっても同じになるんだが、いわゆるパラメーターチューニング（決定木の深さをチューニングするとか）をする事で、精度をカスタマイズできるとの事。

ついては、次の目標は、「ランダムフォレスト」のクラスをよく理解することですなあ。。

頑張ります！

初投稿なので、決意表明と簡単な自己紹介をします。

2月 09, 2021

こんにちは！アラフィフオヤジのXです。最初なので、簡単に自己紹介をします。 IT業界には長くおります。ネットワーク系のエンジニアとしての経験が長く、今は、IT系の事業開発を主にやっております。アプリ開発の方は、実務経験はほぼなく、趣味でPython、Javascript、VBAとかを少しだけ弄れると言ったレベルです。 IT業界では、2000年代後半からのクラウド化時代から、どんどんとレイヤーがあがってきております。例えば、20年前は、LANケーブリングがキチンとできる事が重要なスキルでした（これはこれで見た目ほど単純ではない。）。その後、サーバOS設定、UPS設定、ルーター設定、LANやWAN構築、ネットワークサーバ構築、クラウド操作とどんどんとレイヤーが上がっていき、その都度、必死になって勉強して、技術を習得してきました。しかしながら、2021年の今は、クラウドが当たり前であり、上記の様なスキルはクラウド側でほぼ吸収されており、企業側のユーザーが気にする必要は、ほぼ無くなりました。これからは、アプリ開発さえも、AWSの一機能として吸収されつつあるし、ノーコード技術なんかも登場しつつあります。よって、アプリ開発の更に上のレイヤーを目指す事にします。これはひとえに、IT技術者として、これから10年とか20年、生き残る為です。目指すのは、データサイエンティストです。今まで、プログラミングも独習で学んできたけど、今まで、「このプログラミング技術は何の役に立つんだ？」と思う事もありました。しかし、データサイエンティストの分野では非常に役立つ事が分かりました。それに、数学の知識も生かせるので、数学好きな自分としては面白いとさえ思っております。そんなアラフィフおやじの勉強の日々をこのブログにつづっていきます。よろしくお願いいたします。これが最近、読破した本です。超入門書ですが、面白かった。⇒　 Python 2年生データ分析今は、Kaggleに登録して、タイタニックのデータセットで勉強しております。【Kaggle初心者入門編】タイタニック号で生き残るのは誰？ Decision Tree って何だ？？？

このブログを検索

アラフィフおやじがデータサイエンティストを目指すブログ

エントロピー＆ジニ関数について。

コメント

コメントを投稿

このブログの人気の投稿

初投稿なので、決意表明と簡単な自己紹介をします。