金曜日 2 p.m.–5 p.m.
Pythonを使った機械学習入門
Kimikazu Kato
- 対象レベル:
- 中級
- カテゴリ:
- Science
説明
機械学習って面白そう、自分でやってみたい、という人向けに、Pythonを使った機械学習プログラミングについて基本的な話をします。最終的な目標としては、scikit-learnに付属するあやめのデータや糖尿病のデータを使って実際の分類、予測、可視化のハンズオンを行います。
概要
機械学習って面白そう、自分でやってみたい、という人向けに、Pythonを使った機械学習プログラミングについて基本的な話をします。NumPy(数値計算ライブラリ)とSciPy(科学計算ライブラリ)の知識も仮定せずに進め、まずは行列の演算などの基本を話します。また、matplotlibを使ったデータ可視化の入門的な話もします。初心者に配慮してNumPy/SciPy/matplotの説明だけで多くの時間を費やす予定ですが、それは網羅的な説明を目指したものではなく、機械学習に特化して必要な部分だけにとどめます。最後に機械学習に関する基本用語を解説し、scikit-learnを使って機械学習を使った計算の例をいくつか示します。scikit-learnに付属するあやめのデータや糖尿病のデータを使って実際の分類や予測をやってみます。つまり、「このあやめはどの種類に属するか?」「この人はどのくらい糖尿病になりやすいか?」などの計算の実例を示します。たくさんの事例を示すことより、なぜそうなるかの説明を大事にしたいと思っています。機械学習の知識は仮定しませんが、解説書等を読んでおくことは助けになります。数学の知識については、行列の掛け算や逆行列の定義は知っていることを仮定します。
### 用意するもの
次のものがインストールされているPCを用意してください。インストールのしかたは後日手順をまとめます。
* OSはWindows/Mac/Ubuntuのいずれか(それ以外のものは講師が対応出来ない可能性がありますので、自己責任でお願いします)
* Python3.4.0以降のバージョン
* NumPy, SciPy, matplotlib, scikit-learn
* テキストエディタやIDEでPythonに対応したもの
#### インストール方法
インストール方法は [https://github.com/hamukazu/pyconjp2015tutorial/blob/master/install_instruction.md](https://github.com/hamukazu/pyconjp2015tutorial/blob/master/install_instruction.md) にまとめてあります。必ずしもこの手順通りである必要はありませんが、必ず当日までにPython3とNumPy/SciPy/matplotlib/scikit-learnはインストールして動作を確認しておいてください。ちなみに講師はUbuntuを使う予定です。
インストールがうまく行かないなどの問題は、講師のTwitterアカウント[@hamukazu](https://twitter.com/hamukazu)でサポートします。(必ずしも即時対応できるわけではないのでご了承ください)
#### 当日の進め方
ハンズオン形式で、実際にコードを書いて動作を確かめながら進んでいきます。受講者の知識レベルと理解度を見ながら、インタラクティブに進めつつ難易度を調整していこうと思っています。
#### 対象者
最低限必要な知識として以下を仮定します
* Python: ある程度文法を理解していて、自力でちょっとしたプログラムを書くことができる
* 機械学習: 機械学習とはなにかということを、解説書等でかじったことがある
* 数学: 行列の定義と、行列の積の定義を知っている
* NumPy/SciPy/matplotlib: 知らなくてよい(しかし多少知っているとスムーズ)
* scikit-learn: 知らなくてよい(ある程度経験ある人は、このチュートリアルは不要)
#### 参考文献
* 技術評論社「データサイエンティスト養成読本 機械学習入門編」 ( [http://bit.ly/yoseiml](http://bit.ly/yoseiml) )
参加者用ハンドアウト
No handouts have been provided yet for this tutorial