Talk Proposal Submission
If you are interested in attending this talk at PyCon JP 2017, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.
talk
luigiによる機械学習データフロー(ja)
Speakers
竹野 峻輔
Audience level:
Intermediate
Category:
Useful libraries
Description
機械学習においては、実験等の再現性の重要であるためデータフローを明確に記述することが重要です。
ここでデータフローとはデータの取得・整形から前処理、モデルの学習・ハイパパラメータ調整・評価、そしてデプロイまでの一連のフローをさします。
発表では機械学習における一般的なデータフローについて導入したのち、実際のluigiによる記述方法について説明します。またluigiの利点や簡潔に書くためのテクニックについても述べます.
Objectives
参加者が 機械学習のデータフロー(取得〜モデルの学習、評価〜デプロイ)まで
luigiを利用して記述できるようになること。
Abstract
Pythonではscikit-learnやChainer, Theano, Tensorflowといった強力な機械学習ライブラリが充実しており、アカデミックの分野だけでなく, ビジネスの様々な分野においても活用が進んでいます。
機械学習プロジェクトを進める上で最も重要なことは、再現性を保つことです。
機械学習プロジェクトにおいて再現性を担保するには、データの取得・整形方法から前処理、モデルの理論・学習方法・ハイパパラメータ調整・評価までの一連のデータフローを明確に示すことが必要です。
本発表では、このデータフローの構築の仕方について焦点をあて、
Pythonのワークフローマネージャーであるluigiを利用し、機械学習データフローの構築方法について説明していきます。
機械学習における一般的なデータフローについて導入したのち、実際のluigiによる記述方法について説明します。
伝統的なMakefileやシェルスクリプト、Apache Airflowなどと比較したときの 違いについて言及しつつ, luigiの紹介を行います。
簡単な実例として 自然言語処理を題材として luigiでデータフローを記述します
このとき、luigiの利点や簡潔に書くためのテクニックについても述べます。
またPythonにおいてはpandasやjupyter notebook といった、他の強力なライブラリと連携することで、より簡潔・強力に集計作業やレポーティングを行うことができます。
これらの連携方法についても発表で述べます。
luigiを利用し、機械学習開発を進めることで
前処理方式の比較、モデルやそのハイパーパラメータの比較、実際のデプロイ時のパフォーマンスチェックまで簡単に行えるようになります