Talk Proposal Submission

If you are interested in attending this talk at PyCon JP 2017, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.

talk

luigiによる機械学習データフロー(ja)

Speakers

竹野峻輔

Audience level:

Intermediate

Category:

Useful libraries

Description

機械学習においては、実験等の再現性の重要であるためデータフローを明確に記述することが重要です。ここでデータフローとはデータの取得・整形から前処理、モデルの学習・ハイパパラメータ調整・評価、そしてデプロイまでの一連のフローをさします。発表では機械学習における一般的なデータフローについて導入したのち、実際のluigiによる記述方法について説明します。またluigiの利点や簡潔に書くためのテクニックについても述べます.

Objectives

参加者が機械学習のデータフロー(取得〜モデルの学習、評価〜デプロイ)まで luigiを利用して記述できるようになること。

Abstract

Pythonではscikit-learnやChainer, Theano, Tensorflowといった強力な機械学習ライブラリが充実しており、アカデミックの分野だけでなく, ビジネスの様々な分野においても活用が進んでいます。機械学習プロジェクトを進める上で最も重要なことは、再現性を保つことです。機械学習プロジェクトにおいて再現性を担保するには、データの取得・整形方法から前処理、モデルの理論・学習方法・ハイパパラメータ調整・評価までの一連のデータフローを明確に示すことが必要です。本発表では、このデータフローの構築の仕方について焦点をあて、 Pythonのワークフローマネージャーであるluigiを利用し、機械学習データフローの構築方法について説明していきます。機械学習における一般的なデータフローについて導入したのち、実際のluigiによる記述方法について説明します。伝統的なMakefileやシェルスクリプト、Apache Airflowなどと比較したときの違いについて言及しつつ, luigiの紹介を行います。簡単な実例として自然言語処理を題材として luigiでデータフローを記述しますこのとき、luigiの利点や簡潔に書くためのテクニックについても述べます。またPythonにおいてはpandasやjupyter notebook といった、他の強力なライブラリと連携することで、より簡潔・強力に集計作業やレポーティングを行うことができます。これらの連携方法についても発表で述べます。 luigiを利用し、機械学習開発を進めることで前処理方式の比較、モデルやそのハイパーパラメータの比較、実際のデプロイ時のパフォーマンスチェックまで簡単に行えるようになります