プロポーザル
これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。
talk
Pythonで始めるデータマネジメント(ja)
スピーカー
Satoshi Nagayasu
対象レベル:
初級
カテゴリ:
Big Data
説明
今回紹介するツール「Hecatoncheir: The Data Stewardship Studio」はデータマネジメントのためのOSSのツールです。
このツールを使うことでデータ管理業務のタスクを容易に実施することができるようになります。
この発表では、なぜこのツールが必要だったのか、どのように実現したのか、どのように使っているかについて紹介します。
また、独学しながら(ほぼ初めて)Pythonで開発する中で、うまくいったところ、ハマったところ、乗り越えてきたところなど、自分なりに学んだところや感じたところを共有したいと思います。
目的
データ分析業務で必要とされるデータマネジメントのタスクを理解できる。
ツールを使ってデータマネジメントを実施することができるようになる。
概要
Pythonがデータ分析と相性がいいのは皆さんご存知の通りですが、実際のデータ分析の現場では、データ分析以外にもデータの調査、チェック、共有など、さまざまなデータマネジメント(管理)業務が発生します。この業務は、大量かつ多様なデータを扱わなければならないビッグデータの環境では非常に大きな負荷になります。
また、データの活用のためには、データそのものだけではなく、データや分析に関連するナレッジの共有も必要になってきます。
これらの手間のかかるデータ管理のタスクを省力化・自動化しつつ、分析に必要なナレッジを共有するためのツールをPythonで開発しました。本ツールはOSSとして公開されています(5月公開)。
* [Hecatoncheir: The Data Stewardship Studio](https://github.com/snaga/Hecatoncheir)
* [ Hecatoncheir: The Data Stewardship Studio 0.8を公開しました](http://pgsqldeepdive.blogspot.jp/2017/05/hecatoncheir-data-stewardship-studio.html)
本セッションでは、なぜDBエンジニアがデータマネジメントツールを開発する必要があったのか、どのようなことができるのか、実際にどのように使われているのか、などについてご紹介します。
また、(ほぼ初めて)Pythonで開発するようになって1年ほど経ちました。今振り返って、うまくいったところ、ハマったところ、乗り越えてきたところなど、自分なりに学んだところや感じたところを共有したいと思います。