Talk Proposal Submission
If you are interested in attending this talk at PyCon JP 2017, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.
talk
Pythonで始めるデータマネジメント(ja)
Speakers
Satoshi Nagayasu
Audience level:
Novice
Category:
Big Data
Description
今回紹介するツール「Hecatoncheir: The Data Stewardship Studio」はデータマネジメントのためのOSSのツールです。
このツールを使うことでデータ管理業務のタスクを容易に実施することができるようになります。
この発表では、なぜこのツールが必要だったのか、どのように実現したのか、どのように使っているかについて紹介します。
また、独学しながら(ほぼ初めて)Pythonで開発する中で、うまくいったところ、ハマったところ、乗り越えてきたところなど、自分なりに学んだところや感じたところを共有したいと思います。
Objectives
データ分析業務で必要とされるデータマネジメントのタスクを理解できる。
ツールを使ってデータマネジメントを実施することができるようになる。
Abstract
Pythonがデータ分析と相性がいいのは皆さんご存知の通りですが、実際のデータ分析の現場では、データ分析以外にもデータの調査、チェック、共有など、さまざまなデータマネジメント(管理)業務が発生します。この業務は、大量かつ多様なデータを扱わなければならないビッグデータの環境では非常に大きな負荷になります。
また、データの活用のためには、データそのものだけではなく、データや分析に関連するナレッジの共有も必要になってきます。
これらの手間のかかるデータ管理のタスクを省力化・自動化しつつ、分析に必要なナレッジを共有するためのツールをPythonで開発しました。本ツールはOSSとして公開されています(5月公開)。
* [Hecatoncheir: The Data Stewardship Studio](https://github.com/snaga/Hecatoncheir)
* [ Hecatoncheir: The Data Stewardship Studio 0.8を公開しました](http://pgsqldeepdive.blogspot.jp/2017/05/hecatoncheir-data-stewardship-studio.html)
本セッションでは、なぜDBエンジニアがデータマネジメントツールを開発する必要があったのか、どのようなことができるのか、実際にどのように使われているのか、などについてご紹介します。
また、(ほぼ初めて)Pythonで開発するようになって1年ほど経ちました。今振り返って、うまくいったところ、ハマったところ、乗り越えてきたところなど、自分なりに学んだところや感じたところを共有したいと思います。