プロポーザル
これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。
talk
PythonとHadoopで作るデータ分析環境(ja)
スピーカー
Katsunori Kanda
対象レベル:
初級
カテゴリ:
Big Data
説明
データ処理に関わるツールはPythonで実装されていることが多いですが、HadoopエコシステムはJVM上で動作するものが多いためPythonからの接続が問題になることが多いです。このTalkではHadoopエコシステムを中心としたデータ分析環境においてPythonを利用した場合におきる問題とその対策をお伝えします。
目的
データエンジニアが抱える課題をPythonを使ってどのように解決するのか?とくに、「PythonからHDFS(secure mode)に接続するときに起きる問題とその対策」と「データ処理を並列化するためにコンテナをどう使えばよいか」について理解が深まります。
概要
株式会社サイバーエージェント アドテクスタジオでは、マルチテナント化されたHadoopを中心としたデータ分析環境を構築おり、分析環境を利用するためのCLIツールやワークフロー管理など多くのシステムでPythonを利用しています。
このtalkでは、データ分析環境の構築に際して生じるデータに関わる問題の解決にむけてPythonをどのように利用したかを事例を交えながら解説します。