プロポーザル

これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。

talk

PythonとHadoopで作るデータ分析環境(ja)

スピーカー

Katsunori Kanda

対象レベル:

初級

カテゴリ:

Big Data

説明

データ処理に関わるツールはPythonで実装されていることが多いですが、HadoopエコシステムはJVM上で動作するものが多いためPythonからの接続が問題になることが多いです。このTalkではHadoopエコシステムを中心としたデータ分析環境においてPythonを利用した場合におきる問題とその対策をお伝えします。

目的

データエンジニアが抱える課題をPythonを使ってどのように解決するのか?とくに、「PythonからHDFS(secure mode)に接続するときに起きる問題とその対策」と「データ処理を並列化するためにコンテナをどう使えばよいか」について理解が深まります。

概要

株式会社サイバーエージェント アドテクスタジオでは、マルチテナント化されたHadoopを中心としたデータ分析環境を構築おり、分析環境を利用するためのCLIツールやワークフロー管理など多くのシステムでPythonを利用しています。 このtalkでは、データ分析環境の構築に際して生じるデータに関わる問題の解決にむけてPythonをどのように利用したかを事例を交えながら解説します。
  • このエントリーをはてなブックマークに追加
CONTACT