Friday 11:30 a.m.–noon
Room 202 #pyconjp_202Pythonで大量データ処理!PySparkを用いたデータ分析のきほん
chie hayashida
- Audience level:
- Intermediate
- Category:
- Distributed Computing
- Slide:
- https://speakerdeck.com/chie8842/pythondeda-liang-detachu-li-pysparkwoyong-itadetachu-li-tofen-xi-falsekihon
- Video:
- https://youtu.be/CfX2aqpOR_E
Description
昨今では大量データの分析や機械学習のニーズが増えています。Apache Sparkは、高度なCPUやメモリ利用の効率化が行われた並列分散処理フレームワークとして、ビッグデータアーキテクトやデータサイエンティストの中で最も注目を浴びるプロダクトの一つとなっています。しかしながら、Sparkをきちんと扱うためには、分散処理における勘所を理解する必要があります。本発表では、Sparkをこれから始めるという人も、すでに導入しているという人にもわかりやすく、Sparkのアーキテクチャを説明します。また、PySparkを用いた分析基盤の開発と実運用を通してのはまりどころを紹介します。
Abstract
# Sparkについて
Sparkは、pandasで扱うことが難しい、数GB以上といった大量データの処理を行うのに適したライブラリです。
1つのライブラリでリスト処理やSQLライクな処理を行うことができ、機械学習やストリーム処理を行うAPIも用意されています。
米国で毎年行われているSparkSummitでは、今年の参加人数は3000人を超え、ディープラーニングの事例なども多数報告されています。
SparkにはPython以外に、Scala、Java、R等のインタフェースがありますが、データサイエンス場面での利用により、PySparkユーザの割合が拡大しています。
講演前半においては、大量データをどうやって効率的に処理するのか、そのアーキテクチャを紐解いて解説します。
# RettyにおけるPySpark事例について
Rettyでは、ユーザ数が急増しており、日々拡大するデータに対する複雑な分析に対応するため、次世代分析基盤を構築しました。
この際、PySparkを用いたETL処理でスケーラブルなアーキテクチャを実現しています。
講演後半においては、
* なぜPySparkを選んだのか
* スケーラブルなアーキテクチャを実現するための工夫
* 時系列データの複雑な処理に関するノウハウ
* パフォーマンス・チューニングのノウハウ
など、Rettyの分析基盤におけるPySparkを用いた開発と実運用を通しての知見をお伝えします。