Presentation: Pythonで大量データ処理！PySparkを用いたデータ分析のきほん

Friday 11:30 a.m.–noon

Room 202 #pyconjp_202

Pythonで大量データ処理！PySparkを用いたデータ分析のきほん

chie hayashida

Audience level:: Intermediate
Category:: Distributed Computing
Slide:: https://speakerdeck.com/chie8842/pythondeda-liang-detachu-li-pysparkwoyong-itadetachu-li-tofen-xi-falsekihon
Video:: https://youtu.be/CfX2aqpOR_E

Description

昨今では大量データの分析や機械学習のニーズが増えています。Apache Sparkは、高度なCPUやメモリ利用の効率化が行われた並列分散処理フレームワークとして、ビッグデータアーキテクトやデータサイエンティストの中で最も注目を浴びるプロダクトの一つとなっています。しかしながら、Sparkをきちんと扱うためには、分散処理における勘所を理解する必要があります。本発表では、Sparkをこれから始めるという人も、すでに導入しているという人にもわかりやすく、Sparkのアーキテクチャを説明します。また、PySparkを用いた分析基盤の開発と実運用を通してのはまりどころを紹介します。

Abstract

# Sparkについて Sparkは、pandasで扱うことが難しい、数GB以上といった大量データの処理を行うのに適したライブラリです。 1つのライブラリでリスト処理やSQLライクな処理を行うことができ、機械学習やストリーム処理を行うAPIも用意されています。米国で毎年行われているSparkSummitでは、今年の参加人数は3000人を超え、ディープラーニングの事例なども多数報告されています。 SparkにはPython以外に、Scala、Java、R等のインタフェースがありますが、データサイエンス場面での利用により、PySparkユーザの割合が拡大しています。講演前半においては、大量データをどうやって効率的に処理するのか、そのアーキテクチャを紐解いて解説します。 # RettyにおけるPySpark事例について Rettyでは、ユーザ数が急増しており、日々拡大するデータに対する複雑な分析に対応するため、次世代分析基盤を構築しました。この際、PySparkを用いたETL処理でスケーラブルなアーキテクチャを実現しています。講演後半においては、 * なぜPySparkを選んだのか * スケーラブルなアーキテクチャを実現するための工夫 * 時系列データの複雑な処理に関するノウハウ * パフォーマンス・チューニングのノウハウなど、Rettyの分析基盤におけるPySparkを用いた開発と実運用を通しての知見をお伝えします。