Talk Proposal Submission

If you are interested in attending this talk at PyCon JP 2017, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.

talk

Pythonで大量データ処理！PySparkを用いたデータ分析のきほん(ja)

Speakers

chie hayashida

Audience level:

Intermediate

Category:

Distributed Computing

Description

昨今では大量データの分析や機械学習のニーズが増えています。Apache Sparkは、高度なCPUやメモリ利用の効率化が行われた並列分散処理フレームワークとして、ビッグデータアーキテクトやデータサイエンティストの中で最も注目を浴びるプロダクトの一つとなっています。しかしながら、Sparkをきちんと扱うためには、分散処理における勘所を理解する必要があります。本発表では、Sparkをこれから始めるという人も、すでに導入しているという人にもわかりやすく、Sparkのアーキテクチャを説明します。また、PySparkを用いた分析基盤の開発と実運用を通してのはまりどころを紹介します。

Objectives

PySparkを用いたビッグデータ処理や機械学習について学ぶことができます。

Abstract

# Sparkについて Sparkは、pandasで扱うことが難しい、数GB以上といった大量データの処理を行うのに適したライブラリです。 1つのライブラリでリスト処理やSQLライクな処理を行うことができ、機械学習やストリーム処理を行うAPIも用意されています。米国で毎年行われているSparkSummitでは、今年の参加人数は3000人を超え、ディープラーニングの事例なども多数報告されています。 SparkにはPython以外に、Scala、Java、R等のインタフェースがありますが、データサイエンス場面での利用により、PySparkユーザの割合が拡大しています。講演前半においては、大量データをどうやって効率的に処理するのか、そのアーキテクチャを紐解いて解説します。 # RettyにおけるPySpark事例について Rettyでは、ユーザ数が急増しており、日々拡大するデータに対する複雑な分析に対応するため、次世代分析基盤を構築しました。この際、PySparkを用いたETL処理でスケーラブルなアーキテクチャを実現しています。講演後半においては、 * なぜPySparkを選んだのか * スケーラブルなアーキテクチャを実現するための工夫 * 時系列データの複雑な処理に関するノウハウ * パフォーマンス・チューニングのノウハウなど、Rettyの分析基盤におけるPySparkを用いた開発と実運用を通しての知見をお伝えします。