応募トーク

これは応募されたトークです。聞きたいと思うトークをSNSで拡散しましょう。選考時に参考にさせていただきます。

talk

Pythonで入門するApache Spark(ja)

スピーカー

Tatsuya Atsumi

対象レベル：

中級

カテゴリ：

Big Data

説明

現在、世界的に普及が進んでいる大規模分散処理フレームワークのApache Sparkについて、その基礎及び、Python APIを通じた各種ライブラリの使い方について、Sparkについて触れた事がない方でもわかるように基本から解説します。 Sparkは集計処理のような従来の操作のほか、機械学習のような複雑なワークロードにも対応しているため、様々な大規模分散処理を簡単に実装することが可能になります。

目的

Apache Sparkの基本的な概念及び基礎的な使い方について学習することができます。また、Sparkが用意する各種ライブラリ（MLlib、Spark SQLなど）についても学べるようにします。Sparkの知識を身につける事により、業務で行っているデータ処理を効率的にするための選択肢を増やしていただければ幸いです。

概要

Apache Sparkは2013年にApache Software Foundationに寄贈されて以来、Hadoop MapReduceに変わる新たな大規模分散処理フレームワークとして急速な進化と普及を続けています。 Sparkは早くからPythonを重要な言語と位置付けており、Scala, Javaに加えPythonのAPIが公式から提供されています。そのため、JavaやScalaといった言語の経験がない方でも手軽に大規模分散処理を実装することができる点も非常に魅力的です。また、Sparkには近年のAIブームにより注目を集めている機械学習を扱うためのライブラリであるMLlibや、SQLで処理を記述するためのSpark SQL、ストリーミング処理を記述するSpark Streamingなど、近年のトレンドに応じたライブラリが公式に提供されているため、単純な集計処理以外にも様々なワークロードに対応することが可能です。本講演では、Python APIを通じてApache Sparkの使い方及び各種ライブラリの使い方について基本からご説明いたします。