Talk Submission

If you are interested in attending this talk at PyCon JP 2016, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.

talk

Pythonで大量データ処理!楽しいPySpark入門(ja)

Speakers

chie hayashida

Audience level:

Intermediate

Category:

Distributed Computing

Description

Apache Sparkという、大量データ処理と機械学習を行うことができるライブラリと、そのアーキテクチャの説明を行います。また、RettyでのSpark事例をご紹介します。最新のPySpark開発状況や海外カンファレンスの温度感も含めてお伝えしたいと思います。

Objectives

PySparkを用いたビッグデータ処理や機械学習について学ぶことができます。

Abstract

昨今、複雑な大量データ処理を行うライブラリとして、Apache Sparkがもてはやされており、データサイエンスやストリーミングも含め、様々な場面で活用されています。 Sparkは、pandasで扱うことが難しい、数GB以上といった大量データの処理を行うのに適したライブラリです。 本体はScalaで開発されていますが、Pythonインターフェースが用意されており、PySparkの利用者割合は、年々増加しております。 Sparkのアーキテクチャの解説を行うとともに、活発化するPySparkの最新動向もお伝えします。
  • このエントリーをはてなブックマークに追加
CONTACT