応募トーク

これは応募されたトークです。聞きたいと思うトークをSNSで拡散しましょう。選考時に参考にさせていただきます。

talk

Pythonで大量データ処理!楽しいPySpark入門(ja)

スピーカー

chie hayashida

対象レベル:

中級

カテゴリ:

Distributed Computing

説明

Apache Sparkという、大量データ処理と機械学習を行うことができるライブラリと、そのアーキテクチャの説明を行います。また、RettyでのSpark事例をご紹介します。最新のPySpark開発状況や海外カンファレンスの温度感も含めてお伝えしたいと思います。

目的

PySparkを用いたビッグデータ処理や機械学習について学ぶことができます。

概要

昨今、複雑な大量データ処理を行うライブラリとして、Apache Sparkがもてはやされており、データサイエンスやストリーミングも含め、様々な場面で活用されています。 Sparkは、pandasで扱うことが難しい、数GB以上といった大量データの処理を行うのに適したライブラリです。 本体はScalaで開発されていますが、Pythonインターフェースが用意されており、PySparkの利用者割合は、年々増加しております。 Sparkのアーキテクチャの解説を行うとともに、活発化するPySparkの最新動向もお伝えします。
  • このエントリーをはてなブックマークに追加
CONTACT