木曜日 3:25 p.m.–4:10 p.m.

Room 202 #pyconjp_202

pandasによる時系列データ処理

Masaaki Horikoshi

対象レベル:
中級
カテゴリ:
Science
スライド:
slide https://speakerdeck.com/sinhrks/pyconjp-2016-pandas-niyoru-shi-xi-lie-detachu-li
ビデオ:
video https://youtu.be/TO0iHGEHLBM?list=PLMkWB0UjwFGlYvIcvKsGhJ7SJIODj_zJZ

説明

データ分析ライブラリであるpandasを利用して、時系列データのグループ化や集計、サンプリングなどの処理を簡単・高速に行う方法を説明します。また、統計解析パッケージであるstatsmodelsを用いて簡単な時系列モデリングを行います。

概要

データ分析では売上データやログデータなどの時系列での傾向を分析したいことがあります。こういった時系列のデータについて、データ分析ライブラリであるpandasを利用してグループ化や集計、サンプリングなどの処理を簡単・高速に行う方法を説明します。pandasでは以下のような処理を少ないコード量で直感的に記述することができます。 - 日時文字列のパース処理 - 適当な日時単位(年月, 四半期...)でのグループ化、集計 - サンプリング、フィルタ (移動平均など) - タイムゾーン - 可視化 また、API上の利便性と処理のパフォーマンスを両立するために行っているデータの内部表現と内部処理についてもご説明します。 最後に、統計解析パッケージであるstatsmodelsを用いて簡単な時系列モデリングを行い、 時系列中のトレンドや季節性を抽出するとともに、将来の予測を行います。
  • このエントリーをはてなブックマークに追加