Thursday 3:25 p.m.–4:10 p.m.
Room 202 #pyconjp_202pandasによる時系列データ処理
Masaaki Horikoshi
- Audience level:
- Intermediate
- Category:
- Science
- Slide:
- https://speakerdeck.com/sinhrks/pyconjp-2016-pandas-niyoru-shi-xi-lie-detachu-li
- Video:
- https://youtu.be/TO0iHGEHLBM?list=PLMkWB0UjwFGlYvIcvKsGhJ7SJIODj_zJZ
Description
データ分析ライブラリであるpandasを利用して、時系列データのグループ化や集計、サンプリングなどの処理を簡単・高速に行う方法を説明します。また、統計解析パッケージであるstatsmodelsを用いて簡単な時系列モデリングを行います。
Abstract
データ分析では売上データやログデータなどの時系列での傾向を分析したいことがあります。こういった時系列のデータについて、データ分析ライブラリであるpandasを利用してグループ化や集計、サンプリングなどの処理を簡単・高速に行う方法を説明します。pandasでは以下のような処理を少ないコード量で直感的に記述することができます。
- 日時文字列のパース処理
- 適当な日時単位(年月, 四半期...)でのグループ化、集計
- サンプリング、フィルタ (移動平均など)
- タイムゾーン
- 可視化
また、API上の利便性と処理のパフォーマンスを両立するために行っているデータの内部表現と内部処理についてもご説明します。
最後に、統計解析パッケージであるstatsmodelsを用いて簡単な時系列モデリングを行い、
時系列中のトレンドや季節性を抽出するとともに、将来の予測を行います。