Friday 10:55 a.m.–11:25 a.m.
Room 203 #pyconjp_203野球を科学する技術〜Pythonを用いた統計ライブラリ作成と分析基盤構築
Shinichi Nakagawa(野球の人)
- Audience level:
- Intermediate
- Category:
- Science
- Slide:
- https://speakerdeck.com/shinyorke/ye-qiu-woke-xue-suruji-shu-pythontotong-ji-raiburaritofen-xi-ji-pan-number-pyconjp
- Video:
- https://youtu.be/CtpjQsngFfU
Description
野球の統計モデルをPythonで実現する方法について紹介します.スクレイピング(Scrapy,Beautifulsoup),データパイプライン(Airflow),可視化ツール(Jupyter,Redashなど)を駆使し,野球統計学「セイバーメトリクス」を用いた野球選手の評価方法および,野球統計パッケージ(自作)について解説いたします.
Abstract
# 野球を科学するための技術〜Pythonではじめるセイバーメトリクスと分析基盤構築
## Python使いとして
今年(2017)1月から新しいチーム(Retty)にJOIN後,Luigiなどを用いたPythonベースのデータパイプラインを用いる機会が増えました.
データ収集から前処理・分析および可視化という割と誰でも興味ある・やりそうなテーマではありますが,案外実践事例が無いのでは?と思い,私がライフワークとしている野球で試して公開してみることにしました.
このセッションではPyCon JP 2015で発表した「[野球Hack!〜Pythonを用いたデータ分析と可視化][1]」で発表した「オレオレ野球分析基盤」をScrapy,Airflow,Redashなどを用いて構築した時のノウハウを紹介いたします.
## セイバーメトリシャン(野球統計学ファン)として
また,セイバーメトリクス(野球統計学)にて,現在主流として取り扱われている以下の概念と指標についての紹介いたします(Pythonでの算出方法を含める).
* Linear Weights/Run Value(得点期待値と得点価値)
* wOBA
* wRAA
これらを野球統計学の概念および,野球統計パッケージ(自作)を含め紹介いたします.
## 参考資料
* [ScrapyとRedashではじめる野球統計学(PyCon mini Kumamoto2017発表資料)][2]
## Keyword
* Webスクレイピング(Scrapy,Beautifulsoup)
* データパイプライン(Airflow)
* 分析と可視化(Jupyter,Redash)
* Cloud・インフラ(GCP,Dockerほか)
* セイバーメトリクス(RC,wOBA,wRAA,DIPS, FIP, WARほか)
[1]: https://pycon.jp/2015/ja/schedule/presentation/67/
[2]: https://speakerdeck.com/shinyorke/scrapytoredashdehazimeruye-qiu-tong-ji-xue-number-pyconkuma