プロポーザル
これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。
talk
野球を科学する技術〜Pythonを用いた統計ライブラリ作成と分析基盤構築(ja)
スピーカー
Shinichi Nakagawa(野球の人)
対象レベル:
中級
カテゴリ:
Science
説明
野球の統計モデルをPythonで実現する方法について紹介します.スクレイピング(Scrapy,Beautifulsoup),データパイプライン(Airflow),可視化ツール(Jupyter,Redashなど)を駆使し,野球統計学「セイバーメトリクス」を用いた野球選手の評価方法および,野球統計パッケージ(自作)について解説いたします.
目的
野球統計学「セイバーメトリクス」によるプロ野球選手の評価方法と実現方法.
データパイプラインを用いてデータ収集から可視化まで一気通貫で行えるプロダクトを作るためのノウハウ(Docker + GCPを使う予定です), Scrapy,Airflowなど,Pythonライブラリの用い方.
野球統計パッケージ(自作)の紹介および関連する野球統計モデルの紹介.
概要
# 野球を科学するための技術〜Pythonではじめるセイバーメトリクスと分析基盤構築
## Python使いとして
今年(2017)1月から新しいチーム(Retty)にJOIN後,Luigiなどを用いたPythonベースのデータパイプラインを用いる機会が増えました.
データ収集から前処理・分析および可視化という割と誰でも興味ある・やりそうなテーマではありますが,案外実践事例が無いのでは?と思い,私がライフワークとしている野球で試して公開してみることにしました.
このセッションではPyCon JP 2015で発表した「[野球Hack!〜Pythonを用いたデータ分析と可視化][1]」で発表した「オレオレ野球分析基盤」をScrapy,Airflow,Redashなどを用いて構築した時のノウハウを紹介いたします.
## セイバーメトリシャン(野球統計学ファン)として
また,セイバーメトリクス(野球統計学)にて,現在主流として取り扱われている以下の概念と指標についての紹介いたします(Pythonでの算出方法を含める).
* Linear Weights/Run Value(得点期待値と得点価値)
* wOBA
* wRAA
これらを野球統計学の概念および,野球統計パッケージ(自作)を含め紹介いたします.
## 参考資料
* [ScrapyとRedashではじめる野球統計学(PyCon mini Kumamoto2017発表資料)][2]
## Keyword
* Webスクレイピング(Scrapy,Beautifulsoup)
* データパイプライン(Airflow)
* 分析と可視化(Jupyter,Redash)
* Cloud・インフラ(GCP,Dockerほか)
* セイバーメトリクス(RC,wOBA,wRAA,DIPS, FIP, WARほか)
[1]: https://pycon.jp/2015/ja/schedule/presentation/67/
[2]: https://speakerdeck.com/shinyorke/scrapytoredashdehazimeruye-qiu-tong-ji-xue-number-pyconkuma