応募トーク

これは応募されたトークです。聞きたいと思うトークをSNSで拡散しましょう。選考時に参考にさせていただきます。

talk

野球を科学するための技術〜Pythonではじめるセイバーメトリクスと分析基盤構築(ja)

スピーカー

Shinichi Nakagawa

対象レベル:

中級

カテゴリ:

Science

説明

スポーツ統計学の統計モデルをPythonで実現する方法について紹介します.スクレイピング(Scrapy,Beautifulsoup),データパイプライン(Airflow),可視化ツール(Jupyter,Redashなど)を駆使し,野球統計学「セイバーメトリクス」を用いた野球選手の評価方法について解説いたします.

目的

野球統計学「セイバーメトリクス」によるプロ野球選手の評価方法と実現方法. データパイプラインを用いてデータ収集から可視化まで一気通貫で行えるプロダクトを作るためのノウハウ(Docker + GCPを使う予定です), Scrapy,Airflowなど,Pythonライブラリの用い方.

概要

# 野球を科学するための技術〜Pythonではじめるセイバーメトリクスと分析基盤構築 ## Python使いとして 今年(2017)1月から新しいチーム(Retty)にJOIN後,Luigiなどを用いたPythonベースのデータパイプラインを用いる機会が増えました. データ収集から前処理・分析および可視化という割と誰でも興味ある・やりそうなテーマではありますが,案外実践事例が無いのでは?と思い,私がライフワークとしている野球で試して公開してみることにしました. このセッションではPyCon JP 2015で発表した「[野球Hack!〜Pythonを用いたデータ分析と可視化][1]」で発表した「オレオレ野球分析基盤」をScrapy,Airflow,Redashなどを用いて構築した時のノウハウを紹介いたします. ## セイバーメトリシャン(野球統計学ファン)として また,セイバーメトリクス(野球統計学)にて,現在主流として取り扱われている以下の概念と指標についての紹介いたします(Pythonでの算出方法を含める). * Linear Weights(得点期待値と得点価値) * wOBA * wRAA これらを野球統計学の概念を含め紹介いたします. ## 参考資料 * [ScrapyとRedashではじめる野球統計学(PyCon mini Kumamoto2017発表資料)][2] ## Keyword * Webスクレイピング(Scrapy,Beautifulsoup) * データパイプライン(Airflow) * 分析と可視化(Jupyter,Redash) * Cloud・インフラ(GCP,Dockerほか) * セイバーメトリクス(RC,wOBA,wRAA,DIPS, FIP, WARほか) [1]: https://pycon.jp/2015/ja/schedule/presentation/67/ [2]: https://speakerdeck.com/shinyorke/scrapytoredashdehazimeruye-qiu-tong-ji-xue-number-pyconkuma
  • このエントリーをはてなブックマークに追加
CONTACT