プロポーザル
これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。
talk
pythonで作るニュースレコメンドエンジン(ja)
スピーカー
Miyabi Gouji
対象レベル:
初級
カテゴリ:
Big Data
説明
毎日500万件以上のログデータを処理し、リアルタイムに記事を推薦するエンジンを作りました。ユーザーの行動分析, A/Bテストの分析などのフローも交えて紹介します。
目的
データ処理方法や開発に関する注意点と苦労話と解決策を共有すること
概要
ニュース記事のレコメンドAPIをdjangoで実装しました。ユーザーの行動分析、レコメンドエンジンの開発、A/Bテストの分析までのフローと合わせてデータ処理時の苦労話や注意点を紹介します。
主に以下のトピックについて話します.
### アクセスログ収集
- データの前処理
アクセスログを活発に利用する環境が整っておらず、膨大なログをどのように扱うのかというノウハウがまったくない状態から地道にパーサーを作っていきました。
分析フェーズでは、新聞ならではのユーザー行動に悩まされました。
- 集計バッチ
1日600万件以上のログを集計するための工夫について話します
### レコメンドエンジン
- 精度と計算量
常に最新のニュースを推薦するために、事前バッチで記事を計算せず、リアルタイムレコメンドにこだわりました。
- 負荷
通勤時間などニュースサイトならではの集中的なアクセスに対してどのように対処したのかを話します。