プロポーザル
これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。
talk
Experience Replay Bufferの実装(ja)
スピーカー
Yusuke Suwa
対象レベル:
中級
カテゴリ:
Best Practices/Patterns
説明
昨今の強化学習アルゴリズムでは学習の安定化のためにExperience Replay Buffer(ERB)が使われる。ERBにはエージェントが経験した環境や行動データを蓄積し、それらをランダムに抜き出して学習に利用する。ERBのサイズは数百万オーダに至るため、メモリを圧迫せずかつ高速にデータを取り出す仕組みが必要となる。本発表ではThreadingを用いた実装を紹介する。
目的
Experience Replay Bufferをナイーブに実装すると、ハイスペックなPCを使用していない限りは学習の低速化やメモリオーバフローを引き起こす。本発表を見ることで、聴講者は一般的なラップトップPC場においても Deep Q Networkのようなアルゴリズムを用いた強化学習を動作させる音ができる。
概要
近年提案されている Deep Q Networkベースの強化学習手法ではExperience Replay Buffer(ERB)が使用されている。
ERBにはエージェントが経験した環境やそれに対する行動、得られた報酬などを蓄積しておき、価値関数をERBからランダムに抽出した経験に基づき学習させる。ERBに蓄積される経験の数は数十万から数百万オーダに至ることから、ERBのサイズがPCのメモリ容量を上回ることが容易にありえる。
そこで、本発表では一般的なラップトップPC上でも十分に動作するERBの実装について述べる。