プロポーザル

これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。

talk

Experience Replay Bufferの実装(ja)

スピーカー

Yusuke Suwa

対象レベル：

中級

カテゴリ：

Best Practices/Patterns

説明

昨今の強化学習アルゴリズムでは学習の安定化のためにExperience Replay Buffer(ERB)が使われる。ERBにはエージェントが経験した環境や行動データを蓄積し、それらをランダムに抜き出して学習に利用する。ERBのサイズは数百万オーダに至るため、メモリを圧迫せずかつ高速にデータを取り出す仕組みが必要となる。本発表ではThreadingを用いた実装を紹介する。

目的

Experience Replay Bufferをナイーブに実装すると、ハイスペックなPCを使用していない限りは学習の低速化やメモリオーバフローを引き起こす。本発表を見ることで、聴講者は一般的なラップトップPC場においても Deep Q Networkのようなアルゴリズムを用いた強化学習を動作させる音ができる。

概要

　近年提案されている Deep Q Networkベースの強化学習手法ではExperience Replay Buffer(ERB)が使用されている。　ERBにはエージェントが経験した環境やそれに対する行動、得られた報酬などを蓄積しておき、価値関数をERBからランダムに抽出した経験に基づき学習させる。ERBに蓄積される経験の数は数十万から数百万オーダに至ることから、ERBのサイズがPCのメモリ容量を上回ることが容易にありえる。　そこで、本発表では一般的なラップトップPC上でも十分に動作するERBの実装について述べる。