Talk Proposal Submission

If you are interested in attending this talk at PyCon JP 2017, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.

talk

Experience Replay Bufferの実装(ja)

Speakers

Yusuke Suwa

Audience level:

Intermediate

Category:

Best Practices/Patterns

Description

昨今の強化学習アルゴリズムでは学習の安定化のためにExperience Replay Buffer(ERB)が使われる。ERBにはエージェントが経験した環境や行動データを蓄積し、それらをランダムに抜き出して学習に利用する。ERBのサイズは数百万オーダに至るため、メモリを圧迫せずかつ高速にデータを取り出す仕組みが必要となる。本発表ではThreadingを用いた実装を紹介する。

Objectives

Experience Replay Bufferをナイーブに実装すると、ハイスペックなPCを使用していない限りは学習の低速化やメモリオーバフローを引き起こす。本発表を見ることで、聴講者は一般的なラップトップPC場においても Deep Q Networkのようなアルゴリズムを用いた強化学習を動作させる音ができる。

Abstract

 近年提案されている Deep Q Networkベースの強化学習手法ではExperience Replay Buffer(ERB)が使用されている。  ERBにはエージェントが経験した環境やそれに対する行動、得られた報酬などを蓄積しておき、価値関数をERBからランダムに抽出した経験に基づき学習させる。ERBに蓄積される経験の数は数十万から数百万オーダに至ることから、ERBのサイズがPCのメモリ容量を上回ることが容易にありえる。  そこで、本発表では一般的なラップトップPC上でも十分に動作するERBの実装について述べる。
  • このエントリーをはてなブックマークに追加
CONTACT