Item type |
Symposium(1) |
公開日 |
2018-11-05 |
タイトル |
|
|
タイトル |
モデルベース深層強化学習における隠れ層を用いた環境遷移モデルの提案 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Introducing an Environment Model based on Hidden States for Model-Based Deep Reinforcement Learning |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
強化学習 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ニューラルネットワーク |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
倉庫番 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学 |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者名 |
水谷, 陽太
鶴岡, 慶雅
|
著者名(英) |
Yota, Mizutani
Yoshimasa, Tsuruoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,深層強化学習の分野において,モデルベース強化学習に関する研究が注目を集めている.環境モデルを学習することで先読みを行うことが可能となり,長期的な計画に基づく方策決定が可能となる.ビデオゲームなどの複雑な環境において,画像を観測として用いる場合,観測を直接予測するような環境モデルを学習するのには莫大な計算コストがかかる.そのため,画像を低次元のベクトル表現に変換し,その表現における次状態の予測をする学習を行う手法がいくつか提案されている.しかし既存の手法における中間表現は,強化学習の目的においては不要なデータを含んでいたり,事前学習を必要とするなど,一長一短であった.本論文では,タスク達成に有用な中間表現を学習すると同時に,その中間表現を用いて次状態予測の学習を行う新しいモデルベース強化学習のアーキテクチャを提案する.提案するアーキテクチャは,表現の獲得と次状態予測,方策決定の全てをend-to-end で効率的に学習ができ,比較的小さな計算コストで長期的な計画に基づく方策決定を行うことが可能である.実験により,ビデオゲームの深層強化学習において提案手法を用いることで効果的な学習を行えることを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Today, research about model-based deep reinforcement learning is attracting a lot of attention. These algorithms allow agents to predict future states and plan for the future. With complex environments such as video games, if raw images are used as observations, calculation cost for predicting the next observation becomes too high. To deal with this problem, there are some methods to convert images into a low dimensional vector, and predict the vector corresponding to the next state. However, these approaches have some disadvantages. For example, some methods need pre-training of representation, or representation of some methods are not optimized for solving the task. In this paper, we introduce a new model-based reinforcement learning architecture using hidden states which are useful for the task. The architecture learns suitable representation, how to predict the next state, and how to decide actions simultaneously and efficiently. The architecture plans for the future with low calculation cost, and achieves a higher score than an existing model free architecture in a video game experiment. |
書誌情報 |
ゲームプログラミングワークショップ2018論文集
巻 2018,
p. 72-79,
発行日 2018-11-09
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |