Item type |
Symposium(1) |
公開日 |
2017-11-03 |
タイトル |
|
|
タイトル |
強化学習を用いた評価関数の作成手法の信頼性の分析 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Analysis of Reliability of Methodology for Building Value Function using Reinforcement Learning |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
optimal value function |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
どうぶつしょうぎ |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
reinforcement learning |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
self-play |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学教養学部 |
著者所属 |
|
|
|
東京大学大学院総合文化研究科 |
著者所属(英) |
|
|
|
en |
|
|
College of Arts and Sciences、The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Arts and Sciences, The University of Tokyo |
著者名 |
嶽, 俊太郎
金子, 知適
|
著者名(英) |
Shuntaro, Take
Tomoyuki, Kaneko
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ゲームAI分野において,自己対戦により強化学習を行って評価関数を作成する手法は,AlphaGoに代表されるように大きな成功を収めてきた. しかし,強化学習で学習した評価関数は,当然のことながら最適価値関数とは限らず,また最適価値関数からどの程度離れているかもわからない. この研究では、強化学習により学習した評価関数が、最適評価関数と比べてどの程度精度の面で離れているか一定の判断基準を与えることを目的とする. 実験は最適評価関数が解析されているどうぶつしょうぎを用いて行う. 完全解析データにノイズを加えて学習させた評価関数を強化学習による評価関数と見立て,これと最適評価関数との精度を比較をする. 実験から,評価関数のモデルの種類によっては40%のノイズを加えても精度があまり落ちず,想定していたよりもノイズに対して頑丈であることを示す結果が得られた. また,より高度なモデルの方がノイズの影響を受けやすいことを示唆する結果も得られた. この結果は,より高度で正確な評価関数を作成・学習させるには,学習データの精度もより正確でなければならないということ指し示していると考えることができる. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In the field of Game AI, the methodology of making a value function with reinforcement learning (RL) using self-play has been successful including AlphaGo's achievement of defeating human world-top-level Go player. Understandably, however, the value functions learned in the reinforcement learning do not have to be the optimal one, nor is it clear how much they are close to it. The purpose of this study is to give a certain criteria to judge how accurate, compared to the optimal, the value functions learned by RL are. The experiment is held by using Dobutsu shogi (animal chess), whose optimal value function has been completely analyzed and databased. We regard value functions learned with noised data from the complete database as the ones learned by RL. Then we compare their accuracies with the optimal ones. It is found that the functions are more noise-robust than expected, some of which are immune to even 40 percent noise. Also, results imply that the more sophisticated model the more brittle to noise. Accordingly, it may be said that models need more accurate training data as they become more complex and sophisticated. |
書誌情報 |
ゲームプログラミングワークショップ2017論文集
巻 2017,
p. 250-257,
発行日 2017-11-03
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |