Item type |
Symposium(1) |
公開日 |
2022-11-04 |
タイトル |
|
|
タイトル |
3 × 3盤面の2048の完全解析と強化学習の研究 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Strongly Solving 2048 on 3 × 3 Board and Performance Evaluation of Reinforcement Learning Agents |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
game2048 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
完全解析 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
AlphaZero |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学大学院総合文化研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Arts and Sciences, The University of Tokyo |
著者名 |
山下, 修平
金子, 知適
中屋敷, 太一
|
著者名(英) |
Shuhei, Yamashita
Tomoyuki, Kaneko
Taichi, Nakayashiki
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
1 人用ゲーム2048 は強化学習手法の性能の評価の題材として適している.これまで行われてきた得点による評価に加えて,最適方策との比較を定量的に行えるとより良い.そこで本研究では2048 を3 × 3 盤面に縮小したゲームであるミニ2048 を考案した.ミニ2048 はオリジナルの2048 の興味深い性質を受け継ぎつつ,盤面の小ささから完全解析を行うことができる.完全解析ではミニ2048 の状態数,最適方策に従ったときに得られる得点などの指標に加えて遷移モデルを少し変更したときの変化についても調査する.さらにミニ2048 においてStochastic MuZero を簡略化した手法でエージェントを学習させ,その性能を最適方策との一致率で評価した.最後に最善手と最悪手の期待得点の差が大きい盤面を集中的に学習することがエージェントの学習に重要なことを示した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The single-player game 2048 is an interesting target for the evaluation of reinforcement learning methods. While one usually measures the average scores to show the learning efficiency of a method, it would be beneficial if one could additionally show the distance to an optimal policy. Toward this end, this paper presents mini2048, a small variant of 2048 with a 3x3 board. While mini2048 inherits interesting properties from the original 2048, we can strongly solve the game thanks to its smaller board size. We report the statistics of the game and the score achieved by the optimal strategies, including their changes along with a slight modification of transition dynamics. Moreover, we trained agents with a simplified version of Stochastic MuZero in mini2048 and evaluated its effectiveness by the rate of agreement with optimal strategies. Finally, we showed it is important for agents to intensively learn such a state that the difference in the expected return between the best and worst actions is limited. |
書誌情報 |
ゲームプログラミングワークショップ2022論文集
巻 2022,
p. 1-8,
発行日 2022-11-04
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |