Item type |
Symposium(1) |
公開日 |
2016-10-28 |
タイトル |
|
|
タイトル |
UCTにおけるPrior Knowledgeと方策学習を用いた個性の実現 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Implementation of Playing Style by Prior Knowledge and Learning of Playout Policy in UCT |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学大学院総合文化研究科 |
著者所属 |
|
|
|
東京大学大学院総合文化研究科 |
著者所属(英) |
|
|
|
en |
|
|
Department of General Systems Studies, Graduate School of Arts and Sciences, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Department of General Systems Studies, Graduate School of Arts and Sciences, The University of Tokyo |
著者名 |
渡辺, 順哉
金子, 知適
|
著者名(英) |
Junya, Watanabe
Tomoyuki, Kaneko
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,囲碁においてコンピュータプレイヤAlphaGoが世界トップ棋士の一人である李セドルに勝利した[11].囲碁を始めとする様々なゲームにおいてコンピュータプレイヤの強さはプロレベルに達し,個性に関する研究に期待が持たれている.本研究では,広く用いられている探索手法であるUCTの囲碁における個性の実現を目標とする.UCTでの個性の実現にはprior knowledgeとプレイアウト方策の調整が必要である.前者についてはどうぶつ将棋を題材とした先行研究がある[1].この先行研究ではprior knowledgeを用いることで指し手に特徴を持つプレイヤの実現に成功しているが,本来勝率が低いノードを高評価することでプレイヤが弱くなってしまう問題点がある.強さの調整には様々な手法が考えられるが,方策学習によって強さを調整し個性を実現する研究は行われていない.そこで,本研究ではUCTバランシング[2]という学習法とprior knowledgeを組み合わせ,探索全体でのバランスを調整し個性を実現することを提案する.また,強さの具体的な調整手法として,学習局面を調整することを提案する.実験結果から,prior knowledgeによって囲碁における打ち手に特徴が現れること,方策学習の局面数を調整することで強さが制御できることが確認された.また,提案手法で学習した方策を用いることで,対戦の段階でprior knowledgeを用いない場合においても着手が特徴を持つ傾向があることが分かった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Computer player AlphaGo won Lee Sedol, who is one of the world's top player [11]. The strength of the computer player has reached the professional level in variety of games. So, research of playing styles is expected. In this paper, we aim the realization of playing styles by using UCT which is a search method widely used in Go. To realize playing styles in UCT, it is necessary to use prior knowledge and to learn a playout policy. In the previous research on Dobutsu-shogi [1], only prior knowledge is adjusted. Although this previous research realized playing styles by using prior knowledge, there is a problem that the strength of players becomes low by highly evaluating originally low wining percentage nodes. The strength can be adjusted by various methods, but research have not been conducted to realize the adjustment and playing styles by learning a playout policy. In this paper, we propose to realize playing styles to adjust the balance of entire search by combining UCT balancing [2] and prior knowledge. Furthermore, we propose to adjust the number of potisions in the training example to control the strength of computer players. Experimental results shows that it is possible to adjust strength by adjusting the number of learning potisions and to realize playing style by prior knowledge in Go. It is also con rmed that a playing style can be realized by learning of playout policy, without giving prior knowledge toward the style. |
書誌情報 |
ゲームプログラミングワークショップ2016論文集
巻 2016,
p. 141-148,
発行日 2016-10-28
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |