Item type |
Symposium(1) |
公開日 |
2016-10-28 |
タイトル |
|
|
タイトル |
強化学習を用いた効率的な和了を行う麻雀プレイヤ |
タイトル |
|
|
言語 |
en |
|
タイトル |
Computer Mahjong Players with Effective Winning Strategies Based on Reinforcement Learning |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学工学系研究科 |
著者所属 |
|
|
|
東京大学工学系研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, The University of Tokyo |
著者名 |
水上, 直紀
鶴岡, 慶雅
|
著者名(英) |
Mizukami, Naoki
Tsuruoka, Yoshimasa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本論文では強化学習を用いた麻雀プレイヤを構築する方法について述べる.初めに手牌から和了点数を予測するモデルを生成した牌譜から学習する.このモデルの結果と期待最終順位を用いて効率的な和了を行う手をプログラムは選択する.このモデルの結果と期待最終順位を用いて効率的な和了を行う手をプログラムは選択する.得られたプログラムは高い点数を和了する技術を獲得したものの,自己対戦の結果は元のプログラムに勝ち越すことはできなかった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper describes a method for building a mahjong program using reinforcement learning. We train models that predict winning scores of a player's hands using game records that are generated by our program. Our program decides moves based on the outputs of the prediction models and the expected final ranks. The program has obtained a skill for winning with high scores, but the evaluation results of self-play is lower than those of the original program. |
書誌情報 |
ゲームプログラミングワークショップ2016論文集
巻 2016,
p. 81-88,
発行日 2016-10-28
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |