WEKO3
-
RootNode
アイテム
将棋の駒落ちの強化学習
https://ipsj.ixsq.nii.ac.jp/records/213425
https://ipsj.ixsq.nii.ac.jp/records/213425443178ee-001a-466a-8e5a-4975469a3a65
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2021 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2021-11-06 | |||||||
タイトル | ||||||||
タイトル | 将棋の駒落ちの強化学習 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Reinforcement Learning for Shogi Handicap Games | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 将棋 | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 駒落ち | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 強化学習 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
資源タイプ | conference paper | |||||||
著者名 |
山下, 宏
× 山下, 宏
|
|||||||
著者名(英) |
Hioshi, Yamashita
× Hioshi, Yamashita
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 将棋の駒落ちを人間の知識なしでゼロから深層強化学習した。6 種類の駒落ち (香落、角落、飛落、2 枚落、4 枚落、6 枚落) と平手、の合計 7 種類を同時に学習し、勝率は 5 割になるように下手 (先手) の強さを自動調節した。980 万棋譜を自己対戦で作成した結果、平手から 6 枚落ちまで、上手、下手、どちらを持っても高段者レベルの着手を返す AI ができた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We have developed deep reinforcement learning for Shogi handicap games without human knowledge. Handicaps are seven kinds. Lance(kyo ochi), Bishop(kaku ochi), Rook(hisha ochi), 2-Piece(ni-mai ochi), 4-Piece(yon-mai ochi), 6-Pieces(roku-mai ochi) and No handicap(hirate). Winrate are adjusted to keep 0.5 by weakening Black(shitate or sente) player strength. As a result of creating 9.8 million self-play games, AI could play reasonable moves at the level of a high dan player from No handicap to 6-Piece. | |||||||
書誌情報 |
ゲームプログラミングワークショップ2021論文集 巻 2021, p. 20-27, 発行日 2021-11-06 |
|||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |