WEKO3
-
RootNode
アイテム
局面評価の学習を目指した探索結果の最適制御
https://ipsj.ixsq.nii.ac.jp/records/97627
https://ipsj.ixsq.nii.ac.jp/records/9762769c96f5b-2e32-452c-b2c4-e84b98b4fa5d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-11-10 | |||||||
タイトル | ||||||||
タイトル | 局面評価の学習を目指した探索結果の最適制御 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Optimal control of minimax search results to learn positional evaluation | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
資源タイプ | conference paper | |||||||
著者所属 | ||||||||
東北大学大学院理学研究科化学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Chemistry, Graduate School of Science, Tohoku University. | ||||||||
著者名 |
保木, 邦仁
× 保木, 邦仁
|
|||||||
著者名(英) |
Hoki, Kunihito
× Hoki, Kunihito
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 将棋プログラムBonanzaの思考アルゴリズムの主要な特徴の一つである,局面評価の機械学習に関する手法を紹介する.これの手法では,minimax探索の振る舞いを決める特徴ベクトルの自動学習を目指す.熟練した人間の棋譜との指し手一致の度合いを図る目的関数を設計し,これに停留値を与える静的評価関数f(v)の特徴ベクトルvを求める.さらに,v=0となる自明な解の除去や,棋譜サンプル数の不足に起因するオーバーフィッティングを回避するため,ラグランジュ未定乗数法を用いて目的関数に拘束条件を課す.目的関数の停留値は静的評価関数の勾配∇f(v)を用いて探索される.これは,古くから知られている最適制御理論の枠組みに沿った手法である.しかし,約6万局の学習データから1万以上の要素を持つ特徴べくとるを生成し,駒割に加え序盤の駒組,中盤の駒の動き,終盤の速度計算等の複雑な盤面特徴の把握が必要とされる将棋において,有効に働く局面評価関数が生成された.筆者に知る限り,本稿で提案される手法は,チェスやその変種の静的評価関数の自動学習法として”実用に耐え,役に立つ”初めてのものである. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | A new machine learning scenario in Shogi is presented for obtaining the optimal evaluation function f(v) of a feature vector v in accord with a set of game-records between expert players. This is carried out by designing an objective function that takes the minimum value when minimax search results agree with the records. The Lagrange's method of undetermined multiplier is applied to seek the optimal feature vector subjects to constraints. Here, the constraints are introduced to remove trivial solution, v=0, and to avoid overfitting of the model that has insufficient number of the records. A solution that gives a stationary value to the objective function is searched by means of the gradient of the evaluation function, ∇f(v). The learning scenario is proposed within a simple framework of the optimal control theory. However, the designed evaluation function f(v) can deal with really complicated positional features in Shogi by tuning a large feature vector having more than ten thousand elements from among of sixty thousand of game-records. The tuned evaluation function is used by the 16th world computer Shogi champion, Bonanza. | |||||||
書誌情報 |
ゲームプログラミングワークショップ2006論文集 巻 2006, p. 78-83, 発行日 2006-11-10 |
|||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |