WEKO3
-
RootNode
アイテム
ローグライクゲームにおける大規模ニューラルネットワークを用いた強化学習の研究
https://uec.repo.nii.ac.jp/records/10022
https://uec.repo.nii.ac.jp/records/10022ce2ccaba-3869-455b-afe2-b3b39cd47621
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2021-05-31 | |||||||||
タイトル | ||||||||||
タイトル | ローグライクゲームにおける大規模ニューラルネットワークを用いた強化学習の研究 | |||||||||
言語 | ja | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_46ec | |||||||||
資源タイプ | thesis | |||||||||
著者 |
若月, 裕樹
× 若月, 裕樹
|
|||||||||
抄録 | ||||||||||
内容記述タイプ | Abstract | |||||||||
内容記述 | ゲーム人工知能の性能は人工知能研究の達成度の指標となっている.これまで,様々なゲームの人工知能が開発されてきたが,開発が未発達のゲームも多々ある.そのようなゲームの1つであり,一般的に難易度が高いゲームとして知られるローグライクゲームを題材に本研究では2つの目的で大規模ニューラルネットワークを用いた強化学習を行った.1つめは既存の人工知能が獲得する収益の期待値の推定を行う学習,2つめはランダムプレイヤを開始点とする人工知能の強化学習である.ここで既存の人工知能には著者が卒業論文執筆のときに制作した人工知能を用いた.大規模ニューラルネットワークには残差ネットワークと呼ばれる構造を用いた.多くの畳み込み層を構造に持つ深層ニューラルネットワークが様々な分野で成果をあげたことは有名だが,畳み込み層を重ねすぎると学習が安定しなくなってしまうという欠点があった.この残差ネットワークは非常に多くの畳み込み層を重ねても問題が起きにくいという画期的な手法である.また,このニューラルネットワークにはローグライクゲームの特徴ともいえる非常に多くの値を特徴として入力しており,マップなどの平面的な情報だけでなく,時間方向も考慮した3次元畳み込みなども行った. 結果として,既存人工知能が獲得する収益の期待値推定に関しては,ニューラルネットワークは学習によって高い推定精度を獲得した.推定精度を決定係数にして計測したところ,おおよそ0.97に達していた.一方で,ランダムプレイヤを開始点とする人工知能の強化学習については学習がうまくいかなかった.ランダムプレイヤよりも良いプレイヤは強化学習によりもたらされなかったが,ハイパーパラメータや学習手法の比較検討を行い,著者が試行錯誤した過程で得た大規模ニューラルネットワークやQ学習におけるいくつかの知見をまとめた. | |||||||||
学位名 | ||||||||||
学位名 | 修士 | |||||||||
学位授与機関 | ||||||||||
学位授与機関名 | 電気通信大学 | |||||||||
学位授与年度 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 2020 | |||||||||
学位授与年月日 | ||||||||||
学位授与年月日 | 2021-03-25 | |||||||||
著者版フラグ | ||||||||||
出版タイプ | AM | |||||||||
出版タイプResource | http://purl.org/coar/version/c_ab4af688f83e57aa | |||||||||
専攻 | ||||||||||
情報理工学研究科 | ||||||||||
専攻 | ||||||||||
情報・ネットワーク工学専攻 |