Item type |
SIG Technical Reports(1) |
公開日 |
2021-09-21 |
タイトル |
|
|
タイトル |
レーシングゲーム実況生成 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Racing Game Commentary Generation |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属 |
|
|
|
産業技術総合研究所/お茶の水女子大学 |
著者所属 |
|
|
|
産業技術総合研究所/LeapMind Inc. |
著者所属 |
|
|
|
産業技術総合研究所/お茶の水女子大学 |
著者所属 |
|
|
|
産業技術総合研究所/東京大学 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者名 |
石垣, 達也
トピチ, ゴラン
濵園, 侑美
能地, 宏
小林, 一郎
宮尾, 祐介
高村, 大也
|
著者名(英) |
Tatsuya, Ishigaki
Goran, Topić
Yumi, Hamazono
Hiroshi, Noji
Ichiro, Kobayashi
Yusuke, Miyao
Hiroya, Takamura
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,新たな言語生成タスクとして,レーシングゲーム実況テキスト生成を提案する.このタスクでは,視覚情報としてレーシングゲームの録画映像,言語データとして実況発話,構造化データとして速度,ハンドル角度といった数値データを入力として扱い,視聴者が映像を視聴しながら,レースをより理解し,楽しむための実況テキストを生成する.既存の言語生成研究においては,データセットの欠如が一因となり映像,言語,構造化データの複数モダリティを同時に考慮する言語生成研究を行うことは困難であった.また,言語生成の中でも,特に実況生成においては「どのタイミングで発話するか」「何を発話するか」を最低限決定する必要があるが,例えば野球を対象とした既存研究においてはイニング間に実況を行うなど,発話タイミングがあらかじめ与えられる設定が扱われ,後者にのみ着目されてきた.本研究ではまず,映像,構造化データとそれらに対応する実況テキストが対になった大規模データセットを作成し,レース実況の特徴について分析する.分析より,実況テキストはその言語的な特徴が,時間および実況者の視点の影響を受け,変化することが分かった.さらに,実況生成タスクをタイミング同定と発話生成の 2 つのサブタスクに分割し,これらについてベースライン手法を提案する.実験より,構造化データの活用は有益である一方,視覚情報については最先端の画像エンコーダを用いたとしても,本タスクにおいて効果が限定的であり,実況生成タスクが挑戦的な課題であることが分かった.マルチモーダルな言語生成タスクのためのデータセットとして,本研究で作成したデータセットは公開する. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2021-NL-250,
号 8,
p. 1-11,
発行日 2021-09-21
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |