Item type |
SIG Technical Reports(1) |
公開日 |
2019-08-20 |
タイトル |
|
|
タイトル |
音楽音響信号に対するラベル・テクスチャ分離型変分自己符号化器を用いた半教師ありコード推定 |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
京都大学情報学研究科 |
著者所属 |
|
|
|
IRCAM, CNRS, Sorbonne Universite |
著者所属 |
|
|
|
京都大学情報学研究科 |
著者所属 |
|
|
|
京都大学情報学研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics, Kyoto University |
著者所属(英) |
|
|
|
en |
|
|
IRCAM, CNRS, Sorbonne Université |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics, Kyoto University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics, Kyoto University |
著者名 |
呉, 益明
Tristan, Carsault
中村, 栄太
吉井, 和佳
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,正解コードラベル付きの音楽音響信号 (教師ありデータ) に加えて,ラベルが付与されていない音響信号 (教師なしデータ) を同時に利用するための,深層ニューラルネットワーク (DNN) に基づくコード推定法について述べる.従来の DNN に基づく識別的アプローチは,大量の教師ありデータを用いることで優れた推定精度を達成できるが,コードラベルの付与には多大な労力が必要であり,精度向上には限界があった.一方,隠れマルコフモデルなどの確率モデルに基づく生成的アプローチは,原理的に半教師あり学習が可能であるものの,モデルの表現力の貧弱さから,推定精度の面で劣っていた.これらの問題を解決するため,本研究では,高い表現力を持つ DNN に基づく深層生成モデルと,償却型変分推論法に基づく半教師あり学習法を提案する.具体的には,まず,コードラベル系列と音響テクスチャ系列を潜在変数とし,音響的特徴量を観測変数とする生成モデルを定式化する.観測変数が与えられた際に,潜在変数の事後分布を推定するため,音響的特徴量からコードラベル系列を推定する識別モデルと,音響的特徴量とコードラベル系列から音響テクスチャ系列を抽出する推論モデルを導入する.与えられた音楽音響信号に対して,教師ラベルの有無に関わらず,変分自己符号化器の枠組みでこれら三つの深層モデルを同時最適化することができる.実験の結果,教師なしデータに対しても,コードラベル情報と音響テクスチャ情報が適切に分離された表現学習を行うことができること,半教師あり学習を行った識別モデルが,教師ありデータのみで学習した識別モデルよりも高い認識精度を実現できることを確認した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2019-MUS-124,
号 5,
p. 1-6,
発行日 2019-08-20
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |