Item type |
SIG Technical Reports(1) |
公開日 |
2019-07-12 |
タイトル |
|
|
タイトル |
DPGMMと敵対的学習に基づく話者の違いに頑健な特徴抽出とゼロリソース音声認識での評価 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Speaker Adversarial Training of DPGMM-based Feature Extractor for Zero-Resource Languages |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
認識1 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
日本電信電話株式会社NTTコミュニケーション科学基礎研究所 |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratries, NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者名 |
樋口, 陽祐
俵, 直弘
小林, 哲則
小川, 哲司
|
著者名(英) |
Yosuke, Higuchi
Naohiro, Tawara
Tetsunori, Kobayashi
Tetsuji, Ogawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ディリクレ過程ガウス混合モデル(()Dirichlet process Gaussian mixture model; DPGMM)により教師なしの枠組みで音韻に関する情報を取得し,敵対的マルチタスク学習により話者補正を行うことで,ゼロリソース音声認識に適した特徴表現の獲得を試みる.ゼロリソース言語は音素ラベルが付与されていないため,DPGMMの各クラスタが音素に対応すると期待する.しかし,同一の音韻であっても発話者の違いによりばらつきが生じるため,DPGMMのように音声信号のみからデータドリブンで生成されるクラスタは必ずしも音素に対応するとは限らず,話者によるクラスタが形成されている可能性もある.そこで,DPGMMのクラスタの事後確率分布を音素に関する教師としながら,話者に関する敵対的損失を出力層に導入することで,発話者の違いの影響が抑圧された音素に関する事後分布を生成するニューラルネットワークを構築することを試みる.こうして得たネットワークからフレーム単位で得られる音素事後確率ベクトルを話者の違いに頑健な特徴量として利用したところ,Zero Resource Speech Challengeデータにおいて,話者情報を効果的に抑圧し,音素に識別的な特徴抽出が行えることを確認した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2019-SLP-128,
号 6,
p. 1-6,
発行日 2019-07-12
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |