Item type |
SIG Technical Reports(1) |
公開日 |
2015-11-25 |
タイトル |
|
|
タイトル |
多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と話者適応 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Multi-speaker speech synthesis and speaker adaptation based on deep bidirectional long short-term memory recurrent neural network |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声合成 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学大学院工学系研究科 |
著者所属 |
|
|
|
東京大学大学院工学系研究科 |
著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
著者所属(英) |
|
|
|
en |
|
|
Grad. School of Engineering, The Univ. of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Grad. School of Engineering, The Univ. of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Grad. School of Information Science and Technology, The Univ. of Tokyo |
著者名 |
チョウ, イ
峯松, 信明
齋藤, 大輔
|
著者名(英) |
Yi, Zhao
Nobuaki, Minematsu
Daisuke, Saito
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
論文では,データが限られた話者に対する音声合成の質の向上を目的とした,多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成モデルを提案する.提案モデルは,話者非依存のネットワーク (SIN) と話者依存のネットワーク (SDN) で構成されており,SIN は複数話者のデータで学習され,SDN はターゲット話者のデータで学習される.さらに,性別コードと話者コード,i-vector を導入することで,SIN 内部において,話者の識別性をより高めることが期待される.データ数が限られたデータベースを用いた音声合成実験により,提案法は,多層ニューラルネットワークと多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と比較して,合成音声の品質の向上を確認することができた.さらに,提案した複数話者モデルに話者適応を導入可能であり,実験的に新話者に対する音声合成の自然性と話者性を向上することができた. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, a deep bidirectional long short-term memory recurrent neural network (DBLSTM-RNN) based multi-speaker synthesis model is proposed to improve the synthesis quality for a target speaker whose corpus is limited. This model consists of speaker independent network (SIN) and speaker dependent network (SDN), where SIN is jointly trained by multiple speakers and SDN is designed for designed for each of the target speakers. In particular, gender code as well as speaker code or i-vector are prepared as augmented input information to help SIN realize better distinction among different target speakers. Experimental results show that our proposed model improves the synthesis performance with a fairly small database for each speaker, compared with DNN-based multi-speaker TTS and conventional DBLSTM-RNN based TTS. In addition, this multi-speaker model can also be used to perform speaker adaptation, and is experimentally shown to be capable of achieving good quality speech of a new speaker in terms of naturalness and speaker identity. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2015-SLP-109,
号 19,
p. 1-6,
発行日 2015-11-25
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |