Item type |
SIG Technical Reports(1) |
公開日 |
2021-02-24 |
タイトル |
|
|
タイトル |
統合型ソースフィルタネットワークによるニューラルボコーダ |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Unified Source-Filter Network for Neural Vocoder |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
名古屋大学情報学部 |
著者所属 |
|
|
|
名古屋大学情報基盤センター |
著者所属 |
|
|
|
名古屋大学情報基盤センター |
著者所属(英) |
|
|
|
en |
|
|
Nagoya University |
著者所属(英) |
|
|
|
en |
|
|
Information Technology Center, Nagoya University |
著者所属(英) |
|
|
|
en |
|
|
Information Technology Center, Nagoya University |
著者名 |
米山, 怜於
呉, 宜樵
戸田, 智基
|
著者名(英) |
Reo, Yoneyama
Yi-Chiao, Wu
Tomoki, Toda
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,ソースフィルタ理論に基づくニューラルボコーダを単一のネットワークにより実現する手法を提案する.深層学習に基づく音声波形生成モデリングを実現するニューラルボコーダは,高品質な音声波形を生成で きる一方で,完全データ駆動型の枠組みであるがゆえに,従来型ボコーダの利点の一つであった操作機能が低下する 傾向にある.そのため,従来型ボコーダと同様に音源生成部と声道フィルタ部に分割し,どちらか一方に対してパラ メトリックなモデルを導入する枠組みが盛んに研究されている.従来型ボコーダにおける近似を一部導入することで, 操作性を高めることが可能となるが,完全データ駆動型の枠組みと比較すると,音質が若干劣化する傾向にあり,ま た,操作機能についても未だ改善の余地がある.この問題に対し,本稿では,より近似の少ない枠組みとして,単一 のニューラルネットワークに対してソースフィルタ理論の仕組みを導入した「統合型ソースフィルタネットワーク」を提案する.音源生成部と声道フィルタ部の両方をニューラルネットワークでモデル化して接続することで,統一的 な訓練指標でネットワーク全体を最適化することを可能とするとともに,音源生成部のネットワーク出力に対する制 約を導入することで,音源生成機能を備えたネットワークの学習を試みる.実験的評価の結果から,提案法は従来法であるニューラル・ソースフィルタと比較して,F0 変換精度を有意に改善できることを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we propose a method to develop a neural vocoder using a single network based on the source-filter theory. A neural vocoder makes it possible to generate high-quality speech waveforms by applying a deep learning framework to direct speech waveform modeling. On the other hand, its controllability tends to be lower compared to that of a traditional vocoder due to the use of a totally data-driven framework. To alleviate this issue, there have been studied other neural vocoding frameworks consisting of a source excitation part and a resonance filtering part as in a traditional vocoding framework and applying a parametric model to one of these two parts. The use of a part of the traditional approximations is effective for improving controllability of neural vocoder. However, the resulting controllability is still insuffient, and this framework also causes an adverse effct on sound quality degradation compared to the totally data-driven framework. Towards the develop- ment of a better neural vocoder, we propose "a unified source-filter network" as a novel neural vocoding framework using a single network. The proposed network consists of cascaded two networks corresponding to the source excitation part and the resonance filtering part, making it possible to optimize all network parameters using a unified training criterion. Moreover, we try to optimize the source excitation network to generate reasonable source excitation signals by applying an additional constraint to its output. Our experimental results have demonstrated that the proposed method can improve �F0 controllability compared to the neural source-filter as one of the conventional neural vocoding methods. Key words speech synthesis,source-filter model,neural vocoder |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-136,
号 13,
p. 1-6,
発行日 2021-02-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |