DNNに基づくテキスト音声合成のためのFFTスペクトルを用いた位相復元に基づく音声波形生成

高木, 信二; Sangjin, Kim; 亀岡, 弘和; 山岸, 順一

WEKO3

インデックスツリー

RootNode

アイテム

DNNに基づくテキスト音声合成のためのFFTスペクトルを用いた位相復元に基づく音声波形生成

https://ipsj.ixsq.nii.ac.jp/records/176407

名前 / ファイル	ライセンス	アクション
IPSJ-SLP16114021.pdf (1.9 MB)	Copyright (c) 2016 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2016-12-13

タイトル

DNNに基づくテキスト音声合成のためのFFTスペクトルを用いた位相復元に基づく音声波形生成

言語

jpn

キーワード

主題Scheme

Other

主題

音声合成

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

国立情報学研究所

著者所属

Naver Labs, Naver Corporation

著者所属

日本電信電話株式会社NTTコミュニケーション科学基礎研究所

著者所属

国立情報学研究所

著者名

高木, 信二
Sangjin, Kim
亀岡, 弘和
山岸, 順一

論文抄録

内容記述タイプ

Other

内容記述

多くの統計的パラメトリック音声合成システムでは，高品質ボコーダを用い，音声波形を構築する．その際，ソース・フィルタモデルに基づくボコーダが利用されることが多く，言語特徴量からメルケプストラム，F0 といった音響特徴量を予測し，ボコーダによる音声波形生成が行われる．しかし，ボコーダを用いたことに起因する合成音声の自然性の低下が常に問題となっており，これまで様々な研究が報告されている．しかし，ソース・フィルタモデルに基づいている限り，この問題を完全に解決することは容易ではない．そこで本研究では，ボコーダを用いない音声合成システム構築することを考える．具体的には，統計的パラメトリック音声合成において，振幅スペクトルからの位相復元，逆短時間フーリエ変換，および重加算法 (OLA) に基づき波形を生成することについて検討する．今回提案する音声合成の枠組みでは，まず，調波構造を含む振幅スペクトルの予測を DNN 音響モデルにより行い，次に，予測された振幅スペクトルから Griffin / Lim 法により位相を復元することで，音声波形の生成を行う．主観評価実験により，高品質ボコーダを用いた DNN 音声合成システムと提案システムの比較を行った結果，提案法ではボコーダに基づく合成音声特有のバジー感が無い合成音声の生成が可能であることを確認できた．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2016-SLP-114, 号 21, p. 1-6, 発行日 2016-12-13

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-20 05:53:04.285638

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

DNNに基づくテキスト音声合成のためのFFTスペクトルを用いた位相復元に基づく音声波形生成

× 高木, 信二

× Sangjin, Kim

× 亀岡, 弘和

× 山岸, 順一

Versions

Share

Cite as

エクスポート