WEKO3
-
RootNode
アイテム
オートエンコーダを利用した任意話者の声質変換手法の提案
https://uec.repo.nii.ac.jp/records/8415
https://uec.repo.nii.ac.jp/records/841531d59e87-a800-43e8-a137-a31a0cc49948
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2017-02-22 | |||||||||
タイトル | ||||||||||
タイトル | オートエンコーダを利用した任意話者の声質変換手法の提案 | |||||||||
言語 | ja | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_46ec | |||||||||
資源タイプ | thesis | |||||||||
著者 |
関井, 祐介
× 関井, 祐介
|
|||||||||
抄録 | ||||||||||
内容記述タイプ | Abstract | |||||||||
内容記述 | 声質変換は,入力音声を目的話者の声質に変換する技術である.声質変換手法として,従来はGaussian Mixture Model(GMM)を用いた手法がよく用いられていたが,近年のDeep Learning に関する技術の台頭により,Deep Neural Network(DNN)を用いた声質手法が注目されている.しかし,GMM やDNN を用いた手法の多くは一対一の声質変換手法を提案しており,任意話者の入力に対応した研究は少なく,従来の任意話者の声質変換手法は,一対一声質変換と比べ変換精度が劣ってしまうという問題がある.また,従来のDNN を用いた声質変換手法では,一対一変換および多対一変換において複雑なネットワークを用いるため,多くの訓練データが必要となり,かつ変換に要する時間が長くなるという問題がある. 本研究では,これらの問題を解決するため,オートエンコーダおよびスパースオートエンコーダを用いた声質変換手法を提案する.提案手法では,オートエンコーダで次元圧縮した高次特徴量を目的話者の高次特徴量へDNN で変換し,目的話者のオートエンコーダを用いて音響特徴量に復元する.評価実験では,提案手法と従来手法を比較し,オートエンコーダを用いた手法は従来手法よりも若干高い精度でスペクトル変換を行い,変換時間を短縮することができた.スパースオートエンコーダを用いた手法では,オートエンコーダを用いた提案手法と比べ,スペクトル変換精度の向上および変換した音声の自然性を改善し,任意話者の声質変換精度を向上させることができた. |
|||||||||
学位名 | ||||||||||
学位名 | 修士 | |||||||||
学位授与機関 | ||||||||||
学位授与機関名 | 電気通信大学 | |||||||||
学位授与年度 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 2016 | |||||||||
学位授与年月日 | ||||||||||
学位授与年月日 | 2017-03-24 | |||||||||
著者版フラグ | ||||||||||
出版タイプ | AM | |||||||||
出版タイプResource | http://purl.org/coar/version/c_ab4af688f83e57aa | |||||||||
専攻 | ||||||||||
情報システム学研究科 | ||||||||||
専攻 | ||||||||||
社会知能情報学専攻 |