Item type |
SIG Technical Reports(1) |
公開日 |
2024-06-07 |
タイトル |
|
|
タイトル |
Contextual Biasingを用いた日本語End-to-End音声認識向け語彙登録の検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Exploring Keyword Enrollment for Japanese End-to-End Automatic Speech Recognition using Contextual Biasing |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション2 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
三菱電機株式会社情報技術総合研究所 |
著者所属 |
|
|
|
三菱電機株式会社情報技術総合研究所 |
著者所属 |
|
|
|
Mitsubishi Electric Research Laboratories/現在,Apple |
著者所属 |
|
|
|
Mitsubishi Electric Research Laboratories |
著者所属 |
|
|
|
三菱電機株式会社情報技術総合研究所 |
著者所属(英) |
|
|
|
en |
|
|
Mitsubishi Electric Research Laboratories / Presently with Apple |
著者所属(英) |
|
|
|
en |
|
|
Mitsubishi Electric Research Laboratories |
著者名 |
三井, 祥幹
相原, 龍
堀, 貴明
ルルー, ジョナトン
田口, 進也
|
著者名(英) |
Yoshiki, Mitsui
Ryo, Aihara
Takaaki, Hori
Jonathan, Le Roux
Shinya, Taguchi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
深層学習の発展に伴い登場した end-to-end (E2E) 音声認識は,従来の階層型音声認識と比較し,総合的に高い性能を発揮する.しかし,階層型音声認識で容易に実現できていた,特定ドメイン向けの語彙登録が困難である欠点を抱えている.E2E 音声認識向けの語彙登録手法として,contextual biasing を用いる方法が提案されているが,特に日本語音声認識では,学習データに現れない表記を含む語彙を登録する場合に,十分な認識性能を得られない.これを解消するため,本稿では,語彙の登録にカタカナ・ひらがな等の表音文字による表記を利用し,音声認識結果テキストに対する後処理で,登録に用いた表記を,元の表記へと戻す改良手法を提案する.更に,表音文字による語彙の表記と,入力音声より得られる音響特徴量との結びつきを強めるため,E2E 音声認識モデルを学習させる際に,学習用テキストの一部の単語を,ランダムに表音文字表記へ置換する改良学習手法を併せて提案する.提案手法により,5 モーラ以上からなる語彙の登録タスクにおいて,元表記を利用し語彙を登録する従来手法よりも高い語彙登録性能が得られることを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
End-to-end (E2E) automatic speech recognition (ASR), which has emerged with the development of deep learning, exhibits generally higher performance than conventional modular ASR methods. However, E2E ASR has the drawback that it is difficult to enroll keywords for specific domains, which was easily realized in conventional ASR. Contextual biasing has been proposed for keyword enrollment methods for E2E ASR, but, for Japanese ASR, the performance is not sufficient when we enroll keywords which do not appear in the training data. To overcome this problem, we propose an updated keyword enrollment method where we use phonetic letter notations such as katakana or hiragana to recognize enrolled keywords, converting them back to their original notations in a postprocessing step. Additionally we propose an improved E2E ASR model training method to strengthen the connection between acoustic features obtained from input speech and phonetic letter notations by replacing some words from origial notation to phonetic letter notation. We observed higher keyword enrollment performance for keywords longer than five moras by using the proposed methods. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-152,
号 55,
p. 1-7,
発行日 2024-06-07
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |