WEKO3
-
RootNode
アイテム
調音クラスの事後確率に基づく言語識別の検討
https://ipsj.ixsq.nii.ac.jp/records/107375
https://ipsj.ixsq.nii.ac.jp/records/10737581ce4f00-50fb-43c1-9b15-820c79494afd
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2100年1月1日からダウンロード可能です。
|
Copyright (c) 2014 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
|
|
SLP:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2014-12-08 | |||||||||
タイトル | ||||||||||
タイトル | 調音クラスの事後確率に基づく言語識別の検討 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Automatic Language Identification Based on Posterior Probability on Articulatory Classes | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | ポスター・デモセッション | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
電気通信大学 | ||||||||||
著者所属 | ||||||||||
電気通信大学 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
The University of Electro-Communications | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
The University of Electro-Communications | ||||||||||
著者名 |
平田, 拓海
× 平田, 拓海
× 高木, 一幸
|
|||||||||
著者名(英) |
Takumi, Hirata
× Takumi, Hirata
× Kazuyuki, Takagi
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 言語識別とは,入力音声に対しその言語が何語であるかを自動的に判別する技術である.言語識別では言語を区別する特徴の抽出が重要である.本研究では調音特徴に基づく調音クラスの事後確率を言語識別に用いる.音声のスペクトル特徴に対する各調音クラスの事後確率を GMM を用いて求め,これらを束ねた事後確率ベクトルの時系列をベクトル量子化し,VQ 符号時系列を得る.言語毎の VQ 符号時系列の n-gram を言語識別用のモデルとする.識別時には,n-gram モデルの入力音声の調音クラス事後確率の VQ 符号時系列に対する尤度が最も高い言語を識別結果とする;提案手法を用いた日英 2 言語識別実験では 97.1%の識別率を得た. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | Extraction of features from input speech that are effective in distinguishing the language is a key issue for language identification system. We use posterior probabilities on articulatory classes as features for language identification. Posterior probability on each articulatory class is calculated by GMMs. Each GMM is trained with MFCC data of speech segments labeled with the phonemes or acoustic events that correspond to the articulatory class. The posterior probability values of the articulatory classes are concatenated to form an articulatory-feature- class-posterior-probability (AFCPP) vector at each analysis frame. These vectors are then quantized to yield VQ code sequence, which is used as the training data for a n-gram language model. Language identification is performed by selecting the n-gram model that yields the highest likelihood for the AFCPP vector sequence of the input utterance. Language identification experiment between Japanese and English by the present method showed identification rate of 97.1%. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10442647 | |||||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2014-SLP-104, 号 28, p. 1-5, 発行日 2014-12-08 |
|||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |