WEKO3
-
RootNode
アイテム
音節継続時間を利用した直線検出に基づく音声検索語検出
https://ipsj.ixsq.nii.ac.jp/records/90269
https://ipsj.ixsq.nii.ac.jp/records/902696fb4514b-e2d0-4aad-9d7d-a3280f3fd12b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2013 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2013-02-15 | |||||||
タイトル | ||||||||
タイトル | 音節継続時間を利用した直線検出に基づく音声検索語検出 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Incorporating Syllable Duration into the Line Detection Based Spoken Term Detection | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | [特集:音声ドキュメント処理] 音声検索語検出,直線検出,音節継続時間 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者名 |
大野哲平
秋葉, 友良
× 大野哲平 秋葉, 友良
|
|||||||
著者名(英) |
Teppei, Ohno
Tomoyosi, Akiba
× Teppei, Ohno Tomoyosi, Akiba
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 情報通信網の発展とデータ記録コストの低減により,音声を含むマルチメディアコンテンツが増大している.現在主流となっているマルチメディアデータに対する検索システムが検索の根拠としているファイル名やタグ情報等の人手によるメタデータ付与は,人的コストが非常に高い.そこで,音声データから求めたい情報になるべく早く,低コストでアクセスできる検索技術が求められている.音声検索語検出(Spoken Term Detection; STD)はある特定の検索語が音声データ中のどこで発話されたかを特定するタスクであり,現在活発な研究活動が行われている分野である.先行研究として,近似文字列照合を音節間距離平面上の直線検出問題ととらえる手法が提案されており,高速で距離順の検出が可能であることが示されている.しかし,認識誤りに対する対策に問題が残されていた.本研究では,直線検出に基づくSTD手法に,音節継続時間情報を組み込むことにより検索性能の向上を試みた.提案手法は,音節の代わりに分析フレームを単位とした距離空間を構成することで,脱落・挿入誤りに頑健な検出を可能にする.評価実験の結果,高Recallの領域で検索性能を改善することを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Nowadays, multimedia contents including speech are rapidly increasing due to both the growth of the communication networks around the world and the decrease of storage cost. The current retrieval systems for such contents rely on the manually annotated metadata, which are too expensive to be obtained. Therefore, it is required the retrieval method that is not expensive but quick to access the desired information by using their speech data. Spoken term detection (STD) is one of the solution, which tries to find the positions that the given query term is uttered at in the spoken document, and recently has been actively studied in the context of speech processing. While conventional methods for STD are to apply approximate string matching against a subword sequence of spoken document obtained by speech recognition, there has been proposed a line-detection-based STD method, which regarded string matching as line detection in a syllable distance plane. While it demonstrated to enable fast and distance-ordered detections, it still suffered from the insertion and deletion errors brought by speech recognition. In this work, we try to improve the detection performance by employing the syllable duration information. The proposed method enables the robust detection by introducing the distance plane using frames as units, instead of using syllables as units. Our experimental evaluation showed that the incorporation of syllable duration improved its detection performance in high-recall regions. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 54, 号 2, p. 484-494, 発行日 2013-02-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |