WEKO3
-
RootNode
アイテム
複数モデルの統合によるLDAトピックモデルの高精度化とテキスト入力支援への応用
https://ipsj.ixsq.nii.ac.jp/records/60500
https://ipsj.ixsq.nii.ac.jp/records/6050010927da8-098d-4cf6-8dc4-589431a1e482
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-04-15 | |||||||
タイトル | ||||||||
タイトル | 複数モデルの統合によるLDAトピックモデルの高精度化とテキスト入力支援への応用 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Integration of Multiple LDA Topic Models and Its Application to Predictive Text Entry | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 一般論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
三洋電機株式会社エコロジー技術研究所 | ||||||||
著者所属 | ||||||||
岐阜大学工学部応用情報学科 | ||||||||
著者所属 | ||||||||
岐阜大学工学部応用情報学科 | ||||||||
著者所属 | ||||||||
岐阜大学工学部応用情報学科 | ||||||||
著者所属 | ||||||||
岐阜大学工学部応用情報学科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ECO Technology Research Center, SANYO Electric Co., Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science, Gifu University | ||||||||
著者名 |
中村, 明
速水, 悟
津田, 裕亮
松本, 忠博
池田, 尚志
× 中村, 明 速水, 悟 津田, 裕亮 松本, 忠博 池田, 尚志
|
|||||||
著者名(英) |
Akira, Nakamura
Satoru, Hayamizu
Yusuke, Tsuda
Tadahiro, Matsumoto
Takashi, Ikeda
× Akira, Nakamura Satoru, Hayamizu Yusuke, Tsuda Tadahiro, Matsumoto Takashi, Ikeda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 単語間の大域的な依存関係をトピック(話題)としてモデル化する言語モデルの1つであるLDA(Latent Dirichlet Allocation)を複数個統合する方式によって,言語モデルを高精度化・安定化できることを示す.新聞記事コーパスを用いた実験の結果,提案方式では単一のLDAからなる同一規模のモデルと比較して,つねに推定精度が向上・安定化することを確認した.単一LDAでは潜在トピック数<i>C</i> = 100前後を境に性能が低下するのに対し,提案方式では過適応が抑制され,はるかに大きい総トピック数(= 各モデルの潜在トピック数の総和)まで性能が向上し続ける.また提案方式によるunigram確率を用いて<i>N</i>-gram確率(<i>N</i>≥2)を補間することにより,trigramのパープレキシティを従来方式より大幅に削減できる.さらに本論文では,提案方式を予測入力に基づくテキスト入力支援(predictive text entry)に応用することを想定し,テキスト入力支援に適した言語モデル評価指標i-PPを提案する.この指標はパープレキシティの拡張であり,任意文字数の読み入力時点における平均単語分岐数を表す.この指標を用いた評価の結果,提案手法では入力読み文字数<i>l</i> = 2の時点まで通常のパープレキシティと同程度にi-PPを削減でき,従来方式よりも高精度に予測候補を絞り込めることが確かめられた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes a method that improves accuracy and stability of a language model. The method integrates multiple units of LDA (Latent Dirichlet Allocation), which is a probabilistic language model that models long-range dependencies among words as topics. The experiment on news text corpora shows that the proposed method constantly makes its performance more precise and stable, comparing to the single LDA with almost the same number of the model parameters. The perplexity of the method remains decreasing until the total number of latent topics reaches far larger than that of single LDA, whereas the perplexity of the single LDA turns to increase due to overfitting as the number of latent topics is around 100. In particular, the proposed method significantly reduces the trigram perplexity by combining with the topic-dependent unigram probabilities. This paper also proposes a new evaluation measure i-PP suitable for evaluating a language model applied to predictive text entry. This measure, which is an extended perplexity, indicates the average number of word choices when any length of phonetic (hiragana) substring is input. Evaluation with this measure demonstrates that the proposed method decreases i-PP by the same rate as the common perplexity until the substring length <i>l</i> = 2, reducing candidates with higher accuracy than the existing method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 50, 号 4, p. 1375-1389, 発行日 2009-04-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |