Item type |
SIG Technical Reports(1) |
公開日 |
2015-06-16 |
タイトル |
|
|
タイトル |
大規模データ・高次元トピックに対応したトピックモデル |
タイトル |
|
|
言語 |
en |
|
タイトル |
Corpus and Topic Scalable Topic Model |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学大学院学際情報学府 |
著者所属 |
|
|
|
東京大学情報基盤センター |
著者所属 |
|
|
|
東京大学情報基盤センター |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Information Studies, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Information Technology Center, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Information Technology Center, The University of Tokyo |
著者名 |
横井, 創磨
佐藤, 一誠
中川, 裕志
|
著者名(英) |
Soma, Yokoi
Issei, Sato
Hiroshi, Nakagawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
大規模な文書データに対して頻度分布のロングテールに位置する単語は情報量が少ないため,トピックモデルと呼ばれる単語の統計モデルを分布の背後に仮定することで,検索エンジンやオンライン広告などの性能が向上することが知られている.しかし,このような場面において用いられるトピックモデルは,予め仮定する潜在トピック数を高次元に設定する必要があり,計算速度や必要メモリ量が問題になる.トピックモデルの最も基本的なモデルである LDA に対して,大量の文書を扱える SGRLD LDA や高次元のトピックを扱える AliasLDA などの手法が存在するが,大量の文書・高次元のトピックを同時に達成するためには非効率的なアルゴリズムを巨大な計算機リソースを用いて実行しなくてはならない.そこで本研究では,これらの手法をうまく組み合わせることで効率的な計算を可能にする.また,勾配計算において更新の方法を工夫することにより,余分な空間を使わずに期待値計算を行うことができる.実験により,提案手法は大規模データかつ高次元トピックでも実行可能であり,さらに既存手法と比較して速く,特に高次元トピックでは 10 倍以上高速であることを示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
It is known that topic model with high dimensional topics improves IR performance like search engines and online advertisements, because it helps to model long-tail words in large scale corpora. However, high dimensional topics with large corpora cause 2 problems: computational performance and memory requirement. For the fundamental topic model, LDA, SGRLD LDA is proposed to scale to large corpora and AliasLDA to accelerate computing topics. In this paper, we propose a method for both topic computation and data scalability, by combining these techniques. Also careful calculation of gradients reduces required space to expectations. Experiments demonstrate that our method is scalable for both corpus size and topic dimension, also archives faster runtime speed compared to the existing approach, especially 10+ times faster on high dimensional topics setting. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10505667 |
書誌情報 |
研究報告数理モデル化と問題解決(MPS)
巻 2015-MPS-103,
号 5,
p. 1-5,
発行日 2015-06-16
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8833 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |