WEKO3
-
RootNode
アイテム
文書クラスタリングのための潜在的ディリクレ配分法による次元圧縮
https://ipsj.ixsq.nii.ac.jp/records/18810
https://ipsj.ixsq.nii.ac.jp/records/18810095a3180-bf84-43ba-8b26-a9d2a5ab8b74
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-07-03 | |||||||
タイトル | ||||||||
タイトル | 文書クラスタリングのための潜在的ディリクレ配分法による次元圧縮 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Dimensionality Reduction via Latent Dirichlet Allocation for Document Clustering | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
長崎大学工学部 | ||||||||
著者所属 | ||||||||
長崎大学工学部 | ||||||||
著者所属 | ||||||||
長崎大学工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Nagasaki University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Nagasaki University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Nagasaki University | ||||||||
著者名 |
正田備也
× 正田備也
|
|||||||
著者名(英) |
Tomonari, MASADA
× Tomonari, MASADA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では、Blei らによって提案された潜在的ディリクレ配分法(latent Dirichlet allocation)を、特徴ベクトルの次元圧縮法として利用し、文書クラスタリングにおける有効性を明らかにする。評価実験では、曰本語と韓国語の Web ニュース記事のクラスタリングをおこない、記事の属するジャンルをクラスタリング結果の評価に用いる。単語の出現頻度をそのまま入力として、混合多項分布モデルを用いたクラスタリングを行う場合と、潜在的ディリクレ配分法によって次元圧縮された特徴ベクトルを入力として、同じく混合多項分布モデルを用いたクラスタリングを行う場合とで、クラスタリング結果を比較評価する。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we employ the latent Dirichlet allocation as a method for the dimensionality reduction of feature vectors and reveal its effectiveness in document clustering. In the evaluation experiment, we perform clustering on the document sets of Japanese and Korean Web news articles. We regard the categories assigned to each article as the ground truth of clustering evaluation. We compare the clustering results obtained by using the feature vectors whose entries are term frequencies with the results obtained by using the feature vectors whose dimensions are reduced by the latent Dirichlet allocation. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10112482 | |||||||
書誌情報 |
情報処理学会研究報告データベースシステム(DBS) 巻 2007, 号 65(2007-DBS-143), p. 381-386, 発行日 2007-07-03 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |