WEKO3
-
RootNode
アイテム
混合ディリクレ分布を用いた文書分類の精度について
https://ipsj.ixsq.nii.ac.jp/records/17426
https://ipsj.ixsq.nii.ac.jp/records/1742666cec6a3-3a72-46ca-859f-a5d173d75a65
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-06-15 | |||||||
タイトル | ||||||||
タイトル | 混合ディリクレ分布を用いた文書分類の精度について | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Accuracy of Document Classification with Dirichlet Mixtures | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 研究論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
長崎大学 | ||||||||
著者所属 | ||||||||
国立情報学研究所 | ||||||||
著者所属 | ||||||||
国立情報学研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nagasaki University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Informatics | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Informatics | ||||||||
著者名 |
正田備也
高須, 淳宏
安達, 淳
× 正田備也 高須, 淳宏 安達, 淳
|
|||||||
著者名(英) |
Tomonari, Masada
Atsuhiro, Takasu
Jun, Adachi
× Tomonari, Masada Atsuhiro, Takasu Jun, Adachi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 文書分類のための代表的な確率論的手法にナイーヴ・ベイズ分類器がある.しかし,ナイーヴ・ベイズ分類器は,スムージングと併用して初めて満足な分類精度を与える.さらに,スムージング・パラメータは,文書集合の性質に応じて適切に決めなければならない.本論文では,パラメータ・チューニングの必要がなく,また,多様な文書集合に対して十分な分類精度を与える効果的な確率論的枠組みとして,混合ディリクレ分布に注目する.混合ディリクレ分布の応用については,言語処理や画像処理の分野で多く研究がある.特に,言語処理分野の研究では,現実の文書データを用いた実験も行われている.だが,評価は,パープレキシティという純粋に理論的な尺度によることが多い.その一方,テキスト・マイニングや情報検索の分野では,文書分類の評価に,正解ラベルとの照合によって計算される精度を用いることが多い.本論文では,多言語テキスト・マイニングへの応用を視野に入れて,英語の20 newsgroupsデータ・セット,および,韓国語のWebニュース文書を用いて文書分類の評価実験を行い,混合ディリクレ分布に基づく分類器とナイーヴ・ベイズ分類器の,定性的・定量的な違いを明らかにする. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | The naive Bayes classifier is a well-known method for document classification. However, the naive Bayes classifier gives a satisfying classification accuracy only after an appropriate tuning of the smoothing parameter. Moreover, we should find appropriate parameter values separately for different document sets. In this paper, we focus on an effective probabilistic framework for document classification, called Dirichlet mixtures, which requires no parameter tuning and provides satisfying classification accuracies with respect to various document sets. Many researches in the field of image processing and of natural language processing utilize Dirichlet mixtures. Especially, in the field of natural language processing, many experiments are conducted by using real document data sets. However, most researches use the perplexity as an evaluation measure. While the perplexity is a purely theoretical measure, the accuracy is popular for document classification in the field of information retrieval or of text mining. The accuracy is computed by comparing correct labels with predictions made by the classifier. In this paper, we conduct an evaluation experiment by using 20 newsgroups data set and the Korean Web newspaper articles under the intention that we will use Dirichlet mixtures for multilingual applications. In the experiment, we compare the naive Bayes classifier with the classifier based on Dirichlet mixtures and clarify their qualitative and quantitative differences. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11464847 | |||||||
書誌情報 |
情報処理学会論文誌データベース(TOD) 巻 48, 号 SIG11(TOD34), p. 14-26, 発行日 2007-06-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7799 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |