WEKO3
-
RootNode
アイテム
事前処理にk-means法を利用したスパムフィルタの開発
https://ipsj.ixsq.nii.ac.jp/records/66998
https://ipsj.ixsq.nii.ac.jp/records/6699850820aa6-c56e-44e9-bb5d-4545fd91bc32
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-12-10 | |||||||
タイトル | ||||||||
タイトル | 事前処理にk-means法を利用したスパムフィルタの開発 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Development of Spam Filter using k-Means Clustering for Pre-Process | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
筑波大学 | ||||||||
著者所属 | ||||||||
筑波大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
University of Tsukuba | ||||||||
著者所属(英) | ||||||||
en | ||||||||
University of Tsukuba | ||||||||
著者名 |
北村, 祐貴
狩野, 均
× 北村, 祐貴 狩野, 均
|
|||||||
著者名(英) |
Yuuki, Kitamura
Hitoshi, Kanoh
× Yuuki, Kitamura Hitoshi, Kanoh
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年、インターネット上のスパムメールによる被害が深刻な問題になっている。そのため、スパムメールと正規メールを精度よく分類するためのスパムフィルタが多数提案されている。本論文では、分類の前処理として k-means 法によるクラスタリングを行うことにより分類精度を向上させる手法を提案する。前処理後の分類方法としては、通常のベイジアンフィルタまたは SVM フィルタを用いる。まず、学習に使うメール集合に対して k-means 法を適用し、その後クラスタごとにどのような特徴が表れているかを分析する。その結果に基づいてクラスタごとにフィルタの調整を行うことで分類精度の向上を達成した。TREC Public Corpus を用いた評価実験から、本手法の有効性を確認することができた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In the recent years, the damage due to spam email has become a serious problem on the internet. Many spam filters have been proposed for classifying spam emails and regular emails with sufficient accuracy have been done. In this paper, we propose the method to improve the accuracy of classification by using a pre-clustering with k-means. A usual Bayesian filter or a usual SVM filter is used as a classification method after the pre-clustering. First, the k-means is applied to the mail set used for learning, and it is analyzed what feature appears for every cluster. Improvement in classification accuracy was achieved by adjusting a filter for every cluster based on the result of the analysis. The experiments using TREC Public Corpus proved that the proposed method is effective as a spam filter. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA12055912 | |||||||
書誌情報 |
研究報告バイオ情報学(BIO) 巻 2009-BIO-19, 号 12, p. 1-8, 発行日 2009-12-10 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |