Item type |
Trans(1) |
公開日 |
2018-10-17 |
タイトル |
|
|
タイトル |
バースト現象を考慮したハッシュタグクラスタリング |
タイトル |
|
|
言語 |
en |
|
タイトル |
Hashtags Clustering for Discovering Bursty Topics |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[研究論文] Twitter,ハッシュタグ,バースト検出,クラスタリング |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
筑波大学大学院図書館情報メディア研究科 |
著者所属 |
|
|
|
筑波大学図書館情報メディア系 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Library,Information and Media Studies,University of Tsukuba |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Library,Information and Media Science,University of Tsukuba |
著者名 |
福山, 怜史
若林, 啓
|
著者名(英) |
Satoshi, Fukuyama
Kei, Wakabayashi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Twitterにおいてバースト現象が確認されたハッシュタグを収集することは,現実世界で流行している話題を抽出するうえで重要なアプローチである.しかしハッシュタグには表記揺れや様々な抽象度を持つタグが混在する性質があるため,同じ話題を指すハッシュタグが複数存在していたり,バーストしていないタグでもバーストタグと同じ話題を示す可能性がある.この問題に対する1つの解決策としてハッシュタグのクラスタリングが考えられるが,一度にすべてのハッシュタグのクラスタリングを行う処理は計算コストが高いため,効率的な手法が必要となる.本研究では,以上の問題を効率的に解決することを目的として,バーストタグのみクラスタリングを行い,生成したクラスタに非バーストタグを割り当てる手法を提案する.これによりクラスタリング処理を行うハッシュタグはバーストタグだけになるため,クラスタリングに要する実行時間が短縮できる.提案手法では,3σ法によってハッシュタグのバースト検出を行い,バーストタグをspherical k-means法によってクラスタリングし,生成したクラスタの中から最も重心の近いクラスタに非バーストタグを割り当てる.実験により,一度にすべてのハッシュタグをクラスタリングする手法と比較して,話題のまとまりの良さを保ちながら,実行時間が短縮できることを示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Collecting bursty hashtags in Twitter is a promising approach to discover popular topics in the world. However, a set of hashtags, which can be a mixture of bursty and non-bursty ones, potentially represents the same topic because the hashtags are user-generated labels that have inconsistent spellings and granularities. Therefore, we need to apply the method to aggregate hashtags that indicate the same topic. One of the method is clustering, but clustering over all hashtags in Twitter is very expensive regarding the computational cost. In order to solve this problem, we propose an efficient bursty hashtag clustering method that consists of two procedures; (1) a clustering of bursty hashtags, and (2) an assignment of each non-bursty hashtag to the nearest cluster. Since the clustering step processes only the bursty hashtags, the proposed method can reduce the total execution time compared with the method that conducts a clustering of all hashtags at the same time. We employ 3σ method and spherical k-means for the bursty hashtag detection and clustering. Experiments with human judgments suggest that our method keeps coherent tags and saves more times in comparison with the all hashtags clustering. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11464847 |
書誌情報 |
情報処理学会論文誌データベース(TOD)
巻 11,
号 3,
p. 35-46,
発行日 2018-10-17
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7799 |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |