人工知能学会第二種研究会資料
Online ISSN : 2436-5556
単語の分散表現を用いた文書クラスタのラベル推定
淀川 翼加登 一成伊東 栄典
著者情報
研究報告書・技術報告書 フリー

2019 年 2019 巻 SWO-049 号 p. 03-

詳細
抄録

マーケティングでは,対象者の集合を,クラスタリングで分割し,出来た小規模部分集合で分析する場合がある。この場合,クラスタリングされた部分集合が,どのような集合であるかは人手で利用者属性を分析していた。書籍の内容に基づく推薦では,大規模文書集合をクラスタリングで小さい規模に分割して処理したい。クラスタリング出力後の部分文書集合の属性や意味は人間が読めば理解できる。しかし文書数が多くなると人間による分析は困難であるため,機械的な属性・意味推定が欲しい。本研究では意味的に分割されたラベル付き文書集合を対象に,部分集合内の文書が含む単語から集合のラベル推定する手法を検討する。本研究で提案する手法は3段階から成る。大規模コーパスにFasttextを適用し,各単語の分散表現を得ておく。次に,SVM判別器で重要語を抽出する。ある文書集合と他を区別するSVM分類器を作成しSVMの重みが大きな単語を重要語する。最後に,ある文書集合の重要語と,分散表現の類似度が近い単語を,その集合のラベル候補とする。実験として,分類問題に用いられるラベル付き文書集合である20newsgroupに適用した。また日本語文書としてライブドアニュースコーパスにも適用した。本論文では,提案手法と,実験の結果を報告する。

著者関連情報
© 2019 著作者
前の記事 次の記事
feedback
Top