Item type |
SIG Technical Reports(1) |
公開日 |
2015-05-18 |
タイトル |
|
|
タイトル |
日本語単語ベクトルの構築とその評価 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Construction and evaluation of Japanese word vectors |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
意味解析 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
ホンダ・リサーチ・インスティチュート・ジャパン |
著者所属 |
|
|
|
ホンダ・リサーチ・インスティチュート・ジャパン |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者所属(英) |
|
|
|
en |
|
|
Honda Research Institute Japan |
著者所属(英) |
|
|
|
en |
|
|
Honda Research Institute Japan |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者名 |
吉井, 和輝
Eric, Nichols
中野, 幹生
青野, 雅樹
|
著者名(英) |
Kazuki, Yoshii
Eric, Nichols
Mikio, Nakano
Masaki, Aono
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
単語ベクトルは,統計的自然言語処理で利用しやすい分散意味表現として近年盛んに用いられるようになってきた.しかしながら,今まで主に英語で評価されてきたため,英語以外の言語での有効性は不明である.本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タスクを用い,著名なオープンソースツールである word2vec (gensim の再実装) と GloVe を用いて構築した日本語単語ベクトルの評価を行った.単語の類推タスクでは,英語データで公表されている結果に近い結果を得たが,文完成のタスクでは,精度が大幅に減少した.本稿では,両タスクのエラー解析で明らかになった英語の単語ベクトルと日本語の単語ベクトルの性能差や,日本語特有の問題について調査した結果について述べる. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Word vectors have been the subject of a great deal of research in recent years, due to their effectiveness at representing meaning in statistical approaches. However, evaluation of word vectors has thus far been limited to a small number of tasks focusing on the English language. This paper aims to fill that gap by providing comprehensive evaluation of Japanese word vectors. We construct datasets for word analogy and sentence completion tasks and compare vectors constructed with two popular tools, word2vec and GloVe. Evaluation on the word analogy task produced comparable results to those reported on English data, while on the sentence completion task, results were significantly lower than those reported on English data. We conduct error analysis for both tasks and discuss potential factors contributing to differences in performance for English and Japanese. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2015-SLP-106,
号 4,
p. 1-8,
発行日 2015-05-18
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |