WEKO3
-
RootNode
アイテム
Webから新語を動的に獲得する形態素解析用辞書拡張方式
https://ipsj.ixsq.nii.ac.jp/records/18864
https://ipsj.ixsq.nii.ac.jp/records/188649933638d-d97d-4aca-ae23-786c55be59ca
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-01-26 | |||||||
タイトル | ||||||||
タイトル | Webから新語を動的に獲得する形態素解析用辞書拡張方式 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A dictionary extending method for morpheme analysis that acquires neologisms dynamically from Web | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
神奈川工科大学大学院 工学研究科 情報工学専攻 | ||||||||
著者所属 | ||||||||
神奈川工科大学 情報学部 | ||||||||
著者所属 | ||||||||
神奈川工科大学大学院 工学研究科 情報工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Kanagawa Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Faculty, Kanagawa Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Kanagawa Institute of Technology | ||||||||
著者名 |
三枝, 優一
古井, 陽之助
速水, 治夫
× 三枝, 優一 古井, 陽之助 速水, 治夫
|
|||||||
著者名(英) |
Yuichi, SAEGUSA
Younosuke, FURUI
Haruo, HAYAMI
× Yuichi, SAEGUSA Younosuke, FURUI Haruo, HAYAMI
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 辞書を用いる形態素解析においては,時代の流れと共に現われ変遷していく口語表現・省略表現・若者言葉等の新語を速やかに辞書に取り入れることで解析精度を高められると期待できる.そこで本研究では,Web上のblogを中心とした文書集合を字種別に切り分け新語候補とし,それらの出現頻度を既に辞書に登録されている語のそれと照合し評価することにより,新語を抽出する手法を提案する.実験では,カタカナのみ,あるいは漢字のみで構成される新語は,複合語を含め80%以上の精度で抽出することができた.また,出現頻度の低い新語についても一部抽出することができた.今後の課題としては,収集した新語の動的な品詞同定と,新語を辞書に取り入れることによる形態素解析精度向上の検証が挙げられる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We believe that a dictionary promptly adopting neologisms produced by new generations will achieve higher precision in morpheme analysis. Therefore, we propose a new method that collects text data from the Web (mainly from blogs), separates the text into candidates of neologisms, and estimates the frequency of each candidate in comparison with that of the words in the dictionary, to determine neologisms.In our experiment, the precision reached 80 percents or higher, concerning neologisms only of Katakana, only of Kanji, and their compounds. In addition, this method also extracted some of neologisms of low frequency. The future work includes investigation of speech identification and experimental evaluation of morpheme analysis improved by the dictionary that adopts neologisms. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10112482 | |||||||
書誌情報 |
情報処理学会研究報告データベースシステム(DBS) 巻 2007, 号 6(2007-DBS-141), p. 77-82, 発行日 2007-01-26 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |