WEKO3
-
RootNode
アイテム
日本語固有表現抽出における冗長的な形態素解析の利用
https://ipsj.ixsq.nii.ac.jp/records/48328
https://ipsj.ixsq.nii.ac.jp/records/4832865bb036c-be24-42f1-b4f3-f4a736799d06
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-01-20 | |||||||
タイトル | ||||||||
タイトル | 日本語固有表現抽出における冗長的な形態素解析の利用 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Japanese Named Entity Extraction with Redundant Morphological Analysis | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Infomation Science, Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Infomation Science, Nara Institute of Science and Technology | ||||||||
著者名 |
浅原, 正幸
松本, 裕治
× 浅原, 正幸 松本, 裕治
|
|||||||
著者名(英) |
Masayuki, Asahara
Yuji, Matsumoto
× Masayuki, Asahara Yuji, Matsumoto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表現データを用いて評価実験(交差検定 5-fold)を行った結果,F 値約 88% という高精度の結果が得られた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Named Entity (NE) extraction is a task in which proper nouns and numerical information are extracted from texts. A method of cascading morphological analysis and chunking is usually used for NE extraction in Japanese. However, such a method cannot extract smaller NE units than morphological analyzer outputs. To cope with the unit problem, we propose a character-based chunking method. Firstly, input sentences are redundantly analyzed by a statistical analyzer. Secondly, the input sentences are segmented into characters. The characters are annotated redundantly with the character types and POS tags of the top n best answers that are given by the statistical morphological analyzer. Finally, we do chunking deterministically based on support vector machines. The method can introduce richer features for chunkers than the method based on single morphological analysis result. We apply our method to IREX NE task using CRL Named Entities data. The cross validation result of the F-value being 88% shows the effectiveness of the method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2003, 号 4(2002-NL-153), p. 49-56, 発行日 2003-01-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |