WEKO3
-
RootNode
アイテム
近代日本小説家8人による文章のn - gram分布を用いた著者判別
https://ipsj.ixsq.nii.ac.jp/records/48634
https://ipsj.ixsq.nii.ac.jp/records/486343dc92fea-5134-4edc-8d01-7b846af0ee6d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2000-06-01 | |||||||
タイトル | ||||||||
タイトル | 近代日本小説家8人による文章のn - gram分布を用いた著者判別 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Authorship Detection of Sentences by 8 Japanese Modern Authors via N - gram Distribution | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学大学院理学系研究科情報科学専攻 | ||||||||
著者所属 | ||||||||
東京大学情報基盤センタースーパーコンピューティング部門 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Science, Faculty of Science, Graduate School of the University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology Center, Computer Centre Division, the University of Tokyo | ||||||||
著者名 |
松浦, 司
金田, 康正
× 松浦, 司 金田, 康正
|
|||||||
著者名(英) |
Tsukasa, Matsuura
Yasumasa, Kanada
× Tsukasa, Matsuura Yasumasa, Kanada
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では、文章中のn-gram分布状況を著者の特徴量として、文章の著者を推定する手法を提案する。文章中におけるn-gram出現確率分布関数間の非類似度に基づいて著者推定を行うが、非類似度は提案関数dissimの他、Tankardの手法、ダイヴァージェンス、およびクロスエントロピーを用いてそれぞれ計算し、4関数の著者判別精度を比較した。1-gramから10-gram分布を特徴量とし、日本近代作家8人の92作品を対象とする著者推定実験結果について報告する。本手法は文章に関する付加的な情報を全く必要とせず形態素解析などを要求しない。また特定の言語および文章の性質を利用しないため、多くの言語・テキストにそのまま適用可能であることが期待できる。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We propose a method for authorship detection based comparisons between n-gram distributions in sentences. The authors are detected via dissimilarity between probability distribution functions of n-grams in sentences. We have compared four functions to measure the dissimilarity, i.e. dissim(proposed function), Tankard's method, divergence and cross entropy. We report the experiments where the 92 works in total by 8 Japanese modern authors are analyzed via from 1-gram to 10-gram distribution. Our method requires no additional information on texts, i.e. no preliminary analyses. All the machine-readable texts can be attributed by the same method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2000, 号 53(2000-NL-137), p. 1-8, 発行日 2000-06-01 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |