WEKO3
-
RootNode
アイテム
ベイズ階層言語モデルによる教師なし形態素解析
https://ipsj.ixsq.nii.ac.jp/records/61960
https://ipsj.ixsq.nii.ac.jp/records/61960317bd96f-1d53-45e2-9485-a3aa7d3adb2c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-03-18 | |||||||
タイトル | ||||||||
タイトル | ベイズ階層言語モデルによる教師なし形態素解析 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Bayesian Unsupervised Word Segmentation with Hierarchical Language Modeling | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories | ||||||||
著者名 |
持橋, 大地
山田, 武士
上田, 修功
× 持橋, 大地 山田, 武士 上田, 修功
|
|||||||
著者名(英) |
Daichi, Mochihashi
Takeshi, Yamada
Naonori, Ueda
× Daichi, Mochihashi Takeshi, Yamada Naonori, Ueda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では,教師データや辞書を全く必要とせず,あらゆる言語に適用できる教師なし形態素解析器および言語モデルを提案する。観測された文字列を,文字 n グラム ‐ 単語 n グラムをノンパラメトリックベイズ法の枠組で統合した確率モデルからの出力とみなし,MCMC 法と動的計画法を用いて,繰り返し 「単語」 を推定する。提案法は,あらゆる言語の生文字列から直接,高精度で未知語のない n グラム言語モデルを構築する方法ともみなすことができる。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a novel unsupervised morphological analyzer of arbitrary language that does not need any supervised segmentation nor dictionary. Assuming a string as the output from a nonparametric Bayesian hierarchical n-gram language model of words and characters, "words" are iteratively estimated during inference by a combination of MCMC and an efficient dynamic programming. This model can also be considered as a method to learn an accurate n-gram language model directly from characters without any "word" information. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2009, 号 36(2009-NL-190), p. 49-49, 発行日 2009-03-18 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |