Item type |
Journal(1) |
公開日 |
2018-02-15 |
タイトル |
|
|
タイトル |
『国語研日本語ウェブコーパス』とその検索系『梵天』 |
タイトル |
|
|
言語 |
en |
|
タイトル |
‘NINJAL Web Japanese Corpus’ and Its Search System ‘BonTen’ |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[特集:人文科学とコンピュータ] コーパス,ウェブアーカイブ,検索系,アノテーション,ユーザインタフェース |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
人間文化研究機構国立国語研究所 |
著者所属 |
|
|
|
株式会社レトリバ |
著者所属 |
|
|
|
株式会社万葉 |
著者所属 |
|
|
|
人間文化研究機構国立国語研究所 |
著者所属(英) |
|
|
|
en |
|
|
NINJAL |
著者所属(英) |
|
|
|
en |
|
|
Retrieva, Inc. |
著者所属(英) |
|
|
|
en |
|
|
Everyleaf Corporation |
著者所属(英) |
|
|
|
en |
|
|
NINJAL |
著者名 |
浅原, 正幸
河原, 一哉
大場, 寧子
前川, 喜久雄
|
著者名(英) |
Masayuki, Asahara
Kazuya, Kawahara
Yasuko, Ohba
Kikuo, Maekawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した.コーパスの構築は,ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる.本稿では,『国語研ウェブコーパス』を概説するとともに,その検索系である『梵天』の機能について紹介する.この検索系は100億語規模のテキストコーパスを文字列だけでなく,形態素列・係り受け部分木に基づく問合せが可能である. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The National Institute for Japanese Language and Linguistics, Japan (NINJAL) compiled a web corpus for linguistic research comprising 25 billion words. The project is divided into four parts: page collection, linguistic analysis, development of the corpus concordance system, and preservation. This article presents a corpus concordance system named ‘BonTen’, which enables a ten-billion-scaled corpus to be queried by string, a sequence of morphological information or a subtree of the syntactic dependency structure. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 59,
号 2,
p. 299-305,
発行日 2018-02-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |