WEKO3
-
RootNode
アイテム
『日本語歴史コーパス』の文脈化単語埋め込みに基づく意味空間
https://ipsj.ixsq.nii.ac.jp/records/208705
https://ipsj.ixsq.nii.ac.jp/records/2087054ee41c18-9b14-44f6-b7d6-85e3c233b195
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2020 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2020-12-05 | |||||||||
タイトル | ||||||||||
タイトル | 『日本語歴史コーパス』の文脈化単語埋め込みに基づく意味空間 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Distributional Semantics for “Corpus of Historical Japanese” Based on Contextual Word Embeddings | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | Corpus of Historical Japanese; Contextual Word Embeddings; Distributional Semantics | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||
資源タイプ | conference paper | |||||||||
著者所属 | ||||||||||
国立国語研究所 | ||||||||||
著者所属 | ||||||||||
目白大学 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
National Institute for Japanese Language and Linguistics, Mejiro University | ||||||||||
著者名 |
浅原, 正幸
× 浅原, 正幸
× 加藤, 祥
|
|||||||||
著者名(英) |
Masayuki, Asahara Sachi Kato
× Masayuki, Asahara Sachi Kato
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 内省が効かない古典語について研究を進めるにあたり,統語・語義的に類似用例を提示する技術が求められている.近年,自然言語処理の分野で単語埋め込みの研究が盛んになり,単語の出現毎に異なるベクトルを付与することにより統語・語義的類似度を計量する「文脈化単語埋め込み」の技術が確立した.本研究では220億語規模の現代語の『国語研日本語ウェブコーパス』の事前学習モデルを語彙素に基づき構築し,共通の語彙素が付与されている『日本語歴史コーパス』に文脈化単語埋め込みを付与した.本稿では,文脈化単語埋め込みに基づく意味空間により,古典語に対してどのような研究ができるかについて検討する. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | Because introspection is not effective for the analysis of ancient languages, a technique to syntactically and semantically present the word similarities is required. Recently, researches on word embeddings have been conducted in the field of natural language processing, and the technique of “contextual word embeddings” has been established to assign a different word vector for each word token. The contextual word embeddings enable us to calculate the cosine between two word (or sentence) tokens that define syntactic and semantic similarities. We developed a pre-training model of BERT based on lexemes from the 22 billion token “NINJAL Web Japanese Corpus” and assigned contextual word vectors on the “Corpus of Historical Japanese” using common lexeme standards. This study explored the effect of contextual word embeddings on historical linguistic studies. | |||||||||
書誌情報 |
じんもんこん2020論文集 巻 2020, p. 241-246, 発行日 2020-12-05 |
|||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |