WEKO3
-
RootNode
アイテム
日本語資料の全文テキストデータ分析ツールNDL Ngram Viewerの開発について
https://ipsj.ixsq.nii.ac.jp/records/223275
https://ipsj.ixsq.nii.ac.jp/records/2232750fd8abcf-0a24-4aa6-babc-f9be60614833
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2022 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2022-12-09 | |||||||
タイトル | ||||||||
タイトル | 日本語資料の全文テキストデータ分析ツールNDL Ngram Viewerの開発について | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Development of NDL Ngram Viewer, a tool for full-text data analysis of Japanese materials | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | OCR,全文テキストデータ,頻度分析,可視化,システムアーキテクチャ,OCR,Full Text Data,Frequency Analysis,Visualization,System Architecture | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
資源タイプ | conference paper | |||||||
著者所属 | ||||||||
国立国会図書館 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Diet Library/Japan | ||||||||
著者名 |
青池, 亨
× 青池, 亨
|
|||||||
著者名(英) |
Toru, Aoike
× Toru, Aoike
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 国立国会図書館 (NDL) は2021年度に実施した OCR テキスト化事業の成果である OCR テキス トデータを活用して, Google Books Ngram Viewer から着想を得た日本語版 ngram viewer を開発し, NDL Ngram Viewer と称して実験サービスとして 2022 年 5 月 31 日に一般公開した (https://lab.ndl.go.jp/ngramviewer/).本実験サービスは,日本語のフレーズが検索可能である点と,正 規表現をサポートした検索を行える点の2点において, 先行する類似サービスにない特色を備えてお り高い新規性を有する. 一般的な性能の計算資源のみで各種機能を実現するために, 大規模テキスト データの処理方法に多くの工夫を講じた. 本論文では, 検討の過程で実施した調査, 採用した実装の詳 細及びNDL Ngram Viewer を実際に利用した分析例について報告する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | The National Diet Library (NDL) developed a Japanese version of ngram viewer called NDL Ngram Viewer inspired by Google Books Ngram Viewer using OCR text data from the result of the OCR text conversion project conducted in FY2021. It was released to the public on May 31, 2022 (https://lab.ndl.go.jp/ngramviewer/). This service is highly innovative in two respects: it can search Japanese phrases, and it supports regular expressions. In order to realize this service using only general-performance computing resources, many innovations were made to the method of processing large-scale text data. In this paper, we report on the research conducted in the course of the study, details of the implementation adopted, and examples of actual analysis using the NDL Ngram Viewer. | |||||||
書誌情報 |
じんもんこん2022論文集 巻 2022, p. 79-84, 発行日 2022-12-02 |
|||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |