人工知能学会第二種研究会資料
Online ISSN : 2436-5556
繰り返し構造を利用したWebページからの情報抽出
松下 京群
著者情報
研究報告書・技術報告書 フリー

2019 年 2019 巻 SWO-047 号 p. 02-

詳細
抄録

ウェブページからの情報抽出においては,HTMLタグの属性値やタグの繰り返し構造,タグの種類に基づく特徴などを用いた構造化が提案されている.しかし,属性値などはそのウェブページの要素が作る意味的な構造などと必ずしも対応があるわけではない.そこで本研究では,ウェブページを作成するにあたってその見た目が重要視されていると仮定し,ウェブページ内の各要素の表示座標位置とタグの繰り返し構造を活用した情報の構造化を試みた.結果として,見た目(各タグに対応する要素の座標情報)を用いて,属性値を用いるよりも高いrecallとprecisionを得た.

著者関連情報
© 2019 著作者
前の記事 次の記事
feedback
Top