2019 年 2019 巻 SWO-047 号 p. 02-
ウェブページからの情報抽出においては,HTMLタグの属性値やタグの繰り返し構造,タグの種類に基づく特徴などを用いた構造化が提案されている.しかし,属性値などはそのウェブページの要素が作る意味的な構造などと必ずしも対応があるわけではない.そこで本研究では,ウェブページを作成するにあたってその見た目が重要視されていると仮定し,ウェブページ内の各要素の表示座標位置とタグの繰り返し構造を活用した情報の構造化を試みた.結果として,見た目(各タグに対応する要素の座標情報)を用いて,属性値を用いるよりも高いrecallとprecisionを得た.