伊藤太樹,浅見昌平
Page Segmentation,Webマイニング,Webページレイアウト,セマンティックWeb
Webページに配置されたコンテンツの抽出,および分析をする
近年,Webページはマルチトピック化されており,1つのWebページに複数のコンテンツを配置しているサイトが増加している.そのようなWebページをコンテンツ単位に分割し,それらのコンテンツを解析することが本プロジェクトの目的である. 抽出したコンテンツは,様々なWebアプリケーションに利用できると考える.例えば,携帯電話のような小さな画面しか持たない機器でWebページを閲覧する際に,重要なコンテンツのみを画面上に描画するようなWeb閲覧支援システムが挙げられる.また,コンテンツの位置や関連を考慮することでWeb検索の精度を向上させることや,自動ラッパー構築のための前処理などにも応用可能である.
しかし,これらのコンテンツは,HTMLには陽に記述されず,Webページのレイアウトによって表現されるため,抽出が困難となる.そこで,Webページのレイアウト情報をヒューリスティックに評価したものを基盤とし,様々な手法を用いてコンテンツを抽出している.いくつかの実験では,既存の研究より高い精度で抽出が成功しており,それらを利用したアプリケーションの開発が期待できる.
Copyright (c) 2008 Shintani Lab. All rights reserved.