プロジェクト名

知的Webプロジェクト

メンバー

佐野 博之,辻野 友孝,土井 達也,鈴木 亮詞

キーワード

Webページ分割,Webマイニング,Web情報構造化,情報抽出

目的

Web閲覧者の観点によるWeb情報構造化のためのWebページ分割アルゴリズムの実現

概要

WebページはHTMLによって記述されている.HTML文書は各タグが木構造を構築するテキストデータであるが,定型的な形式を持たない半構造化文書である. 計算機を用いてWebページ上の情報を統合・検索するためには,多くの課題を解決する必要がある.

本研究プロジェクトでは,既存のWeb情報を閲覧者の観点から構造化することによって,効果的なWeb情報閲覧を支援するための新たな技術を確立することを目的とする. 1つのWebページには,メインコンテンツやサイトロゴ,広告,サイトメニューなど,複数のWebコンテンツが含まれる. 本研究では,これら閲覧者が意味のある情報単位として認識するWebコンテンツのことを,"Webブロック"と定義する. Webブロックには静的なコンテンツだけでなく,Webサービスのような動的なコンテンツも考慮する. 本研究では,計算機がHTMLからWebブロックを自動抽出し,HTMLを意味的な構造へと変換するWebページ分割アルゴリズムを提案する.

提案アルゴリズムの有用性を検証するために,エージェント技術に基づく知的Webブロック管理機構の実現を目指す. エージェント技術をWebブロック管理に応用することで,Webページを効果的にWebブロックへと変換し,再利用することが可能になる. 期待される成果として,Webページから特定のWebコンテンツを高い精度で収集可能になり,新たなWeb情報の再利用機構が構築できる. さらにセマンティックWeb技術を取り入れることで,Webコンテンツの意味処理を深めることができ,Web情報の再利用に関連して新しい研究分野を切り開くことが可能となる.


Copyright (c) 2010 Shintani Lab. All rights reserved.