Webインテリジェンスに基づくユーザの知的活動支援に関する研究
A Study on Structuring Web Contents for Web Intelligence
佐野博之

アブストラクト

本研究では Web インテリジェンス技術の応用によって,ユーザの知的活動を支援する ことを目的としている.ここでの Web インテリジェンス技術とは主に,Web ページを Web コンテンツ単位へと分割するための Web ページ分割手法,および,Web コンテン ツへのアノテーションなどの,Web 情報の構造化技術を差す.構造化された Web 情報を 利用し,Web コンテンツの再利用という観点からユーザの支援を行う. Web 情報の構造化に関連して,Web 上にはハイパーリンクと呼ばれるネットワーク構 造が存在する.Web における既存のハイパーリンク構造は Web ページ制作者の観点に基 づく構造である.既存の Web コンテンツ間に対して Web 閲覧者が自由にハイパーリン クを張ることが可能な機構を実現することによって,Web 上に存在する既存のハイパー リンク構造とは異なる,Web 閲覧者同士の新たなハイパーリンク構造の実現が期待でき る.Web 情報の構造化に関する研究は既に多数存在するが,閲覧者の観点に着目して構 造化を試みた研究は少ない. Web 情報を閲覧者の観点から構造化するために,閲覧者が Web 上の情報に対して自由 に自身の観点を記述できるようなシステムを試作した.具体的には,Web ページ中に存 在する Web コンテンツに対して閲覧者が付箋によるアノテーションを行い,Web コンテ ンツ間に対してハイパーリンクを作成することが可能なシステムとなっている.本シス テムの実現において,任意の Web コンテンツに対してアノテーションを行うための技術 や,アノテーション間の双方向リンクモデルについての研究を推進した.本システムに ついては,3 章で詳しく述べる. アノテーションの対象となった Web コンテンツを特定するために,Web ページを Web コンテンツ単位へと分割するための手法に関する研究を行った.Web ページは一般的に 複数のコンテンツから構成される.Web ページを記述するための HTML は半構造化文書 である.HTML 文書中には各コンテンツの明確な区切りは記述されていない.高精度な Web ページ分割により検索エンジンの精度向上など多くの利点が指摘されており,研究 の余地がある.Web ページ分割に関する研究は既に多数存在するが,面積や子ノード数 など,コンテンツ量に依存する情報を用いる.その結果,同一 Web サイト内の同じレイ アウトの Web ページから異なる分割結果が得られるという問題が存在した.本研究では Web コンテンツの見出し部分を Web コンテンツ間のセパレータとして利用し,Web ペー ジ分割を行う手法を提案した.見出し部分の抽出のために,J4.8 アルゴリズムによる決 定木学習によって分類器を生成した.評価実験により,分類器の分類精度は F 値 77.8%, 89.3%であることを確認した.得られた見出し部分を用いて最小ブロックの結合を行っ た結果,ニュースサイトのニュース記事部分に着目した場合,96.1%の精度でコンテンツ量に依存しない同一の分割結果が得られることを確認した.複数の Web ページ上で提 案手法を用いた Web ページ分割を行い,実験対象とした全ての Web ページで 1000 ミリ 秒以内に処理が完了することを示した.本手法の詳細は,4 章で説明する. 3 章,および 4 章で提案した手法を組み合わせることで,Web 情報を閲覧者の観点から 構造化することが可能となる.提案手法によって新たに構造化された Web の有用性を実 証するために,ユーザの知的活動を支援するためのアプリケーションを試作した.Web ページを Web ブロックへと分割し,Web ブロックをクラウド環境上へと保存することに よって Web 情報の再利用性を向上させるためのシステムを試作した.また,Web 情報を 元に議論を進めるための議論支援システムや,タブレット端末向けの会議支援システム などを試作した.提案システムを通じて,本研究で確立した技術が既存の Web コンテン ツの再利用性を向上させることを示した. 以下に,本論文の構成を述べる.1 章ではまず,本研究の学術的背景について述べる. 研究項目を設定し,それぞれの研究項目の目的について述べる.2 章では本研究を進める 上で必要となる基盤技術について述べる.また,既存研究について言及し,本研究の位 置づけを行う.3 章では付箋アノテーションシステムの実装について述べる.システムの 構成図やシステム実行例のスクリーンショットを用いて全体像についての説明を行った 後,DOM ツリーに基づく Web コンテンツの同定手法,および Web コンテンツ間へのハ イパーリンク作成について詳しく述べる.4 章では Web ページ分割手法について述べる. 分割手法を 3 ステップに分けて詳しく説明を行う.評価実験によって本手法の有効性を 示す.5 章では Web 情報を利用してユーザの知的活動を支援するためのアプリケーショ ンについて言及する.最後に 6 章で今後の課題を述べるとともに,本研究をまとめる.
The goal of the research is to support Web users in their intellectual activities based on Web intelligence technologies. The research mainly focused on Web structuring technology, such as annotation to the Web contents and Web page segmentation method that divides a Web page into Web contents. The structured Web enables users to easily reuse Web contents. The most famous structure on the Web is the hyperlink network. The network is based on Webmasters’ viewpoints. Webmasters generate hyperlinks to get higher ranking score on major Web search engines, to increase the number of their sites’ visitors, to improve affiliate sales on their sites, and so on. If there is a system that enables Web visitors to generate new hyperlinks between existing Web contents, a new hyperlink network will be created by Web viewers. That new network based on Web visitors’ viewpoints will completely differ from the existing hyperlink network. Many researchers try to restructure Web information, but there is little research that focuses on Web visitors’ viewpoints. In Chapter.3, the thesis proposes a Web annotation system that enables Web visitors to de- scribe their viewpoints to Web Information, to restructure Web information based on their viewpoints. The Web annotation system enables users to place stickies on Web contents in any existing Web pages. The stickies provided by the system enable users to point out specific contents on Web pages, as well as to generate bidirectional links between the stickies refer- encing the content. The position of the stickies in the system must correspond to the relevant content in such a way. Related systems decide the position of the stickies by using absolute coordinates to equal the position of the stickies to the content. However, if the absolute coor- dinates are used, a problem occurs that a sticky is not displayed at the precise position of the information that a user references with the sticky, which in turn presents a problem when a user shares stickies with other users. The thesis suggests a new method for displaying stick- ies, which ensures that each sticky is always displayed at the corresponding place. An agent adds bidirectional links between the stickies in order to cross-reference similar contents in the system. The agent monitors the stickies which users placed, and generates bidirectional links between the stickies that were placed on similar contents. Chapter.4 describes a new Web page segmentation method to extract the semantic structure from a Web page. A typical Web page consists of multiple elements with different types of features, such as main content, navigation panels, copyright and privacy notices, and adver- tisements. Web page segmentation is the division of the page into visually and semantically cohesive pieces. The proposed method is comprised of three steps. First, it divides the page into minimum blocks. Second, it classifies the blocks into two classes, title blocks or non- title blocks. Third, it assembles groups of these blocks into Web content blocks. While the minimum blocks can play many roles, this study focused on blocks that are the titles of vari- ous Web content bits. Decision tree learning is used with nine parameters for each minimum block to extract title blocks from Web pages. Experimental results showed that the decision tree generated by the J4.8 algorithm is the most suitable for this type of extraction, and the segmentation method based on title blocks can divide Web pages that are collected from the news site with 96.1 percent accuracy, independently of amount of content. The results also describes that the method can divide all Web pages that are used in the experiment less than 1000 milliseconds. Three applications are implemented with Web intelligence technologies to support Web users’ intellectual activities. The applications are described in Chapter.5. The first system is a Web contents extraction system. The system enables users to extract Web blocks from Web pages and save the blocks in a cloud computing environment to reuse extracted blocks. The second system is an application to support the discussion of regional issues based on an e-Participation Web platform O2. The third is a meeting support system for tablet computers. These systems show validities of the technologies proposed in the thesis. Users can easily reuse Web contents in existing Web pages for intellectual activities by using the systems.