Web ページ分割のための決定木学習を用いたタイトルブロック抽出
Extracting Title Blocks for Web Page Segmentation Algorithm using Decision Tree Learning
佐野博之, 白松俊, 大囿忠親, 新谷虎松

アブストラクト

本研究で提案するWebページ分割手法では,Webページを細分化ブロックという単位まで分割した後に, Webコンテンツの見出しとなるようなブロック(タイトルブロック)に着目して細分化ブロックの結合を行うことにより, Webページを意味的にまとまりのある単位へと分割する. 既存のWebページ分割手法の多くが,面積や子ノード数など,コンテンツ量に依存する情報を用いて結合を行っていた. その結果,同一Webサイト内の同じレイアウトのWebページから異なる分割結果が得られるという問題が存在した. 提案手法ではコンテンツ量に非依存な結合を行うために,タイトルブロックとそれに続くタイトルブロック以外のブロック(一般ブロック)を結合していく. そのためには,計算機によるタイトルブロックの抽出が課題となる. 計算機によるタイトルブロックの自動抽出を行うために,機械学習によって分類器を生成した. J4.8アルゴリズムによる決定木学習によって生成した分類器により,F値77.8%,89.3%でタイトルブロックと一般ブロックの抽出に成功した. 得られたタイトルブロックを用いて細分化ブロックの結合を行った結果, ニュースサイトのニュース記事部分に着目した場合,96.1%の精度でコンテンツ量に依存しない同一の分割結果が得られることを確認した.
We describe a new Web page segmentation method to extract the semantic structure from a Web page. A typical Web page consists of multiple elements with different functionalities, such as main content, navigation panels, copyright and privacy notices, and advertisements, and Web page segmentation is the division of the page into visually and semantically cohesive pieces. The method first divides a Web page into minimum blocks. Next, the method assembles minimum blocks into Web content blocks by using title blocks. While the minimum blocks can play many roles, in this study we have focused on the those that are the titles of various Web content bits. Web page designers assign a title block to each Web content on a page to make for easy reading, and these title blocks can be used as separators to segment the different parts of a Web page. The method assembles an initial title block followed by consecutive non-title blocks below it. We used decision tree learning with nine parameters for each minimum block to extract the title blocks from Web pages. Experimental results showed that the decision tree generated by the J48 algorithm is the most suitable for this type of extraction.