平田紀史
トピック分析,自然言語
Web上の時系列データであるニュース記事を対象としたトピック分析
現在,ポータルサイトや新聞社,通信社などのサイトで, 大量のニュース記事が配信されている.このような状況下で は興味のある分野における流行や変化を把握することは困難である.また,あるトピックに関する一連のニュースは,時系列に沿って遷移する.トピックの遷移を検出し,遷移を観察することで,一連のニュースの流れを俯瞰しやすくなると考える.
本プロジェクトでは,Web上の時系列データであるニュース記事を対象にトピック分析を行う.トピック分析として,文書集合からのトピックの検出(トピックへの分類),各トピックに対応する特徴的な単語群の抽出,および時系列でのトピックの遷移を検出する.具体的には,記事の出現頻度,単語の評価値の変化,トピック追跡を行う.
Copyright (c) 2008 Shintani Lab. All rights reserved.