リンクと 文 脈 解 析 による Webページの 自 動 カテゴリー 化 Automatic Web Page Categorization by Link and Context Analysis Attardi, G., Gulli, A., and Sebastiani, F. Proceedings of THAI-99, European Symposium on Telematics, Hypermedia and Artificial Intelligence 発 表 者 : 森 正 輝
目 次! はじめに! Web 検 索 エンジンの 改 善! 文 脈 を 用 いたカテゴリー 分 け! 構 成! Spidering and HTML 構 造 解 析! 分 類 手 法! Theseus! 名 詞 句 の 利 用! サイトの 構 造 の 識 別! リンクの 識 別! 評 価! 問 題 点! 関 連 研 究! 依 存 の 有 無! 結 論
はじめに! ドキュメント 検 索 の 方 法! サーチエンジン 検 索 語 を 含 むページをランキング 表 示 [ 問 題 点 ] [ 解 決 方 法 ] [ 現 状 ] 非 常 に 長 い 検 索 結 果 Boolean query 3 語 以 下 の 単 語 で 検 索 Boolean queryは 滅 多 に 使 われない 利 用 者 が 利 用 者 本 人 の 興 味 を 言 葉 で 表 現 することは 難 しい! ディレクトリ 検 索 階 層 構 造 で 表 示 Webページを 適 切 なカテゴリーに 分 類 審 査 に 通 ったWebページのみ(Yahoo!など)
[ 問 題 点 ] Webページの 分 類 方 法 人 手 による 分 類 -Webページの 爆 発 的 増 加 -Webの 進 展 によりカテゴリ 分 けが 維 持 できない 古 いカテゴリー 新 しいカテゴリーの 出 現 ( 削 除 新 設 拡 大 解 釈 ) - 分 類 の 基 準 が 主 観 に 依 存 自 動 分 類 ( 文 書 とカテゴリーの 類 似 度 を 計 算 ) - 情 報 検 索 機 械 学 習 の 技 術 を 用 いたテキスト 分 類 最 も 類 似 する 代 表 点 のカテゴリーに 配 置 vector space retrieval [Salton 75] fuzzy retrieval [Tahani 76] - ニューラルネットワーク 言 語 意 味 解 析 [Autonomy], [InQuizit] Webの の 特 性 を 活 かしたものでなくマルチメディアを 扱 えない [ 提 案 方 法 ] HTMLドキュメントの 構 造 トポロジーを 利 用 リンクの 周 りの 文 書 を 解 析
Web 検 索 エンジンの 改 善! AltaVista! Refine 機 能 統 計 的 に 関 連 する 語 を 提 示! CCE(Content Classsification Engine) サイトマップから 情 報 を 読 み 込 み 解 析 文 書 に 応 じて 分 類 サーバのディレクトリ 構 造 を 調 査 文 書 がどのように 分 類 すべきか! Infoseek! 類 似 したページを 検 索! Norhern Light! 前 もって 分 類 専 門 家 による20,000 用 語 の 階 層 150の 文 書 タイプ 言 語 ソース(コレクション ホームページ 教 育 サイト,..)! Lycos! 自 動 的 に 分 類 リンクのみを 考 慮! ACAB [Attrardi 99]! 半 自 動 的 な 分 類 人 手 によるカテゴリーのプロフィールと 文 書 の 内 容 をマッチング
文 脈 を 用 いたカテゴリー 分 け! 仮 説! ドキュメントを 参 照 する Web ページ 内 容 について 充 分 なヒントを 含 む! 分 類 に 充 分 なヒント! HTMLの 構 造 を 考 慮! アンカーテキスト! ページタイトル セクションタイトル リスト 記 述! 文 書 Dの 内 容 文 書 Dに 関 する 記 述
構 成
Category tree! Arianna category tree! Arianna[ 検 索 エンジン]
SpideringとHTML 構 造 解 析! リンク 周 辺 の 文 書 の 抽 出! HTMLの 構 造 解 析! <TITLE>, <OL>,! <UL>, <DL>, 直 後 の 文 書! <Hn>, <A>. 間 の 文 書 例 URL Context Path( URL : Cn: C2 : C1 )
分 類 手 法! http://esg-www.mit.edu:8001/esgbio:! C3! C2! C1 M.I.T. Biology hypertextbook : introductory resource including information on chemistry, biochemistry, genetics, cell and molecular biology, and immunology : Yahoo! - Science:Biology! 重 み 付 け d l! n=3,1<l<n ( n 2) = 1 log2 l +! Path match vector! 初 期 値 0! フレーズの 数! マッチウェイト d l
! Neighborhood table (Word Net)!マッチウェイト( マッチウェイト(word netを を 利 用 )! 英 語 のワードネットをイタリア 語 仕 様 に! 同 じURLのpath vectorは 追 加
分 類 例 http://esg-www.mit.edu:8001/esgbio
! Spidering! Java! URL Context Pathを 生 成! 分 類! Java! Tree taggerと 相 互 に 作 用 Tree tagger 品 詞 解 析 例 Theseus
名 詞 句 の 利 用! 名 詞 句 を 考 慮 すれば 分 類 精 度 は 向 上 カテゴリータイトル sport event, 名 詞 句 football match! sportとfootball, eventとmatchを 比 較 平 均 を 取 り 値 とする! 実 験 で 証 明 済! 5%の 向 上! 例 inside the high school with the same name! high school カテゴリーに 分 類 名 詞 句 分 析! high school が 主 題 ではないと 検 出
サイトの 構 造 の 識 別! 分 類 を 避 けたいページ! サイト 検 索! メインページ! バナー 広 告! 一 般 的 なサービスへのリンク 構 造 的 なリンクを 無 視! 訪 れたページ 全 体 の90% 以 上 で 発 生
リンクの 識 別! Cgi! HREF= /cgi/go?http://www.inrete.it/classica 頻 度 の 高 いcgiリンクは 削 除
評 価! Theseus のパフォーマンス! 分 類 スピード 500サイト 27,000ページ 1 時 間 4 時 間 2 台 並 列 処 理! 精 度 (ヤフーカテゴリーと 比 較 ) サブカテゴリーが 増 加 更 に 精 度 が 向 上 より 精 度 の 高 い 分 類 生 物 学 ジャーナル 微 生 物 学 ジャーナル
問 題 点! Neighborhood tableの 依 存! Word Netを 用 いて 構 築 ( 英 語 イタリア 語 )! カテゴリーのタイトルが 複 数 の 単 語! クロストークが 起 こる カテゴリープロフィールの 作 成 人 手 対 話 型 ツール 学 習 テクニック(トレーニングセットが 必 要 )! カタログ 内 の 文 書 のランキング 方 式! 他 のサイトによる 分 類 を 高 く 評 価 すべき! ARC PageRankを 用 いる
! ARC 関 連 研 究! ハブ 値 オーソリティ 値 を 考 慮! Google! Page Rank! [Harmandas 97] イメージ 検 索! イメージを 含 むテキストを 示 す 文 書 を 解 析! Rankdex [Li 98]! アンカーテキストを 利 用
依 存 の 有 無! ARCのアルゴリズム! スーパーハブを 除 去 カタログベースの 検 索 エンジン [ 理 由 ] 他 の 検 索 エンジンの 恩 恵 を 拒 否 [ 疑 問 ] ハブとスーパーハブの 境 界 は? 提 案 手 法 は Webページの 評 価 と 捕 らえる
結 論! 自 動 的 なカテゴリー 分 け 手 法 を 提 案! 文 脈 上 の 情 報 を 利 用 Webトポロジー Web 文 書 のHTML 構 造 を 解 析 提 案 手 法 は 有 効 改 善 点 言 語 の 知 識 カテゴリープロフィールを 学 習 する 技 術
Attardiとのやり 取 り(マッチングウェイトに 関 して)! ----- Original Message ----- Dear Prof. Giuseppe Attardi My name is Masaki Mori. I am a master student of hosei university in japan. I read your paper.(automatic Web Page Categorization by Link and Context Analysis) I have one question. how did you decide the matching weight? using word net? Yours sincerely, --Masaki Mori! ----- Original Message ----- The weight is computed according to how closely terms are related (same, synomyn, hypernym, antonym). For English we extracted this information from WordNet. For Italian we used the translation of those from WordNet, with some hand tuning. Thank you for your interest. -- Attardi