概 要 Web2.0 に 代 表 される 新 しい 情 報 発 信 の 仕 組 みにより, 企 業 や 商 品 に 対 する 一 般 ユーザの 評 価 は, 他 の 一 般 ユーザだけではなく, 企 業 にとっても 貴 重 な 情 報 源 となっている.しか し, 企 業 や 商 品 の 評 価 に



Similar documents
1

ていることから それに 先 行 する 形 で 下 請 業 者 についても 対 策 を 講 じることとしまし た 本 県 としましては それまでの 間 に 未 加 入 の 建 設 業 者 に 加 入 していただきますよう 28 年 4 月 から 実 施 することとしました 問 6 公 共 工 事 の

第1回

0605調査用紙(公民)

(4) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 国 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている.

富士山チェックリスト

(1)1オールゼロ 記 録 ケース 厚 生 年 金 期 間 A B 及 びCに 係 る 旧 厚 生 年 金 保 険 法 の 老 齢 年 金 ( 以 下 旧 厚 老 という )の 受 給 者 に 時 効 特 例 法 施 行 後 厚 生 年 金 期 間 Dが 判 明 した Bは 事 業 所 記 号 が

質 問 票 ( 様 式 3) 質 問 番 号 62-1 質 問 内 容 鑑 定 評 価 依 頼 先 は 千 葉 県 などは 入 札 制 度 にしているが 神 奈 川 県 は 入 札 なのか?または 随 契 なのか?その 理 由 は? 地 価 調 査 業 務 は 単 にそれぞれの 地 点 の 鑑 定

2 出 願 資 格 審 査 前 記 1の 出 願 資 格 (5) 又 は(6) により 出 願 を 希 望 する 者 には, 出 願 に 先 立 ち 出 願 資 格 審 査 を 行 いますので, 次 の 書 類 を 以 下 の 期 間 に 岡 山 大 学 大 学 院 自 然 科 学 研 究 科 等

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 き 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている

2 役 員 の 報 酬 等 の 支 給 状 況 役 名 法 人 の 長 理 事 理 事 ( 非 常 勤 ) 平 成 25 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 16,936 10,654 4,36

1 書 誌 作 成 機 能 (NACSIS-CAT)の 軽 量 化 合 理 化 電 子 情 報 資 源 への 適 切 な 対 応 のための 資 源 ( 人 的 資 源,システム 資 源, 経 費 を 含 む) の 確 保 のために, 書 誌 作 成 と 書 誌 管 理 作 業 の 軽 量 化 を 図

研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基づく情報推薦

スライド 1

平成19年9月改定

Taro-H19退職金(修正版).jtd

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 概 要 国 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている 総 合 的

SXF 仕 様 実 装 規 約 版 ( 幾 何 検 定 編 ) 新 旧 対 照 表 2013/3/26 文 言 変 更 p.12(1. 基 本 事 項 ) (5)SXF 入 出 力 バージョン Ver.2 形 式 と Ver.3.0 形 式 および Ver.3.1 形 式 の 入 出 力 機 能 を

Microsoft Word 役員選挙規程.doc

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63>

Microsoft Word - 全国エリアマネジメントネットワーク規約.docx

調 査 結 果 トピック1: 性 年 代 別 利 用 率 の 利 用 率 は 男 女 ともに 各 年 代 で 大 きく 伸 長 している 2011 年 9 月 の 調 査 では の 年 代 別 利 用 率 は 男 女 とも が 最 も 高 く が 23.9% が 20.5%だったが 今 年 の 調

労働時間と休日は、労働条件のもっとも基本的なものの一つです

Microsoft PowerPoint - 報告書(概要).ppt

( 別 途 調 査 様 式 1) 減 損 損 失 を 認 識 するに 至 った 経 緯 等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列 固 定

経験発表

2 役 員 の 報 酬 等 の 支 給 状 況 平 成 27 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 役 名 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 2,142 ( 地 域 手 当 ) 17,205 11,580 3,311 4 月 1

リング 不 能 な 将 来 減 算 一 時 差 異 に 係 る 繰 延 税 金 資 産 について 回 収 可 能 性 がないも のとする 原 則 的 な 取 扱 いに 対 して スケジューリング 不 能 な 将 来 減 算 一 時 差 異 を 回 収 できることを 反 証 できる 場 合 に 原 則

スライド 1

検 討 検 討 の 進 め 方 検 討 状 況 簡 易 収 支 の 世 帯 からサンプリング 世 帯 名 作 成 事 務 の 廃 止 4 5 必 要 な 世 帯 数 の 確 保 が 可 能 か 簡 易 収 支 を 実 施 している 民 間 事 業 者 との 連 絡 等 に 伴 う 事 務 の 複 雑

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

2 平 均 病 床 数 の 平 均 病 床 数 では 療 法 人 に 対 しそれ 以 外 の 開 設 主 体 自 治 体 社 会 保 険 関 係 団 体 その 他 公 的 の 規 模 が 2.5 倍 程 度 大 きく 療 法 人 に 比 べ 公 的 病 院 の 方 が 規 模 の 大 き いことが

2. 会 計 規 程 の 業 務 (1) 規 程 と 実 際 の 業 務 の 調 査 規 程 や 運 用 方 針 に 規 定 されている 業 務 ( 帳 票 )が 実 際 に 行 われているか( 作 成 されている か)どうかについて 調 べてみた 以 下 の 表 は 規 程 の 条 項 とそこに

職 員 の 平 均 給 与 月 額 初 任 給 等 の 状 況 (1) 職 員 の 平 均 年 齢 平 均 給 料 月 額 及 び 平 均 給 与 月 額 の 状 況 ( 平 成 年 月 1 日 現 在 ) 1 一 般 行 政 職 福 岡 県 技 能 労 務 職 歳 1,19,98 9,9 歳 8,

有 料 老 ホーム ( ) ( 主 として 要 介 護 状 態 にある を 入 居 させるも のに 限 る ) 第 29 条 ( 届 出 等 ) 第 二 十 九 条 有 料 老 ホーム( 老 を 入 居 させ 入 浴 排 せつ 若 しくは 食 事 の 介 護 食 事 の 提 供 又 はその 他 の

Ⅰ 調 査 の 概 要 1 目 的 義 務 教 育 の 機 会 均 等 その 水 準 の 維 持 向 上 の 観 点 から 的 な 児 童 生 徒 の 学 力 や 学 習 状 況 を 把 握 分 析 し 教 育 施 策 の 成 果 課 題 を 検 証 し その 改 善 を 図 るもに 学 校 におけ

Microsoft Word - 養生学研究投稿規定(改)

慶應義塾利益相反対処規程

(3) 小 単 元 の 指 導 と 評 価 の 計 画 小 単 元 第 11 章 税 のあらまし の 指 導 と 評 価 の 計 画 ( 四 次 確 定 申 告 制 度 抜 粋 ) 関 心 意 欲 態 度 思 考 判 断 技 能 表 現 知 識 理 解 小 単 元 の 評 価 規 準 税 に 関 す

2.JADA 検 査 対 象 者 登 録 リストへの 登 録 除 外 引 退 復 帰 2.1 JADA 検 査 対 象 者 登 録 リストへの 登 録 及 び 除 外 は 原 則 として 以 下 に 示 す 対 応 によりおこな うものとする 登 録 国 内 競 技 連 盟 からの 登 録 申 請

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

一般競争入札について


<6D313588EF8FE991E58A778D9191E5834B C8EAE DC58F4992F18F6F816A F990B32E786C73>

[2] 控 除 限 度 額 繰 越 欠 損 金 を 有 する 法 人 において 欠 損 金 発 生 事 業 年 度 の 翌 事 業 年 度 以 後 の 欠 損 金 の 繰 越 控 除 にあ たっては 平 成 27 年 度 税 制 改 正 により 次 ページ 以 降 で 解 説 する の 特 例 (

平成16年年金制度改正 ~年金の昔・今・未来を考える~

3. 選 任 固 定 資 産 評 価 員 は 固 定 資 産 の 評 価 に 関 する 知 識 及 び 経 験 を 有 する 者 のうちから 市 町 村 長 が 当 該 市 町 村 の 議 会 の 同 意 を 得 て 選 任 する 二 以 上 の 市 町 村 の 長 は 当 該 市 町 村 の 議

SNSとLMSの強みと弱み 統合環境を目指して (教育学部紀要投稿用)

私立大学等研究設備整備費等補助金(私立大学等

スライド 1

2 県 公 立 高 校 の 合 格 者 は このように 決 まる (1) 選 抜 の 仕 組 み 選 抜 の 資 料 選 抜 の 資 料 は 主 に 下 記 の3つがあり 全 高 校 で 使 用 する 共 通 の ものと 高 校 ごとに 決 めるものとがあります 1 学 力 検 査 ( 国 語 数


第316回取締役会議案

<819A955D89BF92B28F BC690ED97AA8EBA81418FA48BC682CC8A8890AB89BB816A32322E786C7378>

Microsoft Word - 19年度(行情)答申第081号.doc

預 金 を 確 保 しつつ 資 金 調 達 手 段 も 確 保 する 収 益 性 を 示 す 指 標 として 営 業 利 益 率 を 採 用 し 営 業 利 益 率 の 目 安 となる 数 値 を 公 表 する 株 主 の 皆 様 への 還 元 については 持 続 的 な 成 長 による 配 当 可

主要生活道路について

募集新株予約権(有償ストック・オプション)の発行に関するお知らせ

答申第585号

1 変更の許可等(都市計画法第35条の2)

数学

IAF ID x:2010 International Accreditation Forum, Inc. Page 2 of 8 国 際 認 定 機 関 フォーラム(IAF)は 適 合 性 評 価 サービスを 提 供 する 機 関 の 認 定 のためのプログラ ムを 運 営 している この 認 定

神の錬金術プレビュー版

【 新 車 】 新聞・チラシ広告における規約遵守状況調査結果

学校教育法等の一部を改正する法律の施行に伴う文部科学省関係省令の整備に関する省令等について(通知)

「報・連・相」の方法

Microsoft Word - 佐野市生活排水処理構想(案).doc

Microsoft PowerPoint - MVE pptx

<4D F736F F F696E74202D2082C882E982D982C DD8ED88EE688F882CC82B582AD82DD C668DDA9770>

スライド 1

<4D F736F F D F8D828D5A939982CC8EF68BC697BF96B38F9E89BB82CC8A6791E52E646F63>

平成21年9月29日

学校法人日本医科大学利益相反マネジメント規程

本 校 の 沿 革 昭 和 21 年 昭 和 49 年 昭 和 54 年 昭 和 60 年 平 成 9 年 平 成 11 年 平 成 18 年 北 海 道 庁 立 農 業 講 習 所 として 発 足 北 海 道 立 農 業 大 学 校 に 改 組 修 業 年 限 を1 年 制 から2 年 制 に 改

医療費控除の入力編

表紙

(4) ラスパイレス 指 数 の 状 況 H H H5.4.1 ( 参 考 値 ) 97.1 H H H H5.4.1 H H5.4.1 ( 参 考

平成25年度 独立行政法人日本学生支援機構の役職員の報酬・給与等について

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63>

別 紙 第 号 高 知 県 立 学 校 授 業 料 等 徴 収 条 例 の 一 部 を 改 正 する 条 例 議 案 高 知 県 立 学 校 授 業 料 等 徴 収 条 例 の 一 部 を 改 正 する 条 例 を 次 のように 定 める 平 成 26 年 2 月 日 提 出 高 知 県 知 事 尾

一 般 行 政 職 給 料 表 の 状 況 ( 平 成 年 月 1 日 ) ( 単 位 : ) 1 級 級 級 級 5 級 級 1 号 給 の 給 料 月 額 15, 185,8,9 1,9 89,, 最 高 号 給 の 給 料 月 額,7 9, 5, 9,1,5, ( 注 ) 給 料 月 額 は

2 一 般 行 政 職 給 料 表 の 状 況 ( 平 成 23 年 4 月 1 日 現 在 ) 1 号 給 の 給 料 月 額 最 高 号 給 の 給 料 月 額 1 級 2 級 3 級 4 級 5 級 ( 単 位 : ) 6 級 7 級 8 級 135, , ,900 2

(Microsoft Word - \220\340\226\276\217\221.doc)

3 圏 域 では 県 北 沿 岸 で2の 傾 向 を 強 く 見 てとることができます 4 近 年 は 分 配 及 び 人 口 が 減 少 している 市 町 村 が 多 くなっているため 所 得 の 増 加 要 因 を 考 える 場 合 は 人 口 減 少 による 影 響 についても 考 慮 する

Taro-学校だより学力調査号.jtd

< F2D CA795F18CB48D E B835E816A20>

<4D F736F F D AC90D1955D92E CC82CC895E DD8C D2816A2E646F63>

Taro-別紙1 パブコメ質問意見とその回答

研究者総覧システム

積 載 せず かつ 燃 料 冷 却 水 及 び 潤 滑 油 の 全 量 を 搭 載 し 自 動 車 製 作 者 が 定 める 工 具 及 び 付 属 品 (スペアタイヤを 含 む )を 全 て 装 備 した 状 態 をいう この 場 合 に おいて 燃 料 の 全 量 を 搭 載 するとは 燃 料

4 教 科 に 関 する 調 査 結 果 の 概 況 校 種 学 年 小 学 校 2 年 生 3 年 生 4 年 生 5 年 生 6 年 生 教 科 平 均 到 達 度 目 標 値 差 達 成 率 国 語 77.8% 68.9% 8.9% 79.3% 算 数 92.0% 76.7% 15.3% 94

Taro-2220(修正).jtd

Microsoft Word - 19年度(行情)答申第076号.doc

(7) 公 共 施 設 における 建 築 物 (1 敷 地 における 延 床 面 積 の 合 計 が 5,000 m2 以 上 )の 劣 化 につ いての 調 査 ( 劣 化 度 調 査 健 全 度 調 査 等 )の 実 績 があること (8) 公 共 施 設 における 建 築 物 (1 敷 地 に

Ⅰ. は じ め に 27 年 か ら の 不 況 の 影 響 で 不 動 産 競 売 物 件 が 増 加 し て い る 29 年 9 月 は 全 国 で 8 件 を 超 え た ( 前 年 同 月 は 約 6 件 ) ま た 不 動 産 競 売 の 情 報 が イ ン タ ー ネ ッ ト で 公

<4D F736F F D2088CF88F589EF814395AA89C889EF E E834F838B815B83768B4B96F E322E323089FC92E8816A2E646F63>

第 1 条 適 用 範 囲 本 業 務 方 法 書 は 以 下 の 性 能 評 価 に 適 用 する (1) 建 築 基 準 法 施 行 令 ( 以 下 令 という ) 第 20 条 の7 第 1 項 第 二 号 表 及 び 令 第 20 条 の 8 第 2 項 の 認 定 に 係 る 性 能 評

<4D F736F F D208E9197BF A955B895E93AE82CC8B4B90A C982C282A282C42E646F6378>

Microsoft PowerPoint - 総合型DB資料_県版基金説明用.pptx

は 固 定 流 動 及 び 繰 延 に 区 分 することとし 減 価 償 却 を 行 うべき 固 定 の 取 得 又 は 改 良 に 充 てるための 補 助 金 等 の 交 付 を 受 けた 場 合 にお いては その 交 付 を 受 けた 金 額 に 相 当 する 額 を 長 期 前 受 金 とし

Transcription:

2009 年 度 修 士 論 文 アンカーテキストとリンク 構 造 を 用 いた 同 義 語 抽 出 手 法 提 出 日 :2010 年 2 月 1 日 指 導 : 山 名 早 人 教 授 早 稲 田 大 学 大 学 院 基 幹 理 工 学 研 究 科 情 報 理 工 学 専 攻 学 籍 番 号 :5108B040-7 黒 木 さやか

概 要 Web2.0 に 代 表 される 新 しい 情 報 発 信 の 仕 組 みにより, 企 業 や 商 品 に 対 する 一 般 ユーザの 評 価 は, 他 の 一 般 ユーザだけではなく, 企 業 にとっても 貴 重 な 情 報 源 となっている.しか し, 企 業 や 商 品 の 評 価 に 関 する Web ページは,それらの 略 称 や 俗 称 を 用 いて 書 かれている ことが 多 く, 検 索 クエリに 正 式 名 称 を 入 力 しただけでは 取 得 することができない.そこで 本 論 文 では,アンカーテキストとリンク 構 造 を 用 いることで, 略 称 や 俗 称 などにも 対 応 し た 同 義 語 抽 出 の 手 法 を 提 案 する. 関 連 研 究 としてクエリの 翻 訳 語 を 発 見 する 研 究 が 存 在 す るが, 同 手 法 により 作 成 される 翻 訳 語 ランキングは, 翻 訳 語 をトップにすることを 目 的 と しており, 頻 出 語 が 上 位 にランキングされるようになっている. 従 って, 頻 出 ではない 略 称 や 俗 称 などの 同 義 語 を 効 率 的 に 抽 出 することは 難 しい. 提 案 手 法 では, 既 存 手 法 よりも 多 くの 同 義 語 を 抽 出 すると 同 時 に, 新 しい 同 義 語 候 補 ランキングの 指 標 を 提 案 し, 同 義 語 抽 出 の 効 率 化 を 試 みる. 実 験 では 既 存 手 法 に 比 べ, 精 度 を 保 った 上 で, 網 羅 性 を 約 15% 向 上 させることができた. Due to the new mechanism of information transmissions, such as Web2.0, general users evaluations for companies and products have become a valuable information source for companies as well as for the other users. However, Web pages containing companies evaluations are written using either abbreviated names or common slang so that we cannot obtain those pages by inputting official names as the search engines query terms. In this paper, we propose the method to extract synonyms including abbreviated names or slang using anchor texts and link structures. There is related research which finds the translations of Web query terms, but this method aims to rank the query's translated term as the Top-1 and frequent terms rank high in the ranking. Therefore efficient extraction of the synonyms which are not frequent, like abbreviated names or slang, is difficult. In our way to make synonyms rankings, we try to improve the effectiveness of extracting synonyms than the existing research, as well as trying to keep the recall rates at the same time. In our experiments, we can estimate Top-200 ranking of synonyms, the result is a 15% increase in the recall while we are keeping the accuracy. 1

目 次 第 1 章 はじめに...4 第 2 章 関 連 研 究...6 2.1 概 要...6 2.2 クエリ 拡 張 に 関 する 研 究...6 2.2.1 シソーラスを 用 いたクエリ 拡 張...7 2.2.2 検 索 エンジンのクエリログを 用 いたクエリ 拡 張...9 2.3 コミュニティ 抽 出 に 関 する 研 究... 11 2.3.1 trawling... 12 2.3.2 DBG(Dense Bipartite Graph)を 用 いた Web コミュニティ 抽 出... 14 2.3.3 Max Flow アルゴリズムによる Web コミュニティ 抽 出... 16 2.4 アンカーテキストとリンク 構 造 を 用 いた 研 究... 17 第 3 章 既 存 研 究 の 問 題 点 と 解 決 策... 18 3.1 提 案 手 法 で 抽 出 する 同 義 語... 18 3.2 既 存 研 究 [9]の 問 題 点... 19 3.3 Web のリンク 構 造 に 関 する 問 題 点... 20 3.3.1 全 ての 関 連 URL を 抽 出 できていない... 20 3.3.2 URL の 分 散 により, 類 似 度 が 低 下 する... 21 3.3.3 誤 ったリンク 情 報 により 同 義 語 候 補 が 増 大 する... 22 第 4 章 提 案 手 法... 23 4.1 提 案 システムの 概 要... 23 4.2 共 起 強 度 による 同 義 語 候 補 のランキング... 25 4.3 Relevance-Feedback を 用 いた 同 義 語 候 補 のリランキング... 26 4.3.1 リランキングの 概 要... 26 4.3.2 対 象 物 の 同 義 語 候 補 に 対 し 人 手 で を 付 与... 28 4.3.3 Relevance-Feedback によるリランキング... 29 第 5 章 実 験 評 価... 32 5.1 実 験 概 要... 32 5.1.1 実 験 データ... 32 5.1.2 実 験 に 用 いたクエリ... 33 5.1.3 正 解 セット... 33 5.1.4 評 価 ユーザ... 33 5.2 各 手 法 の 比 較 実 験... 34 5.3 クエリのジャンルによる 比 較 実 験... 35 5.4 ユーザによるリランキングの 比 較 実 験... 36 2

5.5 リランキングによる 同 義 語 ランキングの 変 化... 37 5.5.1 同 義 語 数 の 変 化... 37 5.5.2 アンカーテキストのマージ,URL マージによる 影 響... 39 5.5.3 アンカーテキストの 除 去 による 影 響... 43 第 6 章 おわりに... 46 3

第 1 章 はじめに 近 年 インターネットが 大 幅 に 普 及 したことにより, 企 業 や 商 品 に 対 する 評 価 が Web 上 で 多 く 見 られるようになっている.これまでの 一 般 ユーザは, 自 らの 評 価 を 公 に 示 す 機 会 に 恵 まれていなかったが,インターネットを 用 いることで 自 由 に 発 言 することが 可 能 となっ た.Web2.0 の 概 念 で 表 わされるように,ユーザの 評 価 はそれらを 閲 覧 する 他 のユーザに 影 響 を 与 え, 企 業 や 商 品 のイメージを 決 定 付 けることにつながっている. 企 業 側 から 見 ても Web の 情 報 は, 自 社 に 関 する 忌 憚 なき 意 見 を 抽 出 できる, 貴 重 な 情 報 源 である. 自 社 に 関 する 情 報 を 抽 出 するためには, 特 定 の 口 コミ 掲 示 板 を 参 照 するか, 検 索 エンジ ンを 用 いる 方 法 が 一 般 的 である. 商 用 検 索 エンジンは,クエリの 表 記 ゆれを 解 消 する 技 術 などを 組 み 込 んでおり, 目 的 の Web ページを 効 率 的 に 取 得 することが 可 能 である. 表 記 ゆ れ 解 消 の 技 術 とは, 漢 字 とひらがなの 違 いを 吸 収 する 機 能, 多 くのユーザが 間 違 えるスペ ルを 補 正 する 機 能 などを 指 す.しかし,ユーザによる 評 価 記 事, 特 にマイナスの 評 価 記 事 には, 企 業 の 略 称 や 俗 称 しか 現 れない 場 合 が 多 く, 自 然 言 語 処 理 をベースとした 技 術 だけ ではこれらの Web ページを 抽 出 することができない. 上 記 の 問 題 を 解 決 する 試 みとして,クエリ 拡 張 に 関 する 研 究 が 行 われている.クエリと 同 じ 意 味 を 持 つ 語 を 利 用 することで,クエリに 関 連 する Web ページをより 多 く 集 めること が 目 的 である.シソーラスを 用 いた 研 究 [2]では 精 度 の 高 い 同 義 語 を 抽 出 できるが,シソー ラスには 新 語 や 俗 語 は 含 まれていない.クエリログを 用 いた 研 究 [3]では, 新 語 やマイナー な 語 は 抽 出 することが 可 能 だが, 俗 語 で 検 索 を 行 うユーザは 尐 ない. 一 般 的 な 情 報 を 知 り たい 場 合 には, 正 式 名 称 や 略 称 で 検 索 をすれば 十 分 だからである. 新 語 や 俗 称 に 強 い 同 義 語 抽 出 の 手 法 としては,アンカーテキストとリンク 構 造 を 用 いる 手 法 が 効 果 的 であると 考 えられる. 図 1 に 表 すように, 同 じ URL を 指 すアンカーテキスト は 同 義 語 である 可 能 性 が 高 い. 企 業 のページなどではアンカーテキストに 正 式 名 称 を 用 い る 半 面, 個 人 のページや 掲 示 板 などでは 略 称 や 俗 称 を 用 いる 傾 向 があり, 多 様 な 同 義 語 を 抽 出 することができる.クローリングの 頻 度 を 上 げることで, 新 語 に 対 応 することも 容 易 である.この 手 法 を 用 いた 既 存 研 究 [9]では,クエリの 翻 訳 語 をアンカーテキストの 中 から 抽 出 しており, 実 験 では 高 い 精 度 を 出 している. しかし,[9]の 手 法 による 翻 訳 語 ランキングは 翻 訳 語 をトップにランキングさせることが 4

目 的 であり, 頻 出 なアンカーテキストが 上 位 にランキングされやすい. 従 って, 頻 出 では ない 略 称 や 俗 称 などの 同 義 語 を 効 率 的 に 抽 出 することは 難 しいという 問 題 がある. 同 義 語 抽 出 の 網 羅 性 を 高 めるためには, 頻 出 ではない 同 義 語 ほど 抽 出 できることが 望 ましい.そ こで 本 論 文 では,アンカーテキストの 類 似 度 指 標 を 新 たに 提 案 することで, 同 義 語 抽 出 の 網 羅 性 を 保 ちつつ, 精 度 の 高 い 同 義 語 ランキングを 作 成 する 手 法 について 提 案 する. 人 手 による 評 価 をランキングに 反 映 させる Relevance-Feedback の 技 術 を 利 用 することにより, 同 義 語 抽 出 の 網 羅 性 とランキング 精 度 の 向 上 を 試 みる. 本 論 文 の 構 成 は, 以 下 の 通 りである.まず 第 2 章 で 提 案 手 法 に 関 連 した 研 究 をまとめ, 第 3 章 で 既 存 研 究 の 問 題 点 について 述 べる. 第 4 章 で 提 案 手 法 の 詳 細 について 述 べた 後, 第 5 章 で 評 価 実 験 を 行 う. 図 1 同 一 URL にリンクするアンカーテキスト 5

第 2 章 関 連 研 究 2.1 概 要 本 章 では 関 連 研 究 として,2.2 節 でクエリ 拡 張 の 手 法 について,2.3 節 でコミュニティ 抽 出 の 手 法 について,2.4 節 でアンカーテキストとリンク 構 造 を 用 いた 研 究 について 紹 介 する. 検 索 エンジンのクエリ 拡 張 は, 同 義 語 を 実 用 的 に 利 用 する 機 会 の 1 つとして 考 えられる. 2.2 節 では,クエリ 拡 張 の 手 法 を 紹 介 すると 共 に,クエリ 拡 張 の 手 法 では 抽 出 することの できない 同 義 語 について 考 察 する. コミュニティ 抽 出 の 手 法 は, 本 研 究 と 同 様 にリンク 構 造 を 用 いた 研 究 である. 対 象 物 に 関 連 する Web ページを 抽 出 する 手 法 は, 対 象 物 を 指 すアンカーテキストを 抽 出 する 際 にも 利 用 できると 考 えられる. 2.4 節 で 述 べるアンカーテキストとリンク 構 造 を 用 いた 研 究 は, 提 案 手 法 の 既 存 研 究 と なる 論 文 である.この 手 法 を 紹 介 した 後,3.1 節 でこの 研 究 の 問 題 点 について 述 べる. 2.2 クエリ 拡 張 に 関 する 研 究 大 量 のデータから, 検 索 クエリに 関 連 する 文 書 を 探 す 時, 検 索 クエリと 同 様 の 概 念 を 持 つ 語 についても, 文 字 列 検 索 を 行 うことが 効 果 的 であると 考 えられる.1990 年 代 までのクエ リ 拡 張 に 関 する 研 究 では, 自 然 言 語 処 理 に 基 づく 研 究 が 一 般 的 であった[1]. 1990 年 代 からインターネットが 普 及 するにつれ,シソーラスを 用 いた 研 究 [1]や 検 索 エン ジンのクエリログを 用 いた 研 究 [3]など, 自 然 言 語 処 理 以 外 の 手 法 が 注 目 されるようになっ ている. 近 年 の 研 究 対 象 は, 検 索 エンジンにおけるクエリ 拡 張 を 指 す 場 合 も 多 く, 検 索 サー ビスで 実 用 化 されている. 各 研 究 の 詳 細 を, 次 ページから 述 べる. 6

2.2.1 シソーラスを 用 いたクエリ 拡 張 シソーラスを 用 いてクエリ 拡 張 を 行 う 研 究 の 1 例 として,2007 年 にワイカト 大 学 の D.Milne らが 発 表 した,Wikipedia のデータ 構 造 を 利 用 した 研 究 を 挙 げる[2].[2]が 提 案 す るシステムでは, 以 下 の 目 的 で Wikipedia を 用 いている. クエリ 曖 昧 性 を 解 消 するための, 候 補 語 抽 出 クエリ 拡 張 のための, 同 義 語 抽 出 システム 全 体 の 流 れは, 図 2 のようになっている.まず,ユーザが 入 力 したクエリの 曖 昧 性 を 解 消 するために, 最 終 的 なクエリの 候 補 語 を 出 力 する. 候 補 語 は,ユーザが 入 力 し たクエリと 同 じ 文 字 列 を 持 つ,Wikipedia の 項 目 名 を 利 用 する. 入 力 したクエリを 構 成 する 単 語,もしくは 連 語 の 両 方 が Wikipedia の 項 目 として 存 在 する 場 合 には,どちらの 項 目 名 も 候 補 語 として 提 示 する.また,1 つの 単 語 が 複 数 の 意 味 を 持 つ 場 合 には,Wikipedia の 曖 昧 さ 回 避 のためのページ に 出 てくる 語 をすべて 候 補 語 とする. ユーザは, 表 示 されたクエリの 候 補 語 の 中 から, 自 分 の 意 図 に 合 う 候 補 語 を 最 終 的 なク エリとして 選 択 する.システムでは 候 補 語 を 選 ぶ 参 考 として, 入 力 したクエリと 候 補 語 の 関 連 性 を 表 示 している.これらの 関 連 性 は tf-idf の 値 と, 独 自 に 定 義 した Wikipedia 内 の 類 似 度 により 計 算 される.Wikipedia 内 の 類 似 度 とは,2 つの 項 目 から 共 通 するリンクの 重 み を 足 したものである.リンクの 重 みは,それぞれの 項 目 からのリンクが 張 られる 確 率 であ り, 多 くの 項 目 からリンクされるページに 関 するリンクの 重 みは, 低 くなるように 計 算 さ れている. 最 後 に,ユーザが 選 択 したクエリの 同 義 語 を 抽 出 し,クエリ 拡 張 を 行 う.クエリ 拡 張 に 用 いる 同 義 語 もまた, 上 記 の Wikipedia 内 の 類 似 度 によって 抽 出 される.クエリと 文 字 列 一 致 する Wikipedia 項 目 と 類 似 度 が 高 い 項 目 は 同 義 語 であるとみなし,ユーザが 選 択 した クエリとそれらの 同 義 語 を OR でつないだ 条 件 式 を, 新 しいクエリとする. Wikipedia は 人 手 が 作 成 したシソーラスであるため, 精 度 の 高 い 同 義 語 が 抽 出 できるが, 新 語 やマイナーな 語 については 網 羅 率 が 下 がる 欠 点 がある. 7

図 2 [2]により 実 装 されたシステム 8

2.2.2 検 索 エンジンのクエリログを 用 いたクエリ 拡 張 検 索 エンジンに 入 力 されたクエリログを 利 用 し,クエリの 曖 昧 性 を 解 消 する 研 究 として, 2005 年 にミナス 州 立 大 学 の B.M.Fonseca らが 発 表 した[3]が 挙 げられる. 同 じセッション で 入 力 されたクエリセットに, 頻 出 パターンマイニングを 適 用 し,クエリ 拡 張 の 候 補 を 抽 出 する 手 法 である.また, 抽 出 したクエリ 拡 張 の 候 補 を, 人 手 によりインタラクティブに 分 類 し, 検 索 エンジンのランキング 精 度 を 向 上 させている. この 手 法 は, 大 きく 4 つのプロセスに 分 けることができる.1は 前 処 理 で,2~4はク エリが 入 力 されてから 計 算 を 行 う. 全 体 の 流 れは 図 3 のようになっている. 1ペアクエリの 相 関 ルールを 抽 出 クエリログから, 同 じセッション 内 に 入 力 されたクエリセットを 抽 出 し,1 つのトランザ クションとして 扱 う.このトランザクションに 対 し,k=2 の 頻 出 パターンマイニングを 行 い, 関 連 性 の 高 いペアのクエリを 抽 出 する.( 実 験 では,min_support=3, min_confidence=20%で 評 価 している.) 抽 出 したペアクエリは,r(Qa->Qb)と 表 記 される.これは,クエリ Qb がクエリ Qa に 関 連 していることを 示 し,Qb が Qa の 拡 張 候 補 語 であることを 意 味 する. 相 関 ルールの 特 徴 から 逆 向 きの 関 連,すなわち r(qb->qa)が 必 ず 成 り 立 つとは 限 らない. なお, 検 索 におけるセッションについては, 以 下 のように 定 義 する. 同 じ IP アドレスから 要 求 され, 前 回 の 検 索 から 10 分 以 内 に 再 検 索 された 場 合,そ れらの 検 索 は 同 じセッションである 2クエリ 関 連 グラフの 構 築 1の 処 理 により 抽 出 した, 関 連 性 の 高 いペアクエリを 用 いて,グラフを 構 築 する.この グラフを 用 いることで,クエリ 拡 張 の 候 補 語 について, 概 念 ベースのクラスタリングを 行 う. まず, 入 力 されたクエリ Qa に 関 連 するクエリ 群 を Ra とする.Ra に 含 まれるすべての ペアについて,r(Qi->Qj)が 成 り 立 つかどうかを 確 かめ,Qi から Qj に 向 けてグラフの 矢 印 を 引 いていく. 逆 向 きの 関 連 が 成 り 立 たなかった 場 合 には, 一 方 向 しか 矢 印 が 存 在 しない グラフが 構 築 される. 3クエリ 候 補 語 を 概 念 ベースでクラスタリング 2の 処 理 により 構 築 したグラフ Ga を 用 いて,クエリ 拡 張 の 候 補 語 を 概 念 ベースでクラス タリングする.ユーザが 入 力 した 曖 昧 クエリが,どの 概 念 を 意 味 していたかを 選 択 するこ とで, 検 索 エンジンのランキング 精 度 を 向 上 させることができる. Ga から 抽 出 される 概 念 Cj は, 全 ての Qi Cj からリンクを 辿 り,Cj に 含 まれる 他 のクエ リを 2 度 通 ることなく,Qi に 戻 ってこられるクエリ 集 合 である. 9

4 概 念 ベースによるクエリ 拡 張 3の 処 理 で 得 たクラスタ 群 をユーザに 提 示 し, 入 力 したクエリがどの 概 念 を 意 味 してい たか 選 択 してもらう.また,そのクラスタに 含 まれる 語 とクエリの 関 係 についても, 表 1 の 中 から 選 択 してもらう.クエリ 拡 張 の 候 補 語 とクエリの 関 係 によりクエリ 拡 張 の 方 法 を 変 えることで, 検 索 エンジンのランキング 精 度 を 向 上 させることができる. クエリと 候 補 語 の 関 係 は,4 つに 分 けることができる.クエリと 同 じ 意 味 を 持 つ 候 補 語 の 場 合 には 同 義 語 を 選 択 する.また, 候 補 語 がクエリの 具 体 例 などを 示 している 場 合 には, 特 化 した 語 を 選 択 する. 反 対 に, 候 補 語 がクエリを 一 般 化 している 場 合 には 汎 化 した 語 を 選 択 する.これら 3 つの 関 係 には 含 まれないが,クエリと 候 補 語 に 何 らかの 関 係 がある 場 合 には, 関 連 語 を 選 択 する. クエリログを 用 いたクエリ 拡 張 は, 流 行 の 語 やマイナーな 語 を 抽 出 しやすいが, 俗 称 な どはログに 含 まれにくい.また, 検 索 ログの 多 くは 公 開 されておらず, 一 般 で 実 用 化 する のは 難 しいという 欠 点 がある. 図 3 [3]によるシステムの 流 れ 表 1 クエリと 候 補 語 の 関 係 による,クエリ 拡 張 の 方 法 クエリ 候 補 語 クエリ 拡 張 の 方 法 同 義 語, 特 化 した 語 Qa or Q1 or.. or Qn Qi Cj 汎 化 した 語, 関 連 語 Qa and (Q1 or.. or Qn) Qi Cj Qa: 入 力 されたクエリ Q1~Qn: クエリの 候 補 語 Cj: ユーザが 選 択 した 概 念 ベース(クエリが 意 味 している 概 念 ) 10

2.3 コミュニティ 抽 出 に 関 する 研 究 Web から 特 定 の 事 柄 に 関 するページ 群 を 取 り 出 す 手 法 として,コミュニティ 抽 出 の 研 究 が 挙 げられる.[4][7]の 研 究 では, 同 じ 事 柄 を 述 べたページ 群 は 相 互 リンクを 張 りやすい という 考 え 方 に 基 づき,Web のリンク 構 造 から 完 全,または 密 な 2 部 グラフを 抽 出 してい る.また,コミュニティ 内 のリンク 数 が,コミュニティ 外 のリンク 数 よりも 多 いという 定 義 に 基 づき,Web のリンク 構 造 に s-t 最 大 フロー 問 題 を 適 用 した 研 究 もある[8]. 我 々の 提 案 手 法 は,URL 間 のリンクではなく,アンカーテキストと URL 間 のリンクに 着 目 している.しかし,リンクが 密 になっている 部 分 を 抽 出 する 点 においては, 同 じ 手 法 を 利 用 できると 考 えられる. 各 研 究 の 詳 細 を, 次 ページから 述 べる. 11

2.3.1 trawling 1999 年 に IBM の Kumar らによって 発 表 された trawling[4]では, Web コミュニティに はコアと 呼 ばれる 完 全 2 部 グラフが 存 在 する としている. 図 4 は,コミュニティを 構 成 する Web ページと,コミュニティ 内 のリンク 構 造 を 表 したものである.コミュニティを 構 成 する Web ページは,リンク 元 となる Web ページ 群 Fans と,リンク 先 となる Web ペー ジ 群 Centers に 分 けることができる. 図 4 の 色 つきノードは,Fans と Centers の 間 で 完 全 2 部 グラフとなる Web ページ 群 を 示 している.trawling[4]では,これらのコアを 抽 出 して いる. データセットの 生 成 ミラーページなどのページ 内 容 が 同 じWeb ページ 群 は,[5]の 技 術 を 用 いて 除 去 しておく. ポータルサイトなど,インリンク 数 が 非 常 に 多 い Web ページ 群 も 削 除 する. 1Fans の 抽 出 Fan は, 異 なるサイトにアウトリンクを 多 く 持 つ,ハブの 役 割 をしていると 考 えられる. [4]では,6 つ 以 上 の 異 なるサイトにリンクしている Web ページを Fan としている. 2Centers の 抽 出 Center は 多 くのインリンクを 持 つ Web ページであると 考 えられる.しかしながら,イン リンク 数 が 非 常 に 多 い Web ページは, 異 なるコミュニティに 属 する Fans からリンクされ ている 可 能 性 が 高 い.これらの Web ページ 群 を Centers にしてしまうと, 曖 昧 な 事 柄 に 関 するコミュニティが 抽 出 されてしまう.[4]では,Centers からインリンク 数 が 50 以 上 の Web ページを 除 外 している. 図 4 Web コミュニティに 存 在 する 完 全 2 部 グラフ 12

完 全 2 部 グラフの 抽 出 1Fans と Centers の 枝 刈 り i j のコアを 抽 出 する 場 合,アウトリンク 数 が j 未 満 の Fans と,インリンク 数 が i 未 満 の Centers はコアを 構 成 しないことが 分 かる.これらの Fans と Centers,および 付 随 する リンクを 削 除 することで, 枝 刈 りを 行 う. 付 随 するリンクを 削 除 することで,アウトリン ク 数 とインリンク 数 は 変 化 していく.アウトリンク 数 が j 未 満 の Fans と,インリンク 数 が i 未 満 の Centers が 無 くなるまで, 枝 刈 りを 繰 り 返 す. 2 完 全 2 部 グラフを 抽 出 残 った Fans と Centers から, 完 全 2 部 グラフを 抽 出 する. 図 5 のように,アウトリン ク 数 が j である Fan と x とし,x がリンクする Centers を Ct(1 t j)とする.ct(1 t j) にリンクしている Web ページ 群 で 共 通 する Fans が i 個 だった 場 合,これらの Fans と Centers は 完 全 2 部 グラフを 構 成 しているといえる. 3 残 りのコアを 抽 出 上 記 の 処 理 では 抽 出 できなかった 完 全 2 部 グラフを,アプリオリ[6]に 似 た 手 法 で 抽 出 す る.i j の 完 全 2 部 グラフが 存 在 する 時,(i-1) j の 完 全 2 部 グラフが 存 在 しなければなら ない 特 徴 を 利 用 する.j の 値 は 固 定 しておく. k=1 j 以 上 のアウトリンクを 持 つ Fans を 用 いて,1 j のコアを 作 成 する k>1 (k-1) j のコアそれぞれについて, 同 じ j 個 の Centers で 構 成 される 他 の コアを 見 つけ,Fans をマージする. k が i になるまで, 上 記 の 処 理 を 繰 り 返 す. 図 5 完 全 2 部 グラフの 抽 出 アルゴリズム 13

2.3.2 DBG(Dense Bipartite Graph)を 用 いた Web コミュニティ 抽 出 trawling[4]によるコミュニティ 抽 出 の 手 法 では,コミュニティの 中 に, 完 全 2 部 グラフ であるコアが 存 在 しなければならなかった.しかしながら, 全 てのコミュニティにコアが あるわけではなく, 抽 出 できないコミュニティが 存 在 する.この 問 題 を 解 決 したのが,2002 年 に 東 京 大 学 の Reddy らによって 発 表 された DBG[7]である.Reddy らは,コミュニティ が 密 な 2 部 グラフ(DBG: Dense Bipartite Graph)であるとし, 以 下 の 条 件 を 定 義 してい る. Center は p 個 以 上 の Fan からリンクされている Fan は q 個 以 上 の Center にリンクしている 関 連 する Web ページの 抽 出 コミュニティに 関 連 する Web ページ 群 T を 定 義 する. 初 期 値 は,コミュニティに 属 する 任 意 の Web ページとする. T と 共 通 してリンクする Web ページ 群 が 閾 値 以 上 の Web ページ x を,T に 加 える.x し かリンクしていなかった Web ページも,T がリンクしているように 扱 う. 図 6 は, 左 欄 が x を T に 追 加 する 前 のリンク 構 造, 右 欄 が 追 加 した 後 のリンク 構 造 である.この 処 理 を 繰 り 返 し,T の 集 合 を 増 やしていく. 図 6 関 連 する Web ページの 抽 出 14

DBG の 抽 出 x(x T)がリンクする Web ページ 群 を I とする.DBG の 定 義 から,アウトリンク 数 が p 未 満 の x を 削 除 する.また,y(y I)にリンクする Web ページ 群 が T に q 未 満 しかない 場 合, この y を 削 除 する.x と y の 削 除 により,アウトリンク 数 とインリンク 数 が 変 化 するので, T と I の 集 合 が 収 束 するまで 削 除 を 繰 り 返 す. 図 7 は,p=3, q=2 の DBG を 抽 出 している.まず,I4 は 2 つの Fans からしかリンクさ れていないため,DBG から 削 除 する.T5 と I4 間 のリンクも 削 除 されるため,T5 は 1 つの Center にしかリンクしていないことになり,T5 も 削 除 される. 収 束 後 の T が Fans であり,I が Centers である.この T を 用 いて, 再 び 関 連 する Web ページの 抽 出 を 行 う.T が 完 全 に 収 束 するまで,これらの 処 理 を 繰 り 返 す. 図 7 DBG の 抽 出 15

2.3.3 Max Flow アルゴリズムによる Web コミュニティ 抽 出 2002 年 に NEC の Flake らによる 発 表 された 論 文 [8]では,Web コミュニティは Web コミュニティ 内 でのリンク 数 が,コミュニティ 外 へのリンク 数 よりも 多 い Web ページ と 定 義 している.Web のリンク 構 造 について s-t 最 大 フロー 問 題 を 解 くことで,Web コミュ ニティとそれ 以 外 を 切 り 離 し,Web コミュニティを 抽 出 することができる. 図 8 では, 左 側 の 部 分 グラフが Web コミュニティを 表 しており, 右 側 の 部 分 グラフとのリンクが 疎 に なっていることが 分 かる. 図 8 Max Flow によるコミュニティ 抽 出 [8] s-t 最 大 フロー 問 題 では,source から sink までの 最 大 流 量 (Maximum Flow)を 求 める.こ の 際 に 得 られる 流 量 の 最 も 尐 ない 辺 (Minimum Cut)が,Web コミュニティとそれ 以 外 を 切 り 離 すリンクに 相 当 する. [8]では,Web のリンク 構 造 を 図 9 のように 表 し,s-t 最 大 フロー 問 題 を 適 用 する.(b)は コミュニティのシードとなる Web ページを 示 している.(c)は(b)からアウトリンクとインリ ンクを 問 わず,1 リンクで 到 達 可 能 な Web ページであり,(b)に 含 まれる Web ページを 取 り 除 いたものである.(d)は(c)からアウトリンクのみで 到 達 可 能 であり,(b)と(c)に 含 まれない Web ページである.(a)は 仮 想 的 な source,(e)は 仮 想 的 な sink である. 図 9 Max Flow による Web のリンク 構 造 [8] 16

2.4 アンカーテキストとリンク 構 造 を 用 いた 研 究 提 案 手 法 と 同 様 に,アンカーテキストとリンク 構 造 を 用 いた 研 究 として,クエリ 翻 訳 [9] が 挙 げられる.[9]では, 以 下 の 条 件 を 全 て 満 たすアンカーテキストを,クエリの 翻 訳 語 と して 抽 出 している. 翻 訳 したい 言 語 のアンカーテキスト クエリと 同 じ 文 字 列 のアンカーテキストがリンクする URL 群 に 対 し, 最 もリンクし ているアンカーテキスト 2 つ 目 の 条 件 は,クエリと 同 じ 文 字 列 のアンカーテキストが 持 つリンク 構 造 について, 類 似 するリンク 構 造 を 持 つアンカーテキストを 抽 出 している. 本 論 文 では,2 つのアンカーテ キストが 持 つリンク 構 造 の 類 似 度 を,アンカーテキストの 類 似 度 と 呼 ぶことにする. [9]によるアンカーテキストの 類 似 度 は, 式 (1)で 表 される. 翻 訳 語 ランキングを 作 成 する 際 には,クエリを Ts とし, 翻 訳 語 候 補 Tt を P(Ts<->Tt)によりランキングする. n P T T i 1 s i 1 U P T U P U P T U P T U P T U P T U P U s t i n P T s t i i t s i i i t i i (1) P(Ts Ui), P(Tt Ui): アンカーテキスト Ts, Tt から Ui へのリンク 数 /URL Ui の in-link 数 P(Ui): URL Ui の in-link 数 /Web 上 の 全 リンク 数 (HITS[10]による 値 ) n: 実 験 データに 含 まれる 全 URL 数 [9]の 実 験 では, 英 語 のクエリに 対 し,その 翻 訳 語 である 中 国 語 をアンカーテキスト 群 か ら 抽 出 している.データセットは, 検 索 ログで 頻 出 な 9,709 個 の 語 をアンカーテキスト 群 として 用 意 している. 英 語 のクエリは, 中 国 語 の 翻 訳 語 がアンカーテキスト 群 に 存 在 する 語 のみを 利 用 し,622 個 の 英 語 クエリについて 実 験 を 行 っている.(1) 式 を 用 いた 翻 訳 語 ラ ンキングで 評 価 した 場 合,Top-1 が 翻 訳 語 となったクエリが 53%,Top-10 に 翻 訳 語 が 含 ま れるクエリは 85%となった. 17

第 3 章 既 存 研 究 の 問 題 点 と 解 決 策 3.1 提 案 手 法 で 抽 出 する 同 義 語 既 存 研 究 の 問 題 点 を 述 べる 前 に, 提 案 手 法 により 抽 出 する 同 義 語 について 述 べておく. まず,ユーザが 特 定 の 企 業 や 人 に 関 する 同 義 語 を 抽 出 する 際,この 企 業 や 人 を 対 象 物 と 呼 ぶことにする. 提 案 手 法 で 抽 出 する 同 義 語 とは,この 対 象 物 を 連 想 できる 全 ての 語 で ある. 以 下 に 例 を 挙 げる. 対 象 物 の 正 式 名 称, 正 式 な 略 称 対 象 物 の 翻 訳 語 対 象 物 の 一 般 的 な 俗 称 一 般 的 な 呼 び 方 ではないが, 明 らかに 対 象 物 であると 分 かる 語 既 存 研 究 [9]は, 対 象 物 の 翻 訳 語 を 抽 出 することに 特 化 した 手 法 であるといえる.3.2 節 では, 翻 訳 語 以 外 の 同 義 語 を 抽 出 する 際 に 障 害 となる 既 存 研 究 の 問 題 点 について 述 べる. また3.3 節 で, 精 度 と 網 羅 性 の 高 い 同 義 語 抽 出 の 妨 げとなる Web のリンク 構 造 の 問 題 点 に ついて 述 べる. 18

3.2 既 存 研 究 [9]の 問 題 点 既 存 研 究 [9]により 定 義 された(1) 式 を, 全 てのアンカーテキストに 適 用 することで,クエ リの 同 義 語 についてもランキング 作 成 することができると 考 えられる.すなわち,クエリ と 似 たようなリンク 構 造 を 持 つアンカーテキストを,クエリの 同 義 語 として 抽 出 すること が 可 能 である. 一 方, 既 存 研 究 では 翻 訳 語 がランキングトップになれば 良 く,ランキング 全 体 の 評 価 に ついては 述 べられていない. 本 研 究 では 同 義 語 抽 出 の 網 羅 性 を 高 めることを 目 的 としてお り, 頻 出 ではない 略 語 や 俗 語 などの 同 義 語 も 上 位 にランキングする 必 要 がある. 図 10 は,アンカーテキスト A と B のリンク 構 造 を 表 している.クエリと 同 じ 文 字 列 の アンカーテキストは URL1 のみにリンクするものとする.アンカーテキスト A も, 回 数 は 尐 ないが URL1 のみにリンクしている. 一 方 アンカーテキスト B は,URL1 に 対 するリン ク 数 がアンカーテキスト A よりも 多 いものの,URL2 にも 多 くリンクを 持 つ. 図 10 におい て, 頻 出 ではない 略 称 や 俗 語 はアンカーテキスト A のようなリンク 構 造 を 持 ち, 頻 出 だが 多 くの URL にリンクを 持 つ 汎 用 語 はアンカーテキスト B のように 表 すことができると 考 え られる. 既 存 研 究 [9]により 定 義 された 類 似 度 計 算 では, 頻 出 ではないアンカーテキスト A は, 頻 出 なアンカーテキスト B よりも 低 く 計 算 されてしまう.これは,URL 側 から 見 たリ ンク 確 率 を 類 似 度 計 算 に 用 いているため,アンカーテキストが 他 の URL へリンクしている 情 報 を 全 く 活 用 できないからだと 考 えられる. 第 4 章 では, 頻 出 ではない 同 義 語 も 上 位 にランキングすることができる, 新 しい 類 似 度 指 標 を 提 案 する. 提 案 手 法 では,URL 側 から 見 たリンク 確 率 を 用 いるのではなく,アンカー テキスト 側 から 見 たリンク 確 率 を 用 いて, 類 似 度 の 計 算 を 行 う. 図 10 頻 出 度 によるリンク 確 率 の 変 化 19

3.3 Web のリンク 構 造 に 関 する 問 題 点 更 に 精 度 と 網 羅 性 を 向 上 させるためには,Web のリンク 構 造 が 持 つ 問 題 について 解 決 す る 必 要 がある. 本 節 では,Web のリンク 構 造 に 関 する 問 題 点 を 3 つに 分 けて 説 明 し,それ ぞれの 解 決 策 について 述 べる. 3.3.1 全 ての 関 連 URL を 抽 出 できていない クエリを 対 象 物 の 正 式 名 称 とした 場 合 でも, 関 連 する 全 ての URL に,クエリと 同 じ 文 字 列 のアンカーテキストがリンクしているとは 限 らない. 図 11 は,クエリを 早 稲 田 大 学 にした 場 合 の 例 である.アンカーテキスト 早 稲 田 大 学 から, 早 稲 田 大 学 の 英 語 版 トッ プページである URL www.waseda.ac.jp/index-e.html にはリンクがないことが 分 かる. このため,URL www.waseda.ac.jp/index-e.html のみをリンクしているアンカーテキス ト มหาว ทยาล ยวาเซดะ (タイ 語 で 早 稲 田 大 学 )は 同 義 語 候 補 ランキングに 出 現 せず, 同 義 語 抽 出 の 網 羅 性 が 下 がってしまう.URL www.waseda.ac.jp/index-e.html には 同 義 語 Waseda University が 最 も 多 くリンクしていることから, 図 11( 右 欄 )のように,ク エリと 同 義 語 のリンク 情 報 をマージすれば 良 いと 考 えられる. 図 11 同 義 語 アンカーのマージ 20

3.3.2 URL の 分 散 により, 類 似 度 が 低 下 する 企 業 のホームページなどでは,トップページを 複 数 の 言 語 で 用 意 している 場 合 がある. 例 えば 表 2 は, 早 稲 田 大 学 のトップページ 一 覧 を 表 したものである. 日 本 語 版 や 英 語 版 以 外 にも,ドメインの 異 なるトップページが 存 在 している. 2.4 節 で 示 した 既 存 研 究 の 類 似 度 や,4.2 節 で 定 義 する 提 案 手 法 では,クエリが 多 くリ ンクする URL に 重 みがついている. 従 って,クエリからのリンク 数 が 尐 ないトップページ にリンクする 同 義 語 は, 類 似 度 が 低 く 計 算 されてしまう. 図 12( 左 欄 )のアンカーテキス ト Waseda Univ. は,トップページ www.waseda.jp/top/index-j.html にリンクして いるが,クエリが 最 もリンクしているトップページ www.waseda.jp/ にはリンクしてい ない. Waseda Univ. の 類 似 度 は 低 く 計 算 されてしまい, 同 義 語 ランキングでは 下 位 に 位 置 することになる. 図 12( 右 欄 )のように,トップページのバリエーションを 1 つの URL にまとめることで, 同 義 語 の 類 似 度 を 上 げることが 望 まれる. 表 2 早 稲 田 大 学 のトップページ 一 覧 www.waseda.jp/ www.waseda.jp/index-j.html www.waseda.jp/top/ www.waseda.jp/top/index-j.html www.waseda.jp/top/index-e.html www.waseda.ac.jp/ www.waseda.ac.jp/index.html www.waseda.ac.jp/index-j.html www.waseda.ac.jp/index-e.html www.waseda.ac.jp/index-gb.html waseda.ac.jp/ 図 12 関 連 URL のマージ 21

3.3.3 誤 ったリンク 情 報 により 同 義 語 候 補 が 増 大 する 図 13 のように, 対 象 物 とは 関 係 のない URL に,クエリからのリンクが 存 在 する 場 合 が ある.これらの URL にリンクするアンカーテキスト 群 Ax は, 全 て 同 義 語 候 補 として 抽 出 されてしまい, 同 義 語 候 補 ランキングの 項 目 数 を 増 やすことにつながる.クエリから 見 た とき, 対 象 物 とは 関 係 のない URL へのリンク 確 率 は 小 さく,アンカーテキスト 群 Ax の 類 似 度 は 低 く 計 算 される. 従 って 誤 ったリンク 情 報 は, 同 義 語 候 補 ランキング Top-n の 精 度 には 影 響 しないといえる. しかし, 同 義 語 候 補 ランキングからより 多 くの 同 義 語 を 抽 出 する 場 合 には, 同 義 語 候 補 数 は 尐 ない 方 が 良 い. 図 13 のように, 誤 ったリンク 情 報 を 削 除 することで, 同 義 語 候 補 数 を 削 減 することができる. 図 13 特 定 URL 削 除 による 同 義 語 候 補 数 の 削 減 22

第 4 章 提 案 手 法 4.1 提 案 システムの 概 要 第 4 章 では,クエリの 同 義 語 をアンカーテキストとリンク 構 造 から 抽 出 し,それらをク エリとの 類 似 度 でランキングする 手 法 について 提 案 する. 第 3 章 で 述 べた 通 り, 精 度 と 網 羅 性 の 高 い 同 義 語 抽 出 を 行 うためには, 以 下 の 問 題 を 解 決 する 必 要 がある. 既 存 研 究 の 問 題 頻 出 ではない 同 義 語 の 類 似 度 が 低 い Web のリンク 構 造 に 関 する 問 題 全 ての 関 連 する URL が 抽 出 できていない URL の 分 散 により 類 似 度 が 低 下 する 誤 ったリンク 情 報 により 同 義 語 候 補 が 増 大 する 提 案 手 法 では,アンカーテキスト 側 から 見 たリンク 情 報 を 利 用 する, 新 しい 類 似 度 指 標 を 用 いることで, 既 存 研 究 [9]の 問 題 について 解 決 する.この 新 しい 類 似 度 指 標 については, 4.2 節 で 詳 細 に 述 べる. Web のリンク 構 造 に 関 する 問 題 については,Relevance-Feedback の 技 術 を 利 用 して 解 決 する.すなわち, 新 しい 類 似 度 指 標 によりランキングされた 同 義 語 Top-n に,ユーザが を 付 与 することにより,リンク 情 報 の 補 正 を 試 みる. 新 しいリンク 情 報 を 利 用 して, 同 義 語 候 補 のリランキングを 行 い, 精 度 と 網 羅 性 の 高 い 同 義 語 ランキングを 作 成 する. Relevance-Feedback を 用 いたリランキングについては,4.3 節 で 詳 しく 述 べる. 提 案 システムの 概 要 は, 図 14 の 通 りである. 対 象 物 を 示 す 正 式 名 称 や 略 称 をクエリとし て 入 力 した 後, 機 械 が 同 義 語 候 補 を 抽 出 し, 共 起 強 度 によるランキングを 表 示 する. 表 示 されたランキング Top-n の 同 義 語 に,ユーザが を 付 与 することにより, 同 義 語 候 補 の リランキングを 行 う. 最 終 的 な 同 義 語 ランキングを 表 示 するタイミングは,ユーザがリラ ンキングの 終 了 を 指 定 した 時,または 規 定 回 数 のリランキングが 行 われた 時 である. 23

図 14 提 案 システム 24

4.2 共 起 強 度 による 同 義 語 候 補 のランキング 3.2 節 で 述 べたように, 既 存 研 究 は URL 側 から 見 たリンク 確 率 しか 用 いておらず, 頻 出 ではない 同 義 語 をランキング 上 位 にすることができなかった. 本 節 では,アンカーテキス ト 側 から 見 たリンク 確 率 を 利 用 することで, 頻 出 ではない 同 義 語 も 上 位 にランキングでき る, 新 しい 類 似 度 指 標 を 提 案 する. 新 しい 類 似 度 の 指 標 は 共 起 強 度 と 呼 び, 以 下 の 式 で 表 される. 共 起 強 度 co 2 1 1 P( b a) P( a b) a, b (3) 条 件 付 き 確 率 P( y x) u c( x, y) frq( x u) frq( x) frq(x):アンカーテキスト x の 総 リンク 数 frq(x u):アンカーテキスト x から URLu へのリンク 回 数 c(x, y):アンカーテキスト x と y が 共 通 してリンクする URL 群 (4) アンカーテキスト a と b の 共 起 強 度 は,a と b それぞれの 条 件 付 き 確 率 を 調 和 平 均 したも のである. 相 加 平 均 ではなく 調 和 平 均 を 用 いることで,a と b の 条 件 付 き 確 率 に 差 がある 場 合, 最 終 的 な 共 起 強 度 の 値 を 低 く 計 算 することができる. 条 件 付 き 確 率 P(y x)は,アンカーテキスト x のリンクについて,x と y が 共 通 してリン クする URL へのリンク 確 率 を 示 している. 共 通 する URL 数 ではなく,URL へのリンク 確 率 を 用 いて 共 起 強 度 計 算 を 行 うため,クエリと 同 じ 文 字 列 のアンカーテキストから 多 くリ ンクされる URL に, 重 みがついた 式 になっている. 共 起 強 度 の 計 算 例 を 図 15 に 示 す. 図 15 提 案 手 法 による 類 似 度 25

4.3 Relevance-Feedback を 用 いた 同 義 語 候 補 のリランキング 4.3.1 リランキングの 概 要 3.3 節 でまとめたように, 精 度 と 網 羅 性 の 高 い 同 義 語 抽 出 を 行 うためには,Web のリン ク 構 造 に 関 する 問 題 点 を 解 決 する 必 要 がある. 提 案 手 法 では,Relevance-Feedback の 技 術 を 利 用 することでリンク 情 報 の 補 正 を 行 い, 新 しいリンク 情 報 を 用 いて 同 義 語 ランキング をリランキングする. リランキングのプロセスを 図 16 に 示 す. 共 起 強 度 によるランキングが 表 示 された 後,ユー ザはランキング Top-n の 同 義 語 候 補 について と を 付 与 する.この 人 手 による 評 価 を 基 にリンク 情 報 の 補 正 を 行 い, 同 義 語 ランキングのリランキングに 利 用 する.リンク 情 報 の 補 正 は 大 きく 3 つのプロセスに 分 けられ,それぞれ3.3 節 の 問 題 を 解 決 するものである. 各 プロセスの 目 的 と,3.3 節 の 関 係 を 表 3 に 示 す. 表 3 リランキングの 処 理 内 容 と 目 的 プロ セス 処 理 目 的 対 応 する3.3 節 の 問 題 点 1 アンカーテキストのマージ 関 連 する 全 ての URL を 抽 出 する 3.3.1 節 2 URL をマージ URL の 分 散 を 解 消 し, 3.3.2 節 共 起 強 度 の 値 を 上 げる 3 アンカーテキストを 用 い, リンク 情 報 を 削 除 誤 ったリンク 情 報 により 同 義 語 候 補 となった 語 を 削 除 する 3.3.3 節 26

図 16 Relevance-Feedback を 用 いたリランキング 27

4.3.2 対 象 物 の 同 義 語 候 補 に 対 し 人 手 で を 付 与 共 起 強 度 による 同 義 語 ランキングの Top-n に 対 し, 対 象 物 の 同 義 語 と 思 う 場 合 には を, 異 なる 語 と 思 う 場 合 には をつける.どちらか 判 断 できない 場 合 には, をつけないこ とにする. 以 後 のプロセスでは, をつけた 語 を アンカーテキスト, をつけた 語 を アンカーテキスト と 表 現 する.なお,クエリと 同 じ 文 字 列 のアンカーテキストも アンカーテキスト として 扱 う. 同 義 語 候 補 として 抽 出 されるアンカーテキストは, 表 4 のように 分 けられると 考 えられ る.ユーザが をつける 同 義 語 候 補 は,1タイプのアンカーテキストであると 想 定 される. また, をつける 同 義 語 候 補 は4と5タイプのアンカーテキストであると 考 えられる.2 と3は 同 義 語 そのものではないが,クエリと 異 なる 対 象 物 を 指 しているわけではないので, のどちらも 付 与 しないものとする.4.3.3 節 で 説 明 する 処 理 では,このような 曖 昧 な 基 準 による 同 義 語 候 補 の 評 価 でも, 一 定 のランキングが 得 られるようになっている. 表 4 アンカーテキストの 分 類 アンカーテキストの 種 類 例 評 価 1 対 象 物 の 正 式 名 称, 略 称, 俗 称 早 稲 田 大 学, 早 大 2 1のアンカーテキストに 記 号 がついている 早 稲 田 大 学,1. 早 稲 田 大 学 3 1のアンカーテキストの 組 み 合 わせでできている 早 稲 田 大 学 ( 早 大 ) 4 異 なる 対 象 物 を 意 味 するアンカーテキスト 早 稲 田 大 学 理 工 学 部 5 全 てのホームページで 頻 出 する 語 こちら,ホームページ 評 価 欄 の は, のどちらも 付 与 しないアンカーテキストを 示 す 28

4.3.3 Relevance-Feedback によるリランキング 1 アンカーテキストのマージ 対 象 物 の 同 義 語 と 判 断 されたアンカーテキストについて,リンク 情 報 をマージする. ア ンカーテキストのみがリンクしていた URL を,クエリがリンクする URL 群 に 追 加 するこ とで, 新 しい 同 義 語 候 補 を 抽 出 することができる. 図 17 では,アンカーテキスト มหาว ทยาล ยวาเซดะ はクエリ 早 稲 田 大 学 と 共 通 する URL を 持 たず, 同 義 語 として 抽 出 されない.しかし, Waseda University が アンカー テキストとなった 場 合,クエリ 早 稲 田 大 学 と Waseda University のリンク 情 報 がマー ジされる.すなわち,クエリ 早 稲 田 大 学 から URL www.waseda.jp/index-e.html に もリンクが 張 られ,アンカーテキスト มหาว ทยาล ยวาเซดะ が 同 義 語 として 抽 出 されるよ うになる.クエリ 早 稲 田 大 学 から URL www.waseda.jp/ へのリンク 数 は,アンカー テキスト 早 稲 田 大 学 と Waseda University からのリンク 数 の 合 計 である. アンカー テキストをマージする 度 に, 共 通 する URL へのリンク 数 を 合 計 していく. アンカーテキ ストをマージ 後 のリンク 構 造 を, 図 18 に 示 す. 図 17 アンカーテキストのマージ 例 (マージ 前 ) 図 18 アンカーテキストのマージ 例 (マージ 後 ) 29

2 アンカーテキストによる URL マージ 複 数 URL へのリンク 分 散 を 解 消 するため, 対 象 物 に 関 連 する URL をマージする.この 処 理 により,クエリがリンクする URL 群 の 1 部 にしかリンクしていない 同 義 語 について, 共 起 強 度 の 値 を 高 く 計 算 することができる.マージする URL は, 以 下 の 条 件 を 満 たすもの である. アンカーテキストからのリンク 確 率 の 合 計 が, 一 定 以 上 となる URL ( 実 験 では,1URL に 対 するクエリからの 最 大 リンク 数 0.8 以 上 ) 図 19 は,クエリ 早 稲 田 大 学 の 同 義 語 ランキングをリランキング 中 に, アンカーテ キストをマージした 後 のリンク 構 造 である.クエリ 早 稲 田 大 学 に 関 連 する URL が 2 つ に 分 散 しているため, 片 方 の URL にしかリンクしない 同 義 語 の 共 起 強 度 は 低 くなっている. いま,1URL に 対 するクエリからの 最 大 リンク 数 を frq_max とした 時, www.waseda.jp/ と www.waseda.jp/top/index-j/html はともに,マージされた アンカーテキストから frq_max 0.8 以 上 リンクされている.このような URL 群 をマージすることで, 片 方 の URL しかリンクしない 同 義 語 の 共 起 強 度 を 向 上 させる. 図 20 は,マージする URL 群 を 便 宜 的 に URL MergeURL とまとめた 場 合 のリンク 構 造 を 示 している.URL MergeURL へ のリンク 回 数 は, アンカーテキストからのリンク 総 数 である. 図 19 URL のマージ 例 (マージ 前 ) 図 20 URL のマージ 例 (マージ 後 ) 30

3 アンカーテキストによるリンク 情 報 の 削 除 対 象 物 とは 関 係 のないアンカーテキストを アンカーテキストとして 指 定 することで, 誤 ったリンク 情 報 を 削 除 する.クエリから 対 象 物 とは 関 係 のない URL へのリンク 情 報 を 削 除 することにより,その URL にリンクするアンカーテキストを, 同 義 語 候 補 から 取 り 除 く ことが 可 能 である.リンク 情 報 を 削 除 する URL は, 以 下 の 条 件 を 全 て 満 たすものである. アンカーテキストとクエリが 共 通 してリンクする URL URL 側 から 見 たクエリのリンク 確 率 の 合 計 が, 一 定 以 下 の URL( 実 験 では 0.2 未 満 ) 図 21 は,クエリ 早 稲 田 大 学 の 同 義 語 ランキングをリランキング 中 に, 早 稲 田 大 学 ラグビー 蹴 球 部 を アンカーテキストにした 場 合 の 処 理 を 示 している.まず,クエリ 早 稲 田 大 学 と アンカーテキスト 早 稲 田 大 学 ラグビー 蹴 球 部 の 共 通 URL を 抽 出 する. 実 験 では,URL 側 から 見 たクエリのリンク 確 率 が 0.2 未 満 の 場 合,クエリからこの URL へのリンク 情 報 を 削 除 している. 図 21 では, 共 通 URL www.wasedarugby.com/ に 関 す るクエリ 早 稲 田 大 学 のリンク 確 率 は 0.2 未 満 のため,この URL へのリンク 情 報 は 削 除 される.クエリ 早 稲 田 大 学 から URL www.wasedarugby.com/ へのリンク 情 報 を 削 除 することにより, アンカーテキスト 早 稲 田 大 学 ラグビー 蹴 球 部 や URL www.wasedarugby.com/ にのみリンクするその 他 のアンカーテキストは, 早 稲 田 大 学 の 同 義 語 として 抽 出 されなくなる. 図 21 アンカーテキストによるリンク 情 報 の 削 除 例 人 手 による 評 価 と,1~3までのプロセスを 繰 り 返 すことにより, 対 象 物 の 同 義 語 ラン キングの 網 羅 性 と 精 度 を 上 げていく.1アンカーテキストのマージはランキングの 網 羅 性 向 上 に 有 効 であり,23URL のマージ 削 除 はランキングの 精 度 向 上 に 有 効 である. プロセスサイクルを 終 了 するタイミングとしては, 人 手 による 評 価 の 際 に 示 すランキング に, 同 義 語 が 含 まれなくなった 時 が 考 えられる. 31

第 5 章 実 験 評 価 5.1 実 験 概 要 本 節 では, 提 案 手 法 による 同 義 語 ランキングの 精 度 と 網 羅 率 を 確 かめるための 実 験 と 評 価 を 行 う. 5.1.1 節 で 実 験 に 用 いたデータをまとめ, 5.1.2 節 でクエリについて,5.1. 3 節 で 正 解 セットについて, 5.1.4 節 で 評 価 ユーザについて 述 べる. 5.1.1 実 験 データ 実 験 データは, 文 部 科 学 省 の e-society プロジェクト[11]において 収 集 した,2006 年 1 月 時 点 の 日 本 語 Web ページである[12].データの 内 容 を 表 5 にまとめる. 実 験 に 用 いるアンカーテキストとリンク 情 報 は,ホスト 外 リンクのみを 用 いて 抽 出 した. ホスト 内 リンクには, 前 へ トップへ などのナビゲーションを 目 的 に 使 われているア ンカーテキストが 多 く, 同 義 語 抽 出 の 目 的 には 利 用 できないと 判 断 したためである.また, 1 つのアンカーテキストからしかリンクされていない URL は,アンカーテキストを 用 いた 同 義 語 抽 出 では 扱 われない.1 つのアンカーテキストからしかリンクされていない URL と, これらの URL にリンクするアンカーテキストは, 予 めデータセットから 削 除 した. 実 験 で 利 用 したアンカーテキストとリンク 情 報 について, 表 6 にまとめる. 表 5 実 験 で 用 いた Web データ 対 象 ページ 1,324,268,374 ホスト 外 リンク 3,235,910,945 レコード(アンカーテキスト URL のペア 数 ) 358,011,591 表 6 実 験 で 用 いたアンカーテキストとリンク 情 報 アンカーテキスト 51,822,702 URL 22,873,005 レコード(アンカーテキスト URL のペア 数 ) 82,652,395 32

5.1.2 実 験 に 用 いたクエリ 同 義 語 抽 出 の 精 度 と 再 現 率 がジャンルにより 異 なるかどうかを 確 かめるため, 実 験 で 用 いるクエリを 複 数 ジャンルから 選 択 した.ジャンル 名 と 各 クエリ 数 を 表 7 に 示 す.なお, 会 社 名, 人 名, 漫 画 アニメ,ゲームのジャンルに 属 するクエリは,Yahoo! JAPAN 2005 年 検 索 キーワードランキング[12]から 抽 出 した. 漫 画 アニメ 名 ランキングに 含 まれていた 魔 法 先 生 ネギま! は, 一 致 するアンカーテキストが 存 在 しないため,クエリからは 除 外 してある.クエリ 一 覧 を 付 録 A に 示 す. 表 7 ジャンル 別 クエリ 一 覧 ジャンル 名 クエリ 抽 出 元 クエリ 数 会 社 名 (サービス 名 ) 総 合 ランキング 2005 Top-10 10 人 名 著 名 人 ランキング 2005 Top-10 10 漫 画 アニメ 漫 画 アニメランキング 2005 Top-10 9 ゲーム ゲーム 名 ランキング 2005 Top-10 10 大 学 名 東 京 六 大 学 6 合 計 45 5.1.3 正 解 セット 各 クエリの 正 解 セットは,Relevance-Feedback によるリランキングから 人 手 で 作 成 した. リランキングを 5 回 行 って 得 た 同 義 語 候 補,もしくは 共 起 強 度 が 0.01 以 上 の 同 義 語 候 補 の うち,3 ユーザ 中 2 人 が 同 義 語 と 判 断 したものを 正 解 としている.クエリごとの 正 解 セット 一 覧 を, 付 録 B に 示 す. 5.1.4 評 価 ユーザ Relevance-Feedback によるリランキング 時 の 人 手 による 評 価 は, 著 者 を 入 れた 大 学 院 生 3 ユーザで 行 った.リランキングは 5 回,または 共 起 強 度 が 0.01 未 満 になるまで 行 い, 最 終 的 な 同 義 語 ランキングを 取 得 した.5.2~5.3 節 における Relevance-Feedback による リランキングの 実 験 結 果 は,3 ユーザの 実 験 結 果 を 平 均 した 値 である.ユーザによるリラン キングの 精 度, 再 現 率 の 違 いについては5.4 節 でまとめる.5.5 節 の 実 験 データは, 著 者 によるリランキング 結 果 を 用 いている. 33

5.2 各 手 法 の 比 較 実 験 既 存 研 究 [9]と, 共 起 強 度 による 同 義 語 ランキング,Relevance-Feedback によるリランキ ングの 比 較 について, 精 度 を 表 8 に, 再 現 率 を 表 9 に 示 す.クエリは5.1.2 節 で 述 べた 45 個 の 語 を 用 い, 精 度 と 再 現 率 は 45 個 の 結 果 を 平 均 したものである. 既 存 研 究 に 比 べ, 共 起 強 度 を 用 いたランキングは 精 度 と 再 現 率 がともに 向 上 していること が 確 かめられた.また,Relevance-Feedback を 用 いたリランキングを 行 うことで,Top-200 までのランキング 精 度 は 向 上 していることが 分 かる. 全 体 のランキングを 見 た 場 合 には, Relevance-Feedback を 用 いたリランキングの 精 度 が 最 も 低 いが,リランキング 時 に 同 義 語 候 補 が 増 大 するためである. 再 現 率 を 確 認 すると,Relevance-Feedback を 用 いたリランキ ングと 比 べ, 既 存 研 究 では 抽 出 できていない 同 義 語 が 存 在 していることが 分 かる. クエリにより 同 義 語 候 補 数 が 異 なることを 考 えると,Top-n のランキングではなく, 共 起 強 度 による 閾 値 を 設 ける 方 が 扱 いやすい.Relevance-Feedback を 用 いたリランキングの 場 合, 共 起 強 度 を 0.1 以 上 にすれば 再 現 率 が 80% 程 度 となり, 精 度 も Top-100 と 変 わらない ことが 確 認 できた. 表 8 各 手 法 のランキング 精 度 Top-10 Top-100 Top-200 全 て 共 起 強 度 0.1 以 上 既 存 研 究 [9] 24.2% 8.1% 5.6% 2.1% 共 起 強 度 28.7% 9.9% 7.2% 2.1% 13.5% リランキング 43.9% 11.9% 8.1% 1.4% 12.2% 表 9 各 手 法 のランキング 再 現 率 Top-10 Top-100 Top-200 全 て 共 起 強 度 0.1 以 上 既 存 研 究 [9] 18.9% 53.1% 69.0% 95.2% 共 起 強 度 22.9% 63.5% 82.8% 95.2% 69.7% リランキング 32.1% 70.7% 87.8% 99.5% 79.8% 34

5.3 クエリのジャンルによる 比 較 実 験 同 義 語 抽 出 の 精 度 と 網 羅 率 について,ジャンルによる 違 いがあるかどうかを 確 かめる. Relevance-Feedback によるリランキングについて, 精 度 を 表 10 に, 再 現 率 を 表 11 に 示 す. 精 度, 再 現 率 とも,ジャンルにより 違 いはあまり 見 られなかった.どのジャンルの 同 義 語 でも, 提 案 手 法 で 抽 出 できることが 分 かる. 個 々の 特 徴 を 見 ていく. 会 社 名 (サービス 名 )は 同 義 語 候 補 の 数 が 多 く,ランキング 全 体 の 精 度 は 低 くなりがちである.5.1.3 節 で 述 べた 正 解 セット 抽 出 の 際,リランキングを 5 回 行 っても 同 義 語 候 補 の 共 起 強 度 が 0.1 以 上 となったため, 共 起 強 度 0.1 以 上 では 再 現 率 が 100%に 近 い 値 となってしまっている. 大 学 名 などはホームページがはっきりしており, 流 行 などの 影 響 を 受 けないため, 精 度 の 高 いランキングになりやすいことが 分 かった. 人 名,ゲーム, 漫 画 アニメに 関 しては,ジャンルの 違 いよりも,クエリの 違 いにより 同 義 語 候 補 数 に 違 いが 出 た. 話 題 の 対 象 物 に 関 しては, 関 連 するホームページやリンクが 多 く, 同 義 語 候 補 数 が 多 くなることが 確 かめられた. 表 10 ジャンル 別 Relevance-Feedback リランキングの 精 度 ジャンル Top-10 Top-100 Top-200 全 て 共 起 強 度 0.1 以 上 会 社 名 (サービス 名 ) 44.7% 12.6% 9.7% 0.4% 2.9% 人 名 29.7% 7.9% 4.9% 1.3% 13.4% ゲーム 43.3% 12.7% 8.4% 1.9% 20.8% 漫 画 アニメ 40.0% 7.5% 4.5% 1.2% 9.6% 大 学 名 72.7% 22.7% 15.9% 2.8% 15.5% 表 11 ジャンル 別 Relevance-Feedback リランキングの 再 現 率 ジャンル Top-10 Top-100 Top-200 共 起 強 度 0.1 以 上 会 社 名 (サービス 名 ) 26.6% 59.5% 84.7% 99.7% 人 名 40.1% 77.2% 85.7% 68.2% ゲーム 25.3% 68.5% 86.6% 63.7% 漫 画 アニメ 40.4% 75.1% 85.8% 79.0% 大 学 名 26.5% 73.1% 95.4% 94.1% 35

5.4 ユーザによるリランキングの 比 較 実 験 Relevance-Feedback によるリランキングにおいて, 同 義 語 候 補 に を 付 与 する 評 価 を 複 数 のユーザで 行 った.ユーザごとのリランキング 結 果 を, 表 12 と 表 13 にまとめる. どのユーザが 行 ったリランキングにおいても, 精 度 と 再 現 率 ともに 差 がないことが 確 認 できた.リランキングの 回 数 が 尐 ない 時 の 同 義 語 ランキングでは,ユーザごとに 異 なる 同 義 語 候 補 が 含 まれていたが,リランキングの 回 数 を 増 やすごとに 類 似 する 同 義 語 ランキン グに 収 束 した.このように, 同 義 語 候 補 に 対 する 評 価 がユーザごとに 異 なっていたとして も, 最 終 的 に 類 似 した 同 義 語 ランキングを 得 られることが 確 認 できた. 表 12 ユーザごとのランキング 精 度 Top-10 Top-100 Top-200 全 て 共 起 強 度 0.1 以 上 ユーザ 1 45.6% 12.3% 8.2% 1.4% 13.0% ユーザ 2 43.3% 11.8% 8.2% 1.4% 12.4% ユーザ 3 42.7% 11.6% 8.0% 1.5% 11.3% 平 均 43.9% 11.9% 8.1% 1.4% 12.2% 表 13 ユーザごとのランキング 再 現 率 Top-10 Top-100 Top-200 全 て 共 起 強 度 0.1 以 上 ユーザ 1 33.5% 72.7% 88.7% 99.3% 80.8% ユーザ 2 31.2% 69.6% 88.2% 99.3% 80.1% ユーザ 3 31.5% 69.9% 86.6% 99.9% 78.6% 平 均 32.1% 70.7% 87.8% 99.5% 79.8% 全 てのユーザが,リランキングを 5 回 もしくは 共 起 強 度 が 0.01 未 満 になるまで 行 った 36

5.5 リランキングによる 同 義 語 ランキングの 変 化 5.5.1 同 義 語 数 の 変 化 リランキングのサイクルにより, 同 義 語 数 がどのように 変 化 するかについて 実 験 を 行 った. 変 化 が 分 かりやすい 例 として,クエリ 早 大 の 実 験 データを 表 14 に 示 す. 閾 値 は 共 起 強 度 0.1 以 上 としている. 同 義 語 数 増 加 率 は,サイクル 0 からの 増 分 である. サイクルを 増 やすごとに, 精 度 を 保 ったまま,より 多 くの 同 義 語 が 抽 出 できることが 分 かった.また, 閾 値 を 共 起 強 度 0.01 以 上 にした 場 合 には, 再 現 率 が 100%になることが 確 かめられた. 同 義 語 候 補 数 は 286 個 と 増 えるが, 目 視 で 確 認 できる 量 であると 考 えられる. 本 節 では, 対 象 物 の 略 称 をクエリに 選 んだが, 抽 出 した 同 義 語 数 は5.1.3 節 のジャンル 東 京 六 大 学 に 含 まれる 早 稲 田 大 学 と 同 じである.すなわち, 正 式 名 称 と 略 称 のどちら をクエリにしても, 同 じ 同 義 語 数 を 抽 出 できることが 確 認 できた. 表 14 各 サイクル 時 の 同 義 語 数 と 精 度 ( 共 起 強 度 0.1 以 上 ) サイクル 数 再 現 率 同 義 語 数 / 同 義 語 候 補 数 同 義 語 数 増 加 率 精 度 0 79.1% 34/191 17.8% 1 86.1% 37/210 8.8% 17.7% 2 93.0% 40/229 17.7% 17.5% 3 93.0% 40/227 17.7% 17.6% 37

各 サイクル 時 の 再 現 率 と 同 義 語 増 加 分 について,ジャンルの 違 いを 図 22 と 図 23 に 示 す. どちらの 図 からも,サイクルを 増 やすごとに 同 義 語 数 が 増 加 していることが 読 み 取 れる. 図 22 の 人 名 では,2 サイクル 目 で 再 現 率 が 低 下 しているが, 誤 った URL のマージが 行 わ れたためと 考 えられる.サイクルを 増 やすことで, 誤 った 計 算 を 補 正 していることが 分 か る. 図 23 のゲームや 漫 画 アニメでは,1 サイクル 目 で 同 義 語 数 が 大 幅 に 増 加 しているこ とが 分 かる.クエリと 同 じ 文 字 列 のアンカーテキストがリンクしていなかった URL を 発 見 し,マージした 結 果 であると 考 えられる. 再 現 率 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 サイクル 数 大 学 名 会 社 名 (サービス 名 ) 人 名 ゲーム 漫 画 アニメ 全 て 図 22 ジャンル 別 各 サイクル 時 の 再 現 率 ( 共 起 強 度 0.1 以 上 ) 図 23 ジャンル 別 各 サイクル 時 の 同 義 語 数 増 加 分 ( 共 起 強 度 0.1 以 上 ) 38

5.5.2 アンカーテキストのマージ,URL マージによる 影 響 早 稲 田 大 学 のトップページを 用 いて, アンカーテキストのマージ, 及 び URL マー ジがどのように 機 能 したかを 確 かめた.クエリは5.5.1 節 と 同 様 に 早 大 で 実 験 を 行 っ た. 実 験 結 果 を 表 15 に 示 す. サイクル 0 の 結 果 から,アンカーテキスト 早 大 は 3 つのトップページへしかリンクし ていないことが 分 かる.アンカーテキスト 早 稲 田 大 学 と Waseda University を ア ンカーテキストとすることで,クエリがリンクするトップページが 9 つに 増 えたことが 確 認 できた.サイクル 5 の 最 終 的 なランキングでは,11 個 のトップページを 利 用 して 共 起 強 度 を 計 算 している. トップページのマージでは,サイクル 5 で 7 つのトップページがマージされた.マージさ れなかったトップページの 特 徴 としては,URL の 形 をしたアンカーテキストや, 正 式 名 称 に 記 号 がついたアンカーテキストから 多 くリンクされている 点 が 挙 げられる. 予 めこれら の 記 号 を 削 除 し, 正 式 名 称 と 同 じ 文 字 列 のアンカーテキストとして 扱 うことで,より 多 く のトップページをマージすることができると 考 えられる. 39

表 15 40

次 に,リランキングを 5 回 行 った 後 のマージされた URL 数 について, 表 17 に 示 す.ク エリにより,マージされる URL 数 が 大 きく 異 なっている. マージされる URL 数 が 特 に 多 い Google Amazon MSN は,トップページとは 関 連 のない, 動 的 ページの URL が 多 くマージされていた. 動 的 ページとは,ユーザからアク セス 要 求 がある 度 に,データベースの 情 報 を 基 に 生 成 されるページのことである. 例 えば 図 24 に 示 す URL は, government という 検 索 クエリに 対 し Google が 生 成 した 検 索 結 果 を 出 力 する 動 的 ページである.このページは Google そのものを 意 味 するページではな いが, Google というアンカーテキストから 多 くリンクされていることが 分 かる.このよ うに,Google などが 生 成 した 動 的 ページに 対 し,ユーザが Google などのアンカーテキ ストからリンクを 張 るため,トップページと 動 的 ページに 関 するリンク 情 報 がマージされ てしまったことが 分 かった. 表 16 に,マージされた URL について, 動 的 ページと 静 的 ペー ジの 内 訳 を 示 す.なお, 動 的 ページは URL に?, %3f が 含 まれるページとした. Google Amazon MSN から 動 的 ページへのリンク 数 は,1URL に 対 し 100 以 下 の 場 合 が 多 い. 一 方 で,これらのアンカーテキストからそれぞれのトップページへのリン ク 回 数 は 10,000 以 上 であり, 動 的 ページへのリンク 数 は 限 定 的 であると 言 える.しかしな がら, 動 的 ページへのリンク 数 を 合 計 した 場 合 には, 動 的 ページの URL マージは 共 起 強 度 の 計 算 に 影 響 を 与 えていると 考 えられる. 同 義 語 ランキングの 精 度 向 上 のためには, 適 切 なアンカーテキストからリンクされていない 動 的 ページを, 削 除 することが 望 まれる. 図 24 動 的 ページに 関 するリンク 情 報 表 16 マージされた URL の 中 で, 動 的 ページと 静 的 ページの 内 訳 クエリ マージされた URL 動 的 ページ 静 的 ページ Google 2,334 2,258 76 Amazon 1,856 1,464 392 MSN 2,079 2,051 28 41

表 17 クエリごとのマージされた URL 数 ジャンル クエリ マージ マージ ジャンル クエリ URL 数 URL 数 会 社 名 2 ちゃんねる 63 漫 画 ガンダム 162 Google 2,334 アニメ NARUTO 8 楽 天 224 ごくせん 4 goo 75 BLEACH 4 Amazon 1,856 NANA 53 JAL 11 鋼 の 錬 金 術 師 5 ANA 11 テニスの 王 子 様 7 MSN 2,079 ドラえもん 11 livedoor 9 ドラゴン 桜 3 hotmail 33 東 京 六 大 学 慶 應 義 塾 大 学 3 人 名 ORANGE RANGE 13 東 京 大 学 9 KAT-TUN 11 法 政 大 学 4 大 塚 愛 22 明 治 大 学 4 ケツメイシ 3 立 教 大 学 4 赤 西 仁 5 早 稲 田 大 学 20 Mr.Children 10 蒼 井 そら 45 浜 崎 あゆみ 37 aiko 16 YUKI 56 ゲーム ハンゲーム 9 ファイナルファンタジー 44 遊 戯 王 7 ポケットモンスター 24 ドラゴンボール 8 テイルズオブ 0 真 三 國 無 双 12 ラグナロクオンライン 6 ドラゴンクエスト 47 甲 虫 王 者 ムシキング 4 42

5.5.3 アンカーテキストの 除 去 による 影 響 アンカーテキストを 指 定 することにより, 同 義 語 候 補 数 がどのように 変 化 するかについ て 確 認 する.クエリは 早 大 で 行 った. 表 18 の 左 欄 が アンカーテキストであり, 中 欄 が アンカーテキストの 指 定 により,クエリからのリンク 情 報 が 削 除 された URL である. 右 欄 は 同 義 語 候 補 の 減 尐 数 を 表 している. 対 象 物 とは 関 係 のない 同 義 語 候 補 を 削 除 するこ とにより,ランキングの 精 度 を 向 上 させることができた. 表 18 同 義 語 候 補 の 減 尐 数 アンカーテキスト 削 除 URL 同 義 語 候 補 減 尐 数 早 稲 田 大 学 所 沢 キャンパス www.human.waseda.ac.jp/ 15 早 稲 田 大 学 理 工 学 部 www.sci.waseda.ac.jp/ 86 早 稲 田 大 学 法 学 部 www.waseda.ac.jp/ hougakubu/index-j.html 11 リランキングを 5 回 行 った 時 の,クエリごとの URL 削 除 数 と 同 義 語 候 補 減 尐 数 を, 表 19 にまとめる. 同 義 語 候 補 減 尐 数 は,URL の 削 除 に 伴 い 抽 出 されなくなったアンカーテキ ストの 合 計 であり, 人 手 による 評 価 で をつけられたアンカーテキストの 数 は 含 まれてい ない. 表 17 でまとめたマージ URL 数 と 同 様 に,クエリにより 同 義 語 候 補 減 尐 数 が 大 きく 異 なることが 分 かる. 同 義 語 候 補 減 尐 数 が 特 に 多 いクエリについて, 削 除 された URL と 同 義 語 候 補 減 尐 数 の 関 係 について 確 認 した.クエリ Google の 場 合 には,スパムサイトに 用 いられやすい 退 出 EXIT などのアンカーテキストを 削 除 したことにより, 複 数 のスパムサイトからリ ンクされていたアンカーテキストを 削 除 できたことが 確 認 できた.クエリ MSN は, マ イクロソフト hotmail などの MSN に 関 連 するアンカーテキストを 削 除 したことに より, マイクロソフト hotmail に 関 する 多 くの 語 が 削 除 されていた.クエリ hotmail も 同 様 で, マイクロソフト Messenger などの 関 連 語 が 1 度 に 削 除 できていた.いず れの 場 合 も,いくつかのアンカーテキストに 評 価 を 付 与 するだけで, 複 数 の 同 義 語 では ないアンカーテキストを 自 動 的 に 削 除 することができていた. 43

表 19 クエリごとの URL 削 除 数, 同 義 語 候 補 減 尐 数 ジャンル クエリ アンカー テキスト 数 削 除 された URL 数 同 義 語 候 補 減 尐 数 会 社 名 2 ちゃんねる 115 1 24 Google 69 35 30,388 楽 天 213 14 385 goo 160 36 1,820 Amazon 221 3 101 JAL 100 17 686 ANA 118 23 319 MSN 179 33 3,753 livedoor 114 5 316 hotmail 88 21 5,844 人 名 ORANGE RANGE 104 7 259 KAT-TUN 12 0 0 大 塚 愛 48 3 99 ケツメイシ 41 2 95 赤 西 仁 0 0 0 Mr.Children 49 11 277 蒼 井 そら 50 7 1,270 浜 崎 あゆみ 84 21 186 aiko 105 6 156 YUKI 131 28 1,966 ゲーム ハンゲーム 62 0 0 ファイナルファンタジー 88 36 2,780 遊 戯 王 25 6 121 ポケットモンスター 55 7 397 ドラゴンボール 20 1 26 テイルズオブ 157 4 249 真 三 國 無 双 19 6 210 ラグナロクオンライン 54 1 26 ドラゴンクエスト 92 11 535 甲 虫 王 者 ムシキング 60 7 201 44

漫 画 アニメ 東 京 六 大 学 ガンダム 85 12 1,644 NARUTO 47 9 419 ごくせん 34 0 0 BLEACH 89 2 408 NANA 92 1 148 鋼 の 錬 金 術 師 138 2 173 テニスの 王 子 様 38 1 17 ドラえもん 113 3 96 ドラゴン 桜 41 1 21 慶 應 義 塾 大 学 89 4 93 東 京 大 学 103 8 491 法 政 大 学 62 3 62 明 治 大 学 33 6 168 立 教 大 学 28 3 52 早 稲 田 大 学 46 7 236 45

第 6 章 おわりに 本 論 文 では, 対 象 物 の 略 称 や 俗 称 を 対 象 とした 同 義 語 抽 出 の 手 法 について 提 案 を 行 った. アンカーテキストとリンク 構 造 を 用 いることで,シソーラスには 存 在 しない 同 義 語 を 抽 出 することができる. 既 存 研 究 による 類 似 度 計 算 では,URL 側 から 見 たリンク 確 率 しか 用 い ておらず,アンカーテキストが 他 の URL へリンクしている 情 報 を 全 く 活 用 できていなかっ た.その 結 果, 頻 出 語 ではない 同 義 語 を 上 位 にランキングできないという 問 題 があった. 提 案 手 法 ではアンカーテキストから 見 たリンク 構 造 を 用 いることで, 頻 出 ではない 同 義 語 も 抽 出 できるようになった.また,ランキングの 精 度 と 網 羅 性 の 低 下 原 因 となっている Web の 誤 ったリンク 情 報 を 補 正 するため,Relevance-Feedback の 技 術 を 利 用 した. 同 義 語 ランキング Top-n の 同 義 語 候 補 に を 付 与 することにより,Web のリンク 情 報 を 更 新 し, 同 義 語 ランキングのリランキングを 行 った. 実 験 では, 精 度 を 保 った 上 で, 網 羅 性 を 既 存 研 究 よりも 約 15% 向 上 させることができた. 今 後 の 課 題 としては,より 精 度 の 高 いランキングを 行 うことである. 同 義 語 候 補 ランキ ングの 中 には, 同 義 語 に 記 号 がついたアンカーテキスト,または ホームページ や トッ プページ などの 定 型 語 がついたアンカーテキストが 現 れている. 自 然 言 語 処 理 の 技 術 を 取 り 入 れることで,これらの 語 句 を 取 り 除 くことが 可 能 であると 考 える.また,コミュニ ティ 抽 出 の 手 法 を 取 り 入 れることで, 誤 ったリンク 情 報 の 除 去 を 自 動 化 できると 考 えられ る. 46

文 献 [1] Y.Qiu and H.P.Frei: Concept Based Query Expansion, Proc. of the 16th ACM SIGIR, pp-160-169, 1993. [2] D.Milne, I.H.Witten and D.M.Nichols: A Knowledge-Based Search Engine Powered by Wikipedia, Proc. of the 16th ACM Conf. on CIKM, pp.445-454, 2007. [3] B.M.Fonseca, P.Golgher and B.Possas: Concept-Based Interactive Query Expansion, Proc. of the 14th ACM Conf. on CIKM, pp.696-703, 2005. [4] S. R. Kumar, P. Raphavan, S. Rajagopalan and A. Tomkins: Trawling the Web for emerging cyber communities, J. of Computer Networks, Vol.31, pp.1481-1493, 1999. [5] A. Broder, S. Glassman, M. Manasse and G. Zweig: Syntactic Clustering of the Web, Proc. of the 6th Int'l Conf. on WWW, pp.391-404, 1997. [6] R. Agrawal and R. Srikanth: Fast algorithms for mining association rules, Proc. of the 20th Int'l Conf. VLDB, pp.1-32, 1994. [7] P. K. Reddy and M. Kitsuregawa: An approach to relate the Web communities through bipartite graphs, Proc. of the 2nd Int'l Conf. on WISE, Vol.1, pp301-310, 2001. [8] G. Flake, S. Lawrence and C. Giles: Efficient Identification of Web Communities, Proc. of the sixth ACM SIGKDD, pp.150-160, 2000. [9] W.H.Lu, L.F.Chien and H.J.Lee: Translation of Web Queries Using Anchor Text Mining, ACM Trans. on Asian Language Information Processing, Vol.1, No. 2, pp.159-172, June 2002. [10] J.M.Kleinberg: Authoritative Sources in a Hyperlinked Environment, J of the ACM, Vol.46, Issue.5, pp.604-632, 1998. [11] 文 部 科 学 省 リーディングプロジェクトe-Society: http://cif.iis.u-tokyo.ac.jp/e-society/ [12] 早 稲 田 大 学 山 名 研 究 室 e-societyプロジェクト: http://www.yama.info.waseda.ac.jp/e-society/ [13] Yahoo! JAPAN 2005 年 検 索 キーワードランキング: http://picks.dir.yahoo.co.jp/new/review2005/ 47

付 録 A 実 験 で 用 いたクエリを,ジャンルごとに 示 す. 会 社 名 (サービス 名 ) 2 ちゃんねる Google 楽 天 goo Amazon JAL ANA MSN livedoor hotmail 人 名 ORANGE RANGE KAT-TUN 大 塚 愛 ケツメイシ 赤 西 仁 Mr.Children 蒼 井 そら 浜 崎 あゆみ aiko YUKI ゲーム ハンゲーム ファイナルファンタジー 遊 戯 王 ポケットモンスター ドラゴンボール テイルズオブ 真 三 國 無 双 ラグナロクオンライン ドラゴンクエスト 甲 虫 王 者 ムシキング 漫 画 アニメ ガンダム NARUTO ごくせん BLEACH NANA 鋼 の 錬 金 術 師 テニスの 王 子 様 ドラえもん ドラゴン 桜 大 学 名 慶 應 義 塾 大 学 東 京 大 学 法 政 大 学 明 治 大 学 立 教 大 学 早 稲 田 大 学 48

付 録 B 実 験 で 用 いた 正 解 セットを,クエリごとに 示 す. 会 社 名 (サービス 名 ) 2 ちゃんねる 2 ちゃんねる, 2 ちゃんねる, 2 Channel, 2 Channeru, 2 channel, 2 ちゃんねる, 2-Channel, 2-channel, 2Channel, 2ch BBS, 2ch., 2ch.net, 2channel, 2ch ねる, 2 ちゃん, 2 ちゃんねる, 2 ちゃんねる., 2 ちゃんねるさん, 2 ちゃんねる 掲 示 板, 2 ちやんねる, 2 チャネ ル, に ch, にちゃんねる, るねんゃち 2, 世 界 最 大 のインターネット 掲 示 板!!, 例 の 巨 大 掲 示 板, 大 手 巨 大 掲 示 板, 巨 大 BBS, 巨 大 な 掲 示 板, 巨 大 掲 示 板 2 ちゃんねる, 巨 大 掲 示 板 サイ ト, 心 の 闇 ぶっつけサイト, 某 2 ちゃんねる, 某 アングラメジャー 掲 示 板, 某 インターネッ ト 掲 示 板, 某 匿 名 巨 大 掲 示 板, 某 大 型 スレッド 式 掲 示 板, 某 大 手 掲 示 板, 某 巨 大 匿 名 掲 示 板, 某 巨 大 匿 名 掲 示 板 サイト, 某 巨 大 匿 名 掲 示 板 群, 某 巨 大 掲 示 板, 某 巨 大 掲 示 板., 某 巨 大 掲 示 板 群, 某 有 名 掲 示 板, 第 二 频 道 Google Google, google, G o o g l e, GOOGLE, GOOgle, GooGle, Googie, Google, Google, Google JAPAN, Google Japan Inc., Google 日 本, Google, Inc, Google, Inc., Google., Google 先 生, Google 様, Google 社, Goolge, Gooooooooogle, googel, google, google Japan, google japan, google., google 先 生, goole, ぐぐるさん, ぐぐる 先 生, ぐぐる 様, ぐーぐる, ぐーぐるさん, ぐーぐる 先 生, グゥグル, グーグル, グーグル 先 生, グーグル 株 式 会 社, グーグル 様, グー グル 社, 구글 楽 天 楽 天, RAKUTEN,INC., Rakuten, Rakuten, Inc., rakuten, inc., 某 大 手 インターネット ショピングの 会 社, 株 式 会 社 楽 天, 楽 天, 楽 天, 楽 天, 楽 天 株 式 会 社 goo goo, goo, goo, G O O, GOO, Goo, Goo., g o o, goo, goo Amazon AMAZON, AMAZON.COM, AMAZON.com, AMazon, Amazon, Amazon, Amazon Japan, Amazon., Amazon.COM, Amazon.Com, amazon, amazon., アマゾン.コム, アマゾン コ ム, アマゾン ドットコム, アマゾン ドット コム, アマゾン 書 店, アマゾン 社 49

JAL 日 本 航 空, ( 株 ) 日 本 航 空 インターナショナル, J A L, JAL, JAL, JAPAN AIR LINE, Japan Air, Japan Airline, Japan Airlines Company Ltd., Japan Airlines International Co., Ltd., 日 本 航 空, 日 本 航 空 さん, 株 式 会 社 日 本 航 空 ANA ANA, 全 日 空, A N A, ALL NIPPON AIRWAYS, ANA, ANA, All Nipon Airways, All Nippon Airway, All Nippon Airways, All Nippon Airways Co., Ltd., 全 日 空, 全 日 本 空 輸, 全 日 本 空 輸 株 式 会 社, 全 日 本 空 輸 ( 株 ), 全 日 本 空 輸 株 式 会 社, 全 日 空, 全 日 空 空 輸 MSN M S N, MSN, MSN., MSn, Microsoft Network, Msn, The Microsoft Network, msn livedoor livedoor, LIVE DOOR, LIVEDOOR, Live door, Livedoor Co., live door, livedoor, livedoor さん, ライブドア!, ライブ ドア, ライヴドア, 株 式 会 社 ライブドア, 株 式 会 社 livedoor hotmail Hotmail, Hotmail メール, hotmail, HOT MAIL, HOT mail, HOTMAIL, HOTmail, HOT メール, HoTMaiL, Hot Mail, Hot mail, Hot メール, Hot-メール, HotMail, Hotmai, Hotmail, Hotmail, Hot メール, Hot メール, MSN HOTMAIL, MSN Hot Mail, MSN Hot mail, MSN HotMail, MSN Hotmai, MSN Hotmail, MSN Hot メール, MSN hotmail, MSN ホットメ-ル, MSN-hotmail, MSN.hotmail, MSNHotmail, MSN ホットメール, MSN メー ル, hot mai, hot mail, hotmail, hotmail., msn Hotmail, msn hotmail, msn mail, msn.hotmail, msnhotmail, msnhot メール, msnmail, msn メール, م يل,هوت ホットメール 人 名 ORANGE RANGE ORANGE RANGE, ORANGE RANGE, ORANGERANGE, ORENGE RANGE, Orange Range, orange range, orangerange, おらんげらんげ, アレンジレンジ, オレンジレンジ, オレンジ レンジ, 橘 子 新 樂 園 KAT-TUN KAT-TUN, KAT TUN 50

大 塚 愛 Ai Otsuka, Ootsuka Ai, Ootuka ai, Otsuka Ai, あいたん, 大 塚, 大 塚 愛, 大 塚 愛 さん, 大 塚 愛, 大 塚 愛 ちゃん, 大 塚 愛 様, 愛 ちん, 愛 タソ ケツメイシ ケツメイシ, Ketsumeishi, ケツメ, ケツメイシ, ケツメイシ 様 赤 西 仁 赤 西 仁 Mr.Children Mr Children, Mr children, Mr-Children, Mr. Children, Mr.CHILDREN, Mr.Children, Mr.Children 様, Mr.children, mr. children, ミスターチルドレン, ミスター チルドレン, ミスチル 蒼 井 そら SOLA AOI, Sola Aoi, あおいそら, あおいそらさん, 蒼 井 そら, 蒼 井 そら, 蒼 井 そらさん, 蒼 井 そらちゃん, 蒼 井 そら 嬢 浜 崎 あゆみ AYU, AYUMI HAMASAKI, AYUMI HAMAZAKI, Ayu, Ayumi, Ayumi Hamasaki, Ayumi Hamazaki, Ayumi ちゃん, Hamasaki Ayumi, ayu, ayumi hamasaki, ayumi hamazaki, ayu さん, アユ, あゆ, あゆさん, あゆみ, あゆみさん, あゆみちゃん, あゆ 様, はまさ き あゆみ, 浜 あゆ, 浜 崎, 浜 崎 あゆみ, 浜 崎 あ み, 浜 崎 あゆみ, 浜 崎 あゆみ, 浜 崎 あゆ み ちゃん, 浜 崎 あゆみさん, 浜 崎 あゆみ 様, 浜 崎 さん, 浜 崎 嬢, 濱 崎 步, 濱 崎 步, 鮎, 하마사키 아유미 aiko AIKO, Aiko, aiko, aiko さん, aiko ちゃん, aiko 嬢, あいこ, あいこさん, あいこしゃん, ア イコ YUKI YUKI, YUKI さん, YUKI さん, YUKI ちゃん, YUKI チャン, YUKi, Yuki, yuki, yuki さん, yuki ちゃん, ゆき 51

ゲーム ハンゲーム ハンゲーム, HAN GAME, HAN GAME JAPAN, HAN game, HAN-Game, HANGAME, HANGAME JAPAN, HANgame, HAN ゲーム, Han Game, Han game, HanGame, HanGame Japan, HanGameJapan, Hangame, Hangame JAPAN, Hangame japan, Hangeme, Han ゲーム, Hungame, hangame, hangame, hangeme, han ゲーム, はんげー む, はんゲーム, ハ ン ゲ ー ム, ハンゲ, ハンゲ~ム, ハンゲー, ハンゲーム, ハンゲー ム, ハンゲーム ジャパン, ハンゲーム!, ハンゲーム ジャパン, ハン ゲーム ファイナルファンタジー FAINAL FANTASY, FF, FFT-A, FFTA, FFXII, FF シリーズ, FINAL FANTASY, FINAL FANTASY TACTICS ADVANCE, FINAL FANTASY X, FINAL FANTASY シリーズ, Final Fantasy, Final Fantasy Tactics Advance, Final Fantasy Tactics Advance adbanced, Final Fantasy XII, Final Fantasy: The Spirits Within, ff, final fantasy, ファイナルファ ンタジ, ファイナルファンタジー, ファイナルファンタジー タクティクス アドバンス, ファイナルファンタジー11, ファイナルファンタジーシリーズ, ファイナルファンタジー タクティクスアドバンス, ファイナル ファンタジー, 파이널 판타지 遊 戯 王 遊 戯 王 GX, YU-GI-OH!, YU-GI-OH! Trading Card Game, Yu-Gi-Oh Duel Monsters GX, デュエルモンスターズ, 遊 戯 王, 遊 戯 王 デュエルモンスターズ GX, 遊 戯 王 デュエルモンスターズ, 遊 戯 王, 遊 戯 王 デュエルモンスターズ GX, 遊 戯 王 DM GX, 遊 戯 王 DM GX, 遊 戯 王 GX, 遊 戯 王 OCG, 遊 戯 王 OCG デュエルモンスターズ, 遊 戯 王 デュア ルモンスターズ, 遊 戯 王 デュエル, 遊 戯 王 デュエルモンスターズ, 遊 戯 王 デュエルモンス ターズ GX, 遊 戯 王 デュエルモンスターズ GX ポケットモンスター Pocket Monster, Pokemon, ポケットモンスター, ポケットモンスター サファイア, ポ ケットモンスター ルビー, ポケットモンスター ルビー サファイア, ポケットモンスター AG, ポケットモンスターサファイア, ポケット モンスター, ポケモン, ポケモンピンボー ル ルビー&サファイア, ポケモンルビー サファイア, 神 奇 寶 貝 ドラゴンボール DBZ, DRAGON BALL, DRAGON BALL Z, ドラゴンボール, ドラゴンボール GT, ドラゴ ンボール Z, ドラゴンボールシリーズ, 無 印 DB 52

テイルズオブ Tales Channel, テイルズオブ, テイルズチャネル 真 三 國 無 双 真 三 國 無 双 3, 三 国 無 双, 三 国 無 双 1, 三 国 無 双 2, 三 国 無 双 3, 三 国 無 双 4, 三 国 無 双 III, 三 国 無 双 シリーズ, 無 双 4, 真 三 国 無 双 4, 真 三 国 無 双, 真 三 国 無 双 3, 真 三 国 無 双 4, 真 三 國 無 双, 真 三 國 無 双 4, 真 三 國 無 双 3, 真 三 國 無 双 4, 真 三 国 無 双, 真 三 国 無 双 3, 真 三 国 無 双 4, 真 三 國 無 双, 真 三 國 無 双 4 ラグナロクオンライン RAGNAROK Online, Ragnarok Online, R A G N A R O K online, RAGNAROK ON LINE, RAGNAROK ONLINE, RAGNAROK Online, RAGNAROK online, RAGNAROKONLINE, RAGNAROKOnline, RAGNAROKonline, Ragnarok Online, Ragnarok online, RagnarokOnlone, Ragnarokonline, RagnnarokOnline, Ragonarok Online, らぐなろく おんらいん, ラグナロク オンライン, ラグナロクオンライン, ラグナ ロクオンライン, ラグナロク オンライン, ラグナロックオンライン ドラゴンクエスト DQ, DQ 8, DQ8, DQVIII, DRAGON QUEST, DRAGON QUEST VIII, DRAGON QUESTVIII 空 と 海 と 大 地 と 呪 われし 姫 君, DRAGONQUEST VIII, Dragon Quest VIII, DragonQuest VIII, DragonQuestVIII, ドラクエ, ドラクエ 2, ドラクエ 8, ドラクエ VIII, ドラゴンクエスト, ドラゴンクエスト VIII, ドラゴンクエスト VIII 空 と 海 と 大 地 と 呪 わ れし 姫 君, ドラゴンクエスト 5 天 空 の 花 嫁, ドラゴンクエスト 7 エデンの 戦 士 たち, ドラ ゴンクエスト 8, ドラゴンクエスト 8 空 と 海 と 大 地 と 呪 われし 姫 君, ドラゴンクエストVIII, ドラゴンクエスト VIII 空 と 海 と 大 地 と 呪 われし 姫 君, ドラゴンクエスト VIII 空 と 海 と 大 地 と 呪 われし 姫 君, ドラゴンクエストシリーズ 甲 虫 王 者 ムシキング King of Beetles, MUSHIKING, MushiKing, むしきんぐ, ムシキング, 昆 虫 王 国 ムシキン グ, 昆 虫 王 者 ムシキング, 昆 虫 王 者 ムシキング, 甲 中 王 者 ムシキング, 甲 虫 王 者 ムシキン グ, 甲 虫 王 者 ムシキング, 虫 キング 53

漫 画 アニメ ガンダム GUNDAM SEED, Gundam Seed, gundam, ガンダム, ガンダム SEED, ガンダム Seed, ガンダム SEED, ガンダム SEED, ガンダム seed, 機 動 戦 士 GUNDAM SEED, 機 動 戦 士 ガンダム, 機 動 戦 士 ガンダム SEED, 機 動 戦 士 ガンダム SEED, 機 動 戦 士 ガンダム SEED Destiny, 機 動 戦 士 ガンダム Seed, 機 動 戰 士 鋼 彈 SEED, 癌 種, 種 ガン, 種 ガンダム NARUTO NARUTO, NARUTO -ナルト-, NARUTO-ナルト-, NARUTO-ナルト- 大 激 突! 幻 の 地 底 遺 跡 だってばよ, NARUTO ナルト, なると, アニメ NARUTO, ナルト, 劇 場 版 NARUTO- ナルト- 大 激 突! 幻 の 地 底 遺 跡 だってばよ ごくせん GOKUSEN, Gokusen, gokusen, ごくせん, アニメ ごくせん, アニメごくせん, ゴクセン BLEACH BLEACH, BLEACH -ブリーチ-, BLEACH =ブリーチ=, BREACH, Bleach, bleach, ブリ チ, ブリーチ NANA NANA, NANA, NANA -ナナ-, NANA ナナ, NANA ナナ, NANA-ナナ, NANA-ナナ-, NANA ナナ, NANA ナナ, NANAーナナー, NaNa, Nana, nana, nanachan, アニメ NANA 鋼 の 錬 金 術 師 FULLMETAL ALCHEMIST, はがれん, ハガレン, 劇 場 版 鋼 の 錬 金 術 師 シャンバラを 征 く 者, 鋼 の 錬 金 術 師, 鋼 の 錬 金 術 師 シャンバラを 征 く 者, 鋼 之 鍊 金 術 士, 鋼 練, 鋼 錬, 鋼 鍊, 钢 之 炼 金 术 师 テニスの 王 子 様 Prince of Tennis, Tennis no Oujisama, テニスの 王 子 さま, テニスの 王 子 様, テニスの 王 子 様 (テニプリ), テニスの 王 子 樣, テニスの 王 寺 さま, テニプリ, 网 球 王 子 ドラえもん ドラえもん, Doraemon, doraemon, どらえもん, ドラえもん, ドラちゃん, ドラエモン, 哆 啦 A 夢, 猫 型 ロボット 54

ドラゴン 桜 ドラゴン 桜, ドラゴン 櫻, ドラマ ドラゴン 桜 大 学 名 慶 應 義 塾 大 学 慶 応 義 塾 大 学, 慶 應 義 塾 大 学, ( 学 ) 慶 應 義 塾, KEIO, KEIO UNIV., KEIO UNIVERSITY, KEIO Univ., KEIO University, Keio, Keio Gijuku University, Keio Univ, Keio Univ., Keio University, Keio University., Keio university, Keio 大 学, Keio 大 學, Keio-University, Keio-Universität, KeioUniversity, K 大, Trường Đại học Keio, Universidad de Keio, Universidade de Keio en Xapón, Universitat de Keio, Université Keio, Université de Keio, keio, keio University, keio university, l'université de Keio, Đại học Keio, Университет Keio, 学 校 法 人 慶 応 義 塾 大 学, 学 校 法 人 慶 應 義 塾, 学 校 法 人 慶 應 義 塾 大 学, 学 校 法 人 慶 応 義 塾, 学 校 法 人 慶 應 義 塾, 学 校 法 人 慶 應 義 塾 大 学, 庆 应 义 塾 大 学, 庆 应 义 熟 大 学, 庆 应 大 学, 慶 応, 慶 大, 慶 応, 慶 応 大, 慶 応 大 学, 慶 応 義 塾, 慶 応 義 塾 大, 慶 応 義 塾 大 学, 慶 応 義 塾 大 学 様, 慶 應, 慶 應 大, 慶 應 大 学, 慶 應 大 學, 慶 應 義 塾, 慶 應 義 塾 大, 慶 應 義 塾 大 学, 慶 應 義 塾 大 学, 慶 應 義 塾 大 学 大 学 院, 慶 應 義 塾 大 学 様, 게이오대학교 東 京 大 学 東 京 大 学, The U. of Tokyo, The Univ. of Tokyo, The University Of Tokyo, The University of Tokyo, The University of Tokyo., The Universityof Tokyo, TheUniversity of Tokyo, TheUniversity of Tokyo., Tokyo Univ, Tokyo University, Tokyo univ., TokyoUniversity, Tôkyô Daigaku, U-Tokyo, UNIVERSITY OF TOKYO, Univ. Tokyo, Univ. of Tokyo, Univerisity Of Tokyo, Universiteit van Tokio, University of Tokyo, University of Tokyo., UofTokyo, l'université de Tokyo, the University of Tokyo, the university of Tokyo, the university of tokyo, theuniversity of Tokyo, theuniversity of Tokyo, u-tokyo, Токийский университет, 东 京 大 学, 国 立 大 学 法 人 東 京 大 学, 国 立 大 学 法 人 東 京 大 学, 日 本 の 最 高 学 府, 日 本 东 京 大 学, 東 大, 東 京 大, 東 京 大 学, 東 京 大 学 ( 通 称 T 大 ), 東 京 大 学 大 学 院, 東 京 大 学 様, 東 京 大 學, 東 京 帝 国 大 学, 東 京 帝 國 大 學, 東 大, 동경대(Tokyo Univ) 法 政 大 学 法 政 大 学, ( 学 ) 法 政 大 学, HOSEI, HOSEI University, Hosei, Hosei U, Hosei U., Hosei Univ, Hosei Univ., Hosei University, Hosei University., Hosei university, hosei, 学 校 法 人 法 政 大 学, 法 政, 法 政 大 学, 法 大, 法 政, 法 政 大, 法 政 大 学, 法 政 大 学, 法 政 大 學 55