高 信 頼 性 情 報 の 提 示 を 目 指 した 熟 知 度 に 基 づくブログランキング 方 式 の 提 案 Blog Ranking Method Based on Bloggers Knowledge Level for Providing Trustable Information 中 島 伸 介 Shinsuke NAKAJIMA Tomoaki KUSANO 稲 垣 陽 一 草 野 奉 章 Yoichi INAGAKI 近 年,ブログやSNS 等 のCGMと 呼 ばれるコンテンツが 数 多 く 配 信 されるようになり,これらに 対 する 検 索 要 求 も 高 まっている. 本 研 究 では,ブロガーが 過 去 に 投 稿 したエントリに 含 まれるキー ワードの 頻 度 から,そのキーワードが 表 す 話 題 に 対 するブロガ ーのマニア 度 を 算 出 し,これに 基 づいてブログエントリのランキ ングを 算 出 しようとするマニア 指 向 ブログランキング 方 式 を 提 案 する.さらに, 実 装 したプロトタイプシステムに 基 づいた 評 価 実 験 を 行 ったので 報 告 する. 本 手 法 は 単 にランキングの 尺 度 を 与 え るのみならず,ある 話 題 に 対 して 視 点 が 異 なるエントリの 呈 示 が 可 能 になると 共 に,ユーザ 自 身 が 閲 覧 する 情 報 の 信 頼 性 を 自 分 なりに 判 断 することも 可 能 になると 考 えている. Recently, search requests for CGM contents such as blog or SNS are increasing. Thus, we propose an enthusiast-oriented ranking method for blog search engines. This method generates an enthusiast score for each blogger calculated based on the term frequency in his or her past blog entries. We evaluate our proposed method using a prototype system. Our experiments show that our method is able to provide not only a blog ranking but also differing ranking lists depending on the desired topic area. Moreover, it allows users to estimate the trustworthiness of the blog contents.. はじめに 近 年,ブログやSNS 等 のCGMと 呼 ばれるコンテンツが 数 多 く 配 信 されるようになり,ブログ 検 索 やそのランキング に 対 する 要 求 が 高 まっている.ブログコンテンツの 魅 力 の 一 つは,その 即 時 性 である.したがって,ブログランキングで は,エントリ 投 稿 直 後 の 短 時 間 においてランキングを 算 出 す る 必 要 がある.Web 検 索 エンジンとして 最 も 大 きな 成 功 を 収 めたGoogleが 採 用 しているPageRank[]は,リンク 構 造 に 基 づいてランキングを 計 算 するものであるが, 投 稿 直 後 のブ ログエントリには 第 三 者 からのリンクは 存 在 しないため,こ のようなリンク 構 造 解 析 をブログランキングに 適 用 するこ とは 適 切 とはいえない. 正 会 員 京 都 産 業 大 学 コンピュータ 理 工 学 部 nakajima@cse.kyoto-su.ac.jp 非 会 員 株 式 会 社 きざしカンパニー { inagaki, kusano } @kizasi.jp 最 近 では,ブログに 特 化 した 検 索 エンジンも 数 多 く 運 用 さ れている[2][3].これらの 検 索 エンジンが 採 用 しているラン キング 方 式 には,ブログエントリに 対 するランキングと,ブ ログサイトに 対 するランキングが 存 在 する. ブログエントリに 対 する 従 来 のランキング 手 法 としては, 投 稿 時 刻 の 新 着 順 や,キーワードとの 関 連 性 に 基 づくランキ ングが 採 用 されている.こちらは,Googleブログ 検 索 [4] 等 が 該 当 する.これらのランキングでは,コンテンツの 価 値 を 評 価 することができないことが 問 題 である. ブログサイトに 対 する 従 来 のランキング 手 法 としては,サ イト 全 体 に 対 するリンク 数,アクセス 数, 投 票 等 によるラン キングが 採 用 されている.Technorati[5] 等 が 該 当 する.こ れらのランキングでは, 価 値 の 高 いエントリを 投 稿 している サイトを 発 見 することができても,そのサイトに 最 新 エント リが 存 在 するとは 限 らない.したがって, 最 新 エントリを 取 得 できる 保 証 がないことが 問 題 である. このような 状 況 を 受 けて,ブログの 特 長 である 即 時 性 を 失 うことのない, 効 果 的 なランキング 方 式 が 望 まれている. ブログの 特 徴 として, あるブログサイトの 内 の 全 てのエ ントリは, 原 則 として 人 のブロガー(ブログ 著 者 )によっ て 書 かれたものである というものがある.したがって, 過 去 のエントリの 履 歴 を 見 れば,そのブロガーの 特 性 を 解 析 し て 把 握 することも 可 能 である. 逆 にそのブロガーの 特 性 を 把 握 することができれば,そのブロガーが 新 たに 投 稿 したエン トリの 価 値 を 推 定 することも 可 能 である. 例 えば, Java に 詳 しいブロガーが 書 いた Java に 関 するエントリと, 大 学 で 初 めて Java の 講 義 を 受 けた 学 生 が 書 いた Java に 関 するエントリとでは, 前 者 の 方 がその 専 門 度 が 高 いと 容 易 に 推 測 できる. したがって,ブロガーが 過 去 に 投 稿 したエントリに 含 まれ る ある 話 題 を 表 すキーワード の 頻 度 から,そのキーワー ドが 表 す 話 題 に 対 するブロガーの 熟 知 度 (マニア 度 )を 算 出 し,これに 基 づいてブログエントリのランキングを 算 出 しよ うとするブログランキング 方 式 を 検 討 する. なお, 本 手 法 はランキングそのものの 価 値 に 加 えて, 複 数 の 尺 度 に 基 づいたランキングをユーザに 提 示 することが 可 能 である. 例 えば, Java に 関 するエントリを 検 索 した 際 に, Java そのものに 対 する 熟 知 度 に 基 づいたランキング だけでなく, プログラミング, 教 育 方 法, 試 験 対 策 等 に 関 する 熟 知 度 に 基 づいた 複 数 のランキングを 提 示 で きる 可 能 性 がある.すなわち, 単 にシステムが 与 える 一 意 の ランキングからユーザが 選 択 するのではなく, 検 索 対 象 に 対 する 複 数 の 視 点 の 中 から,ユーザ 自 身 が 目 的 のものを 選 択 す ることができるのである.これにより,ユーザは 閲 覧 する 情 報 の 背 景 を 把 握 することができるため,その 閲 覧 情 報 の 信 頼 性 を 自 分 なりに 判 断 することも 可 能 になると 考 えている. 熟 知 度 という 概 念 に 関 しては 竹 原 らの 研 究 [6]においても 紹 介 されているが, 熟 知 度 判 定 の 対 象 となる 話 題 を 表 すキー ワードの 取 得 方 法 や, 検 索 対 象 に 対 する 複 数 の 視 点 をユーザ が 選 択 可 能 にするような 手 法 等,に 関 して 考 慮 されておらず 実 用 レベルに 達 しているものではない. 本 稿 では,ユーザに 対 して 複 数 の 視 点 に 基 づくランキング の 提 示 が 可 能 な,ブロガーの 熟 知 度 に 基 づいたブログランキ ング 方 式,すなわちマニア 指 向 ブログランキング 方 式 を 提 案 すると 共 に, 実 装 したプロトタイプシステムに 基 づいた 評 価 実 験 を 行 ったので 報 告 する.
以 下, 本 論 文 の 構 成 を 示 す.2 節 では,マニア 指 向 ブログ ランキング 方 式 について 述 べる.3 節 では,システムの 実 装 および 評 価 実 験 について 述 べる.4 節 では, 今 後 の 課 題 につ いて 述 べる.5 節 では,まとめと 今 後 の 方 向 性 について 述 べ る. 2. マニア 指 向 ブログランキング 方 式 本 節 では,ブロガーの 熟 知 度 に 基 づいたブログランキング, すなわちマニア 指 向 ブログランキングの 処 理 手 順 について 説 明 する. 2. マニア 候 補 辞 書 の 作 成 はじめに,ブロガーが 記 述 するキーワードが,ある 話 題 に 関 するマニア 名 として 適 切 かどうかを 判 別 する 必 要 がある. 例 えば, ラーメン, タイガース, 鉄 道 等 は,そ の 話 題 に 関 して 熟 知 しているブロガーが 存 在 すると 予 想 で き,マニア 名 として 適 切 である. 一 方, 最 近, 単 純, 効 果 等 の 一 般 的 な 語 句 は,いわゆるマニアが 存 在 するよ うな 話 題 としては 適 切 とはいえない.そこで 本 研 究 では, 事 前 にマニア 候 補 辞 書 を 作 成 することにした. 以 下 に,マニア 候 補 辞 書 の 作 成 手 順 を 示 す. マニア というキーワードで Web 検 索 を 行 い, 検 索 結 果 のテキストの 中 から マニア の 直 前 の 名 詞 句 をピックアップして,その 頻 度 を 計 算 する.( 例 えば, ラーメンマニア の 場 合 は, 語 句 ラーメン をピックアップする.) 2 この 頻 度 順 に 整 列 した 名 詞 句 のうち, 頻 度 が 高 条 件 4: 件 以 上 /0 日 間 のエントリ 投 稿 を2ヶ 月 間 継 続. 条 件 5:3 件 以 上 /2 週 間 のエントリ 投 稿 を2ヶ 月 間 継 続. 条 件 6:5 件 以 上 /2ヶ 月 間 のエントリ 投 稿 条 件 7: 件 以 上 / 週 間 のエントリ 投 稿 をヶ 月 間 継 続. 条 件 8:3 件 以 上 /2 週 間 のエントリ 投 稿 をヶ 月 間 継 続. 条 件 9:8 件 以 上 /ヶ 月 間 のエントリ 投 稿. ただし, 最 終 的 に 上 記 全 てを 採 用 しようとするのではなく, 各 条 件 によって 認 定 されたマニアブロガーを 検 証 し, 条 件 の 修 正 や 追 加 を 含 め, 最 終 的 に 採 用 する 条 件 を 決 定 する.また, この 認 定 基 準 は 対 象 となる 話 題 (マニア 名 )によっても 調 整 する 必 要 があると 考 えられる. 話 題 毎 の 基 準 の 調 整 に 関 して は, 今 後 の 検 討 課 題 とする. 2.3 各 ブロガーのマニアスコアの 算 出 マニアブロガーとして 認 定 されたブロガーの 熟 知 度 を 表 す マニアスコアの 算 出 方 法 を 説 明 する. 基 本 的 な 考 え 方 として は, 対 象 マニア 名 に 関 連 する 話 題 を 含 んだエントリの 投 稿 数 に 基 づいて 算 出 する. 投 稿 したエントリと 対 象 マニア 名 の 関 連 度 を 計 算 するため に,マニア 候 補 辞 書 に 載 っている 全 ての 語 句 に 対 して,その 関 連 語 をデータベースに 格 納 する.この 関 連 語 は, 対 象 マニ ア 名 との 共 起 度 が 高 いもののみを 格 納 した. 今 回 は 暫 定 的 に, 共 起 度 上 位 00 語 とした. ここで, 対 象 マニア 名 M に 対 する,あるブログエントリの 関 連 度 スコアを escore とすると, n いものをリストアップする. escorem = ( w j C j E j ) 3 ファン フリーク に 対 しても, 同 様 の 作 業 を 行 う. 4 マニア ファン フリーク にて,リス トアップした 語 のうち, 重 複 を 除 去 すると 共 に, 人 間 の 判 断 で 不 適 切 と 思 われる 語 句 を 除 去 し た 上 で 辞 書 に 登 録 する. リストアップする 際 の 頻 度 の 閾 値 に 関 しては, 低 くしすぎ ると 不 適 切 な 語 句 を 数 多 く 含 めてしまう 恐 れがある. 反 対 に 高 すぎると, 十 分 な 数 のマニア 名 をリストアップすることが できなくなる.もちろん, 閾 値 の 最 適 化 を 行 ったとしても 完 全 自 動 化 は 難 しく, 実 用 段 階 においては, 他 の 方 法 を 複 合 的 に 採 用 することや, 人 手 による 追 加 削 除 の 作 業 が 必 要 であ る.しかしながら, 本 節 で 述 べる 手 法 を 適 用 することにより, 人 的 コストを 大 きく 削 減 することが 期 待 できる. j= M () と 表 すことができる.ただし, j は 共 起 度 順 位 j に 基 づ く 重 み, C j は 共 起 度 順 位 j の 関 連 語 の 共 起 度 である. E j は 共 起 度 順 位 j の 関 連 語 が 当 該 エントリ 内 に 存 在 するかどう かを 表 現 する 変 数 であり, 存 在 する 場 合, 存 在 しない 場 合 0の 値 をとる.また, n は 関 連 度 算 出 において 考 慮 する 関 連 語 の 数 であり, 今 回 は である. n =00 次 に, 対 象 マニア 名 M に 対 するブロガー B のマニアス mscore M B とすると, コアを ( ) mscore M ( B) log = m ( m) w m i= escore M ( b ) i (2) 2.2 マニアブロガーの 認 定 本 節 では, 各 ブロガーがどのような 話 題 のマニアであるの かを 判 定 する 方 法 について 説 明 する. 基 本 的 には, マニ ア 名 を 表 すキーワード を 含 むエントリを, 長 期 間 において コンスタントに 投 稿 しているブロガーをそのキーワードが 表 すマニアブロガーと 認 定 する という 方 針 に 従 う.ここで, マニアブロガーの 認 定 基 準 として, 以 下 の9 個 の 条 件 を 挙 げ た. 条 件 : 件 以 上 / 週 のエントリ 投 稿 を3ヶ 月 間 継 続. 条 件 2:5 件 以 上 / 月 のエントリ 投 稿 を3ヶ 月 間 継 続. 条 件 3:20 件 以 上 /3ヶ 月 間 のエントリ 投 稿 と 表 すことができる.ただし, bi はブロガー B が 投 稿 し た 対 象 マニア 名 に 関 して 書 かれたエントリであり, escorem ( b i ) はエントリ bi の 対 象 マニア 名 M に 対 する 関 連 度 スコアである. また, m は 対 象 期 間 中 に 対 象 マニア 名 に 関 する 話 題 につ いてブロガー B が 投 稿 したエントリ 数 である.なお, log ( m) m では, 関 連 性 の 低 いエントリを 大 量 に 投 稿 した 場 合 に,そのブロガーのマニア 度 が 高 くなってしまう 問 題 に 対 して,エントリ 数 の 増 加 の 影 響 を 緩 和 させている. 2
2.4 マニア 指 向 ランキングの 算 出 本 節 では,マニア 指 向 ランキングの 算 出 方 法 について 述 べる. 以 下 にマニア 指 向 ランキングの 算 出 手 順 を 示 す. 2 3 ランキングの 適 用 対 象 となるブログエントリ 集 合 が 与 えられた 際,これに 対 応 するブロガー 集 合 に 対 し,それ ぞれがどの 話 題 のマニアブロガーであるかを 確 認 し,マ ニアグループとして 集 計 する.(この 際,あるエントリ が 複 数 のマニアグループに 属 することを 許 す.) 上 記 マニアグループのうち, 人 数 が 多 いものから 上 位 x 件 ( 例 えば3~5 件 程 度 )をマニア 指 向 ランキング の 対 象 とする. ランキング 対 象 となったマニアグループの 各 ブロガー を, 前 節 で 説 明 したマニアスコアに 基 づいてソートする ことで,その 話 題 (マニアグループ)に 関 するランキン グを 行 う. マニア 指 向 ランキング(ボタンをクリック) サッカー 浦 和 レッズ イラン チケット 浦 和 レッズ サッカー 以 上 のように 検 索 対 象 であるブログエントリに 対 して, 複 数 の 視 点 からのランキングを 実 現 する.これにより, 利 用 者 は 各 視 点 における 上 位 ランクのブロガーが 書 いたエントリ を 選 択 的 に 閲 覧 することが 可 能 になる. 3. システムの 実 装 および 評 価 実 験 3. システムの 実 装 イメージ システムの 実 装 イメージを, 図 に 示 す. 図 は, ACL 決 勝 でブログ 検 索 された 結 果 の 例 を 表 している.この 例 で は, 話 題 語 が 検 索 キーワードである ACL 決 勝 であり, 図 の 下 部 に ACL 決 勝 にて 検 索 されたブログエントリの リストが 表 示 されている. 従 来 までは, 単 に 新 着 順 で 表 示 さ れるのみであったが, 提 案 システムでは マニア 指 向 ランキ ング を 提 供 する. 利 用 者 は サッカー, 浦 和 レッズ, イラン, チケッ ト 等 のボタンをクリックすることで,その 話 題 に 関 して 頻 繁 にブログを 投 稿 するブロガー(マニアブロガー)に 基 づい たランキングを 表 示 させることができる.つまり, 単 に 検 索 キーワードに 基 づくブログを 閲 覧 するのではなく, サッカ ーマニアからみた ACL 決 勝, 浦 和 レッズマニアからみた ACL 決 勝, チケットマニアからみた ACL 決 勝 等 のよう に 視 点 を 選 択 しながらブログ 情 報 を 閲 覧 することが 可 能 と なる. また, 図 に 表 示 されているエントリのリストには,エン トリを 書 いたブロガーが 何 の 話 題 に 関 するマニアブロガー かを 呈 示 している. 例 えば, 件 目 のブロガーは, 浦 和 レ ッズ および サッカー に 関 するマニアであることを 示 し ている.これにより,ブロガーの 立 場 を 把 握 した 上 でブログ を 閲 覧 することができる. サッカー 図 システムの 実 装 イメージ チケット 3.2 プロトタイプシステムに 基 づいた 評 価 実 験 前 節 にてシステム 実 装 のイメージを 示 したが,まずは 提 案 手 法 の 評 価 を 行 うために 評 価 実 験 用 のプロトタイプシステ ムの 構 築 を 行 った.プロトタイプシステムで 扱 うブログエン トリ 数 は,2007 年 2 月 日 以 降 に 投 稿 された,3,364,604エ ントリ(ブロガー 数 :,44,56)である(2008 年 2 月 5 日 時 点 ). 図 2に, オリンピック にて 検 索 した 際 のマニアランキ ングリストを 示 す. 図 中 の 検 索 条 件 ~9は,2.2 節 にて 述 図 2 オリンピック にて 検 索 した 際 の マニアランキングリスト 3
べたマニアブロガーの 認 定 条 件 の~9に 該 当 し, 各 々の 条 件 において 提 示 可 能 なマニアランキングのリストを 提 示 し ている. なお, 本 論 文 では, 以 下 の 項 目 に 関 する 評 価 実 験 を 行 った. 各 マニアブロガー 認 定 条 件 にて 提 示 可 能 なマニアラン キングの 項 目 と 数 の 妥 当 性 の 検 証. ユーザが 選 択 可 能 なマニアランキングの 項 目 に 対 する エントリの 内 容 の 妥 当 性 の 検 証. ブロガーに 対 するマニアスコアの 妥 当 性 の 検 証. 3.2. マニアランキングの 項 目 と 数 の 妥 当 性 の 検 証 ここでは, 各 マニアブロガー 認 定 条 件 にて 提 示 可 能 なマニ アランキングの 項 目 と 数 の 妥 当 性 の 検 証 を 行 う. 提 示 可 能 な マニアランキング 数 は 安 定 して,ある 程 度 の 数 を 確 保 しなけ ればならない.また, 検 索 キーワードと 全 く 関 係 ないマニア ランキングの 価 値 は 高 いとはいえないので,その 妥 当 性 を 確 保 する 必 要 がある. 本 節 ではまず, 以 下 の0 個 のキーワード にて 検 索 し, 平 均 マニアランキング 数 を 調 べた.なお,ブロ グエントリの 検 索 期 間 は, 検 索 時 から 遡 って7 日 間 とした. オリンピック 選 挙 野 球 北 京 ラーメン ipod Windows 正 月 自 動 車 環 境 図 3に, 各 マニアブロガー 認 定 条 件 における 平 均 マニアラ ンキング 数 を 示 す. 当 然 ながら, 検 索 キーワードが 異 なれば マニアランキング 名 も 異 なっていたが,どの 検 索 キーワード を 使 ってもマニアランキング 数 の 変 動 は 少 なかった. 各 条 件 において 提 示 可 能 なマニアランキングに 関 しては, 条 件, 2,5では 十 分 な 数 のマニアランキングを 確 保 できていない といえる. 条 件 9は, 提 示 可 能 なマニアランキング 数 が 最 も 多 いが, 適 切 とはいえないマニアランキングを 多 く 含 んでい た.マニアランキング 名 を 確 認 したところ, 条 件 3,4,6 はある 程 度 のマニアランキングを 確 保 できており,また 不 適 切 なマニアランキングもそれ 程 多 くなかった. 条 件 7,8に 関 しては, 不 適 切 なマニアランキングを 含 んでいるものの, 条 件 3,4,6がピックアップできていない, 有 効 なマニア ランキングをピックアップできているケースも 少 なからず 存 在 した. したがって,3,4,6の 条 件 を 中 心 に,マニアブロガー の 認 定 条 件 を 再 検 討 するが,この 際 に 条 件 7,8にてピック アップできた 有 効 なマニアランキングをピックアップでき るような 条 件 設 定 を 目 指 す. 3.2.2 マニアランキングの 項 目 に 対 するエントリの 内 容 の 妥 当 性 の 検 証 ある 話 題 に 対 してブログ 検 索 を 行 った 際 に, 検 索 結 果 には 複 数 の 視 点 から 書 かれたブログエントリが 存 在 するものと 考 えられる. 提 案 手 法 では, 複 数 のマニアランキングをユー ザに 提 供 できるため,ユーザが 自 分 の 読 みたい 視 点 から 書 か れたブログエントリを 選 択 することが 可 能 である.そこで, ある 話 題 に 対 して 検 索 した 結 果 に 対 して 異 なるマニアラン キングを 選 択 した 際 に,ユーザに 提 示 されるエントリの 内 容 の 違 いに 関 して 考 察 する. 例 として,2007 年 2 月 3 日 ~0 日 までに 書 かれたブログエン トリに 対 して, 柔 道 で 検 索 を 行 った.この 中 で,マニア 認 定 条 件 6により 提 示 されるマニアランキングの 上 位 5 件 図 3 各 マニアブロガー 認 定 条 件 における 平 均 マニアランキング 数 柔 道 慶 ちゃん NEWS TV ジャニーズ 柔 道 - 0 0 0 0 慶 ちゃん 0-5 2 NEWS 0 5-3 3 TV 0 2 3 - ジャニーズ 0 3 - 図 4 各 マニアランキング 間 上 位 0 位 以 内 における 重 複 エントリ 数 は, 以 下 の 通 りであった. 柔 道 慶 ちゃん NEWS TV ジャニーズ まず, 柔 道 マニアランキングでは, 上 位 0 件 のうち,3 件 が 有 名 な 柔 道 選 手 に 関 する 記 事,7 件 が 自 分 で 柔 道 をする ブロガーによる 記 事 であった. 次 に 慶 ちゃん マニアラン キングであるが, 上 位 0 件 全 てが,アイドルグループ NEWS の 加 藤 成 亮 さんが 主 演 したドラマ 姿 三 四 郎 に 関 する 記 事 であった.( 注 : 慶 ちゃん とはジャニーズのアイドルグル ープ NEWS の 小 山 慶 一 郎 さんのニックネーム) NEWS マニアランキングでも, 上 位 0 件 全 てがアイドルグループ NEWS の 加 藤 成 亮 さんが 主 演 したドラマ 姿 三 四 郎 に 関 する 記 事 であった.ただし, 上 位 のブログエントリが 慶 ち ゃん マニアランキングと 全 て 一 致 している 訳 ではない. T V マニアランキングでは, 上 位 0 件 のうち,ドラマ 姿 三 四 郎 に 関 する 記 事 が6 件,その 他 柔 道 と 関 係 が 少 ないもの が4 件 であった. ジャニーズ マニアランキングでは, 該 当 ブログ 記 事 が6 件 のみであったが,6 件 全 てがドラマ 姿 三 四 郎 に 関 する 記 事 であった. ここで, 図 4に, 各 マニアランキング 間 上 位 0 位 以 内 にお ける 重 複 エントリ 数 を 示 す. 図 4にて 示 す 重 複 エントリは, 対 応 するマニア 間 の 近 さを 示 す 一 つの 指 標 であるという 解 釈 も 可 能 である. 図 4より, 柔 道 マニアランキングは, 他 のランキングとの 重 複 はなく, 他 のランキングに 比 べて 特 徴 的 であるということが 言 える. 逆 に 慶 ちゃん マニアラ ンキングと NEWS マニアランキングでは, 半 数 の5エ ントリが 重 複 しており,マニア 間 の 近 さを 証 明 する 結 果 とな っている. 次 に, 各 マニアランキングにおいて, 提 示 されるエントリ のうち 他 のマニアランキングでは 表 示 されないものの 割 合, 4
すなわち 各 マニアランキング 独 自 のエントリの 割 合 を 以 下 に 示 す. 柔 道 :00% 慶 ちゃん :44% NEWS :30% TV :70% ジャニーズ :50% 他 のマニアランキングとのエントリの 重 複 が 無 い 柔 道 マニアの 存 在 価 値 が 高 いことは 当 然 であるが, NEWS マニアランキングのように 他 のマニアランキングとの 重 複 エントリが 数 多 く 存 在 するものであっても, 独 自 のエントリ を 有 しており,その 存 在 価 値 は 決 して 低 いとは 言 えない. 他 の 類 似 ランキングと 統 合 してユーザに 提 示 することも 今 後 検 討 するが, 独 自 のエントリを 利 用 できるような 方 法 を 検 討 すべきと 考 えている. 以 上 のように,マニアランキングの 選 択 によって, 提 示 さ れるブログ 記 事 の 内 容 が 大 きく 異 なっており, 提 案 手 法 によ り 複 数 のマニアランキングをユーザに 提 示 することで,ユー ザが 読 みたい 記 事 を 選 択 することが 可 能 になるといえる. ただし, 意 味 的 に 類 似 しているマニアランキング 項 目 に 対 し ては,マニアランキング 同 士 の 関 連 を 踏 まえて,ランキング の 統 合 に 関 する 検 討 や, 提 示 方 法 の 工 夫 が 必 要 であると 考 え ている. 3.2.3 マニアスコアの 妥 当 性 の 検 証 ここでは,ブロガーに 対 するマニアスコアの 妥 当 性 の 検 証 として, 以 下 に 示 す3つのスコアの 比 較 を 行 う. A: 対 象 キーワードを 含 むエントリ 数 のみで 算 出 するスコア B: 式 (2)に 示 す 提 案 手 法 のマニアスコアのうち, log ( m) m 図 5 各 種 マニアランキングによるランキング 上 位 0 件 に 対 する 適 合 率 えない.また,この800 程 度 の 語 句 の 中 にも, 不 適 切 な 語 句 も 含 まれていた.すなわち, 数 量 の 面 でも, 精 度 の 面 でも 改 良 の 余 地 はあるといえる. マニア 候 補 名 のピックアップするために 利 用 した マニ ア ファン フリーク 以 外 のものとしては, 大 好 き ウ ォッチャー オタク 等 の 語 句 も 考 えられる.また, 最 終 的 にはユーザによる 登 録 制 にすることで 精 度 を 向 上 させる ことも 考 えられる.したがって,あらゆる 可 能 性 を 考 慮 しな がら,マニア 候 補 辞 書 登 録 方 法 の 効 率 化 を 検 討 する. による 重 み 調 整 を 行 わないスコア マニアブロガー 認 定 基 準 の 妥 当 性 の 検 証 C: 提 案 手 法 によるマニアスコア 今 回,9 通 りのマニアブロガー 認 定 条 件 を 設 定 して 実 験 を 行 い, 各 条 件 の 比 較 を 行 った. 今 後 はさらに 詳 細 な 実 験 を 行 以 下 に 示 す5パターンの 検 索 およびランキングに 対 して, うことにより,より 適 切 な 認 定 条 件 について 検 討 する. 上 位 0 位 に 対 するマニアスコア 上 位 のブロガーとして 妥 当 なものの 数 ( 適 合 率 )を 調 べる. マニアスコアの 妥 当 性 の 検 証 キャンプ で 検 索 した 際 の 阪 神 マニアランキング. ニュース で 検 索 した 際 の 中 国 マニアランキング. テレビ で 検 索 した 際 の 嵐 マニアランキング. 福 岡 で 検 索 した 際 の 福 岡 マニアランキング. アメリカ で 検 索 した 際 の 経 済 マニアランキング. 本 稿 では,マニアスコアの 妥 当 性 に 関 して 実 験 を 行 い, 提 案 手 法 の 有 効 性 について 議 論 した. 検 索 およびランキングの 条 件 によっては, 提 案 手 法 が 劣 っているケースもあった. 今 後 はより 詳 細 な 検 証 を 行 い, 必 要 に 応 じて 提 案 手 法 の 改 良 を 行 う. 図 5に,A,B,Cにて 示 した 各 種 マニアスコアによるラ ンキング 上 位 0 件 に 対 する 適 合 率 を 示 す.Cの 提 案 手 法 が 最 も 良 い 結 果 を 示 した.エントリ 数 が 異 常 に 多 いアフィリエイ ト 目 的 のブログ 等 が,AやBではランクインしてしまう 傾 向 がある.したがって,ノイズの 排 除 という 観 点 からも 提 案 手 法 の 有 効 性 を 確 認 できたといえる.しかしながら, 検 索 およ びランキングのパターンによっては 手 法 Aが 最 も 良 いケー スもあった. 今 後,より 詳 細 な 評 価 実 験 を 行 い, 必 要 に 応 じ てマニアスコア 算 出 方 法 の 改 良 を 行 うつもりである. 4. 今 後 の 課 題 マニア 候 補 辞 書 登 録 方 法 に 関 する 検 討 マニア 名 の 候 補 は,Web 検 索 に 基 づいて 自 動 で 登 録 するが, 登 録 されたキーワードの 妥 当 性 を 検 証 し,ストップワードの 設 定 を 含 めて, 検 出 方 法 を 再 検 討 する. 今 回,プロトタイプシステムでは, 自 動 で 検 出 できたマニ ア 名 候 補 は800 程 度 であり, 十 分 な 数 を 抽 出 できたとはい スパム 対 策 大 量 のブログエントリを 自 動 で 投 稿 するようなブログサ イトが 存 在 するが,このようなサイトではマニアスコアが 異 常 に 高 くなる 恐 れがある. 意 図 的 なスパムも 含 めて,これら のブログサイトに 対 する 有 効 なスパム 対 策 について 検 討 す る. 5. まとめ 本 論 文 では,ユーザに 対 して 複 数 の 視 点 に 基 づくランキン グの 提 示 が 可 能 な,ブロガーの 熟 知 度 に 基 づいたブログラン キング 方 式,すなわちマニア 指 向 ブログランキング 方 式 を 提 案 すると 共 に, 実 装 したプロトタイプシステムに 基 づいた 評 価 実 験 を 行 った. 評 価 実 験 により 提 案 手 法 の 有 効 性 を 確 認 す ることができたが, 検 討 すべき 課 題 も 多 い. 今 後 はさらに 検 証 実 験 を 行 うことで 提 案 手 法 の 改 良 を 行 いつつ,ユーザが 信 頼 性 の 高 い 情 報 を 取 得 するための 技 術 を 目 指 して, 発 展 させ ていくつもりである. 5
[ 謝 辞 ] 本 研 究 の 一 部 は,NICT 委 託 研 究 電 気 通 信 サービスにお ける 情 報 信 憑 性 検 証 技 術 に 関 する 研 究 開 発, 文 部 科 学 省 科 学 研 究 費 補 助 金 特 定 領 域 研 究 情 報 爆 発 時 代 に 向 けた 新 しい IT 基 盤 技 術 の 研 究 (A0-34, 課 題 番 号 9024058),およ び 文 部 科 学 省 科 学 研 究 費 補 助 金 若 手 研 究 (B)( 課 題 番 号 : 20700089)による.ここに 記 して 謝 意 を 表 します. [ 文 献 ] [] S. Brin and L. Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. In Proceedings of the 7th World-Wide Web Conference, Apr. 998. http://www7.scu.edu.au/92/com92.htm. [2] kizasi.jp, http://kizasi.jp/ [3] Yahoo!ブログ 検 索, http://blog-search.yahoo.co.jp/ [4] Google ブログ 検 索, http://blogsearch.google.co.jp/ [5] Technorati ブログ 検 索, http://www.technorati.jp/ [6] 竹 原 幹 人, 中 島 伸 介, 角 谷 和 俊, 田 中 克 己,Web 情 報 検 索 のための Blog 情 報 に 基 づくトラスト 値 の 算 出 方 式, 日 本 データベース 学 会 論 文 誌 (DBSJ Letters), Vol.3, No.,pp.0-04,2004 年 6 月. 中 島 伸 介 Shinsuke NAKAJIMA 京 都 産 業 大 学 コンピュータ 理 工 学 部 准 教 授. 博 士 ( 情 報 学 ). 日 本 データベース 学 会, 情 報 処 理 学 会,IEEE CS 各 会 員. 稲 垣 陽 一 Yoichi INAGAKI ( 株 ) きざしカンパニー CTO.サーチエンジンの 研 究 開 発 に 従 事. 草 野 奉 章 Tomoaki KUSANO ( 株 ) きざしカンパニー 技 術 本 部.サーチエンジンの 研 究 開 発 に 従 事. 6