コンテンツベースフィッシング 検 知 手 法 の 大 規 模 実 例 評 価 と 改 良 フィッシング 対 策 協 議 会 2010 年 4 月 22 日
概 要 金 融 機 関 等 の Web サイトに 成 りすまして 個 人 情 報 を 詐 取 するフィッシング 詐 欺 が 社 会 問 題 になっている.コンテンツベース(CB)のフィッシング 検 知 方 式 は, 検 査 対 象 サイトのテ キストからキーワードを 抽 出 し,これを 用 いた Web 検 索 によって 正 規 サイトを 求 め, 検 査 対 象 サイトと 比 較 することでフィッシング 判 定 を 行 う 方 式 である.ブラックリスト 方 式 等 で 必 要 となるリストの 管 理 が 不 要 であり,また, 検 知 率 が 高 いとされている.しかし, 大 量 の 実 例 データを 用 い CB 方 式 を 評 価 した 例 はなく,その 性 能 について 明 確 な 知 見 は 存 在 しない. また, 従 来 の CB 方 式 は, 英 語 サイトにのみ 対 応 していた. そこで, 日 英 両 言 語 の CB システムを 実 装 し,JPCERT/CC の 保 有 する 843 件 のフィッシン グサイトを 用 いて 評 価 した.843 件 全 てについて 正 しいフィッシング 判 定 が 得 られた.その うち 705 件 については 正 規 サイトの 検 索 に 成 功 し,CB 方 式 の 想 定 通 りの 動 作 であった. 残 りの 138 件 については, 正 規 サイトが 検 索 されない 理 由 を 分 析 した.
目 次 1. はじめに... 1 2. 従 来 方 式... 2 3. コンテンツベース 方 式... 3 3.1 方 式... 3 3.2 評 価 方 法... 3 3.3 実 験 方 法... 4 4. 実 装... 5 5. 予 備 実 験... 6 5.1 概 要... 6 5.2 実 験 方 法... 6 5.3 実 験 結 果 と 考 察... 6 5.4 改 良... 8 6. 本 評 価... 9 6.1 概 要... 9 6.2 実 験 方 法... 9 6.3 フィッシング 検 知 率... 9 6.4 正 規 サイト 導 出 率... 10 6.4.1 モード 別 の 比 較 評 価... 10 6.4.2 ダイアクリティカルマーク 除 外 による 成 果... 11 6.4.3 その 他 の 手 法 による 成 果... 11 6.5 正 規 サイトが 導 出 されなかった 原 因 の 分 析... 11 7. 結 論... 14
1. はじめに 近 年,インターネットの 急 速 な 普 及 によって, 子 供 や 高 齢 者 などコンピュータリテラシー の 低 いユーザによるインターネットの 利 用 が 一 般 化 してきた.これに 伴 って,コンピュータ リテラシーの 低 いユーザをターゲットとしたフィッシング 詐 欺 が 急 増 している.フィッシン グ 詐 欺 とは, 金 融 機 関 や 公 的 機 関,ソーシャル ネットワーキング サービス(SNS) 等 を 装 った 偽 のウェブサイト(フィッシングサイト)を 制 作 し,そこからユーザの 個 人 情 報 を 詐 取 する 詐 欺 の 総 称 である.フィッシング 詐 欺 による 被 害 額 は,2006 年 度 の 全 米 被 害 額 が 28 憶 ドル,2007 年 度 では 32 億 ドルと 年 々 増 加 している[1].また, 従 来 のフィッシング 詐 欺 の 多 くは, 米 国 を 中 心 とした 国 外 でのものであったが, 最 近 では 日 本 国 内 でのフィッシング 詐 欺 も 増 加 しており,2010 年 1 月 には 国 内 での 逮 捕 者 も 出 ている. フィッシング 詐 欺 への 対 策 方 法 として, 様 々なフィッシング 検 知 方 式 が 提 案 されている. その 中 でも,Yueら[ 2], 中 山 ら[3]によって 提 案 されているコンテンツベース 方 式 は,データ ベースのメンテナンスが 不 要 で,かつ 即 時 性 の 高 いフィッシング 検 知 方 式 として 注 目 されて いる.この 方 式 は,フィッシングサイトが 正 規 サイトの 模 倣 であることに 注 目 し, 検 索 エン ジンを 利 用 して 正 規 サイトを 探 し 出 すことで,フィッシング 詐 欺 検 知 を 行 う 方 式 である. しかし,この 方 式 には 次 の 問 題 がある. 検 知 性 能 について, 小 規 模 な 評 価 しか 行 われておらず, 大 規 模 な 実 例 データを 利 用 した 評 価 が 行 われていない. 適 用 可 能 な 言 語 として, 英 語 に 対 応 した 実 装 評 価 は 行 われているが, 日 本 語 のフィッシ ングサイトに 対 応 する 実 装 評 価 が 行 われていない. 原 理 上 の 問 題 として, 文 字 情 報 が 少 ないウェブページの 検 査 が 行 えない. 実 装 上 の 問 題 として,HTML パース 方 法 および 特 殊 文 字 の 扱 い 方 が 検 知 性 能 に 与 える 影 響 について 十 分 に 検 討 されていない. そこで 本 稿 では, 大 量 のフィッシング 実 例 データを 用 いたコンテンツベース 方 式 の 評 価 な らびに 日 本 語 のフィッシングサイトに 対 応 したシステムの 実 装 評 価 を 行 う. 実 験 には, 国 内 のセキュリティインシデント 対 応 機 関 である JPCERT コーディネーションセンターが 保 有 す る 843 件 のフィッシングサイト 実 例 データを 用 いて 行 う. 1
2. 従 来 方 式 従 来 のフィッシング 検 知 手 法 として,ホワイトリストやブラックリスト 等 のデータベース を 用 いた 方 式 がある. ホワイトリスト 方 式 正 規 サイトを 記 録 したホワイトリストと 比 較 し, 載 っていないウェブサイトを 信 頼 できな いと 判 断 する[4].この 方 式 では, 中 小 企 業 や 新 規 サイトをすべて 網 羅 することは 難 しく,ホ ワイトリストに 載 っていないサイト 以 外 はフィッシングサイト 扱 いされるという 可 能 性 があ る. ブラックリスト 方 式 フィッシングサイトを 記 録 したブラックリストと 比 較 し, 載 っていたサイトを 信 頼 できな いと 判 断 する[5].ブラックリストは,フィッシングサイトを 見 た 人 がブラックリストの 管 理 組 織 に 通 報 して,はじめて 登 録 される.そのため,フィッシングサイトが 現 れてから, 実 際 にブラックリストに 登 録 されるまでには 時 間 差 が 存 在 する.したがって,ブラックリストに 登 録 されるまでのタイムラグの 間 に, 閲 覧 してしまったユーザを 守 ることはできない. これらの 方 式 は,いずれもデータベースの 頻 繁 なメンテナンスが 必 要 とされるため, 管 理 コストの 高 さや, 即 時 性 の 高 い 判 断 ができないことが 問 題 となる.そこで,データベースの 更 新 が 不 要 で,かつ 即 時 性 の 高 いフィッシング 検 知 が 可 能 なコンテンツベース 方 式 が 提 案 さ れている.この 方 式 では,フィッシングサイトが 正 規 サイトの 模 倣 であることに 注 目 し, 検 索 エンジンを 利 用 して 正 規 サイトを 探 し 出 すことで,フィッシング 検 知 を 行 う 方 式 である. その 詳 細 は 次 章 で 述 べる. 2
3. コンテンツベース 方 式 3.1 方 式 コンテンツベース 方 式 とは,コンテンツの 類 似 性 を 利 用 したフィッシング 検 知 方 式 である. フィッシングサイトは,ユーザを 騙 すために 特 定 のウェブサイトになりすます.このような フィッシングサイトの 多 くは, 正 規 サイトのコンテンツをコピーまたは 模 倣 して 作 成 された ものである.そのため,フィッシングサイトと 正 規 サイトの 内 容 は 酷 似 しており,そこに 出 現 する 言 葉 や 見 た 目 には 同 じ 特 徴 が 見 られる.コンテンツベース 方 式 では,このような 類 似 性 に 着 目 することで,フィッシング 検 知 を 行 う. コンテンツベース 方 式 による 処 理 は 次 の 通 りである( 図 1). 検 査 対 象 ページ 内 から 特 徴 的 な 語 句 を 抽 出 する. 特 徴 度 の 高 い 上 位 N 件 の 単 語 をキーワードとしてウェブ 検 索 を 行 う. もし 検 査 対 象 ページのドメインが 検 索 結 果 の 上 位 M 件 の 中 に 含 まれていれば, 正 規 サ イトと 判 断 する. 含 まれていなければ,フィッシングサイトと 判 断 する. 検 査 対 象 ページ インターネット 一 致 正 規 サイトと 判 断 キーワード 抽 出 ウェブ 検 索 ドメイン 比 較 フィッシングサイト と 判 断 キーワードN 件 正 規 サイト 候 補 M 件 不 一 致 図 1 コンテンツベース 方 式 この 方 式 のフィッシング 検 知 方 法 が 有 効 である 根 拠 として,ウェブ 検 索 エンジンの 特 性 を 説 明 する. 特 徴 的 な 語 句 によってウェブ 検 索 をした 結 果 の 中 には, 模 倣 元 である 正 規 サイト が 現 れる 一 方 で,フィッシングサイトは 現 れない.なぜなら,フィッシングサイトは 平 均 存 続 期 間 が 3.1 日 と 短 く[6],また 他 のウェブサイトからリンクされることも 稀 なため, 検 索 エ ンジンからの 評 価 が 低 いからである.そして, 一 般 的 な 企 業 の 正 規 サイトは,これとは 逆 の 性 質 を 有 しており, 検 索 エンジンからの 評 価 が 高 い.すなわち,コンテンツベース 方 式 は, 検 索 エンジンの 特 性 を 利 用 することでホワイトリストを 動 的 に 生 成 しているとも 表 現 できる. 3.2 評 価 方 法 フィッシング 検 知 方 式 の 評 価 は, 次 の 点 について 行 われる. フィッシング 検 知 率 フィッシングサイトを 検 査 し,フィッシングと 正 しく 判 断 した 率 正 規 サイト 誤 検 知 率 正 規 サイトを 検 査 し,フィッシングと 誤 って 判 断 した 率 既 存 研 究 では, 様 々な 誤 検 知 防 止 手 法 が 提 案 されているが,ここではそれらの 手 法 を 用 い ない 基 本 的 コンテンツベース 方 式 における 実 験 方 法 および 結 果 を 説 明 する. 3
3.3 実 験 方 法 Yue らは, 次 の 方 法 でそれぞれ 実 験 および 評 価 を 行 っている. Basic TF-IDF TF-IDF 上 位 5 件 の 単 語 をキーワードにウェブ 検 索 を 行 い, 検 索 結 果 上 位 30 件 のドメイン と 比 較 する. 検 索 結 果 が0 件 の 場 合, 判 断 不 可 能 とする. Basic TF-IDF + domain TF-IDF 上 位 5 件 の 単 語 に 検 査 対 象 ページのドメイン 名 を 加 えたものをキーワードとして ウェブ 検 索 を 行 い, 検 索 結 果 上 位 30 件 のドメインと 比 較 する. Basic TF-IDF + ZMP Basic TF-IDF と 同 様 の 実 験 を 行 う. 検 索 結 果 が0 件 の 場 合,フィッシングサイトであると 判 断 する.(ZMP : Zero Means Phishing) Basic TF-IDF + domain + ZMP Basic TF-IDF + domain と 同 様 の 実 験 を 行 う. 検 索 結 果 が0 件 の 場 合,フィッシングサイト であると 判 断 する. Yue らの 実 験 で 使 用 したサンプルは,フィッシングサイト 100 件, 正 規 サイト 100 件 であ り,いずれも 全 て 英 語 のウェブページである.これらによる 実 験 結 果 を 図 2 に 示 す. 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 97% 94% 94% 67% フィッシング 検 知 率 Basic TF-IDF Basic TF-IDF + domain Basic TF-IDF + ZMP Basic TF-IDF + domain + ZMP 30% 31% 10% 10% 正 規 サイト 誤 検 知 率 図 2 既 存 研 究 による 評 価 4
4. 実 装 Yueらの 方 式 に 従 い, 英 語 のウェブページに 適 用 可 能 なコンテンツベース 方 式 によるフィ ッシング 検 知 システムの 実 装 を 行 った.HTMLソースからコンテンツの 文 字 情 報 のみを 抽 出 するため, 正 規 表 現 によってHTMLタグをスペース 文 字 に 置 換 して 除 去 している.キーワー ド 抽 出 のための 形 態 素 解 析 器 にはTreeTagger[7]を 利 用 した. 検 索 キーワードには, 検 査 対 象 ページに 出 現 した 各 名 詞 のTF-IDF 上 位 5 単 語 を 選 定 した.TF-IDFの 計 算 には,Yahoo! 検 索 Web APIを 用 いた.IDFの 計 算 には,サンプルドキュメント 総 数 と,そのうちの 当 該 単 語 を 含 むド キュメントの 数 が 必 要 である.ここでは,サンプルドキュメントをYahoo! 検 索 Web APIサー ビスが 保 持 している 総 ウェブページ 数, 当 該 単 語 を 含 むドキュメント 数 を 当 該 単 語 で 検 索 し た 時 のヒット 数 とした. また, 日 本 語 のウェブページに 適 用 可 能 なシステムの 実 装 を 行 った. 基 本 的 な 処 理 は 先 に 述 べたものと 同 様 である.キーワード 抽 出 には, 日 本 語 で 利 用 可 能 な 形 態 素 解 析 器 である MeCab[ 8]を 用 いた. 5
5. 予 備 実 験 5.1 概 要 予 備 実 験 では, 本 実 験 に 向 けて 本 システムの 調 整 を 行 うために 実 施 するものである.ここ では,27 件 のフィッシングサイト 実 例 データについて 本 システムを 適 用 し,その 結 果 を 分 析 した. 5.2 実 験 方 法 実 験 で 用 いるサンプルデータは, 過 去 のフィッシングサイトのデータのコピーをローカル に 保 存 したものである.フィッシングサイトは 存 続 期 間 が 短 いという 性 質 があるため, 今 回 のサンプルデータのフィッシングサイトは 既 にウェブ 上 から 消 滅 していると 考 えられる.す でに 存 在 しない URL を 検 索 することは 不 可 能 であるため,フィッシング 検 知 率 は 通 常 より 高 くなることが 予 想 される.この 点 において, 既 存 研 究 と 比 較 評 価 することは 不 可 能 である. そこで, 今 回 の 実 験 では, 新 たに 次 の 点 に 着 目 する. 正 規 サイト 導 出 率 フィッシングサイトを 検 査 し, 検 査 対 象 ページから 抽 出 したキーワードによる 検 索 結 果 中 に, 検 査 対 象 ページの 模 倣 元 である 正 規 サイトが 含 まれていた 率 模 倣 元 である 正 規 サイトが 検 索 できた 場 合 は, 特 徴 的 な 単 語 が 正 しく 抽 出 できていると 言 える.この 結 果 から, 単 語 抽 出 の 精 度 を 評 価 することができる. Yue らの 実 験 結 果 より,フィッシング 検 知 率, 正 規 サイト 誤 検 知 率 のいずれについて 最 も 検 知 性 能 の 高 い 方 法 は Basic TF-IDF + domain +ZMP であることが 示 されている.しかし, 今 回 の 実 験 では, 正 規 サイト 導 出 率 を 測 定 する 上 で,フィッシングサイトのドメイン 名 を 加 えることは, 評 価 の 妨 げとなる.そこで, 予 備 実 験 では,Yue らによる 実 験 方 法 Basic TF-IDF + ZMP に 倣 った 方 法 で 行 った. 5.3 実 験 結 果 と 考 察 実 験 結 果 を 図 3 に 示 す. 実 験 に 使 用 したサンプルデータ 27 件 のうち,26 件 をフィッシン グサイトと 判 断 し,1 件 を 正 規 サイトと 誤 判 断 した.フィッシングサイトと 判 定 した 26 件 の うち, 正 規 サイトのドメインが 検 索 結 果 に 含 まれていたのは,11 件 であった.これは, 本 シ ステムの 想 定 した 通 りの 正 しい 動 作 を 経 て, 正 しい 判 断 をしている 場 合 である. 残 りの 15 件 については, 正 規 サイトが 導 出 できていなかった. 全 サンプル 27 件 フィッシングと 判 断 26 件 正 規 サイトと 誤 判 断 1 件 正 規 サイトが 検 索 された 11 件 正 規 サイトが 検 索 されなかった 15 件 図 3 実 験 結 果 6
正 規 サイトと 誤 判 断 したケース 正 規 サイトと 誤 判 断 した1 件 については, 正 規 サイトと 異 なる 特 徴 を 有 していたもので, かつフィッシングサイトが 長 期 に 渡 り 存 在 していたために,フィッシングサイトが 検 索 され てしまった. 例 : Key Total Treasury KeyTotalTreasury ( 文 字 の 間 のスペースが 削 除 されている) 正 規 サイトが 検 索 できていなかったケース フィッシングと 正 しく 判 定 されたが, 正 規 サイトが 検 索 結 果 に 含 まれていないケースが 15 件 あった.その 原 因 について 分 析 を 行 った. (i) サブドメインを 考 慮 することで 解 決 するケース 本 システムでは, 模 倣 元 の 正 規 サイトと 完 全 一 致 するドメインが 検 索 結 果 に 含 まれていた 場 合 に, 正 規 サイトが 検 索 されたと 判 断 している.この 条 件 を,サブドメインの 一 致 とする ことで, 正 規 サイトが 検 索 されたと 判 断 できるケースが 含 まれていた. (ii) HTML のパースの 失 敗 HTML のパースに 失 敗 し, 本 来 では 出 現 しない 語 句 が 検 索 キーワードに 選 定 された. 本 シ ステムでは, 正 規 表 現 によって HTML タグを 半 角 スペースに 置 換 して 除 去 しているため,タ グの 位 置 によって 単 語 が 分 割 され, 不 自 然 な 文 字 列 が 発 生 してしまう. 例 : <font>f</font>orgot F, orgot また,タグ 中 の 文 字 列 に < > が 使 われており,HTML の 規 約 に 違 反 した 記 述 方 法 を していたために,パースに 失 敗 した. 例 :<form name= Form1 method= post action Default.aspx id= Form1 onsubmit= if(email_user.valuse!= <%=txtemail%> )return isemail(email_user); > (iii) ダイアクリティカルマークを 含 む 文 字 による 形 態 素 解 析 の 失 敗 español français といった 単 語 には,ダイアクリティカルマークを 含 む 特 殊 な 文 字 が 出 現 している. 本 システムで 利 用 している 形 態 素 解 析 器 はこのような 文 字 に 対 応 しておらず, 未 対 応 の 文 字 を 境 に 単 語 が 分 割 されてしまう.このようにしてできた 単 語 が, 検 索 キーワー ドに 選 定 された. 例 : español espa, ol (iv) 文 字 情 報 の 少 ないウェブページ 検 査 対 象 ページが,URL 転 送 のためのページや,frame タグによるフレーム 操 作 を 行 うた めのものである 場 合, 本 来 のコンテンツが 含 まれておらず, 特 徴 的 なキーワードが 抽 出 でき ない 場 合 が 多 い.また, 画 像 が 多 く 文 字 情 報 の 少 ないウェブページについても 同 様 のことが 言 える. 本 システムでは,こうしたウェブページについても, 通 常 通 りに 形 態 素 解 析 を 試 み たため, 検 索 キーワードが 抽 出 できなかった. 7
(v) 正 規 サイトと 異 なる 特 徴 を 有 するウェブページ 検 査 対 象 ページ 中 に, 正 規 サイトには 見 られない 不 自 然 な 工 夫 が 見 られた. 例 : YAHOO YAH00 ( O を 数 字 のゼロに 置 き 換 えている) この 方 法 が 用 いられたウェブページから 抽 出 された 検 索 キーワードには, 模 倣 元 の 正 規 サ イトにはない 特 徴 が 含 まれる. また, 検 査 対 象 ページが 無 料 ホスティングサービスを 利 用 している 場 合, 自 動 的 に 付 加 さ れる 広 告 中 の 語 句 が 検 索 キーワードに 選 定 された. これらの 語 句 は, 正 規 サイト 中 には 現 れない.そのため, 正 規 サイトが 検 索 されなかった 理 由 は 明 らかであり,キーワード 抽 出 の 精 度 向 上 によって 解 決 することは 不 可 能 である. (vi) 特 徴 的 な 語 句 が 検 索 キーワードに 選 定 されないケース 形 態 素 解 析 は 成 功 しているが, 特 徴 的 な 語 句 が 抽 出 できていないため, 検 索 結 果 が 雑 然 と しており,フィッシングサイト, 正 規 サイトのいずれの URL も 含 んでいなかった. 5.4 改 良 前 節 で 述 べたそれぞれのケースの 対 応 策 を 検 討 した. (A) サブドメインの 一 致 を 正 規 サイトとみなす (i)への 対 応 策 となる.ドメイン 比 較 時 にサブドメインが 一 致 した 場 合 においても 正 規 サイ トと 判 断 する. (B) テキストブラウザ Lynx による HTML パース (ii)への 対 応 策 となる.テキストブラウザであるLynx[9]のレンダリング 結 果 を 用 いること で,ウェブページから 文 字 情 報 のみを 正 しく 取 り 出 すことが 可 能 となることが 期 待 される. (C) ダイアクリティカルマークを 含 む 文 字 の 除 外 (iii)への 対 応 策 となる.ダイアクリティカルマークを 含 む 文 字 を 除 外 する. 除 外 の 方 法 は 次 のパターンを 試 みる. 単 語 除 去 モード ダイアクリティカルマークを 含 む 単 語 を 除 去 する. 文 字 置 換 モード ダイアクリティカルマークを 含 む 文 字 を 代 替 可 能 な 文 字 で 置 換 する. 文 字 置 換 モードの 例 : español espanol (D) URL 転 送 やフレームページへの 適 用 (iv)で 述 べたうちの,URL 転 送 およびフレームページへの 対 応 策 となる.これらのウェブ ページについては, 転 送 後 およびフレーム 内 に 表 示 されているウェブページに 対 して 本 処 理 を 行 う. (E) ウェブページのタイトルを 検 索 キーワードに 加 える (iv)で 述 べたうちの, 画 像 が 多 く 文 字 情 報 の 少 ないウェブページへの 対 応 策 となる. 文 字 情 報 が 少 なく, 抽 出 した 単 語 が 一 定 個 数 以 下 の 場 合 において,ウェブページのタイトルを 検 索 キーワードに 加 える. 8
6. 本 評 価 6.1 概 要 本 実 験 では,Yue らの 実 験 方 法 のうち,フィッシング 検 知 率 の 高 い Basic TF-IDF Basic TF-IDF + ZMP Basic TF-IDF + domain +ZMP の3つの 方 法 で 実 験 を 行 った. また, 前 章 で 述 べた 改 良 を 施 したうえで, 英 語 日 本 語 からなる 843 件 のフィッシングサ イト 実 例 データについて 実 験 を 行 った. 言 語 によって 形 態 素 解 析 器 を 選 択 する 必 要 があるた め, 前 処 理 として 言 語 判 定 を 行 う 処 理 を 加 えた. 言 語 判 定 器 にはLingua::LanguageGuesser[10] を 用 いた. 6.2 実 験 方 法 次 の 方 法 による 実 験 を 行 い,フィッシング 検 知 率 を 測 定 する. Basic TF-IDF Basic TF-IDF + ZMP Basic TF-IDF + domain +ZMP また, Basic TF-IDF + ZMP の 結 果 については, 正 規 サイト 導 出 率 の 測 定 を 行 う. 前 章 で 述 べた 改 良 点 のうち,(B)テキストブラウザ Lynx による HTML パース,(C)ダイアクリティカル マークを 含 む 文 字 の 除 外,については,これらの 手 法 を 使 用 するかどうかが 選 択 可 能 である.そのため, 表 1 に 示 す6 通 りの 実 験 を 行 い,それぞれの 結 果 を 比 較 分 析 する. 表 1 実 験 モード 6.3 フィッシング 検 知 率 実 験 結 果 を 表 2 に 示 す.これは, 実 験 モード1による 実 験 結 果 である. 全 ての 実 験 方 法 に おいて, 正 規 サイトと 判 断 されたものは0 件 であった.また,ZMP を 用 いたいずれの 方 法 に おいて,フィッシングサイトと 判 断 されたものは0 件 であった. 表 2 フィッシング 検 知 率 フィッシングサイト 正 規 サイト 不 明 フィッシング 検 知 率 Basic TF-IDF 826 0 17 98% Basic TF-IDF + ZMP 843 0 0 100% Basic TF-IDF + domain +ZMP 843 0 0 100% 9
6.4 正 規 サイト 導 出 率 実 験 結 果 を 図 4 に 示 す.これは, 実 験 モード1による 結 果 である. Basic TF-IDF + ZMP による 実 験 方 法 において, 正 規 サイトが 導 出 できた 数 は 704 件 であった. 英 語 サイト 475 件 正 規 サイトが 検 索 された 342 件 全 サンプル 843 件 フィッシングと 判 断 843 件 正 規 サイトが 検 索 されなかった 133 件 正 規 サイトと 誤 判 断 0 件 日 本 語 サイト 368 件 正 規 サイトが 検 索 された 362 件 正 規 サイトが 検 索 されなかった 6 件 図 4 実 験 結 果 6.4.1 モード 別 の 比 較 評 価 模 倣 元 の 正 規 サイトを 検 索 することができた 数 について, 各 モード 別 に 比 較 を 行 った. HTML パース 方 法 によって 実 験 結 果 が 大 きく 異 なるため,それらを 分 類 した 上 で 結 果 を 示 す. (1) 正 規 表 現 を 用 いた HTML パース(1,2,3)での 結 果 正 規 表 現 によって HTML タグを 除 去 するモードの 中 で, 最 も 多 くの 正 規 サイトが 導 出 され たものは2 除 去 モードであり,その 数 は 843 件 中 705 件 (83.6%)であった.また,その 他 のモード(1,3)で 正 規 サイトが 導 出 されたものは 全 て,2での 結 果 に 含 まれていた( 図 5). 843 件 1 2 705 3 843 件 4 587 4 5 6 =591 件 704 702 590 580 5 6 図 5 正 規 表 現 を 用 いた モードで 正 規 サイトを 検 索 できた 数 図 6 Lynx を 用 いたモードで 正 規 サイトを 検 索 できた 数 (2) Lynx を 用 いた HTML パース(4,5,6)での 結 果 Lynx を 用 いたモードの 中 で, 最 も 多 くの 正 規 サイトが 導 出 されたものは5 除 去 モードであ り,その 数 は 843 件 中 590 件 であった.また,その 他 のモード(4,6)と 和 集 合 をとるこ とで, 結 果 は1 件 増 の 591 件 (70.1%)となった( 図 6). これらの 結 果 より, 全 てのモードの 中 で, 最 も 多 くの 正 規 サイトが 導 出 されたものは,2 正 規 表 現 を 用 いた HTML パースおよびダイアクリティカルマークを 含 む 単 語 を 除 去 するモ ードであった. 10
(3) HTML パース 方 法 による 差 異 の 考 察 正 規 表 現 を 用 いたモードと Lynx を 用 いたモードの 間 で, 実 験 結 果 が 大 きく 異 なった.こ れは,Lynx が html ソースに 記 述 されているフォームや 画 像 やその 他 の 要 素 を, 状 況 に 応 じ てあらゆる 文 字 列 ([INLINE]や[ENBED],[BUTTON] 等 )に 置 換 して 出 力 しており,これら の 文 字 列 がキーワードに 選 定 されてしまったためである.そのため,Lynx を 用 いる 際 は, 置 換 後 の 文 字 列 を 改 めて 除 去 する 必 要 があった. 一 方 で, 正 規 表 現 を 用 いたモードによって 正 規 サイトが 検 索 された 705 件 と,Lynx を 用 い たモードによって 正 規 サイトが 検 索 された 591 件 の 和 集 合 をとることで, 正 規 サイトが 検 索 された 件 数 は 36 件 増 の 741 件 (4.3% 増 の 87.9%)となった.これより,Lynx が 行 うレンダ リング 方 法 を 参 考 にして, 正 規 表 現 による HTML パース 方 法 を 調 整 することで, 特 徴 的 な 単 語 の 抽 出 精 度 を 高 めることが 可 能 であると 考 えられる. 6.4.2 ダイアクリティカルマーク 除 外 による 成 果 正 規 表 現 を 用 いたモード 及 び Lynx を 用 いたモードのどちらについても,より 多 くの 正 規 サイトが 検 索 されたものは, 除 去 モードであった.また, 置 換 モードは,ダイアクリティカ ルマークを 除 外 しない 結 果 より, 結 果 が 劣 ることが 分 かった.これは, 汎 用 性 のない 複 雑 な 単 語 が 英 文 字 に 置 換 されることで, 検 索 結 果 に 悪 影 響 を 及 ぼすからであると 考 えられる. 一 例 として, 人 名 Börzsönyi を Borzsonyi と 置 換 することで, 検 索 件 数 が 大 幅 に 減 ってい る 事 例 があった. 6.4.3 その 他 の 手 法 による 成 果 (1) タイトルキーワード 今 回 の 実 験 では, 抽 出 された 単 語 数 が6 件 以 下 に 本 手 法 を 適 用 した. 本 手 法 が 適 用 されたものは 843 件 中 7 件 であり,いずれも 画 像 によって 構 成 されたウェブ ページであった. 本 手 法 によって, 正 規 サイトが 検 索 されたものは,7 件 中 6 件 であった. また, 本 手 法 を 使 用 しない 場 合 に, 正 規 サイトが 検 索 されたものは,7 件 中 1 件 であった. 本 手 法 を 用 いたことによって, 結 果 が 悪 化 したものはなかった. (2) URL 転 送 及 び frame を 利 用 したウェブページへの 適 用 URL 転 送 及 び frame を 利 用 したウェブページを 検 出 することにより,そのままシステムを 適 用 したことで 単 語 が 抽 出 されないという 事 態 を 回 避 することに 成 功 している. 6.5 正 規 サイトが 導 出 されなかった 原 因 の 分 析 843 件 中 102 件 は 正 規 サイトが 導 出 されなかった.その 原 因 を 分 類 し,それぞれに 該 当 し た 件 数 を 示 す.なお, 複 数 の 原 因 が 重 複 するケースも 多 いが,ここでは 最 も 結 果 に 影 響 して いると 考 えられる 原 因 によって 分 類 を 行 った. (1) 検 査 対 象 ページが 正 規 サイトと 異 なる 特 徴 を 有 するケース 43 件 に 該 当 する.このケースでは, 次 のようにさらに 詳 しく 分 類 できる. (A) 見 かけが 類 似 した 異 なる 文 字 や 画 像 による 置 換 5.3 節 (v)で 述 べたものと 同 様 のケースである.このような 正 規 サイトに 存 在 しない 特 徴 を 含 むため, 検 査 対 象 ページの 特 徴 を 用 いても 正 規 サイトが 検 索 されない 理 由 は 明 らかである. 11
(B) 昔 のウェブページにあった 特 徴 を 有 するウェブページ 記 述 の 変 更 によって, 現 在 の 正 規 サイトからは 消 滅 している 単 語 が 含 まれるケースである. そのような 単 語 がキーワードに 選 定 された 場 合, 正 規 サイトが 検 索 できない.これについて は, 中 山 らが 提 案 した 時 間 不 変 キーワード 手 法 [3]により 対 応 できると 考 えられる. (C) フィッシングサイトが 独 自 に 作 成 したウェブページ 正 規 サイトにはなく,フィッシングサイトにのみ 存 在 するウェブページがある. 例 えば, 銀 行 の 顧 客 満 足 度 調 査 と 題 した 偽 のアンケートページを 作 成 し, 回 答 すれば 謝 礼 金 が 支 給 さ れるなどと 記 載 することで,ユーザの 興 味 を 引 こうとするものである. 正 規 サイトにはこの ようなウェブページは 存 在 しないため, 検 査 対 象 ページの 特 徴 を 用 いても 正 規 サイトが 検 索 されない 理 由 は 明 らかである. これらのようなフィッシングサイトがウェブ 上 に 長 期 的 に 存 在 した 場 合 は,フィッシング サイトを 正 規 サイトと 誤 判 断 する 可 能 性 があるため, 注 意 が 必 要 である.なぜなら, 長 期 的 にウェブ 上 に 存 在 することで 検 索 エンジンの 評 価 が 高 くなり, 検 索 結 果 の 中 にフィッシング サイトが 含 まれる 可 能 性 が 高 まるからである. (2) 検 査 対 象 がログインページのケース 31 件 に 該 当 する.オンラインバンキングのログインページなどは,robots.txt や meta タグ を 用 いることで, 検 索 エンジンに 登 録 されないようにされているケースがある.また,ログ インページに 固 有 の 情 報 として,システムのバージョン 番 号 や,ID やパスワードの 入 力 例 な どの 汎 用 的 でない 文 字 列 がキーワードに 選 定 されることがある.しかし,ログインページは トップページよりもリンクされている 数 が 少 なく, 検 索 エンジンからの 評 価 が 低 いため,そ れらのキーワードを 用 いても 検 索 することができない 可 能 性 が 高 まる.これについては, 中 山 らが 提 案 したドメインキーワード 手 法 [3]により 対 応 できると 考 えられる. (3) 特 徴 的 な 語 句 が 検 索 キーワードに 選 定 されないケース 22 件 に 該 当 する. 詳 細 は 5.3 節 (vi)で 述 べたものと 同 様 である. 形 態 素 解 析 が 失 敗 していな いにも 関 わらず, 企 業 名 や 商 品 名 等 の 特 徴 的 な 語 句 が 抽 出 されていないケースである. このケースは, 企 業 名 が 一 般 的 な 語 句 の 組 み 合 わせから 成 るウェブサイトで 多 く 見 られた. 例 えば, Bank of America ( 米 国 )は, 企 業 名 が Bank America といった 非 常 に 一 般 的 な 単 語 から 成 っている.そのため,それらが 特 徴 的 な 単 語 として 選 定 されないことで, 正 規 サイトが 導 出 されなかった. 同 様 のケースに 当 てはまる 企 業 のウェブサイトとして, Alliance & Leicester ( 英 国 ) 等 がある. これについては, 単 語 の 組 み 合 わせをキーワードとして 選 定 することで 対 応 することがで きると 考 えられる. (4) 閲 覧 毎 にコンテンツが 変 化 するウェブページ 4 件 に 該 当 する.eBay や Amazon 等 のようなオンラインショッピングサイトでは, 閲 覧 毎 にコンテンツが 変 化 するウェブページが 存 在 する.このようなサイトのフィッシングサイト を 検 査 した 際 に, 商 品 名 等 がキーワードに 選 定 されてしまうケースがあり, 正 規 サイトが 検 索 できないことがある.これについては, 中 山 らが 提 案 した 時 間 不 変 キーワード 手 法 [3]によ り 対 応 できると 考 えられる. (5) 非 常 にマイナーな 企 業 のウェブサイト 1 件 に 該 当 する.キーワードが 正 しく 選 定 されていたにも 関 わらず, 正 規 サイトが 検 索 で きなかったケースがあった.この 企 業 は 非 常 にマイナーであり, 検 索 エンジンによるウェブ サイトの 評 価 も 低 いため, 検 索 できなかったと 推 定 される. 12
(6) 形 態 素 解 析 の 失 敗 1 件 に 該 当 する. 日 本 語 での 形 態 素 解 析 の 失 敗 により, 不 自 然 な 文 字 列 がキーワードに 選 定 されたため, 正 規 サイトが 検 索 できなかった. 英 語 では, 分 かち 書 きがなされているため, 形 態 素 解 析 の 失 敗 はほぼ 起 こらない. 一 方, 日 本 語 では, 分 かち 書 きがなされていないため, 未 知 の 語 句 が 出 現 することで 形 態 素 解 析 の 失 敗 が 起 こりえる. 13
7. 結 論 コンテンツベース 方 式 は,データベースが 不 要 で,かつ 即 時 性 の 高 いフィッシング 検 知 方 式 として 注 目 されている.しかし,その 検 知 性 能 については 小 規 模 な 評 価 しか 行 われておら ず, 大 規 模 な 実 例 データを 利 用 した 評 価 が 行 われていなかった.また, 日 本 語 に 対 応 したシ ステムの 実 装 が 行 われておらず, 他 言 語 での 有 効 性 が 評 価 されていなかった.そこで 本 研 究 では, 日 本 語 に 対 応 するシステムを 実 装 し, 大 量 の 日 英 のフィッシング 実 例 データによる 適 用 実 験 を 行 った. コンテンツベース 方 式 は, 文 字 情 報 が 少 ないウェブページの 検 査 が 行 えない. 文 字 情 報 が 少 ないウェブページとは,(1)URL 転 送 のためのウェブページ,(2)frame タグによるフレーム 定 義 を 行 うウェブページ,(3) 画 像 が 多 く 文 字 情 報 の 少 ないウェブページなどがある.そこで, (1),(2)については, 転 送 後 及 びフレーム 内 に 表 示 されている URL を HTML ソース 中 から 見 つけ 出 し,それらのウェブページに 本 処 理 を 適 用 することで 対 応 した.(3)については,ペー ジのタイトルを 検 索 キーワードとすることで, 本 処 理 を 行 う 方 式 を 実 装 した.これより, 文 字 情 報 の 少 ないウェブページへの 対 策 が 有 効 に 機 能 していることを 確 認 した. また,HTML パース 方 法 および 特 殊 文 字 の 扱 い 方 が 検 知 性 能 に 与 える 影 響 について 調 査 す るために,(1) 正 規 表 現 により HTML タグを 半 角 スペースに 置 換 する 方 法,(2)テキストブラ ウザ Lynx によるレンダリングを 利 用 する 方 法,を 実 装 評 価 した.これより,テキストブラ ウザ Lynx によるパース 方 法 を 参 考 にすることで, 特 徴 的 な 単 語 抽 出 の 精 度 が 向 上 できる 見 通 しを 得 た. 実 験 結 果 から, 英 語, 日 本 語 のいずれのフィッシングサイトについても, 高 い 検 知 性 能 が 示 された.これにより,コンテンツベース 方 式 の 有 効 性 を 確 認 した. また, 正 規 サイトが 導 出 できた 率 を 測 定 することで,キーワード 選 定 の 適 切 さを 評 価 した. 正 規 サイトが 導 出 されなかった 原 因 の 分 析 を 行 ったところ,(1) 見 かけが 類 似 した 異 なる 文 字 による 置 換,(2) 検 査 対 象 ページがログインページ,(3) 特 徴 的 な 語 句 が 検 索 キーワードに 選 定 されない,(4) 閲 覧 毎 にコンテンツが 変 化 するウェブページ,(5) 非 常 にマイナーな 企 業 のウェ ブサイト,(6) 形 態 素 解 析 の 失 敗,の6つの 原 因 に 分 類 された.このうち,(3),(5),(6)につ いては 対 策 が 未 検 討 であり, 正 規 サイトをフィッシングサイトであると 誤 判 断 する 原 因 とも 成 りうる.その 中 でも, 特 徴 的 な 語 句 が 検 索 キーワードに 選 定 されないケースについては 該 当 件 数 が 多 い.そこで, 単 語 の 組 み 合 わせをキーワードとして 選 定 する 手 法 により 解 決 する 方 針 を 見 出 した.その 他 の 対 策 が 未 検 討 のケースについても, 同 様 に 検 討 していく 必 要 があ る. 14
参 考 文 献 1 Gartner Survey Shows Phishing Attacks Escalated in 2007; More than $3 Billion Lost to These Attacks, http://www.gartner.com/it/page.jsp?id=565125(2010 年 1 月 確 認 ) 2 Yue Zhang, Jason Hong, Lorrie Cranor, CANTINA: A Content-Based Approach to Detecting Phishing Web Sites, WWW2007, (2007). 3 中 山 心 太, 吉 浦 裕, 模 倣 コンテンツの 特 性 に 基 づくフィッシング 検 知 方 式, 2007-CSEC-38, Vol.2007, No71, pp387-392, (2007). 4 柴 田 賢 介, 荒 川 陽 助, 塩 野 入 理, 金 井, Web サイトからの 企 業 名 抽 出 によるフィッシング 対 策 手 法 の 提 案, IPSJ SIG Notes Vol.2006, No.96 pp.17-22(2006). 5 RBL.JP, http://www.rbl.jp/ 6 Phishing Activity Trends Report for the Month of January, 2008, http://www.antiphishing.org/reports/apwg_report_jan_2008.pdf(2010 年 1 月 確 認 ) 7 TreeTagger, http://www.ims.uni-stuttgart.de/projekte/corplex/treetagger/ 8 MeCab: Yet Another Part-of-Speech and Morphological Analyzer, http://mecab.sourceforge.net/ 9 Lynx for Win32 (by patakuti): Project Home Page, http://lynx-win32-pata.sourceforge.jp/ 10 Lingua::LanguageGuesser - 言 語 判 定 器, http://gensen.dl.itc.u-tokyo.ac.jp/languageguesser/languageguesser_ja.html 15