2012 年度修士論文審査 悪性 Web サイト探索のための 効率的な巡回順序の決定法 千葉大紀 学籍番号 : 5111B073-1 指導 : 後藤滋樹教授 Feb. 8, 2013 Daiki Chiba, Goto Lab. 1
種類別 査読付国際会議 国内学会発表 国内学会発表 国内学会発表 本論文に関わる研究業績 (2013 年 2 月現在 ) 題名 発表 発行掲載誌名 発表 発行年月 連名者 Daiki Chiba, Kazuhiro Tobe, Tatsuya Mori, Shigeki Goto, Detecting Malicious Websites by Learning IP Address Features," Proc. the 12th IEEE/IPSJ International Symposium on Applications and the Internet (SAINT2012), pp.29--39, Izmir, Turkey, Jul. 2012. 千葉大紀, 森達哉, 後藤滋樹, " 悪性 Web サイト探索のための優先巡回順序の選定法," コンピュータセキュリティシンポジウム 2012 (CSS2012) 論文集, vol.2012, no.3, pp.805--812, Oct. 2012. 千葉大紀, 八木毅, 秋山満昭, 森達哉, 後藤滋樹, " 多種多様な攻撃に用いられる IP アドレス間の相関解析," コンピュータセキュリティシンポジウム 2011 (CSS2011) 論文集, vol.2011, no. 3, pp.185--190, Oct. 2011. 千葉大紀, 森達哉, 後藤滋樹, SVM を用いた IP 攻撃通信の判別法, 情報処理学会全国大会講演論文集, vol.2011, no.1, pp.491--493, Mar. 2011. 情報処理学会推奨卒業論文認定 特許森達哉, 千葉大紀, 後藤滋樹, 特願 2011-33932, 通信分類装置及び方法 ( 申請中 ) Feb. 8, 2013 Daiki Chiba, Goto Lab. 2
目次 研究背景 研究目標 提案手法 性能評価 まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 3
研究背景 [1/2] Web 経由のマルウェア感染事例の増加 e.g. Drive-by-download 攻撃 Web アクセス 自動転送 入口サイト 中継サイト 脆弱な Web ブラウザ 自動転送 脆弱性攻撃 マルウェアのダウンロード 攻撃サイト マルウェア配布サイト 4
研究背景 [2/2] マルウェア対策技術 Webクライアント型ハニーポットによる巡回 [2] 収集データの解析 ブラックリストの提供 [3] ユーザ ブラックリスト Webクライアント型 ハニーポット セキュリティ アプライアンス Web空間 巡回 悪性サイト ハニーポット おとりシステム Web空間の巡回を行い 悪性サイトを発見 解析 良性サイト [2] M. Akiyama, et al. Searching structural neighborhood of malicious URLs to improve blacklisting, Proc. IEEE/IPSJ SAINT 2011. [3] 八木 毅, マルウェア感染を検知 制御するブラックリスト システムの設計, 信学技報, 2012. 5
目次 研究背景 研究目標 提案手法 性能評価 まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 6
研究目標 Web クライアント型ハニーポットの課題 多くの悪性サイトが展開され URL は短命 [2] Web 空間の網羅的な巡回には多大なリソースが必要 研究目標 Web クライアント型ハニーポットが より効率的に悪性サイトを発見するための最適な巡回順序の決定 [2] M. Akiyama, et al. Searching structural neighborhood of malicious URLs to improve blacklisting, Proc. IEEE/IPSJ SAINT 2011. Feb. 8, 2013 Daiki Chiba, Goto Lab. 7
目次 研究背景 研究目標 提案手法 性能評価 まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 8
提案手法 [ 概要 ] 巡回順序決定システム Web クライアント型ハニーポット 入力 : 訓練データ 巡回 URL リスト ( テストデータ ) 特徴抽出エンジン IP アドレス分析 WHOIS 情報分析 FQDN 文字列分析 マネージャ 巡回順序決定システム 巡回 URL リスト 巡回ログ管理 Webブラウザ Webブラウザ Web ブラウザ 機械学習エンジン Web 空間 検知 巡回 出力 : 巡回順序付き巡回 URL リスト 悪性サイト 良性サイト 9
提案手法 [ 概要 ] 巡回順序決定システム Web クライアント型ハニーポット 入力 : 訓練データ 巡回 URL リスト ( テストデータ ) 特徴抽出エンジン IP アドレス分析 WHOIS 情報分析 FQDN 文字列分析 マネージャ 巡回順序決定システム 巡回 URL リスト 巡回ログ管理 Webブラウザ Webブラウザ Web ブラウザ 機械学習エンジン Web 空間 検知 巡回 出力 : 巡回順序付き巡回 URL リスト 悪性サイト 良性サイト 10
提案手法 [ 概要 ] 巡回順序決定システム Web クライアント型ハニーポット 入力 : 訓練データ 巡回 URL リスト ( テストデータ ) 特徴抽出エンジン IP アドレス分析 WHOIS 情報分析 FQDN 文字列分析 マネージャ 巡回順序決定システム 巡回 URL リスト 巡回ログ管理 Webブラウザ Webブラウザ Web ブラウザ 機械学習エンジン Web 空間 検知 巡回 出力 : 巡回順序付き巡回 URL リスト 悪性サイト 良性サイト 11
提案手法 [ 概要 ] 巡回順序決定システム Web クライアント型ハニーポット 入力 : 訓練データ 巡回 URL リスト ( テストデータ ) 特徴抽出エンジン IP アドレス分析 WHOIS 情報分析 FQDN 文字列分析 マネージャ 巡回順序決定システム 巡回 URL リスト 巡回ログ管理 Webブラウザ Webブラウザ Web ブラウザ 機械学習エンジン Web 空間 検知 巡回 出力 : 巡回順序付き巡回 URL リスト 悪性サイト 良性サイト 12
提案手法 [ 概要 ] 巡回順序決定システム Web クライアント型ハニーポット 入力 : 訓練データ 巡回 URL リスト ( テストデータ ) 特徴抽出エンジン IP アドレス分析 WHOIS 情報分析 FQDN 文字列分析 マネージャ 巡回順序決定システム 巡回 URL リスト 巡回ログ管理 Webブラウザ Webブラウザ Web ブラウザ 機械学習エンジン Web 空間 検知 巡回 出力 : 巡回順序付き巡回 URL リスト 悪性サイト 良性サイト 13
提案手法 [ 特徴抽出エンジン ] 特徴抽出エンジン 訓練データから良性 / 悪性を識別し得る特徴量を抽出 3 つの分析手法 1. IPアドレス分析 2. WHOIS 情報分析 3. FQDN ( ドメイン名 ) 文字列分析 FQDN = Fully Qualified Domain Name Feb. 8, 2013 Daiki Chiba, Goto Lab. 14
提案手法 [ 特徴抽出 / 訓練データ ] 訓練データ 良性訓練 Web サイトランキング Alexa Top sites [38] 悪性訓練 公開の悪性サイトブラックリスト MDL (Malware Domain List) [39] データ 収集期間 Webサイト数 良性訓練 2011/4/30 10,000 悪性訓練 2009/1/1 2011/4/30 35,438 合計 45,438 Feb. 8, 2013 Daiki Chiba, Goto Lab. 15
提案手法 [特徴抽出/IPアドレス分析] IPアドレス分析 IPアドレス空間の 空間的な偏り ヒルベルト曲線を用いた可視化 [40] 悪性IPアドレスの空間的な偏り 悪性な活動に利用されるIPアドレスは 特定のネットワークブロックに偏る [30, 31, 32] 特徴抽出 ExOctet Method [30] 我々の以前の研究成果 IPアドレスの構造的な特徴を基にした 特徴抽出手法 [30] D. Chiba, et al. Detecting malicious websites by learning IP address features, Proc. IEEE/IPSJ SAINT 2012. [31] S. Hao, et al. Detecting spammers with SNARE: spatiotemporal networklevel automatic reputation engine, Proc. USENIX SSYM 2009. [32] M. P. Collins, et al. Using uncleanliness to predict future botnet addresses, Proc. ACM IMC2007. [40] 千葉 大紀ほか 多種多様な攻撃に用いられるIPアドレス間の相関解析, CSS 2011. 16
提案手法 [特徴抽出/WHOIS情報分析] ドメインのWHOIS情報分析 ドメイン登録期間の累積分布 ドメイン登録期間 登録日が新しいドメインは 悪性度が高い [22, 23, 25] (CDF: Cumulative Distribution Function) 悪性ドメインの登録期間は短い 特徴抽出 W = dn d (dn: 現在の日付 d: ドメイン登録日) [22] M. Felegyhazi, et al. On the potential of proactive domain blacklisting, Proc. USENIX LEET 2010. [23] J. Ma, et al. Beyond blacklists: learning to detect malicious web sites from suspicious URLs, Proc. ACM KDD 2009. [25] L. Invernizzi, et al. EvilSeed: A Guided Approach to Finding Malicious Web Pages, Proc. IEEE S&P 2012. 17
提案手法 [ 特徴抽出 /FQDN 文字列分析 ] n-gram の出現頻度分布 ( 上位 30 位 ) 良性 / 悪性で利用される文字列に差 FQDN 文字列分析 FQDN 文字列の n-gram (n=2) 良性 / 悪性 FQDN では利用される文字列の傾向が異なる [24] 特徴抽出 {g-0,, gk,, gz9} (gk: n-gram 文字列 k の出現頻度 ) 2 文字の連続文字列の抽出 数字 or 記号を少なくとも 1 文字含むものだけを抽出 例 a1 a2.example.com a1, 1, a, a2, 2.,.2, e.,.c [24] S. Yadav, et al. Detecting algorithmically generated malicious domain names, Proc. ACM IMC 2010. 18
提案手法 [機械学習エンジン] 教師あり機械学習の応用 SVM (Support Vector Machine) 訓練データから超平面生成 テストデータの分類 悪性度 の推定 [30] 悪性度の高い順にURLリストを並び替え 巡回順序を付与 訓練データの例 ラベル 特徴ベクトル +1 {1,1,0,0,0,1,} -1 {1,1,0,0,0,0,} -1 {1,1,0,0,1,0,} [30] D. Chiba, et al. Detecting malicious websites by learning IP address features, Proc. IEEE/IPSJ SAINT 2012. 19
目次 研究背景 研究目標 提案手法 性能評価 まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 20
性能評価 [ テストデータセット ] テストデータセット 良性テスト ある Web トラヒックから得られた FQDN Google Safe Browsing API [17] で検査済 悪性テスト 公開の悪性サイトブラックリスト MDL [39] 既存ブラックリストで防御可能なものは除去 未知の悪性サイトに対する評価 データ収集期間 Web サイト数 良性テスト 2011/5/1 2011/5/14 96,567 悪性テスト 2011/5/1 2012/4/18 10,561 合計 107,128 Feb. 8, 2013 Daiki Chiba, Goto Lab. 21
性能評価 [ 総巡回時間 ] 特徴抽出エンジン 特徴 A 特徴 B 特徴 C 特徴 D IPアドレス - WHOIS 情報分析 - FQDN 文字列分析 - n-gram 例外処理 - - 総巡回時間 ある特定数の悪性サイトを発見する際の所要時間 既存手法 ランダムに巡回 提案手法 巡回順序を事前に決定してから巡回 提案手法 最大 8 倍以上高速に巡回可能 巡回順序を決定する時間は ハニーポット巡回時間よりも小さい 22
目次 研究背景 研究目標 提案手法 性能評価 まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 23
まとめ まとめ Web クライアント型ハニーポットが より効率的に悪性サイトを発見するための巡回順序を事前に決定 総巡回時間の大幅な削減に成功 今後の課題 特徴抽出手法の拡張 機械学習エンジンの改善 実運用における評価 Feb. 8, 2013 Daiki Chiba, Goto Lab. 24