悪性Webサイト探索のための効率的な巡回順序の決定法

2012 年度修士論文審査悪性 Web サイト探索のための効率的な巡回順序の決定法千葉大紀学籍番号 : 5111B073-1 指導 : 後藤滋樹教授 Feb. 8, 2013 Daiki Chiba, Goto Lab. 1

種類別査読付国際会議国内学会発表国内学会発表国内学会発表本論文に関わる研究業績 (2013 年 2 月現在 ) 題名発表発行掲載誌名発表発行年月連名者 Daiki Chiba, Kazuhiro Tobe, Tatsuya Mori, Shigeki Goto, Detecting Malicious Websites by Learning IP Address Features," Proc. the 12th IEEE/IPSJ International Symposium on Applications and the Internet (SAINT2012), pp.29--39, Izmir, Turkey, Jul. 2012. 千葉大紀, 森達哉, 後藤滋樹, " 悪性 Web サイト探索のための優先巡回順序の選定法," コンピュータセキュリティシンポジウム 2012 (CSS2012) 論文集, vol.2012, no.3, pp.805--812, Oct. 2012. 千葉大紀, 八木毅, 秋山満昭, 森達哉, 後藤滋樹, " 多種多様な攻撃に用いられる IP アドレス間の相関解析," コンピュータセキュリティシンポジウム 2011 (CSS2011) 論文集, vol.2011, no. 3, pp.185--190, Oct. 2011. 千葉大紀, 森達哉, 後藤滋樹, SVM を用いた IP 攻撃通信の判別法, 情報処理学会全国大会講演論文集, vol.2011, no.1, pp.491--493, Mar. 2011. 情報処理学会推奨卒業論文認定特許森達哉, 千葉大紀, 後藤滋樹, 特願 2011-33932, 通信分類装置及び方法 ( 申請中 ) Feb. 8, 2013 Daiki Chiba, Goto Lab. 2

目次研究背景研究目標提案手法性能評価まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 3

研究背景 [1/2] Web 経由のマルウェア感染事例の増加 e.g. Drive-by-download 攻撃 Web アクセス自動転送入口サイト中継サイト脆弱な Web ブラウザ自動転送脆弱性攻撃マルウェアのダウンロード攻撃サイトマルウェア配布サイト 4

研究背景 [2/2] マルウェア対策技術 Webクライアント型ハニーポットによる巡回 [2] 収集データの解析ブラックリストの提供 [3] ユーザブラックリスト Webクライアント型ハニーポットセキュリティアプライアンス Web空間巡回悪性サイトハニーポットおとりシステム Web空間の巡回を行い悪性サイトを発見解析良性サイト [2] M. Akiyama, et al. Searching structural neighborhood of malicious URLs to improve blacklisting, Proc. IEEE/IPSJ SAINT 2011. [3] 八木毅, マルウェア感染を検知制御するブラックリストシステムの設計, 信学技報, 2012. 5

目次研究背景研究目標提案手法性能評価まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 6

研究目標 Web クライアント型ハニーポットの課題多くの悪性サイトが展開され URL は短命 [2] Web 空間の網羅的な巡回には多大なリソースが必要研究目標 Web クライアント型ハニーポットがより効率的に悪性サイトを発見するための最適な巡回順序の決定 [2] M. Akiyama, et al. Searching structural neighborhood of malicious URLs to improve blacklisting, Proc. IEEE/IPSJ SAINT 2011. Feb. 8, 2013 Daiki Chiba, Goto Lab. 7

目次研究背景研究目標提案手法性能評価まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 8

提案手法 [ 概要 ] 巡回順序決定システム Web クライアント型ハニーポット入力 : 訓練データ巡回 URL リスト ( テストデータ ) 特徴抽出エンジン IP アドレス分析 WHOIS 情報分析 FQDN 文字列分析マネージャ巡回順序決定システム巡回 URL リスト巡回ログ管理 Webブラウザ Webブラウザ Web ブラウザ機械学習エンジン Web 空間検知巡回出力 : 巡回順序付き巡回 URL リスト悪性サイト良性サイト 9

提案手法 [ 特徴抽出エンジン ] 特徴抽出エンジン訓練データから良性 / 悪性を識別し得る特徴量を抽出 3 つの分析手法 1. IPアドレス分析 2. WHOIS 情報分析 3. FQDN ( ドメイン名 ) 文字列分析 FQDN = Fully Qualified Domain Name Feb. 8, 2013 Daiki Chiba, Goto Lab. 14

提案手法 [ 特徴抽出 / 訓練データ ] 訓練データ良性訓練 Web サイトランキング Alexa Top sites [38] 悪性訓練公開の悪性サイトブラックリスト MDL (Malware Domain List) [39] データ収集期間 Webサイト数良性訓練 2011/4/30 10,000 悪性訓練 2009/1/1 2011/4/30 35,438 合計 45,438 Feb. 8, 2013 Daiki Chiba, Goto Lab. 15

提案手法 [特徴抽出/IPアドレス分析] IPアドレス分析 IPアドレス空間の空間的な偏りヒルベルト曲線を用いた可視化 [40] 悪性IPアドレスの空間的な偏り悪性な活動に利用されるIPアドレスは特定のネットワークブロックに偏る [30, 31, 32] 特徴抽出 ExOctet Method [30] 我々の以前の研究成果 IPアドレスの構造的な特徴を基にした特徴抽出手法 [30] D. Chiba, et al. Detecting malicious websites by learning IP address features, Proc. IEEE/IPSJ SAINT 2012. [31] S. Hao, et al. Detecting spammers with SNARE: spatiotemporal networklevel automatic reputation engine, Proc. USENIX SSYM 2009. [32] M. P. Collins, et al. Using uncleanliness to predict future botnet addresses, Proc. ACM IMC2007. [40] 千葉大紀ほか多種多様な攻撃に用いられるIPアドレス間の相関解析, CSS 2011. 16

提案手法 [特徴抽出/WHOIS情報分析] ドメインのWHOIS情報分析ドメイン登録期間の累積分布ドメイン登録期間登録日が新しいドメインは悪性度が高い [22, 23, 25] (CDF: Cumulative Distribution Function) 悪性ドメインの登録期間は短い特徴抽出 W = dn d (dn: 現在の日付 d: ドメイン登録日) [22] M. Felegyhazi, et al. On the potential of proactive domain blacklisting, Proc. USENIX LEET 2010. [23] J. Ma, et al. Beyond blacklists: learning to detect malicious web sites from suspicious URLs, Proc. ACM KDD 2009. [25] L. Invernizzi, et al. EvilSeed: A Guided Approach to Finding Malicious Web Pages, Proc. IEEE S&P 2012. 17

提案手法 [ 特徴抽出 /FQDN 文字列分析 ] n-gram の出現頻度分布 ( 上位 30 位 ) 良性 / 悪性で利用される文字列に差 FQDN 文字列分析 FQDN 文字列の n-gram (n=2) 良性 / 悪性 FQDN では利用される文字列の傾向が異なる [24] 特徴抽出 {g-0,, gk,, gz9} (gk: n-gram 文字列 k の出現頻度 ) 2 文字の連続文字列の抽出数字 or 記号を少なくとも 1 文字含むものだけを抽出例 a1 a2.example.com a1, 1, a, a2, 2.,.2, e.,.c [24] S. Yadav, et al. Detecting algorithmically generated malicious domain names, Proc. ACM IMC 2010. 18

提案手法 [機械学習エンジン] 教師あり機械学習の応用 SVM (Support Vector Machine) 訓練データから超平面生成テストデータの分類悪性度の推定 [30] 悪性度の高い順にURLリストを並び替え巡回順序を付与訓練データの例ラベル特徴ベクトル +1 {1,1,0,0,0,1,} -1 {1,1,0,0,0,0,} -1 {1,1,0,0,1,0,} [30] D. Chiba, et al. Detecting malicious websites by learning IP address features, Proc. IEEE/IPSJ SAINT 2012. 19

目次研究背景研究目標提案手法性能評価まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 20

性能評価 [ テストデータセット ] テストデータセット良性テストある Web トラヒックから得られた FQDN Google Safe Browsing API [17] で検査済悪性テスト公開の悪性サイトブラックリスト MDL [39] 既存ブラックリストで防御可能なものは除去未知の悪性サイトに対する評価データ収集期間 Web サイト数良性テスト 2011/5/1 2011/5/14 96,567 悪性テスト 2011/5/1 2012/4/18 10,561 合計 107,128 Feb. 8, 2013 Daiki Chiba, Goto Lab. 21

性能評価 [ 総巡回時間 ] 特徴抽出エンジン特徴 A 特徴 B 特徴 C 特徴 D IPアドレス - WHOIS 情報分析 - FQDN 文字列分析 - n-gram 例外処理 - - 総巡回時間ある特定数の悪性サイトを発見する際の所要時間既存手法ランダムに巡回提案手法巡回順序を事前に決定してから巡回提案手法最大 8 倍以上高速に巡回可能巡回順序を決定する時間はハニーポット巡回時間よりも小さい 22

目次研究背景研究目標提案手法性能評価まとめ Feb. 8, 2013 Daiki Chiba, Goto Lab. 23

まとめまとめ Web クライアント型ハニーポットがより効率的に悪性サイトを発見するための巡回順序を事前に決定総巡回時間の大幅な削減に成功今後の課題特徴抽出手法の拡張機械学習エンジンの改善実運用における評価 Feb. 8, 2013 Daiki Chiba, Goto Lab. 24