スライド 1

Similar documents
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

日心TWS

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

スライド 1

スライド 1

スライド 1

その人工知能は本当に信頼できるのか? 人工知能の性能を正確に評価する方法を開発 概要人工知能 (AI) によるビッグデータ解析は 医療現場や市場分析など社会のさまざまな分野での活用が進み 今後さらなる普及が予想されています また 創薬研究などで分子モデルの有効性を予測する場合にも AI は主要な検証

統計的データ解析

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

目次 はじめに P.02 マクロの種類 ---

1.民営化

JUSE-StatWorks/V5 活用ガイドブック

経営戦略研究_1.indb

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Chapter 1 Epidemiological Terminology

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

ビジネス統計 統計基礎とエクセル分析 正誤表

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

EBNと疫学

Microsoft Word - ㅎ㇤ㇺå®ı璃ㆨAIã†®æŁ°ç’ƒ.docx

1. はじめに 2

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

040402.ユニットテスト

PowerPoint プレゼンテーション

解析センターを知っていただく キャンペーン

Kullback-Leibler 情報量を用いた亜種マルウェアの同定 電気通信大学 中村燎太 松宮遼 高橋一志 大山恵弘 1

Microsoft Word - SPSS2007s5.doc

Drive-by-Download攻撃における通信の 定性的特徴とその遷移を捉えた検知方式

Microsoft Word - appendix_b

PrimerArray® Analysis Tool Ver.2.2

青焼 1章[15-52].indd

13章 回帰分析

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft PowerPoint - 価格関数R3.pptx

Microsoft PowerPoint 古川杉本SASWEB用プレゼン.ppt

スライド タイトルなし

Presentation Title

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

統計的手法を用いたマルウェア判定の実験結果 田中恭之 1, 2,a) 有川隼 1 畑田充弘 1 Computer Security Symposium October 2014 概要 : マルウェアが爆発的に増加する中でシグネチャによらない軽量なマルウェア判定方法が望まれている

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Progress report

PowerPoint プレゼンテーション

Rの基本操作


OpRisk VaR3.2 Presentation

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Microsoft Word - NumericalComputation.docx

Microsoft Word - mstattext02.docx

スライド 1

論文内容の要旨

PowerPoint プレゼンテーション

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

ムーアの法則に関するレポート

Microsoft PowerPoint - データ解析発表2用パワポ

基礎統計

講義「○○○○」

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft PowerPoint - stat-2014-[9] pptx

地図情報の差分更新・自動図化 概要版

正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 220

Microsoft PowerPoint - Econometrics

SAP11_03

IBM Software Business Analytics IBM SPSS Missing Values IBM SPSS Missing Values 空白を埋める際の適切なモデルを構築 ハイライト データをさまざまな角度から容易に検証する 欠損データの問題を素早く診断する 欠損値を推定値に

プログラム圧縮による ソースコード流用の検出

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

5. オープンソースWAF「ModSecurity」導入事例 ~ IPA はこう考えた ~

Microsoft PowerPoint SIGAL.ppt

,,, Twitter,,, ( ), 2. [1],,, ( ),,.,, Sungho Jeon [2], Twitter 4 URL, SVM,, , , URL F., SVM,, 4 SVM, F,.,,,,, [3], 1 [2] Step Entered

tokyo_t3.pdf

MedicalStatisticsForAll.indd

Microsoft PowerPoint - ch04j

スライド 1

Microsoft PowerPoint - statistics pptx

企業アンケート ( 東証一部 二部の 941 社が回答 ) の結果等のポイント 指名委員会を設置済み 又は設置を検討中 検討予定の企業 : 55% 報酬委員会 : 5 3 ページ参照 社長 CEOの選定 解職の決定に関して監督を行なうことについて 社外取締役が役割を果たしている と回答 した企業 委

Exploring the Art of Vocabulary Learning Strategies: A Closer Look at Japanese EFL University Students A Dissertation Submitted t

機能紹介:コンテキスト分析エンジン

. イントロダクション 06 年の電力自由化に伴い, すべての消費者が自由に電力会社や料金プランを選べるようになった. しかし依然として従来の規制料金から自由料金へ乗り換える人は少ない. こうした行動は, 料金プランを切り替えた際に自分が得をするのか, 損をするのかが把握できていないため, 切り替え

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

横浜市環境科学研究所

Microsoft PowerPoint - 測量学.ppt [互換モード]

SPSSによる実習

表 5-1 機器 設備 説明変数のカテゴリースコア, 偏相関係数, 判別的中率 属性 カテゴリー カテゴリースコア レンジ 偏相関係数 性別 女性 男性 ~20 歳台 歳台 年齢 40 歳台

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

Microsoft PowerPoint - statistics pptx

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

重回帰式 y= x x 2 重症度 5 TC TC 重症度

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

AI技術の紹介とセンサーデータ解析への応用

<4D F736F F F696E74202D208CA48B868FD089EE288FDA82B582A294C5292E B8CDD8AB B83685D>

コンピュータ応用・演習 情報処理システム

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

本冊子の利用にあたって 本冊子は 能力強化研修で扱う内容を理解する上で助けとなるであろう統計学の基礎事 項を選択肢形式の問題として提示したものです 統計学に不安のある受講生は事前の学 習として活用ください 試験ではないので正答数自体は重要ではありません より効果的な学習 復習となるよ う 次のような

Transcription:

Monthly Research 静的情報に基づいたマルウェア判定指標の検討 Fourteenforty Research Institute, Inc. 株式会社 FFRI http://www.ffri.jp Ver2.00.01

Agenda 背景と目的 実験概要 実験結果 評価及び考察 まとめ 2

背景と目的 マルウェアの急増に伴い 従来のパターンマッチングによる検知が困難になっている そのため 事前情報がない状態でも有効に機能する検知技術が必要となっている その一手法として静的ヒューリスティック検知が提案 実用化されている 多くの場合 この設計 実装はマルウェア解析者等の専門家の知見に基づいて検知ロジックの研究開発が行われている 上記について定量的な指標に基づいて研究開発を行う方法として回帰分析を用いた手法について検討する 本書では上記手法の概要 手段 評価の観点等について整理を行う 3

背景と目的 ( 補足 ) 近年マルウェアは指数関数的に増加している (2014/1 時点 ) http://www.av-test.org/en/statistics/malware/ 4

背景と目的 ( 補足 ) なぜ回帰分析か? マルウェア判定に適用可能な手法 ( 分類タスク ) は他にも存在する 決定木 ランダムフォレスト ニューラルネットワーク SVM 等 マルウェア検知 ( 情報セキュリティ ) は 比較的誤りが許されない適用領域 未知データによる誤り ( 誤検出 ) の危険性 誤り発生時の原因究明 説明責任 継続的な改善可能性が必要 ブラックボックスの手法では対応できない場合が多い この観点において回帰分析は有力な一手法となり得る ( 検知ロジック自体よりかはその研究開発に利用 ) 5

実験概要 分析の目的は下記の通り どの特徴がどの程度マルウェア 正常系の判別に貢献するのか把握する どの特徴の組み合わせが最適なのか把握する FFRI 所有のファイルセットよりマルウェア 正常系ファイルをそれぞれ 5,000 件ずつ無作為に抽出 上記に対して Attributes of Malicious Files にてレポートされている特徴を材料に分析を実施 ( 同レポートの概要は後述 ) (SANS Institute InfoSec Reading Room) https://www.sans.org/readingroom/whitepapers/malicious/attributes-malicious-files-33979 ロジスティック回帰を利用して上記の分析を実施 実験には下記のツールを利用 R 3.0.2, python, pefile-1.2.10-139 (http://code.google.com/p/pefile/) 6

Attributes of Malicious Files の概要 (1/2) マルウェアを 2,500,000 件 正常系ファイルを 65,000 件用意 これらに対して主に PE ヘッダー中の様々なフィールド値の出現傾向を調査し 下記を分析 レポート マルウェアに多く見られるフィールド値の傾向 上記傾向に基づいた検知ルール 検知ルールを上記ファイル群に適用した場合の検出率 誤検出率 例 ) マルウェアのファイル群には PE ヘッダ中の FILE_HEADER.TimeDateStamp 値を意図的に改変し 1992 年以前また未来の日時 ( 1) に設定したものが存在する これに基づいて下記検知ルールを作成し 評価した結果は下記の通り ( 2) 年該当正常ファイル該当マルウェア差分 < 1992 0.01% 11.72% 11.71% 1992-2012 99.98% 87.93% - >2012 0.00% 0.35% 0.35% 1 当該レポートは 2012 年公開 2 元のレポート内容に基づいて作成 7

Attributes of Malicious Files の概要 (2/2) 総括にて右記の検知ルールを提案 ( 計 28 項目 ) 独立した検知ルール及びその評価結果であり それぞれを組み合わせた結果については言及されていない 出典 :https://www.sans.org/reading-room/whitepapers/malicious/attributes-malicious-files-33979 8

回帰分析の概要 目的変数と説明変数の間の関係式を統計的手法に基づいて推定 例えば 家賃 ( 目的変数 ) 専有面積 ( 説明変数 ) について下記のデータが存在した場合 回帰分析を行うことで y. 家賃 = a. 系数 * x. 専有面積 + b. 切片 における係数 a 切片 b を求めることができる データ1: 家賃 6 万円 専有面積 23m2 データ2: 家賃 8 万円 専有面積 25m2 データ3: 家賃 10 万円 専有面積 30m2 データ4: 家賃 12 万円 専有面積 33m2 説明変数が複数のケース 非線形のケースに関する分析手法も存在 9

ロジスティック回帰の概要 非線形回帰分析の一手法 主に目的変数が質的変数の場合に利用される 例 ) 検査 1~ 検査 Nの結果から将来がん発病するか否か予測する 目的変数 : がん発病するか否か (0か1か その確率) 説明変数 : 検査 1~ 検査 Nの結果 同様のアプローチを適用し Attributes of Malicious Files で紹介されている PE ヘッダーのフィールド値を説明変数として利用し マルウェアか否かを推定する 10

ロジスティック回帰に係る検討事項 前処理 説明変数の選定 基本的には専門家の知見に基づいて選択 今回は件のレポートに倣う 説明変数の加工 同上 ( でなければ専門家の知見または統計分析により試行 ) 分析 最適な説明変数の組み合わせ ( 説明変数の投入方法 ) 交互作用 ( 説明変数 Aの効果が説明変数 Bの値に影響を受けて異なる ) 今回は簡便のため各説明変数を独立して扱う 分析結果 有意確率 オッズ比とその信頼区間の評価 モデルの適合度 モデルの評価 11

説明変数の加工 回帰分析においては非常に重要 例 : 年齢として (11, 20, 25, 33, 60, 42) と言うデータがあった場合 即値として利用する (11, 20, 25, 33, 60, 42) 10 才単位に丸める (10, 20, 20, 30, 60, 40) 40 才以上か否かで二値化 (0, 0, 0, 0, 1, 1) 一般的にはどういった手法が最適化は専門家の知見に依るところが大きい 長期間に渡る試行錯誤の集積であり比較的公開され難い 適用ドメイン データに応じて最適な手法は異なる 今回は 件のレポートの検知ルールに従い値を二値化 ( ダミー変数化 ) Detection Rule に非マッチ :0 Detection Rule にマッチ :1 12

最適な説明変数の組み合わせ ( 説明変数の投入方法 ) 全変数を投入し スワップワイズ法により最適な組み合わせを模索 R 上で step 関数を利用 最適なモデルの基準 判定法 AIC( 赤池情報量基準 ) モデルの優良性を示す基準 分析対象データに過剰に適応していないかの判断材料 詳細は 割愛するが AIC 値が小さい程 優良なモデルと考えることができる http://ja.wikipedia.org/wiki/%e8%b5%a4%e6%b1%a0%e6%83%8 5%E5%A0%B1%E9%87%8F%E5%9F%BA%E6%BA%96 13

有意確率 / オッズ比とその信頼区間 有意確率 その結果が偶然である確率 一般に 5%(0.05) 未満の場合 有意 ( 偶然ではない ) と判断 オッズ比 説明変数と目的変数の関連性の強さを示す尺度 説明変数の種類によって解釈が異なる 質的変数の場合 ( 例 : 血液型 ) 一つの変数を基準とし 他の場合における倍率を数値化 例 )A 型を基準にすると B 型は2 倍 ~である 量的変数の場合 ( 例 : 年代 /10 代 20 代 30 代 ) 他の条件が同一の場合 その変数が1 増加した際の倍率を数値化 例 )10 代から20 代になると~は2 倍になる 1.0を超える場合は有意 1.0 未満であれば有意ではないと判断 オッズ比も誤差を含むためN% の信頼度を以て取り得る範囲が N% 信頼区間 14

実験結果 有意確率が高い変数上位 3 件のみ抜粋 二値のため非マッチ (0) に対してマッチ (1) した場合のオッズ比に注目 TimeDateStamp,SECTION_entropy に関する検知ルールは有意 ( マッチしたか否かでマルウェアらしさが大きく異なる ) ImageVersion は オッズ比が 1.0 を下回っており有意ではない ( マッチ有無に関わらずマルウェアらしさへの相関性が低い ) 説明変数 / 割当値 オッズ比 (95% 信頼区間 ) 有意確率 TimeDateStamp 0 (Reference) - 1 19.5 (16.1-23.9) <2E-16 SECTION_entropy 0 (Reference) - 1 4.18(3.48-5.05) <2E-16 ImageVersion 0 (Reference) - 1 0.174(0.123 0.241) <2E-16 15

実験結果 正解ラベルとモデルによる予測値の対比 横軸 : サンプルID(1-5,000: 正常系 5,001-10,000: マルウェア ) 縦軸 : 正常系 (0.0) マルウェア (1.0) らしさ 16

評価及び考察 (1/2) 前述の 3 変数以外についても有意確率が 5% 未満のものに着目し そのオッズ比を確認することでその変数 検知ルールが有意か判断可能 有意確率が 5% 未満にも関わらずオッズ比が 1.0 未満の変数は 加工方法を変更する その変数自体を除外する等のチューニングを検討 モデルの適合度 分析対象データに対してモデルがどの程度適合しているかという尺度 AUC(Area Under the Curve) 0.0~1.0で数値化 完全な分類では1.0 ランダムな分類では0.5 今回の結果は 0.704 ROC 曲線と AUC 17

評価及び考察 (2/2) 生成されたモデルの評価方法 分析対象データを利用した評価 ( 内的妥当性 ) 分析対象データとは異なるデータを利用した評価 ( 外的妥当性 ) 今回は K-fold cross validation( ) により内的妥当性のみ評価 (K=13) 全データを13ブロックに分割し 内 12セットでモデル構築 残り1セットを評価 これを全 13ケース繰り返し その平均から誤差を推定 結果 :19.8%( 推定誤差 ) 上記の適合度 推定誤差等の数値が改善されることを確認しながらモデルのチューニングを行うことが重要 18

まとめ 静的ヒューリスティック検知の研究開発での利用を目的としてマルウェア及び正常系ファイルの静的情報に着目 様々な静的情報を変数としてロジスティック回帰を行うことで どの変数がどの程度効果的か どの組み合わせが有効か等について定量的に把握することができる これを指標に継続的な検知ロジックの改善等が可能と考えられる 19

Contact Information E-Mail: research-feedback@ffri.jp twitter: @FFRI_Research 20