symposium_talk

Similar documents
にゃんぱすー

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

icde_5a_3

umeda_1118web(2).pptx

Microsoft PowerPoint - LDW.ppt [互換モード]

Microsoft Word - 常盤計画書0706

データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0

[4] CNM [5] 2. Kuramochi [6] TF IDF Wu Conceptual Physical Densest Connected Subgraph [7] [1] 2 TF IDF 2 2 1

スライド 1

チュートリアル クイックスタート * はじめに * ファイルのインポート * 可視化 * レイアウト * ランキング (色) * メトリクス * ランキング (サイズ) * もう一度レイアウト * ラベルの表示 * コミュニティ検出 * パーティション * フィルタ * プレビュー * エクスポート

Microsoft PowerPoint - DA2_2018.pptx

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

パスウェイ解析 システム 物学 本和広 (JSTさきがけ ) tokyo.ac.jpk ac 1

Microsoft PowerPoint - pr_12_template-bs.pptx

スライド タイトルなし

hpc141_shirahata.pdf

Microsoft PowerPoint - DA2_2017.pptx

データベースと情報検索

スライド 1

Microsoft PowerPoint - DA2_2017.pptx

(速報) Xeon E 系モデル 新プロセッサ性能について

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint SIGAL.ppt

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司


2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

PowerPoint プレゼンテーション

<4D F736F F F696E74202D2093B CC8BE68AD B B82CC8AD AF95FB96405F88EA94CA ED28CFC82AF82C995D28F575F826C A6D94462E >

システムソリューションのご紹介

Coding theorems for correlated sources with cooperative information

Microsoft Word - koubo-H26.doc

Overview Simulation Kleisli Simulation Contribution 1. Implementation 2. Increasing the Chance of Simulation Experimental Results and Comparison 2

富士通PRIMERGYサーバ/ETERNUSストレージとXsigo VP560/VP780の接続検証

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

IS2-06 第21回画像センシングシンポジウム 横浜 2015年6月 画像をスーパーピクセルに変換する手法として SLIC[5] を用いる Achanta らによって提案された SLIC 2.2 グラフマッチング は K-means をベースにした手法で 単純な K-means に いる SPIN

VXPRO R1400® ご提案資料

Microsoft PowerPoint - ad11-09.pptx

サーバに関するヘドニック回帰式(再推計結果)

EnSightのご紹介

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

untitled

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

リソース制約下における組込みソフトウェアの性能検証および最適化方法

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

Session 4 : Security II

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

A Constructive Approach to Gene Expression Dynamics

Microsoft Word - JP-AppLabs-MySQL_Update.doc

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

PowerPoint Presentation

離散数学

ソフト活用事例③自動Rawデータ管理システム

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Microsoft PowerPoint - DA2_2019.pptx

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

openmp1_Yaguchi_version_170530

東日本大震災時の Twitter における情報伝播ネットワーク 9 図 -3 公式リツイートの例 図 -4 非公式リツイートの例 図 - フォロー関係による情報の流れ I 図 -2 フォロー関係による情報の流れ II ツイート tweet 4 タイムライン TL フォロー 情報 A B A B 図

データベース暗号化ツール「D’Amo」性能検証

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書

PowerPoint プレゼンテーション

CLEFIA_ISEC発表

事例紹介1

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

160311_icm2015-muramatsu-v2.pptx

高速バックボーンネットワークにおける公平性を考慮した階層化パケットスケジューリング方式

PowerPoint プレゼンテーション

簡単な検索と整列(ソート)

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

ネットワーク分析 基礎的論文

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

アジェンダ MySQLデータベースにおける Fusion-io 社 iodrive 使 用 時 の 優 位 性 について 事 例 紹 介 ~Too many connections 2012 Smart Style Co.,Ltd. 2 / 25

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

Microsoft Word - r0703.doc


高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab.

ロイロノートスクールクラウド版表 クラウド サービス利 弊社が 意しているクラウドサービスへ接続し利 するシンプルなプランです サービスだけで利 することができます プラン 保存可能な容量 / ユーザー 額の場合 / ユーザー 年額の場合 / ユーザー 共 タブレット向け 1 0.8GB 40 円

Microsoft PowerPoint - 05DecisionTree-print.ppt

OSSTechプレゼンテーション

第 1 回ディープラーニング分散学習ハッカソン <ChainerMN 紹介 + スパコンでの実 法 > チューター福 圭祐 (PFN) 鈴 脩司 (PFN)

Microsoft Word - HOKUSAI_system_overview_ja.docx

Zabbix で PostgreSQL を監視! pg_monz のご紹介 Zabbix Conference Japan 年 11 月 20 日 SRA OSS, Inc. 日本支社マーケティング部


Microsoft PowerPoint - SWoPP2010_Shirahata

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

Express5800/C110a-Sシステム構成ガイド

Microsoft PowerPoint - os ppt [互換モード]


Transcription:

規模グラフデータ分析 塩川浩昭筑波 学計算科学研究センター 計算情報学研究部 助教 第 8 回 学際計算科学による新たな知の発 統合 創出 シンポジウム 2016 年 10 18 1

Graph is everywhere l データエンティティと, データエンティティ間の関係性を表現した基本的なデータ構造のひとつ ノード エッジ 2

近にあるグラフデータ l 交通ネットワーク ノード : 駅 交差点など エッジ : 路線 道路など 3

近にあるグラフデータ l ソーシャルネットワーク Web グラフ ノード : Webページ エッジ : 間関係 リンク関係 4

グラフデータ分析の重要性 l グラフデータを分析することによりデータ間の関係性や類 似グループなどを発 代表的な分析技術 クラスタリング PageRank 最短経路探索 など Web/SNS コミュニティ抽出 男性俳優 性俳優 タンパク質相互作 NW 代謝に関わる酵素の特定 転写因 の特定 宝塚 男性 モデル タレント (バラエティ) ジャニーズ系 道路ネットワーク 混雑予測 交通案内 性 モデル 性 アナウンサー お笑い芸 ハロプロ 系 タレント (司会者) AKB 系 例. SNSからのコミュニティ抽出 5

規模グラフデータ分析 l 規模化に伴い分析に要する時間が爆発的に増加 分野種類ノード数 OR 等交通ネットワーク全 :2 10 % 以上 Web 等 物情報 ソーシャルネットワーク Web グラフ タンパク質間の相互作 脳神経ネットワーク Twitter:2 10 & 以上 Facebook:5 10 & 以上 Google:10 ( 以上 10 ( 以上 PFN 秋葉さんの資料より 億ノード規模以上 (10 8 以上 ) のグラフデータに対してどのようにしたら 速かつ 精度な分析ができるか? 6

規模グラフ分析への関 の まり l SIGMOD ( データベース分野のトップ会議 ) 2016 年では Graph Data セッションが 4 つ Query Processing と並ぶ巨 な勢 に l SC(HPC 分野のトップ会議 ) 2010 年頃から毎年 Graph Algorithms セッションが存在 7

HPC 分野における関 l Graph500 Top500 のあたらしい仲間 性能計算機をグラフ処理能 でランク付け 2016 年 6 時点で京コンピュータが 1 位 8

本 の本講演の概要 l グラフデータ分析技術を紹介 グラフクラスタリング分析を題材に最新の研究動向を解説するとともに, 性能計算機を いた今後の展望を述べる l グラフからコミュニティ構造 ( クラスタ ) を抽出するグラフ分析技術のひとつ 互いに密に接続したノード集合をクラスタとして抽出 SNS からのコミュニティ発 [Zhou et al. 2010] 脳神経ネットワークからの発 部位特定 [Yu et al. 2010] グラフクラスタリング 密なエッジ接続 疎なエッジ接続 9

クラスタリングの 2 つの課題 1. どんなクラスタを定義するか? 2. どうやって 速計算するか? 10

Min-cut / Normalized Cut 法 [Shi and Malik, TPAMIʻ01] l クラスタ間のエッジが最 クラスタ内のエッジが最 になるようにグラフを 2 分割にする 法 クラスタのサイズに偏りが発 してしまうため, クラスタの きさが均等になるように調整する 時間計算量は O(N 3 ) と きい クラスタの精度がイマイチ 事前にクラスタの個数を決めなければならない クラスタサイズは必ずしも均等ではない cut cut 11

Modularity クラスタリング l クラスタの質を表す指標 Modularity の最 化によるクラスタリング 法 M. E. J. Newman and M. Girvan, Finding and evaluating community structure in networks, Phys. Rev. E 69, 026113 (2004) Q = 0 e 22 2m a 2 2m 2 9 6 実際にクラスタ i に含まれるエッジ数の割合 実際のグラフのクラスタリング結果 ランダムグラフにおいてクラスタ i に含まれるエッジ数の割合 ランダムグラフのクラスタリング結果 どれだけ違うか 12

Modulraity クラスタリングの例 A 案 B 案 実際のグラフ ランダムグラフ A 案 =(3 本 -2 本 )+(1 本 -1 本 ) +(1 本 -1 本 )=1 本 B 案 = (6 本 -2 本 )+(3 本 -1 本 ) =5 本 最も直感に従った B 案が最も い値になっていることがわかる 13

クラスタリングの 2 つの課題 1. どんなクラスタを定義するか? 2. どうやって 速計算するか? 14

モジュラリティを いたコミュニティの抽出 l 最も単純な 法 全てのコミュニティのパターンを列挙して, モジュラリティが最も いものをみつける 2つのコミュニティを探す場合 % % <=> = 127 通り < 3 つのコミュニティを探す場合 % %@< A=> % < %@< A <=> = 1932 通り ノード数やコミュニティ数が増えると組合せ数が爆発的に増加し計算が終わらない 15

Modularity によるグラフクラスタリング Girvan-Newman 法 [Girvan et al., 2004] トップダウンにクラスタに存在しそうなエッジを削除する 法 1 時間当たりの処理データ量 1 万ノード 16

Girvan-Newman 法 [Girvan et al., 2004] l グラフから適当にエッジを削除してその時のModularityを評価 l Modularityが最も きくなったものを結果として出 Min-Max 法やNormalized-cutに近いトップダウン式の 法 計算量はO(N F ) と きい 小 Modularity Q 大 17

Modularity によるグラフクラスタリング Girvan-Newman 法 [Girvan et al., 2004] トップダウンにクラスタに存在しそうなエッジを削除する 法 Newman 法 [Newman et al., 2004] 貪欲法によりボトムアップからModularityを向上させる 法 CNM 法 [Clauset et al., 2004] ヒープの導 やヒューリスティクスによるNewman 法の 速化 1 時間当たりの処理データ量 1 万ノード 数百万ノード 18

Newman 法 / CNM 法 l 2 つノードを同じクラスタにした時に じる Modularity の上昇量 Modularity gain Q を定義 Modularity Q = 0 e 22 2m a 2 2m 2 9 l Q を最 にするノードペアを貪欲法で探索しクラスタリング l 計算量は O N 2 ~O(M log N) 6 Modularity gain Q 2A = 2{2me 2A a 2 a A } 19

Modularity によるグラフクラスタリング Girvan-Newman 法 [Girvan et al., 2004] トップダウンにクラスタに存在しそうなエッジを削除する 法 Newman 法 [Newman et al., 2004] 貪欲法によりボトムアップからModularityを向上させる 法 CNM 法 [Clauset et al., 2004] ヒープの導 やヒューリスティクスによるNewman 法の 速化 1 時間当たりの処理データ量 1 万ノード 数百万ノード Louvain 法 [Blondel et al., 2008] 隣接するノード同 にのみを計算する計算量の さな 法最速かつ最 精度の 法として広く利 されている 数千万ノード 20

Louvain 法 l 以下のパスを Modularity が向上する限り繰り返す 第 1 フェーズ : ノードのローカルクラスタリング ランダムな順序でノードを選択し, 選択したノードを Modularity が最も くなる隣接ノードと同 クラスタとする 第 2 フェーズ : クラスタに含まれるノードの 括集約 同 クラスタ内のノードとエッジを 括集約し重み付きグラフに変換 l 計算量は O(M) ただし定数項が極めて きい 12 2 6 1 1 1 第 1 フェーズ 第 2 フェーズ 3 14 2 第 2 パスへ処理を繰り返す 21

Modularity によるグラフクラスタリング Girvan-Newman 法 [Girvan et al., 2004] トップダウンにクラスタに存在しそうなエッジを削除する 法 Newman 法 [Newman et al., 2004] 貪欲法によりボトムアップからModularityを向上させる 法 CNM 法 [Clauset et al., 2004] ヒープの導 やヒューリスティクスによるNewman 法の 速化 1 時間当たりの処理データ量 1 万ノード 数百万ノード Louvain 法 [Blondel et al., 2008] 隣接するノード同 にのみを計算する計算量の さな 法最速かつ最 精度の 法として広く利 されている Incremental Aggregation 法 既存技術と同程度の精度を保ち 10 倍 20 倍以上 きなデータを処理 性能 標既存 法 Louvain 法より 10 倍以上の 速な 法の確 1 千万ノード 1 億 数 億ノード 22

Incremental Aggregation [Shiokawa et al., AAAIʼ13] l 実世界のグラフデータが持つ構造特徴に着 グラフの Power-Law 特性とグラフのクラスタ性 上記の特徴に基づき不要な計算を削減する l グラフの Power-Law 特性 多数のノードは低次数で, ごく 部のノードのみ 次数となる l グラフのクラスタ性 隣接するノードペアは互いに多くの隣接ノードを共有する 23

Incremental Aggregation [Shiokawa et al., AAAIʼ13] l 逐次集約 (Incremental Aggregation) の提案 グラフのクラスタ性を利 した計算不要なエッジの集約 グラフの Power-Law 特性を利 した計算エッジ数の削減 24

グラフのクラスタ性をとらえる l クラスタが決定したノードを即座に集約する 同 クラスタを 1 ノード, エッジを重み付きエッジに変換することで, 計算対象となるノードとエッジを削減 逐次集約 同 クラスタと判明 2 2 集約されたノードとエッジ クラスタ内 : エッジ数の 2 倍クラスタ間 : エッジ数を加算 集約処理前 集約処理後 25

グラフの Power-law 特性を捉える l 次数の少ない順に計算対象ノードを選択する グラフデータ中から他ノードへの次数が少ないノードを優先選択することでモジュラリティの計算回数を抑制 p ノード A と B が同 のクラスタとなる場合 逐次集約 C A A 2 2 B D ノードAから選択エッジ3 本分計算 ノードBから選択エッジ2 本分計算 逐次集約による効果 次数の少ないノード B を選択したほうが効率が良い ノード A B 間のエッジが集約されるため, 後続の処理で計算が必要となるエッジ数を削減する C D 26

実データによる評価実験 l データセット Stanford Network Analysis Project および Laboratory of Web Algorithms から取得した 5 種類のデータセットを使 Dataset V E Skewness of degree distribution dblp 326,186 1,615,400 2.82 live 5,363,260 79,023,142 2.29 uk-2005 39,459,925 936,364,282 1.71 webbase 118,142,155 1,019,903,190 2.14 uk-2007 105,896,555 3,738,733,648 1.51 l 実験環境 Linux 2.6.18 server Intel Xeon CPU L5640 2.27GHz and 144GB RAM State of the art の 法 BGLL,CNM と 較 27

評価 1: 実 時間の 較 l 既存 法 BGLL と 較して最 60 倍 速 逐次集約のみ (Proposed-Limited) では約 20 倍の 速化 次数分布の偏りが きいグラフの 速化率が い傾向 1 億ノード /10 億エッジを 156 秒でクラスタリング 3.2 万ノードのグラフを 1 秒未満でクラスタリング 28

評価 2: クラスタリング結果のモジュラリティ l BGLL と 較してほぼ同程度のモジュラリティ値を すクラスタリング結果を得ることを確認 Incremental aggregation dblp live uk-2005 webbase uk-2007 0.90 0.74 0.98 0.98 0.97 BGLL 0.88 0.74 0.97 0.96 0.97 CNM 0.82 - - - - 29

さらなる 速化に向けて (1/2) l GPU を いた並列化 Single-GPU [Wu et al., 2010] グラフの固有値 固有ベクトルを いたモジュラリティクラスタリング べき乗法による固有値 固有ベクトルの計算を GPU で実装 Multi-GPU [Soman et al, 2011] Label propagation をモジュラリティクラスタリングに利 した 法 Label propagation 処理部を GPU で実装 l 分散メモリ環境における並列化 [Wickramaarachchi et al., 2014] グラフを最 エッジカットで事前分割し分割統治的にクラスタを求める - [Bae and Bill, SCʼ15] グラフ並列処理フレームワーク GraphLab を いた実装 ParMETIS BGLL 1 BGLL 1 BGLL n BGLL 30

さらなる 速化に向けて (2/2) l Multi-CPU を いた並列化 Rabbit Order [Arai et al., IPDPSʼ16] Incremental Aggregation クラスタリング [Shiokawa et al, AAAIʼ13] の並列化実装を利 CAS を利 して分析結果の整合性を確保 高速化率 6 5 4 3 2 1 0 実効最大メモリ帯域 高速化率 l スパコン (COMA) を いた並列化 全コア合計消費メモリ帯域 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 H28 年度学際共同利 プログラム 46 規模グラフ分析アルゴリズムの 速化に関する研究 50 40 30 20 10 0 Read メモリ帯域 [GB/s] 31

まとめ l 本 の講演内容分析 グラフクラスタリングを題材に, 規模グラフ分析アルゴリズムの研究動向を紹介した l Interesting Open Problems スケーラブルなグラフ分析に向けたデータ構造とアルゴリズム 分析処理 法に応じて 幅に変わる Real-world property を捉えることが重要 分析アルゴリズムのツール化 Xeon Phi, GPU, etc. アプリケーション分野での応 命情報, 宇宙, 物理, 化学, 医療, 32