Microsoft PowerPoint - SWoPP2010_Shirahata

GPU を考慮した MapReduce のタスクスケジューリング白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所

大規模データ処理情報爆発時代における大規模データ処理気象生物学天文学物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデスケーラブルな並列データ処理 GPGPU 汎用に比べ高い性能 CUDA をはじめとする開発環境の整備と GPU の混在したスパコンクラウドの出現 ex) TSUBAME 2.0 : NVIDIA の Fermi Tesla M2050 を計算ノードに 3 台搭載 GPU を活用した MapReduce 処理の高速化

と GPUの混在環境での MapReduce 処理における問題点と GPU へタスクを割り振る方法は自明ではない計算資源への依存コア数 GPU 台数メモリ容量メモリバンド幅ストレージへの I/O バンド幅などアプリケーションへの依存 GPU 処理の特性長所 : ピーク性能メモリバンド幅短所 : 複雑な命令はに劣る GPU 利用による性能向上があるものの GPU 処理には向き不向きがある GPU とのハイブリッド実行のスケジューリングを行い, リ実行リグを行, それぞれの長所を生かす計算資源を有効活用

目的目的と成果と GPU の混在環境での MapReduce 処理の高速化成果 Map タスクのハイブリッド実行 MapReduce の OSS 実装である Hadoop に実現 Map タスク割り振りのスケジューリング手法の提案ジョブ全体の実行時間を最小化 K meansアプリケーションによる評価ジョブ実行時間 : 複数 GPU と提案スケジューリング手法によりのみの場合に対し 1.02 1.93 倍となる高速化

発表の流れ研究背景 MapReduce と GPGPU 提案手法設計と実装実験関連研究まとめと今後の課題

MapReduce MapReduce と GPGPU Map, Shuffle, Reduce の 3 つのフェーズからなる様々な機械学習アルゴリズムへの適用例主な実装 Hadoop: MapReduce, HDFS, HBase などの OSS Mars: GPU 用のフレームワーク企業研究機関での導入事例の多い Hadoop を対象 GPGPU グラフィックプロセッサをSIMD 演算機として利用に比べ安価で高いピーク性能主な統合開発環境 NVIDIA: CUDA, AMD: ATI Stream CUDAを対象

発表の流れ研究背景 MapReduce と GPGPU 提案手法設計と実装実験関連研究まとめと今後の課題

マスタワーカモデルジョブの動作 Hadoop の構造 Client: ジョブの投入, JobTracker: タスクの割り振り, Tracker: タスクの実行, Heartbeat による送受信 Client Node Java App Master Node JobTracker Slave Node Tracker Slave Node Tracker Slave Node Tracker

提案 : と GPUの Mapタスクのハイブリッドスケジューリングと GPU への割り振りを自動決定実行環境計算資源ジョブ実行時間を最小化アプリケーションの特性 Client Node Java App Master Node JobTracker Slave Node Slave Node Slave Node Hadoop からの CUDA の呼び出し Tracker Tracker Tracker ハイブリッドスケジューリングアルゴリズム

Hadoop からの CUDA の呼び出し実装の違いの吸収 Hadoop Java 実装 ( ミドルウェア, アプリケーション ) CUDA C++ によるライブラリ主な手法 Hd Hadoop Streaming: 標準入出力 Hadoop Pipes: ソケット接続, C++ ライブラリ JNI, JNI ベースの CUDA ラッパー (JCUDA) Hadoop Pipes を対象 Hadoop Pipes を対象 C++ で MapReduce アプリケーション, CUDA カーネル関数を記述可能 CUDA カーネルを起動可能

Hadoop からの CUDA の呼び出し (cont d) Map タスク実行スロットの管理 Map タスクを, GPU のどちらのスロットで実行するか? 空きスロット (, GPU) の認識 GPU への Map タスクの競合 1 ノード上に複数 GPU を搭載時に発生 Map タスクを実行する GPUデバイスを識別する必要有 cudasetdevice で設定

Map タスクのハイブリッドスケジューリング設定 nコアと GPU m 台を搭載スケジューリング方法ジョブ実行時間を最小化と GPU の性能比 ( 加速倍率 ) に応じた Mapタスクの割り振り動的なモニタリング, GPU で実行が終了した Mapタスクのプロファイル ( 実行時間など ) を Heartbeat 毎に繰り返し取得加速倍率を計算ジョブの進捗状況の把握

スケジューリングアルゴリズム目標, GPU に割り当てられた Map タスクが共に全て終了するまでにかかる時間の最小化と GPU に割り当てる Map タスク数を決定加速倍率 : スケジューリングアルゴリズム

発表の流れ研究背景 MapReduce と GPGPU 提案手法設計と実装実験関連研究まとめと今後の課題

Hadoop Pipes ユーザからの実行方法ユーザは map 関数と reduce 関数を記述 (C++ ラッパーライブラリを使用ライブラリを使用 ) コンパイル済のバイナリと入力出力ファイルを指定してジョブを実行 Launch bin/hadoop pipes D hadoop.pipes.java.recordreader=true D D hadoop.pipes.java.recordwriter=true pipes bin cpu kmeans2d input input output output Submit Job User App Binary Client Node JobClient Master Node JobTracker Use Hadoop Pipes C++ Wapper Run Wrapper Process App Binary Allocate Map or Reduce task Slave Node Tracker Send and Receive Key Value pairs Child JVM Child Launch

Hadoop Pipes 実行フロー Tracker が Childプロセスを起動 Child プロセスがタスクを起動 C++ Wrapper プロセスが C++ バイナリを実行ソケット接続による Key Value ペアの送受信 Launch Submit Job User App Binary Client Node JobClient Master Node JobTracker Use Hadoop Pipes C++ Wapper Run Wrapper Process App Binary Allocate Map or Reduce task Slave Node Tracker Send and Receive Key Value pairs Child JVM Child Launch

ハイブリッド実行の場合 incl. Pipes による CUDA の呼び出しジョブ実行時に GPU バイナリを指定 Mapタスクの識別 ( GPU, GPUデバイスID) 空きスロットの識別 ( GPU, 空きGPUデバイスID) User App Launch Submit Job Binary Client Node Master Node GPU App JobClient JobTracker Binary Use Hadoop Pipes Allocate Map or Reduce task GPU Wapper Slave Node Tracker Run Wrapper Process GPU App Binary Send and Receive Key Value pairs Child JVM Child Launch

JobTracker Map タスクの割り振り Tracker プロファイルのモニタリング空きスロット, プロファイル ( 実行時間 ) スケジューリングアルゴリズムの計算の通知 (Heartbeat 毎 ) タスクの割り当て要求各ノードへのタスクの割り振りタスクを識別して実行 ( GPU, GPUデバイスID の指定 ) ( GPU, GPUデバイスID の識別 ) Client Node App Binary GPU App Binary Slave Node Tracker Master Node JobTracker Slave Node Slave Node Tracker Tracker GPU GPU GPU GPU GPU GPU

発表の流れ研究背景 MapReduce と GPGPU 提案手法設計と実装実験関連研究まとめと今後の課題

実験 Hadoop 環境でジョブ実行時間 Map タスク実行時間を測定のみと + GPU の場合を比較提案スケジューリングの適用と非適用の場合を比較実験環境 : TSUBAME 16コア + GPU 2 台 /Node Mapスロット数, Reduceスロット数 : 16 スロット / Node 1~64 ノードと変化 DFS は Lustre を使用 ( ストライプ数 : 4, チャンクサイズ : 32 MB) I/O 性能 :32 MB のファイルに対し Write 180MB/s, Read 610MB/s K means アプリケーション Mapタスクを C++ バイナリ CUDAバイナリで実行入力 : 262,144 個の二次元座標データ ( 浮動小数点 ) と 128 個のクラスタを持つファイルを 1000 個連結 (20GB) Map: 各ファイルごとに K means を実行 Reduce: K means の結果を収集

ジョブ実行時間の比較 Hadoop 環境でジョブ実行時間 Map タスク実行時間を測定のみの場合と+GPUの場合を比較 +GPU のとき提案アルゴリズムの適用と非適用の場合を比較実験環境 : TSUBAME 16 コア + GPU 2 台 / node 16 15+1GPU 14+2GPU を比較 Map スロット : 16, Reduce スロット : 16 1~64 ノードと変化 DFS は Lustre を使用 ( ストライプ数 : 4 チャンクサイズ : 32MB) I/O 性能 : 32MB のファイルに対し Write 180MB/s, Read 610MB/s K means アプリケーション MapタスクをC++ バイナリ CUDAバイナリで実行 262144 個の二次元座標データ ( 浮動小数点 ) と128 Org 個の : Hadoopのオリジナルクラスタを持つファイルを 1000 個連結 (20GB) スケジューリング Map: 各ファイルごとにK meansを実行 Ours : 提案スケジューリング Reduce: K meansの結果を収集

ジョブ実行時間の比較 GPU の使用による若干の性能向上有しかし加速倍率が高くないため (1.18 倍 ) と同等の性能 Org : Hadoop のオリジナルスケジューリング Ours : 提案スケジューリング

ジョブ実行時間の比較 1.02 倍提案アルゴリズムの使用による更なる性能向上 1.93 倍 Org : Hadoop のオリジナルスケジューリング Ours : 提案スケジューリング

ジョブ実行時間の比較ノードの追加による性能劣化 Mapタスク実行時間の増加による Org : Hadoop のオリジナルスケジューリング Ours : 提案スケジューリング

Map タスク実行時間の増加ノード数に応じてMap タスク時間が増加 I/O 性能の低下ジョブ実行時間の増加の一因その他の原因としてスロット数の過剰が冗長

ジョブ実行時間の比較 1GPU と 2GPU 2000 1800 1600 1400 提案手法では GPU 台数を増やすほどより性能向上する傾向有 1200 1000 16 15+1GPU+Ours 800 14+2GPU+Ours 600 Ours : 提案スケジューリング 400 200 0 1 2 4 8 16 32 64 1 2 3 4 5 6 7

プロセス起動によるオーバーヘッド 1 台の計算機での実験バイナリのみと Map タスクの実行時間を比較バイナリ実行時間 : C++ または CUDA の Map 関数 Map タスク実行時間 : Map タスクの割り当てから終了まで 12.1 秒 (16%) 実装依存のオーバーヘッドは無視できない [sec] 12.4 秒 (44%) Binary, GPU Binary : バイナリ実行時間 Map, GPU Map : Map タスク実行時間

発表の流れ研究背景 MapReduce と GPGPU 提案手法設計と実装実験関連研究まとめと今後の課題

関連研究学習メカニズムによる GPUタスクスケジューリング [Chi Keung Lu et al. `09] チャンクサイズの変化による GPUハイブリッド実行の高速化 [T. Ravi Vifnesh et al. `10] 不均質な環境での MapReduceのタスクスケジューリング [Matei et al. `08] 既存の不均質環境下のタスクスケジューリング手法 [ Suda `06 ] 計算資源アプリの特性に応じた GPU 同時実行による大規模データ処理に特化資源競合 ( メモリストレージ ) を考慮オンラインで自動スケジューリング

まとめまとめと今後の課題 Map タスクを GPU から呼び出し MapReduce 実装の Hadoop 環境で実現と GPU の混在環境を考慮したタスクスケジューリング手法の提案 K means アプリケーションでの実験ジョブ実行時間 : 2GPUと提案手法により 1.02 1.93 倍の高速化 Hadoopの実装に依存するオーバーヘッドは無視できない今後の課題スケジューリングモデルの改良メモリディスクアクセス等を考慮 GPU 上でのタスク実行時におけるとの資源の競合によるオーバーヘッドを考慮

ご清聴ありがとうございました

Mapタスク実行時間 GPUではに対し1.0 1.25 倍となる高速化 ( プロセス起動時間等を含む ) ジョブ実行時間 2GPUの使用と提案スケジューリングアルゴリズムの適用により1.02 1.93 倍の高速化 14+2GPU では 15+1GPU に対し 1.02 1.29 倍の高速化 ( 複数 GPU による効果 ) 実験結果提案アルゴリズムの使用により 14+2GPU の場合に平均 1.28 倍 15+1GPU の場合に平均 1.08 倍の高速化 Ours : 提案スケジューリング Org : Hadoop のオリジナルスケジューリングリング GPU の使用提案タスクスケジューリングの適用による性能向上を確認

Map タスク実行時間の増加ノードを増やすにつれて Map タスク時間が増加 I/O の増加が原因か

プロセス起動等のオーバーヘッドローカル 1 ノードでの実験 (7+1GPU) バイナリ実行時間と Map タスク実行時間を比較バイナリ実行時間 : C++ またはCUDAのMap 関数の実行時間 Map タスク実行時間 : Map タスクが割り当てされてから終了するまでの時間オーバーヘッド上では約 16% GPU 上では約 44% 実装依存のオーバーヘッドは無視できないバイナリ実行時間と Map 実行時間の比較 GPU バイナリ 64.93~65.68 秒 11.66~16.86 秒実行時間 Map タスク 72.13~78.14 秒 24.04~37.06 秒実行時間 [sec]

GPUを呼び出す手法の比較 Hadoop Streaming Hadoop とユーザプログラムの間に Unix 標準ストリームを使用標準入出力の解析が必要 Hadoop Pipes ソケット接続を確立しスレーブノードとの通信のチャネルを生成するC++ インターフェース C++ と CUDA の親和性 JNI(Java Native Interface) 関数呼び出しのオーバーヘッド大実行環境依存のライブラリが必要 jcuda(java for CUDA) 現状では明示的なメモリアラインメント不可非同期の命令がメモリ破損を引き起こす可能性有 C++ との親和性を考慮し Hadoop Pipes を使用

GPUを呼び出す手法の比較 Hadoop Streaming Hadoop とユーザプログラムのインターフェースに Unix 標準ストリームを使用任意の言語でユーザプログラムを記述可能標準入出力の解析が必要 Hadoop Pipes C++ インターフェースソケット接続を確立しスレーブノードとの通信のチャネルを生成 JNI(Java Native Interface) JVMで実行されるJavaコードが他のプログラミング言語で記述されたネイティブコードを利用するためのAPI JVMで動作させるには不利なプログラムをネイティブコードに置き換えて高速化することが可能関数呼び出しのオーバーヘッド大実行環境依存のライブラリが必要 jcuda(java for CUDA) GPU 上のメモリの割り当て転送のためのメソッドを提供 Jcublas, Jcufft, Jcudppなどのライブラリと相互運用が可能現状では明示的なメモリアラインメント不可非同期の命令がメモリ破損を引き起こす可能性有今回は Hadoop Pipes を使用

Streaming Tracker Pipes Tracker Child Child JVM Streaming Process Child Child JVM C++ Wapper Library C++ Map or Reduce

K means における Map タスクの加速倍率

PCA でのジョブ時間

User GPU App Binary Launch Client Node JobClient Submit Job Master Node JobTracker Use Hadoop Pipes Allocate Map or Reduce task Slave Node C++ Wapper Wrapper Tracker Process Launch Send and Receive Run Key value pairs Child JVM GPU App Child Binary