並列探索ライブラリの提案美添樹 (Kazuki Yoshizoe) 基盤 (S) 離散構造処理系プロジェクトセミナー 2017 年 PDF Free Download

5 3 3 3 6 7 5 4 6 5 5 6 6 5 5 5 並列探索ライブラリの提案美添樹 (Kazuki Yoshizoe) 基盤 (S) 離散構造処理系プロジェクトセミナー 2017 年 2 21

2 紹介過去にはコンピュータ囲碁の研究に取り組む今は主に並列探索アルゴリズムの研究に取り組む過去の研究探索いろいろ (AND-OR 探索 MCTS など ) 並列計算 ( キャッシュ同期プロトコルによる投機実 ) 情報セキュリティ ( 静脈認証の脆弱性評価 ) デジタル無線通信 (Adaptive Array Antenna 等 ) 1 1 付けで理研 AIP センター @ 本橋に探索と並列計算ユニットのリーダーに着任研究以外に計算機の選定なども担当

並列探索の概要ルールで成されるグラフ組合せ最適化 SAT NCSP 数値制約充問題ゲームパズル頻出パターンマイニング探索の ( 我々の ) ターゲット探索探索グラフはかなり Unbalanced なので単純な並列化は困難 1, 同期オーバーヘッド正確に計算時間をそろえる ( 困難 ) は同期アルゴリズムに変形する各種オーバーヘッドを低く保つ並列化法が必要トレードオフ 3, 通信オーバーヘッド送信や受信にかかる時間 2, 探索オーバーヘッド閾値などの情報の伝達が遅れ枝刈りが遅れるオーバーヘッド

並列化法の種別と既存の成果深さ優先探索 (DFS) stack を使う様に変形し work stealing をうハッシュ表を使う探索例 IDA*, モンテカルロ探索 Distributed Hash Table をいる Priority Queue を使う探索例 Dijkstra, A* 探索 Hash distributed queue を使う ( 今のところ SAT ソルバは対象外 ) SAT ソルバやや特殊数値制約充問題 900 コアで約 750 倍 [Ishii, Yoshizoe, Suzumura. 2014] 統計的パターンマイニング 1,200 コア 1,175 倍 [Yoshizoe, Terada, Tsuda. 2017?] work stealing に少し夫を追加ハッシュ関数をいて節点を分散都合の良いハッシュ関数と通信の集中を回避する夫が必要並列モンテカルロ探索 4,800コアで約 3,200 倍 [Yoshizoe, Kishimoto, Kaneko, Yoshimoto, Ishikawa 2011] Portfolio 式が主流

5 並列探索ライブラリの標並列探索の難しさの回避ハードウェアに適したアルゴリズムの作成デバッグきな標シングルコアの探索を実装できるなら並列版も実装できるように分散メモリ環境で動作させるできるだけ般的なツールをいる c++ と MPI ライブラリまだ未完成今後数年の研究標まず番簡単な深さ優先探索 (DFS) について説明

並列 DFS 応例遺伝データから統計的に有意な変異の組合せを発する (P-Value がさい組合せを全列挙 ) アルツハイマー / 本概要元は lattice な探索空間 reverse search でに変換 P-value の枝刈りをいて閾値付き深さ優先探索に低遅延閾値伝播 +work stealing ( 細かいテクニックはいくつかあり ) 1,200 コアをいて最 1,175 倍速化 ( 東 TSUBAME CPU のみ ) [ 美添, 寺, 津 ] arxiv:1510.07787 [cs.dc] Genome Wide Association Studies 10 4 10 3 10 2 10 1 変異 (SNP) が各が被験者 GTCTAAAACATGATT 0 GTCTGAATCATGATT 1 GTCTGAAACATGATT 0 GTCTGAATCATCATT 1 頻出パターンマイニングの並列化でもある cf. ビールおむつ問題 pos. neg. 数万数万の組合せナイーブにやると 2 数万通り Time (s) time (s) speedup 48285 1200 1100 1000 900 800 700 600 500 400 300 200 100 0 200 400 600 800 10001200 0 Nu. Process 41.1 Speedup

NCSP 数値制約充問題に適不等式制約で記述される実数領域を求める問題 p0 Initial domain B&P nb boxes... p1...... B&P B&P...... 6......... p0 p2 p1... p3 4 (精度保証付き) 数値計算領域分割 ( 探索) 2 0 0 2 4 P1 6 600コアをいて最約500倍速化特徴 x2 P2 応例: ロボットの可動範囲 x1 不平衡な探索の分散不規則かつ頻度な負荷分散短時間 (数秒以下) の求解でも速化閾値無し DFS

8 深さ優先探索 Depth First Search Back tracking DFS DFS() { Recur(r) Recur(node n) { foreach (child c of n) { // do something for c Recur(c) f の節点を全て辿る単純な動作 d g a e h k r b i l j c m n o 再帰呼び出しで然と back tracking を実装可能経路上の節点だけ覚えれば良いメモリ消費 O(d)

9 閾値付き Depth First Search DFS with threshold DFS() { Recur(r) Recur(node n) { foreach (child c of n) { // do something for c if (c is within threshold) Recur(c) UpdateThreshold() f d g a e h r b i k l j c m n o 閾値を動的に更新して枝刈り実例が多い探索の本体は字の部分節点の作りによって頻出パターンマイニングにも統計的パターンマイニングにも数値制約充問題にもなる

並列 DFS の準備再帰呼び出しをスタック + ループに変換 10 DFS() { Recur(r) Recur(node n) { foreach (child c of n) { // do something for c if (c is within threshold) Recur(c) UpdateThreshold() 利点 :O(d) メモリ点 : 並列化が困難 r StackDFS() { push(r) Loop() Loop() { while(stack not empty) { pop n from stack foreach (child c of n) { // do something for c if (c is within threshold) push(c) UpdateThreshold() d a e b i j c n o 点 :O(d b) メモリ利点 : 並列化可能 f g h k l m 深さ d, 分岐数 b のとすると

DFS() { Recur(r) Recur(node n) { foreach (child c of n) { // do something for c if (c is within threshold) Recur(c) UpdateThreshold() 再帰呼び出しをスタック + ループに変換 11 StackDFS() { push(r) Loop() Loop() { while(stack not empty) { foreach in pop n from stack reverse order foreach (child c of n) { // do something for c if (c is within threshold) push(c) UpdateThreshold() d a e r b i r j r c n o c b a c b a c b e d c b e d c b e g f 逆順にスタックに積むとほぼ同じ探索順序 c b e g f c b e g c b e c b h c b h f g h k l m 注意 : キュー (FIFO) にするとメモリ消費が激増する

あとは Work Stealing をすれば並列化完了 12 request request give reject Work stealing スタックが空になったプロセスがジョブを持つプロセスを探し request する (receiver initiated) ユーザから以下を隠蔽 request 対象の選択法実際にはネットワークの能に応じた法が必要通信の集中を避ける正しい終了検知全てのスタックが空になった保証があって初めて終了する Distributed Termination Detection (DTD) は意外と難しい

13 並列 DFS ライブラリ Back tracking DFS この変換はユーザにやってもらう Stack DFS DFS() { Recur(r) Recur(node n) { foreach (child c of n) { // do something for c if (c is within threshold) Recur(c) UpdateThreshold() StackDFS() { push(r) Loop() Loop() { while(stack not empty) { pop n from stack foreach (child c of n) { // do something for c if (c is within threshold) push(c) UpdateThreshold()

14 並列 DFS with stack ParallelDFS() { if (proc_id == 0) stack.push(r) Loop() Loop() { while(not AllStackIsEmpty()) { if (stack.count() > 0) { stack.process() Probe() send one steal REQUEST Probe() Probe() { while (message received) { switch (message:type) { case REQUEST: if (stack not enough) send REJECT else stack.split() and send GIVE case REJECT: Send one steal REQUEST case GIVE:received_stack stack.merge() if (proc_id == 0) Start DTD ( 後で説明 ) 以下の関数を持つ stack があれば良い process が探索の本体 process / split / merge / count

15 抽象クラスを継承して実装 class DFSStack { public: virtual void Process() = 0; virtual DFSStack * Split() = 0; virtual void Merge(int *, int) = 0; virtual int Count() = 0; 前の stack を作れば ( 閾値無しの ) 深さ優先探索が動く参考 : 並列語 X10 をいた類似の実装が存在 [Zhang,Tardieu, Grove, Herta, Kamada, Saraswat, Takeuchi 2014] class MyStack : public DFSStack { public: virtual void Process() { 探索の本体通常は節点を pop し節点を push する virtual MyStack * Split() { stack を半分に分割し配列に置いてポインタを返す virtual void Merge(MyStack *) { 送られてきた stack をマージ virtual int Count() { 要素の数を返す

16 まず指すもの以下の順で並列化可能なライブラリユーザが Process / Split / Merge 等を持つ stack クラスを実装実際に stack かどうかはどうでも良い split した結果が連続メモリ領域にある必要ありそうでないと send しにくい逐次 stack DFS で stack のデバッグ stack の情報だけを元に探索する ( 逐次では無意味だが )split と merge も使う逐次で動くならそのまま並列でも動くようにここが難しいかもしれない

17 さらに閾値伝播を追加 Spanning Tree 上で通信終了検知と同時にやるユーザの実装が必要な物 reduce 関数 / bcast 関数がある threshold クラス実体は何でも良い何らかの reduce 関数探索は stack と threshold のみで動作する必要 ParallelDFS() { if (proc_id == 0) push(r) Loop() Loop() { while(not AllStackIsEmpty()) { if (stack.count() > 0) { stack.process() Probe() send one steal REQUEST Probe()

分散アルゴリズムでは意外な事が難しい終了検知 Distributed Termination Detection 18 スタックが全て空なら終了で良いのでは? スタックが空でも通信の途中かもしれない send と recv の総数を数えて致していれば良いのでは? 数えるタイミングによっては send と recv を1 個ずつ (N 個ずつ ) 逃すかもさらに数えている途中に recv したら数え直すようにするこれで正しく検知可能 ring を 2 周する : Dijkstra Scholten アルゴリズム ( 有名 ) ring 1 周で良い改良 : 4 counter algorithm など Spanning tree 上で集計 : [Mattern 1990] 決定版速 ( 何故か知られていない ) これと同時に閾値伝播をう

19 メッセージ種類追加で実現 ParallelDFS() { if (proc_id == 0) push(r) Loop() Loop() { while(not AllStackIsEmpty()) { if (stack.count() > 0) { stack.process() Probe() send one steal REQUEST Probe() ユーザ定義による任意のメッセージを追加しても良いが Probe() { while (message received) { switch (message:type) { case REQUEST: if (stack not enough) send REJECT else split and send GIVE case REJECT: Send one steal REQUEST case GIVE: merge to local queue case BROADCAST: UpdateThreshold() send BROADCAST to neighbor or send REDUCE to parent case REDUCE: if (at root) send BROADCAST else send REDUCE if needed if (proc_id == 0) Start DTD

20 ユーザから隠蔽したい物 MPI ライブラリの難しさ MPIメジャーなライブラリだがワナは々特に数値計算以外の使いをすると難しい通信パターンの問題通信パターンに気を遣わないと何が起きるか終了検知分散メモリ環境での正しい終了検知

MPI Library (Message Passing Interface) 番メジャーな並列プログラムツール MPI 規格にそった実装が多数存在各プロセスは rank (0,,N-1) を持つ Process 0 main() { int buffer1[100], buffer2[100]; if (rank==0) { MPI_Send(buffer1, 100, MPI_INT,1,...); MPI_Recv(buffer2, 100, MPI_INT,1,...); else { // rank==1 MPI_Recv(buffer2, 100, MPI_INT,0,...); MPI_Send(buffer1, 100, MPI_INT,0,...); MPI はプロセス ( ランク ) 単位で動作 rank 0 MPI_Send MPI_Recv rank 1 Process 1 main() { int buffer1[100], buffer2[100]; if (rank==0) { MPI_Send(buffer1, 100, MPI_INT,1,...); MPI_Recv(buffer2, 100, MPI_INT,1,...); else { // rank==1 MPI_Recv(buffer2, 100, MPI_INT,0,...); MPI_Send(buffer1, 100, MPI_INT,0,...); 21 冗なメモリコピーを許容すれば共有メモリ環境でも普通に動作する ( 単に通信をメモリコピーに置き換える )

22 MPI 初者の良くやるミスこのコードはデッドロック Process 0 main() { int buffer1[100], buffer2[100]; if (rank==0) { MPI_Send(buffer1, 100, MPI_INT,1,...); MPI_Recv(buffer2, 100, MPI_INT,1,...); else { // rank==1 MPI_Send(buffer1, 100, MPI_INT,0,...); MPI_Recv(buffer2, 100, MPI_INT,0,...); Process 1 main() { int buffer1[100], buffer2[100]; if (rank==0) { MPI_Send(buffer1, 100, MPI_INT,1,...); MPI_Recv(buffer2, 100, MPI_INT,1,...); else { // rank==1 MPI_Send(buffer1, 100, MPI_INT,0,...); MPI_Recv(buffer2, 100, MPI_INT,0,...); MPI_Send は MPI_Recv されるまで待つ MPI_Send, MPI_Recv はブロッキング通信なのでこの書きをするとそこでデッドロックする実は Send / Recv は何種類かあって適切な物を選ぶ必要 Send, Isend, Bsend, IBsend

23 探索での定とワナ Loop() { while(not AllStackIsEmpty()) { // do work stealing Probe() Probe() { while (MPI_Iprobe()) { MPI_Recv( ) switch (message_tag) { // ここでメッセージに応じた処理探索ではメッセージのタイミングサイズ送り先の全てが不定こういう儀の悪いアプリは MPI はあまり想定していない以下を使うのが応の定 MPI_Iprobe: メッセージが届いていたら true を返す次の MPI_Recv はブロックしない MPI_Bsend: バッファをいた Send 1 回バッファにコピーしてから送信 MPI の動作は何らかの MPI 関数が呼ばれないと進まない ( 実際は実装依存だがいくつか試したが実際まる ) 良くあるミス無駄なポーリングを避けようとして途中でまる

24 刺さるプロ語? 何かが何かに刺さって不具合が起きる良く原因が分からない場合にいる例したら刺さって 40 秒固まったぞ類義語秘孔を突く普通のプログラム動かないのはほぼ 100% 分のせい規模並列分のせいとえない不具合は常茶飯事並列プログラムは気をつけないと良く刺さるうっかり何かを刺さないうっかり秘孔を突かない

25 良くある刺さり前のプロセスがうまく終了せず後続のプロセスが影響を受けて死ぬ分かりやすいケースプロセスの未終了ゾンビ化原因が良く分からないケースも多い ( プロにも良く分からないことも ) 全く動かない ( これは良い死に ) 死にいろいろ最初から遅い ( これもまだ良い ) 通信がときどき数秒 10 秒程度まるしばらくすると遅くなる ( こういうのが困る ) しかも数時間待ったら勝に治る ( ことも )

簡単なツバメの刺し 26 1, ランダムな相と通信 ( 数秒以上 ) 2, 特定の 1 ノードから残り全てへ通信 3, もう 1 回特定の 1 ノードから残り全てへ通信

簡単なツバメの刺し 27 1, ランダムな相と通信 ( 数秒以上 ) 2, 特定の 1 ノードから残り全てへ通信 3, もう 1 回特定の 1 ノードから残り全てへ通信

簡単なツバメの刺し 28 1, ランダムな相と通信 ( 数秒以上 ) 2, 特定の 1 ノードから残り全てへ通信ここでまる数秒 10 秒 3, もう 1 回特定の 1 ノードから残り全てへ通信これには数ミリ秒ざっぱな回避策としては通信の集中を避けること send/recv ペアに枝を張って作るグラフが最次数が低く直径がさく hot-spot がない betweenness centrality がい場所がない

通信がまる現象現象としては MPI_Iprobe が数秒ブロックする ( 通常は 2 3 マイクロ秒で終了する ) さらに同時に malloc がブロックすることも HPC 分野の専家もあまり知らないそもそも MPI_Iprobe を分で呼ぶが少ない普通は MPI_Recv などの内部で使われている 29 推測される原因と背景 Infiniband の RDMA (Remote Direct Memory Access) に伴う何らかの thrashing と推測される RDMA のために Infiniband カードは独のメモリ変換テーブルを持つ実体はホストメモリ上にあるまた malloc も独の物に置き換える詳細はドライバを読む? 専家に協を依頼中

分散ハッシュを利する法もライブラリ化したい今後の課題 30 ハッシュ関数で分散ハッシュ関数は問題依存性能のためにはここに介したい DFS ほど由がない DFS では work stealing の対象は由 Hash distributed A* などではそうはかない理想的には適切なハッシュ関数の動成動的な変更しかしこれはかなりチャレンジングアイデア刺さないために余分な通信をうなど 2-hop, 3-hop しても良いことにするなど

より規模にある程度は成功 DFS 1,175 倍 (1,200 コア ) MCTS 3,200 倍 (4,800 コア ) ただしまだ規模ネットワークが速い (full bisection) 普通の CPU (Xeon) 実際のトポロジを無視し通信パターンのグラフだけ夫すれば分な規模 HPC の専家の知が求められるより規模な探索問題を解く物性科学や命科学の組合せ最適化例熱伝導率最化 / RNA 構造発数値制約充問題による精度保証求解より規模な環境を指す 3D torus, TOFU ( 京 ) 等 Many-core アーキテクチャハードウェアミドルウェアに負担をかけないアルゴリズムたとえば実際のトポロジに即した通信パターンを動的に成アルゴリズムに都合が良く実現可能なトポロジの提案 ( ランダムエッジを少数追加など ) 耐故障性のある探索

32 おまけ : 並列探索ハッカソン並列統計的パターンマイニングを github で公開中 MP-LAMP https://github.com/tsudalab/mp-lamp これを元に並列 DFS をやるための解説会 & ハッカソン的なことをやりたいと思っています以下の様な歓迎頻出パターンマイニング界の探索の私のメリット意収集参加者のに提供できるメリット並列探索の理解?

並列探索ライブラリの提案 美添 樹 (Kazuki Yoshizoe) 基盤 (S) 離散構造処理系プロジェクトセミナー 2017 年 2 21

並列探索ライブラリの提案美添樹 (Kazuki Yoshizoe) 基盤 (S) 離散構造処理系プロジェクトセミナー 2017 年 2 21