並列計算 - PDF 無料ダウンロード

OS 系低レイヤな人のための Transputer とか CSP Occam Erlang 2011/MAY/22 ( 訂正版 2) たけおか 1

前置き本筋とまったく関係ない 2

代表的な排他制御 / 同期のプリミティブセマフォ (semaphore) セマフォが得られれば資源の使用権を得られたと考えるオランダ人の Dijkstra( ダイクストラ ) の発案 P/V (Wait/Signal) 命令が基本 Wait でセマフォを得る /Signal でセマフォを返す腕木信号の用語しかもオランダ語 1bit のバイナリセマフォカウンティングセマフォ ( カウンタが 0 でなければ資源を使用可能 ) mutex はセマフォの一種モニタ (monitor) きわどい領域を一つの手続きにしそこに一人 ( または許された数 ) しか入れないようにシステムが制御 Java が採用バリア (barrier), ランデブー (rendezvous) 全員がそろうまで待つその他交換変数 (Exchange) などもあるがあまり知られていないプリミティブ待ちには spin lock などもある 3

より低位な排他制御 / 同期のプリミティブ test and set 命令メモリの内容をアトミックに書き換え書き換え前の状態をテストするセマフォを test and set 命令で実現するでもそれがそのままプロセスの待ちに使用できるか? Read modified write 命令である load-store アーキテクチャの RISC システムにそんなものはない CISC には好んで付けられた LL/SC (Load and Link/Store Conditional) 命令 ( 近代的な ) キャッシュメモリの機能使用法 1) load link を行って古い値を得る 2) 権利が得られそうか? 得られなければもっと違うレベルの待ちへ 3) 更新する値を作る 4) SC で新しい値を書き込む 5) SC の結果が失敗であれば 1 へ LL はキャッシュに CPU コアからのアクセスがあったことを記憶 SC の実行前に他の CPU コアで LL アクセスがあれば SC が失敗するキャッシュ同士が LL アクセスがあったことを通信する 4

小規模マルチコア SMP,AMP SMP 対称型マルチプロセッササーバなどで昔から一般的な並列計算機キャッシュの一貫性 ( キャッシュコヒーレンシ ) があるコア演算ユニットコア演算ユニットコア演算ユニット AMP 非対称型マルチプロセッサキャッシュの一貫性が無いキャッシュを意識してコア間のデータのやりとりを行わねばならないコア演算ユニットコア演算ユニットコア演算ユニットキャッシュキャッシュキャッシュキャッシュキャッシュキャッシュキャッシュはすべて独立メインメモリキャッシュ同士が裏で通信するメインメモリ 5

小規模マルチコア LL/SC LLはキャッシュにCPUコアからのアクセスがあったことを記憶 SCの実行前に他の CPUコアでLLアクセスがあれば SCが失敗するキャッシュ同士が LLアクセスがあったことを通信する 1)LL コア 6)SCしたら切れてるやんけっ!! 演算ユニットキャッシュコア演算ユニット 3) 別なCPUが LL キャッシュコア演算ユニットキャッシュ 2)LL したよブロードキャスト 5) ああよそで LL された link 切ろう 4)LL したよブロードキャスト 6

この辺りから本題 7

RPC RPC: Remote Procedure Call 遠隔手続き呼び出し遠隔にある手続きを同期的に呼び出す遠隔の手続きは仕事が終わると返り値をもどす同期的呼ばれた側の仕事が終わるまで呼び出し側は止まるバグが出にくい素朴な実装の場合呼ばれる側の関数は同時に複数入ってこないため簡単で良い ( 再入可能性の検討など不要 ) 非同期的呼ばれた側は呼び出し側と無関係に仕事を進める終了の通知方法は? 仕事の結果を置く場所は? 呼び出し側は正しくハンドリングするか 8

シーケンシャルなプロセスの集まりで仕事をするサーバは非決定的マージを行う P3 P2 戻り値戻り値要求戻り値要求キュープロセス P1 受信待ちガード1 実行 1 ガード2 実行 2 シーケンシャルなプログラム ( プロセス ) の集まりで仕事をする主に RPC を用いて 9

チャンネル通信 CSP (Communicating Sequential processes) Hoareが考えたチャンネルで通信する普通のプログラム排他制御の問題とか出ない RPCに近い CSPは戻り値もチャンネル通信で返さねばならないがデッドロックが起こりにくいデッドロック発生の検出が容易 committed choice( コミッティドチョイス ) 言語 Erlang 2008 年頃から若者に流行中チャンネル通信 & コミッティドチョイスパターンマッチングはProlog 風つーか Unification Unification( 単一化 ) はパターンマッチングと変数の双方向代入 10

CSP, Occam, Erlang CSP をもとにした現実システムがある Occam プログラミング言語最近の TCP コネクションごとに thread を貼り付けるのも近い考え Transputer Occam と同時に考えられたハードウェア CPU をトランジスタのごとく並べて使用 4~8 本のシリアル通信ハードウェアを持つその CPU を 2 次元のメッシュ状に配置 1990 年前後に 4~16 並列ぐらいの浮動小数点演算の速い機械として流行 (C 言語でコーディング ) Inmos 社 ( 英 ) Transputer と Occam を実現して販売していた ST Micro 社に吸収された ST-10, ST-20 コアは Transputer 最近 Xmos 社として復活 Erlang Erlangを発明したのはエリクソン (ST Micro 社は関係ない発表時は誤っていた ) 11

Transputer: 大規模並列指向 CPU MPP: Massively Parallel Processors 大規模並列プロセッサ今半導体企業は組込み32bit CPU 程度の素のコアならば MPPがすぐにでも可能だと言っている 1チップに百 ~ 数百個のCPUが載る 1980 年代末期に Transputer というものがあったイギリス Inmos 社百個規模のコアを1ウェハに載せ並列計算するプログラミング言語は Occam 後にCなど Tranputerは MIMD 指向最近 Xmos 社として復活 12

Transputer: 大規模並列指向 CPU 1980 年代末期 Transputerというものがあった二次元メッシュ通信近傍の4つのCPUとシリアル通信論理的なチャンネル通信をそのままハードウェアに持ち込んだ 13

Transputer: ハードウェアでマルチタスク管理 CPUがハードウェアでプロセスを管理スケジューラをマイクロコードで実装プロセステーブルを CPU が管理レジスタのダンプ / リストアも全自動通信チャンネルを待つデータが来たらプロセスがアクティベートされるタイムアウトでプロセススイッチ timeslice 命令がある 14

Transputer: ハードウェアでマルチタスク管理 CPUがハードウェアでプロセスを管理スケジューラをマイクロコードで実装プロセス管理構造体 15

Transputer: ハードウェアでマルチタスク管理 CPU がハードウェアでプロセスを管理スケジューラをマイクロコードで実装 runp: run process endp: end process startp: start process stopp: stop process insertqueue: insert queue, run キューの先頭にプロセスを入れる通信チャンネルを待つ altwt : alt wait, 複数のチャンネルを待ちどれかにデータが来たらプロセスがアクティベートされるタイムアウトなどでプロセススイッチ timeslice: timeslice を起こす jump 命令でスケジューリングを起こす 16

Committed choice ガードを設けてガードを超えたものが実行を開始する CSP /Occam 通信もガード条件の一種 GHC: Guarded Horn Clause 上田さんが考えた AND 並列 Prolog の一種 Prolog の節のコミットバー! までをガードとする GHCではコミットバーはガード記号と呼ばれるチャンネル通信をしていると考えるべし通常はバックトラックしない受信とコマンド解析 & ディスパッチを同時に行う 17

ALT Occam のプログラム断片例 input1? packet output! packet input2? packet output! Packet この辺がガードと言える ALT が ComminttedChoice の指定プリミティブ複数の候補のうちガード ( 上記では受信 ) を満たした先着の一つだけが選ばれその実行部が実行される Occam のガードは通信しか書けない 18

Erlang エリクソンがハードウェア設計 / 検証のために作ったと言われている変数を使用したチャンネル通信ガードがありガードを超えた節が排他的に実行されるパターンマッチングにユニフィケーションを使用節のヘッドでのパターンマッチングは prolog のようだが実行の意味は違う型がない関数呼び出し時にパターンマッチングする言語としては ML が有名だが ML は強い型の言語テレコムアプリケーションを書いた実績あり 19

Erlang のプログラム例 rcv_messages() -> receive {foo, X} -> io:fwrite( foo~n"), ture; {bar, X} -> io:fwrite( bar~n"), ture; rcv_messages(). ここがガードガードは -> の直前まで receive の受けの部分は単純変数, 定数タプルなどのパターンが書ける. 単純変数を書くと Occam などのチャンネルからの受信変数になる 20

チャンネル通信 (FIFO)/RPC を使おう 2010/APR/25 追記チャンネル通信 (FIFO) や RPC チャンネル通信や RPC を実行するもの ( タスク ) の静的な依存関係だけでデッドロックの発生がわかる複雑なシステムでも容易にデッドロックの解析ができるそもそもデッドロックが起きるように書きにくい形式的手法になじむ要求キュー要求キュー要求キュー駄目 ( デッドロック ) がすぐ判るこの例では三すくみ (RPCじゃないし 21)

RPC 指向の言語の排他制御 1 つのシーケンシャルプロセスに資源を持たせそのプロセスのみが資源をアクセスするいわゆるサーバサーバに資源を持たせれば排他制御の問題は起こらない何でもかんでも安全というわけではない例えばサーバの中から別なサーバを呼び出すようなことをするとデッドロックが起きるかも知れない広い意味でモニタを構成しているとも考えることができるメッセージパッシングするオブジェクト指向風モニタ 22

リンク Transputer ST20-C1 Instruction Set Reference Manual http://www.datasheetcatalog.org/datasheet/sgsthomsonmicroelectronics/mxqxtvr. pdf ST20C2/C4 Core Instruction Set Reference Manual http://www.transputer.net/iset/pdf/st20core.pdf OCCAM ST20C2/C4 Core Instruction Set Reference Manual http://www.wotug.org/occam/documentation/oc21refman.pdf 23

マルチコア時代の並列 24

小規模並列小規模マルチコア + ソフトウェアのマルチスレッド MIMD 複数命令ストリーム複数データストリーム Multiple Instruction stream Multiple Data stream CPU コアの数に関わらずスレッドは作れる単純な作業を複数起動可能で無い限り大きな並列度を引き出すことは難しい CPU コア数が大きくなるとコアを使いきれない 25

小規模 ~ 中規模並列計算に規則性があると楽 GPU 計算 Intel AVX, ベクトル計算も並列計算データ並列 SIMD 計算のデータ列が長い版 SIMD: 単一命令ストリームマルチデータストリーム Intel AVX はベクトル計算機構 = ベクトルスパコンと同じ GPU 計算ベクトル計算はデータの配置が重要コアを渡るデータの交換は大規模計算のネックスパコンはコアや機械を渡るデータの交換が速い 26

大規模並列半導体企業は MPP がすぐにでも可能だと言っている MPP: Massively Parallel Processors 大規模並列プロセッサ 1 チップに百 ~ 数百個の CPU が載る 1980 年代末期に Transputer というものがあったイギリス Inmos 社百個規模のコアを 1 ウェハに載せ並列計算するプログラミング言語は Occam 後に C など最近 Xmos 社として復活 Tranputer は MIMD 指向 27

大規模並列大規模並列は色んなソフトウェア ( スレッド ) を動かす方法ではコアを使いきれないスパコンは 6 万 5 千 CPU 程度が普通 MPI などは一様な同じソフトウェアで駆動ベクトル計算のデータを分割して各コアにばらまいて計算しているサーチエンジンなども同じプログラムでデータが異なっている Google で有名になった Map&Reduce も 1980 年代末期からある Connection Machine (1983 年 ~) でメジャーに 28

大規模並列大規模並列は色んなソフトウェア ( スレッド ) を動かす方法ではコアを使いきれない昔は SIMD 命令フェッチユニット命令デコーダなどはシステムに一つスパコンは 6 万コア以上が普通 MPI などは同じソフトウェアで複数のデータを同時処理 SPMD Single Program Multiple Data stream ベクトル計算のデータを分割して各コアにばらまいて計算している 29

並列向き言語について 30

関数型言語並列計算向き言語 Erlang 非常に流行中副作用が無い他のスレッドと干渉が無い並列向き竹岡は時代錯誤と考える今はコンパイル技術で関数型言語と同じ性質が得られるコードの解析は関数型言語で書かなくとも行える Occamによく似たパラダイムで動くチャンネル通信コミッティドチョイスチャンネル通信はたちがいいホーアのCSP とオシャレ ( ぶった ) 若者に言われているが大規模な並列度が出せるか??? 31

関数型言語並列計算向き言語 Erlang と言われているが大規模な並列度が出せるか??? 本当は SIMD, SPMDなものでないとコアを使いきれないのでは? MIMD, MPMD で 200 コア回せるの??? CSP, Erlang 系の言語は入力を待っている方が多いのでは??? 32

並列計算向き言語 SIMD, SPMDなものがいい (?) OpenMP Cソースにpragmaをつけるなんとなく thread が生成され並列実行され join する MPI クラスタスパコンの定番クラスタ計算機 : 同じ部屋 ( 高速接続 ) で分散計算 (TSUBAME は物理的に遠いサイトも接続異色 ) 言語ではなく通信 / 同期ライブラリ言語は Fortran, C を使用 33