Microsoft PowerPoint 自動チューニング姫野.ppt

Size: px

Start display at page:

Download "Microsoft PowerPoint 自動チューニング姫野.ppt"

ゆたかむらかわ
5 years ago
Views:

1 ペタスケール時代のソフトウェア開発に向けて理化学研究所姫野龍太郎

2 内容 1. ペタスケール時代の計算機ハードウェア 2. どんな計算が出てくるのか 3. ユーザーのプログラムに必要なこと 4. 計算機側で用意するソフトに必要なこと 5. エクサスケールを見据えたソフトウェア開発 a. International Exascale Software Project b. 何をなすべきか

3 1. ペタスケール時代の計算機ハードウェア

4 1) Worldwide trend ISC 08

5 1.0Peta FLOPS を最初に実現した Roadrunner (08 年 No.1 in Top500)

6 Roadrunner 電力消費が小さい!! 483m 2 コンパクト!!

7 Bell の法則?

8 新たな潮流の登場 Embedded/ Accelerated Commodity Cluster Custom Scalar Vector/SIMD

9 電力効率が話題に電力効率は Cell が Embedded よりも良い

10 新しいトレンド Accelerator Cell GPU GRAPE FPGA ClearSpeed Embedded BlueGene/L, BlueGene/P BlueGene/Q Accelerator Embeded Many Cores

11 NVIDIA Tesla 出典 :wikipedia

12 PC と Server Tesla の比較 (1) PC PC Server nvidia Tesla C1060 CPU Intel Core2 Duo E GHz single socket Intel Xeon X GHz x 2Sockets core 数 2 x 4 8 (4/Socket x 2 Sockects) x 周波数 2.93 GHz x GHz x GHz Peak Performance GFLOPS x GFLOPS x GFLOPS(SP) x GFLOPS(DP) 消費電力 250 W x W x W メモリ転送性能 DDR x 6 DDR (3channel/CPU) x 2 GDDR GB/s 51.18GB/s 102GB/s 価格 ( 姫野が見積もったもの ) 約 6 万円約 100 万円約 8 万円

$PC と Server Tesla の比較 (2) 価格性能比 (GFLOPS/\k) 電力性能比 (GFLOPS/W) PC Intel$ 134 GPGPU nvidia Tesla C1060 PC 比 Server 比 SP 11.663 29.9 124.4 DP 0.

13 PC と Server Tesla の比較 (2) 価格性能比 (GFLOPS/\k) 電力性能比 (GFLOPS/W) PC Intel Core2 Duo SERVER Intel Xeon X GPGPU nvidia Tesla C1060 PC 比 Server 比 SP DP SP DP 単精度の計算では非常に性能が高いしかし倍精度ではそれほど効果が高くない

14 GPU プログラムの問題 LU 分解のオリジナルプログラム ( 一部 ) GPGPU 版プログラム ( 一部 ) void kerneld( const Matrix<T, Z, C>& blockb, const Matrix<T, R, Z>& blockc, const Matrix<T, R, C>& blockd, Matrix<T, R, C>& result) { struct timeval tvs, tve; std::stringstream ss; int i, j, k; gettimeofday(&tvs,null); ss << tvs.tv_sec << "." << tvs.tv_usec << " kerneld" << R << " start." << std::endl; std::cerr << ss.str(); ss.str(""); } /* To make the code simpler, input matrix is copied to the output one first */ for(i = 0; i < R; i++) // row for(j = 0; j < C; j++) // column result.elementat(i, j) = blockd.elementat(i, j); /* Main loop of submatrix calculation */ for (i = 0; i < R; i++) // row for (k = 0; k < Z; k++) // column or row for (j = 0; j < C; j++) // column result.elementat(i, j) += blockb.elementat(k, j) * blockc.elementat(i, k); gettimeofday(&tve,null); ss << tve.tv_sec << "." << tve.tv_usec << " kerneld" << R << " finish." << std::endl; tve.tv_usec = tvs.tv_usec; tve.tv_sec = tvs.tv_sec; if( tve.tv_usec < 0 ){ tve.tv_usec += ; tve.tv_sec ; } ss << tve.tv_sec << "." << tve.tv_usec << " kerneld" << R << " used." << std::endl; std::cerr << ss.str(); ss.str(""); void kerneld( Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockd, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockb, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockc, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* result); extern "C" void* udoplu_d(void* parm) { uspade_udop_parm_t* uparm = (uspade_udop_parm_t*)parm; std::string blockdparm = " :10003"; std::string blockbparm = " :10001"; std::string blockcparm = " :10002"; std::string resultparm = " :10004"; for (std::map<std::string, std::string>::const_iterator it = uparm >parms.begin(); it!= uparm >parms.end(); it++) { size_t pos; while ( (pos = blockdparm.find(it >first))!= std::string::npos ) blockdparm.replace(pos, it >first.length(), it >second); while ( (pos = blockbparm.find(it >first))!= std::string::npos ) blockbparm.replace(pos, it >first.length(), it >second); while ( (pos = blockcparm.find(it >first))!= std::string::npos ) blockcparm.replace(pos, it >first.length(), it >second); while ( (pos = resultparm.find(it >first))!= std::string::npos ) resultparm.replace(pos, it >first.length(), it >second); } InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockdport(blockdparm); InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockbport(blockbparm); InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockcport(blockcparm); OutSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > resultport(resultparm); Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockd; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockb; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockc; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> result; while ( uparm >active ) { if ( uparm >active ) blockdport.receive(blockd); if ( uparm >active ) blockbport.receive(blockb); if ( uparm >active ) blockcport.receive(blockc); struct timeval tv_st, tv_ed; gettimeofday(&tv_st, NULL); if ( uparm >active ) kerneld( &blockd, &blockb, &blockc, &result); gettimeofday(&tv_ed, NULL); printf("kernel fired!! (at %f in msec, %f [msec] to process kernel) n", (double)tv_ed.tv_sec * (double)tv_ed.tv_usec / 1000, (double)(tv_ed.tv_sec tv_st.tv_sec 1) * (double)( tv_ed.tv_usec tv_st.tv_usec) / 1000); if ( uparm >active ) resultport.send(result); } return NULL; }

GPGPU アプリケーション開発環境 RIVER(Riken IBM Visual

部品ライブラリの中の部品を組み合わせるだけでプログラミングが可能ノード並列もサポート

15 GPGPU アプリケーション開発環境 RIVER(Riken IBM Visual Programming EnviRonment) GPGPUは高速だがその性能を引き出すには高度なプログラムのスキルが必要だれでも使えるように初心者向けのビジュアルプログラミング環境を日本 IBMと共同で開発中部品ライブラリの中の部品を組み合わせるだけでプログラミングが可能ノード並列もサポート GPUが使えるコンパイラも近々利用可能になる予定 PGIコンパイラー ( 現在ベータ版 ) 連立一次方程式の前処理プロセス :LU 分解の例

22 RIVER の現状と今後部品が優秀ならそこそこの性能今後は理研内のアプリに応用してテスト部品ライブラリーを整備 RIVER と部品ライブラリーをフリーフェアとして配布

23 2) Next Generation Supercomputer Project Japan

24 Schedule of Project FY2006 FY2007 FY2008 FY2009 FY2010 FY2011 FY2012 Processing unit Conceptual design Detailed design Prototype and evaluation Production, installation, and adjustment System Applications Buildings Front-end unit (total system software) Shared file system Next-Generation Integrated Nanoscience Simulation Next-Generation Integrated Life Simulation Computer building Research building Development, production, and evaluation Design Basic design Basic design Design Detailed design Detailed design Development, production, and evaluation Construction Production and evaluation Construction Production, installation, and adjustment Tuning and improvement Verification Verification present

System Configuration Visualization system The Next-Generation

provides the optimum computing environment for a wide range of

Calculations will be performed in processing units that are suitable for

25 System Configuration Visualization system The Next-Generation Supercomputer is designed as hybrid general-purpose supercomputer that provides the optimum computing environment for a wide range of simulations. Calculations will be performed in processing units that are suitable for the particular simulation. Parallel processing in a hybrid configuration of scalar and vector units will make larger and more complex simulations possible.

network 128GFLOPS/socket, Fujitsu SPARC64 VIIIfx

26 NGSC: 10Peta Supercomputer Scalar computer system Jointly developed with Fujitsu Newly designed Processor and network 128GFLOPS/socket, Fujitsu SPARC64 VIIIfx microprocessor 8cores/socket Network: 3D improved torus Improved 3D torus

27 Photographs of the facilities 2009/02/ /03/ /04/ /09/17 Schedule of Completion: End of May, 2010

28 2. どんな計算が出てくるのか

29 From IESP workshop #3 Rick Stevens, Argonne

31 ペタフロップス超級 SuperComputing が待たれている世界マルチスケールマルチフィジックスな系全体の統合シミュレーションデジタルエンジニアリング Feature scale Reactor scale Atom, Molecule Electron, Nucleus 核融合生体分子ネットワーク人間系全体解析血流解析ナノマシン設計タンパク質発病メカニズム解析地球の誕生分子構造結合能解析 ( 創薬 ) 都市環境設計 / 地域防災銀河の形成地震動予測噴火予測宇宙の誕生マントル対流気候変動予測溶岩流シミュレーション

32 ターゲットアプリケーションとベンチマークアプリ検討部会 ( 大学研究機関や企業の委員 27 名で構成 ) で5 分野から21 本のアプリを選定 (2006 年 1 月 ~3 月 )

33 NextBMT と Peta scale BMT(1/2) Peta-scale BMT 分野生命科学ナノプログラム名概要 SimFold タンパク質立体構造の予測 GNISC 遺伝子発現実験データからの遺伝子ネットワークの推定 MLTest オーダーメイド医療実現のための統計的有意差の検証 MC Bflow 血流解析シミュレーション sievgene/mypresto タンパク質薬物ドッキングシミュレーション ProteinDF 巨大タンパク質系の第一原理分子動力学計算 GAMESS/FMO FMO 分子軌道法計算 Modylas 高並列汎用分子動力学計算ソフトウェア RSDFT 実空間第一原理分子動力学計算 RISM/3D RISM 溶液内タンパク質の電子状態の3D RISM/FMO 法による解析 PHASE Octa 平面波展開第一原理分子動力学解析粗視化分子動力学計算

34 NextBMT and Peta scale BMT(2/2) 物理天文地球物理工学 LatticeQCD NINJA/ASURA NICAM Seism3D COCO Cavitation LANS FrontSTR FrontFlow/Blue 全球雲解像大気大循環モデル Peta-scale BMT 格子 QCD により素粒子の強い相互作用の第一原理計算惑星が形成される過程を粒子や粒子ガスの複合シミュレーション地震波動の伝播を運動方程式応力 - 歪みの構成方程式の 2 つの差分法で計算全海洋を超高解像度で表現し全球規模の海洋大循環と局所的な海況変動を同時に詳細に再現キャビテーションモデルおよび乱流モデルによって両方の現象が絡んだ流れを計算航空宇宙機全機周りで発生する乱流遷移の予測と遷移に至る流れメカニズムの解明を行う有限要素法による構造解析プログラム ( 静解析非線形解析動解析熱伝導解析 ) 乱流現象の高精度予測が可能である Large Eddy Simulation に基づく流体解析コード

35 ライフサイエンス分野が今後の注目アプリ 35

36 1) サイエンスにおけるインパクト生命現象は最も複雑な解き明かすべき課題複雑で美しい振舞いを示す超多体系多階層問題分子のレベルすら量子化学計算分子動力学計算粗視化モデルなどの複数の階層で取り扱う必要がある分子細胞組織臓器の多階層 : 精緻な粗視化によるモデル化が必須 - 個々の要素は急速に解明が進展 - ライフサイエンスでの課題は個々の要素現象の発見理解から互いに関連する複雑な現象の統合的かつ定量的な理解へと進化世界的に計算科学的アプローチの必要性が叫ばれている現象を記述する生物学から新たな現象を予測できる生物学へ Metabolic pathway map この挑戦は 21 世紀のサイエンスの最重要課題 10-8 Micro 10-5 Meso 10-3~-2 Macro

37 2) 社会的インパクト高齢化社会の到来と医療の質の向上が期待生命現象の統合的理解と予測性によって病気の理解が進み診断治療に貢献健康を維持するための生活機能性食品や補助食品の開発医薬品の開発 + 新薬開発 N O N N N 従来からある医工学的シミュレーション技術を発展医療応用 - 治療機器開発 : 重粒子線治療高集積超音波治療 - 術前検討トレーニング : 内視鏡手術血管内治療事故損傷の軽減防止 - 従来のダミーモデルから筋骨格血管内臓を備えた高精密人体モデルによる衝突シミュレーション - 各種保護具の設計リハビリや補助具の設計検討重粒子線治療高密度超音波治療装置血管内治療 37

38 3) ライフサイエンス分野と他の研究分野の比較計算シミュレーションミクロ : 原子分子スケールマクロ : 臓器全身スケールでは基礎方程式が存在この分野を中心にこれまで発展これまでは分かっていることの確認実証が主やっと新しいことに挑戦できるようになってきた!! 生命現象の根幹を担う細胞での現象では基礎方程式がまだない特に発生分化病気免疫進化などでは今は無力実験研究 - ハイスループット実験機器遺伝子組み換え技術蛍光技術一分子イメージング次世代超高速シーケンサーなど実験技術が急速に進歩 - 生命現象の個々の要素は急速に解明が進展一方で複雑に絡み合い隠れた代替機構のある現象を理解し予測するためには計算科学的手法が切望他の分野と比較するとライフサイエンス全般ではこれまで計算科学の応用範囲は限定的しかし今やっと解け役に立つところまで来た!! 有望な新規応用問題が多数世界中で同じ状況 : 今取り組めば日本が世界をリード可能 38

39 39 ライフサイエンス分野における計算科学研究開発の世界の現状

40 40 1) 世界的な研究の中心は三極 : アメリカと欧州 (+ 豪州ニュージーランド ) 日本アメリカ :DoE NIH DoD 民間企業 ( ベンチャー製薬企業 ) が主 DoE が基礎科学 ( 生物学 + 計算科学 ) NIH が医療を担当するため互いの協力は希薄計算科学と医療をつなぐ動きがない欧州 :EU がスポンサーとなり IT 技術を医療に生かす取り組みを推進一例 :VPH(Virtual Physiological Human) 個別患者の治療が目標大学医療機関製薬企業医療機器メーカーが参加マッチングファンド 5 年で数百億円規模脳科学ではスイスが BlueBrain プロジェクトを推進世界をリード

2) 海外での研究開発の今後の方向世界的に取り組まれているのはタンパクの構造や変化などの解析大量の実験データに基づく多次元因子解析など

NIHもEUでも二つ以上のスケールをつなぐ研究開発にファンディング日本はグランドチャレンジとして既にマルチスケールに挑戦

edu/ 欧米では医療機関で使うことを前提に簡略化したモデル化 ( 脳科学では例外的にスパコンを指向 ) 戦略分野化で日本が世界に貢献

41 2) 海外での研究開発の今後の方向世界的に取り組まれているのはタンパクの構造や変化などの解析大量の実験データに基づく多次元因子解析など現在の研究開発でホットな話題はマルチスケール NIHもEUでも二つ以上のスケールをつなぐ研究開発にファンディング日本はグランドチャレンジとして既にマルチスケールに挑戦方程式に忠実にモデル化しスケールを超える膨大な計算量は次世代スパコンで解消欧米では医療機関で使うことを前提に簡略化したモデル化 ( 脳科学では例外的にスパコンを指向 ) 戦略分野化で日本が世界に貢献 /cf/itemdetail.cfm?item_id=

分子スケール 3) 国際比較における日本の現状アメリカは超並列計算で先行専用計算機 (MD GRAPE) による計算粗視化モデルによる計算全電子を入れたタンパク質の量子化学計算では日本がリード細胞スケールシステムバイオロジー (E cell 等 ) は日本発細胞群から臓器へ分子から細胞へのアプローチはどこもこれから

42 分子スケール 3) 国際比較における日本の現状アメリカは超並列計算で先行専用計算機 (MD GRAPE) による計算粗視化モデルによる計算全電子を入れたタンパク質の量子化学計算では日本がリード細胞スケールシステムバイオロジー (E cell 等 ) は日本発細胞群から臓器へ分子から細胞へのアプローチはどこもこれから全電子計算では世界をリード (ProteinDF) 臓器全身スケール国際的な研究開発体制が構築されつつある日本は心臓モデル健常者からの詳細人体モデルでリードバイオインフォマティクス個人の多様性と医療をつないでゆくところでは日本は優位次世代超高速シーケンサー等による巨大データに直面世界的な課題粗視化モデルによる分子モータ心臓 42

開発を加速次世代スパコンで世界をリードする絶好の好機ライフ分野で戦略分野をたてることが必要

43 3) 国際比較における日本の現状 ( 続き ) ライフサイエンスのグランドチャレンジでは数万並列規模の計算能力をもったソフトウェア開発が進行中今後次世代スパコンに向けた並列性能向上を加速分子細胞臓器全身の各スケールと実験データ解析脳神経系を統合して研究開発世界的にも全くない試み同時に行うことにより手法やソフトを互いに利用し開発を加速次世代スパコンで世界をリードする絶好の好機ライフ分野で戦略分野をたてることが必要チーム間の連携全電子計算での並列性能 (ProteinDF) 2500 コアまでの並列を確認脳の局所回路シミュレーションでの並列性能 (BlueGeneL で 1000 並列までの速度向上を確認 ) 43

44 44 3) ライフサイエンス分野のさらなる展開今後の生命科学が目指す重要課題 a) 生命現象のシステムとしての統合的理解 ( 実験も計算も ) b) シミュレーションによる予測 c) それに基づく制御 d) 有用な生命システムの設計これらの解決をバイオスーパーコンピューティングで挑む具体的な研究開発領域としては分子 : マルチスケールシミュレーション ( 例 1) 生命量子化学研究構造生物情報学研究合成生物学 : 細胞システムの制御設計のためのシミュレーション細胞 : 生化学ネットワークシミュレーション構造形体ダイナミクスのシミュレーション ( 例 2) 大規模生命データ解析 : 大規模な遺伝子発現データによるネットワーク解析メタゲノム配列データ解析 XFEL による散乱イメージ解析による分子構造決定各種外科手術内視鏡手術のシミュレーション治療機器のシミュレーション事故時の傷害等のシミュレーション ( 防護器具開発 ) 脳の局所回路モデルの大規模シミュレーション脳の構造決定機構の解明のためのシミュレーション ( 微細配線構造を決定するソフトウェア開発神経細胞構造回路形成のダイナミクスのシミュレーション全脳レベルの情報処理環境適応機構のシミュレーション : 例 3)

具体例 (1) 次々世代計算機をめざした分子シミュレーション 2009 年 100Tera 現在 : 全電子 (QM)

蛋白質内での酵素反応サイクルの第一原理動力学計算 2017 年 1Exa 1000 倍以上の演算量の増加を 100

生体超分子複合体に関するミリ秒以上の分子動力学計算 ( 生体の速い反応が初めて計算可能 ) 次次世代 :

アルツハイマー病の原因と考えられているアミロイド凝集機構の解明分子モデル ( 構造予測 )

45 具体例 (1) 次々世代計算機をめざした分子シミュレーション 2009 年 100Tera 現在 : 全電子 (QM) あるいは QM/MM 計算に基づく蛋白質構造変化の解析 ( ナノ秒以上 ) 例 ) 蛋白質内での酵素反応サイクルの第一原理動力学計算 2017 年 1Exa 1000 倍以上の演算量の増加を 100 倍のスパコン性能向上と計算アルゴリズムの改良で実現 2012 年 10Peta 次世代 : 生体超分子複合体に関するミリ秒以上の分子動力学計算 ( 生体の速い反応が初めて計算可能 ) 次次世代 : 分子シミュレーションから細胞の動態解析へ ( 秒から分 ) 例 ) アルツハイマー病の原因と考えられているアミロイド凝集機構の解明分子モデル ( 構造予測 ) 細胞外でのアミロイド繊維の蓄積大規模計算モデル粗視化分子力場の改善 QM/MM 法による長時間動力学自由エネルギー評価法 1000 倍の演算量の増加 :100 倍の性能向上 + 計算方法の改良例 ) 生体超分子複合体の長時間分子シミュレーションの実現モデルの粗視化系の大規模化計算の長時間 ( 秒から分 ) 蛋白質の変化が細胞に及ぼす影響

2009 年 ~20Giga FLOPS 具体例 (2) 細胞シミュレーションの展開現在 :

細胞あたり約 200 酵素反応 400 代謝物数秒間の反応を計算 PC1 台で数分間 10 6

~10Peta FLOPS 次世代 : 細胞内の不均一な場を考慮したシミュレーション例 )

(100nm 分解能 ) 代謝反応拡散反応膜透過反応物質輸送反応 1 時間の反応を計算

構造形態のダイナミクスに関する基礎方程式の確立 2017 年 ~Exa FLOPS 次々世代

初期胚の形態形成生化学ネットワークシミュレーションと構造形態制御のシミュレーションの統合

組織再生のシミュレーションシミュレーションを利用した予測制御設計 TCR Kinase

46 2009 年 ~20Giga FLOPS 具体例 (2) 細胞シミュレーションの展開現在 : 細胞を 1 つの均一な空間と捉えたシミュレーション例 ) 代謝シミュレーション 1 細胞あたり約 200 酵素反応 400 代謝物数秒間の反応を計算 PC1 台で数分間 10 6 倍以上の演算量の増加 :~10 6 倍の性能向上 + 並列化効率化 2012 年 ~10Peta FLOPS 次世代 : 細胞内の不均一な場を考慮したシミュレーション例 ) 細胞小集団 ( 肝小葉 ) の代謝シミュレーション 100x100x100 ボクセル空間 (100nm 分解能 ) 代謝反応拡散反応膜透過反応物質輸送反応 1 時間の反応を計算 1000 倍以上の演算量の増加 :100 倍の性能向上 + 計算アルゴリズムの改良生化学反応構造形態のダイナミクスに関する基礎方程式の確立 2017 年 ~Exa FLOPS 次々世代 : 細胞内の不均一な場の中での単分子のダイナミクス細胞の構造形態のダイナミクスを考慮したシミュレーション例 ) 生化学統合シミュレーション胚発生のシミュレーション生化学反応ネットワーク ( 代謝反応シグナル伝達転写制御 ) の統合初期胚の形態形成生化学ネットワークシミュレーションと構造形態制御のシミュレーションの統合代謝病ガン免疫疾患再生医療などへの応用例 ) ガン化のシミュレーション組織再生のシミュレーションシミュレーションを利用した予測制御設計 TCR Kinase Adaptor protein Microcluster c-smac TCR ミクロクラスタによる抗原認識と活性化の制御赤血球の代謝シミュレーションゴルジ体の細胞内ダイナミクス初期胚の形態形成 46

47 3. ユーザー側のプログラムで考えなければ行けないこと 1) ハードウェアの前提

48 Petascale Computer in CPU: cores, GFLOPS/CPU 1 Peta FLOPS CPU だけ CPU 数 :8,000(128GFLOPS), 2,000(512GFLOPS) Core 数 :64, 万並列 1 Peta FLOPS with accelerator 100 GFLOPS : 800 CPUs(6,400cores) 1 PFLOPS : 800 accelerator boards 千 ~ 万の並列 + ヘテロプログラムアクセラレータの中はの並列

49 131, ,912 8,388,608 2,097,152 21,495,808 From IESP workshop #3 Rick Stevens, Argonne

50 速度向上比並列化できない部分の比率をsとすると並列化できる部分は (1 s) この部分はn 個のプロセッサで1/nの時間で実行可能並列化できない部分はいくつ使おうと同じ時間かかる実行時間はs+(1 s)/n この逆数が速度向上比アムダールの法則 s s n T 1P 10P

51 ごく普通のプログラムの典型的な並列性能 Euler 法固体流体連成ソルバ並列化性能 ( 杉山ソルバ ) 速度向上率 (64 並列時の速度を 1 とした ) 問題サイズを大きくすると性能が改善プロセッサ数

52 性能を出すために必要なこと並列並列並列 himenobmt の例計算と通信のオーバーラップ収束の判定を誤差ノルム最大値通信 + 集計ローカルに処理

53 himenobmt を使った性能測定 himenobmt とは非圧縮性の Navier Stokes 方程式のソルバーのカーネル ( 流体シミュレーション ) 物体適合格子を使った差分法カーネルは圧力のポアソン方程式のソルバー ( 元は SOR 法 )

54 himenobmt の特徴メモリーアクセスの特徴 14 個の 3 次元配列 1 つだけ再利用 13 個の配列は一度だけしか参照しないキャッシュが効かない性能のボトルネックはメモリーバンド幅 14 ストリームのデータ供給 : 高バンド幅

55 himenobmt のカーネルコード for (i=1; i<imax 1; i++) for (j=1; j<jmax 1; j++) for (k=1; k<kmax 1; k++) { s0 = a0[i][j][k] * p[i+1][j][k] + a1[i][j][k] * p[i][j+1][k] + a2[i][j][k] * p[i][j][k+1] 配列 P 差分ステンシルアクセス再利用 + b0[i][j][k] * (p[i+1][j+1][k] p[i+1][j 1][k] p[i 1][j+1][k] + p[i 1][j 1][k]) + b1[i][j][k] * (p[i][j+1][k+1] p[i][j+1][k 1] p[i][j 1][k+1] + p[i][j 1][k 1]) + b2[i][j][k] * (p[i+1][j][k+1] p[i+1][j][k 1] p[i 1][j][k+1] + p[i 1][j][k 1]) + c0[i][j][k] * p[i 1][j][k] + c1[i][j][k] * p[i][j 1][k] + c2[i][j][k] * p[i][j][k 1] + wrk1[i][j][k]; ss = (s0 * a3[i][j][k] p[i][j][k]) * bnd[i][j][k]; wrk2[i][j][k] = p[i][j][k] + omega * ss; } 他の 13 の配列点アクセス再利用無し

56 領域分割型の並列化での計算と通信のオーバーラップの例通常のプログラム計算と通信をオーバーラップさせたもの全計算点での計算袖領域の通信袖領域の計算内部領域の計算袖領域の通信先に計算して通信同期同期通信中に計算通信中に計算通信中に計算

57 通信と計算のオーバーラップの効果 2000 年 D 3D 3D+overlap HPF 計算と通信を同時に実行多次元分割 MFLOPS No. of CPU HPF は遅い CPU : P-III 450 MHz Node : 9 MEMORY : 128MByte HD : 4.8GByte (ATA-33) Network : 100Base 2 OS : Linux MPI : PGI Compiler MPICH Compiler : PGI Compiler Fujitsu Compiler

6 TFLOPS 3500 3000 2500 2000 G F L O P S

58 GPGPU による高速化の効果 100nodes 9.3 TFLOPS 100nodes+100boards TFLOPS G F L O P S x10 himenobmt (Size XL) Original vs. GPGPU version x9.9 x9.7 x10 x8.2 x ノード数 (GPU 数 ) 3.2TFLOPS with 96 Tesla 6.4TFLOPS with 8k cores

59 cuda によるプログラム例 LU 分解のオリジナルプログラム ( 一部 ) GPGPU 版プログラム ( 一部 ) void kerneld( const Matrix<T, Z, C>& blockb, const Matrix<T, R, Z>& blockc, const Matrix<T, R, C>& blockd, Matrix<T, R, C>& result) { struct timeval tvs, tve; std::stringstream ss; int i, j, k; gettimeofday(&tvs,null); ss << tvs.tv_sec << "." << tvs.tv_usec << " kerneld" << R << " start." << std::endl; std::cerr << ss.str(); ss.str(""); } /* To make the code simpler, input matrix is copied to the output one first */ for(i = 0; i < R; i++) // row for(j = 0; j < C; j++) // column result.elementat(i, j) = blockd.elementat(i, j); /* Main loop of submatrix calculation */ for (i = 0; i < R; i++) // row for (k = 0; k < Z; k++) // column or row for (j = 0; j < C; j++) // column result.elementat(i, j) += blockb.elementat(k, j) * blockc.elementat(i, k); gettimeofday(&tve,null); ss << tve.tv_sec << "." << tve.tv_usec << " kerneld" << R << " finish." << std::endl; tve.tv_usec = tvs.tv_usec; tve.tv_sec = tvs.tv_sec; if( tve.tv_usec < 0 ){ tve.tv_usec += ; tve.tv_sec ; } ss << tve.tv_sec << "." << tve.tv_usec << " kerneld" << R << " used." << std::endl; std::cerr << ss.str(); ss.str(""); void kerneld( Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockd, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockb, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockc, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* result); extern "C" void* udoplu_d(void* parm) { uspade_udop_parm_t* uparm = (uspade_udop_parm_t*)parm; std::string blockdparm = " :10003"; std::string blockbparm = " :10001"; std::string blockcparm = " :10002"; std::string resultparm = " :10004"; for (std::map<std::string, std::string>::const_iterator it = uparm >parms.begin(); it!= uparm >parms.end(); it++) { size_t pos; while ( (pos = blockdparm.find(it >first))!= std::string::npos ) blockdparm.replace(pos, it >first.length(), it >second); while ( (pos = blockbparm.find(it >first))!= std::string::npos ) blockbparm.replace(pos, it >first.length(), it >second); while ( (pos = blockcparm.find(it >first))!= std::string::npos ) blockcparm.replace(pos, it >first.length(), it >second); while ( (pos = resultparm.find(it >first))!= std::string::npos ) resultparm.replace(pos, it >first.length(), it >second); } InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockdport(blockdparm); InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockbport(blockbparm); InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockcport(blockcparm); OutSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > resultport(resultparm); Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockd; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockb; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockc; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> result; while ( uparm >active ) { if ( uparm >active ) blockdport.receive(blockd); if ( uparm >active ) blockbport.receive(blockb); if ( uparm >active ) blockcport.receive(blockc); struct timeval tv_st, tv_ed; gettimeofday(&tv_st, NULL); if ( uparm >active ) kerneld( &blockd, &blockb, &blockc, &result); gettimeofday(&tv_ed, NULL); printf("kernel fired!! (at %f in msec, %f [msec] to process kernel) n", (double)tv_ed.tv_sec * (double)tv_ed.tv_usec / 1000, (double)(tv_ed.tv_sec tv_st.tv_sec 1) * (double)( tv_ed.tv_usec tv_st.tv_usec) / 1000); if ( uparm >active ) resultport.send(result); } return NULL; }

60 これからの HPC プログラミング 1 万 ~10 万並列までスケールする高並列対応高速化は並列化領域分割等の分割数はパラメータ化最適値はマシン毎に異なる同じマシンでも実行環境で異なる? キャッシュを意識したプログラミングキャッシュブロッキングループアンロール : コンパイラーマター? アクセラレータを意識したプログラミング局所メモリーの活用が鍵いくつかのハードに対してそれぞれのプログラムを用意する必要本来は一つが望ましい

61 4. 計算機側で用意するソフトに必要なこと

62 千 ~ 万の並列 + ヘテロプログラム Petascale Computer in CPU: cores, GFLOPS/CPU 1 Peta FLOPS CPU 数 :8,000(128GFLOPS), Core 数 :64, Peta FLOPS 8 千 -100 万並列 No. of CPU:80,000, No. of cores:640,000 1 Peta FLOPS with accelerator 100 GFLOPS : 800 CPUs, 1 PFLOPS : 800 accelerator boards 10 Peta FLOPS with accelerator 1PFLOPS:8,000 CPU, 10PFLOPS: 8,000 accelerator boards

63 計算機サイドで必須のソフト CPU 数の増加により故障率が高まる故障時のリカバリー : チェックポインティング並列 I/O: 故障時の再計算のためのチェックポインティングが実行時に必須メモリー全体ではなく再計算に必要なデータだけをユーザーが指定することが現実的高並列のためわずかな揺らぎが性能に大きな影響 OS のジッタ実行時のばらつきを補うランタイムチューニング機種毎の違いを吸収する高機能ライブラリーコンパイラーと自動チューニング実行時の環境の違いを吸収最適化する自動チューニング

64 我々の取り組みプロジェクトリーダー : 姫野龍太郎 / サブリーダー : 伊藤祥司 APP: アプリケーショングループ Grpリーダー : 姫野生命体問題 Grpサブリーダー : 小野流体問題藤野電磁場解析中田量子化学計算岡本電磁場解析各アプリケーション問題求解に向けた検討協議 ALG: 求解アルゴリズムグループ Grpリーダー : 藤野 IDR(s) 法他 Grpサブリーダー : 阿部 CR 系統他今村並列計算, 固有値解法各アプリケーション求解問題特性データ形式の検討協議求解問題の特性情報の蓄積参照求解問題特性とアルゴリズム特性の性能情報 DB 求解アルゴリズムの特性情報の蓄積参照アルゴリズム特性データ形式の検討協議性能情報の分析, 分析結果の蓄積 MWI: 基盤ミドルウェア構築グループ Grpリーダー : 小野 SPHERE 構築, 問題特性ロギング検討 Grpサブリーダー : 伊藤 ( 祥 ) 性能情報 DBのデータ分析, データロギング方式検討片桐 ABCLib 組込み, ライブラリのロギング方式検討今村アルゴリズム性能情報ロギング検討中田 4 倍精度ライブラリ開発伊藤 ( 利 ) ジョブ管理方式検討

65 アプリケーション分野の研究者求解アルゴリズム特性性能情報計算サーバマルチプラットフォーム次世代スパコン (Peta.Com.) ジョブ実行結果返却アルゴリズム性能情報照会分析ジョブ実行アルゴリズム性能情報照会性能情報 DB 数値計算ライブラリ並列計算ライブラリ性能情報問合せ ABCLib スパコン PC クラスタ基盤ミドルウェア : 拡張 SPHERE

66 次世代スパコンをにらんで

67 役割日本アジアにおける計算機科学計算科学のハブセンターは HPC を利用する種々の学術応用分野のハブ計算科学研究機構次世代スパコンの運用登録機関とともに利用者支援普及活動物理次次世代の研究開発天文応用分野の研究開発気象大学とともに教育気候産業利用工学生命科学応用数学 COEセ可視化ンター開発者支援ナノ地球科学航空宇宙原子力計算機科学

68 本当に必要なことプログラミングは優しく誰にでもできて性能が出ることパソコンからスパコンまでスケールすること難しいところは見せない

69 世界は既に EXA に向けて動いている

70 Exa に向かうハードウェア

71 まとめ PetaFlops 時代は既に始まっているハードとしては数万から数十万の並列が必須キーワード : ヘテロ環境対応チェックポインティング負荷分散実行時最適化このためのライブラリーツール類の整備が必要 : 自動チューニング etc. 世界的には EXA に向けて準備が進んでいる

Microsoft PowerPoint - SS研200911姫野_最新.ppt

Microsoft PowerPoint - SS研200911姫野_最新.ppt 3.5 世代 PCクラスタを中核とする理研 RICC: その狙いと現状今後理化学研究所情報基盤センター内容 PCクラスターの歴史 Top500の新たな潮流 GPGPUの特徴第二世代 PCクラスタ :RSCCの狙いとその結果第 3.5 世代 PCクラスタ :RICCの狙いと現状今後 PC クラスターの歴史と最近の潮流 PC クラスタヒストリー第一世代 :Beowulf 型個人第二世代