最新の並列計算事情とCAE - PDF 無料ダウンロード

1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE

アウトライン最新の並列計算機事情と CAE 世界一の性能を達成した京についてマルチコアメニーコア GPU クラスタ最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京については仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますがなるべく技術的な視点でお話しさせていただきますのでご勘弁願います 2

最新の並列計算機事情京先日発表された TOP500 ランキングにて一位を達成世界一のスーパーコンピュータなのか? 京実物の写真 ( 理研の web ページから ) No.1 の証書を渡された渡辺氏と佐相氏 ( ドイツハンブルクの ISC2011 にて撮影 ) 3

4 TOP500 スーパーコンピュータのランキング半年ごとに更新 6 月の ISC と 11 月の SC にあわせて発表される旧地球シミュレータが連続 5 期も君臨したためにアメリカが本気になったことは有名指標は LINPACK ベンチマークの性能密行列計算主に行列積の性能が影響する主に CPU 性能 ( 浮動小数点演算性能 ) が反映されるすなわち TOP500 で一位 ( 上位 ) にランキングされてもどんな計算でも高速にできるわけではない CPU が強力であることはわかるシステムが安定して動くことがわかる ( こともある ) ストレージが重要な場合は? 整数演算性能は? 疎行列系 ( キャッシュが利かない ) は? 京のNo.1は喜ばしいがそれが全てではないことを知っておいて欲しい

5 TOP500 List - June 2011 (1-10)

京の概要全体構成 CPU 数 :8 万以上 CPU コア数 :64 万以上ピーク演算性能 :10PFLOPS 以上 http://www.nsc.riken.jp/project/spec.html に基づき作成全ての CPU を同時に動かして得られる理論上の最大性能メモリ総容量 :1PB 以上 ( ノードあたり 16GB) プロセッサ構成 8 コア SPARC64VIIIfx 富士通がカスタマイズした SPARC プロセッサ 16GFLOPS 8 コア =128GFLOPS プログラミング環境 Fortran, XPFortran, C/C++( 少なくとも ) 主な想定はノード内自動並列化 + ノード間 MPI( のはず ) 6

疑問私たちも京を使えますか? ( 使えるルートはありますが ) 難しいでしょう主なユーザは戦略 5 分野のメンバーとなります分野 1 予測する生命科学医療および創薬基盤分野 2 新物質エネルギー創成分野 3 防災減災に資する地球変動予測分野 4 次世代ものづくり分野 5 物質と宇宙の起源と構造もし京を使えたら手持ちのアプリケーションは速く動きますか? 一部の例外はありますが困難ですもちろん単体プロセッサ ( 単体ノード ) 性能分の差は出ますが数千数万数十万コアを活用するにはプログラムの作り直しが必要になるでしょう並列計算の知識と技術が必要! 7

8 ( 京に特化した話はここまでにしてここからはもう少し広い話や身近な話をします )

最近のスーパーコンピュータ事情キーワードベクトル計算機 PCクラスタマルチコアCPU マルチソケットCPU アクセラレータメニーコア ( まずはハードウェア側の事情から ) 特にマルチコア CPU とアクセラレータについては個人所有の PC レベルでも容易に利用可能むしろ積極的に活用する必要がある 9

10 スライド一枚でわかる ( かもしれない ) スパコンのトレンド 10 年 (15 年?) 前専用設計のベクトル計算機強力なベクトルプロセッサを高速バスで接続非常に密なシステム近年汎用の PC に近いシステム ( ノード ) を大量にネットワーク接続した疎なシステム PC クラスタ Xeon Opteron DDR SDRAM HDD/SSD InfiniBand 少ノードシステムの販売流石にマザーボードや筐体は専用品? Cell B.E. や GPU といった演算加速器アクセラレータを搭載したヘテロジニアス ( 不均質 ) 構成 Roadrunner Nebulae Tianhe Tsubame スーパーコンピュータと汎用 PC の距離は ( ある意味 ) 小さい規模が圧倒的に違うのがポイント

マルチコア CPU とマルチソケットマルチコア CPU 複数の CPU コアを搭載した CPU デュアルコア CPU クアッドコア CPU etc. 一般に売られている PC の多くはマルチコア CPU を搭載ネットブックなど一部の激安 PC の一部は除くマルチソケット複数個の CPU を 1 ノードに搭載例 :T2K スパコン東大版 (1 ノードあたり 4 つの 4 コア CPU=1 ノードあたり 16 コア ) 一般に売られている PC はシングルソケットコア L1 L2 コア L1 11

アクセラレータ (Cell B.E. と GPU) 既存の CPU とは異なるアーキテクチャを持ち特に高い並列計算性能を目指すハードウェア Cell B.E. PS3 に搭載されているプロセッサ ( もしくはそれをカスタマイズしたもの ) Power アーキテクチャのマルチコア CPU + 複数のシンプルな計算コア GPU (Graphics Processing Unit) 画像処理用のハードウェアいわゆるビデオカード多数のシンプルな計算コアのグループを多数搭載 PC ショップで売られている GPU の多くが利用可能 PC ショップに 1TFLOPS の演算器が並んで売られている時代 PPE SPE SPE SPE SPE SPE SPE SPE SPE 12

メニーコア多数のシンプルなコアを搭載 Intel の Many Integrated Core (MIC) 躓いた Larrabee まだ製品化されていない Pentium 程度のコア * を多数搭載 2012 年に製品化? コア $ * Cell B.E. の SPE や GPU の計算コアよりも複雑各コアで OS が動くレベル 13

14 今すぐにでも始められる並列計算 STEP1 マルチコア CPU それなりの GPU があればすぐに始められる STEP2a マルチコア CPU+ アクセラレータ PC が複数台あればすぐに始められる STEP2b マルチコア CPU からなる PC 数台による小規模 PC クラスタ STEP3 マルチコアCPU+アクセラレータプログラムはどうからなるPC 数台による小規模 PCクラスタすれば良い?

15 最新の並列計算事情 ( やや C 言語よりの視点から ) 並列計算を行うためのプログラムを作る方法従来の並列化プログラミング環境自動並列化 OpenMP( ノード内専用 ) MPI( ノード内ノード間兼用 ) 最近のプログラミング環境 GPU 向け :CUDA OpenCL CPU 向け : High Performance Fortran (HPF) Threading Building Block (TBB) Unified Parallel C (UPC) X10 Chapel XcalableMP (XMP) etc. スーパーコンピュータ従来 :MPI 最近 :MPI+OpenMP 最近のプログラミング環境コア数が増えすぎて MPI のみでは無理が生じてきた

CAE のためには何を学ぶ ( 使う ) べきか 1/2 実は ( プロダクトオープンソース等の種別を問わず ) 多くのソフトウェアライブラリは並列化されている ( されつつある ) 最近は GPU に対応したソフトウェアも増加中既製品で事足りるならそれで良い本当に進めたいサイエンスを進められることはとても重要サイエンスに集中できる vs 選択肢が増える何故並列化を学ぶ必要があるのか対象問題と実行環境とを適合させるため ( 学習する ) どの並列化済みソフトウェアを使うのがベストか既製品では不足があるため ( 自前で実装する ) 並列化済みソフトウェアに与えるデータの作成に時間がかかる自分のプログラム向けにアルゴリズムを改良してある 16

CAE のためには何を学ぶ ( 使う ) べきか 2/2 並列化が必要な場合は何を学ぶべきか ( 一例 ) OpenMP と MPI C/C++ でもFortranでも使える ( 言語自体から学ぶ必要がない ) 分散メモリと共有メモリを学べる資料が非常に多い GPU を使いたい場合には CUDA か OpenCL どちらか覚えればもう一方も使いやすい OpenMPとMPIを知っていた方が理解しやすい C/C++ や Fortran 以外の言語を使っているユーザは?? スクリプトインタプリタから CUDA を利用する環境など 17

自前で実装する例の紹介有限要素法における CG ソルバーの GPU 実装有限要素法 : 偏微分方程式の数値解法の 1 つ連続体力学の広い範囲で使用 CG ソルバー : 反復計算疎行列ベクトル積ベクトルの積や和や内積疎行列ベクトル積 (SpMV) が実行時間の大部分を占めるためこれを高速化することが重要 GPU を用いた SpMV に関するライブラリは既にある ( 公開されている ) 18

自前で実装する意義と内容 CPU 向けに最適化された有限要素法プログラムが存在行列を 3x3 ブロック化しており対角上三角下三角に分けて保持している CPU 向けプログラムで行っている最適化を活用するには自前での実装が必要 19

性能評価実行環境と設定 Xeon W3520 (2.67GHz Nehalem 4 コア ) gcc v4.4 (-O3 オプション ) 512,000 要素 3x3 ブロック LU 前処理 double 型測定結果 SpMV on CPU(OpenMP 4 スレッド ) ブロック化有り 71 msecs / iter (3.30GFLOPS) ブロック化無し 96 msecs / iter (2.24GFLOPS) SpMV on GPU ブロック化有り 20 msecs / iter (11.73GFLOPS) ブロック化無し 52 msecs / iter (4.51GFLOPS) ( 既存のライブラリと同程度の性能 ) 20

成果 CG 法の実行時間比較 GPU CPU OpenMP 4 スレッド CPU 1 スレッド 0 20 40 60 80 100 実行時間 ( 秒 ) 21

まとめ最新の並列計算機事情並列計算事情を CAE と関連づけて紹介した並列計算機並列計算について知ることは CAE の活用に役立つ ( と思います ) もちろん全てを知ることは不可能であり不要である興味と需要と時勢にあわせて選択すればよい 22

23 連絡先 ( 質問その他お気軽にどうぞ ) ohshima@cc.u-tokyo.ac.jp