Microsoft PowerPoint - ITC [互換モード]

Size: px

Start display at page:

Download "Microsoft PowerPoint - ITC [互換モード]"

えみひらみね
5 years ago
Views:

1 情報基盤センターのスパコン

2 東京大学情報基盤センター人間の全ての行動において情報と無縁なものは無い学問, 研究もその例外では無い東京大学における様々な情報に関わる活動を支援する学術情報メディア図書館電子化, 学術情報ネットワークスーパーコンピューティング大量で多様な情報 : コンピュータ + ネットワーク CSE 2

3 スーパーコンピューティング部門 (1/2) スーパーコンピュータの運用, 利用支援 3 つのシステム Hitachi SR16000(Yayoi) Hitachi HA8000(T2K 東大 ) Fujitsu PRIMEHPC FX10(Oakleaf-FX) 合計約 2,000 人のユーザー ( 学外が半分 ) 大学 ( 研究, 教育 ), 研究機関, 企業 CSE 3

J2 T2K( 東大 )(HA8000 クラスタシステム ) Total Peak

8 TFLOPS Total number of nodes : 128 Total memory :

2 GFLOPS Main memory per node : 128 GB Disk capacity

3GHz Total Peak performance : 140 TFLOPS Total

4 東大センターのスパコン (~ E) 1 システム ~6 年,3 年周期でリプレース HITACHI SR11000 model J2 T2K( 東大 )(HA8000 クラスタシステム ) Total Peak performance : 18.8 TFLOPS Total number of nodes : 128 Total memory : GB Peak performance per node : GFLOPS Main memory per node : 128 GB Disk capacity : 94.2 TB IBM POWER5+ 2.3GHz Total Peak performance : 140 TFLOPS Total number of nodes : 952 Total memory : GB Peak performance per node : GFLOPS Main memory per node : 32 GB, 128 GB Disk capacity : 1 PB AMD Quad Core Opteron 2.3GHz 4

5 東大センターのスパコン (~ E) 利用者 :SR11K- 約 490 名,SR16K- 約 360 名,HA8000- 約 1,100 名 5

6 6 利用ノード時間積による利用分野 T2K:FY.2011( 月末時点 ) 専用キュー + 教育 + 企業 Engineering Earth/Space Material Energy Information Sci. Education Industry Bio Economics

7 7 東大情報基盤センターのスパコン FY Hitachi SR11000/J2 18.8TFLOPS, 16.4TB 本来は 2011 年 4 月運用開始予定だった Hitachi HA8000 (T2K) 140TFLOPS, 31.3TB Peta 京 Exa

8 8 新システム導入の経緯 2009 年 4 月頃から次期システムに関する検討を開始 2システムの導入 SR 後継機 (Power7) PFLOPS 級 MPP, 総メモリバンド幅 400TB/sec 以上アクセラレータ, コプロセッサ無し計算性能 ~ 消費電力のバランス, コンパクト性ファイルシステム性能オープンソースライブラリアプリケーション柏地区への移転電力, 設置面積東日本大震災調達やりなおし消費電力に配慮 ( 空調込み2.0MW 以下 ) ピークカットを考慮し, 柔軟な運用が可能となるような要求を付加

9 9 新システム SMP: Hitachi SR16000/M1 SR16000 システム (SMP)(Yayoi) ピーク性能 54.9 TFLOPS 56 計算ノード IBM POWER 7, 32 cores/node, 200 GB/node 2011 年 10 月 3 日より試行運用,11 月 25 日より本運用開始大容量メモリノードを有するタイプのシステム (SMP と呼んでいる ) の導入はこれで最後 ( データサーバー等除く ) 利用者は 6 年以内に並列化を進め,MPP 等へ移行するセンターも講習会, 個別相談などできる限りのサポートをする MPP: Fujitsu PRIMEHPC FX10 FX10 スーパーコンピュータシステム (Oakleaf-FX) ピーク性能 1.13 PFLOPS 4,800 計算ノード SPARC64 IXfx,16 cores/node, 32GB/node

10 10 東大情報基盤センターのスパコン FY Hitachi SR11000/J2 18.8TFLOPS, 16.4TB 大容量メモリを使って自動並列化 Hitachi SR16000/M1 based on IBM Power TFLOPS, 11.2 TB Our Last SMP,MPP へ移行サポート Hitachi HA8000 (T2K) 140TFLOPS, 31.3TB MPI による並列化, メモリは遅いが通信は良い Fujitsu PRIMEHPC FX10 based on SPARC64 IXfx 1.13 PFLOPS, 150 TB Hybrid への転回点,Flat MPI でも高い性能 Peta 京 Exa

11 新 MPP の位置づけ : 三段跳びの Step Hop HA8000(T2K), Homogeneous Compute Nodes O(10-1 ) PFLOPS Flat MPI Step PRIMEHPC FX10, Homogeneous O(10 0 ) PFLOPS MPI + OpenMP, 但し Flat MPI も充分速くなければ使えない Jump Post T2K, Heterogeneous 省電力, メモリバンド幅 :Heterogeneous な計算ノード O( ) PFLOPS MPI + X (OpenMP, CUDA, OpenCL OpenACC) その先に Exa があるはず 11

12 12 東大情報基盤センターのスパコン Hitachi SR11000/J2 18.8TFLOPS, 16.4TB 大容量メモリを使って自動並列化 Hitachi SR16000/M1 based on IBM Power TFLOPS, 11.2 TB Our Last SMP,MPP へ移行サポート HOP Hitachi HA8000 (T2K) 140TFLOPS, 31.3TB MPI による並列化, メモリは遅いが通信は良い STEP Fujitsu PRIMEHPC FX10 based on SPARC64 IXfx 1.13 PFLOPS, 150 TB Hybrid への転回点,Flat MPI でも高い性能 JUMP Post T2K with Heterogeneous Computing Nodes O( )PFLOPS Peta 京 Exa

13 13 FX10 System (Oakleaf-FX) Aggregate memory bandwidth: 398 TB/sec. Local file system for staging with 1.1 PB of capacity and 131 GB/sec of aggregate I/O performance (for staging) Shared file system for storing data with 2.1 PB and 136 GB/sec. External file system: 3.6 PB

14 39 th TOP 500 List (June 2012) (1/2) 14 Site Computer/Year Vendor Cores R max R peak Power 1 LLNL United States Sequoia BlueGene/Q, 2011 IBM RIKEN AICS Japan K computer, SPARC64 VIIIfx, 2011 Fujitsu Argonne United States Leibniz Rechenzentrum Germany NSCS in Tianjin China ORNL United States CINECA Italy Forschungszentrum Juelich (FZJ) Germany Mira BlueGene/Q, 2012 IBM SuperMUC idataplex/xeon E IBM Tianhe-1A Heterogeneous Node 2010 NUDT Jaguar, Cray XK6 ( 一部 Heterogeneous), 2009 Cray Inc. Fermi BlueGene/Q, 2012 IBM JuQUEEN BlueGene/Q, 2012 IBM CEA/TGCC-GENCI France Curie thin nodes Xeon E5-2680, 2012 Bull NSCS in Shenzhen China Nebulae, Heterogeneous Node 2010 Dawning

15 15 39 th TOP 500 List (June 2012) (2/2) Site Computer/Year Vendor Cores R max R peak Power 11 NASA Ames United States Pleiades SGI Altix ICE, 2011 SGI IFRC, EU-Japan Japan Helios Xeon E5-2680, 2011 Bull Daresbury Lab. United Kingdom GSIC Tokyo Tech Japan LANL/SNL United States Blue Joule BlueGene/Q, 2012 IBM TSUBAME 2.0 Heterogeneous Node 2010 NEC/HP Cielo Cray XE6, 2011 Cray Inc LBNL United States Hopper Cray XE6, 2010 Cray Inc CEA France Tera-100 Xeon X7560, 2010 Bull ITC/U. Tokyo Japan Oakleaf-FX, SPARC64 IXfx, 2012 Fujitsu LANL United States Roadrunner Heterogeneous Node 2009 IBM U. Edinburgh United Kingdom DiRAC BlueGene/Q, 2012 IBM

16 16 FX10 (Oakleaf-FX) Room Layout Compute nodes Peak Performance: 1.13 PFlops Memory capacity: 150 TB Shared file system Storage capacity: 2.1PB (RAID-6) Tape library system Local file system Storage capacity: 1.1PB (RAID-5) Log-in nodes Storage system Management servers

17 17 FX10(Oakleaf-FX) の概要ピーク性能 1.13PFLOPS 総メモリバンド幅 :398 TB/sec. 周辺装置込み最大消費電力 <1.40MW(Linpack 最大時 ) 空調込み 2.00MW 未満,1.043 PFLOPS, MW SPARC64 TM IXfx(16 コア ) 6 次元メッシュ / トーラスネットワーク Tofu インターコネクトリンク当りバンド幅 :5GB/sec 2,Bi-Section バンド幅 :6 TB/sec 高性能ファイルシステム FEFS(Fujitsu Exabyte File System)(Lustre ベース ) 通常運転 ~ 省電力運転の柔軟な切り替え京との互換性多様なオープンソースライブラリアプリケーション Flat-MPI,Hybrid 共に高い計算性能

18 SPARC64 TM IXfx CPU SPARC64 IXfx 1.848 GHz SPARC64 VIIIfx 2.

18 18 SPARC64 TM IXfx CPU SPARC64 IXfx GHz SPARC64 VIIIfx GHz Number of Cores/Node 16 8 Size of L2 Cache/Node 12 MB 6 MB Peak Performance/Node GFLOPS GFLOPS Memory/Node 32 GB 16 GB Memory Bandwidth/Node 85 GB/sec (DDR3-1333) 64 GB/sec (DDR3-1000)

19 SPARC64 TM IXfx HPC-ACE (High Performance Computing Arithmetic Computational Extensions) Enhanced instruction set for the SPARC- V9 instruction set arch.

19 19 SPARC64 TM IXfx HPC-ACE (High Performance Computing Arithmetic Computational Extensions) Enhanced instruction set for the SPARC- V9 instruction set arch. High-Performance & Power-Aware Extended number of registers FP Registers: Software Pipelining is useful S/W controllable sector cache UMA, not NUMA H/W barrier for high-speed synchronization of on-chip cores L1 C L1 C L1 C L1 C L1 C L1 C L1 C Memory L2 L1 L1 C C L1 C L1 C L1 C L1 C L1 C L1 C L1 C

20 20 ラック構成システムボード 4ノード 1ラック 24システムボード 96ノード 50ラック 4,800ノード 76,800コア

ノードグループの 12 ノードを結合 : 2 2 3 XYZ 3D Mesh: ABC 3D Mesh

21 Tofu インターコネクトノードグループ 12 ノード A 軸 C 軸 : システムボード内 4 ノード結合,B 軸 :3 ボード結合 6D:(X,Y,Z,A,B,C) ABC 3D Mesh: ノードグループの 12 ノードを結合 : XYZ 3D Mesh: ABC 3D Mesh グループを結合 : ネットワークトポロジーを指定した Job Submission 可能実行された XYZ は知ることができる 21

22 22 様々なサービス HA8000(T2K) における様々なサービスを FX10 へ移行教育利用学部大学院講義 ( 学外も含む ): 無料試行アカウント付講習会 ( 企業ユーザーも参加可能 ) 若手支援 45 歳以下の若手 : 無料科研費, 学際大規模情報基盤共同利用共同研究拠点 (8 センター ) 公募型研究への進展が期待される企業利用大規模計算普及, 社会貢献, 年 4 回募集通常有償利用 :3 社トライアルユース ( 有償無償 ):5 社 (+1 社 ) 大規模 HPC チャレンジ

23 23 大規模 HPC チャレンジ月 1 回 1 日 (24 時間 ),4,800ノード( 全計算ノード ) を1グループで占有して実行できる, 公募制, 無料 FX10ユーザー以外も応募可能である成果公開を義務づけるセンター広報誌への寄稿センター主催各種催しでの発表, 各種外部発表への情報提供速報結果の査読付国際会議への投稿等による迅速, 国際的な成果公開が望ましい企業からの申し込みも受け付ける ( 成果公開を義務づけ ) 自作プログラム, オープンソースプログラム利用に限定試験運転期間中は月 2 回 ( 合計 6 回 ),1 回 48 時間占有

24 24 大規模 HPC チャレンジ ( 試験運転期間 ) 採択課題急減圧液体における気泡分布関数の数値的解析課題名代表者 ( 所属 ) 電磁流体コードによる惑星磁気圏シミュレーション性能測定 2 次元フラストレート系の計算科学的研究超並列重力多体問題シミュレーションコードの性能測定大規模グラフ処理ベンチマーク Graph500 のスケーラブルな探索手法による性能評価 100 億超格子を用いた自動車の大規模流体解析への挑戦ポストペタスケール環境における大規模疎行列解法のための数値計算通信ライブラリに関する研究渡辺宙志東京大学物性研究所深沢圭一郎九州大学情報基盤研究開発センター中野博生兵庫県立大学大学院物質理学研究科石山智明筑波大学計算科学研究センター神戸分室鈴村豊太郎東京工業大学小野謙二東京大学生産技術研究所林雅江東京大学情報基盤センター

25 4 th Graph 500 List (June 2012) 25 Installation Site Machine Number of nodes Number of cores Problem scale GTEPS 1 ANL Mira/BlueGene/Q LLNL Sequoia/BlueGene/Q DARPA Power 775, POWER ITC, U.Tokyo Oakleaf-FX GSIC, Tokyo Tech TSUBAME Brookhaven National Laboratory BlueGene/Q ANL Vesta/BlueGene/Q NASA-Ames Pleiades - SGI ICE-X NERSC/LBNL Hopper/Cray XE NNSA/IBM T.J. Watson Blue Gene/Q Prototype II STE Lab, Nagoya U. PowerEdge R815 Opteron Oakleaf-FX の成果は大規模 HPC チャレンジ ( 東工大鈴村准教授らのグループ ) による November 2011 の一位は GTEPS(BlueGene/Q Prototype II,4,096 ノード (4 ラック ),32, IBM T.J. Watson)

26 スーパーコンピューティング部門 (2/2) 研究独自研究コンピュータシステム, ソフトウェア, 数値解法利用者 ( 科学, 工学分野 ) との共同研究普及人材育成学際計算科学工学人材育成プログラム全学的な HPC(High-Performance Computing) 教育お試しアカウント付き講習会 (Oakleaf-FX) RIKEN AICS Summer School 広報活動スーパーコンピューティングニュース ( 年 6 回 + 特集号 ) CSE 26

27 研究例並列計算機による新しい科学の開拓並列計算機による連立一次方程式解法等の大規模シミュレーションを支える数理的基盤の研究を, 物理, モデリング, 計算機ハードウェア等様々な観点から実施しています T2K オープンスパコン等のスーパーコンピュータを駆使した研究を実施し, 大規模シミュレーションによる新しい科学の開拓に貢献しています CSE 27

28 28 お試しアカウント付き講習会 (2012 年度 ) 名称期間時期 ( 予定 ) 内容 MPI 基礎 1 日半 ~2 日 2012 年 7 月 2 3 日 2012 年 9 月 3 4 日 2013 年 3 月 4 5 日 MPI による並列プログラミングの基礎に関する講習, 実習並列化の基礎知識 MPI の API 説明行列積の並列化実習 make を使った分割コンパイルと並列処理 Oakleaf-FX( 東大 ) による実習 MPI 応用 1 日半 2012 年 10 月中旬 2013 年 1 月中旬 MPI を使用した並列アプリケーション開発手法に関する講習, 実習有限体積法によるポアソン方程式ソルバーの概要並列データ構造の考え方領域分割手法並列化手法 Oakleaf-FX( 東大 ) による実習 OpenMP ( 基礎 + 応用 ) 1 日半 ~2 日 2012 年 12 月上旬 2013 年 2 月中旬 OpenMP によるマルチコアプロセッサ向け並列プログラミング, 最適化手法に関する, 実アプリケーションに基づく講習, 実習有限体積法によるポアソン方程式ソルバー, ICCG 法の概要 OpenMP の基礎リオーダリングによる並列化, 最適化 Oakleaf-FX( 東大 ) による実習ライブラリ利用 2 日 2012 年 12 月日 2013 年 2 月 4 5 日密行列ライブラリ BLAS, LAPACK, ScaLAPACK および疎行列ライブラリ PETsc, Lis の利用法に関する講習, 実習数値解法の原理と特徴の説明数理的モデリング, 離散化, データ格納ブロック化データ分散の考え方 Oakleaf-FX( 東大 ) による実習

GPU n Graphics Processing Unit CG CAD

GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac