資料2 最近のスーパーコンピュータの技術動向について

資料 2 最近のスーパーコンピュータの技術動向について佐藤三久理化学研究所計算科学研究機構目次 Top500 の動向米国の動向中国の動向国内欧州の動向高性能計算向けプロセッサの開発動向高性能メモリの開発動向要素技術の動向その他理研 AICS の最先端アーキテクチャ研究への取り組み 1

Top500 の動向 (1) Top500 から近年のスパコンの進歩の停滞が指摘されている性能の伸びがこれまでの年率 1.9% から 1.2 倍に 2014 年 11 月 (SC14) のリストでは 1 位から 9 位までは変化がなかった Top500 に新規に入るシステムの数が激減 ( これまでの 200~150 システムから 80 程度に ) 2010 年頃までは上位 50~70 システムの性能合計が全システムの性能合計の半分を占めるという状況であったしかしこのところ上位 10~30 システムで半分を占めるという状況に Top500: 全世界のスパコンの性能を Linpack と呼ばれるプログラムでランキングしたもの例年 6 月と 11 月に更新される http://www.top500.org 伸びが slow-down 参考 : http://news.mynavi.jp/articles/2014/12/10/sc14_top500bof/ http://www.cnet.com/news/top500-supercomputer-race-hits-a-slow-patch/ 2 top500 の動向 (2) システムの性能の伸びに比べプロセッサの性能は伸びていない性能はプロセッサの個数の増加 ( 大規模化 ) アクセラレータ ( メニコアを含む ) によるプロセッサ自体の性能は伸びが鈍っている Intel メニーコア NVIDA GPU 等の最新プロセッサのデリバリの遅れムーアーの法則のスローダウン大規模化により電力性能の重要性が顕著になっている Top10 システムでは 2000GFlops/kW 程度になっているのに対して Top50 システムでは 1500GFlops/kW Top500 システム全体では 1000GFlops/kW と Top10 に比べて半分の効率でしかない米国中国日本で 2015 年から 2017 年頃に数 10~ 数 100PFlops 級のスパコンの設置計画あり現在のスローダウンは一時的なものであるという見方もある国別のシステム数では米国がほぼ半分の 46% を占め中国が 12% 日本英国フランスドイツの各国が 5~6% Top500 は主に CPU 性能のみでワークロードを反映していないという意見から HPCG や graph500 での評価にも興味が集まっている 3

米国の動向 ~ エクサスケールに向けての計画 ~ Exascale Delivery は 2023 年末 (SC14 での発表 ) 2011 年より 3 つの Exascale Co-Design Center(LANL, ANL, SNL) に設置された FastForward Phase2(2014 年 7 月 ~):2020 年 ~2023 年の製品化時期を想定したノードアーキテクチャとメモリ技術への研究開発への企業へのファンデング 1 億ドル規模 Phase1 は 2012 年から 2 年 Design Forward: ネットワークを対象 2013 年から X-stack: プログラミングモデルランタイムなどの CS の研究開発 2012 年から 2015: Preliminary Conceptual Design for an Exascale Computing Initiative (ECI) が進んでいる模様 Bill Harrod http://wallaby.aics.riken.jp/isp2s2/program/ 4 米国の動向 ~ システム設置の計画 ~ Cori (LBNL, NERSC-8) 2016 Xeon Phi (KNL) ベースのシステム Cray が受注ノード性能 3~3.5TF とすると全体性能は約 30PF Trinity (NNSA) 2016 これも Cay が受注 CORAL (Collaboration of Oak Ridge, Argonne and Livermore) Summit (ORNL, LLNL) 2017~2018 IBM が受注 NVIDIA と Mellanox とともに Power9 と Volta (Maxwell の次の世代の GPU) によるノードを Infiniband ネットワークで結合したシステム Power9 と GPU は NVIDIA の専用リンクである NV-Link(80~200GB/s) で結合ノードの性能は 40TF の計算性能でノード数は 3400 40TF の性能のためにはノードあたりの GPU の個数が 6 ~8 個と予想される Auroa (ANL) 2018 Intel が受注 KNL の次の世代のメニーコアプロセッサ KNH(Knights Hill) を Intel のインターコネクト OmniPath2 で結合したシステムシステムのインテグレーションは Cray 運用開始 CPU Architecture Peak Performance Number of Node I/O Bandwidth Storage 2016 年半ば Knights Landing 3TF/Node 以上 9,300 Node 以上 400 GB/sec 以上 28 PB Price 70 M$ (70 億円 ) Aurora (ANL) Summit (ORNL) 導入年 2018 2017-2018 システムピーク性能 (PF) 180 150 電力 (MW) 13 10 電力あたり演算性能 (GF/W) Cori システムの概要 Price は全体予算 1 ドル 100 円換算 13.8 15.0 CORAL システムの概要米国の購入コストおよび GF/W の計算にはストレージシステムも含まれている 1 ドル 120 円計算電力あたり演算性能は GF/W はピーク性能 / ピーク電力で計算しているピーク性能に対する消費電力は公表されていない米国スパコンの情報は以下の情報から http://www.datacenterknowledge.com/archives/2015/04/15/doe-taps-intel-cray-to-build-worlds-fastest-supercomputer/ http://www.hpcwire.com/2015/04/09/argonnes-200-million-supercomputing-award/ http://www.hpcwire.com/2015/02/04/obamas-2016-budget-request-holds-clues-exascale/ 5 https://asc.llnl.gov/coral/

中国の動向中国の今まで 2002-2005: High Performance Computer and Core Software 2006-2010: High Productivity Computer and Service Environment 2010-2016: High Productivity Computer and Application Service Environment Tianhe-2 and Sunway-NG (Shenwei processor を使う?) 2015 年 4 月 12 日の記事米商務省 12 日までに中国が保持する世界最速級のスーパーコンピューター 2 基が核爆発関連の研究に活用されていたことが判明したとして米半導体大手のインテルとエヌビディアの 2 社に対しスパコン運営に携わる中国の 4 つの技術センターへのチップなどの輸出を禁止したことを明らかにした http://www.cnn.co.jp/business/35063042.html Tianhe-2: 現在 top500 1 位のシステムノードは Intel Xeon に Xeon Phi(KNC) を結合したものインターコネクトは独自開発され改良されている (MPI 通信性能 : 5GB/s 12 GB/s 低遅延化および複数 RDMA engine 搭載バリア同期高速化等 ) 利用状況 :N-body, CFD, Large-scale SNP(single nucleotide polymorphism), NEMO5 などの利用例が紹介されているクラウド利用も中国の今後国家三大主体計画 (863 計画 973 計画科学技術支援計画 ) の統合 863 計画 : ハイテク産業技術の開発を目的とした応用技術研究開発プログラム 1986 年 3 月に実施が決定されたことから 863 計画と呼ばれる 973 計画 : 将来の発展に役立つ基礎研究の強化を目的としている 1997 年 3 月に実施が決定されたことから 973 計画と呼ばれる 2015-2016 A transit period Whether or not HPC will be a key is still open ということで今後の計画は決まっていないもよう 6 国内欧州の動向 3 代目地球シミュレータ https://www.jamstec.go.jp/es/jp/info/150601_es. html 2015 年 6 月から運用開始 NEC SX-ACE, 1.3PFLOPS となりメモリ容量は 16 倍の 320TB 東北大阪大でも SX ACE が稼動 Post T2K ( 東京大情報基盤センター筑波大計算科学研究センター ) 両大学が単一システムを柏キャンパスに共同設置 Intel Xeon Phi (KNL) ベースのシステムの導入を計画 20PF~30PF プロセッサのデリバリが遅れ導入は 2016 年にずれ込む見込み Tsubame3 ( 東工大学術国際情報センタ ) 資料招請クラウド型ビッグデータグリーンスーパーコンピュータ 2015 年 2 月欧州 ESSI2 : The European Exascale Software Initiative MontBlanc ARM ベースの省電力スパコン DEEP メニーコア用のインタコネクトテクノロジの開発システムについては目立った動きはなし 7

HPC 向けプロセッサの開発動向 Intel 次のメニーコアプロセッサ Xeon Phi KNL AVX512 とコアアーキテクチャを強化 MC-DRAM(fast memory) と DDR4 を持つ Delivery が遅れている ( 当初 2015 年初め ) 次は KNH, ANL の Aurora 向け NVIDIA 次の GPU Pascal を発表 HBM を搭載 CPU と高速に通信を行う NV-Link Delivery は 2016 年後半 (16nm FF テクノロジ利用 ) 次は Volta, ORNL の Summit 向け ARM ARM の 64 ビット版 Aarch64 を開発サーバー市場を狙う IBM Power8 を発表主にサーバー用 Power アーキテクチャを公開するコンソーシアム OpenPower を組織 AMD プロセッサは ARM も発表 GPU は HBM を使ったものを発表 Fujitsu FX100 のプロセッサ SPARC64 XIfx(11fx) Xeon Phi(KNL) のアーキテクチャ NVIDIA GPU のロードマップ http://vrzone.com/articles/xeon-phiknights-series-continueslanding-2015/64112.html http://www.hpcadvisorycouncil.com/events/2014/brazilworkshop/preso/4_nvidia.pdf 8 高性能メモリについての動向 HMC (Hybrid Memory Cube) 現在 Gen1 が富士通のスパコン FX100 に用いられており実績がある他にもネットワーク機器にもちいられている短距離の SerDes で接続 Gen2 では 30 Gbps x 16 lane = 60GB/s x 2 ( 送信受信 )4 Link まで規格がある 8 lane x 15Gbps で性能 ( 電力 ) を 1/4 まで落とすことが可能容量は Gen2 では 8GB/chip 大容量にはならない SerDes を用いるために定常的に電力を消費する HMC Gen2 1 つあたり 3~4W 程度を消費する電力制御が重要通常の基板上に配置できるためにインターポーザ不要リペアが可能でコストが比較的低い HBM HBM2 256GB/s (2Gbps/link) 2016 年あたりから HBM のチップ自体は利用可能になる見込みが高いインターポーザについてはまだ決定的なものはないバンド幅は 0.5~1 TB/s であるがインターポーザが必要シリコンは確実であるが大面積チップは難しい有機ガラスが検討中リペア技術がないために欠陥損が大きいチップあたりの容量は 4~8GB, インターポーザに乗せることができるのはぜいぜい 4 コ最大 16~32GB はメインメモリとしては厳しい GPU のメモリであれば十分だが DDR4 2018 年で DDR4-3200 チャネルあたりのバンド幅は 34.1GB/s. 6 チャンネル ( たとえば KNL) でも 200GB/s. 数 TF のチップには低すぎるサーバーではむしろ容量が問題 128GB/DIMM も現われている NVRAM Flush メモリはまだまだ改善されておりこの進歩が止まらない限り商用的にはまだまだ但し Intel が NVRAM を投入する噂があり 9

要素技術の動向その他 16FF, 10FF の動向 (FF: FinFET) 16nm から縦型構造のトランジスタ FinFET になる FF になるとリーク電流が小さくなる ( が dynamic 電流は大きい?) 工程の複雑化によりトランジスタあたりの単価が下がらなくなったまた製造期間が長くなった TSMC ではようやく 2016 年にかけて 16FF の製品が出る (NVIDIA の Pascal) 2016 年には 10FF の tape-out を受け付ける Global Foundries, Samsung は 14nmFinFET を生産を開始 2015 年 4 月 http://ggsoku.com/2015/04/globalfoundri es-14-nanometer-finfet-sonn-launching/ ネットワーク InfiniBand は現在のところ EDR (Enhanced Data Rate) 20Gbps/lane, つぎは HDR (High Data Rate) Intel はチップ内蔵のインターコネクト Omni Path を発表 OmniPath2 (2017 年?) で本格化 (Auroa で使用予定 ) 同時に Xeon Phi KNL のチップから直接ファイバーを出す KNL-F を予定 FPGA ( 書き換え可能回路 ) Intel が FPGA 大手 Altera を買収 http://techon.nikkeibp.co.jp/article/ma G/20150610/422589/ プロセッサと FPGA の統合 IoT, ネットワーク処理? ポストムーア向けか? 専用回路による高性能化低電力化を目指すが現時点ではコストが問題 Mellanox が FPGA 搭載のネットワークアダプタを発表 http://www.mellanox.co.jp/news/pres s20141120_mlnx_fpga_connectx- 3_SC14.htm ネットワークからのパケットを直接ストリーム処理専用マシン ( 主に分子動力学分野 ) Anton2 MD-GRAPE 5(?)@ 理研 10 理研 AICS における最先端アーキテクチャ研究への取り組み将来に向けた 2 つの方向 : コア数を増大させる超メニーコアノード ( コア ) の性能を上げる演算加速機構 AICS 日立筑波大共同研究次世代演算加速機構の研究筑波大 HPCI-FS のフォローアップ計画書から : 半導体微細加工技術の限界が近づきつつある中で演算加速機構は計算機システムの演算性能対消費電力性能の向上のために有望な技術の一つである本共同研究では将来の高性能計算技術及び計算科学の推進に必要な次世代の演算加速機構について基本アーキテクチャからシミュレータによる詳細設計プログラミングモデルおよびプログラミング環境既存および新規アプリケーションについての検討を行いその有効性について検証する筑波大 & 日立 : アーキテクチャの改良理研 : ソフトウエアプログラミングモデル日立 : アプリケーションホストプロセッサ加速プロセッサ間ネットワークマスタプロセッサ結果縮約ネットワークデータメモリ命令メモリ PACS-G プロセッサチップ GM ( グローバルメモリ ) AICS ExaScaler/PEZY 共同研究超メニーコアアプリケーションの評価 ExaScaler/PEXY Computing: スパコン向け超メニーコアおよび冷却技術を開発するベンチャー企業 Suiren (KEKに設置のプロトタイプ) で Green500で2 位 (4.95GFLOPS/W(186TFLOPS 時 )@2014 年 11 月超メニーコアプロセッサPEZY-SC (1024PE), フレオンによる冷却技術 (ExaScaler 社 ) PEZY の超メニーコアのアプリケーションでの性能評価チューニングをしていくことで超メニーコア向けの知見を得る KEKの他理研情報基盤センター @ 和光にプロトタイプを設置この共同研究で理研 AICSにもプロトタイプを設置を計画超メニーコアプロセッサ PEZY-SC の概略 (Coolchips2014 の発表から ) 筑波大 FS のプロトタイプ PACS-G ExaScaler 社の冷却技術 (PC クラスタコンソーシアム PC クラスタワークショップ in 大阪 2015 から ) 11