資料 2 最近のスーパーコンピュータの技術動向について 佐藤三久 理化学研究所計算科学研究機構 目次 Top500 の動向 米国の動向 中国の動向 国内 欧州の動向 高性能計算向けプロセッサの開発動向 高性能メモリの開発動向 要素技術の動向 その他 理研 AICS の最先端アーキテクチャ研究への取り組み 1
Top500 の動向 (1) Top500 から 近年のスパコンの進歩の停滞が指摘されている 性能の伸びが これまでの年率 1.9% から 1.2 倍に 2014 年 11 月 (SC14) のリストでは 1 位から 9 位までは変化がなかった Top500 に新規に入るシステムの数が激減 ( これまでの 200~150 システムから 80 程度に ) 2010 年頃までは上位 50~70 システムの性能合計が全システムの性能合計の半分を占めるという状況であった しかし このところ上位 10~30 システムで半分を占めるという状況に Top500: 全世界のスパコンの性能を Linpack と呼ばれるプログラムでランキングしたもの 例年 6 月と 11 月に更新される http://www.top500.org 伸びが slow-down 参考 : http://news.mynavi.jp/articles/2014/12/10/sc14_top500bof/ http://www.cnet.com/news/top500-supercomputer-race-hits-a-slow-patch/ 2 top500 の動向 (2) システムの性能の伸びに比べ プロセッサの性能は伸びていない 性能は プロセッサの個数の増加 ( 大規模化 ) アクセラレータ ( メニ コアを含む ) による プロセッサ自体の性能は伸びが鈍っている Intel メニーコア NVIDA GPU 等の最新プロセッサのデリバリの遅れ ムーアーの法則のスローダウン 大規模化により 電力性能の重要性が顕著になっている Top10 システムでは 2000GFlops/kW 程度になっているのに対して Top50 システムでは 1500GFlops/kW Top500 システム全体では 1000GFlops/kW と Top10 に比べて半分の効率でしかない 米国 中国 日本で 2015 年から 2017 年頃に 数 10~ 数 100PFlops 級のスパコンの設置計画あり 現在のスローダウンは一時的なものであるという見方もある 国別のシステム数では 米国がほぼ半分の 46% を占め 中国が 12% 日本 英国 フランス ドイツの各国が 5~6% Top500 は主に CPU 性能のみで ワークロードを反映していないという意見から HPCG や graph500 での評価にも興味が集まっている 3
米国の動向 ~ エクサスケールに向けての計画 ~ Exascale Delivery は 2023 年末 (SC14 での発表 ) 2011 年より 3 つの Exascale Co-Design Center(LANL, ANL, SNL) に設置された FastForward Phase2(2014 年 7 月 ~):2020 年 ~2023 年の製品化時期を想定したノードアーキテクチャとメモリ技術への研究開発への企業へのファンデング 1 億ドル規模 Phase1 は 2012 年から 2 年 Design Forward: ネットワークを対象 2013 年から X-stack: プログラミングモデル ランタイムなどの CS の研究開発 2012 年から 2015: Preliminary Conceptual Design for an Exascale Computing Initiative (ECI) が進んでいる模様 Bill Harrod http://wallaby.aics.riken.jp/isp2s2/program/ 4 米国の動向 ~ システム設置の計画 ~ Cori (LBNL, NERSC-8) 2016 Xeon Phi (KNL) ベースのシステム Cray が受注 ノード性能 3~3.5TF とすると 全体性能は約 30PF Trinity (NNSA) 2016 これも Cay が受注 CORAL (Collaboration of Oak Ridge, Argonne and Livermore) Summit (ORNL, LLNL) 2017~2018 IBM が受注 NVIDIA と Mellanox とともに Power9 と Volta (Maxwell の次の世代の GPU) によるノードを Infiniband ネットワークで結合したシステム Power9 と GPU は NVIDIA の専用リンクである NV-Link(80~200GB/s) で結合 ノードの性能は 40TF の計算性能で ノード数は 3400 40TF の性能のためには ノードあたりの GPU の個数が 6 ~8 個と予想される Auroa (ANL) 2018 Intel が受注 KNL の次の世代のメニーコアプロセッサ KNH(Knights Hill) を Intel のインターコネクト OmniPath2 で結合したシステム システムのインテグレーションは Cray 運用開始 CPU Architecture Peak Performance Number of Node I/O Bandwidth Storage 2016 年半ば Knights Landing 3TF/Node 以上 9,300 Node 以上 400 GB/sec 以上 28 PB Price 70 M$ (70 億円 ) Aurora (ANL) Summit (ORNL) 導入年 2018 2017-2018 システムピーク性能 (PF) 180 150 電力 (MW) 13 10 電力あたり演算性能 (GF/W) Cori システムの概要 Price は全体予算 1 ドル 100 円換算 13.8 15.0 CORAL システムの概要 米国の購入コストおよび GF/W の計算にはストレージシステムも含まれている 1 ドル 120 円計算 電力あたり演算性能は GF/W はピーク性能 / ピーク電力で計算している ピーク性能に対する消費電力は公表されていない 米国スパコンの情報は以下の情報から http://www.datacenterknowledge.com/archives/2015/04/15/doe-taps-intel-cray-to-build-worlds-fastest-supercomputer/ http://www.hpcwire.com/2015/04/09/argonnes-200-million-supercomputing-award/ http://www.hpcwire.com/2015/02/04/obamas-2016-budget-request-holds-clues-exascale/ 5 https://asc.llnl.gov/coral/
中国の動向 中国の今まで 2002-2005: High Performance Computer and Core Software 2006-2010: High Productivity Computer and Service Environment 2010-2016: High Productivity Computer and Application Service Environment Tianhe-2 and Sunway-NG (Shenwei processor を使う?) 2015 年 4 月 12 日の記事 米商務省 12 日までに中国が保持する世界最速級のスーパーコンピューター 2 基が核爆発関連の研究に活用されていたことが判明したとして 米半導体大手の インテル と エヌビディア の 2 社に対しスパコン運営に携わる中国の 4 つの技術センターへのチップなどの輸出を禁止したことを明らかにした http://www.cnn.co.jp/business/35063042.html Tianhe-2: 現在 top500 1 位のシステムノードは Intel Xeon に Xeon Phi(KNC) を結合したもの インターコネクトは独自開発され 改良されている (MPI 通信性能 : 5GB/s 12 GB/s 低遅延化および複数 RDMA engine 搭載 バリア同期高速化等 ) 利用状況 :N-body, CFD, Large-scale SNP(single nucleotide polymorphism), NEMO5 などの利用例が紹介されている クラウド利用も 中国の今後国家三大主体計画 (863 計画 973 計画 科学技術支援計画 ) の統合 863 計画 : ハイテク産業技術の開発を目的とした応用技術研究開発プログラム 1986 年 3 月に実施が決定されたことから 863 計画と呼ばれる 973 計画 : 将来の発展に役立つ基礎研究の強化を目的としている 1997 年 3 月に実施が決定されたことから 973 計画と呼ばれる 2015-2016 A transit period Whether or not HPC will be a key is still open ということで今後の計画は決まっていないもよう 6 国内 欧州の動向 3 代目地球シミュレータ https://www.jamstec.go.jp/es/jp/info/150601_es. html 2015 年 6 月から運用開始 NEC SX-ACE, 1.3PFLOPS となり メモリ容量は 16 倍の 320TB 東北大 阪大でも SX ACE が稼動 Post T2K ( 東京大情報基盤センター 筑波大計算科学研究センター ) 両大学が 単一システムを柏キャンパスに共同設置 Intel Xeon Phi (KNL) ベースのシステムの導入を計画 20PF~30PF プロセッサのデリバリが遅れ 導入は 2016 年にずれ込む見込み Tsubame3 ( 東工大学術国際情報センタ ) 資料招請 クラウド型ビッグデータグリーンスーパーコンピュータ 2015 年 2 月 欧州 ESSI2 : The European Exascale Software Initiative MontBlanc ARM ベースの省電力スパコン DEEP メニーコア用のインタコネクトテクノロジの開発システムについては 目立った動きはなし 7
HPC 向けプロセッサの開発動向 Intel 次のメニーコアプロセッサ Xeon Phi KNL AVX512 とコアアーキテクチャを強化 MC-DRAM(fast memory) と DDR4 を持つ Delivery が遅れている ( 当初 2015 年初め ) 次は KNH, ANL の Aurora 向け NVIDIA 次の GPU Pascal を発表 HBM を搭載 CPU と高速に通信を行う NV-Link Delivery は 2016 年後半 (16nm FF テクノロジ利用 ) 次は Volta, ORNL の Summit 向け ARM ARM の 64 ビット版 Aarch64 を開発サーバー市場を狙う IBM Power8 を発表 主にサーバー用 Power アーキテクチャを公開するコンソーシアム OpenPower を組織 AMD プロセッサは ARM も発表 GPU は HBM を使ったものを発表 Fujitsu FX100 のプロセッサ SPARC64 XIfx(11fx) Xeon Phi(KNL) のアーキテクチャ NVIDIA GPU のロードマップ http://vrzone.com/articles/xeon-phiknights-series-continueslanding-2015/64112.html http://www.hpcadvisorycouncil.com/events/2014/brazilworkshop/preso/4_nvidia.pdf 8 高性能メモリについての動向 HMC (Hybrid Memory Cube) 現在 Gen1 が富士通のスパコン FX100 に用いられており 実績がある 他にもネットワーク機器にもちいられている 短距離の SerDes で接続 Gen2 では 30 Gbps x 16 lane = 60GB/s x 2 ( 送信 受信 )4 Link まで規格がある 8 lane x 15Gbps で 性能 ( 電力 ) を 1/4 まで落とすことが可能 容量は Gen2 では 8GB/chip 大容量にはならない SerDes を用いるために定常的に電力を消費する HMC Gen2 1 つあたり 3~4W 程度を消費する 電力制御が重要 通常の基板上に配置できるために インターポーザ不要 リペアが可能で コストが比較的低い HBM HBM2 256GB/s (2Gbps/link) 2016 年あたりから HBM のチップ自体は利用可能になる見込みが高い インターポーザについては まだ 決定的なものはない バンド幅は 0.5~1 TB/s であるが インターポーザが必要 シリコンは確実であるが 大面積チップは難しい 有機 ガラスが検討中 リペア技術がないために 欠陥損が大きい チップあたりの容量は 4~8GB, インターポーザに乗せることができるのはぜいぜい 4 コ 最大 16~32GB は メインメモリとしては厳しい GPU のメモリであれば 十分だが DDR4 2018 年で DDR4-3200 チャネルあたりのバンド幅は 34.1GB/s. 6 チャンネル ( たとえば KNL) でも 200GB/s. 数 TF のチップには低すぎる サーバーではむしろ 容量が問題 128GB/DIMM も現われている NVRAM Flush メモリはまだまだ改善されており この進歩が止まらない限り 商用的にはまだまだ 但し Intel が NVRAM を投入する噂があり 9
要素技術の動向 その他 16FF, 10FF の動向 (FF: FinFET) 16nm から 縦型構造のトランジスタ FinFET になる FF になると リーク電流が小さくなる ( が dynamic 電流は大きい?) 工程の複雑化により トランジスタあたりの単価が下がらなくなった また 製造期間が長くなった TSMC では ようやく 2016 年にかけて 16FF の製品が出る (NVIDIA の Pascal) 2016 年には 10FF の tape-out を受け付ける Global Foundries, Samsung は 14nmFinFET を生産を開始 2015 年 4 月 http://ggsoku.com/2015/04/globalfoundri es-14-nanometer-finfet-sonn-launching/ ネットワーク InfiniBand は 現在のところ EDR (Enhanced Data Rate) 20Gbps/lane, つぎは HDR (High Data Rate) Intel はチップ内蔵のインターコネクト Omni Path を発表 OmniPath2 (2017 年?) で 本格化 (Auroa で使用予定 ) 同時に Xeon Phi KNL のチップから直接ファイバーを出す KNL-F を予定 FPGA ( 書き換え可能回路 ) Intel が FPGA 大手 Altera を買収 http://techon.nikkeibp.co.jp/article/ma G/20150610/422589/ プロセッサと FPGA の統合 IoT, ネットワーク処理? ポストムーア向けか? 専用回路による高性能化 低電力化を目指すが 現時点ではコストが問題 Mellanox が FPGA 搭載のネットワークアダプタを発表 http://www.mellanox.co.jp/news/pres s20141120_mlnx_fpga_connectx- 3_SC14.htm ネットワークからのパケットを直接ストリーム処理 専用マシン ( 主に分子動力学分野 ) Anton2 MD-GRAPE 5(?)@ 理研 10 理研 AICS における最先端アーキテクチャ研究への取り組み 将来に向けた 2 つの方向 : コア数を増大させる 超メニーコア ノード ( コア ) の性能を上げる 演算加速機構 AICS 日立 筑波大共同研究 次世代演算加速機構の研究 筑波大 HPCI-FS のフォローアップ計画書から : 半導体微細加工技術の限界が近づきつつある中で 演算加速機構は計算機システムの演算性能 対消費電力性能の向上のために有望な技術の一つである 本共同研究では 将来の高性能計算技術及び計算科学の推進に必要な次世代の演算加速機構について 基本アーキテクチャからシミュレータによる詳細設計 プログラミングモデルおよびプログラミング環境 既存および新規アプリケーションについての検討を行い その有効性について検証する 筑波大 & 日立 : アーキテクチャの改良 理研 : ソフトウエア プログラミングモデル 日立 : アプリケーション ホストプロセッサ 加速プロセッサ間ネットワーク マスタプロセッサ 結果縮約ネットワーク データメモリ 命令メモリ PACS-G プロセッサチップ GM ( グローバルメモリ ) AICS ExaScaler/PEZY 共同研究 超メニーコア アプリケーションの評価 ExaScaler/PEXY Computing: スパコン向け超メニーコアおよび冷却技術を開発するベンチャー企業 Suiren (KEKに設置のプロトタイプ) で Green500で2 位 (4.95GFLOPS/W(186TFLOPS 時 )@2014 年 11 月超メニーコアプロセッサPEZY-SC (1024PE), フレオンによる冷却技術 (ExaScaler 社 ) PEZY の超メニーコアのアプリケーションでの性能評価 チューニングをしていくことで超メニーコア向けの知見を得る KEKの他 理研情報基盤センター @ 和光にプロトタイプを設置 この共同研究で理研 AICSにもプロトタイプを設置を計画 超メニーコアプロセッサ PEZY-SC の概略 (Coolchips2014 の発表から ) 筑波大 FS のプロトタイプ PACS-G ExaScaler 社の冷却技術 (PC クラスタコンソーシアム PC クラスタワークショップ in 大阪 2015 から ) 11