資料2 最近のスーパーコンピュータの技術動向について

Similar documents
GPU n Graphics Processing Unit CG CAD

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

資料8-3 今後のHPCI計画推進のあり方に関する検討ワーキンググループの中間報告について(その5)

Microsoft Word - HOKUSAI_system_overview_ja.docx

スライド 1

資料2-1 計算科学・データ科学融合へ向けた東大情報基盤センターの取り組み(中村委員 資料)

HPEハイパフォーマンスコンピューティング ソリューション

Microsoft PowerPoint - RBU-introduction-J.pptx

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

VXPRO R1400® ご提案資料

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

PCC hanawa

supercomputer2010.ppt

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

スライド 1

システムソリューションのご紹介

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

untitled

GPUコンピューティング講習会パート1

6 ZettaScaler-1.x Supercomputer systems

HP High Performance Computing(HPC)

スライド 1

【資料1-1】今後10年間の9大学情報基盤センター開発・整備・運用計画(2013年9月時点)

(速報) Xeon E 系モデル 新プロセッサ性能について

<4D F736F F F696E74202D20834B F C8FEE95F A7793C195CA8D758B E348C8E3893FA816A202D E >

PowerPoint プレゼンテーション

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N.

hpc141_shirahata.pdf

Microsoft Word - koubo-H26.doc

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63>

スーパーコンピュータ「京」の概要

資料4-1 フラッグシップ-2020プロジェクトについて

東大センターのスパコン 2 基の大型システム,6 年サイクル (?) FY Yayoi: Hitachi SR16000/M1 IBM Power TFLOPS, 1152 TB T2K To

製造したスーパーコンピュータに並ぶ省電力性能を示し 省電力スーパーコンピューティ ングへの GRAPE-DR システム基本設計の優位性を示しました 4) 消費電力低減が第一の技術的課題である次々世代スーパーコンピュータの基礎技術とし て 省電力型アクセラレータが優れていることを実証し 基礎技術として

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

RICCについて

ムーアの法則に関するレポート

PowerPoint プレゼンテーション

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

PowerPoint プレゼンテーション

GPUコンピューティング講習会パート1

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

ガイダンス(2016年4月19日)-HP

1重谷.PDF

PowerPoint プレゼンテーション

Reedbush-U の概要 ログイン方法 東京大学情報基盤センタースーパーコンピューティング研究部門

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

Microsoft PowerPoint - endo-hokke13-kfc.pptx

最新の並列計算事情とCAE

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

HPC143

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

スパコンに通じる並列プログラミングの基礎

Microsoft PowerPoint - u-tokyo msato.pptx

HPC可視化_小野2.pptx

Microsoft PowerPoint - endo-gridc14-kfc.pptx

PowerPoint プレゼンテーション

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

スライド 1

Fujitsu Standard Tool

Microsoft PowerPoint - ★13_日立_清水.ppt

PowerPoint プレゼンテーション

スライド 1

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

09中西

untitled

先進的計算基盤システムシンポジウム DMA Tofu 6 MPI RDMA 6 3 (1 ) RDMA (2 ) 3 MPI MPI 3 MPI 127us, 47GB/s 9,216 MPI Bcast 106GB/s 31 MPI 2 MPI 2 Tofu Eager : 6 7 2

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

CELSIUSカタログ(2012年7月版)

untitled

富士通セミコンダクター株式会社発表資料

untitled

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

Microsoft PowerPoint - HPCフォーラム 新庄Final

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

PNopenseminar_2011_開発stack

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

2 09:30-10:00 受付 10:00-12:00 HA-PACS ログイン GPU 入門 13:30-15:00 OpenACC 入門 15:15-16:45 OpenACC 最適化入門と演習 17:00-18:00 OpenACC の活用 (CUDA 連携とライブラリの活用 )

CELSIUSカタログ(2012年5月版)

Microsoft PowerPoint - 11Web.pptx

スパコンに通じる並列プログラミングの基礎

Microsoft Word - nvsi_100222jp_oracle_exadata.doc

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

Windows Server 2016 Hyper-V ストレージQoS機能の強化

クラウド基盤向けに処理性能や拡張性を強化した「HA8000シリーズ」の2プロセッサーサーバを販売開始

FINAL PROGRAM 25th Annual Workshop SWoPP / / 2012 Tottori Summer United Workshops on Parallel, Distributed, and Cooperative Processing 2012

HPE HPC & AIフォーラム 2019~HP-CAST Japan~

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë

GPGPUクラスタの性能評価

スライド 1

次世代スーパーコンピュータのシステム構成案について

MAGNIA Storage Server Configuration Guide

Transcription:

資料 2 最近のスーパーコンピュータの技術動向について 佐藤三久 理化学研究所計算科学研究機構 目次 Top500 の動向 米国の動向 中国の動向 国内 欧州の動向 高性能計算向けプロセッサの開発動向 高性能メモリの開発動向 要素技術の動向 その他 理研 AICS の最先端アーキテクチャ研究への取り組み 1

Top500 の動向 (1) Top500 から 近年のスパコンの進歩の停滞が指摘されている 性能の伸びが これまでの年率 1.9% から 1.2 倍に 2014 年 11 月 (SC14) のリストでは 1 位から 9 位までは変化がなかった Top500 に新規に入るシステムの数が激減 ( これまでの 200~150 システムから 80 程度に ) 2010 年頃までは上位 50~70 システムの性能合計が全システムの性能合計の半分を占めるという状況であった しかし このところ上位 10~30 システムで半分を占めるという状況に Top500: 全世界のスパコンの性能を Linpack と呼ばれるプログラムでランキングしたもの 例年 6 月と 11 月に更新される http://www.top500.org 伸びが slow-down 参考 : http://news.mynavi.jp/articles/2014/12/10/sc14_top500bof/ http://www.cnet.com/news/top500-supercomputer-race-hits-a-slow-patch/ 2 top500 の動向 (2) システムの性能の伸びに比べ プロセッサの性能は伸びていない 性能は プロセッサの個数の増加 ( 大規模化 ) アクセラレータ ( メニ コアを含む ) による プロセッサ自体の性能は伸びが鈍っている Intel メニーコア NVIDA GPU 等の最新プロセッサのデリバリの遅れ ムーアーの法則のスローダウン 大規模化により 電力性能の重要性が顕著になっている Top10 システムでは 2000GFlops/kW 程度になっているのに対して Top50 システムでは 1500GFlops/kW Top500 システム全体では 1000GFlops/kW と Top10 に比べて半分の効率でしかない 米国 中国 日本で 2015 年から 2017 年頃に 数 10~ 数 100PFlops 級のスパコンの設置計画あり 現在のスローダウンは一時的なものであるという見方もある 国別のシステム数では 米国がほぼ半分の 46% を占め 中国が 12% 日本 英国 フランス ドイツの各国が 5~6% Top500 は主に CPU 性能のみで ワークロードを反映していないという意見から HPCG や graph500 での評価にも興味が集まっている 3

米国の動向 ~ エクサスケールに向けての計画 ~ Exascale Delivery は 2023 年末 (SC14 での発表 ) 2011 年より 3 つの Exascale Co-Design Center(LANL, ANL, SNL) に設置された FastForward Phase2(2014 年 7 月 ~):2020 年 ~2023 年の製品化時期を想定したノードアーキテクチャとメモリ技術への研究開発への企業へのファンデング 1 億ドル規模 Phase1 は 2012 年から 2 年 Design Forward: ネットワークを対象 2013 年から X-stack: プログラミングモデル ランタイムなどの CS の研究開発 2012 年から 2015: Preliminary Conceptual Design for an Exascale Computing Initiative (ECI) が進んでいる模様 Bill Harrod http://wallaby.aics.riken.jp/isp2s2/program/ 4 米国の動向 ~ システム設置の計画 ~ Cori (LBNL, NERSC-8) 2016 Xeon Phi (KNL) ベースのシステム Cray が受注 ノード性能 3~3.5TF とすると 全体性能は約 30PF Trinity (NNSA) 2016 これも Cay が受注 CORAL (Collaboration of Oak Ridge, Argonne and Livermore) Summit (ORNL, LLNL) 2017~2018 IBM が受注 NVIDIA と Mellanox とともに Power9 と Volta (Maxwell の次の世代の GPU) によるノードを Infiniband ネットワークで結合したシステム Power9 と GPU は NVIDIA の専用リンクである NV-Link(80~200GB/s) で結合 ノードの性能は 40TF の計算性能で ノード数は 3400 40TF の性能のためには ノードあたりの GPU の個数が 6 ~8 個と予想される Auroa (ANL) 2018 Intel が受注 KNL の次の世代のメニーコアプロセッサ KNH(Knights Hill) を Intel のインターコネクト OmniPath2 で結合したシステム システムのインテグレーションは Cray 運用開始 CPU Architecture Peak Performance Number of Node I/O Bandwidth Storage 2016 年半ば Knights Landing 3TF/Node 以上 9,300 Node 以上 400 GB/sec 以上 28 PB Price 70 M$ (70 億円 ) Aurora (ANL) Summit (ORNL) 導入年 2018 2017-2018 システムピーク性能 (PF) 180 150 電力 (MW) 13 10 電力あたり演算性能 (GF/W) Cori システムの概要 Price は全体予算 1 ドル 100 円換算 13.8 15.0 CORAL システムの概要 米国の購入コストおよび GF/W の計算にはストレージシステムも含まれている 1 ドル 120 円計算 電力あたり演算性能は GF/W はピーク性能 / ピーク電力で計算している ピーク性能に対する消費電力は公表されていない 米国スパコンの情報は以下の情報から http://www.datacenterknowledge.com/archives/2015/04/15/doe-taps-intel-cray-to-build-worlds-fastest-supercomputer/ http://www.hpcwire.com/2015/04/09/argonnes-200-million-supercomputing-award/ http://www.hpcwire.com/2015/02/04/obamas-2016-budget-request-holds-clues-exascale/ 5 https://asc.llnl.gov/coral/

中国の動向 中国の今まで 2002-2005: High Performance Computer and Core Software 2006-2010: High Productivity Computer and Service Environment 2010-2016: High Productivity Computer and Application Service Environment Tianhe-2 and Sunway-NG (Shenwei processor を使う?) 2015 年 4 月 12 日の記事 米商務省 12 日までに中国が保持する世界最速級のスーパーコンピューター 2 基が核爆発関連の研究に活用されていたことが判明したとして 米半導体大手の インテル と エヌビディア の 2 社に対しスパコン運営に携わる中国の 4 つの技術センターへのチップなどの輸出を禁止したことを明らかにした http://www.cnn.co.jp/business/35063042.html Tianhe-2: 現在 top500 1 位のシステムノードは Intel Xeon に Xeon Phi(KNC) を結合したもの インターコネクトは独自開発され 改良されている (MPI 通信性能 : 5GB/s 12 GB/s 低遅延化および複数 RDMA engine 搭載 バリア同期高速化等 ) 利用状況 :N-body, CFD, Large-scale SNP(single nucleotide polymorphism), NEMO5 などの利用例が紹介されている クラウド利用も 中国の今後国家三大主体計画 (863 計画 973 計画 科学技術支援計画 ) の統合 863 計画 : ハイテク産業技術の開発を目的とした応用技術研究開発プログラム 1986 年 3 月に実施が決定されたことから 863 計画と呼ばれる 973 計画 : 将来の発展に役立つ基礎研究の強化を目的としている 1997 年 3 月に実施が決定されたことから 973 計画と呼ばれる 2015-2016 A transit period Whether or not HPC will be a key is still open ということで今後の計画は決まっていないもよう 6 国内 欧州の動向 3 代目地球シミュレータ https://www.jamstec.go.jp/es/jp/info/150601_es. html 2015 年 6 月から運用開始 NEC SX-ACE, 1.3PFLOPS となり メモリ容量は 16 倍の 320TB 東北大 阪大でも SX ACE が稼動 Post T2K ( 東京大情報基盤センター 筑波大計算科学研究センター ) 両大学が 単一システムを柏キャンパスに共同設置 Intel Xeon Phi (KNL) ベースのシステムの導入を計画 20PF~30PF プロセッサのデリバリが遅れ 導入は 2016 年にずれ込む見込み Tsubame3 ( 東工大学術国際情報センタ ) 資料招請 クラウド型ビッグデータグリーンスーパーコンピュータ 2015 年 2 月 欧州 ESSI2 : The European Exascale Software Initiative MontBlanc ARM ベースの省電力スパコン DEEP メニーコア用のインタコネクトテクノロジの開発システムについては 目立った動きはなし 7

HPC 向けプロセッサの開発動向 Intel 次のメニーコアプロセッサ Xeon Phi KNL AVX512 とコアアーキテクチャを強化 MC-DRAM(fast memory) と DDR4 を持つ Delivery が遅れている ( 当初 2015 年初め ) 次は KNH, ANL の Aurora 向け NVIDIA 次の GPU Pascal を発表 HBM を搭載 CPU と高速に通信を行う NV-Link Delivery は 2016 年後半 (16nm FF テクノロジ利用 ) 次は Volta, ORNL の Summit 向け ARM ARM の 64 ビット版 Aarch64 を開発サーバー市場を狙う IBM Power8 を発表 主にサーバー用 Power アーキテクチャを公開するコンソーシアム OpenPower を組織 AMD プロセッサは ARM も発表 GPU は HBM を使ったものを発表 Fujitsu FX100 のプロセッサ SPARC64 XIfx(11fx) Xeon Phi(KNL) のアーキテクチャ NVIDIA GPU のロードマップ http://vrzone.com/articles/xeon-phiknights-series-continueslanding-2015/64112.html http://www.hpcadvisorycouncil.com/events/2014/brazilworkshop/preso/4_nvidia.pdf 8 高性能メモリについての動向 HMC (Hybrid Memory Cube) 現在 Gen1 が富士通のスパコン FX100 に用いられており 実績がある 他にもネットワーク機器にもちいられている 短距離の SerDes で接続 Gen2 では 30 Gbps x 16 lane = 60GB/s x 2 ( 送信 受信 )4 Link まで規格がある 8 lane x 15Gbps で 性能 ( 電力 ) を 1/4 まで落とすことが可能 容量は Gen2 では 8GB/chip 大容量にはならない SerDes を用いるために定常的に電力を消費する HMC Gen2 1 つあたり 3~4W 程度を消費する 電力制御が重要 通常の基板上に配置できるために インターポーザ不要 リペアが可能で コストが比較的低い HBM HBM2 256GB/s (2Gbps/link) 2016 年あたりから HBM のチップ自体は利用可能になる見込みが高い インターポーザについては まだ 決定的なものはない バンド幅は 0.5~1 TB/s であるが インターポーザが必要 シリコンは確実であるが 大面積チップは難しい 有機 ガラスが検討中 リペア技術がないために 欠陥損が大きい チップあたりの容量は 4~8GB, インターポーザに乗せることができるのはぜいぜい 4 コ 最大 16~32GB は メインメモリとしては厳しい GPU のメモリであれば 十分だが DDR4 2018 年で DDR4-3200 チャネルあたりのバンド幅は 34.1GB/s. 6 チャンネル ( たとえば KNL) でも 200GB/s. 数 TF のチップには低すぎる サーバーではむしろ 容量が問題 128GB/DIMM も現われている NVRAM Flush メモリはまだまだ改善されており この進歩が止まらない限り 商用的にはまだまだ 但し Intel が NVRAM を投入する噂があり 9

要素技術の動向 その他 16FF, 10FF の動向 (FF: FinFET) 16nm から 縦型構造のトランジスタ FinFET になる FF になると リーク電流が小さくなる ( が dynamic 電流は大きい?) 工程の複雑化により トランジスタあたりの単価が下がらなくなった また 製造期間が長くなった TSMC では ようやく 2016 年にかけて 16FF の製品が出る (NVIDIA の Pascal) 2016 年には 10FF の tape-out を受け付ける Global Foundries, Samsung は 14nmFinFET を生産を開始 2015 年 4 月 http://ggsoku.com/2015/04/globalfoundri es-14-nanometer-finfet-sonn-launching/ ネットワーク InfiniBand は 現在のところ EDR (Enhanced Data Rate) 20Gbps/lane, つぎは HDR (High Data Rate) Intel はチップ内蔵のインターコネクト Omni Path を発表 OmniPath2 (2017 年?) で 本格化 (Auroa で使用予定 ) 同時に Xeon Phi KNL のチップから直接ファイバーを出す KNL-F を予定 FPGA ( 書き換え可能回路 ) Intel が FPGA 大手 Altera を買収 http://techon.nikkeibp.co.jp/article/ma G/20150610/422589/ プロセッサと FPGA の統合 IoT, ネットワーク処理? ポストムーア向けか? 専用回路による高性能化 低電力化を目指すが 現時点ではコストが問題 Mellanox が FPGA 搭載のネットワークアダプタを発表 http://www.mellanox.co.jp/news/pres s20141120_mlnx_fpga_connectx- 3_SC14.htm ネットワークからのパケットを直接ストリーム処理 専用マシン ( 主に分子動力学分野 ) Anton2 MD-GRAPE 5(?)@ 理研 10 理研 AICS における最先端アーキテクチャ研究への取り組み 将来に向けた 2 つの方向 : コア数を増大させる 超メニーコア ノード ( コア ) の性能を上げる 演算加速機構 AICS 日立 筑波大共同研究 次世代演算加速機構の研究 筑波大 HPCI-FS のフォローアップ計画書から : 半導体微細加工技術の限界が近づきつつある中で 演算加速機構は計算機システムの演算性能 対消費電力性能の向上のために有望な技術の一つである 本共同研究では 将来の高性能計算技術及び計算科学の推進に必要な次世代の演算加速機構について 基本アーキテクチャからシミュレータによる詳細設計 プログラミングモデルおよびプログラミング環境 既存および新規アプリケーションについての検討を行い その有効性について検証する 筑波大 & 日立 : アーキテクチャの改良 理研 : ソフトウエア プログラミングモデル 日立 : アプリケーション ホストプロセッサ 加速プロセッサ間ネットワーク マスタプロセッサ 結果縮約ネットワーク データメモリ 命令メモリ PACS-G プロセッサチップ GM ( グローバルメモリ ) AICS ExaScaler/PEZY 共同研究 超メニーコア アプリケーションの評価 ExaScaler/PEXY Computing: スパコン向け超メニーコアおよび冷却技術を開発するベンチャー企業 Suiren (KEKに設置のプロトタイプ) で Green500で2 位 (4.95GFLOPS/W(186TFLOPS 時 )@2014 年 11 月超メニーコアプロセッサPEZY-SC (1024PE), フレオンによる冷却技術 (ExaScaler 社 ) PEZY の超メニーコアのアプリケーションでの性能評価 チューニングをしていくことで超メニーコア向けの知見を得る KEKの他 理研情報基盤センター @ 和光にプロトタイプを設置 この共同研究で理研 AICSにもプロトタイプを設置を計画 超メニーコアプロセッサ PEZY-SC の概略 (Coolchips2014 の発表から ) 筑波大 FS のプロトタイプ PACS-G ExaScaler 社の冷却技術 (PC クラスタコンソーシアム PC クラスタワークショップ in 大阪 2015 から ) 11