Microsoft PowerPoint - HPCフォーラム 新庄Final

Similar documents
GPU n Graphics Processing Unit CG CAD

Microsoft Word - HOKUSAI_system_overview_ja.docx

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

VXPRO R1400® ご提案資料

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - sales2.ppt

スーパーコンピュータ「京」の概要

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

最新の並列計算事情とCAE

GPUコンピューティング講習会パート1

1. 京 の概要 システムの概要 ソフトウェアの概要 システムの信頼性 1

(速報) Xeon E 系モデル 新プロセッサ性能について

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

共通マイクロアーキテクチャ 富士通はプロセッサー設計に共通マイクロアーキテクチャを導入し メインフレーム UNIX サーバーおよびスーパーコンピューターそれぞれの要件を満たすプロセッサーの継続的かつ効率的な開発を容易にしている また この取り組みにより それぞれの固有要件を共通機能として取り込むこと

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

untitled

Fujitsu Standard Tool

スライド 1

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

HP High Performance Computing(HPC)

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

RICCについて

hpc141_shirahata.pdf

PowerPoint プレゼンテーション

openmp1_Yaguchi_version_170530

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

システムソリューションのご紹介

スライド 1

040312研究会HPC2500.ppt

スライド 1

Microsoft PowerPoint - 高速化WS富山.pptx

PowerPoint プレゼンテーション

並列・高速化を実現するための 高速化サービスの概要と事例紹介

富士通のHPC向けクラウドサービス『TCクラウド』のご紹介

本文ALL.indd

次世代スーパーコンピュータのシステム構成案について

GPUコンピューティング講習会パート1

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

<4D F736F F F696E74202D20834B F C8FEE95F A7793C195CA8D758B E348C8E3893FA816A202D E >

スライド 1

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

先進的計算基盤システムシンポジウム DMA Tofu 6 MPI RDMA 6 3 (1 ) RDMA (2 ) 3 MPI MPI 3 MPI 127us, 47GB/s 9,216 MPI Bcast 106GB/s 31 MPI 2 MPI 2 Tofu Eager : 6 7 2

CCS HPCサマーセミナー 並列数値計算アルゴリズム

untitled

untitled

HPC143

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint _SS研_林_公開.ppt [互換モード]

09中西

PNopenseminar_2011_開発stack

スパコンに通じる並列プログラミングの基礎

インテル(R) Visual Fortran Composer XE

PowerPoint プレゼンテーション

untitled

CELSIUSカタログ(2012年5月版)

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

1重谷.PDF

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

160311_icm2015-muramatsu-v2.pptx

Microsoft Word - koubo-H26.doc

ガイダンス(2016年4月19日)-HP

スパコンに通じる並列プログラミングの基礎

PowerPoint プレゼンテーション

修士論文

富士通セミコンダクター株式会社発表資料

スライド 1

PowerPoint プレゼンテーション

untitled

CELSIUSカタログ(2012年7月版)

演習準備

01_OpenMP_osx.indd

HPEハイパフォーマンスコンピューティング ソリューション

スパコンに通じる並列プログラミングの基礎

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

演習1: 演習準備

ジョブ管理ソフトウェア LoadStar Scheduler ご紹介資料 ~ システム運用品質の向上とコスト削減を実現 ~

Microsoft PowerPoint - SWoPP2010_Shirahata

PCC hanawa

HPC可視化_小野2.pptx

PowerPoint プレゼンテーション

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

untitled

GPGPUクラスタの性能評価

TopSE並行システム はじめに

PC Development of Distributed PC Grid System,,,, Junji Umemoto, Hiroyuki Ebara, Katsumi Onishi, Hiroaki Morikawa, and Bunryu U PC WAN PC PC WAN PC 1 P

supercomputer2010.ppt

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

Transcription:

富士通の HPC に向けた取り組み 2015 年 8 月 28 日富士通株式会社次世代テクニカルコンピューティング開発本部新庄直樹 1

アウトライン HPCシステムの動向 富士通の取り組み ハイエンドシステムPRIMEHPC FX100とポスト京への取り組み エクサスケール時代を見据えてハード / ソフトからアプローチ PRIMEHPC FX100 での評価とまとめ 2

HPC システムの動向 (1/2) Top500 に見るシステムの傾向 - 全体 http://www.top500.org/lists/2015/06/download/top500_201506_poster.pdf http://www.top500.org/statistics/overtime/ クラスタ登場 1997/6 50% 超 2004/6 80% 超 2005/6 80% 超 2012/6 x86 ベースのクラスタシステムが 90% 超に Cores per Socket Systems Share 100% 90 システムにアクセラレータが搭載 8core 6core 50% 4core マルチコア化が進行 16 core 0% 2007 2core 2008 2009 2010 2011 2012 2013 2014 12 core 10 core 3

HPC システムの動向 (2/2) Top500 に見るシステムの傾向 - トップ 10 http://www.top500.org/lists/2015/06/download/top500_201506.xls Rmax(HPL 性能 ) シェアがトップ10で30% を占める 4システム (40%) がアクセラレータを搭載 (Top500 全体では18%) 9システムが専用インターコネクトを使用 ハイエンドについては 特別な取り組みが必要 トップ 10 システムの概要 (2015 年 6 月 ) Rank Name Rmax Rmax Share Processor Accelerator Interconnect 1 Tianhe-2 33,862,700 9.3% Intel Xeon E5-2692v2 12C 2.2GHz Intel Xeon Phi 31S1P TH Express-2 2 Titan 17,590,000 4.9% Opteron 6274 16C 2.2GHz NVIDIA K20x Cray Gemini interconnect 3 Sequoia 17,173,224 4.7% Power BQC 16C 1.6GHz None Custom Interconnect 4 K computer 10,510,000 2.9% SPARC64 VIIIfx 8C 2GHz None Custom Interconnect 5 Mira 8,586,612 2.4% Power BQC 16C 1.6GHz None Custom Interconnect 6 Piz Daint 6,271,000 1.7% Xeon E5-2670 8C 2.6GHz NVIDIA K20x Aries interconnect 7 Shaheen II 5,536,990 1.5% Xeon E5-2698v3 16C 2.3GHz None Aries interconnect 8 Stampede 5,168,110 1.4% Xeon E5-2680 8C 2.7GHz Intel Xeon Phi SE10P InfiniBand FDR 9 JUQUEEN 5,008,857 1.4% Power BQC 16C 1.6GHz None Custom Interconnect 10 Vulcan 4,293,306 1.2% Power BQC 16C 1.6GHz None Custom Interconnect Top10 total 114,000,799 31.4% 50% 40% 90% 4

ハイエンドシステム PRIMEHPC FX100 とポスト京への取り組み 5

富士通の取り組み お客様のニーズに合わせた HPC ソリューションを提供 独自 CPU 搭載の専用スパコンとx86クラスタシステムの両面サポート シングルシステムイメージ運用を実現するシステムソフトの開発 提供 高性能 高可用性 高信頼性の実現 K computer 専用スパコン PRIMEHPC CPU とインターコネクトを独自開発し 高いスケーラビリティを実現 ( 理研様と共同開発 ) High-end Divisional Departmental Work Group PRIMEHPC FX10 PRIMEHPC FX100 x86 クラスタ CX200/CX400 BX900/BX400 RX200 6 Large-Scale SMP System RX900 PRIMERGY による x86 クラスタで 最新の CPU アクセラレータに対応

システムソフト (TCS: Technical Computing Suite) HPC アプリケーションに最適化した Linux OS ラージページサポート OS ジッタ最適化 自社開発ソフトウェアと Open Source Software 自社開発 : システム管理ソフトとコンパイラ OSS ベース : ファイルシステム (FEFS) MPI( コミュニティにフィードバック ) PRIMEHPC と x86 クラスタとのシングルシステムイメージ運用 Management System management Single system image Single action IPL Fail safe capability Job management Highly efficient scheduler システムマネージメントポータルと HPC ポータル Technical Computing Suite(TCS) File system (FEFS) Lustre based Higher scalability (thousands of IO servers) Higher IO performance (1.4 TB/s) OS (Linux + HPC specific enhancement) 7 Programing environment Compiler Fortran, XPF, C, C++ Automatic parallelization SIMD support MPI: Open MPI based Tools and math libraries

ロードマップ エクサスケールへ 2011 2012 2013 2014 2015 2016 2017 2018 2019 FUJITSU App. review PRIMEHPC FX10 1.85 x CPU performance Easier installation Japan s national projects Development HPCI strategic applications program FS projects PRIMEHPC FX100 Improved CPU & network performance High-density packaging & low power consumption Operation of K computer FLAGSHIP2020 Project (Post-K computer development) 京 : 稼働中 PRIMEHPC FX10 : 稼働中 科学 / 技術分野の多数のアプリが開発され稼動している PRIMEHPC FX100 : 出荷中 京 のアーキテクチャコンセプトを引き継ぎ CPU とインターコネクトの性能を向上 エクサスケールに向けて 理研プロジェクトにて ポスト 京 コンピュータの基本設計に参画 8

PRIMEHPC FX100 の特長 広範な実アプリで高性能を実現する独自開発 CPU 高いスケーラビリティを持つインターコネクト FX100 FX10 K computer Double Flops / CPU Over 1 TF 235 GF 128 GF Single Flops / CPU Over 2 TF 235 GF 128 GF Max. # of cores 32 16 8 Memory / CPU 32 GB 32 GB/64 GB 16 GB SIMD width 256 bit 128 bit 128 bit Byte per flop 0.4 ~ 0.5 Interconnect Tofu 6D mesh/torus Interconnect BW 12.5 GB/s 5 GB/s 5 GB/s 京 及び PRIMEHPC FX10 との互換性 バイナリコンパチビリティによりアプリ資産の容易な移行を実現リコンパイルとライブラリにより性能改善 新機能が享受可能 9

PRIMEHPC FX100 の構成と機能 Tofu Interconnect 2 12.5 GB/s 2(in/out)/link 10 links/node Optical technology CPU Memory Board Three CPUs 3 x 8 Micron s HMCs 8 opt modules, for inter-chassis connections Cabinet Up to 216 nodes/cabinet High-density 100% water cooled with EXCU (option) Fujitsu designed SPARC64 XIfx 1TF~(DP)/2TF~(SP) 32 + 2 core CPU HPC-ACE2 support Tofu2 integrated Chassis 1 CPU/1 node 12 nodes/2u Chassis Water cooled 10

エクサスケール時代を見据えて ハードウェアからアプローチ 11

スパコン用 CPU のトレンドと富士通の方針 ポストムーア時代に向かうトレンド ポスト京の時代以降 半導体プロセスの微細化は限界に近づく その後の性能向上は 3 次元スタックに向かう ( あるいは新デバイス?) いずれにせよトランジスタは今後も増加 メニーコア化のトレンドは継続 スパコン用メニーコアCPU 開発で想定されるアプローチは2 通り 1 一定の性能を有する ある程度の大きさのコアを並べる 2 徹底的に軽量化した小さなコアを大量に並べる 富士通の取り組み 広範なアプリケーションが動作するプラットフォームとして社会に貢献するため 既存システムに対して継続性があり 汎用性の高い 1 を選択 2 のアプローチでは 汎用性に限界があり 十分に使命を果たせない その上で 以下の開発を目標とする テクノロジトレンドに合致する適切な面積 性能 電力を備えたコア コア数に応じてスケーラブルな性能を持つメニーコアチップ 12

ポスト京の CPU で目指したいこと ポストムーア時代まで通用する スケーラブルメニーコア技術の確立 スケーラブルメニーコア技術を支える 3 つの柱 : 計算コア アシスタントコア コアメモリグループ (CMG) 単体コア性能電力性能汎用性高いスケーラビリティの実現性 Xeon ( メニーコア化に限界 ) GPGPU ( プログラミングモデルが未成熟 ) ポスト京 CPU 1 ( 京のスケーラビリティ 2 を継承 +スケーラブルメニーコア技術 ) 単体コア性能 : アプリケーションを高性能で実行できること 電力性能 : 性能当たりの電力が reasonable であること 汎用性 : 多様なアプリケーションに対応できること スケーラビリティ : メニーコア化に伴い 性能がスケーラブルに向上すること 1: 電力制御などの技術開発により 他の長所を損なわない工夫で実効電力の低減を図る 2: VISIMPACT Tofu バリアなどの独自技術 13

スケーラブルメニーコア技術を支える三本の柱 計算コア 多様なアプリケーションを高性能に実行 OOO 機能を備えた汎用スーパースカラ計算エンジン メニーコア化が容易な reasonable な面 積で実現 面積当たり性能でXeonを凌駕 アシスタントコア 計算コアを OS 等のアプリ実行以外のオーバヘッドから解放 コアメモリグループ (CMG) L2キャッシュを共有するコアグループ CMG 毎に直結されたメモリを高 BW 低レイテンシでアクセス CMG 間はディレクトリによるコヒーレント管 理 CMG 増に伴うハードウェアオーバヘッドを抑え スケーラビリティを確保 MAC MAC HMC interface FX100 CPU から導入済 Tofu2 interface Tofu2 controller Assistant core CMG L2 cache CMG L2 cache PCI controller PCI interface Assistant core MAC MAC HMC interface 14

エクサスケール時代を見据えて システムソフトからのアプローチ 15

エクサスケール向けて 6 つの取り組み 性能 ハイエンドシステムにふさわしい単体性能とシステム性能の達成に取り組む 様々な観点での性能向上 処理時間短縮にこだわる 省リソース アシスタントコアでのIO 処理 (FX100):IOノード削減 省電 省メモリ 省時間 省スペース エンドユーザの使い勝 継続性 オープンソース 市販ツール対応の拡 既存環境 ユーザ資産継承 柔軟性 計算科学ユーザに加え 計算機科学 データ処理ユーザへの対応 信頼性 安定動作 即時故障検出 短時間復旧によるサービス停 時間の最 化 保守性 運 中のシステムアップデート 調査資料取得実現による保守時間の最 化 追加分 16

省電力課題への取り組み 要素技術の段階的提供により進化を図る STEP1 計算ノード電力制御 ( 電力制御 API の提供 ) STEP2 スケジューラ連携 ( スケジューラ連携 API) STEP3 きめ細かな節電 ( ジョブの移動による電力効率改善 ) STEP4 センタ全体の電力管理 ( 設備連携し電力を制御 ) 計算ノード電力制御 - 電源制御 / パワーキャップインターフェイス スケジューラ連携 - スケジューラ連携のためのインターフェイス - 使用電力 / ノード稼動状況の可視化 - 未使用ノードの省電力化 パワーキャップ制御 きめ細かな節電 - マイグレーションと組み合わせたジョブの局所化 - ジョブの片寄せによる空調 未使用インターコネクトの停止 センタ全体の電力管理 - 設備連携のためのインターフェイス - システム稼動状況と連動した空調設備などの制御 設備 設備連携 ジョブ管理ノードスケシ ューリンク 情報制御ノード 電源制御 ノードノード ノード マイグレーション 17

ノード内ノード間言語処理系での取り組み FX100 ポスト京向けに強化した規格 機能を x86 向けにもタイムリーに移植 新規格サポート 最新 x86 クラスタへも対応 京 ポスト京との親和性と既存のソース資産の移行性を確保 富士通の強みを活かすべく 数学 libとmpiはintel 言語処理系にも対応 富士通言語処理系 ( 専用スパコン x86 クラスタ両方に対応 ) コンパイラ 通信 lib Fortran C C++ OpenMP MPI Fortran Coarray XPFortran *1 数学 lib SSL II BLAS LAPACK SSL II (FFT) ScaLAPACK ツール IDE デバッガ プロファイラ Intel 言語処理系 ifort icc MPI MKL VTune など SSL II MPI 富士通 HPC ライブラリ *1: extended Parallel Fortran ( 富士通の分散並列 Fortran 言語 ) 18

アシスタントコアによる OS ジッタの低減 デーモン IO 処理等をアシスタントコアで実行することで OS ジッタを大幅に低減 OS ジッタによる計算時間のばらつき評価 x86 はより大きいノイズあり 0.4 0.2 0.0 fwq -w 13 # Bits in work. # of loop iter. is 2^w -n 500000 # # of samples to take -t 32 # # of threads to be executed Slowdown rate OS ジッタ低減によるスケーラビリティ向上見積もり (comm. interval=1ms) 1.7 1.6 1.5 1.4 1.3 1.2 1.1 1 表示区間 150 秒 # of nodes x86 cluster FX10 FX100 19

MPI ライブラリの強化 Open MPI をベースに強化 最適化を推進 システム ( 対象インターコネクト ) 非同期通信の計算処理とのオーバラップ 中 長メッセージ向け集団通信 短メッセージ向け集団通信 (Barrier, Bcast, Reduce, Allreduce) PRIMEHPC 向け (Tofu) アシスタントコアを活用した通信スレッド複数 DMAエンジン多次元軸活用 Tofu バリア活用 - X86 クラスタ (InfiniBand) 通信スレッド ( 対応予定 ) フル RDMA 化 ( 対応予定 ) 送信側受信側受信側 Isend Irecv Isend 送信側 PT PT Ack Irecv Wait Ack Wait Wait Fin Wait Fin 通常のノンブロッキング通信 通信スレッドによる非同期化 PT 通信スレッド関数の出口 MPI 関数実行区間 20

アシスタントコアによる通信と計算のオーバラップ 象区間対象区間を明示することでク 動作イメージアシスタントコアがノンブロッキング通信処理の大半を実行 利用方法 実行時オプションで progress thread モードを選択 さらに高速化を行うためには オーバラップ通信の対象区間をユーザーが明に指定 特長 コード書き換えなしにオーバラップ通信が可能 簡易な区間指定でスレッド排他制御オーバヘッドも抑制可能 リティカルセクションを限定 MPI_IRECV(...); FJMPI_Progress_start(); calc(...); FJMPI_Progress_stop(); MPI_WAITALL(...); オーバラップ通信の対21

FX100 での評価とまとめ 22

アシスタントコアによる通信と演算のオーバラップ (GT5D) 通信データに依存しない演算処理を MPI_Waitallの前で実行 演算中にアシスタントコアが通信を制御 性能向上と可搬性 / 保守性を両立 従来は OpenMP で通信と演算のオーバラップを実装して強スケーリングを達成していたが アシスタントコアの利用によって特殊な実装なしでオーバラップが可能 通信 / 演算オーバラップのコード例 MPI_Isend MPI_Irecv!$OMP PARALLEL DO do i= 通信データに依存しない演算処理 enddo!$omp END PARALLEL DO MPI_Waitall do i= 通信データに依存する演算処理 enddo マスタスレッドの実行時間 ( 秒 ) 7 6 5 4 3 2 1 0 アシスタントコア無効 14% 短縮 アシスタントコア有効 通信データ待ち 通信データに依存しない演算処理通信データに依存する演算処理 問題サイズ :256 256 64 128 並列数 :16 スレッド 64 プロセス 評価対象区間 :l4dx 通信促進 : 自動区間モード 23

HPCG ベンチマークによる評価 メモリスループットの向上により FX10 の 3 倍のノードあたり性能 汎用プロセッサの使いやすさを維持しつつ 性能を向上 60 50 Performance (Gflops/node) 40 30 20 10 3.0 倍 0 Mira K computer FX10 FX100 Tianhe-2 (MIC x3 /node) Titan (GPU x1 /node) TSUBAME 2.5 (GPU x3 /node) 24

HPCG ベンチマークへの取り組み HPCG の主要演算 疎行列 A とベクトル v の積 A の圧縮格納形式 : 長 SIMD アーキ向きの Sliced-ELL を採用 格納形式の比較 CRS 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 行単位で圧縮 ( 例 )HPCG リファレンスコード 今後の課題 vs ELL 1.0 2.0 0.0 3.0 4.0 0.0 5.0 6.0 7.0 8.0 9.0 10.0 1.0 2.0 v0 1.0v0 2. 0v 3.0 4.0 v1 5.0 6.0 7.0 v 2 8.0 9.0 10.0 v3 演算性能の向上 前処理と疎行列ベクトル積のループ融合 通信コスト削減 MPI_Allreduceと計算とのオーバラップ A A の非零要素に対応した v の要素との積和演算 vs 非零要素数 / 行を揃える最内ループ長が定数となり ループ最適化が容易となる ( 例 )K( 理研 ) v Sliced-ELL 1.0 3.0 5.0 8.0 2.0 4.0 6.0 9.0 0.0 0.0 7.0 10.0 2 連続アクセス方向 ELLをn 行単位でスライス & 転置格納 ( この例は4 行 ) 効率的なSIMD 命令生成が容易 25

50 40 30 20 10 4way SIMD 32 演算コアの効果 (NPB-FT) FFT 演算カーネルによる評価 FX10 用 2way SIMD バイナリを実行すると 1.58 倍高速化 メモリ & キャッシュスループット向上による効果 4way SIMD バイナリに再翻訳すると 1.23 倍高速化 実行命令数 43% 削減による効果 2 倍の演算コアを使うと 1.83 倍高速化 並列化効率 91% の良好なスケーラビリティ 0 Node performance (Gflops/node) 1.58 倍 16 cores 2 way SIMD, 16 cores FX10 1.23 倍 4 way SIMD, 16 cores FX100 1.83 倍 4 way SIMD, 32 cores 40 35 30 25 20 15 10 5 0 Breakdown of execution time 16 cores 2 way SIMD, 16 cores FX10 4 way SIMD, 16 cores FX100 4 way SIMD, 32 cores 2 4 inst. commited 1 inst. commited wait (others) wait (instruction) wait (calculation) wait (cache) wait (memroy) 使用コード : NAS Parallel Benchmarks Ver. 3.3.1 OpenMP 版クラス C 26

セクタキャッシュ機能の効果 (CCS QCD) 高いメモリスループットを 無駄なくさらに活用 セクタキャッシュを用いて再利用するデータを L2$ に維持 セクタキャッシュ利用のコード例!OCL CACHE_SECTOR_SIZE(19,5)!OCL CACHE_SUBSECTOR_ASSIGN(ue,uo,yde,fclinve)!$OMP PARALLEL DO SCHEDULE(STATIC,1) do ix=1,nx do iy=1,ny do iz=1,nz 120 gy11=yo(,iy+1, )+ 100 gy11=yo(,iy-1, )+ 80 60 enddo enddo 40 enddo!$omp END PARALLEL DO 20!OCL END_CACHE_SUBSECTOR!OCL END_CACHE_SECTOR_SIZE 使用コード : CCS QCD Miniapp 問題サイズ :32 4 https://github.com/fiber-miniapp/ccs-qcd Performance (Gflops/node) 0 セクタ 1 に L2$ 2.5MB を確保 再利用しない配列をセクタ 1 に割り当て ( 再利用するデータはセクタ 0 に入る ) Node performance (Gflops/node) Sector Cache disabled 6% 向上 FX10 (16 cores) Sector Cache enabled Sector Cache disabled 9% 向上 FX100 (32 cores) Sector Cache enabled 27

FX100 導入サイトと LINPACK 性能 京 FX10 に引き続き 90% 超の演算効率を実現 ノードあたり約 1Tflops の演算性能 3 100% 演算性能 (Pflops) 2 1 90% 演算効率 0 理化学研究所 (1080 ノード ) 気象庁気象研究所 (1080 ノード ) JAXA (1296 ノード ) 核融合科学研究所 (2592 ノード ) 80% 演算性能 演算効率 28

京 FX10 FX100 ポスト京 エクサスケール エクサスケールを見据えてポスト京の基本設計中 アプリケーションの高効率実行が鍵 京 FX10 FX100 のアーキテクチャを継承 革新 PRIMEHPC シリーズ ポスト京 C RIKEN Kcomputer VISIMPACT SIMD extension HPC-ACE Direct network Tofu FX10 VISIMPACT HPC-ACE Direct network Tofu FX100 VISIMPACT HPC-ACE2 Tofu interconnect 2 HMC & Optical connections CY2010~ 128GF, 8-core/CPU CY2012~ 236.5GF, 16-core/CPU 29 CY2015~ 1TF~, 32-core/CPU

日本を代表するIT 企業として 国家プロジェクトに貢献するとともに お客様のニーズに応えるHPC 環境を提供していきます 30

31