Microsoft PowerPoint 知る集い（京都）最終.ppt

Size: px

Start display at page:

Download "Microsoft PowerPoint 知る集い（京都）最終.ppt"

とよみかやぬま
5 years ago
Views:

1 次世代スパコンについて知る集い配布資料世界最高性能を目指すシステム開発についてー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫

2 高性能かつ大規模システムの課題と対応演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ ( メモリウォール ) レジスタ数増, ソフトウェア制御可能なキャッシュ ( セクタキャッシュ ) の導入消費電力の削減 CPU の適切な動作周波数の選択直接ネットワークの採用実運用に耐えられる安定動作可能なシステムの提供 ECC 機構などエラー修正に考慮したシステム設計単一障害を回避する冗長性あるネットワーク構成使いやすい利用環境の提供 2010/1/28 次世代スパコンについて知る集い配布資料 1

3 次世代スーパーコンピュータの概要 2010/1/28 次世代スパコンについて知る集い配布資料 2

4 理用制御用ネットワークグローバルIOネットワーク管システム構成概要制御用サーバ群構成, 制御管理用サーバ群ジョブ管理ユーザ管理計算ノード群計算ノード数 (CPU 数 ): コア数 : 総メモリ量 : 8 万以上 64 万以上 1PB 以上 6 次元メッシュ / トーラス結合ローカルファイルシステム群グローバルIOネットワークグローバルファイルシステムフロントエンドサーバインターネット 2010/1/28 次世代スパコンについて知る集い配布資料 3

計算ノード群の構成計算ノード数 (CPU 数 ): 8 万以上コア数 : 64 万以上ピーク演算性能 :10PFLOPS 以上メモリ総容量 : 1PB 以上 ( ノード当り 16GB) ネットワーク :

5GB/s x 双方向 ( 理論ピーク ) z 5GB/s x 双方向 ( 理論ピーク ) ノード CPU: 128GFLOPS (8cores) Core Core SIMD(4FMA) Core SIMD(4FMA)

16GFlops SIMD(4FMA) 16GFlops 16GFlops 16GFLOPS 16GFlops L2$: 5MB ( 理論ピーク ) 64GB/s MEM: 16GB 5GB/s x 双方向 5GB/s

5 計算ノード群の構成計算ノード数 (CPU 数 ): 8 万以上コア数 : 64 万以上ピーク演算性能 :10PFLOPS 以上メモリ総容量 : 1PB 以上 ( ノード当り 16GB) ネットワーク : ユーザービューは 3 次元トーラス帯域 : 3 次元の正負各方向にそれぞれ 5GB/s x 2( 双方向 ) 理論ピークケーブル : 約 200,000 本, 約 1200km SPARC64 TM VIIIfx 5GB/s x 双方向 ( 理論ピーク ) z 5GB/s x 双方向 ( 理論ピーク ) ノード CPU: 128GFLOPS (8cores) Core Core SIMD(4FMA) Core SIMD(4FMA) Core SIMD(4FMA) Core SIMD(4FMA) Core SIMD(4FMA) Core16GFlops SIMD(4FMA) Core16GFlops 16GFlops SIMD(4FMA) 16GFlops SIMD(4FMA) 16GFlops 16GFlops 16GFLOPS 16GFlops L2$: 5MB ( 理論ピーク ) 64GB/s MEM: 16GB 5GB/s x 双方向 5GB/s x 双方向 ( 理論ピーク ) 5GB/s x 双方向 ( 理論ピーク ) y x ( 理論ピーク ) 5GB/s x 双方向 3 次元トーラスのイメージ提供 : 富士通 ( 株 ) 2010/1/28 次世代スパコンについて知る集い配布資料 4

プロセッサ構成 8 コア構成, 各コア 256 本の浮動小数点レジスタを備えたスーパースカラ方式 SIMD 拡張 ( 積和演算器 2 個 x 2 セット ) コア当り 16GFLOPS,CPU 当り 128GFLOPS コア共有の 2 次キャッシュ (5MB,10way) ハードウェアバリア機構プリフェッチ機構セクタキャッシュ機能 ( 次ページ ) データ供給能力レジスタ L1 キャッシュ間

6 プロセッサ構成 8 コア構成, 各コア 256 本の浮動小数点レジスタを備えたスーパースカラ方式 SIMD 拡張 ( 積和演算器 2 個 x 2 セット ) コア当り 16GFLOPS,CPU 当り 128GFLOPS コア共有の 2 次キャッシュ (5MB,10way) ハードウェアバリア機構プリフェッチ機構セクタキャッシュ機能 ( 次ページ ) データ供給能力レジスタ L1 キャッシュ間 :4B/FLOP L1 キャッシュ L2 キャッシュ間 :2B/FLOP L2 キャッシュ主記憶間 :0.5B/FLOP CPU 性能 128GFLOPS(16GFLOPSx8 コア ) コア数浮動小数点演算器構成 ( コア当り ) キャッシュ構成 8 個仕様提供 : 富士通 ( 株 ) 22.7mm x 22.6mm 760 M トランジスタ消費電力 :58W( 水冷,30 時 ) 積和演算器 :2 2 個 (SIMD) 逆数近似演算器 :2 2 個 (SIMD) 除算器 :2 個比較器 :2 個ビジュアル演算器 :1 個浮動小数点レジスタ (64 ビット ):256 本グローバルレジスタ (64 ビット ):188 本 1 次命令キャッシュ :32KB(2way) 1 次データキャッシュ :32KB(2way) 2 次キャッシュ :5MB(10way) コア間共有メモリバンド幅より詳細な情報は, SPARC64 TM VIIIfx Extensions を参照のこと 64GB/s(0.5B/F) 2010/1/28 次世代スパコンについて知る集い配布資料 5

7 セクタキャッシュとは? 再利用性のあるデータを選択的にキャッシュに残す仕組みソフトウェアによる配置が可能各セクタの way 数は, コンパイラがループ毎に自動決定キャッシュセクタ 0 セクタ 1 L1,L2 キャッシュそれぞれに制御可能ディレクティブによる指示も検討プログラムのデータ再利用性のないデータ再利用性のあるデータ再利用性のあるデータを含むプログラム例 do j=1,n do i=1,n a(i) = a(i) + b(i,j) enddo enddo 2010/1/28 次世代スパコンについて知る集い配布資料 6

8 システム利用環境 OS:Linux をベースとしたオペレーティングシステム POSIX 規格に準ずるコマンド群を提供大規模分散ファイルシステム (2 階層のファイルシステム ) ファイルステージング機能ジョブ実行前にファイルサーバから IO ノードへファイルを転送 ( ステージイン ) ジョブの出力ファイルを IO ノードからファイルサーバへ転送 ( ステージアウト ) ファイル共有機能バッチジョブを主体としたジョブ実行環境デバッグ用に会話型環境を用意 ( 予定 ) Web ブラウザターミナルユーザ端末リモートログインログイン, ファイル操作, コンパイル, デバッガ操作, ジョブ投入操作等フロントエンドサーバ Web ポータルコンソール統合開発環境 (IDE) コンパイラデバッガプロファイラジョブ投入制御デバッガ操作ジョブ管理ノード計算ノード並列ジョブ並列ジョブデバッガ並列ジョブアクセス I/O グローバルファイルステージングローカルファイル 2010/1/28 次世代スパコンについて知る集い配布資料 7

9 バッチジョブ実行時の処理の流れジョブ投入 ( ジョブ記述, ステージング記述等を指定 ) ステージイン ( グローバルファイルからローカルファイルにデータを移動 ) ジョブを実行 ( ローカルファイルのデータを利用 ) ステージアウト ( ローカルファイルからグローバルファイルにデータを移動 ) ローカルファイル JOB 実行 JOB 終了デジローカルョデジローカルデローカルデーファイルブーョ出出ファイルファイルタ用デブーージョブ実行ジョタ力力用タタデ出グローバルグローバルーブグローバルグローバルー力ファイルファイルタ用ファイルファイルタ使用するノード数, 時間, ステージングファイル等はジョブスクリプトに記述ジョブ投入スケジューラスケジューラスケジューラスケジューラ本体システム本体システム本体システム本体システムジョブ状態表示で確認 2010/1/28 次世代スパコンについて知る集い配布資料 8

10 プログラム言語, コンパイラ Fortran 2003,XPFortran,C,C++ GNU C/C++ 拡張仕様 4 倍長精度演算をサポート :IEEE754R 及び double-double 形式 SPARC64 TM VIIIfx の機能を有効活用するコンパイラ機能 SIMD 機構の活用自動ベクトル化を応用した SIMD 命令を自動生成 IF 文を含むループの SIMD 化 ( マスク付き SIMD 化 ) 大容量レジスタ ( 倍精度浮動小数点 256 本 ) の有効活用セクタキャッシュの利用セクタキャッシュを考慮したプリフェッチ命令の自動生成セクタキャッシュをユーザが意識して利用するためのディレクティブ自動並列化マルチスレッド化, パイプライン並列化機能 2010/1/28 次世代スパコンについて知る集い配布資料 9

11 ライブラリ及びプログラム開発支援環境 MPI ライブラリ (MPI-2.1 に対応 ) 低レイテンシ高スループットの実現トポロジ構成を意識した集団通信関数を提供 Bcast /Allgather /Alltoall /Allreduce インターコネクトのハードウェアバリア機構を用いたハードバリア / リダクション演算の活用数値計算 / 科学技術計算ライブラリシステムにチューニングされた BLAS,LAPACK,SSL II( 富士通製科学技術計算用ライブラリ ),FFTW を提供開発支援ソフトウェアデバッガ :DWARF2 対応性能解析ツール : デバッグツール, プロファイラ,MPI トレーサ等の連携 2010/1/28 次世代スパコンについて知る集い配布資料 10

12 プログラミングモデルスレッド並列 + プロセス並列のハイブリッド型を推奨コア内 : コンパイラによる逐次最適化,SIMD 化 CPU 内 : スレッド並列 ( 自動並列化,OpenMP) CPU 間 : プロセス並列 (MPI,XPFortran) フラット型も可能コア内 : 逐次最適化,SIMD 化 ( 主にコンパイラ ) CPU 内 : スレッド並列 ( 細粒度並列,OpenMP) CPU 間 : プロセス並列 (MPI, または XPFortran) CPU CPU CPU CPU core core core core core core core core メモリメモリメモリメモリ 2010/1/28 次世代スパコンについて知る集い配布資料 11

13 システム開発の状況 LSI 開発 (45nm 半導体プロセス ) 試作機が完成. ハードウェア及びソフトウェアの試験を実施中. CPU システムボード ICC トーラスネットワーク用 LSI 提供 : 富士通 ( 株 ) 2010/1/28 次世代スパコンについて知る集い配布資料 12

14 プロセッサ及びシステムの比較ベンダチップ名プロセスルール (nm) 理論性能 (GFLOPS) キャッシュ容量 (MB) 消費電力 (W) ワット当たりの性能 Fujitsu SPARC64VIIIfx IBM Power Intel Xeon W AMD Opteron 8439SE ベンダシステム名 Linpack 性能 (PFLOPS) CPU 数ネットワーク構成 Fujitsu 次世代スパコン 10( 目標値 ) 8 万以上 3 次元トーラス 2012 年完成予定 IBM BlueWaters 6-8? 2 万 5 千以上ツリー? 2011 年完成予定 IBM Sequoia (BlueGene/Q) 20( 理論性能 ) 10 万以上 3 次元トーラス 2011 年完成予定 Cray XT5(Jaguar) 万 5 千以上 3 次元トーラス 2009 年 11 月度世界一備考 2010/1/28 次世代スパコンについて知る集い配布資料 13

15 次世代スーパーコンピュータ施設について 2010/1/28 次世代スパコンについて知る集い配布資料 14

16 次世代スーパーコンピュータ施設兵庫県神戸市中央区港島南町 7 丁目 ( ポートアイランド第 2 期内 ) ポートアイランド南駅より徒歩約 1 分,JR 新神戸駅から 25 分神戸東京 450km (280miles) west from Tokyo 2010/1/28 次世代スパコンについて知る集い配布資料 15

17 建屋イメージ正面計算機棟延床面積約 10,500m2 建築面積約 4,300m2 構造鉄骨造り地上 3 階地下 1 階研究棟延床面積約 9,000m2 建築面積約 1,800m2 構造鉄骨造り地上 6 階地下 1 階北西から研究棟側を見る 2010/1/28 次世代スパコンについて知る集い配布資料 16

18 施設の建設風景 ( 平成 22 年 1 月 18 日 ) 研究棟計算機棟熱源機械棟特高施設研究棟計算機棟居室居室居室居室居室居室空調機械室等計算機室空調機械室居室空調機械室計算機筐体空調機計算機室グローバルファイルシステム空調機 2010/1/28 次世代スパコンについて知る集い配布資料 17

19 施設内部次世代スパコン設置フロア ( 計算機棟 3 階 ) フリーアクセス架台冷却施設 ( 熱源機械棟 ) 太陽光発電パネル ( 屋上 ) 研究棟 2010/1/28 次世代スパコンについて知る集い配布資料 18

20 システムアソフトウェア(グランドチャレンジプリケーション)施設開発日程現在平成 18 年度 (2006) 平成 19 年度 (2007) 平成 20 年度 (2008) 平成 21 年度 (2009) 平成 22 年度 (2010) 平成 23 年度 (2011) 平成 24 年度 (2012) 概念設計詳細設計試作評価製造性能チューニング次世代ナノ統合シミュレーション開発製作評価実証次世代生命体統合シミュレーション開発製作評価実証計算機棟設計建設研究棟設計建設 2010/1/28 次世代スパコンについて知る集い配布資料 19

Microsoft PowerPoint 知る集い-02.ppt [互換モード]

Microsoft PowerPoint 知る集い-02.ppt [互換モード] 京速コンピュータ京を知る集い世界最速スーパーコンピュータ京平成 23 年 12 月 17 日理化学研究所次世代スーパーコンピュータ開発実施本部渡辺貞 0 内容スーパーコンピュータとは? スーパーコンピュータの応用例スーパーコンピュータの歴史スーパーコンピュータの高速化世界のスーパーコンピュータ開発と日本の位置づけスーパーコンピュータプロジェクト - 世界最速京速コンピュータ : 京