Microsoft PowerPoint - SS研200911姫野_最新.ppt

Size: px

Start display at page:

Download "Microsoft PowerPoint - SS研200911姫野_最新.ppt"

あきみあると
5 years ago
Views:

1 3.5 世代 PCクラスタを中核とする理研 RICC: その狙いと現状今後理化学研究所情報基盤センター

2 内容 PCクラスターの歴史 Top500の新たな潮流 GPGPUの特徴第二世代 PCクラスタ :RSCCの狙いとその結果第 3.5 世代 PCクラスタ :RICCの狙いと現状今後

3 PC クラスターの歴史と最近の潮流

4 PC クラスタヒストリー第一世代 :Beowulf 型個人第二世代 :SCoreIII 産総研 RSCC(MD GRAPE) 高性能共用センター運用 Grid Computing RSCC:MD GRAPE による加速 2GB メモリーの壁第三世代 :Fat Node Multi Core: Tsubame(2006 年 3 月稼働 ClearSpeed) T2K(2008 年 ) 第 3.5 世代 : + 汎用加速ボード Tsubame1.2(2008 年 12 月 GPGPU) 理研 RICC(2009 年 8 月 MD GRAPE3+GPGPU) GPGPU アクセラレータの一般化

5 第一世代 :Beowulf 型個人 2000 年デスクトップ PC CPU: Pentium III 450MHz 1CPU 8 ノード Interconnect : Fast Ethernet x 1 (100Mbps) 2001 年デスクトップ PC CPU: Pentium4 1.5GHz 1CPU 8 ノード Interconnect : Fast Ethernet x 1 (100Mbps) 2001 年ラックマウント 4U CPU: Pentium 4 1.7GHz 1CPU 64 ノード Interconnect : Myrinet 2000 Peak :217.6 GFLOPS

第二世代 :SCoreIII 産総研 RSCC 2001 年 Score III CPU: Pentium III

0Gbps) Peak:955.4 GFLOPS 2004 年 RSCC CPU: Xeon 3.

4 TFLOPS 2004 年 AIST スーパークラスタ CPU: Opteron 2.

6 第二世代 :SCoreIII 産総研 RSCC 2001 年 Score III CPU: Pentium III 933MHz 2CPU 512 ノード Interconnect : Myrinet 2000 (2.0Gbps) Peak:955.4 GFLOPS 2004 年 RSCC CPU: Xeon 3.06GHz 2CPU 1024 ノード Interconnect : InfiniBand Peak:12.4 TFLOPS 2004 年 AIST スーパークラスタ CPU: Opteron 2.0GHz 2CPU, Itanium2 1.3GHz 4CPU Xeon 3.06GHz 2CPU Interconnect : Myrinet GbE Peak:14.6TFLOPS

7 第三世代 :Tsubame, T2K 2006 年 TSUBAME CPU: Dual Core Opteron (2.4GHz) 8CPU / ノード ClearSpeed CSX600 Interconnect: Infiniband Peak: 47.38TeraFlops 2008 年 Roadrunner (LANL) CPU: PowerXCell 8i 3.2 Ghz / Dual Core Opteron 1.8 GHz Interconnect: Infiniband Peak: PFLOPS 2008 年 T2K CPU: Quad core Opteron 4CPU/ ノード Interconnect: Myrinet, Infiniband T2K 東大 : 140TFLOPS (952 ノード ) T2K つくば : 95TFLOPS (648 ノード ) T2K 京都 : 61.2TFLOPS (416 ノード ) +GPGPU 3.5 世代

8 日本でのアクセラレータアクセラレータの性能はホスト計算機の倍 ( コスト性能比電力性能比も ) 東大 :GRAPE シリーズ現在は GRAPE DR 初代から数えて 8 代目理研 : MD GRAPE2 WINE MD GRAPE3 研究的なボード :FPGA 市販品 ClearSpeed Tesla

9 世界では? 08 年の ISC:No.1 は Roadrunner

10 Roadrunner 電力消費が小さい!! 483m 2 コンパクト!!

11 Bell の法則?

12 新たな潮流の登場 Embedded/ Accelerated Commodity Cluster Custom Scalar Vector/SIMD

13 電力効率が話題に電力効率は Cell が Embedded よりも良い

14 新しいトレンド? Accelerator Cell GPU GRAPE FPGA ClearSpeed Enbedded BlueGene/L, BlueGene/P BlueGene/Q 第 3.5 世代 PC クラスターマルチコアー PC CPU マルチソケット/ ノードメモリー空間大アクセラレータ

15 GPU のハードウェア構造 Streaming Processor: SP x GB/s SP 倍精度演算ユニット単精度演算ユニット Shared Memory (16kB) Device Memory (Global Memory:4GB) ホストとは PCI- Express 2.0 x16: 8GB/s 理研 GPU 講習会 NEC 資料を元にした

16 NVIDIA Tesla 出典 :wikipedia

17 PC と Server Tesla の比較 (1) PC PC Server nvidia Tesla C1060 CPU Intel Core2 Duo E GHz single socket Intel Xeon X GHz x 2Sockets core 数 2 x 4 8 (4/Socket x 2 Sockects) x 周波数 2.93 GHz x GHz x GHz Peak Performance GFLOPS x GFLOPS x 10 x GFLOPS(SP) 78 GFLOPS(DP) 消費電力 250 W x W x W メモリ転送性能 DDR x 6 DDR (3channel/CPU) x 2 GDDR GB/s 51.18GB/s 102GB/s 価格 ( 姫野が見積もったもの ) 約 6 万円約 100 万円約 8 万円

$PC と Server Tesla の比較 (2) 価格性能比 (GFLOPS/\k)$ 094 SERVER Intel Xeon X5570 0.094 0.

11.663 29.9 124.4 DP 0.975 2.5 10.4 SP 4.

18 PC と Server Tesla の比較 (2) 価格性能比 (GFLOPS/\k) 電力性能比 (GFLOPS/W) PC Intel Core2 Duo SERVER Intel Xeon X GPGPU nvidia Tesla C1060 PC 比 Server 比 SP DP SP DP 単精度の計算では非常に性能が高いしかし倍精度ではそれほど効果が高くない

19 PC クラスタに関する理研での取り組み

4 テラフロップス MD-GRAPE3: 64 テラフロップス追加 (07 年 ) 特徴世界初のスカラ + ベクトル + 専用機複合システム計算機センターでPCクラスタを採用

20 2009 年 6 月まで運用していた RSCC RIKEN Super Combined Cluster システム構成スカラ + ベクトル + 専用機の複合システム入出力機器システム間接続 1 ギガビット毎秒のネットワークを使いグリッド接続スカラ部 12.4 テラフロップス MD-GRAPE3: 64 テラフロップス追加 (07 年 ) 特徴世界初のスカラ + ベクトル + 専用機複合システム計算機センターでPCクラスタを採用日本で初めてグリッド技術を全面的に採用した計算機センター利用者に利用計算機を意識させない世界最大規模日本で最速のPCクラスタ Top500リスト(2004 年 6 月 ) 第 7 位高性能で低コストベクトル部 0.28 テラフロップス産業技術大賞文部科学大臣賞受賞 2005 年 4 月次世代スーパーコンピュータ開発のテストベッドとして使用

21 第 2 世代 PC クラスタ :RSCC の狙い 1. スーパーコンピュータの既成概念に縛られずコスト性能比の良い計算機をメインの計算機に 2. 新たな利用者の獲得実験データ処理バイオインフォマティックスに適したシステムとし理研内の新たな利用者を取り込む Grid Computing Web 技術を用いてそれまで計算機センターのシステムに不慣れな研究者でも簡単に使えるシステムを構築フリーソフトが多数利用できる計算機システムとすること 3. 従来の利用者も利用できる環境は維持

22 RSCC システム開発と主な成果主なプレス発表電子の磁石の強さを 1 兆分の 1 の精度まで計算汚い物質中の電子が持つ美しい対称性共形不変性を世界で初めて実証 - 不規則系の臨界現象における理論手法の構築の第一歩 - LINPACK 性能で世界 7 位導入産業技術大賞文部科学大臣賞受賞素粒子の世界の真空エネルギーをコンピュータで計算金属表面で起こる分子の選択的分解反応と表面拡散運動の可視化に成功 H16.3 H16.6 H17.4 H18.4 H18.10 H19.4 H20.4 H21.4 テスト運用 (3 ヶ月間 ) 通常運用メタジョブスケジューラの開発導入ライフサイエンス 2% Bio ポータルの開発 RSCC との接続 RSCC 以前の利用者数数 ( 研究分野 ) AMBER ポータルの開発 MDGRAPE-3 の導入ライフサイエンス分野の増加ライフサイエンス 41% 利用者の研究分野の割合

23 RSCC の 5 年間の故障 RSCC ハード障害発生件数その他ネットワーク HPSS 高速磁気ディスク可視化 SX-7 Cluster 2009 年 6 月末までの統計データ LINPACK 測定中のハード障害 : 2004 年 3 月 1/1 4 月 11/14 5 月 6/11( トータルで 19 台 /33 台 ) 予防交換は導入当初 (2004 年 ) の Blade server nodes:128/128 InfiniBand ケーブル :512/1024 それ以降の予防保守は大半がメモリの 1 ビットエラー検出による交換初期不良と予防交換を除いたクラスタの平均故障率は約 3 台 / 月発生件数 2004 年 3 月 2004 年 6 月 2004 年 9 月 2004 年 12 月 2005 年 3 月 2005 年 6 月 2005 年 9 月 2005 年 12 月 2006 年 3 月 2006 年 6 月 2006 年 9 月 2006 年 12 月 2007 年 3 月 2007 年 6 月 2007 年 9 月 2007 年 12 月 2008 年 3 月 2008 年 6 月 2008 年 9 月 2008 年 12 月 2009 年 3 月 2009 年 6 月 PC Cluster ハード障害発生件数運用中発生 2005 年 9 月 2005 年 12 月 2006 年 3 月 2006 年 6 月 2006 年 9 月 2006 年 12 月 2007 年 3 月 2007 年 6 月 2007 年 9 月 2007 年 12 月 2008 年 3 月 2008 年 6 月 2008 年 9 月 2008 年 12 月 2009 年 3 月 2009 年 6 月 2004 年 9 月 2004 年 12 月 2005 年 3 月 2005 年 6 月 2004 年 3 月 2004 年 6 月発生件数

24 第 3.5 世代 PC クラスタ :RICC

25 RICC の狙い 1. 次世代スーパーコンピュータに向けたアプリケーション開発環境の整備大規模並列に対応するために 8000 コア超の大規模並列ジョブ実行を推進システムソフトウェア ( ジョブスケジューラ ) の機能強化一般利用の範囲で 8000 並列の大規模並列ジョブ実行を可能に 2. 新しい方向性 :GPGPU アクセラレータへの挑戦アクセラレータは時代の要請でありトレンド GPGPU アクセラレータを導入利用を推進

26 RICC の概要システム構成超並列 PC クラスタ +GPU クラスタ + 専用機クラスタ + 大容量メモリ計算機を単一の高速ネットワークで接続したクラスタオブクラスタ超並列 PC クラスタ 96.0 テラフロップス * 最新の CPU を採用した日本初の大規模 PC クラスタ (8192 コア ) 研究者実験データテープアーカイブ装置 HPSS (4PB) 2009 年導入時点の TOP 500 リストで世界 40 位日本で 3 位 PC クラスタシステムでは日本最速 ( 世界では 11 位 ) 多目的 PC クラスタ 9.3 テラフロップス + GPGPU アクセラレータ 93.3TFLOPS GPGPU の利用を容易にするためのビジュアルプログラミング環境を日本 IBM と共同で開発専用機クラスタ 3TFLOPS + MDGRAPE-3 64 テラフロップス * 理研で開発した分子動力学専用計算機を接続磁気ディスク装置 (550TB) 大容量メモリ計算機 0.24 テラフロップス 512GB メモリ *1 プロセスで 500GB 以上のメモリを利用可能

RICC と RSCC の比較システム構成 PC クラスタ + 大容量メモリ計算機 + アクセラレータ実験データ

5 倍超並列 PC クラスタ 1024Nodes(8192core) ノード性能 :93.

倍アーカイブ装置 2PB, HPSS,10GbE Ethernet IB 多目的 PC クラスタ

IB 1, PCI-ex16 レーン 1 磁気ディスク装置 550TB,SRFS,DDR IB 容量 27 倍 I/O 性能

27 RICC と RSCC の比較システム構成 PC クラスタ + 大容量メモリ計算機 + アクセラレータ実験データ演算性能 :8.5 倍メモリ I/O 性能 :2.5 倍超並列 PC クラスタ 1024Nodes(8192core) ノード性能 :93.0GFLOPS, 12GB(mem), 500GB(hdd),DDR IB 1 利用者容量 10 倍 I/O 性能 12 倍アーカイブ装置 2PB, HPSS,10GbE Ethernet IB 多目的 PC クラスタ 100Nodes(800core) ノード性能 : 93GFLOPS, 24GB(mem), 250GB(hdd),DDR IB 1, PCI-ex16 レーン 1 磁気ディスク装置 550TB,SRFS,DDR IB 容量 27 倍 I/O 性能 10 倍大容量メモリ計算機 1Node(36core) 0.24TFLOPS 512GB(mem) PCI-X,10GbE メモリ容量を 2 倍分子動力学専用計算機 64TFLOPS ホストノード :32Nodes, 32GB/Node,DDR IB 1/Node

28 最大で 8996 core を同時に使えるインターコネクト (InfiniBand) 構成 FBB 構成よりも Leaf 2/3, Spine 1/5 の構成ファイルサーバ 8 8 IB スイッチ (Spine) 144 ポート 2 IB スイッチ (Leaf) 24 ポート 59 20Nodes 20Nodes 20Nodes 20Nodes 20Nodes 4Nodes 20Nodes 20Nodes 12Nodes FE 超並列 PC クラスタ 1024 ノード多目的 PC クラスタ 132 ノード All Rights Reserved, Copyright (c) RIKEN 2009-

29 メタジョブスケジューラの機能複数のクラスタ上で動作しているジョブスケジューラの上位で動作異なるノード構成アプリケーションなどを管理サブクラスタ間のロードバランス等の解消様々なスケジューリングポリシー ( 優先順位など ) での運用可能フェアシェア機能バックフィル機能マルチコアシステムでの効率的なジョブ管理リソース管理 (NEW!) ネットワークトポロジと利用方針を踏まえたノードアロケーション管理 (NEW!) 数万の単一 CPU 利用ジョブのスケジューリングに対応 (NEW!) サーバ障害時のフェイルオーバーに対応 (NEW!)

30 メタジョブスケジューラ新機能 (1) マルチコアシステムの効率的なジョブリソース管理 RICC(PC クラスタ ) は quad core の CPU を 1 ノードに 2 つ搭載非並列並列ジョブ ( スレッドプロセス ) が混在非並列ジョブスレッド並列ジョブ (1 プロセス ) 空き core は他ジョブが使用可能 1CPU を占有空き core は他ジョブが使用可能 2 プロセス並列ジョブ 1 ノードを占有利用者のニーズに合わせて柔軟なリソースの利用を可能に +

31 メタジョブスケジューラ新機能 (2) ネットワークトポロジを踏まえたジョブのノードアロケーション管理が必須 FBB 構成よりも Leaf 2/3, Spine 1/5 の構成 InfiniBand ネットワーク構成ファイルサーバ 8 8 IB スイッチ (Spine) 144 ポート 2 IB スイッチ (Leaf) 24 ポート 59 20Nodes 20Nodes 20Nodes 20Nodes 20Nodes 4Nodes 20Nodes 20Nodes 12Nodes FE 超並列 PC クラスタ 1024 ノード多目的 PC クラスタ 132 ノード

32 メタジョブスケジューラの新機能 (3) 大規模並列ジョブを日常的に実行可能にジョブスケジューラの機能強化 ( バックフィル ) ジョブを投入する際に実行時間を指定すると効率的にジョブを実行ジョブの平均待ち時間を削減仮定 :CPU4 個バックフィル機能無しのジョブスケジュール投入されるジョブの規模 ( 横 : 時間縦 :CPU 数 ) A C B D F A B C D E FG E G ジョブ投入時間 A C E D バックフィル機能ありのジョブスケジュール余り CPU が減 A B A B C D E FG B D A B C D E FG E G C F G F ジョブ C の実行開始は普遍スループット向上

33 メタジョブスケジューラ新機能 (4) 実験データ解析やパラメータサーチなどでは非並列ジョブを大量に実行たとえば高エネルギー実験データ解析では 1 人で 5 千 ~1 万本のジョブを投入ジョブをまとめて 1 つのジョブとして投入可能にジョブスケジューラを改良 ( バルクジョブ ) システム全体が大きくなりジョブスケジューラの重要性は増大ジョブスケジューラの障害による影響大! サーバを 2 重化し障害時のフェイルオーバーに対応可能なようにソフト改修

34 システム緒元 RSCC RICC 理論性能設置面積 ( テープアーカイブ装置 & 保守スペース除く ) 重量消費電力 ( ピーク ) 発熱量 12.6TFLOPS 約 40m2約 24t 約 660kVA 約 550Mcal/h 198.8TFLOPS TFLOPS(SP) 約 47 m2 約 40t 約 850kVA 約 710Mcal/h

35 マシン室写真超並列 PC クラスタ増設した空調機多目的 PC クラスタ (GPGPU 搭載 ) MDGRAPE-3 クラスタ & 大容量メモリ計算機

36 RICC の性能

37 himenobmt を使った性能測定 himenobmt とは非圧縮性の Navier Stokes 方程式のソルバーのカーネル ( 流体シミュレーション ) 物体適合格子を使った差分法カーネルは圧力のポアソン方程式のソルバー ( 元は SOR 法 )

38 himenobmt の特徴メモリーアクセスの特徴 14 個の 3 次元配列 1 つだけ再利用 13 個の配列は一度だけしか参照しないキャッシュが効かない性能のボトルネックはメモリーバンド幅 14 ストリームのデータ供給 : 高バンド幅

39 himenobmt のカーネルコード for (i=1; i<imax 1; i++) for (j=1; j<jmax 1; j++) for (k=1; k<kmax 1; k++) { s0 = a0[i][j][k] * p[i+1][j][k] + a1[i][j][k] * p[i][j+1][k] + a2[i][j][k] * p[i][j][k+1] 配列 P 差分ステンシルアクセス再利用 + b0[i][j][k] * (p[i+1][j+1][k] p[i+1][j 1][k] p[i 1][j+1][k] + p[i 1][j 1][k]) + b1[i][j][k] * (p[i][j+1][k+1] p[i][j+1][k 1] p[i][j 1][k+1] + p[i][j 1][k 1]) + b2[i][j][k] * (p[i+1][j][k+1] p[i+1][j][k 1] p[i 1][j][k+1] + p[i 1][j][k 1]) + c0[i][j][k] * p[i 1][j][k] + c1[i][j][k] * p[i][j 1][k] + c2[i][j][k] * p[i][j][k 1] + wrk1[i][j][k]; ss = (s0 * a3[i][j][k] p[i][j][k]) * bnd[i][j][k]; wrk2[i][j][k] = p[i][j][k] + omega * ss; } 他の 13 の配列点アクセス再利用無し

クラスター上での himenobmt GFLOPS 500 300 100-100 himenobmt RSCC(Size=XL) 32

himenobmt RICC(Size=XL) 512 GFLOPS 6000 4000 2000 0 HimenoBMT

40 クラスター上での himenobmt GFLOPS himenobmt RSCC(Size=XL) 32 RSCC 並列数 CPU で 174GFLPS GFLOPS himenobmt RICC(Size=XL) 512 GFLOPS HimenoBMT RICC(Size=XL) RICC 並列数 2048 並列数 8000core で 6.4TFLPS

41 GPGPU アクセラレータの理論性能ノード 100 枚理論性能理論性能 ( 単精度 ) 9.3 TFLOPS TFLOPS 10 倍

42 GFLOPS RICC での GPGPU の性能測定結果約 10 倍 himenobmt (Size XL) オリジナル vs. GPGPU 約 9.9 倍約 9.7 倍約 10 倍約 8.2 倍ノード数 (GPU 数 ) 約 8.2 倍 3.2TFLOPS 387GFLOPS himenobmt GPGPU 版は ( 株 ) 富士通研究所提供理論値は 11 倍 9.3 TFLOPS TFLOPS

43 RICC 運用状況

44 超並列 PC クラスタ (mpc) の利用率 RICC( 超並列 PC クラスタ ) テスト運用本運用 RSCC(PC クラスタ 1) 本運用開始まで計画停電テスト運用本運用 5 年間の RSCC(PC クラスタ 1) 利用率

45 VPP700/RSCC との比較 VPP700 RSCC RICC 研究分野の割合 % 20% 40% 60% 80% 100% ライフサイエンス物理学工学化学脳科学情報工学 VPP700( 2004 年 2 月 ) RSCC(2009 年 6 月末現在 ) と RICC(2009 年 10 月末 ) の登録ユーザーの研究分野主務による分類比較登録ユーザー数は VPP700 で 184 名 RSCC で 276 名 RICC は 144 名 VPP700 と比べると研究分野ではライフサイエンスが大幅に増大している

46 RICC ハードウェア故障発生件数 RICC システムハード障害発生件数 2009 年 8 月 2009 年 9 月 2009 年 10 月アーカイブシステムネットワーク関連磁気ディスク関連フロントエンド計算機大容量メモリ計算機多目的 PC クラスタ (MDGRAPE-3) 多目的 PC クラスタ超並列 PC クラスタ 2009 年 10 月末までの統計データ予防交換を除いたクラスタの平均故障率は約 7 台 / 月 9 月 10 月の磁気ディスク装置の障害では home 領域へのアクセス不可によりシステム利用が停止

47 GPU の利用促進に向けて

48 GPU プログラムの問題 LU 分解のオリジナルプログラム ( 一部 ) GPGPU 版プログラム ( 一部 ) void kerneld( const Matrix<T, Z, C>& blockb, const Matrix<T, R, Z>& blockc, const Matrix<T, R, C>& blockd, Matrix<T, R, C>& result) { struct timeval tvs, tve; std::stringstream ss; int i, j, k; gettimeofday(&tvs,null); ss << tvs.tv_sec << "." << tvs.tv_usec << " kerneld" << R << " start." << std::endl; std::cerr << ss.str(); ss.str(""); /* To make the code simpler, input matrix is copied to the output one first */ for(i = 0; i < R; i++) // row for(j = 0; j < C; j++) // column result.elementat(i, j) = blockd.elementat(i, j); /* Main loop of submatrix calculation */ for (i = 0; i < R; i++) // row for (k = 0; k < Z; k++) // column or row for (j = 0; j < C; j++) // column result.elementat(i, j) += blockb.elementat(k, j) * blockc.elementat(i, k); gettimeofday(&tve,null); ss << tve.tv_sec << "." << tve.tv_usec << " kerneld" << R << " finish." << std::endl; tve.tv_usec = tvs.tv_usec; tve.tv_sec = tvs.tv_sec; if( tve.tv_usec < 0 ){ tve.tv_usec += ; tve.tv_sec ; } ss << tve.tv_sec << "." << tve.tv_usec << " kerneld" << R << " used." << std::endl; std::cerr << ss.str(); ss.str(""); } void kerneld( Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockd, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockb, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockc, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* result); extern "C" void* udoplu_d(void* parm) { uspade_udop_parm_t* uparm = (uspade_udop_parm_t*)parm; std::string blockdparm = " :10003"; std::string blockbparm = " :10001"; std::string blockcparm = " :10002"; std::string resultparm = " :10004"; for (std::map<std::string, std::string>::const_iterator it = uparm >parms.begin(); it!= uparm >parms.end(); it++) { size_t pos; while ( (pos = blockdparm.find(it >first))!= std::string::npos ) blockdparm.replace(pos, it >first.length(), it >second); while ( (pos = blockbparm.find(it >first))!= std::string::npos ) blockbparm.replace(pos, it >first.length(), it >second); while ( (pos = blockcparm.find(it >first))!= std::string::npos ) blockcparm.replace(pos, it >first.length(), it >second); while ( (pos = resultparm.find(it >first))!= std::string::npos ) resultparm.replace(pos, it >first.length(), it >second); } InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockdport(blockdparm); InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockbport(blockbparm); InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockcport(blockcparm); OutSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > resultport(resultparm); Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockd; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockb; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockc; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> result; while ( uparm >active ) { if ( uparm >active ) blockdport.receive(blockd); if ( uparm >active ) blockbport.receive(blockb); if ( uparm >active ) blockcport.receive(blockc); struct timeval tv_st, tv_ed; gettimeofday(&tv_st, NULL); if ( uparm >active ) kerneld( &blockd, &blockb, &blockc, &result); gettimeofday(&tv_ed, NULL); printf("kernel fired!! (at %f in msec, %f [msec] to process kernel) n", (double)tv_ed.tv_sec * (double)tv_ed.tv_usec / 1000, (double)(tv_ed.tv_sec tv_st.tv_sec 1) * (double)( tv_ed.tv_usec tv_st.tv_usec) / 1000); if ( uparm >active ) resultport.send(result); } return NULL; }

GPGPU アプリケーション開発環境 RIVER(Riken IBM Visual

部品ライブラリの中の部品を組み合わせるだけでプログラミングが可能ノード並列もサポート

49 GPGPU アプリケーション開発環境 RIVER(Riken IBM Visual Programming EnviRonment) GPGPUは高速だがその性能を引き出すには高度なプログラムのスキルが必要だれでも使えるように初心者向けのビジュアルプログラミング環境を日本 IBMと共同で開発中部品ライブラリの中の部品を組み合わせるだけでプログラミングが可能ノード並列もサポート GPUが使えるコンパイラも近々利用可能になる予定 PGIコンパイラー ( 現在ベータ版 ) 連立一次方程式の前処理プロセス :LU 分解の例

56 RIVER の現状と今後部品が優秀ならそこそこの性能今後は理研内のアプリに応用してテスト部品ライブラリーを整備 RIVER と部品ライブラリーをフリーフェアとして配布

57 PC クラスターの歴史は背景と動機生産台数 :PC > WS > Server > Supercomputer 価格あたりの性能 : PC > WS > Server > Supercomputer 安くて高性能な PC でスパコンを :PC クラスタ PC クラスターにアクセラレータを装着して更にコスト性能を上げるのは自然汎用品を使って用途にあった専用品を作る

58 RICC での挑戦千から万に至る並列性能のテストアクセラレータによる性能向上の可能性と応用分野の開拓利用者の拡大 :RIVER 開発後はフリーにコスト性能比電力性能比の追求

Microsoft PowerPoint - 5-重谷.ppt

Microsoft PowerPoint - 5-重谷.ppt 理化学研究所スーパーコンピュータシステム RICC について理化学研究所情報基盤センター重谷隆之これまでの理研スーパーコンピュータシステム ~1994 年 2 月 : メインフレーム (FUJITSU M シリーズなど ) 1994 年 2 月 ~: ベクトル計算機 (Fujitsu VPP500) 1999 年 2 月 ~: ベクトル計算機 (Fujitsu VPP700E) 2004 年 3