Microsoft PowerPoint - SS研200911姫野_最新.ppt

Size: px
Start display at page:

Download "Microsoft PowerPoint - SS研200911姫野_最新.ppt"

Transcription

1 3.5 世代 PCクラスタを中核とする理研 RICC: その狙いと現状 今後 理化学研究所情報基盤センター

2 内容 PCクラスターの歴史 Top500の新たな潮流 GPGPUの特徴 第二世代 PCクラスタ :RSCCの狙いとその結果 第 3.5 世代 PCクラスタ :RICCの狙いと現状 今後

3 PC クラスターの歴史と 最近の潮流

4 PC クラスタヒストリー 第一世代 :Beowulf 型個人 第二世代 :SCoreIII 産総研 RSCC(MD GRAPE) 高性能 共用 センター運用 Grid Computing RSCC:MD GRAPE による加速 2GB メモリーの壁 第三世代 :Fat Node Multi Core: Tsubame(2006 年 3 月稼働 ClearSpeed) T2K(2008 年 ) 第 3.5 世代 : + 汎用加速ボード Tsubame1.2(2008 年 12 月 GPGPU) 理研 RICC(2009 年 8 月 MD GRAPE3+GPGPU) GPGPU アクセラレータの一般化

5 第一世代 :Beowulf 型個人 2000 年デスクトップ PC CPU: Pentium III 450MHz 1CPU 8 ノード Interconnect : Fast Ethernet x 1 (100Mbps) 2001 年デスクトップ PC CPU: Pentium4 1.5GHz 1CPU 8 ノード Interconnect : Fast Ethernet x 1 (100Mbps) 2001 年ラックマウント 4U CPU: Pentium 4 1.7GHz 1CPU 64 ノード Interconnect : Myrinet 2000 Peak :217.6 GFLOPS

6 第二世代 :SCoreIII 産総研 RSCC 2001 年 Score III CPU: Pentium III 933MHz 2CPU 512 ノード Interconnect : Myrinet 2000 (2.0Gbps) Peak:955.4 GFLOPS 2004 年 RSCC CPU: Xeon 3.06GHz 2CPU 1024 ノード Interconnect : InfiniBand Peak:12.4 TFLOPS 2004 年 AIST スーパークラスタ CPU: Opteron 2.0GHz 2CPU, Itanium2 1.3GHz 4CPU Xeon 3.06GHz 2CPU Interconnect : Myrinet GbE Peak:14.6TFLOPS

7 第三世代 :Tsubame, T2K 2006 年 TSUBAME CPU: Dual Core Opteron (2.4GHz) 8CPU / ノード ClearSpeed CSX600 Interconnect: Infiniband Peak: 47.38TeraFlops 2008 年 Roadrunner (LANL) CPU: PowerXCell 8i 3.2 Ghz / Dual Core Opteron 1.8 GHz Interconnect: Infiniband Peak: PFLOPS 2008 年 T2K CPU: Quad core Opteron 4CPU/ ノード Interconnect: Myrinet, Infiniband T2K 東大 : 140TFLOPS (952 ノード ) T2K つくば : 95TFLOPS (648 ノード ) T2K 京都 : 61.2TFLOPS (416 ノード ) +GPGPU 3.5 世代

8 日本でのアクセラレータ アクセラレータの性能はホスト計算機の 倍 ( コスト性能比 電力性能比も ) 東大 :GRAPE シリーズ 現在は GRAPE DR 初代から数えて 8 代目 理研 : MD GRAPE2 WINE MD GRAPE3 研究的なボード :FPGA 市販品 ClearSpeed Tesla

9 世界では? 08 年の ISC:No.1 は Roadrunner

10 Roadrunner 電力消費が小さい!! 483m 2 コンパクト!!

11 Bell の法則?

12 新たな潮流の登場 Embedded/ Accelerated Commodity Cluster Custom Scalar Vector/SIMD

13 電力効率が話題に 電力効率は Cell が Embedded よりも良い

14 新しいトレンド? Accelerator Cell GPU GRAPE FPGA ClearSpeed Enbedded BlueGene/L, BlueGene/P BlueGene/Q 第 3.5 世代 PC クラスター マルチコアー PC CPU マルチソケット/ ノード メモリー空間大 アクセラレータ

15 GPU のハードウェア構造 Streaming Processor: SP x GB/s SP 倍精度演算ユニット 単精度演算ユニット Shared Memory (16kB) Device Memory (Global Memory:4GB) ホストとは PCI- Express 2.0 x16: 8GB/s 理研 GPU 講習会 NEC 資料を元にした

16 NVIDIA Tesla 出典 :wikipedia

17 PC と Server Tesla の比較 (1) PC PC Server nvidia Tesla C1060 CPU Intel Core2 Duo E GHz single socket Intel Xeon X GHz x 2Sockets core 数 2 x 4 8 (4/Socket x 2 Sockects) x 周波数 2.93 GHz x GHz x GHz Peak Performance GFLOPS x GFLOPS x 10 x GFLOPS(SP) 78 GFLOPS(DP) 消費電力 250 W x W x W メモリ転送性能 DDR x 6 DDR (3channel/CPU) x 2 GDDR GB/s 51.18GB/s 102GB/s 価格 ( 姫野が見積もったもの ) 約 6 万円 約 100 万円 約 8 万円

18 PC と Server Tesla の比較 (2) 価格性能比 (GFLOPS/\k) 電力性能比 (GFLOPS/W) PC Intel Core2 Duo SERVER Intel Xeon X GPGPU nvidia Tesla C1060 PC 比 Server 比 SP DP SP DP 単精度の計算では非常に性能が高い しかし 倍精度ではそれほど効果が高くない

19 PC クラスタに関する 理研での取り組み

20 2009 年 6 月まで運用していた RSCC RIKEN Super Combined Cluster システム構成 スカラ + ベクトル + 専用機の複合システム 入出力機器 システム間接続 1 ギガビット毎秒のネットワークを使いグリッド接続 スカラ部 12.4 テラフロップス MD-GRAPE3: 64 テラフロップス追加 (07 年 ) 特徴 世界初のスカラ + ベクトル + 専用機複合システム 計算機センターでPCクラスタを採用 日本で初めてグリッド技術を全面的に採用した計算機センター 利用者に利用計算機を意識させない 世界最大規模 日本で最速のPCクラスタ Top500リスト(2004 年 6 月 ) 第 7 位 高性能で低コスト ベクトル部 0.28 テラフロップス 産業技術大賞文部科学大臣賞 受賞 2005 年 4 月 次世代スーパーコンピュータ開発のテストベッドとして使用

21 第 2 世代 PC クラスタ :RSCC の狙い 1. スーパーコンピュータの既成概念に縛られず コスト性能比の良い計算機をメインの計算機に 2. 新たな利用者の獲得 実験データ処理 バイオインフォマティックスに適したシステムとし 理研内の新たな利用者を取り込む Grid Computing Web 技術を用いて それまで計算機センターのシステムに不慣れな研究者でも簡単に使えるシステムを構築 フリーソフトが多数利用できる計算機システムとすること 3. 従来の利用者も利用できる環境は維持

22 RSCC システム開発と主な成果 主なプレス発表 電子の磁石の強さを 1 兆分の 1 の精度まで計算 汚い 物質中の電子が持つ美しい対称性 共形不変性 を世界で初めて実証 - 不規則系の臨界現象における理論手法の構築の第一歩 - LINPACK 性能で世界 7 位 導入 産業技術大賞文部科学大臣賞 受賞 素粒子の世界の真空エネルギーをコンピュータで計算 金属表面で起こる分子の選択的分解反応と表面拡散運動の可視化に成功 H16.3 H16.6 H17.4 H18.4 H18.10 H19.4 H20.4 H21.4 テスト運用 (3 ヶ月間 ) 通常運用 メタ ジョブスケジューラの開発 導入 ライフサイエンス 2% Bio ポータルの開発 RSCC との接続 RSCC 以前の利用者数数 ( 研究分野 ) AMBER ポータルの開発 MDGRAPE-3 の導入 ライフサイエンス分野の増加 ライフサイエンス 41% 利用者の研究分野の割合

23 RSCC の 5 年間の故障 RSCC ハード障害発生件数 その他 ネットワーク HPSS 高速磁気ディスク可視化 SX-7 Cluster 2009 年 6 月末までの統計データ LINPACK 測定中のハード障害 : 2004 年 3 月 1/1 4 月 11/14 5 月 6/11( トータルで 19 台 /33 台 ) 予防交換は導入当初 (2004 年 ) の Blade server nodes:128/128 InfiniBand ケーブル :512/1024 それ以降の予防保守は大半がメモリの 1 ビットエラー検出による交換 初期不良と予防交換を除いたクラスタの平均故障率は約 3 台 / 月 発生件数 2004 年 3 月 2004 年 6 月 2004 年 9 月 2004 年 12 月 2005 年 3 月 2005 年 6 月 2005 年 9 月 2005 年 12 月 2006 年 3 月 2006 年 6 月 2006 年 9 月 2006 年 12 月 2007 年 3 月 2007 年 6 月 2007 年 9 月 2007 年 12 月 2008 年 3 月 2008 年 6 月 2008 年 9 月 2008 年 12 月 2009 年 3 月 2009 年 6 月 PC Cluster ハード障害発生件数 運用中発生 2005 年 9 月 2005 年 12 月 2006 年 3 月 2006 年 6 月 2006 年 9 月 2006 年 12 月 2007 年 3 月 2007 年 6 月 2007 年 9 月 2007 年 12 月 2008 年 3 月 2008 年 6 月 2008 年 9 月 2008 年 12 月 2009 年 3 月 2009 年 6 月 2004 年 9 月 2004 年 12 月 2005 年 3 月 2005 年 6 月 2004 年 3 月 2004 年 6 月 発生件数

24 第 3.5 世代 PC クラスタ :RICC

25 RICC の狙い 1. 次世代スーパーコンピュータに向けたアプリケーション開発環境の整備 大規模並列に対応するために 8000 コア超の大規模並列ジョブ実行を推進 システム ソフトウェア ( ジョブ スケジューラ ) の機能強化 一般利用の範囲で 8000 並列の大規模並列ジョブ実行を可能に 2. 新しい方向性 :GPGPU アクセラレータへの挑戦 アクセラレータは時代の要請であり トレンド GPGPU アクセラレータを導入 利用を推進

26 RICC の概要 システム構成 超並列 PC クラスタ +GPU クラスタ + 専用機クラスタ + 大容量メモリ計算機を単一の高速ネットワークで接続したクラスタ オブ クラスタ 超並列 PC クラスタ 96.0 テラフロップス * 最新の CPU を採用した日本初の大規模 PC クラスタ (8192 コア ) 研究者 実験データ テープアーカイブ装置 HPSS (4PB) 2009 年導入時点の TOP 500 リストで世界 40 位 日本で 3 位 PC クラスタ システムでは日本最速 ( 世界では 11 位 ) 多目的 PC クラスタ 9.3 テラフロップス + GPGPU アクセラレータ 93.3TFLOPS GPGPU の利用を容易にするためのビジュアル プログラミング環境を日本 IBM と共同で開発 専用機クラスタ 3TFLOPS + MDGRAPE-3 64 テラフロップス * 理研で開発した分子動力学専用計算機を接続 磁気ディスク装置 (550TB) 大容量メモリ計算機 0.24 テラフロップス 512GB メモリ *1 プロセスで 500GB 以上のメモリを利用可能

27 RICC と RSCC の比較 システム構成 PC クラスタ + 大容量メモリ計算機 + アクセラレータ 実験データ 演算性能 :8.5 倍メモリ I/O 性能 :2.5 倍 超並列 PC クラスタ 1024Nodes(8192core) ノード性能 :93.0GFLOPS, 12GB(mem), 500GB(hdd),DDR IB 1 利用者 容量 10 倍 I/O 性能 12 倍 アーカイブ装置 2PB, HPSS,10GbE Ethernet IB 多目的 PC クラスタ 100Nodes(800core) ノード性能 : 93GFLOPS, 24GB(mem), 250GB(hdd),DDR IB 1, PCI-ex16 レーン 1 磁気ディスク装置 550TB,SRFS,DDR IB 容量 27 倍 I/O 性能 10 倍 大容量メモリ計算機 1Node(36core) 0.24TFLOPS 512GB(mem) PCI-X,10GbE メモリ容量を 2 倍 分子動力学専用計算機 64TFLOPS ホストノード :32Nodes, 32GB/Node,DDR IB 1/Node

28 最大で 8996 core を同時に使える インターコネクト (InfiniBand) 構成 FBB 構成よりも Leaf 2/3, Spine 1/5 の構成 ファイルサーバ 8 8 IB スイッチ (Spine) 144 ポート 2 IB スイッチ (Leaf) 24 ポート 59 20Nodes 20Nodes 20Nodes 20Nodes 20Nodes 4Nodes 20Nodes 20Nodes 12Nodes FE 超並列 PC クラスタ 1024 ノード 多目的 PC クラスタ 132 ノード All Rights Reserved, Copyright (c) RIKEN 2009-

29 メタ ジョブ スケジューラの機能 複数のクラスタ上で動作しているジョブ スケジューラの上位で動作 異なるノード構成 アプリケーションなどを管理 サブクラスタ間のロードバランス等の解消 様々なスケジューリングポリシー ( 優先順位など ) での運用可能 フェアシェア機能 バックフィル機能 マルチ コアシステムでの効率的なジョブ管理 リソース管理 (NEW!) ネットワーク トポロジと利用方針を踏まえたノード アロケーション管理 (NEW!) 数万の単一 CPU 利用ジョブのスケジューリングに対応 (NEW!) サーバ障害時のフェイルオーバーに対応 (NEW!)

30 メタ ジョブ スケジューラ新機能 (1) マルチ コアシステムの効率的なジョブ リソース管理 RICC(PC クラスタ ) は quad core の CPU を 1 ノードに 2 つ搭載 非並列 並列ジョブ ( スレッド プロセス ) が混在 非並列ジョブ スレッド並列ジョブ (1 プロセス ) 空き core は他ジョブが使用可能 1CPU を占有空き core は他ジョブが使用可能 2 プロセス並列ジョブ 1 ノードを占有 利用者のニーズに合わせて 柔軟なリソースの利用を可能に +

31 メタ ジョブ スケジューラ新機能 (2) ネットワーク トポロジを踏まえたジョブのノード アロケーション管理が必須 FBB 構成よりも Leaf 2/3, Spine 1/5 の構成 InfiniBand ネットワーク構成 ファイルサーバ 8 8 IB スイッチ (Spine) 144 ポート 2 IB スイッチ (Leaf) 24 ポート 59 20Nodes 20Nodes 20Nodes 20Nodes 20Nodes 4Nodes 20Nodes 20Nodes 12Nodes FE 超並列 PC クラスタ 1024 ノード 多目的 PC クラスタ 132 ノード

32 メタ ジョブスケジューラの新機能 (3) 大規模並列ジョブを日常的に実行可能に ジョブ スケジューラの機能強化 ( バックフィル ) ジョブを投入する際に実行時間を指定すると 効率的にジョブを実行 ジョブの平均待ち時間を削減 仮定 :CPU4 個 バックフィル機能無しのジョブスケジュール 投入されるジョブの規模 ( 横 : 時間 縦 :CPU 数 ) A C B D F A B C D E FG E G ジョブ投入時間 A C E D バックフィル機能ありのジョブスケジュール 余り CPU が減 A B A B C D E FG B D A B C D E FG E G C F G F ジョブ C の実行開始は普遍 スループット向上

33 メタ ジョブ スケジューラ新機能 (4) 実験データ解析やパラメータ サーチなどでは 非並列ジョブを大量に実行 たとえば 高エネルギー実験データ解析では 1 人で 5 千 ~1 万本のジョブを投入 ジョブをまとめて 1 つのジョブとして投入可能にジョブ スケジューラを改良 ( バルク ジョブ ) システム全体が大きくなり ジョブ スケジューラの重要性は増大 ジョブ スケジューラの障害による影響大! サーバを 2 重化し 障害時のフェイルオーバーに対応可能なようにソフト改修

34 システム緒元 RSCC RICC 理論性能 設置面積 ( テープアーカイブ装置 & 保守スペース除く ) 重量 消費電力 ( ピーク ) 発熱量 12.6TFLOPS 約 40m2約 24t 約 660kVA 約 550Mcal/h 198.8TFLOPS TFLOPS(SP) 約 47 m2 約 40t 約 850kVA 約 710Mcal/h

35 マシン室写真 超並列 PC クラスタ 増設した空調機 多目的 PC クラスタ (GPGPU 搭載 ) MDGRAPE-3 クラスタ & 大容量メモリ計算機

36 RICC の性能

37 himenobmt を使った性能測定 himenobmt とは 非圧縮性の Navier Stokes 方程式のソルバーのカーネル ( 流体シミュレーション ) 物体適合格子を使った差分法 カーネルは圧力のポアソン方程式のソルバー ( 元は SOR 法 )

38 himenobmt の特徴 メモリーアクセスの特徴 14 個の 3 次元配列 1 つだけ再利用 13 個の配列は一度だけしか参照しない キャッシュが効かない 性能のボトルネックはメモリーバンド幅 14 ストリームのデータ供給 : 高バンド幅

39 himenobmt のカーネル コード for (i=1; i<imax 1; i++) for (j=1; j<jmax 1; j++) for (k=1; k<kmax 1; k++) { s0 = a0[i][j][k] * p[i+1][j][k] + a1[i][j][k] * p[i][j+1][k] + a2[i][j][k] * p[i][j][k+1] 配列 P 差分ステンシルアクセス再利用 + b0[i][j][k] * (p[i+1][j+1][k] p[i+1][j 1][k] p[i 1][j+1][k] + p[i 1][j 1][k]) + b1[i][j][k] * (p[i][j+1][k+1] p[i][j+1][k 1] p[i][j 1][k+1] + p[i][j 1][k 1]) + b2[i][j][k] * (p[i+1][j][k+1] p[i+1][j][k 1] p[i 1][j][k+1] + p[i 1][j][k 1]) + c0[i][j][k] * p[i 1][j][k] + c1[i][j][k] * p[i][j 1][k] + c2[i][j][k] * p[i][j][k 1] + wrk1[i][j][k]; ss = (s0 * a3[i][j][k] p[i][j][k]) * bnd[i][j][k]; wrk2[i][j][k] = p[i][j][k] + omega * ss; } 他の 13 の配列点アクセス再利用無し

40 クラスター上での himenobmt GFLOPS himenobmt RSCC(Size=XL) 32 RSCC 並列数 CPU で 174GFLPS GFLOPS himenobmt RICC(Size=XL) 512 GFLOPS HimenoBMT RICC(Size=XL) RICC 並列数 2048 並列数 8000core で 6.4TFLPS

41 GPGPU アクセラレータの理論性能 ノード 100 枚 理論性能 理論性能 ( 単精度 ) 9.3 TFLOPS TFLOPS 10 倍

42 GFLOPS RICC での GPGPU の性能測定結果 約 10 倍 himenobmt (Size XL) オリジナル vs. GPGPU 約 9.9 倍 約 9.7 倍 約 10 倍 約 8.2 倍 ノード数 (GPU 数 ) 約 8.2 倍 3.2TFLOPS 387GFLOPS himenobmt GPGPU 版は ( 株 ) 富士通研究所提供 理論値は 11 倍 9.3 TFLOPS TFLOPS

43 RICC 運用状況

44 超並列 PC クラスタ (mpc) の利用率 RICC( 超並列 PC クラスタ ) テスト運用 本運用 RSCC(PC クラスタ 1) 本運用開始まで 計画停電 テスト運用 本運用 5 年間の RSCC(PC クラスタ 1) 利用率

45 VPP700/RSCC との比較 VPP700 RSCC RICC 研究分野の割合 % 20% 40% 60% 80% 100% ライフサイエンス物理学工学化学脳科学情報工学 VPP700( 2004 年 2 月 ) RSCC(2009 年 6 月末現在 ) と RICC(2009 年 10 月末 ) の登録ユーザーの研究分野 主務による分類比較 登録ユーザー数は VPP700 で 184 名 RSCC で 276 名 RICC は 144 名 VPP700 と比べると 研究分野では ライフサイエンスが大幅に増大している

46 RICC ハードウェア故障 発生件数 RICC システムハード障害発生件数 2009 年 8 月 2009 年 9 月 2009 年 10 月 アーカイブシステム ネットワーク関連 磁気ディスク関連 フロントエンド計算機 大容量メモリ計算機 多目的 PC クラスタ (MDGRAPE-3) 多目的 PC クラスタ 超並列 PC クラスタ 2009 年 10 月末までの統計データ 予防交換を除いたクラスタの平均故障率は約 7 台 / 月 9 月 10 月の磁気ディスク装置の障害では home 領域へのアクセス不可により システム利用が停止

47 GPU の利用促進に向けて

48 GPU プログラムの問題 LU 分解のオリジナル プログラム ( 一部 ) GPGPU 版プログラム ( 一部 ) void kerneld( const Matrix<T, Z, C>& blockb, const Matrix<T, R, Z>& blockc, const Matrix<T, R, C>& blockd, Matrix<T, R, C>& result) { struct timeval tvs, tve; std::stringstream ss; int i, j, k; gettimeofday(&tvs,null); ss << tvs.tv_sec << "." << tvs.tv_usec << " kerneld" << R << " start." << std::endl; std::cerr << ss.str(); ss.str(""); /* To make the code simpler, input matrix is copied to the output one first */ for(i = 0; i < R; i++) // row for(j = 0; j < C; j++) // column result.elementat(i, j) = blockd.elementat(i, j); /* Main loop of submatrix calculation */ for (i = 0; i < R; i++) // row for (k = 0; k < Z; k++) // column or row for (j = 0; j < C; j++) // column result.elementat(i, j) += blockb.elementat(k, j) * blockc.elementat(i, k); gettimeofday(&tve,null); ss << tve.tv_sec << "." << tve.tv_usec << " kerneld" << R << " finish." << std::endl; tve.tv_usec = tvs.tv_usec; tve.tv_sec = tvs.tv_sec; if( tve.tv_usec < 0 ){ tve.tv_usec += ; tve.tv_sec ; } ss << tve.tv_sec << "." << tve.tv_usec << " kerneld" << R << " used." << std::endl; std::cerr << ss.str(); ss.str(""); } void kerneld( Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockd, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockb, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* blockc, Matrix<float,MATRIX_SIZE,MATRIX_SIZE>* result); extern "C" void* udoplu_d(void* parm) { uspade_udop_parm_t* uparm = (uspade_udop_parm_t*)parm; std::string blockdparm = " :10003"; std::string blockbparm = " :10001"; std::string blockcparm = " :10002"; std::string resultparm = " :10004"; for (std::map<std::string, std::string>::const_iterator it = uparm >parms.begin(); it!= uparm >parms.end(); it++) { size_t pos; while ( (pos = blockdparm.find(it >first))!= std::string::npos ) blockdparm.replace(pos, it >first.length(), it >second); while ( (pos = blockbparm.find(it >first))!= std::string::npos ) blockbparm.replace(pos, it >first.length(), it >second); while ( (pos = blockcparm.find(it >first))!= std::string::npos ) blockcparm.replace(pos, it >first.length(), it >second); while ( (pos = resultparm.find(it >first))!= std::string::npos ) resultparm.replace(pos, it >first.length(), it >second); } InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockdport(blockdparm); InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockbport(blockbparm); InSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > blockcport(blockcparm); OutSocketPort<Matrix<float,MATRIX_SIZE,MATRIX_SIZE> > resultport(resultparm); Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockd; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockb; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> blockc; Matrix<float,MATRIX_SIZE,MATRIX_SIZE> result; while ( uparm >active ) { if ( uparm >active ) blockdport.receive(blockd); if ( uparm >active ) blockbport.receive(blockb); if ( uparm >active ) blockcport.receive(blockc); struct timeval tv_st, tv_ed; gettimeofday(&tv_st, NULL); if ( uparm >active ) kerneld( &blockd, &blockb, &blockc, &result); gettimeofday(&tv_ed, NULL); printf("kernel fired!! (at %f in msec, %f [msec] to process kernel) n", (double)tv_ed.tv_sec * (double)tv_ed.tv_usec / 1000, (double)(tv_ed.tv_sec tv_st.tv_sec 1) * (double)( tv_ed.tv_usec tv_st.tv_usec) / 1000); if ( uparm >active ) resultport.send(result); } return NULL; }

49 GPGPU アプリケーション開発環境 RIVER(Riken IBM Visual Programming EnviRonment) GPGPUは高速だが その性能を引き出すには高度なプログラムのスキルが必要 だれでも使えるように初心者向けの ビジュアル プログラミング環境を日本 IBMと共同で開発中 部品ライブラリの中の部品を組み合わせるだけで プログラミングが可能 ノード並列もサポート GPUが使えるコンパイラも近々利用可能になる予定 PGIコンパイラー ( 現在ベータ版 ) 連立一次方程式の前処理プロセス :LU 分解の例

50

51

52

53

54 測定結果 (10 並列 ) All Rights Reserved, Copyright (c) RIKEN 2009-

55 並列性能 ノード数増加 =GPU 演算比率増加 All Rights Reserved, Copyright (c) RIKEN 2009-

56 RIVER の現状と今後 部品が優秀なら そこそこの性能 今後は理研内のアプリに応用してテスト 部品ライブラリーを整備 RIVER と部品ライブラリーをフリーフェアとして配布

57 PC クラスターの歴史は 背景と動機 生産台数 :PC > WS > Server > Supercomputer 価格あたりの性能 : PC > WS > Server > Supercomputer 安くて高性能な PC でスパコンを :PC クラスタ PC クラスターにアクセラレータを装着して 更にコスト性能を上げるのは自然 汎用品を使って 用途にあった専用品を作る

58 RICC での挑戦 千から万に至る並列性能のテスト アクセラレータによる性能向上の可能性と応用分野の開拓 利用者の拡大 :RIVER 開発後はフリーに コスト性能比 電力性能比の追求

Microsoft PowerPoint - 5-重谷.ppt

Microsoft PowerPoint - 5-重谷.ppt 理化学研究所スーパーコンピュータシステム RICC について 理化学研究所情報基盤センター重谷隆之 これまでの理研スーパーコンピュータシステム ~1994 年 2 月 : メインフレーム (FUJITSU M シリーズなど ) 1994 年 2 月 ~: ベクトル計算機 (Fujitsu VPP500) 1999 年 2 月 ~: ベクトル計算機 (Fujitsu VPP700E) 2004 年 3

More information

RICCについて

RICCについて RICC 1 RICC 2 RICC 3 RICC GPU 1039Nodes 8312core) 93.0GFLOPS, 12GB(mem), 500GB (hdd) DDR IB!1 PC100Nodes(800core) 9.3 GPGPU 93.3TFLOPS HPSS (4PB) (550TB) 0.24 512GB 1500GB MDGRAPE33TFLOPS MDGRAPE-3 64

More information

独立行政法人理化学研究所 日本で唯一の自然科学の総合研究所 ( 文部科学省所管 ) 物理学 工学 化学 ライフサイエンス 脳科学 拠点 : 埼玉県和光市以外にも 国内 6 箇所 海外 3 箇所 人員 : 約 3000 名 ( これ以外に外来研究者等が約 3000 名 )

独立行政法人理化学研究所 日本で唯一の自然科学の総合研究所 ( 文部科学省所管 ) 物理学 工学 化学 ライフサイエンス 脳科学 拠点 : 埼玉県和光市以外にも 国内 6 箇所 海外 3 箇所 人員 : 約 3000 名 ( これ以外に外来研究者等が約 3000 名 ) 理研 新スパコン システム (RICC) の紹介 重谷隆之理化学研究所情報基盤センター 独立行政法人理化学研究所 日本で唯一の自然科学の総合研究所 ( 文部科学省所管 ) 物理学 工学 化学 ライフサイエンス 脳科学 拠点 : 埼玉県和光市以外にも 国内 6 箇所 海外 3 箇所 人員 : 約 3000 名 ( これ以外に外来研究者等が約 3000 名 ) 情報基盤センター 全理研を対象とする研究支援部門

More information

Microsoft PowerPoint 自動チューニング姫野.ppt

Microsoft PowerPoint 自動チューニング姫野.ppt ペタスケール時代のソフトウェア開発に向けて 理化学研究所 姫野龍太郎 内容 1. ペタスケール時代の計算機ハードウェア 2. どんな計算が出てくるのか 3. ユーザーのプログラムに必要なこと 4. 計算機側で用意するソフトに必要なこと 5. エクサスケールを見据えたソフトウェア開発 a. International Exascale Software Project b. 何をなすべきか 1. ペタスケール時代の計算機

More information

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

Microsoft PowerPoint PCクラスタワークショップin京都.ppt PC クラスタシステムへの富士通の取り組み 富士通株式会社株式会社富士通研究所久門耕一 29 年度に富士通が提供する ( した ) 大規模クラスタ 今年度はCPUとしてメモリバンド幅がNehalem, QDR- IB( 片方向 4GB/s) などPCクラスタにとって期待できる多くのコモディティコンポーネントが出現 これら魅力ある素材を使ったシステムとして 2つのシステムをご紹介 理化学研究所様 RICC(Riken

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始 2014 年 1 月 31 日 国立大学法人九州大学 株式会社日立製作所 九州大学がスーパーコンピュータ 高性能アプリケーションサーバシステム の本格稼働を開始 日立のテクニカルサーバ HA8000-tc/HT210 などを採用 従来システム比で 約 28 倍の性能を実現し 1TFLOPS あたりの消費電力は約 17 分の 1 に低減 九州大学情報基盤研究開発センター ( センター長 : 青柳睦 /

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料) 今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.

More information

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

Itanium2ベンチマーク

Itanium2ベンチマーク HPC CPU mhori@ile.osaka-u.ac.jp Special thanks Timur Esirkepov HPC 2004 2 25 1 1. CPU 2. 3. Itanium 2 HPC 2 1 Itanium2 CPU CPU 3 ( ) Intel Itanium2 NEC SX-6 HP Alpha Server ES40 PRIMEPOWER SR8000 Intel

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年5月版) CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM

More information

Microsoft Word - koubo-H26.doc

Microsoft Word - koubo-H26.doc 平成 26 年度学際共同利用プログラム 計算基礎科学プロジェクト 公募要項 - 計算基礎科学連携拠点 ( 筑波大学 高エネルギー加速器研究機構 国立天文台 ) では スーパーコンピュータの学際共同利用プログラム 計算基礎科学プロジェクト を平成 22 年度から実施しております 平成 23 年度からは HPCI 戦略プログラム 分野 5 物質と宇宙の起源と構造 の協力機関である京都大学基礎物理学研究所

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション PC クラスタシンポジウム 日立のテクニカルコンピューティングへの取り組み 2010/12/10 株式会社日立製作所中央研究所清水正明 1 目次 1 2 3 日立テクニカルサーバラインナップ 日立サーバラインナップ GPU コンピューティングへの取り組み 4 SC10 日立展示 2 1-1 日立テクニカルサーバ : History & Future Almost 30 Years of Super

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7 次世代エンタープライズ向けスケールアップ & スケールアウト型モジュラー構造 Tiered クラスタ NAS 平成 22 年 4 月 1. トレンド ファイルサービスとして CIFS ファイルシェアリングが主流に Windows Active Directry によるセキュリティ管理下の流れ 低価格大容量スケーラブルな NAS のニーズ ハイパフォーマンススケールアウト NAS 用途の拡大 アプリケーションから見たストレージ

More information

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの Composer 6, Symphony 6, NewsCutter 10, Assist 2.5, Instinct 3.5 認定 PC システム システム PC デスクトップ HP Z800 DUal 6- core 2.66GHz (X5650) 3800 5.0.3/9.0.3 はいいいえはいはいはいはい (3 枚構成の DIMM) HP Z800 Dual Quad core 2.93GHz

More information

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx Dolphin Express による 10Gbps ソケット通信 Dolphin Express は 標準的な低価格のサーバを用いて 強力なクラスタリングシステムが構築できる ハードウェアとソフトウェアによる通信用アーキテクチャです 本資料では Dolphin Express 製品の概要と 実際にどの程度の性能が出るのか市販 PC での実験結果をご紹介します Dolphin Express 製品体系

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63>

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63> 京都大学学術情報メディアセンター 新スーパーコンピュータ運用開始と T2K 連携の始動 アピールポイント 61.2 テラフロップスの京大版 T2K オープンスパコン運用開始 東大 筑波大との T2K 連携による計算科学 工学分野におけるネットワーク型研究推進 人材育成 アプリケーション高度化支援の活動を開始概要国立大学法人京都大学 ( 総長 尾池和夫 ) 学術情報メディアセンター ( センター長 美濃導彦

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

クラウド基盤向けに処理性能や拡張性を強化した「HA8000シリーズ」の2プロセッサーサーバを販売開始

クラウド基盤向けに処理性能や拡張性を強化した「HA8000シリーズ」の2プロセッサーサーバを販売開始 クラウド基盤向けに処理性能や拡張性を強化した HA8000 シリーズ の 2 プロセッサーサーバを販売開始 2014 年 9 月 25 日 株式会社日立製作所 10 年保守対応モデルも用意し 制御 監視システムに求められる長期安定稼働を実現 HA8000/RS220 HA8000/RS210 株式会社日立製作所 ( 執行役社長兼 COO: 東原敏昭 / 以下 日立 ) は このたび PC サーバである日立アドバンストサーバ

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ ホワイトペーパー BladeSymphony Virtage SR-IOV のご紹介 2014 年 7 月発行 株式会社日立製作所 1 / 8 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1 はじめに... 3 1.1 登録商標 商標... 3 1.2 注意事項... 3 1.3 免債事項... 3 2 SR-IOV の機能概要... 4

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

スライド 1

スライド 1 High Performance Computing Infrastructure と学認 合田憲人 国立情報学研究所 背景と目的 2 HPCI 京コンピュータと国内のスーパーコンピュータや大規模ストレージを連携して利用するための革新的ハイパフォーマンス コンピューティング インフラ ロードマップ 2011/03 基本仕様策定 ( ネットワーク, 認証, ユーザ管理支援, 共用ストレージ, 先端ソフトウェア運用

More information

HP High Performance Computing(HPC)

HP High Performance Computing(HPC) ACCELERATE HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPC HP HPCHP HP HPC 1 HPC HP 2 HPC HPC HP ITIDC HP HPC 1HPC HPC No.1 HPC TOP500 2010 11 HP 159 32% HP HPCHP 2010 Q1-Q4

More information

チューニング講習会 初級編

チューニング講習会 初級編 GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 http://na-inet.jp/ 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. Webデザイン特別プログラム 5. 今後について

More information

09中西

09中西 PC NEC Linux (1) (2) (1) (2) 1 Linux Linux 2002.11.22) LLNL Linux Intel Xeon 2300 ASCIWhite1/7 / HPC (IDC) 2002 800 2005 2004 HPC 80%Linux) Linux ASCI Purple (ASCI 100TFlops Blue Gene/L 1PFlops (2005)

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

HPC可視化_小野2.pptx

HPC可視化_小野2.pptx 大 小 二 生 高 方 目 大 方 方 方 Rank Site Processors RMax Processor System Model 1 DOE/NNSA/LANL 122400 1026000 PowerXCell 8i BladeCenter QS22 Cluster 2 DOE/NNSA/LLNL 212992 478200 PowerPC 440 BlueGene/L 3 Argonne

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10 NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

More information

スライド 1

スライド 1 1 2 (National Research Grid Initiative) 4 3 flops 4 (Electrical Power Grid) Virtual Organization) Software catalogs Sensor nets Computing Resources Colleagues Data archives 5 グリッド の概念 アプリケーション アプリケーション

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について

More information

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1. ZettaScaler-1.5 による HPC システム構築と ZettaScaler-2.0 構想 2015 年 12 月 18 日 齊藤元章 ( 株式会社 PEZY Computing/ 株式会社 ExaScaler/UltraMemory 株式会社 ) 11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

スライド 1

スライド 1 期間限定販売プログラム vsmp Foundation クラスタを仮想化して運用と管理の容易なシングルシステムを構築様々なリソースを柔軟に統合化 Panasas ActiveStor 研究開発やエンタープライズクラスのワークロードに理想的なハイブリッドスケールアウト NAS アプライアンス 販売プログラム PANASAS ACTIVESTORE 仮想化ソフトウエア無償提供 2 販売プログラムの内容

More information

TSUBAME2.0におけるGPUの 活用方法

TSUBAME2.0におけるGPUの 活用方法 GPU プログラミング 基礎編 東京工業大学学術国際情報センター 1. GPU コンピューティングと TSUBAME2.0 スーパーコンピュータ GPU コンピューティングとは グラフィックプロセッサ (GPU) は グラフィック ゲームの画像計算のために 進化を続けてきた 現在 CPU のコア数は 2~12 個に対し GPU 中には数百コア その GPU を一般アプリケーションの高速化に利用! GPGPU

More information

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(6\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\).ppt)

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(6\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\).ppt) Mirapoint 製品対比表 (6 シリーズ /7 シリーズ ) シーティーシー エスピー株式会社 (C) Copyright 2010 CTCSP Corporation All rights reserved. 1 7-Series ハードウェア 7Series ハードウェアプラットフォーム 新世代 CPU 搭載 : Intel Quad-core Xeon based Nahalem architecture

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には,

平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には, 平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には, 直方体領域 (2m 2m 4m 程度 ) の室内音場を想定し, 音声周波数帯域 (3kHz まで )

More information

038_h01.pdf

038_h01.pdf 04 12Gb/ & PCIe Gen3 RAID P.09 P.16 P.12 P.13 P.10 P.14 P.12 P.12 P.16 P.08 P.09 P.10 P.14 P.16 P.09 12Gb/ & PCIe Gen3 RAID 05 12Gb/秒 & PCIe Gen3 6Gb/秒 & PCIe Gen3 6Gb/秒 & PCIe Gen3 Adaptec 7シリーズRAIDアダプタファミリ

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Oracle GRID Center Flash SSD + 最新ストレージと Oracle Database で実現するデータベース統合の新しい形 2011 年 2 月 23 日日本オラクル Grid Center エンジニア岩本知博 進化し続けるストレージ関連技術 高速ストレージネットワークの多様化 低価格化 10GbE FCoE 8Gb FC ディスクドライブの多様化および大容量 / 低価格化

More information

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBAで異なる性能 付録 ( 性能測定環境 ) P HBAでの性能測定環境 P HBAでの性能測定環境 本書の

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBAで異なる性能 付録 ( 性能測定環境 ) P HBAでの性能測定環境 P HBAでの性能測定環境 本書の ホワイトペーパー Hitachi Gigabit Fibre Channel アダプタ - 16G FC アダプタに搭載される FC ポート数の性能への影響 について - 2014 年 4 月発行 株式会社日立製作所 1 / 9 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1. はじめに... 3 2. 用語説明... 4 3. 対象アダプタ...

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

Windows Server 2016 Hyper-V ストレージQoS機能の強化

Windows Server 2016 Hyper-V ストレージQoS機能の強化 Windows Server 2016 Hyper-V ストレージ QoS 機能の強化 1. はじめに Windows Server 2012 R2 の Hyper-V ストレージ QoS(Quality of Service) 機能は 仮想ディスクに対する I/O 帯域制御において Hyper-V ホスト上の仮想マシン ( 以下 VM と略 ) に対してのみ管理が可能でした このため Hyper-V

More information

Microsoft PowerPoint - JANOG19-u10-GigaPcap(NonAnim).ppt

Microsoft PowerPoint - JANOG19-u10-GigaPcap(NonAnim).ppt Non-Sampling Flow Inspection を支える技術 ユーテン ネットワークス株式会新籾晶 アジェンダ Non-Sampling Flow Inspection を支える技術 背景のおさらいトラヒック解析の問題点 (Non-Sampling 観点 ) 解決策ハードウェア作っちゃいました!! 本当に Non-Sampling は実現できたのか? 性能比較による検証 まとめ 1 背景

More information

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始 2013 年 9 月 19 日 株式会社日立製作所 ビッグデータやクラウドのシステム基盤向けに処理性能を強化した BladeSymphony および HA8000 シリーズ の新製品を販売開始 運用管理工数の削減を実現するサーバ管理ソフトウェア Hitachi Compute Systems Manager を標準添付 BS520H サーバブレード / PCI 拡張ブレード HA8000/RS220-h

More information

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N.

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N. SC10 2010 11 13 19 SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) 1 2005 8 8 2010 4 Ernest N. Morial Convention Center (ENMCC) Climate Simulation(

More information

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ Composer 6 および Symphony 6 認定 Apple Mac システム システム Mac デスクトップ Mac Pro dual 6-Core 2.66GHz "Westmere" Core 2.66GHz および 2.93GHz "Nehalem" Core 2.26GHz "Nehalem" Core 3.0GHz および 3.2GHz "Harpertown" Geforce

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

東芝 MAGNIA R3320b での SSD 性能の検証 2012 年 8 月 株式会社東芝 クラウド & ソリューション事業統括部 目次 1. はじめに ソリッドステートドライブの概要 使用機器一覧 単体性能について サーバー用途別のテスト

東芝 MAGNIA R3320b での SSD 性能の検証 2012 年 8 月 株式会社東芝 クラウド & ソリューション事業統括部 目次 1. はじめに ソリッドステートドライブの概要 使用機器一覧 単体性能について サーバー用途別のテスト 東芝 MAGNIA R3320b での SSD 性能の検証 2012 年 8 月 株式会社東芝 クラウド & ソリューション事業統括部 目次 1. はじめに...2 2. ソリッドステートドライブの概要...2 3. 使用機器一覧...3 4. 単体性能について...3 5. サーバー用途別のテスト項目...4 6. テスト結果...6 7. まとめ...7 免責事項...8 商標...8 1 1.

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約 ANSYS Mechanical Distributed ANSYS( 領域分割法 ) 2011 年 1 月 17 日 富士通株式会社 ANSYS Mechanical ベンチマーク測定結果 目次 測定条件 1 標準問題モデル 2 総括 3 ベンチマーク測定について 3 留意事項 9 商標について 9 測定条件 測定に使用した環境は下記のとおりです System PRIMERGY BX922 S2

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます

More information

Microsoft Word - fibre-peripheral.doc

Microsoft Word - fibre-peripheral.doc (2006/01/18) Fibre Channel 関連 1. 概要 Fibre Channel ディスクアレイ装置とサーバ間を高速なインタフェースで接続する Fibre Channel 関連製品 ディスクアレイ装置 / 収納ユニットとサーバを接続するための Fibre Channel ケーブル 2Gbps Fibre Channel インタフェースに対応したスイッチ製品 < 留意事項 > ディスクアレイ装置内のライトキャッシュメモリはバッテリーバックアップユニットで退避処理されますが

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops ボードの概要 Control processor (FPGA by Altera) GRAPE-MP chip[nextreme

More information

Microsoft PowerPoint - intro.ppt

Microsoft PowerPoint - intro.ppt コンソーシアム紹介 PC クラスタコンソーシアム会長 石川裕 ( 東京大学 ) コンソーシアム概要 技術研究組合新情報処理開発機構が開発した SCore( エスコア ) クラスタシステムソフトウエアならびに Omni OpenMP 処理系を中核としたクラスタシステムソフトウエアの開発の継続 維持 普及を通して PC クラスタシステム市場育成に貢献することを目的として 2001 年 10 月に発足しました

More information

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBA/4P HBA で異なる性能 付録 P HBA での性能測定環境 P HBA での性能測定環境 P

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBA/4P HBA で異なる性能 付録 P HBA での性能測定環境 P HBA での性能測定環境 P ホワイトペーパー BladeSymphony/HA8000 Hitachi Gigabit Fibre Channel アダプタ - 16G FC アダプタに搭載される FC ポート数の性能への影響 について - 2014 年 10 月発行 株式会社日立製作所 1 / 11 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1. はじめに...

More information

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1 TSUBAME 2.0 Linpack 1,,,, Intel NVIDIA GPU 2010 11 TSUBAME 2.0 Linpack 2CPU 3GPU 1400 Dual-Rail QDR InfiniBand TSUBAME 1.0 30 2.4PFlops TSUBAME 1.0 Linpack GPU 1.192PFlops PFlops Top500 4 Achievement of

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

橡3_2石川.PDF

橡3_2石川.PDF PC RWC 01/10/31 2 1 SCore 1,024 PC SCore III PC 01/10/31 3 SCore SCore Aug. 1995 Feb. 1996 Oct. 1996 1997-1998 Oct. 1999 Oct. 2000 April. 2001 01/10/31 4 2 SCore University of Bonn, Germany University

More information

ペタスケール計算環境に向けたFFTライブラリ

ペタスケール計算環境に向けたFFTライブラリ A01 高橋班 大規模並列環境における 数値計算アルゴリズム 研究代表者 : 高橋大介 筑波大学大学院システム情報工学研究科 研究組織 研究代表者 高橋大介 ( 筑波大学 ): 研究統括および高速アルゴリズム 研究分担者 今村俊幸 ( 電気通信大学 ): 性能チューニング 多田野寛人 ( 筑波大学 ): 大規模線形計算 連携研究者 佐藤三久 ( 筑波大学 ): 並列システムの性能評価 朴泰祐 ( 筑波大学

More information

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B テーマ名ビッグデータの高速処理を小型かつ安価な構成で達成する密結合型ハードウェアと並列処理を組合せた計算機システム組織名国立大学法人電気通信大学情報システム学研究科吉永務教授技術分野 IT 概要ビッグデータの高速処理を実現するために ストレージ 光通信ネットワーク FPGA SSD 等を密接に結合させたハードウェアと高効率の並列処理を組合せ 小型かつ安価なシステム構成でありながら Hadoop Impala

More information

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~ MATLAB における並列 分散コンピューティング ~ Parallel Computing Toolbox & MATLAB Distributed Computing Server ~ MathWorks Japan Application Engineering Group Takashi Yoshida 2016 The MathWorks, Inc. 1 System Configuration

More information

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft PowerPoint - SWoPP2010_Shirahata GPU を考慮した MapReduce の タスクスケジューリング 白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所 大規模データ処理 情報爆発時代における 大規模データ処理 気象 生物学 天文学 物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデ スケーラブルな並列データ処理 GPGPU

More information

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

White Paper 高速部分画像検索キット(FPGA アクセラレーション) White Paper 高速部分画像検索キット (FPGA アクセラレーション ) White Paper 高速部分画像検索キット (FPGA アクセラレーション ) Page 1 of 7 http://www.fujitsu.com/primergy Content はじめに 3 部分画像検索とは 4 高速部分画像検索システム 5 高速部分画像検索の適用時の改善効果 6 検索結果 ( 一例 )

More information

卒業論文

卒業論文 PC OpenMP SCore PC OpenMP PC PC PC Myrinet PC PC 1 OpenMP 2 1 3 3 PC 8 OpenMP 11 15 15 16 16 18 19 19 19 20 20 21 21 23 26 29 30 31 32 33 4 5 6 7 SCore 9 PC 10 OpenMP 14 16 17 10 17 11 19 12 19 13 20 1421

More information

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析 ホワイトペーパー Excel と MATLAB の連携がデータ解析の課題を解決 製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析に使用することはできず

More information

PowerPoint Presentation

PowerPoint Presentation 計算機の展望 ( 高性能計算システムの展望 ) 朴泰祐筑波大学計算科学研究センター ( システム情報工学研究科 ) taisuke@cs.tsukuba.ac.jp http://www.hpcs.cs.tsukuba.ac.jp/~taisuke/ アウトライン HPCシステムの歴史概観 HPCシステムの現状と展望 クラスタコンピューティング ヘテロジニアスコンピューティング Exa-scaleコンピューティングに向けて

More information

KEK 技術研究会 2010/3/ /03/19 JPARC 実験データの共通計算機システムへの転送 高エネルギー加速器研究機構技術研究会 2010 年 3 月 19 日 KEK 共通基盤研究施設計算科学センター八代茂夫 2010/3/19 1/27 KEK 技術研究会 報告集の修正が入

KEK 技術研究会 2010/3/ /03/19 JPARC 実験データの共通計算機システムへの転送 高エネルギー加速器研究機構技術研究会 2010 年 3 月 19 日 KEK 共通基盤研究施設計算科学センター八代茂夫 2010/3/19 1/27 KEK 技術研究会 報告集の修正が入 JPARC 実験データの共通計算機システムへの転送 高エネルギー加速器研究機構技術研究会 2010 年 3 月 19 日 KEK 共通基盤研究施設計算科学センター八代茂夫 2010/3/19 1/27 KEK 技術研究会 報告集の修正が入っています HPSS サーバ計算機の仕様の修正 使用例 に認証のコマンドを追加 再測定した転送速度 NIC の変更後の測定 Web に報告集 本スライドを掲載済み

More information

ポスト「京」でのコデザイン 活動報告

ポスト「京」でのコデザイン 活動報告 重点課題 9 でのポスト 京 に対す るコデザイン活動報告 広島大学理学研究科 石川健一 1 目次 1. コデザイン活動 2. ポスト京関連公開情報 3. 重点課題 9 に関するコデザイン活動 2 1. コデザイン活動 RIKEN,R-CCS と FUJITSU によるポスト京計算機開発 コデザイン活動 重点課題からのターゲットアプリケーションの開発とシステムやソフトウェア開発を連携して開発 9 個のターゲットアプリケーション

More information

Fujitsu Standard Tool

Fujitsu Standard Tool 低レベル通信ライブラリ ACP の PGAS ランタイム向け機能 2014 年 10 月 24 日富士通株式会社 JST CREST 安島雄一郎 Copyright 2014 FUJITSU LIMITED 本発表の構成 概要 インタフェース チャネル ベクタ リスト メモリアロケータ アドレス変換 グローバルメモリ参照 モジュール構成 メモリ消費量と性能評価 利用例 今後の課題 まとめ 1 Copyright

More information