PowerPoint プレゼンテーション

Size: px
Start display at page:

Download "PowerPoint プレゼンテーション"

Transcription

1 スーパーコンピュータのネットワーク 情報ネットワーク特論 南里豪志 ( 九州大学情報基盤研究開発センター ) 1

2 今日の講義内容 スーパーコンピュータとは どうやって計算機を速くするか スーパーコンピュータのネットワーク 2

3 スーパーコンピュータとは? " スーパー " な計算機 = その時点で 一般的な計算機の性能をはるかに超える性能を持つ計算機 スーパーコンピュータの用途 主に科学技術分野 創薬 分子構造シミュレーション 車 飛行機等の設計 構造シミュレーション 気象予測 熱力学シミュレーション等 出典 : 出典 : _sequoia.html 近年 他の分野でも利用拡大 株価変動予測 交通量解析 ソーシャルネットワーク上のデータ解析 顧客の行動予測等 出典 : 常に より高い性能の計算機を要求 3

4 計算機の 理論的な 最大性能 FLOPS (FLoating Operations Per Second) 一秒間に実行できる実数演算 (floating point operation) の数 実数計算がほとんどを占める科学技術計算で使用 理論的な最大 FLOPS の計算式 : Theoretical Peak FLOPS = frequency of CPU(CPU のクロック周波数 ) x number of operations per clock (1 クロックあたりの演算数 ) x number of CPUs (CPU の数 ) 例えば : 1GHz で 1 クロック当たり 4 個の演算を実行できる CPU を 1000 個搭載する計算機の理論的な最大 FLOPS = 4000 GFLOPS = 4 TFLOPS (Tera FLOPS) 4

5 実際の計算機の性能 例えば CPU は 以下を待つ間 計算が出来ない 計算すべきデータが ディスク メモリ ネットワークから CPU に届く 他の CPU との同期が完了する なので 実際の計算機の性能は プログラムに依存する 例 ) 多数の仕事に分けて 分担させることができるプログラム 低速の CPU を多数持つ計算機で高い性能が得られる 仕事の分割や分担が難しいプログラム 非常に高速な CPU を持つ計算機でなければ 高い性能が得られない 同じプログラムを各計算機で実行して実行時間を比較 ベンチマークプログラム 5

6 Top500 List 最も有名な スーパーコンピュータ性能比較リスト 稼働中のスーパーコンピュータの 1 位 ~500 位を掲載 毎年 6 月と 11 月に更新 LINPACK ベンチマークプログラムの性能で順位付け 連立一次方程式の解を求める計算 比較的 理論的な最大性能に近い性能が出る 他の計算機との比較や傾向の分析などが容易 1993 年からほとんど同じ条件で更新を継続 世界中のほぼ全てのスーパーコンピュータが登録 スーパーコンピュータ開発競争に利用 6

7 スーパーコンピュータの例 : 地球シミュレータ 2002 年 3 月に稼働を開始 主に NEC が開発 開発目標 : 10km 四方 ( 赤道近辺 ) の精度で地球全体の大気循環をシミュレート それまでは 100km 四方 例えば台風の発生過程 :100km 四方だと台風が台風に見えない 地球シミュレータの成果 台風進路予測 5.5km 四方で地球全体をシミュレート ( 日本近辺は 2.78km 四方 ) 海底探査船 ちきゅう に 正確な台風進路の予測結果を 到達予定の 3 日前までに提供 台風発生予測 過去 10 年間についてシミュレーションによる台風発生回数が実際の値とほぼ一致 7 CO2 の増加に伴う温暖化の予測 2040 年には年間の真夏日日数が約 20 日増加, 平均気温が約 2 度上昇.

8 Top500 における地球シミュレータの性能 Linpack 性能 35.8TFLOPS ( 理論最大性能 41.0TFLOPS) = 1 秒あたりの 35 兆回の実数計算 断トツの 1 位 2 位から 10 位までの計算機の演算性能の合計を上回る性能 (2002 年 6 月時点 ) Computenik = 計算機分野での Sputnik だ! (in New York Times) by Jack Dongarra 教授テネシー大学教授 Top500 サイトの創始者 USA のスーパーコンピュータ開発意欲に火を付けた 8

9 USA の逆襲 (2004 年 ) IBM Blue Gene/L (2004 年 11 月 ~) TFLOPS ( 理論最大性能 91.8TF) ちなみに地球シミュレータ (35TFLOPS) は 3 位に後退 まだ完成形ではない : 2005 年前半に さらに 4 倍高速化する計画 日本のすべてのスーパーコンピュータをかき集めても追いつかない規模になる 9

10 USA の逆襲 (2005 年 ) IBM Blue Gene/L (2005 年 11 月 ) 280.6TFLOPS ( 理論最大性能 367.0TFLOPS) 世界で初めて 100TFLOPS を越えた計算機 地球シミュレータは 7 位に後退 本当に日本のすべてのスーパーコンピュータをかき集めても追いつかない規模に 世界 500 位に入った計算機の性能の国別合計 : 1 位 USA 68.3% 2 位 Japan 5.68 % 3 位 UK 5.41% 4 位 Germany 3.10% 5 位 China 2.59% 以下 Australia, Switzerland, Netherland, Korea,... 10

11 1 位の計算機の変遷 2006 年 ~2014 年 Appear Name Country Linpack Peak ASCI White USA 7.2 TFLOPS 12.3 TFLOPS Earth Simulator Japan 35.9 TFLOPS 41.0 TFLOPS BlueGene/L USA TFLOPS TFLOPS RoadRunner USA 1.1 PFLOPS 1.5 PFLOPS Jaguar USA 1.8 PFLOPS 2.3 PFLOPS Tianhe-1A China 2.6 PFLOPS 4.7 PFLOPS K computer Japan 10.5 PFLOPS 11.3 PFLOPS Titan USA 17.6 PFLOPS 27.1 PFLOPS Tianhe-2 China 33.9 PFLOPS 54.9 PFLOPS 11

12 最新情報 : 2014 年 6 月 1 位 Tianhe-2(China) 33.9 PFLOPS 2 位 Titan (USA) 17.6 PFLOPS 3 位 Sequoia (USA) 17.1 PFLOPS 4 位 K Computer(Japan) 10.5 PFLOPS 国別合計 : 1 位 USA 44.7% (122.5 PFLOPS) 2 位 China 19.0% ( 52.1 PFLOPS) 3 位 Japan 8.7% ( 23.9 PFLOPS) 4 位 UK 5.4% ( 14.9 PFLOPS) 5 位 Germany 5.4% ( 14.8 PFLOPS) 以下,France, Switzerland, Italy, India, Australia, Korea,... 来月 更新予定 12

13 どうやって計算機を速くするか? CPU を速くする クロック周波数の向上 命令レベル並列処理の向上 電力 熱の限界 命令レベル並列性の限界 プロセッサコア数の増加 アクセラレータの利用 13

14 プロセッサを増やす 現在の計算機 = 複数のプロセッサを搭載した並列計算機 スーパーコンピュータだけでなく PC やタブレット スマートフォンまで あらゆる計算機が並列計算機 スーパーコンピュータのプロセッサコア数 Name Number of Cores K computer 705,024 Titan 560,640 Tianhe-2 3,120,000 タブレットのプロセッサコア数 Name Number of Cores Nexus9 2 ipadair2 3 Xperia Z3 Tablet 4 YOGA Tablet

15 並列計算機 仕事を複数のプロセッサに分担させて高速化 = 並列処理 普通の処理 仕事 1 並列処理 仕事 1 仕事 2 仕事 3 仕事 2 仕事 3 うまく分担できればプロセッサの数に応じて性能向上 並列処理をするには? 並列プログラムが必要 15

16 並列プログラム 並列処理に必要な事項を含むプログラム 各 CPU コアへの仕事の分担のさせ方 相互の情報交換 CPU コアの間の同期等 普通のプログラム (= 並列じゃないプログラム ) とどう違う? 16

17 普通のプログラムの例 : 2 つのベクトルの和を計算 0 番目から 99 番目までの要素を順に計算 A B C プログラム double A[100], B[100], C[100];... for (i = 0; i < 100; i++) A[i] = B[i] + C[i]; 17

18 並列プログラムの例 : 複数の スレッド で並列処理 スレッド : 同じ記憶空間を共有しながら進行する流れ A B C スレッド 0 スレッド 1 スレッド 2 スレッド 全スレッドが同じ配列を共有 double A[100],B[100],C[100];... double A[100],B[100],C[100]; for (i=0; i<25; i++)... double A[100],B[100],C[100]; A[i] = B[i] + for C[i]; (i=25; i<50; i++)... double A[100],B[100],C[100]; A[i] = B[i] + C[i]; for (i=50; i<75; i++)... A[i] = B[i] + C[i]; for (i=75; i<100; i++) スレッド0 スレッド1 A[i] = B[i] + C[i]; スレッド2 18 スレッド3

19 スレッドによる並列化の利点と欠点 利点 : 比較的簡単に並列化 自動並列化コンパイラ等も利用可能 欠点 : 基本的に 共有メモリ型並列計算機 向け 分散メモリ型並列計算機 では使えない = 大規模な計算機で利用できない 19

20 共有メモリ型並列計算機 1 つのメインメモリを複数の CPU コアで共有 マルチ CPU コアの PC 等 CPU コア CPU コア CPU コア CPU コア CPU コア CPU コア メインメモリ CPU コアからメインメモリへの経路が共有 規模 (=CPU コア数 ) に限界 20

21 分散メモリ型並列計算機 複数の独立したメインメモリで構成 CPU コア CPU コア CPU コア CPU コア CPU コア CPU コア CPU コア CPU コア メインメモリ メインメモリ メインメモリ メインメモリ ネットワーク 規模に応じて経路の数も増加 大規模化が比較的容易 21

22 プロセス並列プログラム 分散メモリ型並列計算機における並列処理に必要 プロセス並列独立した記憶空間をもつ プロセス を単位とした並列処理 22

23 プロセス並列 プログラムの特徴 (1) 処理だけでなくデータも分割 各プロセスが別の配列を利用 A プロセス A プロセス A プロセス A プロセス B C B B C C C B double A[25],B[25],C[25];... double A[25],B[25],C[25]; for (i=0;i<25;i++)... double A[25],B[25],C[25]; A[i] = B[i] + for C[i]; (i=0;i<25;i++)... double A[25],B[25],C[25]; プロセス0 A[i] = B[i] + for C[i]; (i=0;i<25;i++)... プロセス1 A[i] = B[i] + for C[i]; (i=0;i<25;i++) プロセス2 A[i] = B[i] + C[i]; 23 プロセス3

24 プロセス並列 プログラムの特徴 (2) 他のプロセスのデータは直接参照できない 必要に応じてプロセス間通信 プロセス 0 プロセス 1 プロセス 2 プロセス 3 A A A A 受信 送信 ネットワーク 24

25 MPI (Message Passing Interface) 並列プログラム用に用意された通信関数群の定義 例 ) プロセス 0 からプロセス 1 にデータを転送 MPI_Comm_rank(MPI_COMM_WORLD, &myid);... if (myid == 0) MPI_Send(&(a[5]), 1, MPI_DOUBLE, 1, 0, MPI_COMM_WORLD); if (myid == 1) MPI_Recv(&(a[3]), 1, MPI_DOUBLE, 0, 0, MPI_COMM_WORLD, &status); 自分のプロセス番号を取得 プロセス 0 がプロセス 1 に送信 プロセス 1 がプロセス 0 から受信 25

26 分散メモリ型並列計算機の利点と欠点 利点 : 理論的な性能は 比較的容易に向上 極端な話, 単純に数を増やせば向上する 欠点 : 実質的な性能向上には工夫が必要 並列プログラムの作成 計算の分担 データの分割 計算結果の通信 並列処理のための時間増加 他の CPU との同期待ちや通信 現在のスーパーコンピュータは 全て分散メモリ型並列計算機 26

27 並列化手段と並列計算機 利用可能な並列化手段 自動並列化 OpenMP 共有メモリ型 分散メモリ型 MPI MPI プログラムは 作るのに苦労するがどこでも実行できる 27

28 アクセラレータ 背景 : 今後のスーパーコンピュータ高速化に向けた最大の課題は電力 アクセラレータの基本的な考え方 : 低性能 低機能だが 電力効率の高いコアを多数並べて並列計算する 電力 Top500 に登場する主なアクセラレータ : NVIDIA Tesla Intel Xeon Phi 例 ) 半分の性能を 1/8 の電力で達成 性能 電力効率 4 倍 28

29 NVIDIA Tesla GPGPU (General Purpose Graphic Processing Unit) グラフィック用の GPU を汎用計算にも使用する 高い電力効率 メモリ量を制限して高速メモリアクセスを実現 1 6GB 程度 演算の種類を制限して回路を単純化 主に加算, 乗算の性能重視 複雑な処理は制限 29

30 GPGPU の問題 メモリからアクセラレータのメモリへのデータ転送が遅い Tesla C2015 で 515GFLOPS に対して 8GB/sec アクセラレータ上のメモリへのアクセスは 144GB/sec NEC のベクトルプロセッサは 100GFLOPS に対して 256GB/sec 京のスカラープロセッサは 128GFLOPS に対して 64GB/sec 性能に対するメモリ量が少ない Tesla C2015 で 515GFLOPS に対して 6GB NEC のベクトルプロセッサは 100GFLOPS に対して 64GB 京のスカラープロセッサは 128GFLOPS に対して 16GB 専用のプログラム言語やインタフェースが必要 CUDA, OpenACC 30

31 Intel Xeon Phi 古い Pentium のアーキテクチャ + ベクトル演算器を最新の回路技術で実装 ベクトル演算器 : 1 度に 8 個の実数計算を実行可能 高い電力効率 小さい実装面積 高密度実装が可能 (Intel Xeon Phi 5110P で 60 コア ) 最新 CPU とアーキテクチャ互換 将来は CPU とメモリを共有 既存のプログラムが動く データのコピーが不要 どちらも 性能を活かすためには高度なチューニングが必要 31

32 性能比較 単精度実数演算性能 倍精度実数演算性能 NVIDIA Tesla K20X Intel Xeon Phi 5110P Intel Xeon E TF 2.0TF 0.33TF 1.3TF 1.0TF 0.33TF メモリ容量 6GB 8GB 16~128GB 消費電力 235W 225W 150W 32

33 Tianhe-2 ( 天河 2) 構成 : (24 プロセッサコア + アクセラレータ ) x 約 1 万 6 千ノード CPU: Intel Xeon E GHz x 12cores x 2chips アクセラレータ : Intel Xeon Phi 31S1P 理論演算性能に対する実性能比 : (= 33.9PF / 54.9PF) 電力あたり性能 : 1.90GF / W ネットワーク : Fat Tree 名称 : TH Express-2 出典 : /18/content_ _2.htm 出典 : 33

34 Titan 製品名 : Cray XK7 構成 : (16 プロセッサコア + GPU) x 約 1 万 8 千ノード CPU: AMD Opteron GHz アクセラレータ : NVIDIA Tesla K20X 理論演算性能に対する実性能比 : 0.65 (= 17.6PF / 27.1PF) 電力あたり性能 : 2.14GF / W ネットワーク : 3 次元トーラス構造 名称 : GEMINI 出典 : 34

35 Sequoia 製品名 : IBM BlueGene/Q Top500 List の 2 位,4 位,5 位,9 位 構成 : 16 プロセッサコア x 約 10 万ノード CPU: IBM PowerBQC 1.6GHz 理論演算性能に対する実性能比 : 0.81(= 16.3 PF / 20.1 PF ) 電力あたり性能 : 2.1GFLOPS / W ネットワーク : 5 次元トーラス構造 出典 : _sequoia.html 35

36 K Computer 理化学研究所と富士通による開発 互換機の製品名 : Fujitsu PRIMEHPC FX10 九大情報基盤研究開発センターで利用可能 構成 : 8 プロセッサコア x 約 8 万ノード CPU: Fujitsu SPARC64 VIIIfx 2.0GHz 理論演算性能に対する実性能比 : 0.93 (=10.5PF / 11.3PF) 出典 : 消費電力 : 0.83GFLOPS / W ネットワーク : 6 次元トーラス / メッシュ構造 名称 : Tofu インターコネクト 36

37 Tianhe-2 vs Titan vs Sequoia vs K computer vs 地球シミュレータ 天河 2 Titan Sequoia K computer 地球シミュ レータ 総 CPU コア数 384, ,008 1,572, ,024 5,120 ノード数 16,000 18,688 98,304 88, アクセラレータ Xeon Phi Tesla No No No 理論性能 54.9 PF 27.1 PF 20.1 PF 11.3 PF PF 実性能 33.9 PF 17.6 PF 16.3 PF 10.5 PF PF 実性能 / 理論 電力 17.8MW 8.2MW 7.9MW 12.7MW 3.2 MW 実性能 / 電力 1.9 GF/W 2.1 GF/W 2.1 GF/W 0.83GF/W 0.01GF/W 37

38 スーパーコンピュータを使いこなす : 並列計算に対する期待と現実 プログラマ : CPU を 4 台使うんだから, 並列計算で 4 倍速くなって欲しい 計算機製作者 : CPU 4 台で 3 倍くらい速くなれば十分だろう Why? アムダールの法則 負荷のバランス 通信のコスト 38

39 アムダールの法則 プログラム中の高速化した部分しか高速化されない 並列化にあてはめて考えると : 並列化による性能向上率の理論的な限界 =1/((1-P)+P/N) P: プログラム中の並列化対象部分が全処理時間に占める割合 N: プロセス数 例 ) N=4 で 3.5 倍以上高速化するためには 95% 以上の部分の並列化が必要 39

40 分担する計算量のバランス 並列プログラムの処理時間は 最も遅いプロセスの処理時間 である Execution time of this program Execution time of this program Rank 0 Rank 1 Rank 2 Rank 3 計算量が不均等な場合 Rank 0 Rank 1 Rank 2 Rank 3 計算量が均等な場合 40

41 通信時間 並列化前は不要だった時間 = 並列化によるオーバーヘッド 並列化前 並列化後 Rank 0 Rank 1 Rank 2 Rank 3 41

42 スーパーコンピュータの計算時間と通信時間 計算時間 : 基本的に プロセス数に応じて短縮 通信時間 : 基本的に プロセス数に応じて増加 所要時間 通信時間計算時間 プロセス数 プロセス数に応じて通信時間の比率が増大 42

43 スーパーコンピュータのネットワークへの要求 通信性能 遅延時間を短く 高速なネットワークコントローラ 短い接続経路 経路の帯域幅を大きく 高い伝送速度のネットワーク 経路長い 帯域幅細い 経路短い 帯域幅太い 経路の競合を少なく 経路数増加 高度な経路制御 競合 競合 経路数少ない 経路数多い 費用 なるべく安く : ネットワークコントローラ 経路数やスイッチ数 経路の帯域幅に依存 43

44 Bus / Ring Topology 一本の Bus を全ノードで共有 両端をつなげたものが Ring 長所 : 構成が簡単なので 1 本あたりの帯域幅を太く出来る 経路とスイッチの数はノード数と同じなので費用は低い 短所 : 同時に利用可能な通信経路は 1 本だけ 双方向の場合 2 本 プロセッサ内部のコア間ネットワーク (8 コア ) のような小規模なネットワークで利用 44

45 Full Direct Connection 全ノード間で 一対一に接続 長所 : 遅延時間 ( 通信距離 ) 最小 短所 : 高価 ノード数の 2 乗に応じた経路数 各ノードでノード数分の接続が可能な大規模スイッチ 小規模の CPU 間ネットワーク (4CPU 程度 ) で利用 45

46 Crossbar Switch 行列上の switch を介して全ノードを接続 長所 : 遅延時間 ( 通信距離 ) はほぼ最小 ノード数に比例した同時通信帯域幅 短所 : 高価 ノード数の 2 乗に比例した結線数とスイッチ数 最大で 地球シミュレータ (640 ノード ) 程度まで利用 通常は数十ノード程度まで 46

47 Fat Tree 多段の crossbar switch による木構造で構成 長所 : 比較的 遅延時間が低い 通信距離はスイッチの段数 x 2 比較的 同時通信帯域幅が高い 上位層のスイッチ数と経路数による 比較的 費用が安価 短所 : 数万ノード以上のシステムでは まだ高価 大規模なシステムでは上位層の経路数を削減 通常 数千ノード規模まで Tianhe-2 は特別 47

48 多次元メッシュ / トーラス 多次元の格子状にノードを配置し 隣接ノード間を直接接続 両端を接続したものがトーラス 長所 : 費用が安価 ノード数 N に比例した経路数 リングやバスより格段に高速 特に隣接ノードとの通信 短所 : 通信パターンによっては 通信衝突が多発 プログラムの高度なチューニングが必要 主に数万ノード規模で利用 48

49 さらなる大規模化に向けて High-Radix switch( ポート数の多いスイッチ ) の利用 段数小 通信遅延の低減 同時通信帯域幅の維持 例 ) 多段全対全結合 出典 : Dragonfly 出典 : 49

50 スーパーコンピュータ開発の今後 膨大な開発費 : 京の場合,7 年間で約 1,200 億円 事業仕分けでの指摘 2 番じゃダメなんですか? 次の目標 : 2018 年 ~2020 年に 1 Exa FLOPS を達成 (1 Exa = 1,000 Peta) 予算は??? 50

51 今後の開発計画 富士通 : 京の商用機発表 NEC: SX-9 後継のベクトル計算機開発計画を発表 IBM: BlueGene/Q で 100PFLOPS を狙う Cray: Blue Water Barcelona Supercomputing Center: Tegra + GPGPU でスーパーコンピュータ開発 中国 : 自国製 CPU ShenWey SW /china_s_indigenous_supercomputing_strategy_bears_first_fruit.html 51

52 米国の変化 PCAST (President s Council of Advaisors on Science and Technology) の指摘 "an arms race that is very expensive and may not be a good use of funds." TOP500 創設者が LINPACK ベンチマークの限界を指摘 "It is expected to debut this November in tandem with SC13." "you will need to keep learning, changing and adapting to the rapidly changing hardware and software environments of HPC." 今後 ゲームのルールが変わる可能性 52

53 Top500 に代わる指標 HPC Challenge 複数の部門でそれぞれ順位づけ Linpack, Matrix Multiply, Memory Bandwidth, Matrix Transpose, Random Access, Fast Fourier Trans, Communication Bandwidth and Latency 京は HPC Challenge の 5 部門でも 1 位 Graph500 組み合わせ最適化問題の計算性能比較 Green500 Top500 の性能を消費電力で割った電力対性能比を比較 53

54 次のスーパーコンピュータ開発に向けた議論 米国 ヨーロッパ 日本 予算が問題 54

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

09中西

09中西 PC NEC Linux (1) (2) (1) (2) 1 Linux Linux 2002.11.22) LLNL Linux Intel Xeon 2300 ASCIWhite1/7 / HPC (IDC) 2002 800 2005 2004 HPC 80%Linux) Linux ASCI Purple (ASCI 100TFlops Blue Gene/L 1PFlops (2005)

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx シングルコアとマルチコア 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 前々回の授業の復習 CPUの進化 半導体集積率の向上 CPUの動作周波数の向上 + 複雑な処理を実行する回路を構成 ( 前々回の授業 ) マルチコア CPU への進化 均一 不均一なプロセッサ コプロセッサ, アクセラレータ 210 コンピュータの歴史 世界初のデジタルコンピュータ 1944 年ハーバードMark I

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始 2014 年 1 月 31 日 国立大学法人九州大学 株式会社日立製作所 九州大学がスーパーコンピュータ 高性能アプリケーションサーバシステム の本格稼働を開始 日立のテクニカルサーバ HA8000-tc/HT210 などを採用 従来システム比で 約 28 倍の性能を実現し 1TFLOPS あたりの消費電力は約 17 分の 1 に低減 九州大学情報基盤研究開発センター ( センター長 : 青柳睦 /

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

<4D6963726F736F667420506F776572506F696E74202D20834B8343835F83938358815C8FEE95F183568358836583808A7793C195CA8D758B608252816932303134944E348C8E3893FA816A202D2048502E70707478>

<4D6963726F736F667420506F776572506F696E74202D20834B8343835F83938358815C8FEE95F183568358836583808A7793C195CA8D758B608252816932303134944E348C8E3893FA816A202D2048502E70707478> ガイダンス 東 京 大 学 情 報 基 盤 センター 准 教 授 片 桐 孝 洋 204 年 4 月 8 日 ( 火 )4:40-6:0 ガイダンスの 流 れ. 講 義 の 目 的 2. 講 師 紹 介 3. 講 義 日 程 の 確 認 4. 成 績 の 評 価 方 法 5. イントロダクション(30 分 ) 2 本 講 義 の 目 的 近 年 京 コンピュータに 代 表 される 世 界 トップクラスのスーパーコンピュータが

More information

スーパーコンピューティング - 高速に計算する技術 -

スーパーコンピューティング - 高速に計算する技術 - 1 スーパーコンピュータ超入門講習会 九州大学情報基盤研究開発センター 皆さんは ふだん どのくらい計算機 ( コンピュータ ) を使っていますか? 週一回? 日に二 ~ 三回? 四六時中? 2 3 そう スマートフォンもゲーム機も計算機です ふだん あんまり計算をしているようには見えませんが 4 本来 計算機とは 計算をする道具です 皆さんの代わりに 皆さんよりはるかに速く 計算します 例えばスマートフォンでも

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

チューニング講習会 初級編

チューニング講習会 初級編 GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化

More information

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料) 今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

ガイダンス(2016年4月19日)-HP

ガイダンス(2016年4月19日)-HP スパコンプログラミング(), (I) ガイダンス 東 京 大 学 情 報 基 盤 センター 准 教 授 塙 敏 博 206 年 4 月 9 日 ( 火 )0:25-2:0 206/4/9 スパコンプログラミング (), (I) 2 ガイダンスの 流 れ. 講 義 の 目 的 2. 講 師 紹 介 3. 講 義 日 程 の 確 認 4. 成 績 の 評 価 方 法 5. 計 算 機 利 用 申 請 6.

More information

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社 ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社 概要 NEC は ビッグデータの分析を高速化する分散処理技術を開発しました 本技術により レコメンド 価格予測 需要予測などに必要な機械学習処理を従来の 10 倍以上高速に行い 分析結果の迅速な活用に貢献します ビッグデータの分散処理で一般的なオープンソース Hadoop を利用 これにより レコメンド 価格予測 需要予測などの分析において

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë 2015 5 21 OpenMP Hello World Do (omp do) Fortran (omp workshare) CPU Richardson s Forecast Factory 64,000 L.F. Richardson, Weather Prediction by Numerical Process, Cambridge, University Press (1922) Drawing

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

スライド 1

スライド 1 本日 (4/25) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

about MPI

about MPI 本日 (4/16) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

資料8-3 今後のHPCI計画推進のあり方に関する検討ワーキンググループの中間報告について(その5)

資料8-3 今後のHPCI計画推進のあり方に関する検討ワーキンググループの中間報告について(その5) 1. 国際的な状況 1 TOP500 の各国 1 位の推移 LINPACK 性能 [FLOPS] 10 ペタ 1 ペタ 100 テラ 10 テラ 地球シミュレータ 35.8TF 日本 BlueGene/L 70.7TF 世界で初めて 10 ヘ タフロッフ スの壁を突破 RoadRunner 1.0PF アメリカ 10.5PF Tianhe-1A 2.5PF 中国 Titan 17.5PF Tianhe-2

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

untitled

untitled AMD HPC GP-GPU Opteron HPC 2 1 AMD Opteron 85 FLOPS 10,480 TOP500 16 T2K 95 FLOPS 10,800 140 FLOPS 15,200 61 FLOPS 7,200 3 Barcelona 4 2 AMD Opteron CPU!! ( ) L1 5 2003 2004 2005 2006 2007 2008 2009 2010

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

スーパーコンピューティング - 高速に計算する技術 -

スーパーコンピューティング - 高速に計算する技術 - 1 スーパーコンピュータ超入門講習会 九州大学情報基盤研究開発センター 皆さんは ふだん どのくらい計算機 ( コンピュータ ) を使っていますか? 週一回? 日に二 ~ 三回? 四六時中? 2 3 そう スマートフォンもゲーム機も計算機です ふだん あんまり計算をしているようには見えませんが 4 本来 計算機とは 計算をする道具です 皆さんの代わりに 皆さんよりはるかに速く 計算します 例えばスマートフォンでも

More information

Microsoft PowerPoint - 【講演資料】渡邊様 松山-.ppt

Microsoft PowerPoint - 【講演資料】渡邊様 松山-.ppt スーパーコンピュータ 京 を知る集い 世界最速スーパーコンピュータ 京 平成 24 年 2 月 25 日 理化学研究所次世代スーパーコンピュータ開発実施本部渡辺貞 0 内容 スーパーコンピュータとは? スーパーコンピュータの応用例スーパーコンピュータの歴史世界のスーパーコンピュータ開発スーパーコンピュータの高速化と 京 スーパーコンピュータの施設 1 スーパーコンピュータとは? 2 スーパーコンピュータとは?

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には,

平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には, 平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には, 直方体領域 (2m 2m 4m 程度 ) の室内音場を想定し, 音声周波数帯域 (3kHz まで )

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

XACCの概要

XACCの概要 2 global void kernel(int a[max], int llimit, int ulimit) {... } : int main(int argc, char *argv[]){ MPI_Int(&argc, &argc); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx

More information

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63>

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63> 京都大学学術情報メディアセンター 新スーパーコンピュータ運用開始と T2K 連携の始動 アピールポイント 61.2 テラフロップスの京大版 T2K オープンスパコン運用開始 東大 筑波大との T2K 連携による計算科学 工学分野におけるネットワーク型研究推進 人材育成 アプリケーション高度化支援の活動を開始概要国立大学法人京都大学 ( 総長 尾池和夫 ) 学術情報メディアセンター ( センター長 美濃導彦

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B テーマ名ビッグデータの高速処理を小型かつ安価な構成で達成する密結合型ハードウェアと並列処理を組合せた計算機システム組織名国立大学法人電気通信大学情報システム学研究科吉永務教授技術分野 IT 概要ビッグデータの高速処理を実現するために ストレージ 光通信ネットワーク FPGA SSD 等を密接に結合させたハードウェアと高効率の並列処理を組合せ 小型かつ安価なシステム構成でありながら Hadoop Impala

More information

FX10利用準備

FX10利用準備 π-computer(fx10) 利用準備 2018 年 3 月 14 日理化学研究所計算科学研究機構八木学 1 KOBE HPC Spring School 2018 2018/3/14 内容 本スクールの実習で利用するスーパーコンピュータ神戸大学 π-computer (FX10) について システム概要 ログイン準備 2 神戸大学 π-computer: システム概要 富士通 PRIMEHPC

More information

スライド 1

スライド 1 計算科学が拓く世界 スーパーコンピュータは 何故スーパーか 学術情報メディアセンター 中島浩 http://www.pr.medi.kyoto-u.c.jp/jp/ usermesuper psswordcomputer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どうスーパーなのか どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

GPGPU によるアクセラレーション環境について

GPGPU によるアクセラレーション環境について GPGPU によるアクセラレーション環境について 長屋貴量 自然科学研究機構分子科学研究所技術課計算科学技術班 概要 GPGPU とは 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 その演算能力は CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野での応用が広がってきている

More information

RICCについて

RICCについて RICC 1 RICC 2 RICC 3 RICC GPU 1039Nodes 8312core) 93.0GFLOPS, 12GB(mem), 500GB (hdd) DDR IB!1 PC100Nodes(800core) 9.3 GPGPU 93.3TFLOPS HPSS (4PB) (550TB) 0.24 512GB 1500GB MDGRAPE33TFLOPS MDGRAPE-3 64

More information

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL   アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ GPUDirect の現状整理 multi-gpu に取組むために G-DEP チーフエンジニア河井博紀 (kawai@gdep.jp) 名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL http://www.gdep.jp アライアンスパートナー コアテクノロジーパートナー

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

Microsoft PowerPoint PCクラスタワークショップin京都.ppt PC クラスタシステムへの富士通の取り組み 富士通株式会社株式会社富士通研究所久門耕一 29 年度に富士通が提供する ( した ) 大規模クラスタ 今年度はCPUとしてメモリバンド幅がNehalem, QDR- IB( 片方向 4GB/s) などPCクラスタにとって期待できる多くのコモディティコンポーネントが出現 これら魅力ある素材を使ったシステムとして 2つのシステムをご紹介 理化学研究所様 RICC(Riken

More information

NUMAの構成

NUMAの構成 メッセージパッシング プログラミング 天野 共有メモリ対メッセージパッシング 共有メモリモデル 共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング 形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さい メッセージパッシングモデル 共有変数は使わない 共有メモリがないマシンでも実装可能 クラスタ

More information

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

untitled

untitled Power Wall HPL1 10 B/F EXTREMETECH Supercomputing director bets $2,000 that we won t have exascale computing by 2020 One of the biggest problems standing in our way is power. [] http://www.extremetech.com/computing/155941

More information

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint 知る集い(京都)最終.ppt 次世代スパコンについて知る集い 配布資料 世界最高性能を目指すシステム開発について ー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日 理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫 高性能かつ大規模システムの課題と対応 演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構 主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹 ネットワークシステム B- 6-164 DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹 早稲田大学基幹理工学研究科情報理工学専攻 1 研究の背景 n インターネットトラフィックが増大 世界の IP トラフィックは 2012

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 並列アルゴリズム 2005 年後期火曜 2 限 高見利也 ( 青柳睦 ) Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 12 月 20 日 ( 火 ) 9. PC クラスタによる並列プログラミング ( 演習 ) つづき 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題

More information

HPC可視化_小野2.pptx

HPC可視化_小野2.pptx 大 小 二 生 高 方 目 大 方 方 方 Rank Site Processors RMax Processor System Model 1 DOE/NNSA/LANL 122400 1026000 PowerXCell 8i BladeCenter QS22 Cluster 2 DOE/NNSA/LLNL 212992 478200 PowerPC 440 BlueGene/L 3 Argonne

More information

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N.

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N. SC10 2010 11 13 19 SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) 1 2005 8 8 2010 4 Ernest N. Morial Convention Center (ENMCC) Climate Simulation(

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

次世代スーパーコンピュータのシステム構成案について

次世代スーパーコンピュータのシステム構成案について 6 19 4 27 1. 2. 3. 3.1 3.2 A 3.3 B 4. 5. 2007/4/27 4 1 1. 2007/4/27 4 2 NEC NHF2 18 9 19 19 2 28 10PFLOPS2.5PB 30MW 3,200 18 12 12 SimFold, GAMESS, Modylas, RSDFT, NICAM, LatticeQCD, LANS HPL, NPB-FT 19

More information

HPC143

HPC143 研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例

More information

にゃんぱすー

にゃんぱすー ビッグデータ分析技術ワークショップ ~ グラフマイニング研究の最新動向と応用事例 ~ 平成 28 年 2 月 28 日 頂点順序の最適化による 高速なグラフ分析 新井淳也 日本電信電話株式会社 ソフトウェアイノベーションセンタ この発表について 下記論文についての発表です Rabbit Order: Just-in-time Parallel Reordering for Fast Graph Analysis

More information

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074> 発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数

More information

Itanium2ベンチマーク

Itanium2ベンチマーク HPC CPU mhori@ile.osaka-u.ac.jp Special thanks Timur Esirkepov HPC 2004 2 25 1 1. CPU 2. 3. Itanium 2 HPC 2 1 Itanium2 CPU CPU 3 ( ) Intel Itanium2 NEC SX-6 HP Alpha Server ES40 PRIMEPOWER SR8000 Intel

More information

倍々精度RgemmのnVidia C2050上への実装と応用

倍々精度RgemmのnVidia C2050上への実装と応用 .. maho@riken.jp http://accc.riken.jp/maho/,,, 2011/2/16 1 - : GPU : SDPA-DD 10 1 - Rgemm : 4 (32 ) nvidia C2050, GPU CPU 150, 24GFlops 25 20 GFLOPS 15 10 QuadAdd Cray, QuadMul Sloppy Kernel QuadAdd Cray,

More information

Microsoft PowerPoint - t-kubo07PN-LAMBDA-slide.ppt

Microsoft PowerPoint - t-kubo07PN-LAMBDA-slide.ppt リングネットワークにおける λコンピューティング環境に適した共有メモリアーキテクチャの設計と設計と評価 大阪大学大学院情報科学研究科大学院情報科学研究科村田研究室久保貴司 発表内容 研究の背景と目的 λコンピューティング環境 共有メモリアーキテクチャの設計と評価 設計 トポロジ メモリアクセスモデル キャッシュとメモリの一貫性制御 モデル化と解析 評価 まとめ 2007/6/14 PN 研究会 1

More information

27_02.indd

27_02.indd GPGPU を用いたソフトウェア高速化手法 Technique to Speedup of the software by GPGPU 大田弘樹 馬場明子 下田雄一 安田隆洋 山本啓二 Hiroki Ota, Akiko Baba, Shimoda Yuichi, Takahiro Yasuta, Keiji Yamamoto PCやワークステーションにおいて画像処理に特化して使用されてきたGPUを

More information

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ ホワイトペーパー BladeSymphony Virtage SR-IOV のご紹介 2014 年 7 月発行 株式会社日立製作所 1 / 8 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1 はじめに... 3 1.1 登録商標 商標... 3 1.2 注意事項... 3 1.3 免債事項... 3 2 SR-IOV の機能概要... 4

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

演習準備

演習準備 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年5月版) CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted DEGIMA LINPACK Energy Performance for LINPACK Benchmark on DEGIMA 1 AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK 1.4698 GFlops/Watt 1.9658 GFlops/Watt Abstract GPU Computing has

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Foundation アプライアンス スケーラブルシステムズ株式会社 サーバ クラスタの課題 複数のシステムを一つの だけで容易に管理することは出来ないだろうか? アプリケーションがより多くのメモリを必要とするのだけど ハードウエアの増設なしで対応出来ないだろうか? 現在の利用環境のまま 利用できるコア数やメモリサイズの増強を図ることは出来ないだろうか? 短時間で導入可能で また 必要に応じて 柔軟にシステム構成の変更が可能なソリューションは無いだろうか?...

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

Microsoft PowerPoint - RBU-introduction-J.pptx

Microsoft PowerPoint - RBU-introduction-J.pptx Reedbush-U の概要 ログイン方法 東京大学情報基盤センタースーパーコンピューティング研究部門 http://www.cc.u-tokyo.ac.jp/ 東大センターのスパコン 2 基の大型システム,6 年サイクル (?) FY 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 Hitachi SR11K/J2 IBM Power 5+ 18.8TFLOPS,

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

Fujitsu Standard Tool

Fujitsu Standard Tool 低レベル通信ライブラリ ACP の PGAS ランタイム向け機能 2014 年 10 月 24 日富士通株式会社 JST CREST 安島雄一郎 Copyright 2014 FUJITSU LIMITED 本発表の構成 概要 インタフェース チャネル ベクタ リスト メモリアロケータ アドレス変換 グローバルメモリ参照 モジュール構成 メモリ消費量と性能評価 利用例 今後の課題 まとめ 1 Copyright

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information