PowerPoint Presentation

Size: px
Start display at page:

Download "PowerPoint Presentation"

Transcription

1 計算機の展望 ( 高性能計算システムの展望 ) 朴泰祐筑波大学計算科学研究センター ( システム情報工学研究科 ) taisuke@cs.tsukuba.ac.jp

2 アウトライン HPCシステムの歴史概観 HPCシステムの現状と展望 クラスタコンピューティング ヘテロジニアスコンピューティング Exa-scaleコンピューティングに向けて まとめ 2

3 HPC システム概観

4 HPC システム概観 (1) 100MFLOPS~1GFLOPS 時代 ( 70 代後半 ~ 80 代前半 ) Cray-1に代表されるベクトル計算機 ベクトルレジスタと高バンド幅メモリによる高性能計算 史上初の over 1GFLOPS 計算機 :NEC SX-2 10GFLOPS~100GFLOPS 時代 ( 80 代後半 ~ 90 代前半 ) ベクトルの高性能化に加え パイプラインを並列に持つ ベクトル計算機を共有メモリ結合 ( 数台 ~ 数十台規模 ) 超並列計算機の兆し 1996 年 : 国産計算機がTOP500 中 #1~#3を独占 CP-PACS, SR2201: 準ベクトル超並列 NWT: 並列ベクトル ( 共有メモリ ) 4

5 HPC システム概観 (2) 1TFLOPS オーダー時代 ( 90 代後半 ) 汎用マイクロプロセッサによる超並列 :ASCI machines 史上初のover 1TFLOPS machine: SNL ASCI Red 10TFLOPS 時代 ( 00 代前半 ) ASCI 終盤マシン 地球シミュレータ (40TFLOPS): 共有 / 分散メモリ並列ベクトル 100TFLOPS 時代 ( 00 台中盤 ) 超並列 省電力 省スペース :IBM GlueGene/L 1PFLOPS 時代 ( 08) 超並列 クラスタ アクセラレータ :LANL RoadRunner 超並列 汎用クラスタ :ORNL Jaguar 史上初のover 1PFLOPS machine: Roadrunner, Jaguar この間 クラスタシステムの性能はコンスタントに向上し続けている 5

6 HPC システム概観 : 全体的な流れ 初期スパコンはベクトル計算機 大量のベクトルレジスタと高バンド幅メモリ ( バンクメモリ ) による物量作戦 ベクトルコンパイラ技術の進歩 ベクトル単体の性能限界 並列ベクトル方式 最初はベクトルパイプラインを並列化 ベクトル計算機を複数並列に ( 共有メモリ ) 共有メモリベクトル計算機の限界 分散メモリ並列ベクトル 超並列計算機の台頭 汎用マイクロプロセッサの高性能化 様々な並列ネットワークの登場 ベクトル計算機も超並列化 クラスタ計算機の出現 主流へ MPP(Massively Parallel Processor: 超並列計算機 ) より安価 汎用ネットワークの高性能化 大規模化 アクセラレータの出現とこれを利用しやすいシステム構成 6

7 HPC システムの現状 ~ クラスタシコンピューティング ~

8 クラスタ計算機によるスーパーコンピュータ クラスタ計算機 : 今日の HPC への最大の貢献者 TOP500 リストにおけるランクイン数 ベクトル計算機等に比べ格段の対価格性能比 ( ピーク性能 ) プロセッサとネットワークの両方にコモディティ技術を投入 同じプラットフォーム上で汎用計算と専用計算の両者を吸収可能 64bit 化された IA-32 (x86) プロセッサを Linux 環境で利用するのが典型的 ( 近年 Windows クラスタが出現 ) 柔軟な拡張性 (I/O を通して ) を用いた 加速装置 による高速化 専用化が可能 超並列化は必須 単体 CPU は速くはなっているが 全体の計算機性能要求はそれ以上に向上している コモディティネットワークによる大規模化が可能になってきた 8

9 TOP500 リスト (2008/06) アーキテクチャ Architecture Count Share (%) Rmax (GF) Rpeak (GF) Processor Cluster Constellations MPP Totals プロセッサファミリ Processor Count Share (%) Rmax (GF) Rpeak (GF) Processor Intel EM64T +AMD x86_ Others Totals

10 コモディティ CPU COTS (Commodity Of The Shelf) CPU による高い対価格性能比 本来 一種の専用計算機 だったスパコンを汎用技術で実現 Commodity 研究者 ( ユーザ ) が開発費用を払わなくてよい計算機要素技術 ( 世界中の一般ユーザが代わりに払ってくれている ) ベクトル計算機 or MPP: ユーザが開発コストを払う 過去 10 年間で 単体 CPU の性能は飛躍的に伸びている 周波数の向上 マルチコア技術 SIMD (SSE-type) 命令による FLOP/clock の向上 10

11 単体 CPU の計算性能 データ容量の限界 半導体の集積度は 1.5 年で約 2 倍になる ムーアの法則 もし IC 上のトランジスタ数の増加を演算性能に転換できれば プロセッサの性能は 1.5 年で約 2 倍になる と読み替えられる 右図 :Intel プロセッサのトランジスタ数の伸び メモリ等の容量の伸びもほぼこれに従う しかし これだけでは爆発する性能向上要求に対応できない ( ムーアの法則に従うプロセッサ単体の性能向上も限界に近づいている ) 近年 ムーアの法則は multi-core で稼ぎ始めている 11

12 コモディティネットワーク ( 相互結合網 ) 古典的なコモディティネットワーク Ethernet: 10base -> 100base -> 1000base -> 10Gbase 極めて高い対価格性能比がバンド幅において得られているただし レイテンシ ( 遅延時間 ) については今一つ 基本的に 木構造 なため拡張性が低い SAS (System Area Network / Storage Area Network) Infiniband, Myrinet,... バンド幅とレイテンシの両方で高い性能 ただし高価 Clos 網やFat-Tree 網が使えるため拡張性が高い 近年 SAS の価格が急激に低下している SAS がコモディティとなってきた On-board Ethernet NIC の代わりに On-board Infiniband NIC 等も出てきた 12

13 クラスタの持つ高い 性能拡張性 汎用 I/O バスの進化 PCI -> PCI-X -> PCI-Express -> PCI-E gen2 並列リンク -> 複数の超高速シリアルリンク CPUからの直接リンク : Hyper Transport, Quick Path ハードウェアアクセラレータの装着 Clear Speed: 東工大 TSUBAME Cell Broadband Engine: LANL Roadrunner GRAPE: 筑波大 FIRST Cluster GPGPU: PC clusters 全般 13

14 日本の TOP-4 スパコン TOP /11 Machine Site Vendor Rpeak (GF) Rmax (GF) #rank T2K-Todai Univ. Tokyo Hitachi TSUBAME Tokyo Inst. Tech. Sun T2K-Tsukuba Univ. Tsukuba Appro T2K-Kyodai Kyoto Univ. Fujitsu 現在 大学の計算センターのマシンが TOP-4 を占めている 4 台中 3 台が T2K Open Supercomputer Alliance のマシン T2K システムは全て quad-core Opteron (Barcelona) と quad-rail SAS (Myrinet10G or Infiniband) を利用 東工大 TSUBAME は dual-core Opteron + アクセラレータ (ClearSpeed + GT200) 14

15 T2K Open Supercomputer Alliance 元々は次期スパコン調達における共通仕様策定と運用連携が目的 学際的な計算機科学 計算科学の展開を目指し 研究 教育 グリッド運用等における連携活動へ Open hardware architecture with commodity devices & technologies. Open software stack with opensource middleware & tools. Open to user s needs not only in FP & HPC field but also INT world. Kyoto Univ. 416 nodes (61.2TF) / 13TB Linpack Result: Rpeak= 61.2TF (416 nodes) Rmax = 50.5TF Univ. Tokyo 952 nodes (140.1TF) / 31TB Linpack Result: Rpeak= 113.1TF ( nodes) Rmax = 83.0TF Univ. Tsukuba 648 nodes (95.4TF) / 20TB Linpack Result: Rpeak= 92.0TF (625 nodes) Rmax = 76.5TF

16 T2K-Tsukuba: 大規模汎用クラスタ #20 at TOP500 on June 2008 (Linpack: TFLOPS) 16

17 計算ノードとファイルサーバ Computation node (70racks) 800 TB (physical 1PB) RAID-6 Luster cluster file system Infiniband x 2 Dual MDS and OSS config. high reliability 648 node (quad-core x 4socket / node) Opteron Barcelona B8000 CPU 2.3GHz x 4FLOP/c x 4core x 4socket = GFLOPS / node = 95.3 TFLOPS / system 20.8 TB memory / system File server (disk array only) 17

18 計算ノードのブロックダイアグラム 2GB 667MHz DDR2 DIMM x4 Dual Channel Reg DDR2 2GB 667MHz DDR2 DIMM x4 Hyper Transport 8GB/s (Fullduplex) 2GB 667MHz DDR2 DIMM x4 2GB 667MHz DDR2 DIMM x4 4GB/s (Full-duplex) (A)1 (B)1 4GB/s (Full-duplex) PCI-Express X16 PCI-Express X8 PCI-X PCI-X Bridge 8GB/s X16 X8 X4 Bridge NVIDIA nforce GB/s Bridge NVIDIA nforce 3050 X16 X8 X4 SAS PCI-Express X16 PCI-Express X8 4GB/s (Full-duplex) (A)2 (B)2 4GB/s (Full-duplex) Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 20Gb/s) I/O Hub USB PCI-X Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 20Gb/s) 18

19 Infiniband 4xDDR x 4-rail の Fat-Tree 網 Full bi-sectional FAT-tree Network L3 SWs n n : #Node with 4 Links : #24ports IB Switch L2 SWs L1 SWs Nodes Detail View for one network unit # switches =616 (all 24-port) #IB cable x 20 network units

20 今日の最先端コモディティ CPU の性能上の問題 メモリと I/O のバンド幅に比べ 極めて高い浮動小数点演算性能 CPU 周波数は限界に達しつつあり ( 消費電力のため ) これ以上大幅な向上は見込めない 半導体テクノロジは進歩し続けており (90[nm] -> 65 -> 45 -> 22 ->...) ダイ上のトランジスタ数は増加を続ける ピーク性能維持 のため マルチコア / メニーコア化していくのは自然な流れ メモリバンド幅 : Rich Vector vs Poor Scalar CPU FLOPS とメモリバンド幅のギャップは確実に増え続けている 深刻な問題 ピーク性能 (Linpack) と実効性能 (non-cache-aware applications) の差が益々大きくなっていく 20

21 Balance on CPU : Memory : Network Systems C : M : N = GFLOPS : GB/s : GB/s C : M : N (M = 1.0) CP-PACS Earth Simulator PACS-CS T2K-Tsukuba C が小さく N が大きいほど バンド幅的に よい かつてのベクトル計算機 = 4Byte/FLOP ( 上の表では C:M = 0.25:1) 21

22 QCD (Quantum Chromo Dynamics) に必要なメモリバンド幅 QCD-mult benchmark core equation dim. computation load store B/flops t 168(x), 120(+) = 288 flop z 144(x), 192(+) = 336 flop y 144(x), 192(+) = 336 flop x 144(x), 192(+) = 336 flop clover 288(x), 312(+) = 600 flop 21*2 complex = 672B 21*2+12 complex = 864B 21*2+12 complex = 864B 21*2+12 complex = 864B 21*2+12 complex = 864B 12 complex = 192B 12 complex = 192B 12 complex = 192B 12 complex = 192B 12 complex = 192B (by Prof. Hiroshima U.) 5088B / 1896flop = 2.68 Byte/flop 近年のコモディティCPUの傾向では圧倒的に不足 22

23 HPC システムの現状 ~ ヘテロジニアスコンピューティング ~

24 Heterogeneous Computing Platform 計算ノードに汎用プロセッサと専用プロセッサを混在 ( 混載 ) させた ( 並列処理 ) システム 基本的なスタイル : クラスタ型並列計算機の計算ノードに何らかの演算加速装置を搭載 ClearSpeed GRAPE GPGPU (General Purpose Graphic Processing Unit) Cell Broadband Engine 従来より特定アプリケーションにおける高性能化が図られてきたが 2008/06 にLANLにおいてRoadrunnerがOpteron + Cell BEのヘテロ構成でover 1PFLOPS Linpack 性能を達成 ( ピーク性能は1.3PFLOPS) Hybrid Computing という言葉は共有メモリと分散メモリの programming paradigm を指す場合があるので ここでは Hetero- と呼ぶ 24

25 FIRST: 宇宙物理学のための ヘテロクラスタ nodes 512 CPU 256 Blade-GRAPE Total Performance = 36.1 Tflops Host 3.1 Tflops Blade-GRAPE 33 Tflops Total Memory = 1.6TB Total storage = 22TB (Gfarm) Blade-GRAPE 25

26 主な演算加速装置 (1) ClearSpeed 最大 192 個の演算装置を SIMD で動作 内部に演算装置毎のレジスタファイルと共有メモリを持つ 最近ではピーク性能が他の加速演算装置よりやや劣り 衰退気味 GRAPE 元々は重力多体計算のための演算加速装置 理研の MD-GRAPE 等 重力計算以外にも 近年は GRAPE-DR による一般化が進む ( 入出力に関しては従来に近い ) 26

27 主な演算加速装置 (2) Cell Broadband Engine 1 つの汎用プロセッサ (PPE) と 8 つの SIMD 型演算エンジン (SPE) を 1 チップに収めた超高性能プロセッサ PS3 用に開発されたが高性能加速エンジンとして利用され 改良版がLANL Roadrunnerに大量投入された PPEと全 SPEがcircular busで結合されるだけでなく 各 SPEが256KBの高速ローカルストレージを持つ GPU (GPGPU) 元々 PC 用グラフィックエンジン 内部演算性能を極限まで高め 最近は倍精度浮動小数点演算にも対応 SIMD 型演算を内蔵高速メモリ上で実現 本格的なHPCプラットフォームとして 複数のGPUを標準プラットフォームに収めたものも (nvidia TESLA) 27

28 演算加速装置への期待 従来の専用演算装置から ( 準 ) 汎用演算装置へ 従来型 GRAPE のような特殊な演算加速から SIMD 命令による汎用的な演算パイプラインが利用可能 GPGPU では標準的なプログラミングツールが準備されつつある (nvidia の CUDA や PGI の CUDA 準拠コンパイラ等 ) 汎用 CPU に比べ極めて高い性能 / 電力比 Opteron B8300 : 37GFLOPS / 120 W = 0.3GFLOPS/W TESLA C1060 card : 1TFLOPS / 160W = 6.25GFLOPS/W On-chip でのメモリ / データア クセスバンド幅 GPGPU では非常に高い内部メモリバンド幅を実現 約 20 倍!! GRAPE ではツリー型データパスにより各データ流のスループットは非常に高い 28

29 現在の演算加速装置の問題点 メイン CPU との間のデータ移動バンド幅が小さい 何らかの外部バスによる接続 現在は標準的にPCI-Expressが用いられる PCI-E Gen2 x 16 でも理論ピーク性能 10GB/s 最高性能のDDR3 メモリ等に比べ数分の一 例 :1 台のGForceGTX280 上でCUDAを用いて姫野ベンチマークが70GFLOPS 以上で動作する あくまで1 台のGPU 上での話 複数台接続やマザーボード上でCPUと結合すると性能が著しく低下する レジスタ 内部メモリ容量 SIMD 命令等により適用アプリケーションの制約がまだある 29

30 準汎用応用分野での演算加速装置への期待 GRAPE は過去 20 年 成功してきた 演算性能と入出力性能のバランスする世界では極めて有望 システムと応用の歩み寄り 応用分野の範囲と骨格的なアルゴリズムを限定することにより FPGA 等の構成要素を最適化 演算加速器に適応する新アルゴリズム / 新パラダイムの構築 素 核 宇宙分野の基礎科学では有望 アルゴリズム的に様々なアプローチが可能 極めて重い計算を行う システムやソフトウェアの開発コスト ( 人的コストを含め ) が生きる 演算加速装置の外部バンド幅増強の研究推進 Direct-CPU/Memory Attached Chip の研究 (HyperTransport や QuickPath への直付けチップ等 ) 30

31 Exa-Scale コンピューティングに向けて 31

32 課題は山積み システム側の課題 数百万ノード規模 ( コア数では数千万コア規模 ) の超々並列システムの実現 相互結合網 メモリ ( 実装技術よりもむしろコスト ) 耐故障性 超大規模システムの電力削減 半導体プロセスのさらなる微細化 + リーク電流等の対策 性能 / 電力比率をさらに高めるための演算加速技術の向上 クラスタシステムではいずれ限界が アプリケーション側の課題 EFLOPS の世界は超々並列の世界 weak scaling な問題を対象にしないとピーク性能を生かせない 問題自体が百万規模の超並列処理に適応できなければいけない 32

33 超並列向けアプリケーション 超並列方式におけるアプローチ 実空間離散化コンセプトに基づく超並列向けコード 隣接通信 + ブロードキャスト / リダクションを基本とする大規模並列処理 総演算量削減 ではなく 総演算時間削減 を 従来手法 :FFT スペクトル法 ルジャンドル展開 空間分解能を上げず畳み込みによる間接計算 実空間手法 : 実空間上の実モデルを直接シミュレート 超並列処理により 間接解法から直接解法へのパラダイムシフトが実現可能では? 将来の拡張に向けてアプリケーションのアルゴリズム コードの本質的見直しが必要 実空間離散化からプロセッサ空間へ直接マップ 物理空間を直接シミュレーション 33

34 EFLOPS への挑戦 計算科学の要請は EFLOPS へと続く ベクトル SMP 方式 スカラ SMP 方式は電力密度 ネットワーク規模及びバンド幅の点で限界に 超低消費電力技術を駆使した超並列方式 + 何らかの演算加速技術 100 万規模のノードを結合するためネットワークトポロジは制約 計算基礎科学 ( 素 核 宇宙 ) では対応可能 ( だと思われる ) 34

35 超並列方式のエコシステム 物理空間を直接シミュレーション 実空間離散化から直接マップ 問題空間の高密度離散化 FFT スペクトル法等に依存しない直接解法へ 空間局所性を生かしたプロセッサ + ネットワークであれば超並列は可能 非常に高い演算性能が要求されるが近接通信のみでよい 超並列方式と実空間物理シミュレーションは相補的な関係にあり 実空間アプローチへのパラダイムシフトが それ自身が必要とする十分な並列演算性能を生み出す 35

36 まとめ 基礎科学分野における HPC 技術 超並列化への準備はある程度できている あらゆる局面でバンド幅を縮小するためのアルゴリズム開発は必須 超々並列化における省電力問題 演算加速装置の積極的利用 ハード / アプリに任せっきりの研究体制では不可能 システム側研究者 ( 計算機科学 ) と応用側研究者 ( 計算科学 ) の二人三脚が最大の鍵 基礎科学高性能計算連携の枠組みで システム ( ハード ソフト )+アルゴリズムの見直しと実効性能重視のシステム構築 応用分野の絞込み+ 各組織の英知 ( 計算科学 + 計算機科学 ) を結集し 次の世代の計算基礎科学の発展を目指す いろいろな研究グループの立ち上げ : High Performance Accelerated Computing Research Group (HPAC-RG) 36

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料) 今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

09中西

09中西 PC NEC Linux (1) (2) (1) (2) 1 Linux Linux 2002.11.22) LLNL Linux Intel Xeon 2300 ASCIWhite1/7 / HPC (IDC) 2002 800 2005 2004 HPC 80%Linux) Linux ASCI Purple (ASCI 100TFlops Blue Gene/L 1PFlops (2005)

More information

HPC可視化_小野2.pptx

HPC可視化_小野2.pptx 大 小 二 生 高 方 目 大 方 方 方 Rank Site Processors RMax Processor System Model 1 DOE/NNSA/LANL 122400 1026000 PowerXCell 8i BladeCenter QS22 Cluster 2 DOE/NNSA/LLNL 212992 478200 PowerPC 440 BlueGene/L 3 Argonne

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

HP High Performance Computing(HPC)

HP High Performance Computing(HPC) ACCELERATE HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPC HP HPCHP HP HPC 1 HPC HP 2 HPC HPC HP ITIDC HP HPC 1HPC HPC No.1 HPC TOP500 2010 11 HP 159 32% HP HPCHP 2010 Q1-Q4

More information

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始 2014 年 1 月 31 日 国立大学法人九州大学 株式会社日立製作所 九州大学がスーパーコンピュータ 高性能アプリケーションサーバシステム の本格稼働を開始 日立のテクニカルサーバ HA8000-tc/HT210 などを採用 従来システム比で 約 28 倍の性能を実現し 1TFLOPS あたりの消費電力は約 17 分の 1 に低減 九州大学情報基盤研究開発センター ( センター長 : 青柳睦 /

More information

untitled

untitled AMD HPC GP-GPU Opteron HPC 2 1 AMD Opteron 85 FLOPS 10,480 TOP500 16 T2K 95 FLOPS 10,800 140 FLOPS 15,200 61 FLOPS 7,200 3 Barcelona 4 2 AMD Opteron CPU!! ( ) L1 5 2003 2004 2005 2006 2007 2008 2009 2010

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

Microsoft PowerPoint PCクラスタワークショップin京都.ppt PC クラスタシステムへの富士通の取り組み 富士通株式会社株式会社富士通研究所久門耕一 29 年度に富士通が提供する ( した ) 大規模クラスタ 今年度はCPUとしてメモリバンド幅がNehalem, QDR- IB( 片方向 4GB/s) などPCクラスタにとって期待できる多くのコモディティコンポーネントが出現 これら魅力ある素材を使ったシステムとして 2つのシステムをご紹介 理化学研究所様 RICC(Riken

More information

RICCについて

RICCについて RICC 1 RICC 2 RICC 3 RICC GPU 1039Nodes 8312core) 93.0GFLOPS, 12GB(mem), 500GB (hdd) DDR IB!1 PC100Nodes(800core) 9.3 GPGPU 93.3TFLOPS HPSS (4PB) (550TB) 0.24 512GB 1500GB MDGRAPE33TFLOPS MDGRAPE-3 64

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション PC クラスタシンポジウム 日立のテクニカルコンピューティングへの取り組み 2010/12/10 株式会社日立製作所中央研究所清水正明 1 目次 1 2 3 日立テクニカルサーバラインナップ 日立サーバラインナップ GPU コンピューティングへの取り組み 4 SC10 日立展示 2 1-1 日立テクニカルサーバ : History & Future Almost 30 Years of Super

More information

橡3_2石川.PDF

橡3_2石川.PDF PC RWC 01/10/31 2 1 SCore 1,024 PC SCore III PC 01/10/31 3 SCore SCore Aug. 1995 Feb. 1996 Oct. 1996 1997-1998 Oct. 1999 Oct. 2000 April. 2001 01/10/31 4 2 SCore University of Bonn, Germany University

More information

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1. ZettaScaler-1.5 による HPC システム構築と ZettaScaler-2.0 構想 2015 年 12 月 18 日 齊藤元章 ( 株式会社 PEZY Computing/ 株式会社 ExaScaler/UltraMemory 株式会社 ) 11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx シングルコアとマルチコア 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 前々回の授業の復習 CPUの進化 半導体集積率の向上 CPUの動作周波数の向上 + 複雑な処理を実行する回路を構成 ( 前々回の授業 ) マルチコア CPU への進化 均一 不均一なプロセッサ コプロセッサ, アクセラレータ 210 コンピュータの歴史 世界初のデジタルコンピュータ 1944 年ハーバードMark I

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャ プロセッサロードマップ 2000 年第 4 四半期 2001 年上半期 サーバ / インテル Pentium III インテル Itanium ワークステーション Xeon プロセッサプロセッサ パフォーマンスインテル

More information

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted DEGIMA LINPACK Energy Performance for LINPACK Benchmark on DEGIMA 1 AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK 1.4698 GFlops/Watt 1.9658 GFlops/Watt Abstract GPU Computing has

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63>

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63> 京都大学学術情報メディアセンター 新スーパーコンピュータ運用開始と T2K 連携の始動 アピールポイント 61.2 テラフロップスの京大版 T2K オープンスパコン運用開始 東大 筑波大との T2K 連携による計算科学 工学分野におけるネットワーク型研究推進 人材育成 アプリケーション高度化支援の活動を開始概要国立大学法人京都大学 ( 総長 尾池和夫 ) 学術情報メディアセンター ( センター長 美濃導彦

More information

HPEハイパフォーマンスコンピューティング ソリューション

HPEハイパフォーマンスコンピューティング ソリューション HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

スライド 1

スライド 1 1 2 (National Research Grid Initiative) 4 3 flops 4 (Electrical Power Grid) Virtual Organization) Software catalogs Sensor nets Computing Resources Colleagues Data archives 5 グリッド の概念 アプリケーション アプリケーション

More information

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

White Paper 高速部分画像検索キット(FPGA アクセラレーション) White Paper 高速部分画像検索キット (FPGA アクセラレーション ) White Paper 高速部分画像検索キット (FPGA アクセラレーション ) Page 1 of 7 http://www.fujitsu.com/primergy Content はじめに 3 部分画像検索とは 4 高速部分画像検索システム 5 高速部分画像検索の適用時の改善効果 6 検索結果 ( 一例 )

More information

Myrinet2000 ご紹介

Myrinet2000 ご紹介 34 HPC -Myrinet- ES HPC http://www.sse.co.jp/myrinet/ Out Line Myrinet HPC 50 2 4 O.S. Computer Computer Computer Computer Computer Low-level Interconnection Network (transport & switching) 2-4 / / OS

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5- 12ways-12th Generation PowerEdge Servers improve your IT experience 12 PowerEdge 12 1 6 2 GPU 8 4 PERC RAID I/O Cachecade I/O 5 Dell Express Flash PCIe SSD 6 7 OS 8 85.5% 9 Dell OpenManage PowerCenter

More information

PowerPoint Presentation

PowerPoint Presentation Its Concept and Architecture Hiroshi Nakashima (Kyoto U.) with cooperation of Mitsuhisa Sato (U. Tsukuba) Taisuke Boku (U. Tsukuba) Yutaka Ishikawa (U. Tokyo) Contents Alliance Who & Why Allied? Specification

More information

Microsoft Word - koubo-H26.doc

Microsoft Word - koubo-H26.doc 平成 26 年度学際共同利用プログラム 計算基礎科学プロジェクト 公募要項 - 計算基礎科学連携拠点 ( 筑波大学 高エネルギー加速器研究機構 国立天文台 ) では スーパーコンピュータの学際共同利用プログラム 計算基礎科学プロジェクト を平成 22 年度から実施しております 平成 23 年度からは HPCI 戦略プログラム 分野 5 物質と宇宙の起源と構造 の協力機関である京都大学基礎物理学研究所

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

FINAL PROGRAM 22th Annual Workshop SWoPP / / 2009 Sendai Summer United Workshops on Parallel, Distributed, and Cooperative Processing

FINAL PROGRAM 22th Annual Workshop SWoPP / / 2009 Sendai Summer United Workshops on Parallel, Distributed, and Cooperative Processing FINAL PROGRAM 22th Annual Workshop SWoPP 2009 2009 / / 2009 Sendai Summer United Workshops on Parallel, Distributed, and Cooperative Processing 2009 8 4 ( ) 8 6 ( ) 981-0933 1-2-45 http://www.forestsendai.jp

More information

スライド 1

スライド 1 High Performance Computing Infrastructure と学認 合田憲人 国立情報学研究所 背景と目的 2 HPCI 京コンピュータと国内のスーパーコンピュータや大規模ストレージを連携して利用するための革新的ハイパフォーマンス コンピューティング インフラ ロードマップ 2011/03 基本仕様策定 ( ネットワーク, 認証, ユーザ管理支援, 共用ストレージ, 先端ソフトウェア運用

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

HP ProLiant 500シリーズ

HP ProLiant 500シリーズ HPProLiant5 DL58/585 HPProLiant5 4 HPProLiant5 HPProLiant5 64 HPProLiant5 TPC-H@1GB 4, 34,99 SAP SD Benchmark Users QphH@1GB 3, 2, 1, 4, 3, 2, 1, DL58 G5, Xeon X735 DL585 G5, AMD Opteron 836SE 17,12 DL58

More information

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

【資料1-1】今後10年間の9大学情報基盤センター開発・整備・運用計画(2013年9月時点)

【資料1-1】今後10年間の9大学情報基盤センター開発・整備・運用計画(2013年9月時点) 資料 1-1 今後 10 年間の 9 大学情報基盤センター開発 整備 運用計画 (2013 年 9 月時点 ) とりまとめ : 東京大学情報基盤センターセンター長石川裕 北海道大学情報基盤センター東北大学サイバーサイエンスセンター筑波大学計算科学研究センター東京大学情報基盤センター東京工業大学学術国際情報センター名古屋大学情報基盤センター京都大学学術情報メディアセンター大阪大学サイバーメディアセンター九州大学情報基盤研究開発センター

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1 TSUBAME 2.0 Linpack 1,,,, Intel NVIDIA GPU 2010 11 TSUBAME 2.0 Linpack 2CPU 3GPU 1400 Dual-Rail QDR InfiniBand TSUBAME 1.0 30 2.4PFlops TSUBAME 1.0 Linpack GPU 1.192PFlops PFlops Top500 4 Achievement of

More information

PowerPoint Presentation

PowerPoint Presentation GF(2) 上疎行列線形解法の 現状と評価 中央大学 21 世紀 COE プログラム JST CREST 西田晃 July 8, 2006 JSIAM JANT Conference 1 背景 情報システムの安全性 公開鍵暗号システムに依存 最新の計算機環境による素因数分解のコストを常に正確に評価する必要 July 8, 2006 JSIAM JANT Conference 2 関連研究 公開鍵暗号

More information

develop

develop SCore SCore 02/03/20 2 1 HA (High Availability) HPC (High Performance Computing) 02/03/20 3 HA (High Availability) Mail/Web/News/File Server HPC (High Performance Computing) Job Dispatching( ) Parallel

More information

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用]

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用] SS 研科学技術計算分科会 アクセラレータ技術の現状と今後 ~HPC とアクセラレータ ~ 2008 年 10 月 22 日村上和彰 murakami@i.kyushu u.ac.jp 国立大学法人九州大学教授 SS 研会長 1 概要 高性能科学技術計算 (HPC) とアクセラレータとの関係は歴史が長い ベクトル処理もアクセラレータの一種であり かつ その元祖的存在である ベクトル処理が時間軸方向のデータレベル並列処理だったものを空間軸方向に置き換えたものが現在主流となっている

More information

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2 ! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale

More information

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit

More information

チューニング講習会 初級編

チューニング講習会 初級編 GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(6\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\).ppt)

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(6\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\).ppt) Mirapoint 製品対比表 (6 シリーズ /7 シリーズ ) シーティーシー エスピー株式会社 (C) Copyright 2010 CTCSP Corporation All rights reserved. 1 7-Series ハードウェア 7Series ハードウェアプラットフォーム 新世代 CPU 搭載 : Intel Quad-core Xeon based Nahalem architecture

More information

Microsoft PowerPoint _AMD.ppt

Microsoft PowerPoint _AMD.ppt AMD プロセッサ最新情報およびクラスタに関する取り組みについて 16 th December, 2005 日本 AMD 株式会社エンタ - プライズビジネスデベロップメント部山野洋幸 プレゼンテーションアジェンダ! AMDについて! デュアルコアAMD Opteron プロセッサ! AMD Opteron プロセッサロードマップ! クラスタへの取り組み! まとめ 2 AMD について 3 AMD

More information

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~ MATLAB における並列 分散コンピューティング ~ Parallel Computing Toolbox & MATLAB Distributed Computing Server ~ MathWorks Japan Application Engineering Group Takashi Yoshida 2016 The MathWorks, Inc. 1 System Configuration

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10 NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

More information

卒業論文

卒業論文 PC OpenMP SCore PC OpenMP PC PC PC Myrinet PC PC 1 OpenMP 2 1 3 3 PC 8 OpenMP 11 15 15 16 16 18 19 19 19 20 20 21 21 23 26 29 30 31 32 33 4 5 6 7 SCore 9 PC 10 OpenMP 14 16 17 10 17 11 19 12 19 13 20 1421

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

EGunGPU

EGunGPU Super Computing in Accelerator simulations - Electron Gun simulation using GPGPU - K. Ohmi, KEK-Accel Accelerator Physics seminar 2009.11.19 Super computers in KEK HITACHI SR11000 POWER5 16 24GB 16 134GFlops,

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

<4D6963726F736F667420506F776572506F696E74202D20834B8343835F83938358815C8FEE95F183568358836583808A7793C195CA8D758B608252816932303134944E348C8E3893FA816A202D2048502E70707478>

<4D6963726F736F667420506F776572506F696E74202D20834B8343835F83938358815C8FEE95F183568358836583808A7793C195CA8D758B608252816932303134944E348C8E3893FA816A202D2048502E70707478> ガイダンス 東 京 大 学 情 報 基 盤 センター 准 教 授 片 桐 孝 洋 204 年 4 月 8 日 ( 火 )4:40-6:0 ガイダンスの 流 れ. 講 義 の 目 的 2. 講 師 紹 介 3. 講 義 日 程 の 確 認 4. 成 績 の 評 価 方 法 5. イントロダクション(30 分 ) 2 本 講 義 の 目 的 近 年 京 コンピュータに 代 表 される 世 界 トップクラスのスーパーコンピュータが

More information

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N.

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N. SC10 2010 11 13 19 SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) 1 2005 8 8 2010 4 Ernest N. Morial Convention Center (ENMCC) Climate Simulation(

More information

スライド 1

スライド 1 High Performance and Productivity HPC システムの課題と挑戦 1986 日本クレイ株式会社入社 SE セールスサポート マーケティングサポートなどの活動と技術面で会社をリードしています 1996 日本 SGI 株式会社 (SGIのCray 買収により ) SEディレクター 製品技術本部長など 2003 執行役員チーフテクノロジーオフィサー SGI 製品はもちろん

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション ベクトル計算は なぜ速い たけおか @takeoka PCクラスタ コンソーシアム理事でもある 2011/OCT/22 ベクトルじゃない話 みんな大好き Intel 最新Many Core Intel Many Core, Knights Ferry インテル 7年後のエクサスケール時代に向けたデータセンター事業戦略 Cloud 2015 インテルは31日 都内で インテル エンタープライズ アップデート

More information

次世代スーパーコンピュータのシステム構成案について

次世代スーパーコンピュータのシステム構成案について 6 19 4 27 1. 2. 3. 3.1 3.2 A 3.3 B 4. 5. 2007/4/27 4 1 1. 2007/4/27 4 2 NEC NHF2 18 9 19 19 2 28 10PFLOPS2.5PB 30MW 3,200 18 12 12 SimFold, GAMESS, Modylas, RSDFT, NICAM, LatticeQCD, LANS HPL, NPB-FT 19

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 加藤真平計算機アーキテクチャ特論 計算機アーキテクチャ特論後半第 1 回最先端アーキテクチャのトレンド 本資料は授業用です 無断で転載することを禁じます 講師加藤真平 前半の趣旨 : 並列化プログラミング for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } シングルプロセッサ マルチプロセッサ x[0]=a[0]+b[0]; x[1]=a[1]+b[1];

More information

ProLiant BL460c システム構成図

ProLiant BL460c システム構成図 HP BladeSystem c-class Server HP 2008 5 26 BLADE3.0 Web http://www.hp.com/jp/blade_fill/ 1 OVERVIEW HP 1 2 2.5 SAS H Xeon ( 2 ) (SFF)( 2 ) I/O PC2-5300 FB-DIMM DDR2-667 8 Smart E200i (Type Type 1 ) USB

More information

スーパーコンピュータ「京」の概要

スーパーコンピュータ「京」の概要 Overview of the K computer System 宮崎博行 草野義博 新庄直樹 庄司文由 横川三津夫 渡邊貞 あらまし HPCI CPUOS LINPACK 10 PFLOPSCPU 8 Abstract RIKEN and Fujitsu have been working together to develop the K computer, with the aim of beginning

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション スーパーコンピュータのネットワーク 情報ネットワーク特論 南里豪志 ( 九州大学情報基盤研究開発センター ) 1 今日の講義内容 スーパーコンピュータとは どうやって計算機を速くするか スーパーコンピュータのネットワーク 2 スーパーコンピュータとは? " スーパー " な計算機 = その時点で 一般的な計算機の性能をはるかに超える性能を持つ計算機 スーパーコンピュータの用途 主に科学技術分野 創薬

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

製造したスーパーコンピュータに並ぶ省電力性能を示し 省電力スーパーコンピューティ ングへの GRAPE-DR システム基本設計の優位性を示しました 4) 消費電力低減が第一の技術的課題である次々世代スーパーコンピュータの基礎技術とし て 省電力型アクセラレータが優れていることを実証し 基礎技術として

製造したスーパーコンピュータに並ぶ省電力性能を示し 省電力スーパーコンピューティ ングへの GRAPE-DR システム基本設計の優位性を示しました 4) 消費電力低減が第一の技術的課題である次々世代スーパーコンピュータの基礎技術とし て 省電力型アクセラレータが優れていることを実証し 基礎技術として 東大 国立天文台グループのスーパーコンピュータ 1448 Mflops/W の超低消費電力スーパーコンピューティングを実現 Green 500 リストで僅差の 2 位 1. 発表者 : 平木敬 ( 東京大学大学院情報理工学系研究科創造情報学専攻教授 ) 牧野淳一郎 ( 国立天文台理論研究部教授 ) 稲葉真理 ( 東京大学大学院情報理工学系研究科創造情報学専攻准教授 ) 2. 発表内容 : 2010

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:

More information

スライド 1

スライド 1 計算科学が拓く世界 スーパーコンピュータは 何故スーパーか 学術情報メディアセンター 中島浩 http://www.pr.medi.kyoto-u.c.jp/jp/ usermesuper psswordcomputer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どうスーパーなのか どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの Composer 6, Symphony 6, NewsCutter 10, Assist 2.5, Instinct 3.5 認定 PC システム システム PC デスクトップ HP Z800 DUal 6- core 2.66GHz (X5650) 3800 5.0.3/9.0.3 はいいいえはいはいはいはい (3 枚構成の DIMM) HP Z800 Dual Quad core 2.93GHz

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装 2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(5\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\201j.ppt)

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(5\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\201j.ppt) Mirapoint 製品対比表 (5 シリーズ /7 シリーズ ) シーティーシー エスピー株式会社 (C) Copyright 2010 CTCSP Corporation All rights reserved. 1 7-Series ハードウェア 7Series ハードウェアプラットフォーム 新世代 CPU 搭載 : Intel Quad-core Xeon based Nahalem architecture

More information

資料8-3 今後のHPCI計画推進のあり方に関する検討ワーキンググループの中間報告について(その5)

資料8-3 今後のHPCI計画推進のあり方に関する検討ワーキンググループの中間報告について(その5) 1. 国際的な状況 1 TOP500 の各国 1 位の推移 LINPACK 性能 [FLOPS] 10 ペタ 1 ペタ 100 テラ 10 テラ 地球シミュレータ 35.8TF 日本 BlueGene/L 70.7TF 世界で初めて 10 ヘ タフロッフ スの壁を突破 RoadRunner 1.0PF アメリカ 10.5PF Tianhe-1A 2.5PF 中国 Titan 17.5PF Tianhe-2

More information

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) HA-PACS 2012 2 HA-PACS TCA (Tightly Coupled Accelerators) TCA PEACH2 1. (Graphics Processing Unit) HPC GP(General Purpose ) TOP500 [1] CPU PCI Express (PCIe)

More information

Microsoft PowerPoint - RBU-introduction-J.pptx

Microsoft PowerPoint - RBU-introduction-J.pptx Reedbush-U の概要 ログイン方法 東京大学情報基盤センタースーパーコンピューティング研究部門 http://www.cc.u-tokyo.ac.jp/ 東大センターのスパコン 2 基の大型システム,6 年サイクル (?) FY 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 Hitachi SR11K/J2 IBM Power 5+ 18.8TFLOPS,

More information

ペタスケール計算環境に向けたFFTライブラリ

ペタスケール計算環境に向けたFFTライブラリ A01 高橋班 大規模並列環境における 数値計算アルゴリズム 研究代表者 : 高橋大介 筑波大学大学院システム情報工学研究科 研究組織 研究代表者 高橋大介 ( 筑波大学 ): 研究統括および高速アルゴリズム 研究分担者 今村俊幸 ( 電気通信大学 ): 性能チューニング 多田野寛人 ( 筑波大学 ): 大規模線形計算 連携研究者 佐藤三久 ( 筑波大学 ): 並列システムの性能評価 朴泰祐 ( 筑波大学

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 http://na-inet.jp/ 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. Webデザイン特別プログラム 5. 今後について

More information