Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Size: px
Start display at page:

Download "Microsoft PowerPoint - CCS学際共同boku-08b.ppt"

Transcription

1 マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp

2 アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ

3 近年の高性能 PC クラスタの傾向と問題点 ノード構成の傾向 CPU が 4~6 core 程度の multi-core 構成 ( 以下 MC 構成 ) となっている ノード当たり複数ソケット (multi-socket: 以下 MS 構成 ) となっている ネットワーク構成の傾向 Infiniband のような高性能ネットワークを大規模 多段 Fat-Tree で構成 複数リンクの平行結線によりネットワークバンド幅を増強 (multi-rail 以下 MR 構成 ) ノード及びネットワーク性能の増強 :MC-MS-MR 構成 実際の sustained performance を向上させるには様々な工夫が必要

4 T2K-Tsukuba 計算ノードのブロックダイアグラム 2GB 667MHz DDR2 DIMM x4 Dual Channel Reg DDR2 2GB 667MHz DDR2 DIMM x4 Hyper Transport 8GB/s (Fullduplex) 2GB 667MHz DDR2 DIMM x4 2GB 667MHz DDR2 DIMM x4 4GB/s (Full-duplex) (A)1 (B)1 4GB/s (Full-duplex) PCI-Express X16 PCI-Express X8 PCI-X PCI-X Bridge Bridge 8GB/s X16 X8 X4 Bridge Bridge NVIDIA NVIDIA nforce nforce GB/s Bridge Bridge NVIDIA NVIDIA nforce nforce X16 X8 X4 SAS SAS PCI-Express X16 PCI-Express X8 4GB/s (Full-duplex) (A)2 (B)2 4GB/s (Full-duplex) Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 2Gb/s) I/O Hub USB PCI-X Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 2Gb/s)

5 メモリマップとプロセスマップ プロセス ( コア ) と参照データを近接メモリにマッピング可能 (numactl 機能 ) 2GB 667MHz DDR2 DIMM x4 N Dual Channel Reg DDR2 2GB 667MHz DDR2 DIMM x4 Hyper Transport 8GB/s (Fullduplex) 2GB 667MHz DDR2 DIMM x4 N 2GB 667MHz DDR2 DIMM x4 4GB/s (Full-duplex) (A)1 (B)1 4GB/s (Full-duplex) PCI-Express X16 PCI-Express X8 PCI-X PCI-X Bridge Bridge 8GB/s X16 X8 X4 Bridge Bridge NVIDIA NVIDIA nforce nforce GB/s Bridge Bridge NVIDIA NVIDIA nforce nforce X16 X8 X4 SAS SAS PCI-Express X16 PCI-Express X8 4GB/s (Full-duplex) (A)2 (B)2 4GB/s (Full-duplex) Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 2Gb/s) I/O Hub USB PCI-X Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 2Gb/s)

6 T2K-Tsukuba のノード間ネットワーク構成 Full bi-sectional FAT-tree L3 SWs Network n n : #Node with 4 Links : #24ports IB Switch L2 SWs L1 SWs Nodes Detail View for one network unit スイッチ数 616 台 ( 全て 24port) IB cable 8554 本 x 2 network units

7 T2K-Tsukuba の計算ノード性能の問題点 メモリバンド幅の不足 PACS-CS: 5.6GFLOPS, 6.4GB/s 1.14 Byte/FLOP T2K-Tsukuba: 147.2GFLOPS, 42.7GB/s.29Byte/FLOP PACS-CS に比べ約 1/4 の Byte/FLOP 性能しかない MC/MS 構成により メモリ階層が非常に複雑 B8 シリーズ AMD quad-core Opteron (Barcelona) 4 つの core が各 512KB の private L2 cache を持ち さらに 2MB の shared L3 cache を持つ 4 つの CPU socket は共有メモリ結合だが構成は NUMA (Non-Uniform Memory Architecture) MC 化はさらに進むが メモリ性能が追いつかない! DDR2->DDR3, FSB のさらなる向上でメモリも良くなっているが core 数はそれを上回る勢いで増える HPC 的にどうか? 以上の背景の下 MC/MS 構成ノードにおける演算性能とメモリ性能の特性を調べ MC/MS 環境の core の有効利用方法を探る

8 マルチソケット環境における並列化 NUMA(Non-Uniform Memory Access) アーキテクチャ 高いメモリアクセス性能 NUMA アーキテクチャに合わせたチューニングが必要 NUMAコントロール (numactl) 並列化による性能向上 メモリバインド プロセスのマッピング 8 衝突が発生! レイテンシ大 ソケット ソケット 1 memory memory 2 core core 1 core core 2 3 core core core core core 1 core 11 core 4 core 6 core 14 core 5 1 core 7 core 15 memory 1 ソケット 2 ソケット 3 memory 3

9 T2K-Tsukuba における MC/MS ノード性能 Byte/FLOP という尺度に着目し synthetic benchmark により MC/MS におけるプロセスマッピングとメモリ性能の関係を詳細評価 double a[n/p], b[n/p], x1, x2, y; /* N is large enough */ for(i=; i<n/p; i++){ x1 = _mm_load_pd(&a[i]); x2 = _mm_load_pd(&b[i]); y1 = x1; y2 = x2; y1 = _mm_mul_pd(y1,y2); y1 = _mm_mul_pd(y1,y2); _mm_store_pd(&c[i], y1); } メモリアクセス 1 浮動小数点演算回数を調節 (1, 2, 4, 8, 12, 16, 24 回 )

10 プロセスのマッピング : Linux numactl numactl physcpubind (core mapping: blocked) MPIプロセス 2 MPIプロセス 4 MPIプロセス 8 MPIプロセス 16 socket socket 1 socket socket 1 socket socket 1 socket socket socket 2 socket 3 socket 2 socket 3 socket 2 socket 3 socket numactl cpunodebind (socket mapping: interleaved) socket socket 2 socket 3 1 socket 2 2 socket 3 3 socket MPIプロセス 2 MPIプロセス 4 MPIプロセス 8 MPIプロセス 16 socket 1 socket socket 1 socket socket socket socket socket socket socket socket

11 プロセスとソケットのマッピングとメモリ性能 14 B/F 要求が低ければ問題なし 性能 [MFlops] socket (interleaved) mapping core (blocked) mapping 1.5 Byte/flop 3 Byte/flop 6 Byte/flop 12 Byte/flop 24 Byte/flop 1.5 Byte/flop 3 Byte/flop 6 Byte/flop 12 Byte/flop 24 Byte/flop B/F 要求が高いと core/socket が多いと性能低下大 proc. 増強が性能に結びついていない 並列度 [ MPI プロセス数 ]

12 考察と今後の進展 numactlによるプロセスマッピングの重要性 socket mapping か core mapping かを慎重に検討する必要あり メモリバンド幅要求による影響が強い メモリ性能限界 Byte/FLOPに基づく性能予測は重要 プロセス数の増加が必ずしも性能に結びつかない場合がある プロセス数またはスレッド数の制御 アプリケーションのメモリバンド幅要求に応じ 性能向上に結びつく利用コア数限界を求める 余剰コア が発生した場合 これを有効利用する ( 例 : 通信スレッドへの割り当てによる全体性能の向上 )

13 MR 特性の予備評価 T2K-Tsukuba におけるノード間通信の MR の数 ( 何本の Infiniband を通信に用いるか ) T2K-Tsukuba における Fat-Tree ネットワークの評価 Intel MPI benchmark による性能評価 使用ノード数 :2~128 nodes

14 pingpong, pingping 性能 [ バンド幅 ] PingPong Mbytes/sec Data size [byte] PingPing MR=2 MR=4 の効果は小さい ( データサイズがかなり大きくないと効果がない ) pingpong と pingping の性能は近い PCI-Express に十分なバンド幅があり 双方向通信でも高速 ( どちらかというと )multi-rail は複数の通信ストリームに分散させて使った方がよいのではないか? 25 Mbytes/sec Data size [bytes]

15 Exchange( 隣接転送 ) 性能 [ 時間 ] Exchange(Data size : 1MB) Exchange(Data size : 4MB) 時間 (usec) 時間 (usec) ノード数 ノード数 Exchange(Data size : 2MB) 時間 (usec) MB の時のデータがおかしい? データサイズが大きいと MR=4 の効果が高く出る Fat-tree であることで ノード数が増加しても通信性能に影響しない ノード数

16 Allreduce 性能 [ 時間 ] Allreduce (Data size : 1MB) Allreduce (Max Data size : 4MB) 時間 (usec) 時間 [usec] ノード数 ノード数 時間 usec) Allreduce (Data size : 2MB) データサイズが小さい場合は MR 数増加で通信性能改善 4MB 時に MR=4 で性能劣化 通信バッファ不足? ノード数増加に対し log オーダー程度の通信時間 Fat-Tree が有効に働いている ノード数

17 Alltoall 性能 [ 時間 ] Alltoall(Data size : 1MB) Alltoall(Data size : 4MB) 時間 (usec) 時間 (usec) ノード数 ノード数 時間 (usec) Alltoall(Data size : 2MB) どの場合でも MR 数増加が性能改善に貢献 最も多数のメッセージ通信が行われるが他の collective 通信より性能が安定している Fat-Tree が有効に働いている ノード数

18 ノードを跨ぐ多数通信ペアの性能 [ バンド幅 ] 64KB (USE_FIRST) 4MB (USE_FIRST) (RR) (USE_FIRST) (RR) (USE_FIRST) (RR) (RR) MB/s 2 15 MB/s 通信ペア数 通信ペア数 2 ノード間の通信ペア数を変化させた sendrecv 通信 ( 双方向同時 ) 通信ペア数が増えれば MR 数を増やすよりも MR=1 で複数通信ストリームを同時並行実行した方が効率が良いはず MR=4 が常に良い T2K-Tsukuba で用いている MVAPICH2 の設定 パラメータ選択に問題があるのでは?

19 まとめ 現状の T2K-Tsukuba において point-to-point, collective のどちらの通信でも Infiniband の MR (binding) は概ね効果がある 一部の負性特性領域 ケースがあるが MR=2 or MR=4 としておいた方が全体の通信性能が向上する point-to-point と collective では MR の効き方に違いがあるため アプリケーションで重要な通信の種類とデータサイズに応じ 最適な MR 数を見つける必要があるのでは? 現状の問題点と今後の課題 ノード上に複数 MPI プロセスがあり 同時に多数の通信を行う場合 MR=1 で複数ストリームを同時に処理できていない? いつでも MR=2 or MR=4 とした方が とりあえず 性能が高い 今後 MVAPICH2 の実装とパラメータ設定を詳細に調査 MC/MS/MR という複雑な構造における性能最適化のため core と rail の使い方 パラメータ設定を ( 半 ) 自動化するようなシステムを作りたい

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft PowerPoint - stream.ppt [互換モード] STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent

More information

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx Dolphin Express による 10Gbps ソケット通信 Dolphin Express は 標準的な低価格のサーバを用いて 強力なクラスタリングシステムが構築できる ハードウェアとソフトウェアによる通信用アーキテクチャです 本資料では Dolphin Express 製品の概要と 実際にどの程度の性能が出るのか市販 PC での実験結果をご紹介します Dolphin Express 製品体系

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

PowerPoint Presentation

PowerPoint Presentation 計算機の展望 ( 高性能計算システムの展望 ) 朴泰祐筑波大学計算科学研究センター ( システム情報工学研究科 ) taisuke@cs.tsukuba.ac.jp http://www.hpcs.cs.tsukuba.ac.jp/~taisuke/ アウトライン HPCシステムの歴史概観 HPCシステムの現状と展望 クラスタコンピューティング ヘテロジニアスコンピューティング Exa-scaleコンピューティングに向けて

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

Microsoft PowerPoint _AMD.ppt

Microsoft PowerPoint _AMD.ppt AMD プロセッサ最新情報およびクラスタに関する取り組みについて 16 th December, 2005 日本 AMD 株式会社エンタ - プライズビジネスデベロップメント部山野洋幸 プレゼンテーションアジェンダ! AMDについて! デュアルコアAMD Opteron プロセッサ! AMD Opteron プロセッサロードマップ! クラスタへの取り組み! まとめ 2 AMD について 3 AMD

More information

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL   アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ GPUDirect の現状整理 multi-gpu に取組むために G-DEP チーフエンジニア河井博紀 (kawai@gdep.jp) 名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL http://www.gdep.jp アライアンスパートナー コアテクノロジーパートナー

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

PowerPoint Presentation

PowerPoint Presentation GF(2) 上疎行列線形解法の 現状と評価 中央大学 21 世紀 COE プログラム JST CREST 西田晃 July 8, 2006 JSIAM JANT Conference 1 背景 情報システムの安全性 公開鍵暗号システムに依存 最新の計算機環境による素因数分解のコストを常に正確に評価する必要 July 8, 2006 JSIAM JANT Conference 2 関連研究 公開鍵暗号

More information

HP ProLiant 500シリーズ

HP ProLiant 500シリーズ HPProLiant5 DL58/585 HPProLiant5 4 HPProLiant5 HPProLiant5 64 HPProLiant5 TPC-H@1GB 4, 34,99 SAP SD Benchmark Users QphH@1GB 3, 2, 1, 4, 3, 2, 1, DL58 G5, Xeon X735 DL585 G5, AMD Opteron 836SE 17,12 DL58

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

HPC (pay-as-you-go) HPC Web 2

HPC (pay-as-you-go) HPC Web 2 ,, 1 HPC (pay-as-you-go) HPC Web 2 HPC Amazon EC2 OpenFOAM GPU EC2 3 HPC MPI MPI Courant 1 GPGPU MPI 4 AMAZON EC2 GPU CLUSTER COMPUTE INSTANCE EC2 GPU (cg1.4xlarge) ( N. Virgina ) Quadcore Intel Xeon 5570

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装 2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4

More information

橡3_2石川.PDF

橡3_2石川.PDF PC RWC 01/10/31 2 1 SCore 1,024 PC SCore III PC 01/10/31 3 SCore SCore Aug. 1995 Feb. 1996 Oct. 1996 1997-1998 Oct. 1999 Oct. 2000 April. 2001 01/10/31 4 2 SCore University of Bonn, Germany University

More information

05-opt-system.ppt

05-opt-system.ppt 筑波大学計算科学研究センター HPC サマーセミナー 最適化 II ( 通信最適化 ) 建部修見 tatebe@cs.tsukuba.ac.jp 筑波大学大学院システム情報系計算科学研究センター 講義内容 基本通信性能 1 対 1 通信 集団通信 プロファイラ 通信最適化 通信の削減 通信遅延隠蔽 通信ブロック 負荷分散 基本通信性能 通信最適化のためには基本通信性能を押さえておくことが重要! 各種通信パターンにおける通信性能の把握

More information

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約 ANSYS Mechanical Distributed ANSYS( 領域分割法 ) 2011 年 1 月 17 日 富士通株式会社 ANSYS Mechanical ベンチマーク測定結果 目次 測定条件 1 標準問題モデル 2 総括 3 ベンチマーク測定について 3 留意事項 9 商標について 9 測定条件 測定に使用した環境は下記のとおりです System PRIMERGY BX922 S2

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料) 今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.

More information

Linux @ S9 @ CPU #0 CPU #1 FIB Table Neighbor Table 198.51.100.0/24 fe540072d56f 203.0.113.0/24 fe54003c1fb2 TX Ring TX Ring TX Buf. Dsc. RX Buf. Dsc. TX Buf. Dsc. RX Buf. Dsc. Packet NIC #0 NIC #1 CPU

More information

ProLiant BL460c システム構成図

ProLiant BL460c システム構成図 HP BladeSystem c-class Server HP 2008 5 26 BLADE3.0 Web http://www.hp.com/jp/blade_fill/ 1 OVERVIEW HP 1 2 2.5 SAS H Xeon ( 2 ) (SFF)( 2 ) I/O PC2-5300 FB-DIMM DDR2-667 8 Smart E200i (Type Type 1 ) USB

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

PCI PCI 5V/32bit 3.3V/32bit 5V/64bit 3.3V/64bit PCI I/O HBA 3.3V 5V I/O 3 3V 5V PCI v2 1 5V 3.3V PCI v2 2 3.3V 5V PCI v2 3 3 3v 5V

PCI PCI 5V/32bit 3.3V/32bit 5V/64bit 3.3V/64bit PCI I/O HBA 3.3V 5V I/O 3 3V 5V PCI v2 1 5V 3.3V PCI v2 2 3.3V 5V PCI v2 3 3 3v 5V PCI PCI 5V/32bit 3.3V/32bit 5V/64bit 3.3V/64bit PCI I/O HBA 3.3V 5V I/O 3 3V 5V PCI v2 1 5V 3.3V PCI v2 2 3.3V 5V PCI v2 3 3 3v 5V 5V 3.3V HBA HBA 5V 3.3V HBA 5V HBA 3.3V HBA 5V 3.3V HBA PCI 1.91 0.05

More information

HP xw9400 Workstation

HP xw9400 Workstation HP xw9400 Workstation HP xw9400 Workstation AMD Opteron TM PCI Express x16 64 PCI Express x16 2 USB2.0 8 IEEE1394 2 8DIMM HP HP xw9400 Workstation HP CPU HP CPU 240W CPU HP xw9400 HP CPU CPU CPU CPU Sound

More information

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの Composer 6, Symphony 6, NewsCutter 10, Assist 2.5, Instinct 3.5 認定 PC システム システム PC デスクトップ HP Z800 DUal 6- core 2.66GHz (X5650) 3800 5.0.3/9.0.3 はいいいえはいはいはいはい (3 枚構成の DIMM) HP Z800 Dual Quad core 2.93GHz

More information

CTA 82: CTA A A B B A B A, C A A A D A B Max-Planck-Inst. fuer Phys. C D

CTA 82: CTA A A B B A B A, C A A A D A B Max-Planck-Inst. fuer Phys. C D CTA 82 CTA A A B B A B A, C A A A D A B Max-Planck-Inst. fuer Phys. C D LST LST LST に 1855 の 23m Dragon FrontEndBoard 7 の から み し 14 30 ns SiTCP を FPGA に デ タ は TCP/IP その は UDP で われる 1 が1 のトリガで するデ タは {(2

More information

PassMark PerformanceTest ™

PassMark PerformanceTest ™ KRONOS S ライン 性能ベンチマーク オーバークロックモニター OCCT OverClock Checking Tool i7z (A better i7 (and now i3, i5) reporting tool for Linux) KRONOS S800 CATIA Benchmark Aerospace - 8/17 passengers Jet - Mid Fuse DELL Precision

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

Myrinet2000 ご紹介

Myrinet2000 ご紹介 34 HPC -Myrinet- ES HPC http://www.sse.co.jp/myrinet/ Out Line Myrinet HPC 50 2 4 O.S. Computer Computer Computer Computer Computer Low-level Interconnection Network (transport & switching) 2-4 / / OS

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

Microsoft PowerPoint PCクラスタワークショップin京都.ppt PC クラスタシステムへの富士通の取り組み 富士通株式会社株式会社富士通研究所久門耕一 29 年度に富士通が提供する ( した ) 大規模クラスタ 今年度はCPUとしてメモリバンド幅がNehalem, QDR- IB( 片方向 4GB/s) などPCクラスタにとって期待できる多くのコモディティコンポーネントが出現 これら魅力ある素材を使ったシステムとして 2つのシステムをご紹介 理化学研究所様 RICC(Riken

More information

ProLiant ML115 Generation 1 システム構成図

ProLiant ML115 Generation 1 システム構成図 HP ProLiant ML115 Generation 5 2010 4 16 1 OVERVIEW ProLiant ML115 Generation 5 ProLiant ML115 Generation 5 1 USB 2 3 6 SATA LED LED () Lights-Out 100c () 365W ML115 G5 ProLiant ML115 G5 SATA / AMD Athlon

More information

CS

CS 性能並列計算法特論 第 4 回 情報基盤研究開発センター 野謙 2017 年 5 9 ( ) 成績評価 その他の連絡事項 出席点 5 割 + 期末試験 ( レポート作成 )5 割 講義資料は毎回配布予定です 席した場合, 各 でダウンロードしてください http://mercury.cc.kyushu-u.ac.jp/lecture_2017/ PDF 版をその週の 曜の朝までには公開予定 講義開始後約

More information

第3回戦略シンポジウム緑川公開用

第3回戦略シンポジウム緑川公開用 2010 5 15 - - (SDSM) SMS MpC DLM Top500 Top 500 list of Supercomputers (http://www.top500.org) Top 500 list of Supercomputers (http://www.top500.org) 1998 11 SMP Symmetric Multiprocessor CPU CPU CPU CPU

More information

02_Matrox Frame Grabbers_1612

02_Matrox Frame Grabbers_1612 Matrox - - Frame Grabbers MatroxRadient ev-cxp Equalizer Equalizer Equalizer Equalizer 6.25 Gbps 20 Mbps Stream channel Control channel Stream channel Control channel Stream channel Control channel Stream

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Foundation アプライアンス スケーラブルシステムズ株式会社 サーバ クラスタの課題 複数のシステムを一つの だけで容易に管理することは出来ないだろうか? アプリケーションがより多くのメモリを必要とするのだけど ハードウエアの増設なしで対応出来ないだろうか? 現在の利用環境のまま 利用できるコア数やメモリサイズの増強を図ることは出来ないだろうか? 短時間で導入可能で また 必要に応じて 柔軟にシステム構成の変更が可能なソリューションは無いだろうか?...

More information

HP High Performance Computing(HPC)

HP High Performance Computing(HPC) ACCELERATE HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPC HP HPCHP HP HPC 1 HPC HP 2 HPC HPC HP ITIDC HP HPC 1HPC HPC No.1 HPC TOP500 2010 11 HP 159 32% HP HPCHP 2010 Q1-Q4

More information

RICCについて

RICCについて RICC 1 RICC 2 RICC 3 RICC GPU 1039Nodes 8312core) 93.0GFLOPS, 12GB(mem), 500GB (hdd) DDR IB!1 PC100Nodes(800core) 9.3 GPGPU 93.3TFLOPS HPSS (4PB) (550TB) 0.24 512GB 1500GB MDGRAPE33TFLOPS MDGRAPE-3 64

More information

ProLiant BL25p Generation 2システム構成図

ProLiant BL25p Generation 2システム構成図 HP ProLiant BL p-class Server BL25p Generation 2 2007 11 15 1 OVERVIEW ProLiant BL25p Generation 2 HP BladeSystem p-class Hardware Component BladeSystem p-class BladeSystem p-class BladeSystem p-class

More information

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) HA-PACS 2012 2 HA-PACS TCA (Tightly Coupled Accelerators) TCA PEACH2 1. (Graphics Processing Unit) HPC GP(General Purpose ) TOP500 [1] CPU PCI Express (PCIe)

More information

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5- 12ways-12th Generation PowerEdge Servers improve your IT experience 12 PowerEdge 12 1 6 2 GPU 8 4 PERC RAID I/O Cachecade I/O 5 Dell Express Flash PCIe SSD 6 7 OS 8 85.5% 9 Dell OpenManage PowerCenter

More information

XACCの概要

XACCの概要 2 global void kernel(int a[max], int llimit, int ulimit) {... } : int main(int argc, char *argv[]){ MPI_Int(&argc, &argc); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx

More information

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並 XcalableMPによる NAS Parallel Benchmarksの実装と評価 中尾 昌広 李 珍泌 朴 泰祐 佐藤 三久 筑波大学 計算科学研究センター 筑波大学大学院 システム情報工学研究科 研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI,

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

21 20 20413525 22 2 4 i 1 1 2 4 2.1.................................. 4 2.1.1 LinuxOS....................... 7 2.1.2....................... 10 2.2........................ 15 3 17 3.1.................................

More information

RDMAプロトコル: ネットワークパフォーマンスの向上

RDMAプロトコル: ネットワークパフォーマンスの向上 Database Acceleration Solution for HP ProLiant 2 2 3 4 I/O 5 IO 5 6 InfiniBand 6 RDMA 7 iser iscsi Extensions for RDMA 8 9 9 10 10 11 11 11 11 A : 12 B : 13 C : TCP/IP 14 15 HP 15 HP 15 15 I/OSSD Solid

More information

ProLiant BL20p Generation 4 システム構成図

ProLiant BL20p Generation 4 システム構成図 HP ProLiant BL p-class Server BL20p Generation 4 2007 11 15 1 OVERVIEW ProLiantBL20p Generation 4 HP BladeSystem p-class Hardware Component BladeSystem p-class BladeSystem p-class BladeSystem p-class ()

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

Dell OptiPlex PC OptiPlex CPU OptiPlex 4 vpro TCO Dell KACE vpro OS Energy Smart Energy Smart Energy STAR 5.2 2

Dell OptiPlex PC OptiPlex CPU OptiPlex 4 vpro TCO Dell KACE vpro OS Energy Smart Energy Smart Energy STAR 5.2 2 Dell OptiPlex PC 3010 7010 9010 9010 AIO www.dell.com/jp June / 2012 Dell OptiPlex PC OptiPlex CPU OptiPlex 4 vpro TCO Dell KACE vpro OS Energy Smart Energy Smart 2007 7 Energy STAR 5.2 2 OptiPlex TCO

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit

More information

HP Workstation 総合カタログ

HP Workstation 総合カタログ HP Workstation E5 v2 Z Z SFF E5 v2 2 HP Windows Z 3 Performance Innovation Reliability 3 HPZ HP HP Z820 Workstation P.11 HP Z620 Workstation & CPU P.12 HP Z420 Workstation P.13 17.3in WIDE HP ZBook 17

More information

Fujitsu Standard Tool

Fujitsu Standard Tool 低レベル通信ライブラリ ACP の PGAS ランタイム向け機能 2014 年 10 月 24 日富士通株式会社 JST CREST 安島雄一郎 Copyright 2014 FUJITSU LIMITED 本発表の構成 概要 インタフェース チャネル ベクタ リスト メモリアロケータ アドレス変換 グローバルメモリ参照 モジュール構成 メモリ消費量と性能評価 利用例 今後の課題 まとめ 1 Copyright

More information

チューニング講習会 初級編

チューニング講習会 初級編 GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化

More information

Microsoft PowerPoint - 02AMD.ppt

Microsoft PowerPoint - 02AMD.ppt e-japan Open Standard Consortium 公正で競争力競争力のあるのある調達調達へ向けて 日本 AMD 株式会社エンタープライズビジネスデベロップメント部兼公共調達プロモーションプロモーション室課長山野洋幸 1 AMD のご紹介 2 AMD 会社概要 カリフォルニア シリコンバレーシリコンバレーに本社本社を置く半導体専業半導体専業メーカー US では 5 大半導体メーカーメーカーの

More information

次世代スーパーコンピュータのシステム構成案について

次世代スーパーコンピュータのシステム構成案について 6 19 4 27 1. 2. 3. 3.1 3.2 A 3.3 B 4. 5. 2007/4/27 4 1 1. 2007/4/27 4 2 NEC NHF2 18 9 19 19 2 28 10PFLOPS2.5PB 30MW 3,200 18 12 12 SimFold, GAMESS, Modylas, RSDFT, NICAM, LatticeQCD, LANS HPL, NPB-FT 19

More information

Second-semi.PDF

Second-semi.PDF PC 2000 2 18 2 HPC Agenda PC Linux OS UNIX OS Linux Linux OS HPC 1 1CPU CPU Beowulf PC (PC) PC CPU(Pentium ) Beowulf: NASA Tomas Sterling Donald Becker 2 (PC ) Beowulf PC!! Linux Cluster (1) Level 1:

More information

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

A Responsive Processor for Parallel/Distributed Real-time Processing

A Responsive Processor for Parallel/Distributed Real-time Processing E-mail: yamasaki@{ics.keio.ac.jp, etl.go.jp} http://www.ny.ics.keio.ac.jp etc. CPU) I/O I/O or Home Automation, Factory Automation, (SPARC) (SDRAM I/F, DMAC, PCI, USB, Timers/Counters, SIO, PIO, )

More information

PDF.PDF

PDF.PDF 1 2 3 LAN Ethernet( ) TSS(Time Sharing System: ) TSS CPU TSS LAN 3Mbit/s 10Mbit/s 9.6Kbit/s LAN DEC Intel 3 DIX DIX 10Mbit/s 500m 10Base5 LAN IEEE802 IEEE802.3 100Mbit/s 100BaseTX TCP/IP Ethernet LAN 7

More information

スライド 1

スライド 1 期間限定販売プログラム vsmp Foundation クラスタを仮想化して運用と管理の容易なシングルシステムを構築様々なリソースを柔軟に統合化 Panasas ActiveStor 研究開発やエンタープライズクラスのワークロードに理想的なハイブリッドスケールアウト NAS アプライアンス 販売プログラム PANASAS ACTIVESTORE 仮想化ソフトウエア無償提供 2 販売プログラムの内容

More information

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx チップマルチプロセッサにおける データ プリフェッチ効果の分析 福本尚人, 三原智伸九州大学大学院システム情報科学府情報理学専攻 井上弘士, 村上和彰九州大学大学院システム情報科学研究院情報理学部門 2007/6/1 1 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 2 研究の背景

More information

lll

lll lll HA8000/30W アーキテクチャー HA8000/30W A8,B8,C8 Intel Intel845 Pentium 4(2.60GHz/2.40GHz) celeron (2.0GHz) Intel Intel845 1way 2GB Pentium 4 Celeron CPU Host Bus 64bit Bus:400MHz:MAX 3.2GB/s PCI AGP (Intel845)

More information

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63>

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63> 京都大学学術情報メディアセンター 新スーパーコンピュータ運用開始と T2K 連携の始動 アピールポイント 61.2 テラフロップスの京大版 T2K オープンスパコン運用開始 東大 筑波大との T2K 連携による計算科学 工学分野におけるネットワーク型研究推進 人材育成 アプリケーション高度化支援の活動を開始概要国立大学法人京都大学 ( 総長 尾池和夫 ) 学術情報メディアセンター ( センター長 美濃導彦

More information

HP Workstation 総合カタログ

HP Workstation 総合カタログ HP Workstation Z HP 6 Z HP HP Z840 Workstation P.9 HP Z640 Workstation & CPU P.10 HP Z440 Workstation P.11 17.3in WIDE HP ZBook 17 G2 Mobile Workstation P.15 15.6in WIDE HP ZBook 15 G2 Mobile Workstation

More information

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC/Symphony ソフトウェア 5.0.3 以降のバージョンが必要です Two 2.66 GHz 6-Core *Mojo SDI 及び Adrenaline サポート Intel Xeon (12 コア ) 32-bit カーネルで実 して下さい 64-bit カーネルは対応していません

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

OVERVIEW ProLiant ML110 G2 Storage Server ProLiant ML110 G2 Storage Server A C D SATA NH 320GB 01 (1TB) (1TB) Ultra320 SCSI 6 SATA RAID Serial

OVERVIEW ProLiant ML110 G2 Storage Server ProLiant ML110 G2 Storage Server A C D SATA NH 320GB 01 (1TB) (1TB) Ultra320 SCSI 6 SATA RAID Serial HP ProLiant ML110 Generation 2 Storage Server 2006 4 6 1 OVERVIEW ProLiant ML110 G2 Storage Server ProLiant ML110 G2 Storage Server A C D 01 3.5 SATA NH 320GB 01 (1TB) (1TB) Ultra320 SCSI 6 SATA RAID Serial

More information

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(5\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\201j.ppt)

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(5\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\201j.ppt) Mirapoint 製品対比表 (5 シリーズ /7 シリーズ ) シーティーシー エスピー株式会社 (C) Copyright 2010 CTCSP Corporation All rights reserved. 1 7-Series ハードウェア 7Series ハードウェアプラットフォーム 新世代 CPU 搭載 : Intel Quad-core Xeon based Nahalem architecture

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

2006629 HP ProLiant 2006629 ML310 G2 376852-291 ProLiant ML310 T02 P3200-1M 51 SATA 94,000 98,700 Pentium 4 3.20GHz 51 4GB 4SATA - 2TB ML310 G2 381838-291 ProLiant ML310 T02 64 P3200-2M 51 SATA 102,000

More information

富士通PRIMERGYサーバ/ETERNUSストレージとXsigo VP560/VP780の接続検証

富士通PRIMERGYサーバ/ETERNUSストレージとXsigo VP560/VP780の接続検証 富士通 PRIMERGY サーバ /ETERNUS ストレージと Xsigo VP560/VP780 の接続検証 2011 年 10 月 6 日 謝辞 このたび シーゴシステムズ I/O 仮想化コントローラとの接続検証試験にあたり 富士通検証センター ( 東京浜松町 ) 本検証関係者の皆様のご協力により 相互接続の確認を行うことができました 検証およびその準備にあたり ご協力いただきましたことを大変感謝申し上げます

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

09中西

09中西 PC NEC Linux (1) (2) (1) (2) 1 Linux Linux 2002.11.22) LLNL Linux Intel Xeon 2300 ASCIWhite1/7 / HPC (IDC) 2002 800 2005 2004 HPC 80%Linux) Linux ASCI Purple (ASCI 100TFlops Blue Gene/L 1PFlops (2005)

More information

ProLiant BL35p システム構成図

ProLiant BL35p システム構成図 HP ProLiant BL p-class Server BL35p 2007 8 9 1 OVERVIEW HP BladeSystem p-class Hardware Component 2 BladeSystem p-class BladeSystem p-class BladeSystem p-class () 3U () 1U HP BladeSystem p-class Common

More information

AD-PROCYON システムが提供する機能とは? Next Generation Real-time Simulator/System Controller Platform 現行のシステムの問題点 プロセッサーの演算能力の制限 I/O インターフェースのレイテンシー AD-PROCYON システ

AD-PROCYON システムが提供する機能とは? Next Generation Real-time Simulator/System Controller Platform 現行のシステムの問題点 プロセッサーの演算能力の制限 I/O インターフェースのレイテンシー AD-PROCYON システ AD-PROCYON Platform 次世代リアルタイムシミュレータ / システムコントローラプラットフォーム 1 AD-PROCYON システムが提供する機能とは? Next Generation Real-time Simulator/System Controller Platform 現行のシステムの問題点 プロセッサーの演算能力の制限 I/O インターフェースのレイテンシー AD-PROCYON

More information

Rev.6.0 Autodesk Certified Workstations HP Z840 HP Z8 G4 Dell T7920 と TITAN 240 G3 TITAN 240 G4 システム構成比較

Rev.6.0 Autodesk Certified Workstations HP Z840 HP Z8 G4 Dell T7920 と TITAN 240 G3 TITAN 240 G4 システム構成比較 Rev.6.0 Autodesk Certified Workstations HP Z840 HP Z8 G4 Dell T7920 と TITAN 240 G3 TITAN 240 G4 システム構成比較 HP Z840 スロット構成と配置 Dual GPU 構成 (CPU は Dual 構成のみ ) PCIe 3.0 x4 (Link x4) 1 Mellanox FDR 10Gb/IB ネットワークカード

More information

Microsoft Windows Corp. Pentium,Xeon,Celeron Intel Corporation. ( ) ( 2 )

Microsoft Windows Corp. Pentium,Xeon,Celeron Intel Corporation. ( ) ( 2 ) Microsoft Windows Corp. Pentium,Xeon,Celeron Intel Corporation. ( ) 2006 1 ( 2 ) HA8000/20W AD,BD,GD Intel E7230 1way PentiumD 840(3.20GHz) Pentium 4 650(3.40GHz)/630(3GHz) /521(2.80GHz) FSB800MHz SDRAM

More information

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます

More information

HPEハイパフォーマンスコンピューティング ソリューション

HPEハイパフォーマンスコンピューティング ソリューション HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System

More information

ProLiant ML150 Generation 3 システム構成図

ProLiant ML150 Generation 3 システム構成図 P ProLiant ML150 Generation 5 2009 6 19 OVERVIEW ProLiant ML150 Generation 5 ProLiant ML150 Generation 5 1 2 2 USB 3 * 1 4 8 * 2 6 /CPU () 1 4 2 2nd / 8 (2nd ) ( ) ProLiant ML150 G5 ( ) ( ) Xeon E5205

More information

Express5800/120Ra-1

Express5800/120Ra-1 1. CPU L1 L2 CD-ROM LAN OS OS N8100-661A ( /1BG(256)) Pentium 1.0BGHz 1 2 32KB 256KB 128MB 4GB (73.2GB 2) 10 24 100BASE-TX 10BASE-T 2 640 480 1280 1024* 2. DISK LINK/ACT(LAN1) STATUS LINK/ACT(LAN2) POWER/SLEEP

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ Composer 6 および Symphony 6 認定 Apple Mac システム システム Mac デスクトップ Mac Pro dual 6-Core 2.66GHz "Westmere" Core 2.66GHz および 2.93GHz "Nehalem" Core 2.26GHz "Nehalem" Core 3.0GHz および 3.2GHz "Harpertown" Geforce

More information

160311_icm2015-muramatsu-v2.pptx

160311_icm2015-muramatsu-v2.pptx Linux におけるパケット処理機構の 性能評価に基づいた NFV 導 の 検討 村松真, 川島 太, 中 裕貴, 林經正, 松尾啓志 名古屋 業 学 学院 株式会社ボスコ テクノロジーズ ICM 研究会 2016/03/11 研究 的 VM 仮想 NIC バックエンド機構 仮想化環境 仮想スイッチ パケット処理機構 物理環境 性能要因を考察 汎 IA サーバ NFV 環境に適したサーバ構成を検討

More information