今回の内容 GPU の発展 GPU のアーキテクチャ CPU の発展 性能の変化 シングルコアからマルチコア GPU の応用例 6

Size: px
Start display at page:

Download "今回の内容 GPU の発展 GPU のアーキテクチャ CPU の発展 性能の変化 シングルコアからマルチコア GPU の応用例 6"

Transcription

1 GPGPU の歴史と応用例 長岡技術科学大学電気電子情報工学専攻出川智啓

2 今回の内容 GPU の発展 GPU のアーキテクチャ CPU の発展 性能の変化 シングルコアからマルチコア GPU の応用例 6

3 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ チップ単体では販売されていない PCI Ex カードで販売 ( チップ単体と区別せずに GPU と呼ぶことも多い ) ノート PC に搭載 PCI Ex カードとして販売される GPU には, ビデオメモリと呼ばれる RAM が搭載 7

4 GPU(Graphics Processing Unit) とは 代表的な製品 NVIDIA GeForce, Quadro, Tesla AMD Radeon, FireProm 代表的な用途 3D グラフィックス処理 3D ゲーム,3DCAD,3DCG 作成 エンコード デコード支援 GPU 上に専用モジュールを搭載していることが多い デスクトップ PC の GUI 処理 Windows Aero が比較的高性能な GPU を要求 8

5 GPU の性能の遷移 ( 理論演算性能 ) Maxwell GeForce 780 Ti 9 Theoretical GFLOP/s Tesla Fermi GeForce GTX 580 GeForce GTX 480 Kepler GeForce GTX 680 Kepler GeForce GTX TITAN GeForce GTX 280 Tesla M2090 GeForce 8800 GTX Tesla C2050 GeForce 7800 GTX Tesla GeForce 6800 Ultra GeForce FX 5800 Woodcrest Harpertown C1060 Sandy Bridge Pentium 4 Bloomfield Westmere Tesla K40 Tesla K20X Ivy Bridge Apr 01 Sep 02 Jan 04 May 05 Oct 06 Feb 08 Jul 09 Nov 10 Apr 12 Aug 13 Dec 14 GeForce ゲーム用 Quadro CG 用 Tesla GPGPU 用 NVIDIA 社が公開している資料を基に作成

6 GPU の性能の遷移 ( 理論バンド幅 ) GeForce 780 Ti Maxwell Tesla K40 GeForce ゲーム用 Theoretical GB/s Tesla GeForce GTX 280 Fermi GeForce GTX 480 Tesla K20X Kepler GeForce GTX 680 Tesla M2090 Tesla C2050 Quadro CG 用 Tesla GPGPU 用 GeForce 8800 GTX Tesla C1060 Ivy Bridge GeForce 7800 GTX Sandy Bridge Bloomfield GeForce 6800 GT Woodcrest GeForce FX 5900 Prescott Westmere Harpertown Northwood NVIDIA 社が公開している資料を基に作成

7 GPU(Graphics Processing Unit) の役割 グラフィックスを表示するために様々な処理を行い, 処理の結果をディスプレイに出力 3 次元グラフィックスの発展に伴って役割が大きく変化 描画情報 CPU 3 次元座標変換 ポリゴンとピクセルの対応付け ピクセル色計算テクスチャ参照 フレームバッファ ( ビデオメモリ ) への書き込み ディスプレイ出力 過去 CPU が 3D 描画の演算を実行 GPUが出力 描画情報 3 次元座標変換 ポリゴンとピクセルの対応付け ピクセル色計算テクスチャ参照 フレームバッファ ( ビデオメモリ ) への書き込み ディスプレイ出力 現在 GPUが演算から出力までの全てを担当 CPUは描画情報の生成やGPUへの情報の引き渡し,GPU の制御を行う ディスプレイコントローラ 画面出力 GPU 画面出力 11

8 GPU の描画の流れ 1. CPUからGPUへ描画情報を送信 2. 頂点処理 ( 頂点シェーダ ) 座標変換 画面上での頂点やポリゴンの位置 大きさの決定 頂点単位での照明の計算 3. 頂点やポリゴンからピクセルを生成 ( ラスタライザ ) 4. ピクセル処理 ( ピクセルシェーダ ) 画面上のピクセルの色 テクスチャの模様 5. 画面出力 ピクセルの色情報をフレームバッファに書き込み

9 ビデオカードの利点 CPU で描画のための演算を行うと,CPU にかかる負荷が大きい 3 次元画像処理の専用回路を備えたハードウェアを導入 CPU にかかる負荷を減らすことができる 頂点 ピクセルごとに並列処理が可能なため, ハードウェアによる並列処理が可能 13

10 ビデオカードの欠点 3 次元画像処理の専用回路を備えたハードウェアを導入 新しい描画方法を開発しても,GPU へ実装 製品化されるまで利用できない ユーザが所有している GPU によって, 利用できる機能にばらつきが生じる ある描画手法用の専用回路を実装しても, その描画方法が常に使われる訳ではないので GPU 全体の利用効率が下がる 14

11 ビデオカードから GPU へ CG の多様化と共に固定機能の実装が困難に 頂点処理とピクセル処理をユーザが書き換えられるプログラマブルシェーダの実装 グラフィックスカード GPU 頂点処理用回路 頂点シェーダユニット ピクセル処理用回路 ピクセルシェーダユニット 15

12 ビデオカードから GPU へ 頂点処理とピクセル処理をユーザが書き換えられるプログラマブルシェーダの実装 処理によっては利用効率に差が生じる 頂点処理重視の処理 GPU 頂点シェーダユニット ピクセル処理重視の処理 GPU 頂点シェーダユニット 空きユニット ピクセルシェーダユニット ピクセルシェーダユニット 空きユニット 16

13 ビデオカードから GPU へ 頂点シェーダとピクセルシェーダを統合したユニファイドシェーダへの進化 頂点処理とピクセル処理を切り替えることで利用率を高める 頂点処理重視の処理 GPU ユニファイドシェーダユニット ピクセル処理重視の処理 GPU ユニファイドシェーダユニット 17

14 ビデオカードから GPU へ 各ピクセルに対して並列に処理を行えるよう, 並列度を高める 単純な処理を行う演算器を大量に搭載 高い並列度で処理を行う GPU の誕生と GPGPU の普及 高性能な 3DCG 画像処理への要求 GPU の高性能化 GPGPU の長所 消費電力あたりの浮動小数点理論演算性能が高い 安価 CPU を使った大規模計算機と比較して相対的に 18

15 GPU の進化 72 Volta 1 Watt あたりの単精度行列 - 行列積の回数 情報処理センター GPGPU システムに搭載 Tesla Fermi Kepler Maxwell Pascal 年 GPU は発展途上 (2~3 年で世代交代 ) NVIDIA 社プレゼンテーションを基に作成 今プログラムを作っておくと, 勝手に速くなってくれる!* * 多分に誇張的な表現であることに注意 19

16 GPU のハードウェア構造 CUDA Core( 旧 Streaming Processor, SP) と呼ばれる演算器を多数搭載 Streaming Multiprocessor(SM, SMX) が複数の CUDA Core と SFU, メモリをまとめて管理 SFU(Special Function Unit) 数学関数を計算するユニット 複数の SM が集まって GPU を構成 20

17 Fermi アーキテクチャ Tesla M2050 の仕様 SM 数 14 CUDA Core 数 448(=32Core/SM 14SM) L1/L2 キャッシュを搭載 ECC( 誤り訂正機能 ) を搭載 21

18 Fermi アーキテクチャ Tesla M2050 の仕様 * CUDA コア数 ( 単精度 ) CUDA コアクロック周波数 単精度演算ピーク性能 倍精度演算ユニット数 倍精度演算ピーク性能 メモリクロック周波数 メモリバス幅 最大メモリバンド幅 * 1 単精度 CUDA Core を 2 基使って倍精度演算を実行 * _M2070_jp.html Cores 1,150 MHz 1.03 TFLOPS 0* 1 Unit 515 GFLOPS 1.55 GHz 384 bit 148 GB/s 22

19 Maxwell アーキテクチャ GeForce GTX TITAN X の仕様 SM 数 24 CUDA Core 数 3,072(=128Core/SM 24SM) 23

20 Maxwell アーキテクチャ GeForce GTX TITAN X の仕様 * CUDA コア数 ( 単精度 ) CUDA コアクロック周波数 単精度演算ピーク性能 3,072 Cores 1,002 MHz 6.14 TFLOPS 倍精度演算ユニット数 0* 1 Units 倍精度演算ピーク性能 192 GFLOPS* 2 メモリクロック周波数 3.5 GHz* 3 メモリバス幅 最大メモリバンド幅 * top gpus/geforce gtx titan x/specifications 384 bit GB/s * 1 * 2 倍精度演算は単精度演算の性能の 1/32 (1/16 Flop/Core/clock) * 3 DDR(Double Data Rate) 7GHz 相当と書かれている場合もある 24

21 Pascal アーキテクチャ 2016 年にリリース予定 倍精度演算器を搭載予定 NVLink GPU 同士や GPU と CPU を接続する独自の方式 通信 (CPU メモリ PCI Express メモリ GPU) のボトルネックを解消 (PCI Express3.0 の 5~12 倍 ) 複数の GPU を使って大規模な計算が可能 3D メモリ (High Bandwidth Memory, HBM)* 3 次元積層技術を利用し, メモリの容量と帯域を大幅に増加 最大 32GB, メモリ帯域 1TB/s * 25

22 CUDA Compute Unified Device Architecture NVIDIA 社製 GPU 向け開発環境 (Windows,Linux,Mac OS X) 2007 年頃発表 C/C++ 言語 + 独自のGPU 向け拡張 専用コンパイラ (nvcc) とランタイムライブラリ いくつかの数値計算ライブラリ ( 線形代数計算,FFTなど) CUDA 登場以前 グラフィックスプログラミングを利用 足し算を行うために, 色を混ぜる処理を実行 汎用計算のためには多大な労力が必要 26

23 プログラマブルシェーダを用いた汎用計算 グラフィックス API(DirectX, OpenGL) による描画処理 + シェーダ言語 (HLSL, GLSL) による演算 void gpumain(){ vec4 ColorA = vec4(0.0, 0.0, 0.0, 0.0); vec4 ColorB = vec4(0.0, 0.0, 0.0, 0.0); vec2 TexA = vec2(0.0, 0.0); vec2 TexB = vec2(0.0, 0.0); TexA.x = gl_fragcoord.x; TexA.y = gl_fragcoord.y; TexB.x = gl_fragcoord.x; TexB.y = gl_fragcoord.y; } ColorA = texrect( texunit0, TexA ); ColorB = texrect( texunit1, TexB ); gl_fragcolor = F_ALPHA*ColorA + F_BETA*ColorB; シェーダ言語を用いた配列加算 (c= *a + *b) の例 void main(){ glutinit( &argc, argv ); glutinitwindowsize(64,64);glutcreatewindow("gpgpuhelloworld"); glgenframebuffersext(1, &g_fb); glbindframebufferext(gl_framebuffer_ext, g_fb); glgentextures(4, g_ntexid); // create (reference to) a new texture glbindtexture(opt1, texid); gltexparameteri(opt1, GL_TEXTURE_MIN_FILTER, GL_NEAREST); gltexparameteri(...); glteximage2d(opt1, 0, opt2, width, height, 0, GL_RGBA, GL_FLOAT, 0); ( 以下省略 ) GPU の処理 (GLSL) 各ピクセルに対して実行 CPU の処理 (OpenGL) 27

24 CUDA による汎用計算 (c= *a + *b) #define N (1024*1024) #define Nbytes (N*sizeof(float)) #define NT 256 #define NB (N/NT) global void init(float *a, float *b, float *c){ int i = blockidx.x*blockdim.x + threadidx.x; a[i] = 1.0; b[i] = 2.0; c[i] = 0.0; } global void add(float *a, float, float *b, float, float *c){ int i = blockidx.x*blockdim.x + threadidx.x; } c[i] = *a[i] + *b[i]; int main(){ float *a,*b,*c; float, ; } cudamalloc((void **)&a, Nbytes); cudamalloc((void **)&b, Nbytes); cudamalloc((void **)&c, Nbytes); =... ; =...; init<<< NB, NT >>>(a,b,c); add<<< NB, NT >>>(a,, b,, c); return 0; 28

25 GPU の普及の要因 GPU の進展は 15 年程度 普及の速度は驚異的 CPU は数十年かけて進展 CPU も驚異的な速度で進展 様々な高速化技術が導入 GPU が普及している要因は何か? 29

26 TOP500 List(2014, Nov.) スーパーコンピュータの性能の世界ランキング GPU を搭載したコンピュータは 2 基だけ 計算機名称 ( 設置国 ) アクセラレータ 実効性能 (PFlop/s) 消費電力 (MW) 1 Tianhe 2 (China) Intel Xeon Phi Titan (U.S.A.) NVIDIA K20x Sequoia (U.S.A.) K computer (Japan) Mira (U.S.A.) Piz Daint (Switzerland) NVIDIA K20x Stampede (U.S.A.) Intel Xeon Phi JUQUEEN (Germany) Vulcan (U.S.A.) (U.S.A.) より引用 30

27 理論ピーク性能と実効性能 Floating Point Operations per Second 1 秒あたりに浮動小数の演算が何回できるか 理論ピーク性能 プロセッサの数 ( プロセッサ上に実装された演算器の数 ) や動作周波数から求める理論的な速度 全ての機能が全て同時に使えれば という理論的な値 実効性能 ( 実行性能 ) ある問題に対してプログラムを実行したときに得られた性能 プログラムの中で行っている計算 ( 浮動小数点演算 ) の回数を数え, プログラムの実行にかかった時間を測定して割り算 31

28 CPU の理論性能 公式 FLOPS = 1 コアの演算性能 [?] コア数 [Core] CPU の動作周波数 [Hz=Clock/sec] 1 コアの演算性能 =1 度に発行出来る浮動小数点演算命令 単位は [Floating Point Operations/Clock /Core] 性能の評価には動作周波数だけでなく,1 コアが 1 クロックで発行できる命令数が重要 32

29 CPU の性能 FLOPS = 1 コアの演算性能 コア数 CPU の動作周波数 1 コアの演算性能の向上 演算器 ( トランジスタ ) の増加 コア数の増加 トランジスタ数の増加 CPU の動作周波数 回路の効率化や印可電圧の向上 様々な機能を追加 パイプライン処理 スーパースカラ実行 分岐予測等 動作周波数の向上に注力 ( ほぼ全ての処理が速くなる ) 33

30 CPU の性能の変化 Intel の予告 (Intel Developer Forum 2003) 2007 年頃には 10GHz に達する 34 Intel が公開している資料を基に作成 で見ることができる

31 CPU の性能の変化 2004 年頃からクロックが停滞 35 Intel が公開している資料を基に作成 ASCII.technologies(Dec 2009) や で見ることができる

32 CPU の性能向上 * * 姫野龍太郎, 絵でわかるスーパーコンピュータ, 講談社 (2012) 電子回路の構成部品 機械式リレー 真空管 トランジスタ IC (Integrated Circuit) LSI (Large Scale Integrated Circuit) CPUとメモリの性能向上 回路の配線を細線化 250nm 180nm 130nm 90nm 65nm 45nm 32nm 線幅が減ると同じ回路を作る際の面積が減少 同じ面積に集積できるトランジスタ数が増加 集積率が上昇 36

33 ムーアの法則 * インテルの共同設立者ムーアによる経験則 半導体の集積率は 1 年で倍になる 後に 18 ヶ月で 2 倍 に修正姫野龍太郎, 絵でわかるスーパーコンピュータ, Number of Transistors ムーアの法則 (12 ヶ月で倍 ) Intel386 プロセッサ Intel486 プロセッサ *Moore, G.E., Electronics, Vol.38,No.8(1965). ムーアの法則 講談社 (2012) に掲載されている絵を基に作成 ムーアの法則 (18 ヶ月で倍 ) インテル Pentium プロセッサ インテル Pentium 4 プロセッサ インテル Pentium III プロセッサ インテル Pentium II プロセッサ デュアルコアインテル Itanium 2 プロセッサ インテルItanium 2プロセッサインテルItaniumプロセッサ year

34 ポラックの法則 * * ポラックの法則 2 倍のトランジスタを使っても, プロセッサの性能はその平方根倍 (1.4 倍 ) 程度にしか伸びない 消費電力は 2 倍, 性能は 1.4 倍 一つの CPU に複数のプロセッサ ( コア ) を搭載 消費電力を上げずに 理論的な 性能を倍に プログラムの作り方に工夫が必要 38

35 プロセッサの性能向上 性能向上 半導体回路の細線化 動作周波数向上 消費電力が低下 低下分の電力をトランジスタのスイッチングに利用 39

36 プロセッサの性能向上 性能向上 半導体回路の細線化 2 倍のトランジスタを使っても性能は 1.4 倍程度にしか伸びない 絶縁部が狭くなり漏れ電流が発生, 電力が低下しない 動作周波数向上 消費電力が低下 消費電力の増加によって発熱量が増加, 空冷の限界 低下分の電力をトランジスタのスイッチングに利用 40

37 プロセッサの性能向上 性能向上 半導体回路の細線化 コア数の増加 2 倍のトランジスタを使っても性能は 1.4 倍程度にしか伸びない 絶縁部が狭くなり漏れ電流が発生, 電力が低下しない 動作周波数向上 消費電力が低下 消費電力の増加によって発熱量が増加, 空冷の限界 低下分の電力をトランジスタのスイッチングに利用 41

38 CPU の性能向上 FLOPS = 1 コアの演算性能 コア数 CPU の動作周波数 1 コアの演算性能の向上 演算器 ( トランジスタ ) の増加 コア数の増加 トランジスタ数の増加 CPU の動作周波数 回路の効率化や印可電圧の向上 コンパイラの最適化を利用 複数のコアを使うようにプログラムを書かないと速くならない 劇的な性能向上は期待できない 42

39 GPU を使うという選択 GPU 普及の要因の一つは CPU クロックの頭打ち クロックを下げてマルチコア化した CPU への対応が必要 なぜ GPU という選択か? CPU 用プログラムの並列化でもいいのでは? 消費電力の低減 数値計算や高性能計算 (HPC) の業界が GPU に注目 スーパーコンピュータの性能向上 高機能な CPU を大量に使うと消費電力が問題に 高機能な制御用プロセッサと, 計算を実行する低性能なアクセラレータの組み合わせ 43

40 Green500(2014, Nov.) AMD 社の GPU が 1 位 日本の次世代機 睡蓮 が 2 位 * NVIDIA 社の GPU が 3 位以降にランクイン 計算機名称アクセラレータ GFLOPS/W 消費電力 (kw) 1 L CSC AMD FirePro S Suiren PEZY SC TSUBAME KFC NVIDIA K20x Storm1 NVIDIA K40m Wilkes NVIDIA K idataplex NVIDIA K20x HA PACS NVIDIA K20x Cartesius Accelerator Island NVIDIA K20m Piz Daint NVIDIA K20x , romeo NVIDIA K20x *4 月 2 日に 1 位相当の値を記録 /04/02/kek_suiren/ より引用

41 アクセラレータ コンピュータの特定の機能や処理能力を向上させるハードウェア CPU で行っていた処理を専用ハードウェアが担当 動画像のエンコード デコード等 コンピュータシミュレーションでは CPU の代わりに計算を実行するハードウェアを指す 画像処理装置 (Graphics Processing Unit) メニーコアプロセッサ 45

42 アクセラレータ ( メニーコアプロセッサ ) PEZY SC 株式会社 PEZY Computing の 1,024 コアの低消費電力型メニーコアプロセッサ 1024 コア, 動作周波数 733MHz 理論演算性能 単精度 3.0 TFLOPS 倍精度 1.5 TFLOPS 46

43 アクセラレータ ( メニーコアプロセッサ ) Intel Xeon Phi OS を搭載しており, 接続しているワークステーションとは独立して動かすことが可能 61 コア CPU(1GHz), メモリ 8GB の Linux サーバ 理論演算性能 ( 単精度 ) 約 1 TFLOPS CPU からの制御が必要なアクセラレータとは異なる アーキテクチャが Intel CPU と同じであるため, コンパイルし直すだけで動作する 新モデルを投入予定 * 72コア, メモリ16GB 理論演算性能 3.0 TFLOPS * 47

44 まとめ GPU の特徴 低性能の演算器を大量に搭載 (~3000 コア ) GPU が使われる理由 理論演算性能が高い メモリとチップ間の帯域も広い 省電力と高性能を両立 今後の計算機の主流になると考えられる 将来に対する投資 GPU だけでなく, 制御用 CPU+ 計算用アクセラレータという思想は今後しばらく主流であり続ける 48

45 ロボットによる心臓外科手術 ロボットアームと内視鏡を使った心臓外科手術 人工心臓を使わず, 心臓を動かしたまま行う 49

46 ロボットによる心臓外科手術 50

47 ロボットによる心臓外科手術 心臓は複雑な形状で, かつ周期的に脈動 毎秒何十枚と撮られる映像をリアルタイムで処理しながらロボットアームを制御 心臓を 2 次元の画像に変換 その画像を基にロボットが動く道筋を計算 実際に 3 次元の動きに変換 心臓の動きに合わせてロボットアームを制御 51

48 住宅設備機器開発 住宅設備機器開発のための混相流シミュレーション 池端昭夫, 吉田慎也, 住宅設備機器開発のための混相流シミュレーション, 第 27 回数値流体力学シンポジウム講演予稿集, E05-4, 2013(on USB Flash Drive). の結果を著者が撮影 52

49 車載システム Google, NVIDIA, Audi などによる Open Automotive Alliance 自動車への Android プラットフォーム搭載促進を目指す 53

50 NVIDIA 社の自動車関連ソリューション NVIDIA DRIVE PX 高機能運転支援システム NVIDIA DRIVE CX 自動車の高度情報化 54

51 Jetson Tegra TK1 世界初の組み込みスーパーコンピューター NVIDIA Tegra K1を採用 Keplarアーキテクチャ 192 CUDA コア NVIDIA 4 Plus 1 クアッドコア ARM Cortex A15 CPU Linux for Tegra が動作 55

52 月面探査 Google Lunar XPRIZE Google による国際宇宙開発レース 日本の民間月面探査チーム HAKUTO が参加 ロケット発射時のシミュレーション 着陸などのシミュレーションや実際の制御に GPU を用いた自動運転技術を利用 56

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPGPU の歴史と応用例 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU の進化の歴史 GPU のアーキテクチャ GPU の産業応用例 38 GPGPU 実践基礎工学 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ チップ単体では販売されていない PCI Ex カードで販売 ( チップ単体と区別せずに GPU

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx シングルコアとマルチコア 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 前々回の授業の復習 CPUの進化 半導体集積率の向上 CPUの動作周波数の向上 + 複雑な処理を実行する回路を構成 ( 前々回の授業 ) マルチコア CPU への進化 均一 不均一なプロセッサ コプロセッサ, アクセラレータ 210 コンピュータの歴史 世界初のデジタルコンピュータ 1944 年ハーバードMark I

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU プログラミング環境 (CUDA) GPU プログラムの実行の流れ CUDA によるプログラムの記述 カーネル (GPU で処理する関数 ) の構造 記述方法とその理由 GPU 固有のパラメータの確認 405 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ

More information

GPGPUイントロダクション

GPGPUイントロダクション 大島聡史 ( 並列計算分科会主査 東京大学情報基盤センター助教 ) GPGPU イントロダクション 1 目的 昨今注目を集めている GPGPU(GPU コンピューティング ) について紹介する GPGPU とは何か? 成り立ち 特徴 用途 ( ソフトウェアや研究例の紹介 ) 使い方 ( ライブラリ 言語 ) CUDA GPGPU における課題 2 GPGPU とは何か? GPGPU General-Purpose

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx 補 足 MPIプログラムのコンパイル, 実 行 標 準 の 環 境 ではmpic++やmpiexecを 実 行 できない OSがmpic++やmpiexecの 場 所 を 把 握 していないことが 原 因 bash 3.2$ mpic++ bash: mpic++: command not found bash 3.2$ mpiexec bash: mpiexec: command not found

More information

GPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓

GPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 GPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU のアーキテクチャ CUDA CUDA によるプログラミング 58 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ チップ単体では販売されていない PCI Ex カードで販売 ( チップ単体と区別せずに GPU と呼ぶことも多い

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境

More information

チューニング講習会 初級編

チューニング講習会 初級編 GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年5月版) CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC/Symphony ソフトウェア 5.0.3 以降のバージョンが必要です Two 2.66 GHz 6-Core *Mojo SDI 及び Adrenaline サポート Intel Xeon (12 コア ) 32-bit カーネルで実 して下さい 64-bit カーネルは対応していません

More information

NUMAの構成

NUMAの構成 GPU のプログラム 天野 アクセラレータとは? 特定の性質のプログラムを高速化するプロセッサ 典型的なアクセラレータ GPU(Graphic Processing Unit) Xeon Phi FPGA(Field Programmable Gate Array) 最近出て来た Deep Learning 用ニューロチップなど Domain Specific Architecture 1GPGPU:General

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 加藤真平計算機アーキテクチャ特論 計算機アーキテクチャ特論後半第 1 回最先端アーキテクチャのトレンド 本資料は授業用です 無断で転載することを禁じます 講師加藤真平 前半の趣旨 : 並列化プログラミング for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } シングルプロセッサ マルチプロセッサ x[0]=a[0]+b[0]; x[1]=a[1]+b[1];

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始 2014 年 1 月 31 日 国立大学法人九州大学 株式会社日立製作所 九州大学がスーパーコンピュータ 高性能アプリケーションサーバシステム の本格稼働を開始 日立のテクニカルサーバ HA8000-tc/HT210 などを採用 従来システム比で 約 28 倍の性能を実現し 1TFLOPS あたりの消費電力は約 17 分の 1 に低減 九州大学情報基盤研究開発センター ( センター長 : 青柳睦 /

More information

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャ プロセッサロードマップ 2000 年第 4 四半期 2001 年上半期 サーバ / インテル Pentium III インテル Itanium ワークステーション Xeon プロセッサプロセッサ パフォーマンスインテル

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ Composer 6 および Symphony 6 認定 Apple Mac システム システム Mac デスクトップ Mac Pro dual 6-Core 2.66GHz "Westmere" Core 2.66GHz および 2.93GHz "Nehalem" Core 2.26GHz "Nehalem" Core 3.0GHz および 3.2GHz "Harpertown" Geforce

More information

GPGPU によるアクセラレーション環境について

GPGPU によるアクセラレーション環境について GPGPU によるアクセラレーション環境について 長屋貴量 自然科学研究機構分子科学研究所技術課計算科学技術班 概要 GPGPU とは 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 その演算能力は CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野での応用が広がってきている

More information

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1. ZettaScaler-1.5 による HPC システム構築と ZettaScaler-2.0 構想 2015 年 12 月 18 日 齊藤元章 ( 株式会社 PEZY Computing/ 株式会社 ExaScaler/UltraMemory 株式会社 ) 11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

N08

N08 CPU のキモチ C.John 自己紹介 英語きらい 絵かけない 人の話を素直に信じない CPUにキモチなんてない お詫び 予告ではCとC# とありましたがやる気と時間の都合上 C++のみを対象とします 今日のネタ元 MSDN マガジン 2010 年 10 月号 http://msdn.microsoft.com/ja-jp/magazine/cc850829.aspx Windows と C++

More information

System Requirements for Geomagic

System Requirements for Geomagic GEOMAGIC 動作環境 32-bit 版 64-bit 版 OS CPU RAM ハードディスクディスプレイ GPU - Windows XP (32-bitまたは64-bit SP2 以上 ) - Windows XP (64-bit SP2 以上 ) - Windows Vista (32-bitまたは64-bit SP1 - Windows Vista (64-bit SP1 以上 ) 以上

More information

iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

untitled

untitled AMD HPC GP-GPU Opteron HPC 2 1 AMD Opteron 85 FLOPS 10,480 TOP500 16 T2K 95 FLOPS 10,800 140 FLOPS 15,200 61 FLOPS 7,200 3 Barcelona 4 2 AMD Opteron CPU!! ( ) L1 5 2003 2004 2005 2006 2007 2008 2009 2010

More information

HPEハイパフォーマンスコンピューティング ソリューション

HPEハイパフォーマンスコンピューティング ソリューション HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System

More information

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10 NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

More information

EnSightのご紹介

EnSightのご紹介 オープン CAE シンポジウム 2014 汎用ポストプロセッサー EnSight の大規模データ対応 CEI ソフトウェア株式会社代表取締役吉川慈人 http://www.ceisoftware.co.jp/ 内容 大規模データで時間のかかる処理 クライアント サーバー機能 マルチスレッドによる並列処理 サーバーの分散処理 クライアントの分散処理 ( 分散レンダリング ) EnSightのOpenFOAMインターフェース

More information

HP Workstation 総合カタログ

HP Workstation 総合カタログ HP Workstation Z HP 6 Z HP HP Z840 Workstation P.9 HP Z640 Workstation & CPU P.10 HP Z440 Workstation P.11 17.3in WIDE HP ZBook 17 G2 Mobile Workstation P.15 15.6in WIDE HP ZBook 15 G2 Mobile Workstation

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

Microsoft Word - Quadro Mシリーズ_テクニカルガイド_R1-2.doc

Microsoft Word - Quadro Mシリーズ_テクニカルガイド_R1-2.doc (2016/01/28) グラフィックス アクセラレータ Quadro M シリーズ - 1 - 1. 機能仕様 Quadro M5000/M4000 型名 N8005-FS61/122 N8005- FS60/121 製品名 Quadro M5000 Quadro M4000 GPU NVIDIA Quadro M5000 NVIDIA Quadro M4000 メモリ 8GB 256bit GDDR5

More information

HP_PPT_Standard_16x9_JP

HP_PPT_Standard_16x9_JP Autodesk Simulation に最適 HP Z Workstation 最新情報 日本ヒューレット パッカード株式会社ワークステーション市場開発大橋秀樹 HP Workstation 軌跡 新 Z シリーズ初のモバイル製品 2008 年から日本でマーケットシェア No.1 Unix WS や独自グラフィックスなど開発実績

More information

ComputerArchitecture.ppt

ComputerArchitecture.ppt 1 人間とコンピュータの違い コンピュータ 複雑な科学計算や膨大な量のデータの処理, さまざまな装置の制御, 通信などを定められた手順に従って間違いなく高速に実行する 人間 誰かに命令されなくても自発的に処理したり, 条件が変化しても臨機応変に対処できる 多くの問題解決を経験することで, より高度な問題解決法を考え出す 数値では表しにくい情報の処理ができる 2 コンピュータの構成要素 構成要素 ハードウェア

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

Microsoft PowerPoint - 1st

Microsoft PowerPoint - 1st コンピュータ概論第 1 回 授業導入 授業導入 コンピュータとは? Computer = 計算機 compute: 動詞 計算する computer: 計算するモノ 算盤 ( そろばん ) 計算尺 電卓 コンピュータ コンピュータ 単なる計算の道具ではない 計算を行う 算盤, 計算尺, 電卓, コンピュータ 計算を高速に行う 電卓, コンピュータ 大量のデータを記憶, 処理する コンピュータ さまざまなデータを処理する

More information

6 ZettaScaler-1.x Supercomputer systems

6 ZettaScaler-1.x Supercomputer systems VDEC20 周年記念行事講演 次世代 AI とスーパーコンピュータが実現する近未来に向けて ~ 国産技術による独自 AI エンジンとスパコン開発のご紹介 ~ 2017 年 1 月 20 日 齊藤 元章 ( 株式会社 PEZY Computing/ 株式会社 ExaScaler/UltraMemory 株式会社株式会社 Deep Insights/ 株式会社 Infinite Curation) 6

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2016 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57 WebGL 2014.04.15 X021 2014 3 1F Kageyama (Kobe Univ.) Visualization 2014.04.15 1 / 57 WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization 2014.04.15 2 / 57 WebGL Kageyama (Kobe Univ.) Visualization 2014.04.15

More information

ムーアの法則に関するレポート

ムーアの法則に関するレポート 情報理工学実験レポート 実験テーマ名 : ムーアの法則に関する調査 職員番号 4570 氏名蚊野浩 提出日 2019 年 4 月 9 日 要約 大規模集積回路のトランジスタ数が 18 ヶ月で2 倍になる というムーアの法則を検証した その結果 Intel 社のマイクロプロセッサに関して 1971 年から 2016 年の平均で 26.4 ヶ月に2 倍 というペースであった このことからムーアの法則のペースが遅くなっていることがわかった

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について

More information

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料) 今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.

More information

OpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58

OpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58 WebGL *1 2013.04.23 *1 X021 2013 LR301 Kageyama (Kobe Univ.) Visualization 2013.04.23 1 / 58 OpenGL GLSL References Kageyama (Kobe Univ.) Visualization 2013.04.23 2 / 58 Kageyama (Kobe Univ.) Visualization

More information

HP WORKSTATIONS グラフィックスカード

HP WORKSTATIONS グラフィックスカード HP WORKSTATIONS グラフィックスカード レファレンスガイド PROFESSIONAL GRAPHICS SOLUTIONS FOR HP Z WORKSTATIONS 1. HP DESKTOP WORKSTATIONS 本体 HP Z2 Mini G4 HP Z2 SFF G4 HP Z2 Tower G4 HP Z240SF HP Z240 グラフィックス Intel HD Graphics

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

計算機アーキテクチャ

計算機アーキテクチャ 計算機アーキテクチャ 第 11 回命令実行の流れ 2014 年 6 月 20 日 電気情報工学科 田島孝治 1 授業スケジュール ( 前期 ) 2 回日付タイトル 1 4/7 コンピュータ技術の歴史と コンピュータアーキテクチャ 2 4/14 ノイマン型コンピュータ 3 4/21 コンピュータのハードウェア 4 4/28 数と文字の表現 5 5/12 固定小数点数と浮動小数点表現 6 5/19 計算アーキテクチャ

More information

情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10

情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10 情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10:00 より WEB で販売開始 MASTERPIECE i1640pa2-sp2 画像はイメージです

More information

増設メモリ (2006/11/20)

増設メモリ (2006/11/20) (2006/11/20) 1. 機能 型名 N8102-246 N8102-247 N8102-248 N8102-249 8GB (x2 枚 ) (x2 枚 ) (x2 枚 ) (x2 枚 ) DDR2-533 SDRAM-DIMM(Fully Buffered),ECC 駆動電圧 1.5V/1.8V 型名 N8102-250 N8102-251 N8102-252 (x2 枚 ) (x2 枚 )

More information

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの Composer 6, Symphony 6, NewsCutter 10, Assist 2.5, Instinct 3.5 認定 PC システム システム PC デスクトップ HP Z800 DUal 6- core 2.66GHz (X5650) 3800 5.0.3/9.0.3 はいいいえはいはいはいはい (3 枚構成の DIMM) HP Z800 Dual Quad core 2.93GHz

More information

富士通セミコンダクタープレスリリース 2009/05/19

富士通セミコンダクタープレスリリース 2009/05/19 [ デバイス ] 2009 年 5 月 19 日富士通マイクロエレクトロニクス株式会社 世界初!125 動作の SiP 向け低消費電力メモリを新発売 ~ メモリの耐熱性向上により 消費電力の大きな高性能デジタル家電に最適 ~ 富士通マイクロエレクトロニクス株式会社 ( 注 1) は DDR SDRAM インターフェースを持つメモリでは世界で初めて動作温度範囲を 125 まで拡張したコンシューマ FCRAM(

More information

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

工学院大学建築系学科近藤研究室2000年度卒業論文梗概 耐災害性の高い通信システムにおけるサーバ計算機の性能と消費電力に関する考察 耐障害性, 消費電力, 低消費電力サーバ 山口実靖 *. はじめに 性能と表皮電力の関係について調査し, 考察を行う 災害においては, 減災活動が極めて重要である すなわち 災害が発生した後に適切に災害に対処することにより, その被害を大きく軽減できる. 適切な災害対策を行うには災害対策を行う拠点が正常に運営されていることが必要不可欠であり,

More information

Catalog_Quadro_Series_ のコピー2

Catalog_Quadro_Series_ のコピー2 NVIDIA Quadro Series NVIDIA Quadro Design, Built, and Tested by NVIDIA NVIDIA QUADRO シリーズ 総合カタログ BREAKTHROUGH IN EVERY FORM. 比類なきパワー 比類なき創造的自由 NVIDIA のこ れ ま で で 最 も 強 力 な GPU アー キ テ クチャであ る NVIDIA Pascal

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス インテル最新 CPU 談義 人気の K シリーズだけじゃない 無印も省電力も Xeon もあるよ! テクニカルライター 鈴木雅暢 インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

Shade 13.2 アップデータ

Shade 13.2 アップデータ 2012 年 11 月 19 日 ゲーム開発エンジン Unity へ対応し 連携を大幅に強化 Shade 13.2 アップデータ公開開始のお知らせ 株式会社イーフロンティア ( 本社 : 東京都新宿区 代表取締役 : 安藤健一 ) は ゲーム開発ソフト Unity に対応(*1) した Shade シリーズ最新バージョン Shade 13.2 を本日 2012 年 11 月 19 日 ( 月 ) より公開いたします

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

GeForce GTX 750 Ti Whitepaper

GeForce GTX 750 Ti Whitepaper ホワイトペーパー NVIDIA GeForce GTX 750 Ti 究極のワットあたりパフォーマンスの実現に向け 第 1 世代 Maxwell GPU テクノロジを採用 V1.0 1 目次 目次... 1 はじめに... 3 Maxwell の真骨頂 : ワットあたりパフォーマンスの向上... 4 GM107 Maxwell アーキテクチャの詳細... 5 次世代の Maxwell SM... 6

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション スーパーコンピュータのネットワーク 情報ネットワーク特論 南里豪志 ( 九州大学情報基盤研究開発センター ) 1 今日の講義内容 スーパーコンピュータとは どうやって計算機を速くするか スーパーコンピュータのネットワーク 2 スーパーコンピュータとは? " スーパー " な計算機 = その時点で 一般的な計算機の性能をはるかに超える性能を持つ計算機 スーパーコンピュータの用途 主に科学技術分野 創薬

More information

コンピュータグラフィックス

コンピュータグラフィックス コンピュータグラフィックス 第 13 回 リアルタイム CG 理工学部 兼任講師藤堂英樹 CG 制作の主なワークフロー 3DCG ソフトウェアの場合 モデリング カメラ シーン アニメーション テクスチャ 質感 ライティング 画像生成 2015/12/21 コンピュータグラフィックス 2 リアルタイム CG CG をリアルタイムにする必要性 インタラクティブなユーザーとのやり取り 映像制作 モデリング,,

More information

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted DEGIMA LINPACK Energy Performance for LINPACK Benchmark on DEGIMA 1 AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK 1.4698 GFlops/Watt 1.9658 GFlops/Watt Abstract GPU Computing has

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

TCC は Tesla Compute Cluster を意味します NVidia for Windows によって開発された特別なドライバです Windows Display Driver Model(WDDM) をバイパスし GPU が CPU とより高速で通信できるようにします TCC の欠点

TCC は Tesla Compute Cluster を意味します NVidia for Windows によって開発された特別なドライバです Windows Display Driver Model(WDDM) をバイパスし GPU が CPU とより高速で通信できるようにします TCC の欠点 Redshift ハードウェアに関する考慮事項 本資料は Redshift の Forum Hardware for Redshift に記載された以下の資料を翻訳したものです https://docs.google.com/document/d/1rp5nkypqbpm-5tlvdelgct93rjgh4vexyhzsqhr1xri/edit?usp=sharing 目次 GPU... 1 必要な

More information

HP Workstation 総合カタログ

HP Workstation 総合カタログ HP Workstation E5 v2 Z Z SFF E5 v2 2 HP Windows Z 3 Performance Innovation Reliability 3 HPZ HP HP Z820 Workstation P.11 HP Z620 Workstation & CPU P.12 HP Z420 Workstation P.13 17.3in WIDE HP ZBook 17

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

TSUBAME2.0におけるGPUの 活用方法

TSUBAME2.0におけるGPUの 活用方法 GPU プログラミング 基礎編 東京工業大学学術国際情報センター 1. GPU コンピューティングと TSUBAME2.0 スーパーコンピュータ GPU コンピューティングとは グラフィックプロセッサ (GPU) は グラフィック ゲームの画像計算のために 進化を続けてきた 現在 CPU のコア数は 2~12 個に対し GPU 中には数百コア その GPU を一般アプリケーションの高速化に利用! GPGPU

More information

Microsoft Word - SSTC_Intel_Core.doc

Microsoft Word - SSTC_Intel_Core.doc 技術メモ インテル Core マイクロアーキテクチャ スケーラブルシステムズ株式会社 技術メモ インテル Core マイクロアーキテクチャ 1. はじめに... 2 2. Intel Core マイクロアーキテクチャ... 3 3. マイクロプロセッサの性能を左右するものは?... 5 4. Intel Core マイクロアーキテクチャに投入された主要技術... 6 Advanced Digital

More information

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr 情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePro T310 シリーズ 画像はイメージです 液晶ディスプレイはオプションです 株式会社マウスコンピューター

More information

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として) Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として)  Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA 3 次多項式パラメタ推定計算の CUDA を用いた実装 (CUDA プログラミングの練習として ) Estimating the Parameters of 3rd-order-Polynomial with CUDA ISS 09/11/12 問題の選択 目的 CUDA プログラミングを経験 ( 試行錯誤と習得 ) 実際に CPU のみの場合と比べて高速化されることを体験 問題 ( インプリメントする内容

More information

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

White Paper 高速部分画像検索キット(FPGA アクセラレーション) White Paper 高速部分画像検索キット (FPGA アクセラレーション ) White Paper 高速部分画像検索キット (FPGA アクセラレーション ) Page 1 of 7 http://www.fujitsu.com/primergy Content はじめに 3 部分画像検索とは 4 高速部分画像検索システム 5 高速部分画像検索の適用時の改善効果 6 検索結果 ( 一例 )

More information

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速 1 1, 2 1, 2 3 2, 3 4 GP LES ASUCA LES NVIDIA CUDA LES 1. Graphics Processing Unit GP General-Purpose SIMT Single Instruction Multiple Threads 1 2 3 4 1),2) LES Large Eddy Simulation 3) ASUCA 4) LES LES

More information

H1-4

H1-4 High End Style AcerWindows Vista Home Premium Aspire M5621 ASM5621-A21 ASM5621-A22 ASM5621-A23 High End Style Aspire M5621 MAIN SPEC CPU ASM5621-A21ASM5621-A22ASM5621-A23 MEMORY HDD DRIVE OS GRAPHICS LAN

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information

27_02.indd

27_02.indd GPGPU を用いたソフトウェア高速化手法 Technique to Speedup of the software by GPGPU 大田弘樹 馬場明子 下田雄一 安田隆洋 山本啓二 Hiroki Ota, Akiko Baba, Shimoda Yuichi, Takahiro Yasuta, Keiji Yamamoto PCやワークステーションにおいて画像処理に特化して使用されてきたGPUを

More information