Microsoft PowerPoint - SSTC_Dell_Sminar_040606

Size: px

Start display at page:

Download "Microsoft PowerPoint - SSTC_Dell_Sminar_040606"

みちしげさわい
5 years ago
Views:

1 ご説明の内容について Xeon デュアルコアプロセッサでのハイパフォーマンスの実現について HPCシステムの発展とトレンド Proprietary.vs. COTS 64ビットコンピューティングマルチコアプロセッサプログラム最適化と開発環境に関するトピックスコンパイラ技術と開発ツールクラスタ環境共有メモリプログラミングまとめとして標準コンポーネントによる HPC の進化ご説明の内容について HPC システムの構築コンポーネント HPCシステムの発展とトレンド Proprietary.vs. COTS 64ビットコンピューティングマルチコアプロセッサプログラム最適化と開発環境に関するトピックスコンパイラ技術と開発ツールクラスタ環境共有メモリプログラミングまとめとして標準コンポーネントによる HPC の進化 1960s 1970s HPC Systems 1970s Processor proprietary Memory proprietary Motherboard proprietary Interconnect proprietary OS,SW Tools proprietary 1980s 1980s proprietary proprietary proprietary proprietary proprietary 1990s 1990s COTS COTS proprietary proprietary proprietary 2000s 2000s COTS COTS COTS COTS COTS proprietary : 独自開発 COTS: 一般商用もしくは標準品 - 1 -

TOP500 でのプロセッサアーキテクチャ 64-Bit 拡張アーキテクチャベクトル計算機 : CPU システムや OS は全て独自開発ベクトル計算機の凋落各社の呼び方 AMD Intel Microsoft AMD64 EM64T (Extended Memory 64-bit

AMD64 と EM64T は同じレジスタセットを利用しほぼ同一の命令セットを利用しています互換性に関しては OS とコンパイラが双方の違いを認識できるためユーザ ( アプリケーション ) についてはその差を意識する必要はありません 32-Bit と 64-Bit モード

64-bit 64-bit Long Mode ユーザは 64-bit 環境に互換性を維持しながら性能を損なうことなく移行可能 Native 64-bit 64-bit 64-bit 64-bit 完全な 64-bit 環境利用可能なアプリケーション数 32-bit x86

2 TOP500 でのプロセッサアーキテクチャ 64-Bit 拡張アーキテクチャベクトル計算機 : CPU システムや OS は全て独自開発ベクトル計算機の凋落各社の呼び方 AMD Intel Microsoft AMD64 EM64T (Extended Memory 64-bit Technology) x64 (Microsoft s term for x86 64-bit extensions) 商用プロセッサの台頭 MPP : CPU は商用製品を利用しシステムや OS は独自開発クラスタ : CPU システムや OS の全てが商用もしくはオープンソース AMD64 と EM64T は同じレジスタセットを利用しほぼ同一の命令セットを利用しています互換性に関しては OS とコンパイラが双方の違いを認識できるためユーザ ( アプリケーション ) についてはその差を意識する必要はありません 32-Bit と 64-Bit モード x86-64 環境の発展 User Kernel Application Operating System Drivers Legacy Mode Legacy 32-bit 32-bit 32-bit 既存の SW インフラストラクチャ Compatibility 32-bit 64-bit 64-bit Long Mode ユーザは 64-bit 環境に互換性を維持しながら性能を損なうことなく移行可能 Native 64-bit 64-bit 64-bit 64-bit 完全な 64-bit 環境利用可能なアプリケーション数 32-bit x86 x スケーラビリティ (Scalability) 64-bit x86 は今後の 64 ビット計算環境における標準となることが予想されますその理由は 1) 32-bit アプリケーション資産の活用が可能 2) より容易でスムーズ 64-bit 計算環境への移行が可能 64-bit IPF - 2 -

3 x86-64 OS サポート OS サポートの時間軸 1-2 years x86-64 が最初に活用されたのは RISC マイクロプロセッサと UNIX が活用されていた分野でしたが現在ではより広範囲なマーケットでの活用がなされてきています. OS 8+ years Win NT 3.1 Win 95 Microsoft Red Hat SuSE Windows Server 2003 x64 Enterprise Linux v.4 Linux Enterprise Server 9 CPU bit から 32-bit への移行 Opteron ビットから 64 ビットへの移行は以前の 16 ビットから 32 ビットへの移行と比較しても遥かに短時間で実現されています.. 32-bit から 64-bit への移行 Xeon/EM64T マイクロアーキテクチャの S カーブ新たな次元でのプロセッサ開発 MIPS Pentium 4 and Xeon Architecture with HT Multi-Threaded Pentium Pro Architecture Speculative Out-of-Order Pentium Architecture Super Scalar Pentium 4 Architecture Trace Cache Multi-Threaded, Multi-Core Era of Instruction Parallelism Era of Thread Parallelism より柔軟なプロセッサ開発とテクノロジの導入キャッシュサイズ動作周波数マルチコアマイクロアーキテクチャ Johan De Gelas, Quest for More Processing Power, AnandTech, Feb. 8, プロセッサの性能向上のための選択肢が広がる価格性能比の向上を違った次元で提供可能技術的な利点とマーケティングの要求 - 3 -

4 マルチコアによって Performance/Watt が改善性能向上の加速 Cache Big Core Core 1 Core 2 Shared Cache Core 3 Core 4 Power Performance Cache Small Core 1 1 Power ~ コアサイズ PERFORMANCE ~ コアサイズ過去のx86プロセッサの性能向上は年率 15% - 30% 2005 年に多くのデュアルコアプロセッサが製品化された今後の予測として年率 50% 以上の性能向上 2007 年以降はデュアルコア以上の構成の製品も一般化ソフトウエアの挑戦? マルチスレッド利用技術適用分野 performance x86 CPU 性能の変遷 ( 予測 ) マルチコアデュアルコア予想される性能向上過去の歴史からの性能向上予測 Source: HP 並列処理の重要性ムーアの法則 (GHz から MC へ ) 何もしないでもクロックアップにより性能が向上する (18 ヶ月毎にクロックが 2 倍になり性能も 2 倍 ) 6GHz 3GHz 24GHz 12GHz 1 Core ユーザは何もしなくても 18 ヶ月に 2 倍の性能向上が得られた状況からクロック向上による性能向上はそれほど期待出来ない状況に対応する必要がある 2 Cores 3GHz, 2Cores 3GHz, 4Cores 3GHz, 8Cores 4 Cores 並列実行することで性能向上が可能となる 8 Cores 性能ムーアの法則に沿ったし性能向上を図るためにはマルチコアの技術の最大限の活用が必須となります 2005 MultiCore マルチコアによる性能向上マルチスレッドマルチタスクトレーニングツール. 動作周波数の向上による性能向上 - 4 -

マルチコアプロセッサ様々なマルチコアの可能性 P P P インターコネクトネットワークデュアルコアプロセッサプロセッサ実行リソースプロセッサ実行リソースコア L1C L2C コア L1C L2C コア L1C L2C コア L1C L2C コア L1C M M M AS AS スレッドシングルプロセス並行実行共有メモリとリソース明示的なスレッド OpenMP コア L1C

Execution Core Bus I/F デュアルコア Multi-Chip Module Execution Core Cache Bus I/F Execution Core Cache Bus I/F 2 つのダイをソケットに搭載 (MCM) 各プロセッサコアが独立して L2 キャッシュを持った場合 Core 1 L2 Cache Core 2 L2 Cache Inte Core

5 マルチコアプロセッサ様々なマルチコアの可能性 P P P インターコネクトネットワークデュアルコアプロセッサプロセッサ実行リソースプロセッサ実行リソースコア L1C L2C コア L1C L2C コア L1C L2C コア L1C L2C コア L1C M M M AS AS スレッドシングルプロセス並行実行共有メモリとリソース明示的なスレッド OpenMP コア L1C コアコア L1C L1C L2C コア L1C コア L1C コアコア L1C L1C L2C コア L1C Intel Xeon デュアルコア L2 キャッシュ共有デュアルコアプロセッサシングルコア Execution Core シングルのダイ上に独立したプロセッサを実装 Standard package Execution Core Cache Cache Bus I/F Execution Core Bus I/F デュアルコア Multi-Chip Module Execution Core Cache Bus I/F Execution Core Cache Bus I/F 2 つのダイをソケットに搭載 (MCM) 各プロセッサコアが独立して L2 キャッシュを持った場合 Core 1 L2 Cache Core 2 L2 Cache Inte Core マイクロアーキテクチャでの L2 キャッシュの共有 Core 1 L2 Cache Core 2 共有データへのアクセスが効率化されバスバンド幅の維持が可能またデータアクセスのレイテンシの向上も可能 Cache Standard package Bus I/F Bus I/F Bus I/F Bus I/F Execution Core Cache Cache Bus I/F Execution Core シングルダイとシングル I/F FSB 各コアのキャッシュの利用容量は動的に割り当てられる ( より柔軟で効率の良いキャッシュの利用が可能でキャッシュヒット率の向上が可能 ) デュアルコアの実装方法には様々な方法や方式が考えられるがユーザからはほとんど同じように利用可能ですただそれぞれの実装で最適化や並列化効率の改善には違った方法が必要になります Source: Intel, Dual Core Architecture Spring 2005 IDF Main Memory Main Memory Intel Core マイクロアーキテクチャ - 5 -

IDF でのマルチコアのデモご説明の内容について Depmsey HPC システムの発展とトレンド

COTS 64 ビットコンピューティング Woodcrest Clovertown 同じ Dell 製サーバに 3

プログラム最適化と開発環境に関するトピックスコンパイラ技術と開発ツールクラスタ環境共有メモリプログラミング

の利用ビットレベルでの並列処理浮動小数点演算など命令実行レベルでの並列処理クロックあたり複数の命令実行

これらの全ての並列処理を効率よくスケジューリングすることで高い性能を実現することが可能

6 IDF でのマルチコアのデモご説明の内容について Depmsey HPC システムの発展とトレンド Proprietary.vs.COTS 64 ビットコンピューティング Woodcrest Clovertown 同じ Dell 製サーバに 3 世代のマルチコアプロセッサを実装しデモを行っていましたマルチコアプロセッサプログラム最適化と開発環境に関するトピックスコンパイラ技術と開発ツールクラスタ環境共有メモリプログラミングまとめとして標準コンポーネントによる HPC の進化コンピュータの並列処理並列性 (Parallelism) の利用ビットレベルでの並列処理浮動小数点演算など命令実行レベルでの並列処理クロックあたり複数の命令実行メモリシステムメモリオペレーションと計算のオーバラップ OS の並列処理これらの全ての並列処理を効率よくスケジューリングすることで高い性能を実現することが可能システムマルチノードマルチプロセッサマルチコアマルチインストラクションマルチタスク処理 MPI などによる複数のノード間での並列処理ユーザ及びコンパイラによるスレッドレベルでの並列処理 (TLP) コンパイラによる命列実行レベルでの並列処理 (ILP) 複数のプロセススレッドジョブの同時実行 - 6 -

7 Time 並列性 (Parallelism) の利用 Time コンパイラのパフォーマンススイッチインテルコンパイラのコンパイラオプションプロセッサ固有の最適化とメモリプロシージャ間最適化参照に関する最適化 /Qip,-ip /Qipo, -ipo /Qipo_wp, -wp_ipo /G2 g2 /Oa, -fno_alias Pipelining Data-Level Parallelism (DLP) -O1, -O2, -O3 Time Thread-Level Parallelism (TLP) Time Instruction-Level Parallelism (ILP) プロファイルに基づく最適化一般的な最適化 /Qprof_gen, -prof_gen /Qprof_use,-prof_use インテルコンパイラでの最適化オプションインテルコンパイラでの最適化オプション Windows -QxK Linux -xk 最適化の対象インテル Pentium III プロセッサおよび互換性のあるインテルプロセッサ Windows /O2 Linux -O -O2 と同じ説明 -QxW -xw インテル Pentium 4 プロセッサおよび互換性のあるインテルプロセッサ /Od -O0 最適化を行わない -QxN -QxB -QxP -xn -xb -xp インテル Pentium 4 プロセッサおよび互換性のあるインテルプロセッサ関数 main() がこのオプションを使用してコンパイルされるとプログラムは互換性のないプロセッサを検出して実行時にエラーメッセージを出力しますこのオプションはインテルプロセッサ固有の最適化に加えて新しい最適化も有効にしますインテル Pentium M プロセッサおよび互換性のあるインテルプロセッサ関数 main() がこのオプションを使用してコンパイルされるとプログラムは互換性のないプロセッサを検出して実行時にエラーメッセージを出力しますこのオプションはインテルプロセッサ固有の最適化に加えて新しい最適化も有効にします HT テクノロジインテル Pentium 4 プロセッサ (SSE3 対応 ) 関数 main() がこのオプションを使用してコンパイルされるとプログラムは互換性のないプロセッサを検出して実行時にエラーメッセージを出力しますこのオプションはインテルプロセッサ固有の最適化に加えて新しい最適化も有効にします /O1 /O3 -O1 -O2 -O3 -fast コードサイズ削減と実行速度向上を目指す最適化を実行する最適化は局所的なレベルでの適用になる殆どの場合 -O1 よりも -O2 が推奨されるさらに高度な最適化を実行するほとんどの最適化機能が有効になる -O2 より進んだ最適化を行うそれに加えてプリフェッチ, スカラ置換, ループ変換, およびメモリのアクセス変換のような, さらに強力な最適化も有効となる -x{w N B P} オプションと同時に指定した場合コンパイラはさらに強力な最適化 ( とベクトル化 ) の適用を行うこのオプションはランタイムパフォーマンスを向上させる最適化機能一式をすべて有効にする次のオプションが指定される -O3 -ipo static - 7 -

8 開発環境インテルプロセッサを搭載したシステムでの最高性能の実現並列アプリケーションの開発サイクルインテル C++ コンパイラインテル Fortran コンパイラインテルクラスタツールツールキットインテルパフォーマンスライブラリー VTune 性能アナライザインテルスレッド化ツールインテルトレースコレクタシリアル部分最適化されていないシリアルコードコンパイラー VTune 最適化されたシリアルコード最適化されていないパラレルコードパラレル部分トレースコレクタトレースアナライザソースコードコンパイルリンク実行出力最適化されたパラレルコードシリアル ( シングルスレッド ) と並列の性能の問題は異なるため異なるツールが必要になりますループのベクトル化処理 SIMD: Single Instruction, Multiple Data プログラム例 : for (I=0;I<=MAX;I++) C[I]=A[I]+B[I]; 利用方法 : (Linux) -[a]xn, -[a]xb, -[a]xp (Windows) -Q[a]xN, -Q[a]xB, -Q[a]xP A[3] A[2] + + B[3] C[3] B[2] C[2] A[1] A[0] + + B[1] 128-bit Registers B[0] C[1] C[0] スカラー処理一般的な処理一つの命令で一つの計算結果 X + Y X + Y X Y X + Y SIMD 処理 SSE / SSE2 / SSE3 一つの命令実行で複数の計算結果 x3 x2 x1 x0 + y3 y2 y1 y0 x3+y3 x2+y2 x1+y1 x0+y0-8 -

9 SIMD データタイプ各社の SIMD 拡張への取り組み 16 バイト単位でのデータ格納 Vendor HP Extension MAX-1 and 2 Year 94,95 # Instr 9,8 (int) Registers Int 32x64b 4x floats Sun VIS (int) FP 32x64b 2x doubles Intel MMX (int) FP 8x64b 16x bytes 8x words 4x dwords 2x qwords AMD Motorola Intel MIPS AMD 3DNow! Altivec SSE MIPS-3D E 3DNow! ? (fp) 162 (int,fp) 70 (fp) 23 (fp) 24 (fp) FP 8x64b 32x128b 8x128b FP 32x64b 8x128 1x dqword Intel SSE (int,fp) 8x128 x86 プロセッサでの SIMD 演算現在の x86 プロセッサは全て SIMD 演算をサポートデータ型変換と飽和データ型変換飽和算術演算 (Saturation arithmetic) クリッピング (Clipping) 平均 (AVG) 及び絶対値 (ABS) の計算 Intel コンパイラはプログラムを解析し SIMD 演算のためのベクトル化を行う単なるパターン認識ではなくプログラムフローを解析してのベクトル化の適用飽和 (Saturation) とクリッピング (Clipping) イディオム (Idiom*) unsigned char a[256], b[256];.. for (i = 0; i < 256; i++) { int x = (a[i] < 200)? a[i]+55 : 255; if (x > b[i]) b[i] = x;} Intel コンパイラは自動的にこのような変換を行いベクトル化を行う.B1.11 ; xmm1 is preloaded with 55,..,55 movdqa xmm0, XMMWORD PTR[eax+ecx] paddusb xmm0, xmm1 ; (saturate) pmaxub xmm0, XMMWORD PTR[ecx+ebp] ; (clipping) movdqa XMMWORD PTR[ecx+ebp], xmm0 add ecx, 16 cmp ecx, esi jl.b1.11 イディオム (Idiom) : 言語に依存する慣用表現でプログラムパターン - 9 -

10 ベクトル化が可能な条件各ループの反復実行が独立であることが必要各反復計算時のループ内の変数の参照に相互依存 ( 依存性 ) がないことが必要以下の条件はベクトル化を阻害 : ループ内での関数の呼び出しループ内での条件分岐 ( ベクトル化可能な場合もある ) ループカウンターがループ実行時に決定しているデータタイプが異なる演算などベクトル化出来ない理由は? Linux Windows -vec_reportn -Qvec_reportn 標準出力にベクトル化に関する診断を出力 ( これらの情報を参考にベクトル化の検討も可能 ) n=0: 診断メッセージの出力なし n=1: ( 省略時 ) ベクトル化されたループを示す n=2: ベクトル化出来なかったループを示す n=3: これらに加えてベクトル化出来なかった理由を出力する Intel, Pentium, and the Intel logo are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States or other countries. Intel and the Intel logo are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States or other countries. ベクトル化診断メッセージの例 ( 阻害時 ) Mixed Data Types Nonunit stride used Condition too Complex Condition may protect exception "vectorization possible but seems inefficient" Low trip count Operator unsuited for vectorization Subscript too complex Unsupported Loop Structure Existence of vector dependence Complex subscript expression Contains unvectorizable statement at line XX Not Inner Loop など Intel and the Intel logo are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States or other countries. MFLOPS ベクトル化最適化による性能向上 Livermore Fortran Kernel -O3 -O3 -xp Livermore Fortran Kernels ベクトル化ループ 3.2GHz Processor SpeedUPs

11 ベクトル化最適化による性能向上 Livermore Fortran Kernel kernel.f(263) : (col. 9) remark: LOOP WAS VECTORIZED. 257 c******************************************************************************* 258 c*** KERNEL 3 INNER PRODUCT 259 c******************************************************************************* 260 c 261 c Q= 0.000d0 263 DO 3 k= 1,n Q= Q + Z(k) * X(k) kernel.f(324) : (col. 9) remark: LOOP WAS VECTORIZED. 318 c******************************************************************************* 319 c*** KERNEL 7 EQUATION OF STATE FRAGMENT 320 c******************************************************************************* 321 c 322 c 323 cdir$ ivdep DO 7 k= 1,n 325 X(k)= U(k ) + R*( Z(k ) + R*Y(k )) T*( U(k+3) + R*( U(k+2) + R*U(k+1)) T*( U(k+6) + Q*( U(k+5) + Q*U(k+4)))) CONTINUE -vec_report オプションで各ループのベクトル化の可否を知ることが出来ます KERNEL 3 7 とコンパイラによってベクトル化され -xp オプションでより高速な実行も可能となっていますベクトル化最適化による性能向上 NAS Kernel ベンチマーク 2.3X -O3 -O3 -xp -O3 -xp -ipo 4.6X MXM CFFT2D CHOLSKY BTRIX GMTRY EMIT VPENTA 3.2GHz Processor ベクトル化最適化による性能向上 NAS Kernel ベンチマーク次期インテルプロセッサでの SSE 実行 mxm.f(10) : (col. 11) remark: LOOP WAS VECTORIZED. mxm.f(15) : (col. 13) remark: LOOP WAS VECTORIZED. 9 DO 100 K = 1, N 10 DO 100 I = 1, L 11 C(I,K) = CONTINUE 13 DO 110 J = 1, M, 4 14 DO 110 K = 1, N 15 DO 110 I = 1, L 16 C(I,K) = C(I,K) + A(I,J) * B(J,K) 17 $ + A(I,J+1) * B(J+1,K) + A(I,J+2) * B(J+2,K) 18 $ + A(I,J+3) * B(J+3,K) CONTINUE カーネル MXM については主要ループがベクトル化されより SSE 命令での高速実行が可能 High Level Optimizer Report for: vpenta_ #of Array Refs Scalar Replaced in vpenta_ at line 38=10 #of Array Refs Scalar Replaced in vpenta_ at line 64=9 #of Array Refs Scalar Replaced in vpenta_ at line 87=6 LOOP INTERCHANGE in loops at line: Loopnest permutation ( 1 2 ) --> ( 2 1 ) Fusion loop partitions: (loop line numbers) Fused Loops: ( ) 85 DO 4 J = 2,JU-JL 86 JX = JU-J 87 DO 15 K = KL,KU 88 F(JX,K,1) = F(JX,K,1) - X(JX,K)*F(JX+1,K,1) - 89 * Y(JX,K)*F(JX+2,K,1) 90 F(JX,K,2) = F(JX,K,2) - X(JX,K)*F(JX+1,K,2) - 91 * Y(JX,K)*F(JX+2,K,2) 92 F(JX,K,3) = F(JX,K,3) - X(JX,K)*F(JX+1,K,3) - 93 * Y(JX,K)*F(JX+2,K,3) CONTINUE 95 4 CONTINU カーネル VPENTA についてはループの順番を入れ替えることでより効率的なデータアクセスが可能となります Source SSE/2/3 Dest Intel Core Microarchitecture NetBurst CLOCK CYCLE 1 CLOCK CYCLE 2 X4 Y4 X4opY4 CLOCK CYCLE 1 X4opY4 SSE Operation X3 Y3 X3opY3 X3opY3 X2 Y2 X2opY2 X2opY2 X1 Y1 X1opY1 X1opY1-11 -

12 VTune Analyzer 8.0 for Linux Eclipse 3.1 Eclipse 3.1 への対応 Itanium 2 プロセッサ上での Java Linux のサポート Call Graph の機能向上 Multi-user call graph (vtserver) Read-Only filesystem callgraph (vtserver) CPU マスキングのサポート (sampling) Only gather data on some CPUs in MP systems CPU 毎のバッファリングのサポート (sampling) More accurate for systems with >32 CPUs 4096 プロセッサまでのサンプリングをサポートユーザビリティの向上 Eclipse* 3.1 on Linux32 systems w/ remote collectors on the Intel Itanium processor-based system Dynamic Help Better performance インテルパフォーマンスライブラリ SciMark 2.0 ベンチマーク Intel MKL と Intel IPP 利用による最適化インテルマスカーネルライブラリ (Intel MKL) 数学科学エンジニアリングおよび金融アプリケーション用に高度に最適化された数値処理関数群大規模な数値演算アプリケーションに最適ワークステーションとサーバープラットフォームにも対応 O3 -O3 -xp -fno-alias -O3 -xp -fno-alias (MKL/IPP 利用時 ) 8X 2000 インテルインテグレーテッドパフォーマンスプリミティブ (Intel IPP) X 信号イメージグラフィックマルチメディアおよび数値処理関数からなるライブラリーリアルタイムおよびインタラクティブアプリケーションクライアント ( デスクトップ / モバイル / ハンドヘルド ) からサーバーまでの広範囲なプラットフォームをカバー FFT SOR MonteCarlo: Sparse LU Small Size (Cache Only) FFT SOR MonteCarlo: Sparse LU Large Size (Cache Only)

13 インテル IPP の各機能さまざまなアーキテクチャで共通の API インテルクラスタツールキット関数ドメインオーディオ処理主な使用法 MP3 (AAC AC3) GSM-AMR インテル Pentium 4 プロセッサインテル Xeon プロセッサインテル Itanium2 プロセッサインテル PCA アプリケーションプロセッサソフトウェアツール標準的な MPI ライブラリインテルからの提案インテル MPI ライブラリビデオ処理イメージ処理 JPEG 信号処理音声コーディング音声認識コンピュータービジョン行列処理 H.263 MPEG1 2 4 (H.26L) フィルタリング拡張解析圧縮展開フィルタリング検出解析 G729 G.723 (G.722 GSM) Dictate Voice コマンドインデックス認識追跡識別 3D トランスフォームライティングモデリングクラスタ向け科学技術ライブラリ MPI アプリケーションの解析クラスタと MPI 関数のベンチマークインテルクラスタ MKL インテルトレースアナライザー & コレクタインテル MPI ベンチマークベクトル演算数値アルゴリズムストリング処理 RDBMS エンジン XML パーサ暗号化 Rijndael DES TDES SHA1 MD5 RSA DSA クラスタシステムでの高い生産性クラスタ環境に見られる性能問題インテルクラスタツールキットとインテル MPI ライブラリインテルトレースアナライザー & コレクタインテルクラスタ数値演算ライブラリインテル MPI ベンチマーク並列アプリを開発するための最も効率的なツールを提供性能の問題を明確にするための開発ツールとプロファイリングツールから構成クラスタの利用率だけではなくアプリの効率性やノード間のロードバランスの状況を把握可能 MPI に依存 MPI アプリの性能に影響を与える構成要素は様々あり予測や問題の切り分けはツールなしでは困難プラットフォーム :CPU メモリー OS ネットワーク : インターコネクトプロトコル MPI: バッファリング実装同期処理アプリに依存アルゴリズム自身の効率性とスケーラビリティ計算時間と通信時間の比ロードバランスメッセージのサイズ使われる MPI 関数 : ブロッキング / ノンブロッキング 1 対 1/ 集団通信インテルクラスタツールはこれらの問題を解決!

14 インテル MPI ライブラリとは? 切り替え可能なマルチファブリックのサポートアルゴンヌ国立研究所のMPICH2をベース簡単なインストールと設定商用アプリとしてのサポート開発とQA 試験のコストを軽減生産性機能性の向上サポートするファブリック毎にアプリケーションを開発試験メンテナンスするコストを削除しアプリケーションの質を向上 App A InfiniBand ソフトウエアプロジェクト統合された MPI ライブラリの開発 TCP App B Shmem App C Myrinet アプリケーション毎に異なったネットワークとインターフェイスを使用 App A Virtual Fabric App B App C 一つの実行モジュール ( バイナリ ) で複数のネットワークとインターフェイスをサポートすることが可能 OpenMPI や OpenIB との連携インテル MPI ライブラリインテル MPI ライブラリ構成アプリケーションマルチファブリック : 異なるネットワーク上で動作するアプリケーションの開発と利用に適した容易なソリューション CFD Crash QCD BIO Climate... other インテル MPI TCP/IP Myrinet* InfiniBand* Quadrics* Shared Memory... other networks libshm libdet mpich2 Fabric switch libibal libgm Multi-fabric channel TCP/IP fallback libsock 一つのインターコネクト上でアプリケーションを開発し複数のインターコネクト上でアプリケーションを実行 driver driver driver driver driver

ノード間通信インテルクラスタツールキット様々なインターコネクトデバイスに単一の実行モュールで対応可能 SMP クラスタ向けの機能強化 I_MPI_DEVICE 環境変数

rdma[:<provider>] rdssm[:<provider>] TCP + shared-memory (for SMP clusters connected via

(specified via the DAPL* provider) TCP + shared-memory + DAPL* (for SMP clusters

0 より効率的なデータの収集 ( コレクタ ) 収集したデータの分析を容易にするデータの統合タグ化フィルタリング ( アナライザ ) 見やすくなったGUI Linux

15 ノード間通信インテルクラスタツールキット様々なインターコネクトデバイスに単一の実行モュールで対応可能 SMP クラスタ向けの機能強化 I_MPI_DEVICE 環境変数 sock インターコネクトデバイス TCP/Ethernet/sockets (default) shm Shared-memory only (no sockets) ssm rdma[:<provider>] rdssm[:<provider>] TCP + shared-memory (for SMP clusters connected via Ethernet) InfiniBand*, Myrinet*, etc. (specified via the DAPL* provider) TCP + shared-memory + DAPL* (for SMP clusters connected via RDMA-capable fabrics) Intel Trace Analyzer and Collector 6.0 より効率的なデータの収集 ( コレクタ ) 収集したデータの分析を容易にするデータの統合タグ化フィルタリング ( アナライザ ) 見やすくなったGUI Linux および Windows 対応 Intel Trace Collector の機能イベントベースの収集アプリケーションの性能に与える影響は軽微関数のトレースフェールセーフなMPIのトレースユーザーコードを制御する為のAPIを提供最適化されたプログラムをトレース可能通信レイヤの分析可能様々な実行 ( リンク ) 方法

16 インテルクラスタ MKL 共有メモリプログラミングインテル MKL のすべての機能 + ScaLAPACK ScaLAPACK 密行列で表される線型方程式の解を計算密行列の固有値を計算インテルプロセッサ向けに最適化スレッドを活用したのが OpenMP によるマルチスレッドプログラミングです OpenMP は共有メモリ上でのプログラミングとなりますので次に共有メモリプログラミングと OpenMP の特徴を簡単にご説明いたします逐次実行プログラム並列実行プログラム Memory CPU CPU CPU マルチスレッドプログラミング OpenMP や自動並列コンパイル共有領域 Memory 並列計算プログラム中には多くの並列処理可能な処理が存在しているが通常はそれらの処理を逐次的に処理しているこれらの並列処理可能なコードセグメントに対して複数のプロセッサ ( コア ) による同時並列処理を行うタスク並列処理 : 独立したサブプログラムの並列に呼び出す call fluxx(fv,fx) call fluxy(fv,fy) call fluxz(fv,fz) データ並列処理 : 独立したループ反復を分割し並列に実行する for (y=0; y<nlines; y++) genline(model,im[y]); 共有メモリデータ並列処理並列処理の一つの方式データ空間を共有して並列化を行う C B A for (i=0; i<5; i++) C(i) += A(i)*B(i); for (i=5; i<10; i++) C(i) += A(i)*B(i); データ空間 for (i=95; i<100; i++) C(i) += A(i)*B(i);

17 マルチスレッドプログラミングの基本逐次処理.vs. マルチスレッド並列処理計算負荷の大きなループやプログラムのセクションを複数のスレッドで同時に処理複数のスレッドを複数のプロセッサコア上で効率良く処理する void main() { double Res[1000]; // 計算負荷の大きな計算ループに対して // マルチスレッドでの並列処理を適用します for(int i=0;i<1000;i++) { do_huge_comp(res[i]); } } OpenMP の適用 void main() { double Res[1000]; #pragma omp parallel for for(int i=0;i<1000;i++) { do_huge_comp(res[i]); } } 逐次処理 P P P P P マスタースレッドマルチスレッドワーカースレッドによる並列処理 P P P P P P P P P P プログラムのループなどの反復計算を複数のスレッドに分割し並列処理を行う P OpenMP.vs. MPI 性能データ NAS Parallel Benchmark Intel Thread Checker 2.2 の機能 MFLOPS BT/MPI BT/OMP CG/MPI CG/OMP FT/MPI 0 Intel Bensley Platform 3.2GHz Dempsey FT/OMP IS/MPI IS/OMP LU/MPI LU/OMP MG/MPI MG/OMP SP/MPI SP/OMP 4 Threads 1 Thread 大部分の Win32と OpenMPスレッド化バグを検出データレース ( ストレージの競合 ) デッドロック : 潜在的および実質的スレッドストールとウェイト診断のソースコードを表示 ( ドリルダウン ) インテル VTune と共通の操作環境診断のワンクリックヘルプ考えうる原因と解決策を表示 Microsoft Visual Studio.NET IDE へ統合 VS.NET 内でスレッドチェッカーを実行して結果を表示

スレッドチェック診断リストソースコードの確認インテルインテルコンパイラとのソース

18 スレッドチェック診断リストソースコードの確認インテルインテルコンパイラとのソースインストルメンテーションからの情報らの情報ここをダブルクリックするとリスト中の各診断からソースコード行にジャンプします一般的なパフォーマンス問題並列化によるオーバーヘッドスレッド作成によるスケジューリングなど同期化共有データの過度な使用同じ同期化オブジェクトの競合ロードバランスワークロードの不適切な配分粒度不十分な実行単位スレッドのプロファイル機能 Win32 スレッド実行時間に影響を与える同期化構造を特定スレッド化パフォーマンスを向上するために最適化すべきコードのセクションを表示 OpenMPスレッドスレッドプロファイルデータ ( 並列化領域で費やされた時間など ) を提供ワークロードがアンバランスなスレッドを表示

スレッドのプロファイル解析結果各スレッドのロードバランスに問題があるクラスタシステムクラスタ内の各ノードは高速インターコネクトテクノロジで接続されます InfiniBand や PCI Express テクノロジが登場する前は独自規格に基づいた高性能で高価なテクノロジと標準規格に基づいた低コストでやや性能の低いテクノロジのいずれかを選択する必要がありました

P P P P P P P P P P P P P P P P Before マルチプロセッサマルチプロセッサマルチプロセッサマルチプロセッサデュアルコアおよびマルチコアプロセッサは 1 つのプロセッサの中に 2 つまたはそれ以上の完全な実行コアを搭載することによって複数の処理を同時に実行可能でありこのようなマルチコアプロセッサを複数搭載した SMP (Symmetric

19 スレッドのプロファイル解析結果各スレッドのロードバランスに問題があるクラスタシステムクラスタ内の各ノードは高速インターコネクトテクノロジで接続されます InfiniBand や PCI Express テクノロジが登場する前は独自規格に基づいた高性能で高価なテクノロジと標準規格に基づいた低コストでやや性能の低いテクノロジのいずれかを選択する必要がありましたコスト制約の厳しいクラスタの場合はネットワーク接続用の Ethernet テクノロジが広く利用されていますがこれは並列アプリケーションのようにノード間の緊密な連携が要求される環境ではボトルネックとなります InfiniBand ベースのインターコネクトを導入すればこのようなトレードオフは解消されます高性能インターコネクト Memory Memory Memory Memory After P P P P P P P P P P P P P P P P Before マルチプロセッサマルチプロセッサマルチプロセッサマルチプロセッサデュアルコアおよびマルチコアプロセッサは 1 つのプロセッサの中に 2 つまたはそれ以上の完全な実行コアを搭載することによって複数の処理を同時に実行可能でありこのようなマルチコアプロセッサを複数搭載した SMP (Symmetric Multiprocessing) 構成となり高速のメモリアクセスとノード内でのマルチスレッドプログラミングが可能ハイブリッドコードサンプル MPI/OpenMP ハイブリッドモデル % cat -n hybrid.f90 1 program first_hybrid 2 3 implicit none 4 include 'mpif.h' 5 6 integer :: size, rank, ierr 7 integer :: omp_get_num_threads 8 integer :: omp_get_thread_num 9 10 call mpi_init(ierr) 11 call mpi_comm_size(mpi_comm_world, size, ierr) 12 call mpi_comm_rank(mpi_comm_world, rank, ierr) 13 14!$omp parallel 15 write(6, "(4(a,i3))") " MPI: size = ", size, " rank = ", rank, & 16 " OpenMP: N_threads = ", omp_get_num_threads(), & 17 " thread = ", omp_get_thread_num() 18!$omp end parallel call mpi_finalize(ierr) 21 end % ifort -openmp hybrid.f90 -lmpi hybrid.f90(14) : (col. 6) remark: OpenMP DEFINED REGION WAS PARALLELIZED. % setenv OMP_NUM_THREADS 2 % mpirun -np 2 a.out MPI: size = 2 rank = 0 OpenMP: N_threads = 2 thread = 0 MPI: size = 2 rank = 1 OpenMP: N_threads = 2 thread = 0 MPI: size = 2 rank = 0 OpenMP: N_threads = 2 thread = 1 MPI: size = 2 rank = 1 OpenMP: N_threads = 2 thread = 1 % MPI タスク Memory P P P P 高性能インターコネクト Memory P P P P OpenMP スレッド Memory P P P P Memory P P P P MPI では領域分割などの疎粒度での並列処理を行う OpenMP は各 MPI タスク内でループの並列化などのより細粒度での並列化を担う計算はタスク - スレッドの階層構造を持つ

20 階層モデルでのプログラム例クラスタ OpenMP... call MPI_INIT( ierr ) call MPI_COMM_RANK( MPI_COMM_WORLD, myid, ierr ) call MPI_COMM_SIZE( MPI_COMM_WORLD, numprocs, ierr ) call MPI_BCAST(n,1,MPI_INTEGER,0,MPI_COMM_WO RLD,ierr) c calculate the interval size h = 1.0d0/n sum = 0.0d0!$OMP PARALLEL DO!$OMP FIRSTPRIVATE(n,myid,h,numprocs)!$OMP PRIVATE(i,x)!$OMP& REDUCTION(+:sum) do i = myid+1, n, numprocs x = h * (dble(i) - 0.5d0) sum = sum + 4.d0 / (1.d0 + x*x) end do!$omp END PARALLEL DO MPI の初期化 MPI は各タスクの実行上の設定を行う OpenMP による並列化の適用ループレベルなどの計算カーネル部分のマルチスレッド化を行う MPI による各ノード間でのデータ交換や通信 MPI の終了処理 OpenMP プログラミングモデルをクラスタ環境に拡張基本的な並列化 API は OpenMP を利用しクラスタの各ノードへの OpenMP プログラムの分散を支援 OpenMP のメモリ階層モデルを拡張 OpenMP と同じように漸次並列化を適用することも可能並列化効率 MPI や OpenMP ほどのプログラムの汎用性には欠ける ( 利用可能なプログラムは限定 ) 実行性能はプログラムの実装に強く依存する分散仮想共有メモリ (DVSM) 簡単なクラスタ OpenMP プログラム例 DVSM 共用データマルチスレッド化されたプログラム... Node 0 Node 1 Node n-1 Node n ネットワークスイッチ等 #include <omp.h> static int x; #pragma intel omp sharable(x) sharable ディレクティブでコンパイラーに変数 x は DVSM 上に置かなければならないことを指示する int main() { x = 0; #pragma omp parallel shared(x) { #pragma omp critical x++; } printf("%d should equal %d n", omp_get_max_threads(), x); }

プログラムのコンパイルと実行 Cluster OpenMP スレッドとプロセス $ icc cluster-openmp test.c コンパイル時に Cluster OpenMP での並列処理を指定 $ cat kmp_cluster.ini --hostlist=rufus,dufus --processes=2 --process_threads=4 設定ファイル kmp_cluster.

21 プログラムのコンパイルと実行 Cluster OpenMP スレッドとプロセス $ icc cluster-openmp test.c コンパイル時に Cluster OpenMP での並列処理を指定 $ cat kmp_cluster.ini --hostlist=rufus,dufus --processes=2 --process_threads=4 設定ファイル kmp_cluster.ini に利用する 2 つのノードを指定し各ノード上で利用するプロセス数と各プロセスあたりのスレッド数を指定するこの場合には合わせて 8 スレッドでの並列処理となる $ a.out 8 should equal 8 Thread 0 Thread 1 Thread 2 Thread 3 Thread 4 Thread 5 Thread 6 Thread 7 Thread 8 Thread 9 Thread 10 Thread 11 Process 0 Process 1 Process 2 Node 0 Node 1 Node クラスタを構成する各計算機システムプロセス Linux のプロセススレッド OpenMP のスレッド ( プロセス中のスレッド ) Thread 12 Thread 13 Thread 14 Thread 15 Process 3 Cluster OpenMP メモリモデルプロセス間で OpenMP スレッドがアクセスする変数は Sharable Variavle として指示する必要があります通常の OpenMP の共有データの宣言ではプロセス間でのデータ共有は出来ませんプロセス内でのデータの共有を宣言することになります性能 ( ベンチマーク ) データ幾つかのベンチマークを実施した結果がインテルから報告されています (NCSA の Itanium+GigE での結果 ) Data Mining や Rendering ではある程度のスケーラビリティが示されています FPTree(Data Mining) MPEG2 Encoder Cluster OpenMP Sharable memory Process Sharable Memory Private Memory Sharable Variable Cluster OpenMP Sharable memory Process Sharable Memory Private Memory Process 0 Process

性能 ( ベンチマーク ) データご説明の内容についてインテル社の Cluster OpenMP 関連の資料より抜粋 Parallel Parallel Programming for Programming for Hybrid Hybrid Architectures

UP Peta-Scale コンピューティング複雑なシステム構成新しいプログラミング API の提案アプリケーション開発 Going DOWN Commodity コンピューティング商用 HW/SW オープンソースパーソナルクラスタ商用アプリケーションマルチスレッド

22 性能 ( ベンチマーク ) データご説明の内容についてインテル社の Cluster OpenMP 関連の資料より抜粋 Parallel Parallel Programming for Programming for Hybrid Hybrid Architectures Architectures Tom Lehmann Tom Lehmann Technical Director Technical Director HPC Programs Office HPC Programs Office January 23, 2006 HPCシステムの発展とトレンド Proprietary.vs.COTS 64ビットコンピューティングマルチコアプロセッサプログラム最適化と開発環境に関するトピックスコンパイラ技術と開発ツールクラスタ環境共有メモリプログラミングまとめとして標準コンポーネントによる HPC の進化 HPC の二極分化システムとユーザの尺度 Going UP Peta-Scale コンピューティング複雑なシステム構成新しいプログラミング API の提案アプリケーション開発 Going DOWN Commodity コンピューティング商用 HW/SW オープンソースパーソナルクラスタ商用アプリケーションマルチスレッドシステムの尺度 Flop/s メモリサイズ (GB) プロセッサ数データ長システム構成 ( クラスタ ) スケーラビリティユーザの尺度計算終了までの時間モデルのサイズと計算結果ワークロードでの試行計算精度導入コストと運用コストベンチマークユーザの尺度での性能 (Performance) は時間当たりにどれだけの仕事を処理出来るか ( 仕事量 / 時間 ) Flops での評価は実際には意味がないまた問題の規模 (small, medium, large) という評価も難しいスケーラビリティは対象を明確に規定する必要がある

HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大 Going UP Peta-Scale コンピューティング複雑なシステム構成新しいプログラミング API の提案アプリケーション開発ハードウエアは Commodity なものを利用して SW の改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる

23 HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大 Going UP Peta-Scale コンピューティング複雑なシステム構成新しいプログラミング API の提案アプリケーション開発ハードウエアは Commodity なものを利用して SW の改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きい HPCSシステムは各社との Commodity のマイクロプロセッサではなく独自のプロセッサを開発中 Going DOWN Commodity コンピューティング商用 HW/SW オープンソースパーソナルクラスタ商用アプリケーションマルチスレッド HPCシステムの動向国家プロジェクト Going UP Peta-Scale コンピューティング複雑なシステム構成新しいプログラミング API の提案アプリケーション開発 Peta-Scale コンピューティングに求められる基本技術と現在の HPC の主要マーケットでの要求はあまりにも差が大きい HPCS システムは各社との Commodity のマイクロプロセッサではなく独自のプロセッサを開発中性能ギャップの拡大ペタスケールシステムの構築 Teraflops 1, Peak Performance Performance Gap Real Performance NERSC User Group Meeting June 24-25, 2004 Osni Marques and Tony Drummond Lawrence Berkeley National Laboratory ピーク性能の大幅な向上 1990 年台は性能の向上は 10 2 のオーダーでしたが 2000 年台になると 10 3 のオーダーで性能は向上していますしかし多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は 5-10% となっています (1990 年代のベクトル計算機は 40-50% の対ピーク性能を示していました ) 今必要なのはより高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上プログラミングモデルなども含めてスケーラブルな計算機環境の構築現在のテラ FLOPS 級の問題ペタスケールシステムの構築のための兆戦複雑さの壁 Source: ORNL ソフトウエア ( アプリケーション OS プログラミング API など ) の課題の克服が課題システムの複雑さと生産性例 : Linpack Benchmark オリジナルベンチマークプログラム ~100 ライン HPL ベンチマークプログラム ~10,000 ライン (x100 より複雑?)

システムの信頼性 HPC システムの動向商用製品 An Overview of High Performance Computing Jack Dongarra University of Tennessee and Oak Ridge National Laboratory HPC Asia 2005 ハードウエアは Commodity なものを利用して SW の改善サポート

24 システムの信頼性 HPC システムの動向商用製品 An Overview of High Performance Computing Jack Dongarra University of Tennessee and Oak Ridge National Laboratory HPC Asia 2005 ハードウエアは Commodity なものを利用して SW の改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる Going DOWN Commodity コンピューティング商用 HW/SW オープンソースパーソナルクラスタ商用アプリケーションマルチスレッドビルゲイツ氏の基調講演 HPC goes mainstream 標準コンポーネントの進化プロセッサの性能向上マルチコアによる省電力での性能向上が可能 HPC アプリケーションは容易にマルチコアの利点を活用可能 (OpenMP や MPI) ファイルシステム高性能なスケーラブルファイルシステム ( オープンソース ) インターコネクト PCI-Express ( メモリインターコネクト ) 高速の商用製品やオープンソースでの強力 (OpenIB など )

標準コンポーネントの利点 Platform Review 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能スケーラブルSMP ベクトル計算機クラスタの幅広い選択肢 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用標準コンポーネントの技術革新の活用 PCI-Expressや FB-DIMMの利用技術

25 標準コンポーネントの利点 Platform Review 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能スケーラブルSMP ベクトル計算機クラスタの幅広い選択肢 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用標準コンポーネントの技術革新の活用 PCI-Expressや FB-DIMMの利用技術大容量の共有キャッシュ高速 FSB バス ( スケーリング ) マルチプロセッサでのコヒレンシの維持マルチプロセッサ構成でのフラットなメモリ ESB-2 I/O Bridge ESI x8 x8 Storage Controller Blackford MCH PXH FBD Configurable set of PCIe ports SATA-2 DIB 1066/1333 MHz 8.5/10.5 GB/s PCI-X x8 25.5/32 GB/s 10 GbE I/OAT iscsi 10 GbE 3 世代のマイクロプロセッサをサポート Point-to-Point での接続インターコネクトメモリ構成の拡張性 ( 最大 64GB) スループットとバランスに優れた MCH 構成 Breaking the 1-2K nodes Barrier! 音の障壁, サウンドバリヤー (sound barrier) 飛行機の速度が音速近くになると, 衝撃波の発生によって, 抵抗の増大, 境界層の剥離など, 設計運用上のさまざまな障害 ( 壁 ) に出合って, 超音速飛行は不可能かと思われた時代があった (1947 年ごろまで ) ので, 音の障壁といわれていたクラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害 ( 壁 ) に出合って, クラスタ構築は不可能と思われた時代があった (?) 米国エネルギー省サンディア国立研究所システム : 4096 Dell Servers 50% Blocking Ratio 8 TS-740s 256 TS-120s TOP500 (Nov.5th) No.5 用途 : Capability クラスタ標準コンポーネントでのシステム構築 Core Fabric Edge 18 Compute Nodes) 8x SFS TS ports each 2048 uplinks (7m/10m/15m/20m) 256x TS ports each 8192 Processor 60TFlop SuperCluster 18 Compute Nodes)

HPC システムでのワークロード HPC システムでのワークロードワークロード Homogeneous Heterogeneous Capability 特徴シンプルなアプリケーション実行 ( 同じサイズ同様な問題規模解析時間 ) 容易な並列化並列実行が可能事例 :

I/Oへの高い要求 ) 複雑なデータマネージメントが求められる事例 : 気象予測 ( 地球環境シュミレーション ) やMDO( 複合問題など ) シングルコアプロセッサをベースとするクラスタシステム Homogeneous シングルスレッドジョブの多重実行 Capability MPI

jp/biz 弊社のコンサルテーションに関するご提案資料もダウンロード可能です ( 非公開 WEB ページ ) 別途弊社に内容等についてはお尋ねくださいお問い合わせ先 : 102-0083 東京都千代田区麹町 3-5-2 BUREX 麹町 8F 電話 :03-5875-4718

26 HPC システムでのワークロード HPC システムでのワークロードワークロード Homogeneous Heterogeneous Capability 特徴シンプルなアプリケーション実行 ( 同じサイズ同様な問題規模解析時間 ) 容易な並列化並列実行が可能事例 : レンダリング小規模ジョブの多数実行複雑で多様な複数ジョブ ( 問題の規模実行時間や実行に要するリソース量が異なる ) の同時実行複雑な計算処理とプロセス事例 : 大規模なMCAE 解析多くの科学技術計算シュミレーション大規模で複雑な数値シュミレーション (CPU メモリ I/Oへの高い要求 ) 複雑なデータマネージメントが求められる事例 : 気象予測 ( 地球環境シュミレーション ) やMDO( 複合問題など ) シングルコアプロセッサをベースとするクラスタシステム Homogeneous シングルスレッドジョブの多重実行 Capability MPI による大規模並列処理マルチコアプロセッサをベースとするクラスタシステム Homogeneous Heterogeneous Capability OpenMP や自動並列化さらに詳しい情報は.. 弊社のコンサルテーションに関するご提案資料もダウンロード可能です ( 非公開 WEB ページ ) 別途弊社に内容等についてはお尋ねくださいお問い合わせ先 : 東京都千代田区麹町 BUREX 麹町 8F 電話 : FAX: biz@sstc.co.jp ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致しますこのサービスを最大限に活用していただくことでコラボレーションによる顧客志向のコンサルテーションサービスをご提供できればと思っております

27 この資料について社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます In general, the name of the company and the product name, etc. are the trademarks or, registered trademarks of each company. Copyright Scalable Systems Co., Ltd., Unauthorized use is strictly forbidden 年 4 月

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システムスケーラブル SMP システム製品コンセプト 2U サイズの 8 ソケット SMP サーバコンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例ベースシステム 2U