Microsoft PowerPoint - ATワークショップ pptx

Size: px

Start display at page:

Download "Microsoft PowerPoint - ATワークショップ pptx"

きみおかいて
5 years ago
Views:

1 テーマ 2 ソフトウェア工学としての展開研究代表者片桐孝洋東京大学情報基盤センター文部科学省科学研究費補助金基盤研究 (B) メニーコア超並列時代に向けた自動チューニング記述言語の方式開発 2009 年度 ~2011 年度日時 : 2009 年 10 月 22 日 ( 木 )10:00~18:00 場所 : 東京大学弥生講堂アネックスセイホクギャラリー 10:30-10:45 1

2 ソフトウェア性能工学の必要性 IT 企業の重役にむけた調査 [1]: 半数が製品の性能問題に直面少なくとも 20% は再開発再開発 : 遅延コスト増加開発失敗のリスク性能を考慮したソフトウェア工学体系が必要ソフトウェア性能工学 (Software Performance Engineering, g SPE) [2] 定義 : ソフトウェア工学の全般およびソフトウェア開発サイクルを通して直面する性能要求に見合う解析の工学体系 [1] Compuware, Applied Performance Management Survey, Oct [2] C. U. Smith, L. G. Williams: Software Performance Engineering: A Case Study Including Performance Comparison with Design Alternatives, IEEE Transactions on Software Engineering archive Volume 19, Issue 7 (July 1993) 2

3 ソフトウェア自動チューニング工学の全体像 do i=1, n do j=1, n do k=1, n n, 2 do i=1, C( i,do j ) j=1, = C(ni, j ) + A( i, k ) * B( k, j ) do k=1, ndo i=1, n, 2 j=1i, j=1, C( i, i j ) do = C( i nj ) + A( i, i k ) * B( k, k j) = i, i+1, j ) k ) * B( k, j ) C( i+1, j ) = Ctmp1 C( i+1, j )C( + n, A( do i=1, 2 Ctmp2 = C( i+1, j ) do j=1, n do k=1, n Ctmp1 = C( i, j ) Btmp = B( k, j ) Ctmp2 = C( i+1, j ) Ctmp1 = Ctmp1 + A( i, k ) * Btmp do k=1, n, 2 Ctmp2 = Ctmp2 + A( i+1, k ) * Btmp Btmp1 = B( k, j ) Btmp2 = B( k+1, j ) C( i, j ) = Ctmp1 Ctmp1 = Ctmp1 + A( i, k ) * Btmp1 C( i+1, j ) = Ctmp2 + A( i, k+1) * Btmp2 Ctmp2 = Ctmp2 + A( i+1, k ) * Btmp1 + A( i+1, k+1) * Btmp2 C( i, j )=Ctmp1 C( i+1, j )=Ctmp2 コード生成イル実行コンパイルと実行 3. 最適化フェーズ実行結果の解析 2. プログラミングフェーズ 4. データベース化とチューニング知識探索フェーズフズ対象計算機チューニング知識データベース 1. 仕様策定フェーズ!ABCLib$ install unroll (i,k) region start!abclib$ name MyMatMul!ABCLib$ varied (i,k) from 1 to 8 do i=1, i=1 n do j=1, n do k=1, n C( i, j ) = C( i, j ) + A( i, k ) * B( k, j )!ABCLib$ install unroll (i,k) (i k) region end

4 計算機環境の変化マルチコアの浸透非均質メモリアクセス (ccnuma) 多階層化されたキャッシュ構造 L1 L2 は局所 L3 は共有チップ内のコア数の増大ハイエンド :32コア~ ローエンド:8コア~ 並列実行モデルの変化ピュアMPI 実行低 ~ 中並列実行 (~1 1,000 コア ) 時ハイブリッドMPI(OpenMP + MPI) 実行超並列実行 (10, コア実行 ) 時 4

5 マルチコアでの実行形態の違いによる性能挙動の劇的変化例 (T2K T2K オープンスパコン ) 対称固有値ソルバの三重対角化 ( 行列更新部分 ) 4 コア実行 (4 コア / ソケット ) 4 コア実行 (1 コア / ソケット ) 高性能な段数高性能な段数行列サイズアンローリング段数行列サイズアンローリング段数共有 L3 キャッシュの容量の影響 ( ( 動的な ) 割当場所により最適実装が変わる! 7

並列実行でのアルゴリズム切替例連立一次方程式解法 : 疎行列反復解法 (GMRES 法 ) フロリダ行列 epb3 T2K オープンスパコン ( 東大版 ) 古典 G-S Cores Iter. Orth. Time 16 24991 89.

2 128 24383 7.7 12.0 Iter. 収束までの反復回数 Orth. 直交化の時間 ( 秒 ) Time 全計算時間 ( 秒 ) 修正 G-S( ( デフォルト ) Iter. Orth. Time 24499 68.6 81.

6 並列実行でのアルゴリズム切替例連立一次方程式解法 : 疎行列反復解法 (GMRES 法 ) フロリダ行列 epb3 T2K オープンスパコン ( 東大版 ) 古典 G-S Cores Iter. Orth. Time Iter. 収束までの反復回数 Orth. 直交化の時間 ( 秒 ) Time 全計算時間 ( 秒 ) 修正 G-S( ( デフォルト ) Iter. Orth. Time コアで 10 倍以上の時間差

7 AT 専用言語による自動チューニングソフトウェア開発手順ソフトウエア開発者ソフトウエア開発者が記述計算機環境に依存しない ABCLibScript による自動チューニング記述専用言語処理系 ( プリプロセッサ ) の起動自動チューニング機能が付加されたプログラム!ABCLib$ install unroll region start!abclib$ varied (i,j,k) jk)from 1t to 8 do i=1, N do j=1, N dok1 k=1, N C(i, j) = C(i, j) + A(i, k) * B(k, j) ; ; ;!ABCLib$ install unroll region end コンパイラでは自動付加されできないる機構メニーコア数値計算ライブラリ対象蓄積超並列環境に ( ソースコード ) モニタ向く自動最適化学習手法パラメタ推定 10

8 本科研の目的 M2 新ABCLibScript ABCLibScript開発 p 開発 AT理論須田東大複数候補の並列評価 M1 開発責任者片桐東大試行専用プロセッサによる並列試行 M1 M1 M1 M1 M1 M1 M2 M4 M5 10万コア向け固有値ソルバ要求機能コミュニケータ分割動的コア割当機能割動的コア割当機能 /* Special function running on CPU and GPU */ kernel map copy(in stream<float> si, out stream<float> so ) { } so = si; int main(int argc, char** argv) { stream<float> sa(n), sb(n); float aa[n], ab[n]; SPRAT Code /* read data from array */ streamread(sa, aa); /* launch the kernel */ copy(sa,sb); /* write data to array */ streamwrite(sb,ab); (, ); SPRAT Compiler SPRAT Runtime C++ Code for CPU CUDA Code for GPU C/C++ Compiler CUDA Compiler Linker Executable } return 0; 並列実験計画法マルチコア制御基盤今村電通大動的動的コア割当割当 CPU切替基盤滝沢東北大Ｃ言語用プリプロセッサマルチコア超並列環境用機能拡張機能拡張電磁場解析等応用岩下京大疎行列反復解法応用黒田愛媛大 ILIB_GMRES ILIB GMRES V/m 陰的マルチグリッド法ＦＤＴＤ法応用適用方形アイリス結合円形導波管フィルタ解析 Runtime Processor Selection 動的CPU切替反復解法検証伊藤理研品質管理先進解法適用４０９６コア２５６ノード以上の 1 マルチコア超並列環境で有効性検証 1 11

9 将来展望 : 組込み系へ AT 技術を適用シリアルポート T-Engine/SH775R 開発ボードプログラム開発用 PC 実装実装実装実装自動生成プログラム開発用 PC Cygwin GNU 開発環境 (gcc) ABCLibScriptプリプロセッサ起動自動チューニングコード自動生成片桐孝洋 : 自動チューニング処理記述用言語 ABCLibScriptの組み込みシステムへの適用の一検討 SWoPP 年 8 月 2 日旭川市 12

10 AT 専用言語による組込みソフトウェア開発手順 T-Engine/SH775R 開発ボードシリアルポートプログラム自動チューニング開発用 PC モード起動速度を実測しながら最適な実装を選択 USBディスクを作業領域にできる実装実装実装実装評価の自動化 13

11 実験ハードウエア環境 CPU T-Engine 開発ボード仕様ルネサンステクノロジ SH7751R (SH-4コア 240MHz) フラッシュメモリ 8M バイト SDRAM 64M バイト作業用ディスク USBストレージデバイス2Gバイト実行プログラムプロセスベースス CLI (Command Line Interpreter) 上で実行実験プログラムはT-Engine/SH7751R 開発キットの標準環境でコンパイルコンパイラは gcc version 最適化オプションは -O2 14

12 対象ソフトウエア 1. 行列行列積 N=128 倍精度 2. 組み込み用ベンチマーク MiBench におけるFFT Telecomm 中にある FFT/IFFT N=8192 倍精度 15

13 行列 - 行列積における ABCLibScsript i 指示子 #pragma ABCLib install unroll (i, j) region start #pragma ABCLib varied (i, j) from 1 to 8 sampled 1,2,4,8 for (i=0; i<n; i++) { for (j=0; j<n; j++) { for (k=0; k<n; k++) { C[i][j] += A[i][k] * B[k][j]; } } } #pragma ABCLib install unroll (i, j) region end 16

14 FFT / IFFT における ABCLibScript 指示子 #pragma ABCLib install unroll (j) region start #pragma ABCLib varied (j) from 1 to 8 sampled 1,2,4,8 BlockEnd = 1; for (BlockSize = 2; BlockSize <= NumSamples; BlockSize <<= 1 ) { double delta_angle = angle_numerator /(double)blocksize; double sm2 = sin ( -2 * delta_angle ); double sm1 = sin ( -delta_angle ); double cm2 = cos ( -2 * delta_angle angle ); double cm1 = cos ( -delta_angle ); double w = 2 * cm1; double ar[3]; double ai[3]; for ( i=0; i < NumSamples; i += BlockSize ){ ar[2] = cm2; ar[1] = cm1; ai[2] = sm2; ai[1] = sm1; for (j j=i, n=0; n < BlockEnd; ;j j++, n++ ){ ar[0] = w*ar[1] - ar[2]; ar[2] = ar[1]; ar[1] = ar[0]; ai[0] = w*ai[1] - ai[2]; ai[2] = ai[1]; ai[1] = ai[0]; k = j + BlockEnd; tr = ar[0]*realout[k] ai[0]*imagout[k]; ti = ar[0]*imagout[k] [ ] + ai[0]*realout[k]; [ ]; RealOut[k] = RealOut[j] tr; ImagOut[k] = ImagOut[j] - ti; RealOut[j] += tr; ImagOut[j] += ti; } } BlockEnd = BlockSize; } #pragma ABCLib install unroll (j) region end 17

15 自動チューニングの効果 ( 行列 - 行列積 ) J=1 J=2 J=4 J=8 N= x [ ミリ秒 ] I=8 I=4 I=2 自動チューニング時間 2 分 32 秒 I=1 18

16 自動チューニングの効果 ( FFT / IFTT ) [ ミリ秒 ] N=8192 自動チューニング時間 26 秒 1.15x J=1 J=2 J=4 J=

17 今後の予定 ABCLibScript の C 言語版プリプロセッサ開発 C 言語特有の問題検討と実装ポインタ解析等 ABCLibScript の機能拡張マルチコア超並列向け機能実装入れ子指示子の実行モデルおよび実装応用コードでの適用評価 21

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み現 CPUとの比較によりGPU 活用の可能性現 CPU の最大利用ノード内の最大計算資源の利用すべてCPUコアの利用適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み