PowerPoint プレゼンテーション

Size: px

Start display at page:

Download "PowerPoint プレゼンテーション"

けいしょうちゃわんや
4 years ago
Views:

1 SMYLE OpenCL における並列プログラミングモデルの実現と評価江谷典子立命館大学総合科学技術研究機構 2013 年 2 月 28 日 2013 Noriko Etani, Ritsumeikan University 1

2 発表の内容背景目的要素技術 OpenCL メニーコアアーキテクチャSMYLEref システム構成並列プログラミングモデルの実現並列化コードへの移行評価まとめ 2013 Noriko Etani, Ritsumeikan University 2

3 背景 2013 Noriko Etani, Ritsumeikan University 3

4 背景コンピュータの高速化 CPU のビット幅の拡張動作クロックの高周波化キャッシュの大容量化 CPU クロックの高周波化消費電力熱ノイズ周辺デバイスとの性能バランスの崩壊チップあたりのプロセッサコアの増加並列性の向上プロセッサの高性能化 2013 Noriko Etani, Ritsumeikan University 4

5 目的 2013 Noriko Etani, Ritsumeikan University 5

NEDO プロジェクト極低電力回路システム技術開発 ( グリーン IT プロジェクト ) 低消費電力メニーコア用アーキテクチャとコンパイラ技術目的組込みシステム向けの高性能かつ低消費電力メニーコアプロセッサ実現課題 (1) 組込みシステムを意識した効率的な超並列処理の実現 (2)

6 NEDO プロジェクト極低電力回路システム技術開発 ( グリーン IT プロジェクト ) 低消費電力メニーコア用アーキテクチャとコンパイラ技術目的組込みシステム向けの高性能かつ低消費電力メニーコアプロセッサ実現課題 (1) 組込みシステムを意識した効率的な超並列処理の実現 (2) 大幅な動作時消費電力の削減 (3) ソフトウェアの生産性の向上平成 24 年度研究目標既存技術と比べて電力当たりの処理性能 2 倍組込み向けアプリケーションプログラム実行時の電力消費量を 1/10 以下にする 2013 Noriko Etani, Ritsumeikan University 6

OpenCLに準拠した高レベルAPIを実装し評価すること SMYLE OpenCL

7 目的高レベルAPIの策定 OpenCLの仕様をベースに高いリアルタイム性を考慮し独自の制約と解釈を与えたSMYLE OpenCLを検討 SMYLErefアーキテクチャの評価環境を用いて OpenCLに準拠した高レベルAPIを実装し評価すること SMYLE OpenCL における組込み関数の開発と評価データ並列およびタスク並列プログラミングモデルの実現 2013 Noriko Etani, Ritsumeikan University 7

8 要素技術 2013 Noriko Etani, Ritsumeikan University 8

9 Open Computing Language(OpenCL) 並列処理プログラムを書くためのフレームワーク C99 に基づく C 言語 ( コンパイラ ) と並列計算をサポートする API 群オープンでロイヤルティフリーな標準 Apple が提案 Khronos Group が標準化 OpenCL 1.0 released in Dec OpenCL 1.2 released in Nov プラットフォーム非依存 Intel マルチコア CPUs Nvidia GPUs AMD GPUs SONY/IBM/Toshiba Cell B./E. データ並列実行とタスク並列実行の並列プログラミングモデル 2013 Noriko Etani, Ritsumeikan University 9

SMYLE OpenCL プラットフォーム HOST DEVICE OpenCL Program Runtime Library Device Driver 0 1 4 5 2 3 6 7 8 9 12 13 Linux

10 SMYLE OpenCL プラットフォーム HOST DEVICE OpenCL Program Runtime Library Device Driver Linux OS ホストプログラム制御側のソフトウェアが動作する計算環境カーネル演算用のソフトウェアが動作する計算環境 2013 Noriko Etani, Ritsumeikan University 10

Kernel 0 SMYLE OpenCL プログラミング / 実行モデル Data Parallel Execution Host Kernel 3 Kernel 2 Kernel 1 Kernel 0 Command Queue Device Compute Unit PE PE PE PE Task Parallel

11 Kernel 0 SMYLE OpenCL プログラミング / 実行モデル Data Parallel Execution Host Kernel 3 Kernel 2 Kernel 1 Kernel 0 Command Queue Device Compute Unit PE PE PE PE Task Parallel Execution Host Kernel 3 Kernel 2 Kernel 1 Kernel 0 Command Queue Device Compute Unit Kernel 0 PE Kernel 1 PE Kernel 2 PE Kernel 3 PE 2013 Noriko Etani, Ritsumeikan University 11

バスで結合 IL1 Scalar Core IL1 Scalar Core IL1 Scalar Core SMYLEref アーキテクチャ IL1 Scalar Core Cluster DL1 DL1 DL1 Distributed Shared L2 DL1 DL1 DL1 DL1 DL1 Scalar Core Scalar

12 バスで結合 IL1 Scalar Core IL1 Scalar Core IL1 Scalar Core SMYLEref アーキテクチャ IL1 Scalar Core Cluster DL1 DL1 DL1 Distributed Shared L2 DL1 DL1 DL1 DL1 DL1 Scalar Core Scalar Core Scalar Core Scalar Core Packet Cont. Router IL1 IL1 IL1 IL1 2 次元メッシュの NoC で結合 Mem. Controler I/O Controler SDRAM Peripherals 2013 Noriko Etani, Ritsumeikan University 12

13 128 コア SMYLEref の評価環境電気通信大学 8 cores/fpga 10MHz Virtex-6 FPGA ML Noriko Etani, Ritsumeikan University 13

14 4 コア SMYLEref の評価環境 4 cores/fpga 10MHz Virtex-6 FPGA ML605 Peripherals 2013 Noriko Etani, Ritsumeikan University 14

15 システム構成 2013 Noriko Etani, Ritsumeikan University 15

16 開発環境ハードウェア (1)Xilinx 社製 FPGAチップ Virtex-6を搭載するML605 評価ボード ML605 ボード FPGAデバイス SDRAM 搭載 I/Oポートクロック入力 Virtex-6 XC6VLX240T-1FFG1156 DDR3 SODIMM(512MB) UART, USB, DVI 出力, CF, SMA 等 200MHz オシレータ, 66MHz ソケットオシレータ Virtex-6チップ CMOS 40nm, 1.0V Logic Cells 241,152 CLB Slices 37,680 Block RAM 14,976Kbit ユーザー I/O 数 720 消費電力 Static Power: 3.6W, Total Power: 6.5W 2013 Noriko Etani, Ritsumeikan University 16

17 開発環境 (2) 回路設計 VerilogHDL (3) 論理合成マッピング配置配線 Xilinx 社 ISE (4)PC と評価ボードを USB 接続 Windows 用ターミナルエミュレータ TeraTerm Version4.73 を利用ソフトウェア (1) ターゲット OS 用クロスコンパイル環境を構築 (2) ベンチマークテスト PC Sony VAIO CPU 名称 :Intel Core i7-2640m プロセッサ動作周波数 :2.80GHz 消費電力 (Max TDP):35W OS Windows 7 Professional Service Pack 1 VM VMware Player HOST 32-bit Fedora Noriko Etani, Ritsumeikan University 17

18 SMYLEref アーキテクチャの評価環境 (1/2) (1) コアの割り当て Master Core Core0 Slave Core Core1 Core2 Core3 SMYLEref Architecture FPGA マスタコア : メインスレッドの役割スレーブコア : スレーブスレッドの役割 2013 Noriko Etani, Ritsumeikan University 18

19 SMYLEref アーキテクチャの評価環境 (2/2) (2) コアへ供給する周波数設定 10MHz (3)SIMD の実装なしベクタ型データや演算は扱わない (4) 浮動小数点演算器の実装なしホストプログラムの倍精度単精度の演算と算術関数の実装 MPFR( 任意精度浮動小数点演算ライブラリ ) や GMP( 高速多倍長演算ライブラリ ) を組み込んだコンパイラのソフトウェアエミュレーション機能を利用カーネルの倍精度単精度の演算カーネルへ浮動小数点ソフトウェアエミュレーションを組み込んで利用 2013 Noriko Etani, Ritsumeikan University 19

20 マスタコアのソフトウェアアーキテクチャ Host Device Application Application Built-in Functions Built-in Functions SMYLE OpenCL Runtime Library mips-geyser-linux SMYLE-Ref Layer IO Library (ml501io.c) Soft Floating Point Emulation SMYLEref Architecture FPGA SMYLEref Architecture FPGA 2013 Noriko Etani, Ritsumeikan University 20

21 ホストの動作環境 Host Program Application Program Host Core Core 0 SMYLEref Architecture FPGA Core 1 Shared Memory Device Core Core 2 Core Noriko Etani, Ritsumeikan University 21

22 デバイスの動作環境 Kernel Application Program K0 K1 K2 K3 K0 Core 0 K1 Device Core K2 Core 1 K3 Core 2 Shared Memory SMYLEref Architecture FPGA Core Noriko Etani, Ritsumeikan University 22

23 並列プログラミングモデルの実現 2013 Noriko Etani, Ritsumeikan University 23

スレッド ( デバイスコア) マスタコアマスタスレッドスレーブコアスレーブスレッド排他制御ロッククリティカルセクション SMYLE-Ref 層の関数

24 並列プログラミング機能 A.D.Birrell An Introduction to Programming with Threads, SRC Research Report 35, スレッド ( デバイスコア) マスタコアマスタスレッドスレーブコアスレーブスレッド排他制御ロッククリティカルセクション SMYLE-Ref 層の関数 sr_mutex_init mutexを初期化する sr_mutex_lock mutexをロックする sr_mutex_unlock mutexをアンロック状態にする条件変数ある条件が成立するまで並列処理を待機させる機能 2013 Noriko Etani, Ritsumeikan University 24

25 デバイスコアデータ並列 int main() { printf( Hello, World! n"); // データ並列 exit(0); } 2013 Noriko Etani, Ritsumeikan University 25

26 デバイスコアタスク並列 int main() { // コア ID の取得 sr_core_id_t my_id = sr_get_core_id(); // タスク並列 if ( my_id == 0 ) printf( core0 n"); if ( my_id == 1 ) printf( core1 n"); if ( my_id == 2 ) printf( core2 n"); if ( my_id == 3 ) printf( core3 n"); exit(0); } 2013 Noriko Etani, Ritsumeikan University 26

$c int main() { // コア ID の取得 sr_core_id_t my_id = sr_get_core_id(); if(my_id == 0) { sleep(1); } else { sleep(1); } // アプリケーション kernel_app(); exit(0); } データ並列の場合タスク並列の場合 Kernel_app.$

27 デバイスコアアプリケーションユーザへの枠組み提供 main.c int main() { // コア ID の取得 sr_core_id_t my_id = sr_get_core_id(); if(my_id == 0) { sleep(1); } else { sleep(1); } // アプリケーション kernel_app(); exit(0); } データ並列の場合タスク並列の場合 Kernel_app.c int kernel_app() { } int kernel_app() { sr_core_id_t my_id =sr_get_core_id(); if(my_id == 0) core0_app(); if(my_id == 1) core1_app(); if(my_id == 2) core2_app(); if(my_id == 3) core3_app(); } int core0_app { } データ並列アプリケーションタスク並列アプリケーションタスク並列 : コア 0 用アプリケーション 2013 Noriko Etani, Ritsumeikan University 27

28 排他制御 mutex 初期化 sr_mutex_t attribute ((section (".bss2"))) mutex; int main() { sr_core_id_t my_id =sr_get_core_id(); // マスタコアによる mutex 初期化 if ( my_id == 0 ) { sr_mutex_init( &mutex ); sleep(1); } else { sleep(1); } // 並列アプリケーションの実行 kernel_app(); exit(0); } 2013 Noriko Etani, Ritsumeikan University 28

29 排他制御ロッククリティカルセクション extern sr_mutex_t mutex; // 共有リソース int attribute ((section (".bss2"))) global_counter = 0; int kernel_app() { sr_mutex_lock( &mutex ); { global_counter++; クリティカルセクション } sr_mutex_unlock( &mutex ); } } 2013 Noriko Etani, Ritsumeikan University 29

30 排他制御注意過度な排他制御により処理が完了しないバックトラックや再帰処理による深さ優先探索タスク並列デバイスコア 0 デバイスコア 1 デバイスコア 2 探索空間デッドロックデッドロック回避探索空間の共有によるデータ並列デバイスコア Noriko Etani, Ritsumeikan University 30

31 条件変数 while (1) { // データがないので待機キューにデータが while(remain == 0){} 入力されるまで sr_mutex_lock( &mutex ); 現在のデバイスコア { //!!!CRITICAL SECTION!!! を待機させる i = queue[rp]; rp++; remain--; if(rp == MAX_QUEUE_NUM) rp = 0; } sr_mutex_unlock( &mutex ); if(i == END_DATA) break; } 2013 Noriko Etani, Ritsumeikan University 31

32 プログラムブロック間の同期処理カーネル 1 カーネル 2 カーネル 3 カーネル 0 シーケンス制御処理 A barrier() 処理 B 処理 A barrier() 処理 B 処理 A barrier() 処理 B 処理 A barrier() 処理 B 同期制御 barrier() barrier() barrier() barrier() 処理 C 処理 B 処理 B 処理 B カーネル間で処理 B および C の開始を揃えることができる SMYLE OpenCL 組込み関数同期関数 (barrier()) を提供 2013 Noriko Etani, Ritsumeikan University 32

33 並列化コードへの移行 2013 Noriko Etani, Ritsumeikan University 33

34 逐次プログラムのコード int linear_search(int x, int *a, int num) { // 配列の範囲内で目的の値を探す int n = 0; while(n < num && a[n]!= x) { n++; } While 文の無限ループ if(n < num) { return n; } 条件式の処理を分割 return NOT_FOUND; } 2013 Noriko Etani, Ritsumeikan University 34

35 逐次プログラムのコード移行後 int LinearSearch0() { sr_core_id_t my_id; n0 = 0; // 配列の範囲内で目的の値を探す while(1){ sr_mutex_lock( &mutex ); if(n0 < DATA_NUM && data0[n0]!= key) { n0++; } else { sr_mutex_unlock( &mutex ); break; } sr_mutex_unlock( &mutex ); } } sr_mutex_lock( &mutex ); if(n0 < DATA_NUM) { printf("data0:[%d](%d)=%d n",n0, data0[n0], key); }else printf("no-data0 n"); sr_mutex_unlock( &mutex ); カウンタ値や共有データを直接操作する場合は, 排他制御を行う 2013 Noriko Etani, Ritsumeikan University 35

36 スレッドを使ったコード for (i = 0; i < NUM_THREAD; i++) { // スレッド関数の引数データの初期化 parg[i].thread_no = i; parg[i].thread_data = data; // スレッドの生成 pthread_create(&handle[i], NULL, (void*)thread_func, (void *)&parg[i]); } スレッドの生成不要 2013 Noriko Etani, Ritsumeikan University 36

37 評価 2013 Noriko Etani, Ritsumeikan University 37

38 ベンチマーク (1/4) (1) 加算 1(Addition1) データ数 12 のデータを順次加算し総計を表示する (2) 加算 2(Addition2) データ数 12 のデータを 4 分割し分割単位でデータを加算し最後に総計を演算して表示する (3) 生産者 / 消費者 (P-C) 2 つの生産者スレッドがキューにデータを最大 10 個まで追加し 2 つの消費者スレッドがキューにデータがあれば取り出すスレッドスレッド Noriko Etani, Ritsumeikan University 38

39 ベンチマーク (2/4) (4) リニアサーチ 1(LS1) リストの先頭から終端に向かって目的の要素を探し出すサイズ 25 X 1 次元配列 4 目的 :4 配列目の最終位置 (5) リニアサーチ 2(LS2) サイズ 100 目的 : 最終位置 (6) リニアサーチ 3(LS3) サイズ 50 X 1 次元配列 4 目的 :4 配列目の最終位置 (7) リニアサーチ 4(LS4) サイズ 200 目的 : 最終位置 Noriko Etani, Ritsumeikan University 39

40 ベンチマーク (3/4) (8) 数独 1(Sudoku1) 9X9 のマス目においてすべての縦の列横の列 3X3 のブロックに 1 から 9 までの数字をひとつずつ入れていくパズル解が 1 つの場合 (9) 数独 2(Sudoku2) 解が 2 つの場合 Noriko Etani, Ritsumeikan University 40

41 ベンチマーク (4/4) (10) バブルソート (BS) データ数 100 を対象に隣り合う要素の大小を比較しながら整列させる (11) クイックソート (QS) データ数 100 のデータの集合を基準値 ( 先頭の値とする ) より大きいものと小さいものとのグループに分けそれぞれのグループの中でも新しい基準値を使って同様の作業を行う ( 再帰処理 ) によりデータを順番に並び替える (12) マージソート (MS) データ数 200 のデータを対象にブロックを前半と後半に分けてソートを行い 2 つのソートされたデータ列のマージを行う 2013 Noriko Etani, Ritsumeikan University 41

42 ベンチマークテスト 32-bit Fedora16 SMYLE OpenCL 逐次処理スレッド逐次処理データ並列タスク並列データ並列タスク並列マスタコア (1) 加算 1 (2) 加算 2 (3) 生産者 / 消費者 (4) リニアサーチ 1 (5) リニアサーチ 2 (6) リニアサーチ 3 (7) リニアサーチ 4 (8) 数独 1 (9) 数独 2 (10) バブルソート (11) クイックソート (12) マージソート 2013 Noriko Etani, Ritsumeikan University 42

43 評価 (1/4) スレッドコード ( 単位 :micro sec) Addition1 Addition2 P-C sequential thread-task thread-data SMYLE-task SMYLE-data SMYLE-seq 2013 Noriko Etani, Ritsumeikan University 43

44 評価 (2/4) リニアサーチ ( 単位 :micro sec) LS1 LS2 LS3 LS4 sequential thread-task thread-data SMYLE-task SMYLE-data SMYLE-seq 2013 Noriko Etani, Ritsumeikan University 44

45 評価 (3/4) 深さ優先探索 ( バックトラックと再帰処理 ) ( 単位 :micro sec) Sudoku1 Sudoku2 sequential thread-task thread-data SMYLE-task SMYLE-data SMYLE-seq 2013 Noriko Etani, Ritsumeikan University 45

46 評価 (4/4) ソート ( 単位 :micro sec) BS QS MS sequential thread-task thread-data SMYLE-task SMYLE-data SMYLE-seq 2013 Noriko Etani, Ritsumeikan University 46

47 参考処理速度と消費電力江谷典子, 稗田拓路, 冨山宏之 : SMYLE OpenCL における組込み関数の開発と評価, 情報処理学会研究報告,Vol OS-123, No. 7, Vol.2012-EMB-27, No. 7, pp.1-8, カーネルでの同期関数を用いた並列アプリケーションプログラムの処理速度を計測ベンチマーク 1( データ並列 ) 組込み関数の 12 整数関数を利用 1 つの関数をコールする度に同期関数をコールベンチマーク 2( タスク並列 ) ベンチマーク 1 での関数コールの順番を変更して 4 種類の異なるプログラムとする 2012 Noriko Etani, Ritsumeikan University 47

48 参考処理速度と消費電力ベンチマーク計測結果コア動作周波数 : 10MHz CPU 動作周波数 : 2.80GHz 3 2 処理速度約 2 倍 SMYLE POCL 1 0 消費電力比較 FPGA: 6.5W CPU : 35W Benchmark1 Benchmark2 消費電力 1/10 以下 CPU をターゲットにしたオープンソース Portable OpenCL 2012 Noriko Etani, Ritsumeikan University 48

49 まとめ 2013 Noriko Etani, Ritsumeikan University 49

ソフトウェア処理について負荷の重い部分の発見 SMYLEref にハードウェアとして実装 Software on

50 まとめまとめ処理速度スレッドコードの 2 倍以上の速さバックトラックと再帰処理を用いた逐次処理の 1.5 倍の速さデッドロックやバッファ転送の手間による遅延並列処理の問題点今後の課題ソフトウェア処理について負荷の重い部分の発見 SMYLEref にハードウェアとして実装 Software on Chip(SWoC) より高速な SMYLE OpenCL デバイスの並列処理 2013 Noriko Etani, Ritsumeikan University 50

51 謝辞本研究は, 独立行政法人新エネルギー産業技術総合開発機構 (NEDO) の委託により実施した Noriko Etani, Ritsumeikan University 51

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション SMYLE OpenCL における組込み関数の開発と評価江谷典子立命館大学総合科学技術研究機構 2012 年 12 月 5 日 2012 Noriko Etani, Ritsumeikan University 1 発表の内容背景目的要素技術関連研究 SMYLE OpenCLにおける組込み関数の開発性能評価まとめ 2012 Noriko Etani, Ritsumeikan University