Microsoft PowerPoint ppt [互換モード]

計算機アーキテクチャ特論 2016 年 10 3 枝廣前半 ( 並列アーキテクチャの基本枝廣 ) 10/3, 10/17, 10/24, 10/31, 11/7, 11/14( 程は予定 ) 内容 ( 変更の可能性あり ) 序論 ( マルチコア= 並列アーキテクチャ概論 ) キャッシュコヒーレンシメモリコンシステンシ並列アーキテクチャモデル OSモデルスケーラビリティに関する法則並列プログラミングモデル語資料置場 : http://www.pdsl.jp/class/ ( 次回から紙配布なし ) 後半 ( 先端トピックス本 ) 11/21 内容 ( 変更の可能性あり ) 組込みアーキテクチャ再構成可能アーキテクチャ Page 1

前半の進め講義 + 理解度テスト ( およそ半分の時間 ) 理解度テストが終われば帰ってよい理解度テストの配点 : 出席 =5, 問題 =5 ( 提出 =1, Q1=3, Q2=1) アンケート1 回 (10 点 ) 単位が欲しいのに席が多い場合要相談 ( 基本的に前半部に関しては試験もレポートもない ) インターンシップなどは配慮する ( 注 ) 後半の進めは異なる第回アンケート第回講義 ( 概要 ) 理解度テストはなし Page 2

次マルチコア化の背景マルチコアアーキテクチャとソフトウェアのモデルマルチコア向けソフトウェア開発 Page 3

あらゆる機器にマルチコアシングル : 性能向上に限界半導体の微細化は継続低電または性能 ( 従来は両達成 ) あらゆる機器にマルチコア厳しい電制約マルチ低電サーバーパソコン性能組込機器 ( 携帯載情報家電 etc.) ソフトウェアにきな課題 : 並列性がなければ今後性能向上しない ( 従来はが新しくなれば勝に性能向上した ) Page 4

背景 : 周波数向上だけには頼れない時代にハイエンド MPU の回路は 9FO4 ( インバータ 9 段 ) に到達最高速動作回路 (e.g. ALU) では 4FO4 も出現 Page 5

背景 : リーク電流の増大リーク電流酸化膜トランジスタの微細化により漏れ ( リーク ) が発生動作していないトランジスタでも電流消費高速トランジスタほどリーク電流大ゲートリーク電流削減シリコン基板低電力 ( 低速 ) トランジスタを用いたプロセッサをマルチコア化しゲートリーク高速動作時には全プロセッサを動作させ待機時等にはサブスレッシュホールドリーク不要なプロセッサの電源を OFFすることが有効 6

マルチコアプロセッサの必要性 ( 性能電 ) ある単一機能を低電力化したい場合汎用よりもヘテロジニアスマルチコアが有利 MPEG4 CODEC 実行時の性能 / 電力 MPEG4 専用 HW 性能電力比においてヘテロジニアスマルチコアが有利! DSP 他アプリケーションへの適用可能性 Page 7

Pollack の法則プロセッサの性能はその複雑性の平根に例する ( 経験則 ) Multi-core 8

処理時間の見通し : 難 Page 9 マルチコアプロセッサの必要性 ( リアルタイム性能 ) マルチコアによりリアルタイム性を向上させ性能保証を容易にシングルプロセッサ方式 MPEG-4 CODEC 割込み処理 MPEG-4 CODEC 割込み等予測不能要因キャッシュミス等予測不能要因 ( 性能保証のため大きな性能マージンが必要 ) マルチプロセッサ方式専用エンジン起動処理他からの割込み処理終了処理 MPEG-4 CODEC 処理時間の見通しが悪いシステムは組込みで使いにくい! 時間処理時間の見通し : 易

マルチコアプロセッサの必要性 ( 性能電スケーラビリティ ) 同じソフトウェアプラットフォームで様々な製品対応今後リーク電流が増大する時代に電力制御容易ハイエンド Page 10 TV ミドルレンジローエンド SMP 対応 OS x4 SMP 対応 OS x2 SMP 対応 OS x1 専用HW DSP DSP 消費電力 ( 正規化 ) 低負荷時 ( 電源遮断 ) 6 5 4 3 2 1 0 Better 高負荷時 1 2 3 シングルプロセッサ 3 s 1 2 sマルチコア性能 ( 正規化 ) シングルプロセッサとの性能電力スケーラビリティ比較

ここまでのまとめマルチコアは広まっている組込みシステムの性能向上に対し電やリアルタイム性能のから考えると DSP や専ハードウェアの追加が有利であり LSI の微細化と共にヘテロジニアスマルチコアとして進化しているところが組込みシステムであっても携帯電話関連等において様々なアプリケーションが実されるようになりい性能が要求される分野が出てきたこのような要求に対してい動作周波数ので対応すると電ので合わなくなるためパソコンと同様ホモジニアスマルチコアの時代にりつつある Page 11

次マルチコア化の背景マルチコアアーキテクチャとソフトウェアのモデルマルチコア向けソフトウェア開発 Page 12

マルチコアプロセッサの分類 ( ハードウェアの AMP vs. SMP) ヘテロジニアス vs. ホモジニアスヘテロジニアス : 異種コアによるマルチプロセッサホモジニアス : 同種コアによるマルチプロセッサ ( システムの )AMP vs. SMP AMP (Asymmetric Multi-Processor 対称型 ) 各コアが別々のソフトを実 ( 機能分散 ) SMP (Symmetric Multi-Processor 対称型 ) OS が複数ソフトウェアを複数コアに負荷分散しながら実 (SMP はホモジニアス型のみ ) DSP HW ヘテロジニアスホモジニアスただし組込み向け SoC では様々な専エンジンを搭載するため全体はヘテロジニアス AMP になりその中の部のやメディアエンジンがホモジニアス AMP/SMP になることが多い Page 13

SMP 型の定義様々な定義があるここでは以下のように考える SMP 型 = つの OS で管理され, すべての処理 ( タスク, プロセス, スレッドなど ) がすべてのにおいて対称的に実可能であるようなマルチプロセッサによる並列処理式 AMP 型 =SMP 型以外のもの同じバイナリがすべてので動作する必要がある ( 少なくとも命令セットは ) 同じである必要がある = ホモジニアスホモジニアス AMP 型と SMP 型とはキャッシュ貫性に対するハードウェアサポートに違いがある Page 14 SW1 SW2 SW3 SW4 SMP OS 1 2 3 4 ポイント 2: ポイント 1: 一つの OS 対称的に実行可能 = 別のに移すことが可能 (1 で動作させ中断していたものを 2 で再開することが可能問題はキャッシュに一時保存しているデータの扱い )

三種類のシステムモデル (1) ヘテロジニアス AMP ヘテロジニアス AMP SMP ホモジニアスホモジニアス AMP ホモジニアス SMP ただし最近の組込みシステム向け SoC では様々な専用エンジンを搭載しつつ複数を持つため混在している場合が多い 15

三種類のシステムモデル (2) ヘテロジニアス AMP SW1 OS SW2 OS DSP SW3 HW1 SW4 HW2 ホモジニアス AMP SW1 SW2 SW3 SW4 OS OS OS OS ホモジニアス SMP SW1 SW2 SW3 SW4 SMP OS HW&SW 一体でサブシステム最適化サブシステム内変更が他に影響しにくいリアルタイム性確保やテストで有利ヘテロジニアスでは電力性能コスト面で最適な HW を選択ホモジニアスでは HW を同一化 SW 環境を同じにしつつサブシステム分離性確保 SW-HW の割り当ては固定的 HW 能力に分割損が発生しがち OS が SW モジュール ( スレッド ) を動的に HW へマッピング SW モジュール変更が全体性能に影響リアルタイム性確保やテストで不利 SW 機能のマッピング自由度が大 HW 能力の分割損は発生しにくい 16

ホモジニアス AMP とホモジニアス SMP の違いハードウェアアーキテクチャの違い SMP 型システムでは対称的実行を効率よく行うためのキャッシュ一貫性 ( 次頁参照 ) のハードウェア支援機構を搭載したものが多いプログラムモデルの違い AMP 型は単体プロセッサ向けプログラム + 同期通信 SMP 型はスレッドプログラミング機能的な違いリアルタイム性能スケーラビリティ 17

キャッシュの一貫性とは? 複数が個々にキャッシュを持っている場合キャッシュ間でのデータ整合性が問題となるこの問題をキャッシュの一貫性と呼ぶキャッシュ一貫性を保証するハードウェア支援機構があるものをコヒーレントキャッシュソフトウェアでの対応が必要なものをノンコヒーレントキャッシュと呼ぶ SW1 SW2 SW1 SW2 SW1 SW2 1 2 1 2 1 2 3? 3 キャッシュ 3 4 キャッシュ 3 4 キャッシュ 3 1.SW1 があるメモリ番地から値 3 を読むメモリバス 3 2.SW1 が値を 4 に書き換えるメモリバス 3.SW2 が同じメモリ番地からデータを読んだときキャッシュに正しいデータがないので正しく動作しない 3 18

AMP 型と SMP 型の違い ( ハードウェア ) シングルプロセッサ AMP 型 : ノンコヒーレントキャッシュSMP 型 : コヒーレントキャッシュ ( ハードウェアサポートなし ) (Snoop( 盗み見 ) 機構 ) SW1 SW2 SW1 SW2 SW1 SW2 1 1 2 3? 1 2 3 4 キャッシュ 3 4 キャッシュ 3 4 4 キャッシュメモリバスメモリバス 3 共有メモリシングルプロセッサの場合 SW1 も SW2 も同じキャッシュから読むのでオーバーヘッドなく正しい値が読める 19 3 ノンコヒーレントキャッシュの場合 SW2 でメモリ上の同じデータを使いたい場合 SW1 はキャッシュの内容を一度共有メモリに戻した後 SW2 に通知する必要があり大きなオーバーヘッドとなる共有メモリ 3 コヒーレットキャッシュでは隣ののキャッシュの内容を盗み見る (Snoop) ハードウェア機構を持つソフトでは気にせずに SW1 と SW2 のデータ共有ができるためオーバーヘッドが小さい

AMP 型と SMP 型の違い ( プログラムモデル ) 1 向けプログラム 2 向けプログラム 3 向けプログラム並列化プログラムタスク 1 タスク 4 タスク 6 タスク 2 タスク 7 タスク 3 タスク 5 タスク1 タスク2 タスク4 タスク 3 タスク 5 タスク 7 タスク 6 OS OS OS SMP OS 1 2 3 1 2 3 AMP 型 SMP 型 AMP 型はプロセッサごとの ( 別々の OS 上の ) プログラムとなりプログラム間の同期通信を記載するへのタスク ( スレッド ) 割り当てはプログラム時に静的に行われる SMP 型は SMP OS 上の一つのプログラムとなり同期通信も含め並列化支援言語 API として記載する SMP OS が負荷分散を考慮しながら動的にタスク ( スレッド ) をプロセッサに割り当てる 20

AMP 型マルチコアシステムのリアルタイム性 Delay from Scheduled Time (= Points above 40ms) Discontinuity of Audio & Video Execute Time for Periodical Processes Time a) 1 b) 3 Many Delays NO DELAY 21

SMP 型マルチコアシステムのスケーラビリティぶれ補正処理シャッタースピードを遅くするとぶれ発速くすると暗くなる (I, II) シャッタースピードを速くしつつ複数枚撮影し画像補正 (III) 画質をくすればするほどい性能が必要並列性能向上率 (1 対 4) --- VGA: 2.94 倍, QVGA: 3.15 倍 Speedup 3.5 3 2.5 2 1.5 1 0.5 0 QVGA VGA 1 2 3 4 Number of Processors (I) slow shutter: bright but blurry (II) fast shutter: dark but not blurry Image Stabilizer (III) bright and not blurry Page 22

タスク並列のメリットを生かしながらスケーラビリティも実現 SMP LinuxのAffinity: タスクを固定的に特定に割り付け可能 AMP-SMPハイブリッドリアルタイム系連携タスクと度なマルチメディアタスクが混在する今後の組み込みシステムに適合 Task A Task C Task B Task F Task D Task E MMタスクを自動負荷分散 Task A Task C D Task B Task 固定割付タタススククEF Snoop Cache Cache スレッド化されたタスク A~D Task E 制御系連携タスク Task F OS シングル, マルチタスク SMP Linux RTOS MPCore マルチ, マルチタスクマルチスレッド Page 23

マルチコアプロセッサの事例 TI OMAP5 ルネサスエレクトロニクス東芝 Venezia EX Intel MIC R Car H1 24

TI OMAP5( 携帯機器向け SoC) 2 個の ARM Cortex-A15 がホモジニアス SMP 構成 2 個の ARM Cortex-M4 がホモジニアス AMP 構成 ARM, TI DSP, グラフィックプロセッサ等がヘテロジニアス AMP 構成 25

ルネサスエレクトロニクス R Car H1( 車載情報機器向け SoC) 4 個の ARM Cortex-A9 がホモジニアス SMP 構成ルネサスエレクトロニクス SH-4A と様々なプロセッサ群がヘテロジニアス AMP 構成 26

東芝 Venezia EX 携帯機器向けメディア処理 SoC メディア処理エンジン 8 個がホモジニアス AMP 構成ソフトウェアによるキャッシュコヒーレンシであるがメディア処理 ( ストリーミング処理 ) では高い性能を達成する 27

Intel MIC (Many Integrated Core) アーキテクチャ 32 コアがコヒーレントキャッシュで接続されたホモジニアス SMP 構成 28

次マルチコア化の背景マルチコアアーキテクチャとソフトウェアのモデルマルチコア向けソフトウェア開発 Page 29

マルチコア活かすも殺すもソフト次第ソフトが複数のコアを有効利しなければマルチコアの意味が無いシステムソフトウェアの並処理並列処理並並列化の種類複数ソフトウェアの並処理 ( 機能分割 ) 単ソフトウェアの並列処理 ( スレッド化など ) アルゴリズムシステムロジックが並列並実可能分割可能依存がないプログラムが並列並実可能に記述 Page 30

アルゴリズムが並列実行可能 (1) アルゴリズムが並列実可能でなければマルチコア上で性能向上しない例 : 総和 (1 から 1000000 までの和を求める ) int i, sum; for (i=1,sum=0; i<=1000000; i++) { sum += i; } return sum; i=k-1 の時の sum の値をいて i=k の時の sum を計算するため並列化は難しい Page 31

アルゴリズムが並列実行可能 (2) 並列実行可能なアルゴリズム例 : 総和 (4 コアで 1 から 1000000 までの和を求める ) int i, j, p, sum; for (p=0,sum=0; p<4; p++) { for(i=0,j=p*250000+1,s=0; i<=250000; i++, j++) { s += j; } sum += s; } return sum; 4 コアで並列実行可能変数 i, j, s をコアごとの局所変数として割り当てて計算し最後にそれぞれのコアの結果 s を集計 ( 注意 : 現状の自動並列化コンパイラでは前頁のプログラムから自動的に上記のような並列化は行われる従ってアルゴリズム変更が必要な場合はより複雑な例となる ) Page 32

システムロジックが並行実行可能並行実行で性能向上する例並行実行で性能向上しない例 START START 処理の依存関係処理 A 処理 B 処理 C 処理 D 処理 A 処理 B 処理 C END 処理 D END Page 33

プログラムが並列並行実行可能に記述 AMP 型と SMP 型 AMP 型はプロセッサごとの ( 別々の OS 上の ) プログラムとなりプログラム間の同期通信を記載するへのタスク ( スレッド ) 割り当てはプログラム時に静的に行われる SMP 型は SMP OS 上の一つのプログラムとなり同期通信も含め並列化支援言語 API として記載する SMP OS が負荷分散を考慮しながら動的にタスク ( スレッド ) をプロセッサに割り当てる 1 向けプログラムタスク1 タスク 4 タスク 6 2 向けプログラムタスク 2 タスク 7 3 向けプログラムタスク3 タスク 5 並列化プログラムタスク1 タスク2 タスク4 タスク 3 タスク 5 タスク 7 タスク 6 OS OS OS SMP OS 1 2 AMP 型 3 1 2 3 SMP 型 Page 34

プログラムが並列並行実行可能に記述 AMP 型のプログラム同期通信以外は通常のソフトウェア SMP 型のプログラムスレッドプログラミングその他ヘテロジニアスマルチコア向け OpenCL GPU 向け CUDA Page 35

AMP 型マルチコアの同期通信 ( 起動終了 ) 起動 : から専エンジンのレジスタに書き込み終了 : 専エンジンからへの割込み専エンジンのレジスタをからポーリング起動終了に多少の時間オーバーヘッドがある変数共有を考えなくても数数百サイクル必要 (SMP 型のような ) 変数共有を考えるならば 1 変数を 1 回共有するのにさらに数数百サイクル必要時ソフトウェアモデルハードウェアモデル (AMP 型 ) 間専用エンジン起動処理他からの割込み処理終了処理 MPEG-4 CODEC Reg. MPEG-4 専用 HW Page 36

AMP 型マルチコアの同期通信 ( 共有メモリ ) AMP 型ではデータ共有オーバーヘッドが大きいため画像データ転送などを除き可能な限りメモリ共有しない共有メモリを用いたプロセッサ間データ授受専用エンジンでデータを使う前に必要なデータがのキャッシュからメモリに戻されている必要ありキャッシュ無効化などの処理が必要となり同一プロセッサでのデータ授受より時間オーバーヘッドがあるデータ書込後起動終了または割り込みなどで通知 Page 37 時間ソフトウェアモデル専用エンジンデータ書込起動処理データ読込 MPEG-4 CODEC データ書込終了処理データ読込ハードウェアモデル Mem Reg. MPEG-4 専用 HW

スレッド化プログラミングスレッドライブラリの例 pthread IEEE の POSIX Section 1003.1c 規格 POSIX: Portable Operating System Interface Linux などで標準的にサポート Java Thread Java 言語の中に標準で定義 OpenMP C/C++/FORTRAN を並列プログラム可能にするために米国コンパイラベンダグループによって作られた指示文パソコン向けの開発環境などで標準的にサポート TBB Intel 社が開発した言語 OpenMP と似ているレベルであるが動的な負荷分散などをランタイムで行う TPL Microsoft 社の言語同様のレベル.NET に含まれる参考文献 : Nichols, Buttlar, and Farrell( 榊訳 ): PThreads プログラミングオライリージャパン 1998 : Oaks and Wong( 戸松西村訳 ): Java スレッドプログラミングオライリージャパン 1997 : http://www.openmp.org/ : James Reinders ( 菅原訳 ): インテルスレッドビルディングブロックオライリージャパン 2008 Page 38

スレッド化プログラミング (OpenMP) OpenMPでの記述例 ( 銀系サーバの例 ) sections 指されたブロック内の各 sectionは並列実可能 #pragma omp parallel sections { #pragma omp section main(); #pragma omp section withdraw(); #pragma omp section deposit(); #pragma omp section balance(); } sections の } において同期する ( つまりすべての section が終了後に待ち合わせる ) 客リクエスト残高スレッド顧銀行系サーバ main() メインスレッド withdraw() 支払スレッド deposit() 預金スレッド balance() -39-

スレッド化プログラミング (OpenMP) OpenMPでの記述例 ( 画像復号処理の例 ) for 指されたループは並列実可能 #pragma omp parallel for for(i=1; i<=n; i++) 復号処理 #i; 複号処理 #1 画像復号処理複号処理 #2 複号処理 #3 複号処理 # 4 複号処理 #5 複号処理 #8 複号処理 #7 複号処理 #5-40-

作順は基本的に保証されないどう動くか? #pragma omp parallel for for(i=1; i<=n; i++) 復号処理 #i; 画像復号処理動複号複号複号複号処理処理まずばらばらの実体にする処理処理 # #1 #2 #3 4 複号複号複号処理処理 # 複号 #2 4 複号処理 #1 複号処理 #3 OS と動くスケジューラが空いたプロセッサに割付け処理 #5 複号処理 #8 処理 #7 複号処理 #5-41-