Microsoft PowerPoint - ICD2011UenoSlides.pptx - PDF 無料ダウンロード

画像認識向け 3 次元積層アクセラレータアーキテクチャの検討九州大学大学院システム情報科学府学院 * 九州大学大学院システム情報科学研究院 ** 上野伸也 * Gauthier Lovic Eric** 井上弘士 ** 村上和彰 ** 1

概要画像認識技術アクセラレータによる高性能低消費エネルギー化アプリケーション分析アクセラレータアーキテクチャ検討ア性能消費エネルギー評価まとめ 2

画像認識技術機械が人間に代わって, 物事を理解, 認識, 判断応用分野産業, 医療, セキュリティ, 安全技術,etc. 画像認識を行う機器への要求高性能低消費エネルギーソフトウェア処理 http://www.honda.co.jp/news/2004/4040824a.html 車載カメラによる夜間の歩行者認識技術インテリジェントナイトビジョンシステム (Honda) 3

実行時間 (s sec) 1.4 1.2 1 画像認識アプリケーションのリアルタイム実行に必要な性能 8.32 11.89 0.8 汎用プロセッサの数十倍 ~ 数百倍の性能が必要 vga 0.6 fullhd 04 0.4 0.2 0 1.48 Disparity Sift Feature Tracking 実行環境 Intel Xeon 5160 3GHz プロセッサメモリ容量消費電力 8GB 80W(TDP) * リアルタイム性を満たす :1 秒間 30 枚の画像に対して処理を行うリアルタイム性を満たす実行時間 4

アクセラレータによる高性能低消費エネルギー化アクセラホスト CPU 主記憶レータ Cell/B.E, GPU,etc Cell/B.E 288GFLOPS 210W Tesla S1070 933GFLOPS 1123W インターコネクト *Xeon 5160 24GFLOPS 80W 出典 http://www.itmweb.com 出典 :http://www.elsa jp.co.jp/ products/hpc/tesla/s1070/index.html スレッド / データレベル並列性を利用して高性能低消費エネルギー化アクセラレータの性能向上阻害要因メモリ容量の不足大規模化に伴う配線長の増加 5

3 次元積層技術異なるプロセスを経て製造されたダイ同士の積層大容量のメモリを積層メモリ容量不足の緩和グローバル配線長の削減チップ面積縮小 3 次元積層を利用することで, より高性能低消費エネルギーなアクセラレータを実現可能 TSV(Through( Silicon Vias) 出典 : 米インテル社 6

概要画像認識技術アクセラレータによる高性能低消費エネルギー化アプリケーション分析アクセラレータアーキテクチャ検討ア性能消費エネルギー評価まとめ 7

対象プログラムの決定 SD VBS[1] Venkata らによる画像処理ベンチマークプログラムセット画像認識に対応するプログラム SD VBS の各プログラムが含む処理処理プログラム画像変換画像解析 SIFT Image Segmentation 画像認識画像合成 SVM SIFT Image Segmentation Image Stitch 画像認識アプリケーションに良く用いられる SVM Texture 計算量が大きい Synthesis Disparity Map Feature Feature Tracking Tracking 画像理解 Disparity Map [1]S. K. Venkata,et al. SD VBS: The San Diego Vision Benchmark Suite, Proc.IISWC,pp.55 pp.64,oct. 2009 8

画像認識アプリケーション分析 ~SIFT~S 入力画像から SIFT 特徴の特徴点を検出するプログラム物体認識画像分類特徴点追跡に用いられる SIFT の処理フローガウシアンフィルタによる画像平滑化 DoG 画像の生成極値検出主曲率によるキーポイントの削除低コントラストに基づくキーポイントの削除実行時時間 (sec) 各処理の実行時間 14 その他の処理 12 10 画像の読み込み 8 初期値の設定など 6 極値検出 4 2 0 DoG 画像の生成画像平滑化 vga fullhd *Intel Xeon 5160 3GHz で実行ガウシアンフィルタガウシアンフィルタ処理,DoG 画像生成, 極値検出に注目 9

ガウシアンフィルタによる画像平滑化ガウシアンフィルタ処理 L(2σ0) 平滑化画像入力画像ダウンサンプリング入力画像 L(k*kσ0) L(kσ0) L(σ0) L(2σ0) L(k*kσ0) L(kσ0) L(σ0) 平滑化画像平滑化画像入力画像平滑化画像平滑化画像平滑化画像平滑化画像 1オクターブ 2 1. スケールを変化 ( 0, k 0, k 0,..., 2 0 ) させながらそれぞれ画像平滑化 2. 入力画像を2 分の1にダウンサンプリング 3. 画像サイズが一定値以下になるまで1.2. の処理を繰り返し各平滑化画像の生成は並列に行うことが可能 10

1 4 16 4 1 4 16 4 16 24 16 24 36 24 16 24 16 4 16 4 ガウシアンフィルタ処理 1 4 16 4 1 1. 注目画素をガウシアンフィルタの中心とする 2. 画素値ガウシアンフィルタ係数 4 3. 2 の結果を合計 4. 結果を対応する場所に記入 5. 1~4を全画素に対して行うガウシアンフィルタ 10 20 9 20 13 18 6 15 7 8 10 11 11 9 9 6 17 8 2 21 18 15 1 21 9 10 11 13 14 12 11 9 21 1 2 12 11 3 8 21 9 11 12 14 14 12 12 10 12 6 22 19 19 15 8 14 9 11 12 14 14 14 14 11 4 20 12 3 18 14 20 22 8 11 12 12 13 14 14 11 4 12 8 2 3 8 16 7 8 12 13 12 12 13 14 10 4 22 18 21 21 3 8 22 8 13 15 14 13 13 13 10 2 22 7 15 18 11 20 11 平滑化 8 12 14 14 13 13 12 10 7 15 9 17 1 14 13 14 5 8 9 9 9 9 9 7 入力画像平滑化画像 11

DoG 画像の生成と極値検出平滑化画像との差分を求める並列に求めることが可能スケール平滑化画像 DoG 画像極値検出対象画像 3 枚 1 組で比較を行う注目画素と26 近傍画素で比較注目画素が極値がどうか判定極値の場合当該画素をキーポイント候補に加える全画素に対して行う 12

分析結果まとめ ( 並列度入力データ数演算の種類 DFG の深さ ) 画像平滑化 X 並列度 X Y Z i i 1 並列性演算に関する特性入力データ演算の種類と回数数 2Nk^2 積算和算 Nk^2 回 Nk^2 1 回 DFG の深さ 2 log2 N k 1 DoG 生成 ( Y 1) Z i 2 減算 1 回 1 i 1 X Z i 極値検出 ( Y 3) Z 27 比較演算 26 回 1~26 i 1 X: オクターブ数 Y:: スケール数 Zi:iオクターブ目の入力画素数 Nk: スケールkにおけるガウシアンフィルタのウィンドウサイズ 13

概要画像認識技術アクセラレータによる高性能低消費エネルギー化アプリケーション分析アクセラレータアーキテクチャ検討ア性能消費エネルギー評価まとめ 14

命令流データ流 ( より性能低下要因が少ない ) 加速実行方式命令フェッチ機構の簡略化汎用性 MIMD (Multiple Instruction Stream, Multiple Data Stream) 異なる命令を並列に実行可能 SIMD (Single Instruction Stream, Multiple l Data Dt Stream) 同一命令を並列に実行命令フェッチ機構の省略レジスタファイルの省略 * 全ての PE が 100% 動作すると仮定 NIMD (No Instruction Stream, Multiple Data Stream) PEアレイ上での DFG 直接実行電力効率 PE(Processing Element) ( より高性能低消費エネルギー ) 15

命令流データ流 ( より性能低下要因が少ない ) 各処理に適した加速実行方式極値検出汎用性 MIMD (Multiple Instruction Stream, Multiple Data Stream) 異なる命令を並列に実行可能 SIMD (Single Instruction Stream, Multiple l Data Dt Stream) 同一命令を並列に実行 DoG 画像の生成ガウシアンフィルタによる画像平滑化 * 全ての PE が 100% 動作すると仮定 NIMD (No Instruction Stream, Multiple Data Stream) PEアレイ上での DFG 直接実行電力効率 PE(Processing Element) ( より高性能低消費エネルギー ) 16

プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータプロセッサコアとメモリコアは密に結合コアは密に結合メモリコア Inst. Mem. Data Mem. Router ALU アレイ構成用ネットワークメモリ間オンチップネットワーク 17

プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータ MIMD 実行メモリコア Inst. Mem. Data Mem. Router ALU アレイ構成用ネットワークメモリ間オンチップネットワークプロセッサコアとメモリコアが結合してアが結合してPE を構成複数スレッドを並列に実行 18

プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータ NIMD 実行メモリコア Inst. Mem. Data Mem. + + Router ALU アレイ構成用ネットワーク + 停止メモリが隣接単純なNIMD 方式よりALU 間の距離が長いメモリ間オンチップネットワーク問題点 : ALU 間の配線長が長い 19 プロセッサコア間のデータ通信時間 / 消費エネルギー増加

3 次元積層 NIMD/MIMD 型アクセラレータプロセッサコア Register File ALU ALU プロセッサレイヤ密に演算器を集積 ALU アレイ構成用オンチップネットワークメモリコア Inst. Mem. メモリレイヤ Dt Data Mem. Router コア間データ通信用オンチップネットワーク 20

MIMD 実行と NIMD 実行 MIMD 実行時 NIMD 実行時プロセッサコアとメモリコアのペアコアのペアメモリコアから ALUアレイへデータ供給により1 個のPEを構成プロセッサコアとデータの入出力を行う各 PEは独立して動作メモリコアを変更最大 PE 数のスレッド並列実行が可能様々な形の ALU アレイを実現 21

MIMD 方式 vs. 提案手法提案手法 (MIMD 実行時 ) 性能, 消費エネルギーは MIMD 方式と同一提案手法 (NIMD 実行時 ) 性能向上要因 Load/Store 命令削減低下要因動作しないALU 再構成消費エネルギー削減効果向上要因低下要因命令フェッチレジスタファイル Load/Store 命令実行再構成コア間通信 22

概要画像認識技術アクセラレータによる高性能低消費エネルギー化アプリケーション分析アクセラレータアーキテクチャ検討ア性能消費エネルギー評価まとめ 23

評価環境実行プログラム : SD VBS より SIFT のガウシアンフィルタ処理,DoG 画像生成, 極値検出評価モデル性能消費エネルギーモデルを用いて評価 MIMD:MIMD 方式のみで実行 NIMD/MIMD( 提案手法 ): NIMD 方式とMIMD 方式を切り替え可能 PE 数 100(10 10), 動作周波数 2GHz 消費電力シミュレータ :sim wattch[2] アルゴリズムから実行演算数, マッピング可能なDFG, イタレーション数, データキャッシュアクセス数を計算メモリアクセスの時間消費エネルギーは0 再構成 / コア間通信の時間消費エネルギーは0 命令発行幅 :1 Fetch 32エントリ [2]Jianwei Chen,et al. SimWattch: Integrating Complete system and User level Performance and Power Simulators, IEEE Micro,Vol.27,no.4,pp.34 pp.48,2007. EXE R F 32KB I$ D$ 32KB 24

正規化化実行時時間 MIMD の実行時間を 1 として正規化 1.2 1 0.8 0.6 0.4 0.2 0 性能評価極値検出 DoG 画像 MIMD 実行ガウシアンフィルタ Load/Store 命令数削減による性能向上 > 動作しないALUによる性能低下 MIMD NIMD/MIMD MIMD 方式のみの実行に比べ約 7% の性能向上 NIMD 実行 25

消費エネルギー評価正規化消費費エネルギギー 1.2 1 0.8 0.6 0.4 02 0.2 0 MIMD の消費エネルギーを 1 として正規化 MIMD 極値検出 DoG 画像ガウシアンフィルタ処理 MIMD 実行 NIMD 実行命令フェッチ機構の省略, レジスタファイルの省略による効果 NIMD/MIMD 提案手法はMIMDに比べ約 40% の消費エネルギー削減 26

まとめ画像認識アプリケーションの特性解析処理によっては高性能 / 低消費エネルギーとなる実行方式が異なる実行方式切り替え可能なNIMD/MIMD 型アクセラレータの提案 3 次元実装技術を用いてより密に演算器を集積性能 / 消費エネルギー評価 MIMD 方式のみに比べ 7% の性能向上,40% の消費エネルギー削減 27