画像認識向け 3 次元積層 アクセラレータ アーキテクチャの検討 九州大学大学院システム情報科学府学院 * 九州大学大学院システム情報科学研究院 ** 上野伸也 * Gauthier Lovic Eric** 井上弘士 ** 村上和彰 ** 1
概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ 2
画像認識技術 機械が人間に代わって, 物事を理解, 認識, 判断 応用分野 産業, 医療, セキュリティ, 安全技術,etc. 画像認識を行う機器への要求 高性能 低消費エネルギー ソフトウェア処理 http://www.honda.co.jp/news/2004/4040824a.html 車載カメラによる夜間の歩行者認識技術 インテリジェント ナイトビジョンシステム (Honda) 3
実行時間 (s sec) 1.4 1.2 1 画像認識アプリケーションの リアルタイム実行に必要な性能 8.32 11.89 0.8 汎用プロセッサの数十倍 ~ 数百倍の性能が必要 vga 0.6 fullhd 04 0.4 0.2 0 1.48 Disparity Sift Feature Tracking 実行環境 Intel Xeon 5160 3GHz プロセッサ メモリ容量 消費電力 8GB 80W(TDP) * リアルタイム性を満たす :1 秒間 30 枚の画像に対して処理を行う リアルタイム性を満たす実行時間 4
アクセラレータによる 高性能 低消費エネルギー化 アクセラホスト CPU 主記憶レータ Cell/B.E, GPU,etc Cell/B.E 288GFLOPS 210W Tesla S1070 933GFLOPS 1123W インターコネクト *Xeon 5160 24GFLOPS 80W 出典 http://www.itmweb.com 出典 :http://www.elsa jp.co.jp/ products/hpc/tesla/s1070/index.html スレッド / データレベル並列性を利用して高性能 低消費エネルギー化 アクセラレータの性能向上阻害要因 メモリ容量の不足 大規模化に伴う配線長の増加 5
3 次元積層技術 異なるプロセスを経て製造されたダイ同士の積層 大容量のメモリを積層 メモリ容量不足の緩和 グローバル配線長の削減 チップ面積縮小 3 次元積層を利用することで, より高性能 低消費エネルギーなアクセラレータを実現可能 TSV(Through( Silicon Vias) 出典 : 米インテル社 6
概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ 7
対象プログラムの決定 SD VBS[1] Venkata らによる画像処理ベンチマークプログラムセット 画像認識に対応するプログラム SD VBS の各プログラムが含む処理 処理プログラム 画像変換 画像解析 SIFT Image Segmentation 画像認識 画像合成 SVM SIFT Image Segmentation Image Stitch 画像認識アプリケーションに良く用いられる SVM Texture 計算量が大きい Synthesis Disparity Map Feature Feature Tracking Tracking 画像理解 Disparity Map [1]S. K. Venkata,et al. SD VBS: The San Diego Vision Benchmark Suite, Proc.IISWC,pp.55 pp.64,oct. 2009 8
画像認識アプリケーション分析 ~SIFT~S 入力画像から SIFT 特徴の特徴点を検出するプログラム 物体認識 画像分類 特徴点追跡に用いられる SIFT の処理フロー ガウシアンフィルタによる画像平滑化 DoG 画像の生成 極値検出 主曲率によるキーポイントの削除 低コントラストに基づくキーポイントの削除 実行時時間 (sec) 各処理の実行時間 14 その他の処理 12 10 画像の読み込み 8 初期値の設定など 6 極値検出 4 2 0 DoG 画像の生成 画像平滑化 vga fullhd *Intel Xeon 5160 3GHz で実行 ガウシアンフィルタ ガウシアンフィルタ処理,DoG 画像生成, 極値検出に注目 9
ガウシアンフィルタによる画像平滑化 ガウシアンフィルタ処理 L(2σ0) 平滑化画像 入力画像 ダウンサンプリング 入力画像 L(k*kσ0) L(kσ0) L(σ0) L(2σ0) L(k*kσ0) L(kσ0) L(σ0) 平滑化画像平滑化画像入力画像 平滑化画像 平滑化画像平滑化画像平滑化画像 1オクターブ 2 1. スケールを変化 ( 0, k 0, k 0,..., 2 0 ) させながらそれぞれ画像平滑化 2. 入力画像を2 分の1にダウンサンプリング 3. 画像サイズが一定値以下になるまで1.2. の処理を繰り返し 各平滑化画像の生成は並列に行うことが可能 10
1 4 16 4 1 4 16 4 16 24 16 24 36 24 16 24 16 4 16 4 ガウシアンフィルタ処理 1 4 16 4 1 1. 注目画素をガウシアンフィルタの中心とする 2. 画素値 ガウシアンフィルタ係数 4 3. 2 の結果を合計 4. 結果を対応する場所に記入 5. 1~4を全画素に対して行う ガウシアンフィルタ 10 20 9 20 13 18 6 15 7 8 10 11 11 9 9 6 17 8 2 21 18 15 1 21 9 10 11 13 14 12 11 9 21 1 2 12 11 3 8 21 9 11 12 14 14 12 12 10 12 6 22 19 19 15 8 14 9 11 12 14 14 14 14 11 4 20 12 3 18 14 20 22 8 11 12 12 13 14 14 11 4 12 8 2 3 8 16 7 8 12 13 12 12 13 14 10 4 22 18 21 21 3 8 22 8 13 15 14 13 13 13 10 2 22 7 15 18 11 20 11 平滑化 8 12 14 14 13 13 12 10 7 15 9 17 1 14 13 14 5 8 9 9 9 9 9 7 入力画像 平滑化画像 11
DoG 画像の生成と極値検出 平滑化画像との差分を求める 並列に求めることが可能 スケール 平滑化画像 DoG 画像 極値検出対象画像 3 枚 1 組で比較を行う 注目画素と26 近傍画素で比較 注目画素が極値がどうか判定 極値の場合 当該画素をキーポイント候補に加える 全画素に対して行う 12
分析結果まとめ ( 並列度 入力データ数 演算の種類 DFG の深さ ) 画像平滑化 X 並列度 X Y Z i i 1 並列性 演算に関する特性入力データ演算の種類と回数数 2Nk^2 積算和算 Nk^2 回 Nk^2 1 回 DFG の深さ 2 log2 N k 1 DoG 生成 ( Y 1) Z i 2 減算 1 回 1 i 1 X Z i 極値検出 ( Y 3) Z 27 比較演算 26 回 1~26 i 1 X: オクターブ数 Y:: スケール数 Zi:iオクターブ目の入力画素数 Nk: スケールkにおけるガウシアンフィルタのウィンドウサイズ 13
概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ 14
命令流データ流 ( より性能低下要因が少ない ) 加速実行方式 命令フェッチ機構の簡略化 汎用性 MIMD (Multiple Instruction Stream, Multiple Data Stream) 異なる命令を並列に実行可能 SIMD (Single Instruction Stream, Multiple l Data Dt Stream) 同一命令を並列に実行 命令フェッチ機構の省略 レジスタファイルの省略 * 全ての PE が 100% 動作すると仮定 NIMD (No Instruction Stream, Multiple Data Stream) PEアレイ上での DFG 直接実行 電力効率 PE(Processing Element) ( より高性能 低消費エネルギー ) 15
命令流データ流 ( より性能低下要因が少ない ) 各処理に適した加速実行方式 極値検出 汎用性 MIMD (Multiple Instruction Stream, Multiple Data Stream) 異なる命令を並列に実行可能 SIMD (Single Instruction Stream, Multiple l Data Dt Stream) 同一命令を並列に実行 DoG 画像の生成 ガウシアンフィルタによる画像平滑化 * 全ての PE が 100% 動作すると仮定 NIMD (No Instruction Stream, Multiple Data Stream) PEアレイ上での DFG 直接実行 電力効率 PE(Processing Element) ( より高性能 低消費エネルギー ) 16
プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータ プロセッサ コアとメモリ コアは密に結合コアは密に結合 メモリコア Inst. Mem. Data Mem. Router ALU アレイ構成用ネットワーク メモリ間オンチップネットワーク 17
プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータ MIMD 実行 メモリコア Inst. Mem. Data Mem. Router ALU アレイ構成用ネットワーク メモリ間オンチップネットワーク プロセッサコアとメモリコアが結合してアが結合してPE を構成 複数スレッドを並列に実行 18
プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータ NIMD 実行 メモリコア Inst. Mem. Data Mem. + + Router ALU アレイ構成用ネットワーク + 停止メモリが隣接 単純なNIMD 方式よりALU 間の距離が長い メモリ間オンチップネットワーク 問題点 : ALU 間の配線長が長い 19 プロセッサコア間のデータ通信時間 / 消費エネルギー増加
3 次元積層 NIMD/MIMD 型アクセラレータ プロセッサコア Register File ALU ALU プロセッサ レイヤ密に演算器を集積 ALU アレイ構成用オンチップ ネットワーク メモリコア Inst. Mem. メモリレイヤ Dt Data Mem. Router コア間データ通信用オンチップ ネットワーク 20
MIMD 実行と NIMD 実行 MIMD 実行時 NIMD 実行時 プロセッサ コアとメモリ コアのペアコアのペア メモリコアから ALUアレイへデータ供給により1 個のPEを構成 プロセッサコアとデータの入出力を行う 各 PEは独立して動作メモリコアを変更 最大 PE 数のスレッド並列実行が可能 様々な形の ALU アレイを実現 21
MIMD 方式 vs. 提案手法 提案手法 (MIMD 実行時 ) 性能, 消費エネルギーは MIMD 方式と同一 提案手法 (NIMD 実行時 ) 性能向上要因 Load/Store 命令削減 低下要因 動作しないALU 再構成 消費エネルギー削減効果向上要因低下要因 命令フェッチ レジスタファイル Load/Store 命令実行 再構成 コア間通信 22
概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ 23
評価環境 実行プログラム : SD VBS より SIFT のガウシアンフィルタ処理,DoG 画像生成, 極値検出 評価モデル 性能 消費エネルギーモデルを用いて評価 MIMD:MIMD 方式のみで実行 NIMD/MIMD( 提案手法 ): NIMD 方式とMIMD 方式を切り替え可能 PE 数 100(10 10), 動作周波数 2GHz 消費電力シミュレータ :sim wattch[2] アルゴリズムから実行演算数, マッピング可能なDFG, イタレーション数, データキャッシュアクセス数を計算 メモリアクセスの時間 消費エネルギーは0 再構成 / コア間通信の時間 消費エネルギーは0 命令発行幅 :1 Fetch 32エントリ [2]Jianwei Chen,et al. SimWattch: Integrating Complete system and User level Performance and Power Simulators, IEEE Micro,Vol.27,no.4,pp.34 pp.48,2007. EXE R F 32KB I$ D$ 32KB 24
正規化化実行時時間 MIMD の実行時間を 1 として正規化 1.2 1 0.8 0.6 0.4 0.2 0 性能評価 極値検出 DoG 画像 MIMD 実行 ガウシアンフィルタ Load/Store 命令数削減による性能向上 > 動作しないALUによる性能低下 MIMD NIMD/MIMD MIMD 方式のみの実行に比べ約 7% の性能向上 NIMD 実行 25
消費エネルギー評価 正規化消費費エネルギギー 1.2 1 0.8 0.6 0.4 02 0.2 0 MIMD の消費エネルギーを 1 として正規化 MIMD 極値検出 DoG 画像 ガウシアンフィルタ処理 MIMD 実行 NIMD 実行 命令フェッチ機構の省略, レジスタファイルの省略による効果 NIMD/MIMD 提案手法はMIMDに比べ約 40% の消費エネルギー削減 26
まとめ 画像認識アプリケーションの特性解析 処理によっては高性能 / 低消費エネルギーとなる実行方式が異なる 実行方式切り替え可能なNIMD/MIMD 型 アクセラレータの提案 3 次元実装技術を用いてより密に演算器を集積 性能 / 消費エネルギー評価 MIMD 方式のみに比べ 7% の性能向上,40% の消費エネルギー削減 27