Microsoft PowerPoint - ICD2011UenoSlides.pptx

Similar documents
Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Microsoft PowerPoint - pr_12_template-bs.pptx

Microsoft Word - HOKUSAI_system_overview_ja.docx

計算機アーキテクチャ

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

本文ALL.indd

スライド 1

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

(速報) Xeon E 系モデル 新プロセッサ性能について

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

システムソリューションのご紹介

Microsoft PowerPoint - ICD2011TakadaSlides.pptx

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年5月版)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

fse7_time_sample

平成 28 年 6 月 3 日 報道機関各位 東京工業大学広報センター長 岡田 清 カラー画像と近赤外線画像を同時に撮影可能なイメージングシステムを開発 - 次世代画像センシングに向けオリンパスと共同開発 - 要点 可視光と近赤外光を同時に撮像可能な撮像素子の開発 撮像データをリアルタイムで処理する

< B8CDD8AB B83685D>

SICE東北支部研究集会資料(2013年)

PowerPoint プレゼンテーション

hpc141_shirahata.pdf

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

HPCマシンの変遷と 今後の情報基盤センターの役割

スライド 1

CLEFIA_ISEC発表

cmpsys13w03_cpu_hp.ppt

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

PowerPoint Presentation

コンテンツセントリックネットワーク技術を用いた ストリームデータ配信システムの設計と実装

Microsoft PowerPoint - 6-盛合--日文.ppt

VXPRO R1400® ご提案資料

リソース制約下における組込みソフトウェアの性能検証および最適化方法

<4D F736F F F696E74202D208C7997CA89BB8E9E8AD491AA92E B2E B8CDD8AB B83685D>

ComputerArchitecture.ppt

学生 23 省メモリ指向一枚超解像 アーキテクチャとその FPGA 実装 北海道大学大学院情報科学研究科 大平貴徳 真田祐樹 築田聡史 五十嵐正樹 池辺将之 浅井哲也 本村真人 1

スライド 1

(Microsoft PowerPoint - DSE2019_IOProfiler\203v\203\214\203[\203\223\216\221\227\277-Rev1.1)

PowerPoint プレゼンテーション

スライド 1

画像解析論(2) 講義内容

Microsoft PowerPoint - Lec ppt [互換モード]

PowerPoint プレゼンテーション

スライド 1

スライド 1

Microsoft Word LenovoSystemx.docx

FUJITSU Server PRIMERGY / FUJITSU Storage ETERNUS NR1000 F2240とSophos Anti-Virus for NetAppの連携におけるウイルス検知の動作検証

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用]

PowerPoint プレゼンテーション

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - 集積回路工学(5)_ pptm

車載マイコンの動向


Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

PowerPoint プレゼンテーション

画像認識性能を改善する高精度な特徴量抽出手法の検討 A Study on Feature-Extraction Methods for Improvement of Image-Recognition Performance 井上俊明 Toshiaki Inoue 要旨 各種のカメラ搭載機器の急速な

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

PowerPoint プレゼンテーション

スライド 1

GPUコンピューティング講習会パート1

研究報告用MS-Wordテンプレートファイル

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

この演習について Autoware 演習 1: データの記録 再生 Autoware 演習 2: センサーキャリブレーション Autoware 演習 3:3 次元地図の作成 Autoware 演習 4: 自己位置推定 Autoware 演習 5: パラメータ調整 Autoware 演習 6: 物体検

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

PowerPoint プレゼンテーション

修士論文

スライド 1

Microsoft PowerPoint - OS12.pptx

スライド 1

計算機アーキテクチャ特論 後半第2回 アウトオブオーダー実行 Out-of-Order Execution

スライド 1

円筒面で利用可能なARマーカ

( 作成方法 ) 1 メーカーの取扱説明書に記載されている 2 PC 購入店で作成してもらう (PC デポで6000 円 ) 3 リカバリー作成ソフトがインストールされている ⑵ PC 丸ごと ( システムイメージ ) のバックアップ バックアップ方法 注 4 USB 接続の外付け HDD を使用

科学技術振興調整費 中間成果報告書 若手任期付研究員支援 組込みアーキテクチャ協調型実時間 OS 研究期間 : 平成 13 年度 ~ 平成 15 年 6 月 北陸先端科学技術大学院大学田中清史

Microsoft PowerPoint - OpenMP入門.pptx

エンジニアリングトータルソリューション「ACROVA GMM」の2次元CADソフトウェアプロダクト3製品をバージョンアップ

ソフトウェア基礎技術研修

DX2000システム構成ガイド

openmp1_Yaguchi_version_170530

untitled

27_02.indd

case1_cp

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

2ALU 以下はデータ幅 4ビットの ALU の例 加算, 減算,AND,OR の4つの演算を実行する 実際のプロセッサの ALU は, もっと多種類の演算が可能 リスト 7-2 ALU の VHDL 記述 M use IEEE.STD_LOGIC_1164.ALL; 00 : 加算 use IEE

C に必要なコンピュータ知識 C はコンピュータの力を引き出せるように設計 コンピュータの知識が必要

スライド 1

Microsoft Word 後藤佑介.doc

並列・高速化を実現するための 高速化サービスの概要と事例紹介

図 5 一次微分 図 6 コントラスト変化に伴う微分プロファイルの変化 価し, 合否判定を行う. 3. エッジ検出の原理ここでは, 一般的なエッジ検出の処理内容と, それぞれの処理におけるパラメータについて述べる. 3.1 濃度投影検出線と直交する方向に各画素をスキャンし, その濃度平均値を検出線上

す 局所領域 ωk において 線形変換に用いる係数 (ak 画素の係数 (ak bk ) を算出し 入力画像の信号成分を bk ) は次式のコスト関数 E を最小化するように最適化 有さない画素に対して 式 (2) より画素値を算出する される これにより 低解像度な画像から補間によるアップサ E(

はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません 弱まるどころか 加速し続けています これは これまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると 不思議なことではありません Web アプリケーションの爆発的拡

にゃんぱすー

Transcription:

画像認識向け 3 次元積層 アクセラレータ アーキテクチャの検討 九州大学大学院システム情報科学府学院 * 九州大学大学院システム情報科学研究院 ** 上野伸也 * Gauthier Lovic Eric** 井上弘士 ** 村上和彰 ** 1

概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ 2

画像認識技術 機械が人間に代わって, 物事を理解, 認識, 判断 応用分野 産業, 医療, セキュリティ, 安全技術,etc. 画像認識を行う機器への要求 高性能 低消費エネルギー ソフトウェア処理 http://www.honda.co.jp/news/2004/4040824a.html 車載カメラによる夜間の歩行者認識技術 インテリジェント ナイトビジョンシステム (Honda) 3

実行時間 (s sec) 1.4 1.2 1 画像認識アプリケーションの リアルタイム実行に必要な性能 8.32 11.89 0.8 汎用プロセッサの数十倍 ~ 数百倍の性能が必要 vga 0.6 fullhd 04 0.4 0.2 0 1.48 Disparity Sift Feature Tracking 実行環境 Intel Xeon 5160 3GHz プロセッサ メモリ容量 消費電力 8GB 80W(TDP) * リアルタイム性を満たす :1 秒間 30 枚の画像に対して処理を行う リアルタイム性を満たす実行時間 4

アクセラレータによる 高性能 低消費エネルギー化 アクセラホスト CPU 主記憶レータ Cell/B.E, GPU,etc Cell/B.E 288GFLOPS 210W Tesla S1070 933GFLOPS 1123W インターコネクト *Xeon 5160 24GFLOPS 80W 出典 http://www.itmweb.com 出典 :http://www.elsa jp.co.jp/ products/hpc/tesla/s1070/index.html スレッド / データレベル並列性を利用して高性能 低消費エネルギー化 アクセラレータの性能向上阻害要因 メモリ容量の不足 大規模化に伴う配線長の増加 5

3 次元積層技術 異なるプロセスを経て製造されたダイ同士の積層 大容量のメモリを積層 メモリ容量不足の緩和 グローバル配線長の削減 チップ面積縮小 3 次元積層を利用することで, より高性能 低消費エネルギーなアクセラレータを実現可能 TSV(Through( Silicon Vias) 出典 : 米インテル社 6

概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ 7

対象プログラムの決定 SD VBS[1] Venkata らによる画像処理ベンチマークプログラムセット 画像認識に対応するプログラム SD VBS の各プログラムが含む処理 処理プログラム 画像変換 画像解析 SIFT Image Segmentation 画像認識 画像合成 SVM SIFT Image Segmentation Image Stitch 画像認識アプリケーションに良く用いられる SVM Texture 計算量が大きい Synthesis Disparity Map Feature Feature Tracking Tracking 画像理解 Disparity Map [1]S. K. Venkata,et al. SD VBS: The San Diego Vision Benchmark Suite, Proc.IISWC,pp.55 pp.64,oct. 2009 8

画像認識アプリケーション分析 ~SIFT~S 入力画像から SIFT 特徴の特徴点を検出するプログラム 物体認識 画像分類 特徴点追跡に用いられる SIFT の処理フロー ガウシアンフィルタによる画像平滑化 DoG 画像の生成 極値検出 主曲率によるキーポイントの削除 低コントラストに基づくキーポイントの削除 実行時時間 (sec) 各処理の実行時間 14 その他の処理 12 10 画像の読み込み 8 初期値の設定など 6 極値検出 4 2 0 DoG 画像の生成 画像平滑化 vga fullhd *Intel Xeon 5160 3GHz で実行 ガウシアンフィルタ ガウシアンフィルタ処理,DoG 画像生成, 極値検出に注目 9

ガウシアンフィルタによる画像平滑化 ガウシアンフィルタ処理 L(2σ0) 平滑化画像 入力画像 ダウンサンプリング 入力画像 L(k*kσ0) L(kσ0) L(σ0) L(2σ0) L(k*kσ0) L(kσ0) L(σ0) 平滑化画像平滑化画像入力画像 平滑化画像 平滑化画像平滑化画像平滑化画像 1オクターブ 2 1. スケールを変化 ( 0, k 0, k 0,..., 2 0 ) させながらそれぞれ画像平滑化 2. 入力画像を2 分の1にダウンサンプリング 3. 画像サイズが一定値以下になるまで1.2. の処理を繰り返し 各平滑化画像の生成は並列に行うことが可能 10

1 4 16 4 1 4 16 4 16 24 16 24 36 24 16 24 16 4 16 4 ガウシアンフィルタ処理 1 4 16 4 1 1. 注目画素をガウシアンフィルタの中心とする 2. 画素値 ガウシアンフィルタ係数 4 3. 2 の結果を合計 4. 結果を対応する場所に記入 5. 1~4を全画素に対して行う ガウシアンフィルタ 10 20 9 20 13 18 6 15 7 8 10 11 11 9 9 6 17 8 2 21 18 15 1 21 9 10 11 13 14 12 11 9 21 1 2 12 11 3 8 21 9 11 12 14 14 12 12 10 12 6 22 19 19 15 8 14 9 11 12 14 14 14 14 11 4 20 12 3 18 14 20 22 8 11 12 12 13 14 14 11 4 12 8 2 3 8 16 7 8 12 13 12 12 13 14 10 4 22 18 21 21 3 8 22 8 13 15 14 13 13 13 10 2 22 7 15 18 11 20 11 平滑化 8 12 14 14 13 13 12 10 7 15 9 17 1 14 13 14 5 8 9 9 9 9 9 7 入力画像 平滑化画像 11

DoG 画像の生成と極値検出 平滑化画像との差分を求める 並列に求めることが可能 スケール 平滑化画像 DoG 画像 極値検出対象画像 3 枚 1 組で比較を行う 注目画素と26 近傍画素で比較 注目画素が極値がどうか判定 極値の場合 当該画素をキーポイント候補に加える 全画素に対して行う 12

分析結果まとめ ( 並列度 入力データ数 演算の種類 DFG の深さ ) 画像平滑化 X 並列度 X Y Z i i 1 並列性 演算に関する特性入力データ演算の種類と回数数 2Nk^2 積算和算 Nk^2 回 Nk^2 1 回 DFG の深さ 2 log2 N k 1 DoG 生成 ( Y 1) Z i 2 減算 1 回 1 i 1 X Z i 極値検出 ( Y 3) Z 27 比較演算 26 回 1~26 i 1 X: オクターブ数 Y:: スケール数 Zi:iオクターブ目の入力画素数 Nk: スケールkにおけるガウシアンフィルタのウィンドウサイズ 13

概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ 14

命令流データ流 ( より性能低下要因が少ない ) 加速実行方式 命令フェッチ機構の簡略化 汎用性 MIMD (Multiple Instruction Stream, Multiple Data Stream) 異なる命令を並列に実行可能 SIMD (Single Instruction Stream, Multiple l Data Dt Stream) 同一命令を並列に実行 命令フェッチ機構の省略 レジスタファイルの省略 * 全ての PE が 100% 動作すると仮定 NIMD (No Instruction Stream, Multiple Data Stream) PEアレイ上での DFG 直接実行 電力効率 PE(Processing Element) ( より高性能 低消費エネルギー ) 15

命令流データ流 ( より性能低下要因が少ない ) 各処理に適した加速実行方式 極値検出 汎用性 MIMD (Multiple Instruction Stream, Multiple Data Stream) 異なる命令を並列に実行可能 SIMD (Single Instruction Stream, Multiple l Data Dt Stream) 同一命令を並列に実行 DoG 画像の生成 ガウシアンフィルタによる画像平滑化 * 全ての PE が 100% 動作すると仮定 NIMD (No Instruction Stream, Multiple Data Stream) PEアレイ上での DFG 直接実行 電力効率 PE(Processing Element) ( より高性能 低消費エネルギー ) 16

プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータ プロセッサ コアとメモリ コアは密に結合コアは密に結合 メモリコア Inst. Mem. Data Mem. Router ALU アレイ構成用ネットワーク メモリ間オンチップネットワーク 17

プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータ MIMD 実行 メモリコア Inst. Mem. Data Mem. Router ALU アレイ構成用ネットワーク メモリ間オンチップネットワーク プロセッサコアとメモリコアが結合してアが結合してPE を構成 複数スレッドを並列に実行 18

プロセッサコア Register File ALU ALU 実行方式切り替え可能な NIMD/MIMD 型アクセラレータ NIMD 実行 メモリコア Inst. Mem. Data Mem. + + Router ALU アレイ構成用ネットワーク + 停止メモリが隣接 単純なNIMD 方式よりALU 間の距離が長い メモリ間オンチップネットワーク 問題点 : ALU 間の配線長が長い 19 プロセッサコア間のデータ通信時間 / 消費エネルギー増加

3 次元積層 NIMD/MIMD 型アクセラレータ プロセッサコア Register File ALU ALU プロセッサ レイヤ密に演算器を集積 ALU アレイ構成用オンチップ ネットワーク メモリコア Inst. Mem. メモリレイヤ Dt Data Mem. Router コア間データ通信用オンチップ ネットワーク 20

MIMD 実行と NIMD 実行 MIMD 実行時 NIMD 実行時 プロセッサ コアとメモリ コアのペアコアのペア メモリコアから ALUアレイへデータ供給により1 個のPEを構成 プロセッサコアとデータの入出力を行う 各 PEは独立して動作メモリコアを変更 最大 PE 数のスレッド並列実行が可能 様々な形の ALU アレイを実現 21

MIMD 方式 vs. 提案手法 提案手法 (MIMD 実行時 ) 性能, 消費エネルギーは MIMD 方式と同一 提案手法 (NIMD 実行時 ) 性能向上要因 Load/Store 命令削減 低下要因 動作しないALU 再構成 消費エネルギー削減効果向上要因低下要因 命令フェッチ レジスタファイル Load/Store 命令実行 再構成 コア間通信 22

概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ 23

評価環境 実行プログラム : SD VBS より SIFT のガウシアンフィルタ処理,DoG 画像生成, 極値検出 評価モデル 性能 消費エネルギーモデルを用いて評価 MIMD:MIMD 方式のみで実行 NIMD/MIMD( 提案手法 ): NIMD 方式とMIMD 方式を切り替え可能 PE 数 100(10 10), 動作周波数 2GHz 消費電力シミュレータ :sim wattch[2] アルゴリズムから実行演算数, マッピング可能なDFG, イタレーション数, データキャッシュアクセス数を計算 メモリアクセスの時間 消費エネルギーは0 再構成 / コア間通信の時間 消費エネルギーは0 命令発行幅 :1 Fetch 32エントリ [2]Jianwei Chen,et al. SimWattch: Integrating Complete system and User level Performance and Power Simulators, IEEE Micro,Vol.27,no.4,pp.34 pp.48,2007. EXE R F 32KB I$ D$ 32KB 24

正規化化実行時時間 MIMD の実行時間を 1 として正規化 1.2 1 0.8 0.6 0.4 0.2 0 性能評価 極値検出 DoG 画像 MIMD 実行 ガウシアンフィルタ Load/Store 命令数削減による性能向上 > 動作しないALUによる性能低下 MIMD NIMD/MIMD MIMD 方式のみの実行に比べ約 7% の性能向上 NIMD 実行 25

消費エネルギー評価 正規化消費費エネルギギー 1.2 1 0.8 0.6 0.4 02 0.2 0 MIMD の消費エネルギーを 1 として正規化 MIMD 極値検出 DoG 画像 ガウシアンフィルタ処理 MIMD 実行 NIMD 実行 命令フェッチ機構の省略, レジスタファイルの省略による効果 NIMD/MIMD 提案手法はMIMDに比べ約 40% の消費エネルギー削減 26

まとめ 画像認識アプリケーションの特性解析 処理によっては高性能 / 低消費エネルギーとなる実行方式が異なる 実行方式切り替え可能なNIMD/MIMD 型 アクセラレータの提案 3 次元実装技術を用いてより密に演算器を集積 性能 / 消費エネルギー評価 MIMD 方式のみに比べ 7% の性能向上,40% の消費エネルギー削減 27