田向研究室PPTテンプレート - PDF 無料ダウンロード

ホームロボットにおけるディープラーニングによる物体認識田向権 (Hakaru Tamukoh) 九州工業大学大学院生命体工学研究科 tamukoh@brain.kyutech.ac.jp ひびきの AI 社会実装研究会実践的人工知能入門ディープラーニングの社会実装を目指して @ ひびきの学研都市 2016 年 9 月 28 日

目次 1. 自己紹介 2. ロボカップ @ ホームロボットロボカップ @ ホームとはホームロボットの要素技術 3. ホームロボット向け物体認識把持システムの構築 4. 実践!DCNNによる画像認識器の構築法 GoogLeNetと転移学習 2016 年 9 月時点でのお勧めGPU 5. 研究紹介 : エッジ指向型脳型計算機システムの実現に向けて ROS-FPGA 連携システム DNNの基本回路 ( 時間があれば ) 組込指向 DNNの世界的動向 1

自己紹介学生時代より 15 年間一貫してニューラルネットワークのディジタル回路実装に関する研究に従事, 応用も重視. 2006 年 3 月九工大脳情報専攻博士課程修了博士論文粗い勝者決定を用いた自己組織化マップおよび自己組織化関係ネットワークのハードウェア化 ( 指導教員 : 山川烈先生 ) 学会, 他研究機関における活動電子情報通信学会スマートインフォメディアシステム研究専門委員会幹事補佐, 専門委員日本神経回路学会理事東京大学生産技術研究所協力研究員一般社団法人ファジィシステム研究所主任研究員一般社団法人行動評価システム研究所主任研究員 2

研究テーママップ FPGAとコンピュータシステムの融合 hw/sw 複合体 3 次元 FPGAスパコンシステム寄りホームロボット RoboCup@Homeロボット ROS-FPGA 連動システム ROS: Robot Operating System FPGA: Field Programmable Gate Array 基礎ニューラルネットワークの基本回路画像処理回路応用 SOM,RBM,AE 回路パルス結合位相振動子回路色覚バリアフリー回路 MRCoHOG 回路 SOM:Self-Organizing Maps RBM:Restricted Boltzmann Machines AE :AutoEncoders LSI 寄り MRCoHOG:Multi-Resolution Co-occurence Histgrams of Oriented Gradients 3

ロボカップ @ ホームロボット 4

RoboCup@Home とは RoboCup のリーグのひとつ他にはサッカー, レスキューがある日常生活に役立つ機能を制限時間内に達成日用品の探索, 言われたものを取ってくる, 人を追従するなど画像や音声を用いて人間とコミュニケーションを取る生活支援ロボットのコンペティションとしては世界最大タスクはロボットのベンチマークテストとして明文化ひとつのタスクに複数の技術課題を含むように設計杉浦孔明, ロボカップ @ ホーム人と共存するロボットのベンチマークテスト, 人工知能, Vol.31, No.2, 2016 年 3 月 ( 人工知能学会学会誌解説論文 ). 5

RoboCup@Home の立ち位置技術教育向けコンテスト ( 例 : 高専 /NHK 大学ロボコン ) ホームロボットの実用化を強く意識したコンテスト RoboCup@Home Japan Open 2016 (23 チーム,163 名参加 ) 6

ロボカップ紹介ビデオ 2010 年世界大会 er@sers( 玉川大, 電通大,NICT 連合チーム ) 優勝 https://youtu.be/2hldlwjk0tm YouTube 上のオリジナルビデオには字幕はありません 7

ロボカップ関連の社会への波及力 1 Quince( 東北大田所研究室 ) http://www.rm.is.tohoku.ac.jp/ ロボカップレスキューから福島第一原発原子炉建屋投入へ Kiva systems http://raffaello.name/ ロボカップ小型リーグで培った技術を元に創業, 後にAmazonに7.75 憶ドルで買収 Amazon 配送センターのロボットとして活用, 年間 4.5~9 億ドルのコスト削減効果 Quince Kiva systems 8

ロボカップ関連の社会への波及力 2 NAO(Aldebaran) ロボカップサッカー標準プラットフォームに選定されたことを契機に研究コミュニティに普及, 後にソフトバンクからの1 億ドルの出資につながり,Pepperを構築するに至る HSR( トヨタ ) https://www.aldebaran.com/ http://www.toyota.co.jp/jpn/tech/partner_robot/ 2016 年 3 月のRoboCup Japan Openよりトヨタのホームロボット HSRが @ ホームリーグへ本格参入, 電通大, 玉川大で採用 NAO TOYOTA HSR 9

参加チーム数推移日本大会の参加者は急激に増加中, 台湾やタイ, ベトナムからの参加も毎年あり 10

Hibikino-Musashi@Home チームの紹介 RoboCup Japan Open 2015 @ ホーム実機リーグ 3 位入賞 RoboCup Japan Open 2016 @ ホーム実機リーグ準優勝九州工業大学の様々な研究室の研究成果を集積ロボティクス, 人工知能, 脳型チップの社会実装を目指した研究プラットフォーム 11

Exi@: 人間の生活空間で活躍する知能ロボットショットガンマイク : 声を聞き取る耳 RGB-D カメラ 2: 前を見つめる目ロボットアーム : 茶物を掴む腕を取って分きてか!りましたLaser Range Finder (LRF): 周囲を見渡す目 SLAMによる地図生成おFPGA と PC 2: 全体を制御する脳 ROS でコントロール全方向移動台車 : 全方向に動く足ロボカップに参加中! 2016 年は準優勝! Hibikino-Musashi@Home で Facebook ページを検索! 12

Exi@ の主要機能音声インタラクション音声認識音声合成画像処理物体検出人物検出認識物体認識 (Deep Learning) 人物追跡ロボットアームビジュアルフィードバック AR マーカ認識把持経路設計自律ナビゲーションサービスロボット Exi@ SLAM 移動経路設計家具認識 13

RoboCup@Home タスク一覧 (2015 年ルール ) Stage タスク名内容 1 2 Manipulation and Object Recognition Navigation Person Recognition Speech Recognition & Audio Detection RoboZoo General Purpose Service Robot Open Challenge Restaurant Robo-Nurse Wake Me Up 棚に置いてある物体について Pick & Place タスクを複数回行うフィールドの中を移動したのちフィールド外で人を追従する複数の人物が居る状況において, 顔画像の学習と性別推定を行う音声認識および音源方向推定を計 10 回行う並んだ展示ブースでロボットに自由にパフォーマンスを行わせ, 観客に投票させるランダム生成された音声命令を解釈し, 曖昧な指示を明確化する ( 例 : 飲み物を持ってきて何の飲み物ですか?) と共に実行する自由に選んだテーマに関する研究要素のデモンストレーションレストランにおいて, 事前に場所を学習したのち, ロボットを呼んだ人を発見して注文を取り, 注文されたオブジェクトを届けるユーザの音声命令に従い指示された薬瓶を探して持ってくると共に, ユーザの動作 ( 倒れる等 ) を認識して必要な支援を行うユーザに注文された朝食を運ぶと共にスマートホームの制御を行う決勝 Final 自由に選んだテーマに沿ったデモンストレーション 14

タスク Restaurant の場合 1 人間に教わりながら, 事前に店の環境地図を作成する 2 指定の場所で注文を取る 3 呼ばれている事に気づき注文を取りに行く ( オプション ) Come on 客 4 バーテンに注文を伝え, 用意してもらう. キッチンバー 5 それをアームで把持し 6 注文した人のところまで持っていくロボットバーテンチェックポイント毎に点数が設定, 制限時間内に出来た項目の合計点で勝負 15

タスク Restaurant のデモンストレーション各種ログステートマシン物体認識環境地図深度画像 https://youtu.be/bsrrk1pnpbc RGB 画像 16

タスク Restaurant に必要な要素技術一覧 1 ウエイター ( 人間 ) に教わりながら事前に環境地図を作成してテーブルの場所を覚える SLAM(Simultaneous Localization And Mapping) 自然な音声対話ランドマーク登録 2 指定の場所で注文を取る SLAM+ 経路生成 + 移動台車制御自然な音声対話と意味理解 3 呼ばれていることに気づき注文を取りに行く画像認識 ( 手振りなど ) 音声認識 + 音源定位 17

タスク Restaurant に必要な要素技術一覧 4 バーテンに注文を伝え用意してもらう自然な音声対話 5 用意された物体の中から注文されたものを把持する画像 (RGB-D) からの物体切出しと物体認識アーム制御 6 注文した人のところまで持っていく SLAM+ 経路生成 + 移動台車制御大会本番では多数の観客の声や顔シルエット, 会場の照明外光などが, 音声画像認識のノイズとなる頑健な知的処理システムの構築が求められる 18

Robot Operating System (ROS) ロボット向けミドルウェア米国のロボットベンチャー企業 Willow Garage 社が開発 ( 現在は,Open Source Robotics Foundationが開発 ) ロボットシステム構築のデファクトスタンダード ROS Wiki アクセス数 : 110 万アクセス / 年 (2015) [1] ROS に関する論文数 : 1843 本 (Google Scholar 2015/09/11 現在 ) [1] オープンソースパッケージ数 : 3000 パッケージ以上 [2] [1] Community Metrics Report 2015, http://download.ros.org/downloads/metrics/metrics-report-2015-07.pdf [2] Community Metrics Report 2011, http://download.ros.org/downloads/metrics/metrics-report-2011-08.pdf 19

ROS によるロボットシステムの構築カメラ測域センサ物体検出認識 (Deep Learning) 2. ROS インタフェース (ROS Topic による通信 ) 1. オープンソース ROS ノード (Python, C++) 3. ROS ツールロボットアームステートマシン ( 動作管理 ) 台車 ROS ノードの組換でロボットシステムの変更拡張が簡単かつ迅速に行える 20

ソフトコンピューティング AI はどこに? Deep Convolutional Neural Networks(DCNN) と転移学習を用いた物体認識 Particle Filter と深度画像を用いた人物追跡 Gabor Filter とエラスティックグラフマッチングによる人物認識 M. Tanaka, et al., Human Detection and Face Recognition Using 3D Structure of Head and Face Surfaces Detected by RGB-D Sensor, Journal of Robotics and Mechatronics, 2015. 自然な音声対話 ( 参考 : 記号創発ロボティクス ) 音声認識には Julius を利用, 音声認識後の意味理解に機械学習 ( 現状, 我々チームは言葉揺れの統合のみ : 取ってきて, 持ってきて, 取って ) AR マーカ認識によるグリッパ位置のビジュアルフィードバックを用いた高精度なアーム制御但し, 全体のシーケンスはステートマシンで人間が記述 21

記号創発ロボティクス人間と機械のコミュニケーションを伴った協調動作のために, 機械が言葉などの記号の真の意味を獲得することを目指す CREST 記号創発ロボティクスによる人間機械コラボレーション基盤創設代表 : 電通大長井隆行先生国内最強チームのひとつ Kara@ge++ の指導者 http://sercrest.com/ 22

画像認識用 DCNN GoogLeNet [1] (ILSVRC 2014 優勝 )& 転移学習当初はLeNet(3 層 ) を用いるも環境の変化に脆弱で実用に耐えない GoogLeNet であれば照明の変化等にも極めて頑健学習済みのネットワークパラメタを転移学習し, 最終層のみを @ ホームロボット用にファインチューニング GoogLeNet の構成 (22 層 ),Caffe [2] model zoo よりダウンロード可能 [1] C. Szegedy et al., Going deeper with convolutions, arxiv:1409.4842, 2014. [2] Caffe http://caffe.berkeleyvision.org/ 23

ホームロボット向け物体認識把持システムの構築石田裕太郎, 田中悠一朗, 森江隆, 田向権, " ホームロボット向け物体認識把持システムの構築," 第 34 回日本ロボット学会学術講演会, 3G1-03, 2015 年. 24

物体認識システムの流れ深度画像フィルタ処理物体切り出し Green Tea と認識 25

把持システムとの組み合わせマイク ( 耳 ) iarm ( 腕 ) カメラ ( 目 ) 台車 ( 脚 ) サービスロボット Exi@ 一般的な家に存在する机の上に置かれた物体を認識把持 26

提案手法 : 物体検出 (1) RGB-D カメラによって生成された 3 次元点群を用いる PCL(Point Cloud Library) で処理元点群パススルーフィルタ処理後 1 パススルーフィルタで大まかに範囲を絞り込む把持可能なところのみ注目, 計算量削減 27

提案手法 : 物体検出 (2) 平面検出平面除去物体の 3 次元点群 2RANSAC 法を用いて平面検出除去 3 物体の 3 次元点群をもとに物体画像を切り出す 28

提案手法 : 物体認識 (1) Shallow CNN( 畳みこみ層とプリング層が 3 層, 全結合層が 3 層 ) CNN: Convolutional Neural Networks 構造が浅く, 入力から出力まで時間を要さない 29

提案手法 : 物体認識 (2) HOG + SVM + Shallow CNN HOG: Histograms of Oriented Gradients SVM: Support Vector Machine 形状ごとに学習 HOG SVM 形状により分類 Ex. 円筒形箱形 1 つの CNN で扱うクラス数を減らす認識率の向上を狙う : 30

提案手法 : 物体認識 (3) GoogLeNet[3](22 層の CNN) ImageNet Large Scale Visual Recognition Challenge (ILSVRC)[4] のデータセットにより学習済み最終層のみを再学習 ( 転移学習 ) [3] Model Zoo, http://dl.caffe.berkeleyvision.org/bvlc_googlenet.caffemodel [4] ImageNet Large Scale Visual Recognition Challenge 2012, http://image-net.org/challenges/lsvrc/2012/ 31

提案手法 : 物体把持アームにマーカーを追加マーカーを検出し目標座標に対して誤差を最小化するフィードバック制御を行う背景物体に影響されない, エンドエフェクタの識別が可能 32

実験環境 : データセット 100 枚 27 パターン RoboCup@Home ジャパンオープン 2016 の会場で 15 種の物体を撮影 ( 回転テーブルにより様々な角度から 100 枚ずつ ) RGB それぞれのチャンネルを 0.9 倍,1.0 倍,1.1 倍とした 27 パターンのノイズを付加したデータセット 1 物体につき 2700 枚 33

実験環境 : 学習と評価データセット 2700 枚中 2000 枚を学習 (Core i5-3470 DDR3 8GB GTX970) データセット撮影場所と異なる場所で物体 1~12 を評価 - 光源などの環境が異なる - Core i5-5200u DDR3 12GB フレームワークとして ROS(Robot Operating System) と Caffe を使用 34

実験結果 : 物体認識 30 度ずつ 12 方向から検証方式物体番号正解率処理速度 1 2 3 4 5 6 7 8 9 10 11 12 [%] [s] Shallow CNN 正解数誤認数 8 10 1 10 0 0 10 12 3 12 11 8 4 2 11 2 12 12 2 0 9 0 1 4 59 0.2 HOG + SVM + Shallow CNN 正解数誤認数 11 2 4 10 11 10 11 10 6 9 4 1 1 10 8 2 1 2 1 2 6 3 8 11 62 0.3 GoogLeNet 正解数誤認数 12 12 12 11 12 12 12 12 12 12 12 12 0 0 0 1 0 0 0 0 0 0 0 0 99 4.6 GoogLeNet は 99% と頑健. しかし, 処理時間が長い. 35

関連研究 : ロボットアームのビジュアルフィードバック制御 [1] iarm 車椅子に取り付けユーザが操作することが前提位置決め精度が悪い手法色空間ベースの画像処理によりエンドエフェクタ座標を算出 RGB-D カメラ iarm パンチルトユニット結果フィードバックなしの把持成功率 : 48% フィードバックありの把持成功率 : 72% 問題点物体や背景の色によっては把持できない SURF 特徴量のマッチングでは物体認識に問題あり [1] Ludovic Hofer, et. al., SCIS&ISIS, 2016. 36

実験結果 : 物体把持各方式で同じ場所同じ物体を 30 回ずつ把持するビジュアルフィードバック制御なし先行研究提案手法成功率 [%] 48 72 93 21ポイント 45ポイントマーカーベースにすることで物体や背景の影響を受けない 7ポイントは目標物体座標が誤って算出されたことにより失敗した 37

実践! DCNN による画像認識器の構築法 38

Convolutional Neural Networks (CNN) の構造畳み込み + プーリング + 全結合層で構成畳み込みフィルター処理プーリング低解像度化全結合層 MLP 下図は Lecun が提案した LeNet LeCun, Proc. IEEE, 1990. 39

フィルタ処理とは画像における特定の特徴をとりだす横エッジを抽出するフィルタ横エッジ抽出縦エッジを抽出するフィルタ縦エッジ抽出 CNN では学習データから識別に有効なフィルタを学習 40

プーリングとは画像を低解像度化し計算量を削減 2 種類のプーリング max pooling average pooling 12 20 30 0 20 30 112 37 Max-pooling 8 12 2 0 34 70 39 4 112 100 25 12 13 8 79 20 Average-pooling 41

CNN の学習誤差逆伝播法により物体の識別に有効なフィルタを獲得する図引用元 :https://devblogs.nvidia.com/parallelforall/accelerate-machine-learning-cudnndeep-neural-network-library/ H. Lee, R. Grosse, R. Ranganath, and A. Y. Ng., Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. ICML 2009. 42

転移学習 (Transfer Learning) あるタスクに特化した学習済みパラメータを読み込み少しだけ改変することで他のタスクに特化させる一から学習するより効率的かつ高速な学習が可能転移学習の例フィルタは使い回す ( 学習しない ) ここだけ学習 43

GoogLeNet 2014 年の画像認識コンテストILSVRCで優勝 22 層から成るCNN 学習時間は膨大 prototxt が 2000 行を超えるほど学習済みモデルの全結合層のみ更新 2000クラス分類に対応できるほどのフィルタを持ち合わせている 20クラス程度のペットボトル画像の分類は造作も無い Szegedy et. al., CVPR, 2015 44

Caffe とは Deep Convolutional Neural Network (DCNN) 用のフレームワーク学習理論の理解やスクラッチからのプログラム実装が非常に困難な DCNN を手軽に取り扱える OpenCV 感覚で DCNN を活用したアプリケーションを開発可能 Caffe Model Zoo に多数の実装済み & 学習済みネットワークが存在, 自由にダウンロードして活用可能グーグルのデータセンターでしか学習できないような巨大なネットワークも手軽に活用可能 WEB 上に多数の情報あり Linux と Python が使える学生なら直ぐに実践可能 Linux が苦手もっと簡単に使える MATLAB という選択肢もあります 45

Caffe の学習に必要なファイルデータセット画像画像のファイル名とラベル番号を定義するテキスト prototxt 2 種類 network_train.prototxt ネットワークの構造を定義するファイル solver.prototxt 学習の設定を定義するファイル 46

構造の定義 network_train.prototxtを編集レイヤーの種類はCaffeのTutorialページを参照 http://caffe.berkeleyvision.org/tutorial/layers.html layer{ } で各層を表現 bottom が入力で top が出力 top: output bottom: input 47

prototxt の例 : 入力層 ( 学習用 ) layer { name: "data # レイヤ名 type: "Data" # レイヤタイプ top: "data" # 出力 : 学習データ top: "label" # 出力 : 教師ラベル include{ phase: TRAIN } # 学習用と指定 transform_param { scale: 0.0039215684 # データの規格化 (1 255) } data_param{ source: "train_lmdb" # データベースのパス batch_size: 100 # バッチサイズ backend: LMDB # データベースのタイプ } } 48

prototxt の例 : 入力層 ( テスト用 ) layer{ name: "data # レイヤ名 type: "Data" # レイヤタイプ top: "data" # 出力 : 学習データ top: "label" # 出力 : 教師ラベル include{ phase: TEST } # テスト用と指定 transform_param { scale: 0.0039215684 # データの規格化 (1 255) } data_param{ source: "test_lmdb" # データベースのパス batch_size: 100 # バッチサイズ backend: LMDB # データベースのタイプ } } 49

prototxt の例 : 全結合層 layer{ name: "fullconnect1 type: "InnerProduct bottom: "flatdata top: "fc1 # レイヤ名 # レイヤタイプ # 入力 : 平滑化データ # 出力 # 重みの学習係数と decay 係数 param{ lr_mult: 1 decay_mult: 1 } # バイアスの学習係数と decay 係数 param{ lr_mult: 1 decay_mult: 1 } } inner_product_param{ num_output: 10 } # ユニット数 50

prototxt の例 : 活性化関数と誤差関数 layer{ name: "loss" type: "SoftmaxWithLoss" bottom: "fc1" bottom: "label" top: "loss" } # レイヤ名 # レイヤタイプ # 入力 : 全結合層 # 入力 : 教師ラベル # 出力 : 誤差関数 SoftmaxWithLossレイヤーは活性化関数 :Softmax 誤差関数 : クロスエントロピーが複合されたレイヤーになる 51

GoogLeNet の入手方法 caffe/models/bvlc_googlenet にある deploy.prototxt train_val.prototxt solver.prototxt : PyCaffe に読み込ませる : 学習に使う : 学習の詳細設定 caffemodel はサイズが大きいので個別に DL http://dl.caffe.berkeleyvision.org/bvlc_googlenet.caffemodel 52

実験サンプル RoboCup JAPAN OPEN 2016 AICHI @Homeリーグで使用全 15 種類の物体, 各種類 2,700 枚の画像データセットリンゴ等のように形や色が一定でない物も含まれる RoboCup JAPAN OPEN 2016 AICHI (http://www.ait.ac.jp/robocup2016/) 53

学習サンプルの取得法回転テーブルを用いて様々な角度の物体を 100 枚撮影物体切出しには深度画像と Point Cloud Library(PCL) を利用 1 枚の画像にノイズを付加した 27 枚の画像を生成 1 クラスあたり 2700 枚の学習サンプル元画像画像処理回転テーブル学習サンプル 54

データベース生成 GoogLeNetは224x224の入力画像を想定しているデータベースを作る際にはリサイズを忘れないこと createdb.sh 参照 $CAFFEROOT/build/tools/convert_imageset.bin BOTTLE/ BOTTLE/train.txt train_$dbtype 1 backend $DBTYPE resize_height 224 resize_width 224 55

Caffe の転移学習学習させたくない層の学習係数を 0 にしておく lr_mult: 0 最後の全結合層 ( 学習させたい層 ) の学習係数はそのまま最後の全結合層のユニット数を変える num_output: 15 学習済みパラメータを読み込んで学習を開始全結合層のみが更新されていく train.sh 参照 $ ~/caffe/build/tools/caffe.bin --solver=solver.prototxt --weights=bvlc_googlenet.caffemodel 56

各クラスの正解率 (2000 枚 : 学習用,700 枚 : テスト用 ) ラベル名正解率ラベル名正解率 Green tea 1.00 Potage soup 1.00 Café au lait 1.00 Egg soup 1.00 Iced tea 1.00 Orange 1.00 Orange juice 1.00 Apple 0.963 Strawberry juice 1.00 Bawl 1.00 Potato chips 1.00 Tray 1.00 Cookie 1.00 Cup 1.00 Potato stick 1.00 TOTAL 0.998 57

2016 年 9 月現在のお勧め GPU 値段と性能のバランス良 :GTX 1070: 参考価格 64,800 円もう少し予算が取れれば,GTX 1080: 参考価格 108,000 円私の研究室で最近複数台導入した GPU マシン構成例 58

GoogLeNet 最終層のファインチューニングに必要な時間エラー率 0 に落ちた時間 (RoboCup@Home の物体画像 ) GTX970: 約 18 分 1 世代前の GPU で 1070 と同価格帯 GTX1070: 約 10 分 1 0.8 Error rate 0.6 0.4 0.2 0 0:00:00 0:07:12 0:14:24 0:21:36 0:28:48 0:36:00 0:43:12 Time [hh:mm:ss] GTX970 GTX1070 59

研究紹介エッジ指向型脳型計算機システムの実現に向けて 60

エッジ指向型脳型計算機システムに向けて深層学習を中心とする人工知能を全てのモノへと実装するために, エッジ指向型脳型計算機システムの構築と応用を目指す. 特に, ハードウェア化に適した脳型人工知能アルゴリズムと書き換え可能半導体 FPGAと組み合わせて用いる仮想回路の研究開発に注力する. 61

DCNN による物体認識精度と処理時間 ( 再掲 ) 順伝搬時 ( 実行モード ) 方式物体番号正解率処理速度 1 2 3 4 5 6 7 8 9 10 11 12 [%] [s] Shallow CNN 正解数誤認数 8 10 1 10 0 0 10 12 3 12 11 8 4 2 11 2 12 12 2 0 9 0 1 4 59 0.2 HOG + SVM + Shallow CNN 正解数誤認数 11 2 4 10 11 10 11 10 6 9 4 1 1 10 8 2 1 2 1 2 6 3 8 11 62 0.3 GoogLeNet 正解数誤認数 12 12 12 11 12 12 12 12 12 12 12 12 0 0 0 1 0 0 0 0 0 0 0 0 99 4.6 GoogLeNet は 99% と頑健. しかし, 処理時間が長い. 62

コンピュータシステムと LSI に求めること常時 10 以上の ROS トピックが並列動作ノート PC 搭載の 4 コア CPU のパワーは常に不足ステートマシンで起動するトピックを切り替えつつやりくり車載ネットワークのように多数の CPU を ROS でネットワーク化 DCNN や各種画像処理には高速化が必須 Point Cloud Library による深度画像からの物体切出し,DCNN による物体認識, パーティクルフィルタによる人物追跡など画像処理を多用 GPU は必須, 但し消費電力に目をつぶっても組込みには熱が凄い小型化, 高速化, 省電力化が必須, 同時に柔軟性も必要各種知的処理の LSI 化 ( 但しアルゴリズムは日進月歩 ) と ROS 対応実行モードだけでも DNN の専用チップが欲しい 63

ROS-FPGA 連携システム : コンセプト ROS(PC) 音声インタラクション hw/sw 複合体音声認識音声合成 FPGA A I パッ物体検出画像処理認識 (Deep Learning) 人物検出追跡負荷をオフロードディジタル回路 ( 人物検出追跡 ) ケージロボットアームビジュアルフィードバック AR マーカ認識把持経路計画センサデータ群自律ナビゲーションプロセッサ (CPU) サービスロボット Exi@ SLAM ROS Topic ( 人物追跡をして ) 移動経路計画家具認識演算結果 ( 人は右 30 度,2m 先 ) センサ ( カメラなど ) hw/sw 複合体パッケージ ROS- プロセッサ -FPGA ソフトウェア高負荷な知的処理を FPGA へオフロード,ROS で簡便にアクセス田向, 石田, 森江, 特願 2016-37660 64

ROS-FPGA 連携システム : ブロック図ノート PC Ubuntu 12.04 ROS メッセージ ROS パッケージ ROS-FPGA 通信路をパッケージ化 TCP/IP ソケット通信 ZedBoard(Zynq) PS(ARM) Xilinux OpenCV センサ (WEB カメラ ) Xillybus Xillybus Lite XillyVGA (AXI バス ) 表示装置 PL(FPGA) Xillybus IP Core ユーザ回路センサアクチュエータアクチュエータ ROS パッケージ ROS パッケージセンサアクチュエータ ROS(Robot Operating System) PS(Processing System) PL(Programmable Logic) FPGA 内部に構成された知的処理回路はROSノードにぶら下がるひとつのパッケージとして簡便に取り扱える田向, 石田, 森江, 特願 2016-37660 65

Exi@ への実装例人物追跡用画像処理回路を実装石田裕太郎, 他, FPGA による ROS 向け高速分散処理システムの実装, 第 60 回システム制御情報学会研究発表講演会 (SCI 16), 2016 年 5 月. 66

Deep Neural Networks の基本回路基本回路 + ハードウェアオブジェクトによる拡張回路パラメタで規模変更, 基本回路 ( オブジェクト ) を組合せて階層化 hw/sw 複合体を用いた利用構想回路化したアルゴリズムを自由に組み合わせる hwobject:deep Learning オブジェクトの 1 つとして使用する swobject 学習対象の取り込み深層学習 LR:Logistic Regression SdA:Stacked Denoising AutoEncoders swobject 学習結果を利用した動作を行う 67

現在取り組んでいる DNN の基本回路 Restricted Boltzmann Machines AutoEncoders Chaotic Boltzmann Machines Deep Self-Organizing Maps Networks and Advance Propagation 上記以外に, スパイクパルスタイミング演算に着目した Pulse-coupled phase oscillator networks 68

Autoencoders ベースの DNN の場合変換式シグモイド関数更新式乱数生成器 AutoEncoder Denoising AutoEncoder Stacked (Denoising) AutoEncoder 深層学習を構判別器 :Encode のみ適用事前学習器 : Stackしたもの成(Logistic Regression と等価 ) 69

Shared Synapse Architecture による AE の回路化 FPGA の資源は有限ディジタル回路設計として SharedSynapse 構造複数データの再構成重み行列の転置資源の節約更新値算出時間の短縮更新値書き込み時間の短縮 2015 Tamukoh Lab. Kyutech, Japan A. Suzuki, T. Morie and H. Tamukoh, ICONIP2016 (accepted). 70

Restricted Boltzmann Machines(RBM) Unit G.E.Hinton, et al., Neural Computation, 2006 Deep Neural Networks を構成するニューラルネットワークの一つ. 可視層と隠れ層を持ち, 同じ層内のユニット同士は結合しない生成モデルの一つで, データが生成される確率分布を学習する確率的な動作を行う Weight Visible Layer Hidden Layer 71

RBM の学習隠れ層と可視層ユニットの発火確率 PP h jj = 1 vv = σσ PP vv ii = 1 hh = σσ bb jj + ww iiii vv ii ii aa ii + ww iiii h jj jj Asja Fischer, Christian Igel, Lecture Notes in Computer Science, 2012. Layer h jj : 隠れ層ニューロンの状態, ww: 重み, ηη: 学習係数, bb: 可視層バイアス, cc: 1 σσ xx = 1 + ee xx TT 重みとバイアスの更新式隠れ層バイアス WW WW + ηη PP h (0) = 1 vv (0) vv (0) PP h (kk) = 1 vv (kk) vv (kk) bb bb + ηη(vv (0) vv (kk) ) cc cc + ηη PP h (0) = 1 vv (0) PP h (kk) = 1 vv (kk) T : 温度, PP(h jj = 1 vv): 隠れ層のニュローン発火確率, PP(vv ii = 1 hh): 可視層のニューロン発火確率, bb jj : 隠れ層ニューロンのバイアス, aa ii : 可視層のニューロンのバイアス, ww iiii : 重み, vv ii : 可視層ニューロンの状態, 可視層, 隠れ層ユニットを交互に計算し更新. Visible Hidden Layer 72

乱数生成器を用いない RBM 発火確率算出時の切り捨てビットを乱数の代わりとして利用整数部小数部 PP h jj = 1 vv = σσ bb jj + ww iiii vv ii 可視層ユニット 1024 個の場合 ii 8 bit 8 bit 結合荷重 X 8 bit 8 bit 発火確率 = 16 bit 16 bit 26 bit 16 bit 18bit 8bit 乱数として利用できないか? 回路化の際に生じる演算誤差を積極的に活用する S. Hori, T. Morie and H. Tamukoh, ICANN2016. 73

学習結果切り捨てビットを乱数として利用 1: すべてソフトウェアの乱数 2: 学習初期のみソフトウェアの乱数 3: 学習初期のみ非切り捨てビットの 8bit を使用 4: 学習初期のみ非切り捨てビットの 4bit を使用 S. Hori, T. Morie and H. Tamukoh, ICANN2016. 74

カオスボルツマンマシン [1] [1] H. Suzuki, J. Imura, Y. Horio and K. Aihara, Chaotic Bultzmann Machines, Scientific Reports, 2013. ss ii, xx ii 1 Xi Si 0 ボルツマンマシンの確率的挙動をカオスダイナミクスで決定的に実現乱数生成不要内部状態 xx ii [0, 1] の変化量 tt ddxx ii = 1 2ss dddd ii 1 + exp 1 2ss ii zz ii TT ニューロンの発火状態振動子回路と挙動が類似 ss ii 0 when xx ii = 0 ss ii 1 when xx ii = 1 ss ii : ニューロン ii の状態, zz ii : ニューロン ii への入力 TT: 温度, 2015 Tamukoh Lab. Kyutech, Japan 75

100 ニューロン CBM の最大カット問題への適用例 [1] -1230-1280 ハードシミュレーションソフトウェア Energy -1330-1380 -1430 最適値 1 201 401 601 801 1001 Time ハードウェア化に際し振動子回路を導入すると共に, 固定小数点化や演算簡略化を行った双方とも最適解が得られた 2015 Tamukoh Lab. Kyutech, Japan [1] Kawashima et al., SISA2016. 76

組込指向型 DNN の世界的動向 BinaryConnect を皮切りに組込指向型 DNN の発表多数 BinaryNet, SqueezeNet などなど IBM TrueNorth が BinaryNet をベースに DCNN を実装 (2016 年 4 月 ) arxiv にどんどん投稿,Github でソースコード共有,Theano や Caffe で手元ですぐに追実験可能, まさに日進月歩 CNN も単に Deep 化するのではなく, 新しい様々な手法が提案, パラメタ数を減らしつつ性能を向上させている Inception Layer( 畳みこみ層の分岐,GoogLeNet に導入 ) Global Average Pooling( パラメタ数が爆発する全結合層の代わり ) ResNet( ショートカットとボトルネックの導入,152 層もの深層化を達成しつつ,AlexNet(8 層 ) よりパラメータ数小かつ超高性能 ) 77

BinaryConnect(2015 年 11 月 ) Bengio 先生のグループより BinaryConnect が発表 (NIPS2015, arxiv に 11 月にアップロード ) 2 値化の条件は 2 つ 1 決定的 +1 if ww 0 ww bb = { 1 otherwise. 2 確率的 ww bb = { +1 1 with probability pp = σσ(ww) with probability 1 pp σσ xx = max(0, min 1, xx+1 2 ): ハードシグモイド関数決定的手法の場合, 乗算は完全にゼロ ( 実行時 ) になる学習時は正確な重みを保持する必要あり, 乗算は完全には無くならない CNN,MLP 共に効果あり 78

SqueezeNet (2016 年 4 月 ) CNN モデルの改良 (1 1 のフィルタが重要 ), 枝刈 (1980 年代の手法のリバイバル+α), 圧縮 (Deep Compression; Weight Sharing(k-means) & ロスレス圧縮 ) により, AlexNetのパラメタ (240 MB) を510 倍軽量化 (0.47 MB) F. N. Iandola, SqueezeNet: AlexNet-level accuracy ---, https://arxiv.org/abs/1602.07360 http://www.slideshare.net/embeddedvision/techniques-for-efficient-implementation-of-deep-neuralnetworks-a-presentation-from-stanford 79

まとめ 1. ロボカップ @ ホームロボットホームロボットの要素技術 2. ホームロボット向け物体認識把持システムの構築 3. 実践!DCNNによる画像認識器の構築法 GoogLeNet と転移学習 2016 年 9 月時点でのお勧め GPU 比較的お手軽に試せます! 4. 回路化に関する研究紹介ホームロボットおよびそこに搭載される知的処理全般はひびきのAI 社会実装研究会の強力なアプリケーションです! 80

謝辞九州工業大学森江隆先生 ( カーロボ連携大学院事業推進責任者 & Hibikino-Musashi@Home 創設者 ) Hibikino-Musashi@Home の皆さん,OBの皆さん九州工業大学森江隆先生 Hibikino-Musashi@Home 2016 年メンバー一同 81

田向研究室研究方針 WEB ページは tamukoh で検索本研究室の魅力 1. 最先端ハードウェア, ソフトウェア, ネットワークの実践的技術とシステム化に関するノウハウを習得できます! 企業が欲しがる技術人材を育成します. 2. 脳型計算機という 21 世紀最後のフロンティアを工学的立場から開拓します. 3. 魅力あるアプリの研究開発に注力しています. 基盤技術 (How) を押さえた上で何を作るか? を重視した What 型アプリ指向の研究推進を行います.

生命体工学研究科脳型知能ハードウェアグループ人間知能システム工学専攻脳型知能ハードウェアグループ田中研究室森江研究室田向研究室知能デバイスナノ材料分子アーキテクトニクス新ナノデバイス開発人工知能処理モデル脳型計算機システム脳型集積回路デジタル集積回路知的画像処理システムロボット制御理論, ハードウェアアルゴリズム, ディジタル, アナログ, 新奇デバイス, 応用を横断した脳型ハードウェアの研究が出来る稀少な研究グループです! 83

基礎と応用をつなぐ人材教育基礎 (AI) と応用 ( ロボット自動車を含む社会実装 ) を繋ぐ人材教育カーロボ連携大学院 http://jgs.kyutech.ac.jp/ 九州工業大学, 早稲田大学, 北九州市立大学の連携で平成 25 年開設自動車ロボットの高度化知能化分野において先端研究開発を主導する高度専門人材 (T 字型人材 ) を継続的に育成することを目指す実際の自動車やロボットを使った大学院レベルの演習にも注力ひびきの AI 社会実装研究会を主体に AI コース新設を検討中ホームロボット演習自動運転演習 84

http://www.brain.kyutech.ac.jp/~tamukoh/