技術動向レポート 人工知能の応用へ向けた筋道を探る サイエンスソリューション部シニアマネジャー稲垣祐一郎 人工知能に対する研究開発が活発化し 音声認識や画像認識をはじめとしていくつかの実用化事例も散見される様になっている しかし 現状で実用化されている範囲は 人工知能の最終的な形態 (= 人間と同程度以上の知能 ) のうちの一部分である 本論では 人工知能の現状において何が達成されていて何が未達成なのか 未達成の部分を実現するためにクリアすべき課題は何かについて整理するとともに 今後それらの課題が解決され実用化されていく筋道について 試論を提出する はじめに人工知能の研究開発に対する投資が世界的に加速している Google Microsoft Facebook などのIT 企業はもとより トヨタ自動車の米国での研究センターの設立 1 など 大きな注目を集めている 日本政府による 日本再興戦略 においても IoT ビッグデータと並び人工知能による今後の産業構造の変革に対応していくとしている 2 この様な人工知能の盛り上がりは 技術的な面においては 機械学習 (1) の分野で深層学習 (deep learning) と呼ばれる大きなブレークスルーがあったことに起因している 3 深層学習は 従来からも技術的には存在したニューラルネットワークと呼ばれる手法の一種であるが 従来よりも格段に複雑な構造を学習可能としたことにより 高度に抽象化した概念を表現できる様になった これにより 音声認識 画像処理 機械翻訳などの機械学習の応用分野の様々なベンチマークの記録を次々に塗り替え 人工知能実現のための中核的な技術と目される様に なった 4 人工知能 という単語から普通イメージされるのは 2001 年宇宙の旅 におけるHAL ターミネーター におけるスカイネットの様な人間の知能に匹敵もしくは凌駕する様な知能であるかもしれない このような人間レベルの汎用的な人工知能は 汎用人工知能 (Artificial General Intelligence AGI) 5 と呼ばれるが 当然のことながら現在そのレベルに達している訳ではない では 現状の人工知能のレベルはどの程度で ビジネス的な応用はどの程度考えられるのか? AGI に至るまでにどのような技術的ハードルがあるのか? それらのハードルを越えるとどの様なビジネスが生じるか? これらの疑問に答えるヒントを提示したいというのが本論の目的である もちろんこの様な未来予測の試みは相当程度の不確実性を伴わざるを得ないが 実現したい技術的目標としてAGIを設定し その目標を実現するために解決すべき課題をリストアップし 主要な課題の解決がどの様な手順 時間でなされるかを分析することにより 現在 1
人工知能の応用へ向けた筋道を探る から目標までの見通しに関する仮説を得ることができる 以下 1 節では 深層学習により何が可能になったのかに関する簡単な説明と 今後何が可能となっていくのかについてまとめる 2 節において AGIの実現のために要求される機能のリストアップを行い 取り扱うデータの種類を評価軸としたマップ上で各々の機能を整理する 3 節では 上記マップ上の各象限が技術のどの様な発展段階にあるかについてイノベーション理論における概念を援用しながら整理するとともに それぞれの課題が解決した段階でどの様なビジネスシーンで実用化可能となるか その対応表を整理する 最後に4 節では その他の主要な技術的課題などについて述べる 1. 深層学習の現状深層学習とは ニューラルネットワークと呼ばれる 脳を模擬した機械学習の手法の一つである 脳による情報処理は 神経細胞が互いに接続し 電気刺激をやり取りすることで行われている ニューラルネットワークはこの神経細胞の機能をモデル化した演算ユニットをネットワーク状に接続したものである 深層学習が可能となる前のニューラルネットワークは 通常ネットワーク構成が入力層 隠れ層 出力層の 3 層で構成されるという単純なものであった 学習とは 外部世界のモデルを内部の表現に変換することと言えるが 3 層の構成しか使えないということは 入力 1 回の変換 出力という構成しか使えないということを意味する これに対し 深層学習では この層を多数積み重ねても学習が可能になった (2) これにより 入力 変換 変換... 出力という多段の変換を積み重ね 特徴抽出 カテゴリー分け 抽象化などの機能を個々の変換として分散して学 習させることが出来るようになった また 後述する様に 多段の構造だけではなく ループを含む様な構造においても効率的な学習が可能となった ネットワークの構造と ある構造上でどのような種類の情報処理が実現可能かについては相互に密接に関係しているため 様々な構造のネットワークで学習が可能になったことは 様々な種類の情報処理が可能になったことを意味する 従って 現在の人工知能研究では 様々なネットワーク構造が提案され その上で所望の情報処理が実現されるかを試すことのできる状況となっている 以下の議論の見通しを良くするため ここでネットワークの構造 ( 及びその上で可能となる情報処理 ) に関して類型化を試みたい 類型化のための一つ目の軸は 浅い構造 ( 層が少ない ) か深い構造 ( 層が多い ) かの軸であり 従来のニューラルネットワークと深層学習を区別する軸である もう一つの分類軸は ネットワークの構造に ループを含むか含まないかという軸である ループを含むネットワークでは データ処理の流れが一方向に進むだけではなく 一度処理されたデータが元の入力に戻され 時間的に後から来るデータと合わさって再び情報処理に供されるということを意味しており 時系列データや文章など時間的順序を含むデータを取り扱うこととなる この様なループを含むネットワーク構造は 再帰的な処理を可能にするという意味でRecurrent Neural Network (RNN) と呼ばれている 以上の2 軸でネットワーク構造を整理すると下表の様になる 非 RNN で 層の浅い (3 層 ) のネットワークは従来のニューラルネットワークである ( 表の左上 ) 非 RNNで層が深いものが 静的なデータを取り扱う深層学習である ( 表の右上 ) RNNで 層が浅く比較的単純な構造を持つものは ( 表の左下 ) 時系列データから 2
図表 1 ネットワークの構造の類型と 可能となる情報処理 代表的適用分野 ( 資料 ) 各種資料に基づきみずほ情報総研作成 動的なパターンを抽出することを可能にする 具体的には システムの挙動から異常のパターンを検出する場合などに使用可能である 最後に RNN で層が深いものは ( 表の右下 ) 時系列データから抽出された概念が更に相互作用をする様な場合であり 自然言語処理などが代表的な適用分野となる 2. AGI 実現に必要な機能と深層学習の対応前節で 深層学習によって可能となったアーキテクチャと情報処理の類型化を行った これは技術的側面から深層学習の適用先を整理したものである 本節では 逆に技術に対して要求されることという側面から 人間レベルの認知にはどの様な機能が必要とされるのかについて簡単に整理する 人間の知能にどの様な機能が含まれ 個々の機能がどの様な関係性を持っているかという問題に関しては 子供の認知発達の過程などを参考にしつつモデルを構成して研究する立場がある そのモデルのことを認知アーキテクチャと言い (3) 多くの種類のものが提案されている 例えば その一つCogPrime 6 では 乳幼児か ら成人までの発達段階に対応した認知機能に対する要求レベルがまとめられている CogPrime の中で言及されている認知機能の中で主要なものとして 知覚 記憶 言語 推論 計画 自己認識などがある このうち静的な知覚については 前節の整理で言えば 非 RNN 深い に対応する部分であり 静止画像処理の場合など既に深層学習が人間と同等の認識率を達成しているため 大きな技術的課題は残っていないと思われる その他の認知機能 すなわち記憶 自然言語 推論 計画 自己認識等は 全てRNNによる時間的順序を持ったデータに対する再帰的な処理で無ければ実現しない機能である 記憶は 過去に得られた情報を格納し 必要に応じて情報を取り出す機能であり 時間を前提として成立する機能である 自然言語は 一次元的な表現が時間軸上に展開されるものであり またいくつかの概念が相互作用を行って文意が展開するものであるから RNN 深い に属する構造を必要とする 推論 計画なども自然言語と同様である 自己認識も 再帰的な構造をもって初めて実現可能なものである 3
人工知能の応用へ向けた筋道を探る この様に AGI を実現するための認知機能 は 浅いか深いかはともかくとして そのほとんどが RNNを必要とするものであることが理解される 3. 人工知能の実現時期 専門家による予測 それでは RNNの構造とその上での情報処理の原理が解明され AGIが実現するのはいつ頃になるのか という問いが当然生じる AGI の実現時期に関する最も有名な予測は レイ カーツワイルによる2045 年に人工知能のレベルが人間を越える技術的特異点 ( シンギュラリティ ) が到来するという予測であろう 7 カーツワイルの予測は現在あまりに有名であり ここでは立ち入らない 他に AGIの国際会議で専門家にアンケートを取った結果がある ( 図表 2) 8 このアンケートでは チューリングテスト (4) 小学校 3 年生レベル ノーベル賞級の研究が可能な程度の知能 人間を超越した知能の4 段階に分けて その実現時期の予想を専門家に聞いているものである 2020 年代までに実現すると予想している専門家も3 分の1から半分程度居る中 2100 年以降あるいは決して実現しないという専門家も少なからず居ることが分かる (5) 4. 人工知能の実現時期 技術の発展段階からの整理 ここでは さらに今後の人工知能の発展の筋道に関するイメージを明確化するために イノベーションの理論 9 における技術の発展段階の類型を援用して整理し 1 節でのシーズ側の類型の整理 ( 図表 1) と結びつけたい 技術開発の初期には 目標を解決する手法として優勢な ( ドミナントな ) 技術が定まらず 様々な可能性が試される段階がある ( ドミナントデザイン探索段階 ) 例えば 自動車の動力に関して 当初は蒸気 電気 ガソリンが競合していた 一度ドミナントな技術が決まれば その基本的な骨格の中でどのようなモジュールとなる技術を開発すれば良いかが決まっていく ( モジュラー化進行段階 ) 最後に モジュール化された個々の要素技術の性能が高度化する段階がある ( 多くの場合性能指標はS 字の曲線となるため 以下では S-Curve 段階と呼ぶ ) これらの段階に図表 1の深層学習の類型をあてはめると 非 RNN 深い の部分では 既 図表 2 専門家アンケートによる AGI 実現時期予想 ( 資料 ) 資料 8 に基づきみずほ情報総研作成 4
にS-Curve 段階に入っていると言えよう 実際 静的な画像処理に関しては 既にS-Curveのほぼ上限に達している ( 図表 4) RNN 浅い に関しては 再帰的な構造であることは決まっているものの その詳細については様々なモデルが提案されている状況であり モジュラー化進行段階に相当する 最後に RNN 深い の部分は その深さによってどの様な原理を持つ情報処理が可能となるのかという問題に関して まだ未知の部分が多く残されており ドミナントデザイン探索段階に相当すると言えるだ ろう これらが実用化に至る時期に関しては S-Curve 段階である 非 RNN 深い は直近で可能 モジュラー化進行段階である RNN 浅い がその次 最後に RNN 深い となると予想される 5. 今後の展望深層学習の各類型に関し それぞれの実現時期を正確に予測することは当然困難であるが 図表 5には 類型のそれぞれの凡その実用化時 図表 3 技術の発展段階 ( 資料 ) 資料 9 に基づきみずほ情報総研作成 図表 4 2 次元画像のクラス分け問題に対する正答率の S-Curve ( 資料 )ImageNet 資料 10 に基づきみずほ情報総研作成 5
人工知能の応用へ向けた筋道を探る 図表 5 深層学習の発展段階と実用化例 ( 資料 ) 各種資料に基づきみずほ情報総研作成 期と その段階で可能となる応用の例を示した 筆者の個人的な見解としては 世界の最先端を走っている研究者は RNN 深い の領域に手を付け始めており 大量の研究者が参入している状況を考えると そう長くはかからないのではないかと考えている 本論では ネットワークの構造と その上で可能となる情報処理の類型の観点から それぞれの実現時期の大まかな予測を行った もちろん本論で触れた以外にも 人工知能の実現のためには様々な課題が存在する (6) 実用化の観点から一つだけ挙げるとすれば 最終的な人工知能が 現在の計算機の演算速度で到達可能な範囲であるのかという問題がある 人間の個々の神経細胞の興奮はミリ秒程度の時間で起こっている現象であるが 脳の複数の部位が関わる機能様では 1 秒を越える時間領域で活動する ものもあり 3 桁程度の開きがある これをそのまま素直にモデル化するのでは 工学的な観点からは演算に時間がかかりすぎ ( あるいは必要な計算機が巨大になりすぎ ) 実用的でなくなる可能性がある RNN 深い の領域において この問題をどの様にクリアするのかは自明では無いだろう 本論で述べた様に 人工知能の次の発展のキーの一つとなるのはRNNと そのネットワーク構造上で実現される情報処理機構のエッセンスを解明し実現することである 日本の中で本分野の研究と具体的 実用的なニーズへの適用がうまく噛み合って発展していくことを望みたい 注 (1) 機械学習とは 入力データに潜む構造を抽出し有用な出力と結びつけるデータ分析手法のことを指す 6
(2) 最近では 画像処理を行うネットワークとして20 層以上のものも用いられる様になっている (3) 人間の認知の研究としてのほか 事故時の人の振る舞いの研究などにも応用される (4) 隔離した人間の判定者とAIの間でチャットを行い AIが人間であると判定者に信じ込ませられるかどうかをテストするもの (5) このアンケートが行われたのは2011 年で深層学習が広く脚光を浴びる前に行われたため 現在アンケートを行えばもう少し早まるかもしれない (6) フレーム問題 シンボルグラウンディング問題などがある 文献 3 参照 参考文献 1. http://newsroom.toyota.co.jp/en/detail/9233129 2. http://www.kantei.go.jp/jp/singi/keizaisaisei/ 3. 人工知能は人間を越えるかディープラーニングの先にあるもの 松尾豊著 株式会社 KADOKAWA (2015). 4. ディープラーニングがビッグデータ分析の進化を引き起こす (http://www.mizuho-ir.co.jp/publication/column/ 2013/1119.html) 5. http://www.sig-agi.org 6. http://wiki.opencog.org/w/cogprime_overview 7. ポスト ヒューマン誕生 コンピュータが人類の知性を超えるとき レイ カーツワイル ( 著 ) 井上健 小野木明恵 野中香方子 福田実 ( 共訳 ) 日本放送出版協会 (2007). 8. "How long until human-level AI? Results from an expert assessment", Baum, S.D., Gopertzel, B. and Goertzel, T.G., Technological Forecasting & Social Change, 78, 185-195(2011). 9. Christensen, C.M., "The evolution of innovation", in R. Dorf (ed.), Technology Management handbook, CRC Press (2000). 10. Russakovsky, O. et al., "ImageNet Large Scale Visual Recognition Challenge", arxiv:1409.0575v3 (2015). 7