けいれぽ

Similar documents
目次 1. レッスンで使える表現 レッスンでお困りの際に使えるフレーズからレッスンの中でよく使われるフレーズまで 便利な表現をご紹介させていただきます ご活用方法として 講師に伝えたいことが伝わらない場合に下記の通りご利用ください 1 該当の表現を直接講師に伝える 2 該当の英語表現を Skype

L1 What Can You Blood Type Tell Us? Part 1 Can you guess/ my blood type? Well,/ you re very serious person/ so/ I think/ your blood type is A. Wow!/ G

平成29年度英語力調査結果(中学3年生)の概要

英語の女神 No.21 不定詞 3 学習 POINT 1 次の 2 文を見てください 1 I want this bike. ワント ほっ want ほしい 欲する 2 I want to use this bike. 1は 私はこの自転車がほしい という英文です 2は I want のあとに to

第16回ニュージェネレーション_cs4.indd

Read the following text messages. Study the names carefully. 次のメッセージを読みましょう 名前をしっかり覚えましょう Dear Jenny, Iʼm Kim Garcia. Iʼm your new classmate. These ar

西川町広報誌NETWORKにしかわ2011年1月号

Answers Practice 08 JFD1



Unit 3-1 目標 be going to V を理解する! date 月日 基本文 Point! ( 肯定文 ) 私は明日野球をするつもりです I'm going to play baseball tomorrow. ( 疑問文 ) あなたは明日野球をするつもりですか Are you goin

千葉県における温泉地の地域的展開

\615L\625\761\621\745\615\750\617\743\623\6075\614\616\615\606.PS

What s your name? Help me carry the baggage, please. politeness What s your name? Help me carry the baggage, please. iii

<4D F736F F F696E74202D CEA8D758DC E396BC8E8C F92758E8C81458C E8C81458F9593AE8E8C>

NO

高2SL高1HL 文法後期後半_テキスト-0108.indd

™…

国際恋愛で避けるべき7つの失敗と解決策

1986 NHK NTT NTT CONTENTS SNS School of Information and Communi

elemmay09.pub

授受補助動詞の使用制限に与える敬語化の影響について : 「くださる」「いただく」を用いた感謝表現を中心に


高等学校 英語科

Lesson 2 France ----Then and Now Read 1 この絵は1876 年に描かれましたその中には多くの日本のイメージがありますたとえば 着物や多くの日本の扇を見ることが出来ますしかしながら それは日本人の芸術家たちによってかかれたものではありませんそれはフランス人芸術家ク

Scholarship Japanese (93002) 2017



スライド 1

日本ロータリー史


/™Z‚å‰IŠv‚æ36“ƒ /fi¡„´“NŠm†€

in

Short Cut 接続詞 that (1) 名詞節の意味を持たせる that that を従属 ( 従位 ) 接続詞として 文の前に付けると その文を ~であること の意味を持つ名詞のような文 = 名詞節に変えることができる that を頭に持つ節を特に that 節とも言う

ワトソンで体感する人工知能 フォローアップ情報 株式会社リックテレコム / 書籍出版部 ( 最終情報更新日 :2018 年 4 月 5 日 ) [INDEX] 2018 年 4 月 1 日時点の IBM Watson 仕様変更について ( 著者 : 井上研一氏からのフォロー情報 ) [ 変更点 -1

きずなプロジェクト-表紙.indd

A. Read the table. A. 下の表をよく見ましょう CITY COUNTRY Ankara Turkey Turkish Lima Peru Spanish Mexico City Mexico LANGUAGE Spanish Seoul South Korea Korean Sy

3re-0010_an

[ 基本 1] 次の英文の後ろに [ ] の語句を入れて be going to を使った未来形に転換し それを 和訳しなさい 1. He studies science. [tomorrow morning] 2. You learn judo in Japan. [next year] 3. I

中 2 Columbus21 Unit3 Plans for the Summer DATE / NAME P 亜矢 あなたは何か夏の予定はありますか? Do you ( ) ( ) plans for the summer, Aya? 2. はい 私は沖縄にいるいとこたちを訪ねるつもり

⑥中村 哲也(他).indd

Page 1 of 6 B (The World of Mathematics) November 20, 2006 Final Exam 2006 Division: ID#: Name: 1. p, q, r (Let p, q, r are propositions. ) (10pts) (a

P

【生】④木原資裕先生【本文】/【生】④木原資裕先生【本文】

178 New Horizon English Course 28 : NH 3 1. NH 1 p ALT HP NH 2 Unit 2 p. 18 : Hi, Deepa. What are your plans for the holidays? I m going to visi

Mimehand II[1] [2] 1 Suzuki [3] [3] [4] (1) (2) 1 [5] (3) 50 (4) 指文字, 3% (25 個 ) 漢字手話 + 指文字, 10% (80 個 ) 漢字手話, 43% (357 個 ) 地名 漢字手話 + 指文字, 21

自分の天職をつかめ

生研ニュースNo.132

埼玉県学力 学習状況調査 ( 中学校 ) レベル 5~11 復習シート第 2 学年英語 組 番 号 名 前 ( 書くこと について問う問題 ) 1 次の (1)~(4) の日本文の意味を表すように, ア ~ オを並べ替えて英文を作りな さい そして, それぞれの答えで 2 番目と 4 番目にくる語句




PowerPoint プレゼンテーション


Sport and the Media: The Close Relationship between Sport and Broadcasting SUDO, Haruo1) Abstract This report tries to demonstrate the relationship be

先端社会研究 ★5★号/4.山崎

P036-P041

11_土居美有紀_様.indd

九州大学学術情報リポジトリ Kyushu University Institutional Repository 看護師の勤務体制による睡眠実態についての調査 岩下, 智香九州大学医学部保健学科看護学専攻 出版情報 : 九州大学医学部保健学

3

CONTENTS Public relations brochure of Higashikawa November No.745 Higashikawa 215 November 2

AERA_English_CP_Sample_org.pdf

CONTENTS Public relations brochure of Higashikawa September No.755 2

使用上の注意 はじめに ( 必ずお読みください ) この SIGN FOR CLASSROOM の英語の動画資料について 作成の意図の詳細は 2 ページ以降に示されているので できるだけすべてを読んでいただきたい 要約 このビデオは 聴覚障がいを持つ生徒たちに英語を教える時 見てわかる会話を表 出さ

-2-

open / window / I / shall / the? something / want / drink / I / to the way / you / tell / the library / would / to / me

井手友里子.indd

ABSTRACT

2017 (413812)

大学論集第42号本文.indb

24 Depth scaling of binocular stereopsis by observer s own movements

Microsoft Word - Win-Outlook.docx

在日外国人高齢者福祉給付金制度の創設とその課題

関西における地域銀行について

On the Wireless Beam of Short Electric Waves. (VII) (A New Electric Wave Projector.) By S. UDA, Member (Tohoku Imperial University.) Abstract. A new e

Words and Expressions ( 語彙と表現 ) Check pronunciation, meaning and expressions of the words with your tutor. 講師と一緒に単語の発音 意味 表現を確認しましょう Example Expressio

2 122

untitled

untitled

はじめに

CONTENTS Public relations brochure of Higashikawa March No.749 2

鹿大広報146号

S1Šû‘KŒâ‚è

第 2 問 A 問題のねらいインターネット上の利用者の評価情報やイラストを参考に場面にふさわしい店を推測させることを通じて, 平易な英語で書かれた短い説明文の概要や要点を捉えたり, 情報を事実と意見に整理する力を問う 問 1 6 友人, 家族, 学校生活などの身の回りの事柄に関して平易な英語で書かれ

/ [Save & Submit Code]ボタン が 下 部 やや 左 に ありますが このボタンを 押 すと 右 上 の 小 さいウィンドウ(the results tab) が 本 物 のブラウザのようにアク ションします (ブラウザの 例 : Chrome(グーグルクロム) Firefox(

<31322D899C8CA982D982A95F985F95B65F2E696E6464>

Phonetic Perception and Phonemic Percepition


駒田朋子.indd



126 学習院大学人文科学論集 ⅩⅩⅡ(2013) 1 2

NINJAL Research Papers No.8

Hospitality-mae.indd

Core Ethics Vol. a


<4D F736F F D2094AD92428CA48B CB B4C92C789C1816A462E646F63>

08-特集04.indd

koh

三税協力の実質化 : 住民税の所得税閲覧に関する国税連携の効果

Transcription:

KDDI 総合研究所 R&A 2017 年 5 月号 Google翻訳の性能が大幅に向上した理由とは -- 自然言語処理に応用されるディープラーニングの原理と限界 執筆者 KDDI 総合研究所 特別研究員 小林雅一 記事のポイント サマリー グーグルが提供する翻訳サービス Google 翻訳 の性能が 2016 年 11 月のリニューアルに伴い 大幅にアップした 特にスマートフォンから入力する会話文の場合 たとえば外国に出張したビジネ ス パーソンが現地のスタッフと打ち合わせをしたり 運悪く急病にかかった場合に現地病院の医師ら と意思疎通が可能なレベルにまで その翻訳精度は向上した 一方で外国メディアの記事や外国語で書かれた小説など長文を日本語に訳そうとする場合などに は Google 翻訳の性能はまだ不十分と言わざるを得ない 両者の落差はどこから来るのか 本レポー トでは Google 翻訳の性能が大きく向上したにも関わらず 翻訳対象となる文章の長さなどに応じて その性能に大きな違いが出る理由を グーグル翻訳の仕組みにまで踏み込んで解説する 主な登場人物 グーグル Google Andrew Ng New York Times キーワード Google 翻訳 識 回帰分析 ディープラーニング Deep Neural Network 機械翻訳 トレーニング セット 過剰適応 過学習 overfitting 自然言語処理 パターン認 スケーラビリティ 地域 米国 日本 世界 1/14

What is the reason behind the significant increase in the performance of Google Translate? The Principles and Limits of Deep Learning Applied to Natural Language Processing Masakazu Kobayashi Research Fellow, KDDI Research Inc. Abstract With its November 2016 renewal the performance of Google s translation service "Google Translate" has been significantly improved, especially so in the case of conversation text input from a smartphone. For example, a business person who unfortunately suffered a sudden illness while travelling abroad was able to consult with local staff and communicate with the doctors of the local hospital. A significant improvement in translation accuracy. On the other hand, for example, when trying to translate a long sentence into Japanese, such as those found in a media article or novel written in a foreign language, the performance of Google Translate is still inadequate. Why does the technology perform poorly under these conditions? Despite the great improvement in the performance of Google Translate, accuracy is highly dependent on such factors as the length of sentences, and this report seeks to explain this shortcoming by delving into the structure of Google s translation service. Main Players Google Andrew Ng New York Times Keywords Google Translate deep learning language processing pattern recognition learning) overfitting scalability Deep Neural Network machine translation natural regression analysis training /set over adaptation (over Region US Japan world 2/14

以下は 参考のため Google 翻訳によるサマリー The following is a summary by Google translation for reference. What is the reason why the performance of Google Translate has improved significantly? - Principle and Limit of Deep Learning Applied to Natural Language Processing Masakazu Kobayashi Research Fellow, KDDI Research Inc. Abstract The performance of the Google translation service "Google Translate" provided by Google has been significantly improved with the renewal of November 2016. Especially in the case of a conversation text input from a smartphone, for example, a business person who traveled abroad consulted with local staff, to a level where communication with the doctors of the local hospital is possible when it is unfortunately suffered from a sudden illness, Its translation accuracy improved. On the other hand, for example, when trying to translate a long sentence into Japanese, such as a foreign media article or a foreign language written novel, the performance of Google translation is still inadequate. Where do the falls of both come from? In this report, despite the great improvement in the performance of Google Translate, why there is a big difference in performance depending on the length of sentences to be translated, etc. will be stepped into the structure of Google translation and explained. 3/14

1 はじめに 2016年11月にリニューアルされた Google翻訳 が それまでに比べて著しく性 能がアップしたと評判になっている 過去には外国語での短い挨拶や極めて単純な 日常会話などには対応できたが たとえばビジネス パーソンが海外業務などに使 うための 少し長めで複雑な文章になると歯が立たなかった リニューアル後はこの問題がかなり解消され ある程度 複雑な文章も相応に訳 せるようになってきた 特にスマートフォンから音声入力モードで使うと その便 利さが実感できる 翻訳結果も音声出力される 以下は試しに筆者が入力してみた 日本語文章と それらをGoogle翻訳が英訳した結果である 為替レートが1円 円高になると 私の会社は100億円の損失を出します If the exchange rate gets higher by 1 yen, my company will lose 10 billion yen. あの会社は取引先として信用できますか Can that company be trusted as a business partner? 空港から御社に行くには地下鉄がいいですか それともタクシーの方がいいです か Is it better for the subway or taxi to go from the airport to your company? 以上の英訳文は厳密には あるいは文法的には間違っているかもしれないが 意 味は何とか相手に通じそうだ 次に英語から日本語への翻訳もやってみた If you want to accomplish this work as soon as possible, you need to read these two manuals. できるだけ早くこの作業を行うには これら2つのマニュアルを読む必要があります What I was trying to say was that he would have to complete this report by tomorrow. 私が言っていることは 彼が明日までにこの報告書を完成させなければならないと いうことでした If you can not borrow money from me, how do you live from tomorrow? あなたが私からお金を借りることができないなら あなたは明日からどのように住 んでいますか 3番目のケースは明らかに誤訳である 正しくは 明日から どのように生 きていくのですか 他の英 和文でも試してみたが いずれの翻訳も概ね 以上 と同じレベルだ ただGoogle翻訳は世界中のユーザーによる使用データを機械学習 して日々進化しているので 後で改めて同じ原文で試してみれば 上記とはかなり 違う翻訳結果が表示されるかもしれない 4/14

全体の感触としては 海外出張したビジネス パーソンが かろうじて使えるか もしれない といったレベルではないだろうか それでも過去のGoogle翻訳に比べ ると 確かに大きく改善したという印象を受けた ただし 気になるのは翻訳の質よりも インターフェース つまり使い勝手の方 だ たとえばスマホに向かって文章を入力している途中で言い淀んで あー とか えー とか言っているうちに Google翻訳の方では勝手に見限って処理を始めて しまう それと見ていて面白いのは スマホの画面に推敲中の翻訳文が次々と表示される ことだ 語順を入れ替えたかと思えば 違う単語を出してみたり さっきまでとは 全く別の訳文が表示されたりする こうしようか ああしようか と人工知能が試 行錯誤している様子が窺えるのだ 2 高度な英語長文の和訳には難がある 一方 パソコンの方から より長く複雑な英文を入力してみた こうした文章と なると リニューアル後の現在でも Google翻訳の精度はかなり落ちてくる 以下 は つい先日のNew York Times記事の一節をGoogle翻訳で和訳した一例だ Meeting Between Japan and Russia Ends With Stalemate on Disputed Islands By MOTOKO RICH DEC. 16, 2016 TOKYO The Japanese news media gave breathless coverage to President Vladimir V. Putin s two-day visit to Japan this week, training television cameras on the airport in Yamaguchi Prefecture where the Russian leader arrived more than two hours late. Schoolchildren in Nagato, Prime Minister Shinzo Abe s hometown, ate borscht and piroshki in honor of Mr. Putin s trip to hot spring baths there. In Tokyo on Friday, Kodokan, the premier judo school, received the Russian leader, a black belt, for a demonstration and a meeting with Olympic medalists. 日本とロシアの間の紛争は 紛争を起こした諸島の膠着状態で終わる MOTOKO RICH DEC 16,2016 プーチン大統領は2日 日本を訪問し 山口県の空港でテレビカメラを訓練し ロシアの指導者が2時間以上遅れて到着したと報じた プーチン大統領の温泉への 旅に敬意を表して 長門の学童 安倍晋三首相の故郷 ボルシェットとピロシキを 食べました 東京では金曜午後 柔道校の鼓道館がロシアの指導者黒帯を受け デモやオリンピックメダリストとの会談を行った 残念ながら 上の訳文では まだ実用には不十分だろう 確かに部分的には正し く訳されている箇所もあるが 要所々々で誤訳や訳し抜けが起きているため 全体 としては意味不明の奇怪な文章になっている 逆に実用に耐える和訳がどのレベル かを示すため 以下 筆者が同じ英文を訳してみた 5/14

領有権が争われている島々に関する 日露首脳会談は膠着状態に終わる モトコ リッチ 2016年12月16日 東京 日本のメディアは 今週二日間の日程で日本を訪問したウラジミー ル プーチン大統領を熱狂的に報じた 予定より2時間以上遅れて山口県の空港に 降り立ったロシアの指導者に 無数のテレビカメラが向けられた 安倍晋三首相の 故郷である長門市の学童たちは この日 学校でボルシチとピロシキを食べたが これは この地の温泉を訪れるプーチン大統領への敬意を示すためだ 黒帯の資格 を有するロシア指導者は金曜日に東京で 世界最高の柔道学校である講道館を訪 れ オリンピックのメダリスト達と面会し 彼らと柔道の稽古をしてみせた 3 Google翻訳の正体は 統計的な言語変換 上記2つの訳文の落差は 何に起因するのか それは筆者 つまり人間 が英 文を意訳しているのに対し Google翻訳では原文の意味などお構いなしに ある種 の統計的な言語変換を行っていることにある こうした作業は 統計の専門用語で 回帰分析 と呼ばれる 回帰分析とは データにモデルを当てはめる分析手法であり 大量のデータ い わゆるビッグ データ から 何らかのパターンや規則性を見出すためによく用い られる 中でも一番 単純で分かりやすいのは 線形回帰分析 と呼ばれるもので それは以下の図表1で示される 図表1 線形回帰分析では グラフ上にプロットした点々にフィットする近似直 線を求める 出典 http://netprophetblog.blogspot.jp/2013/10/local-regression.html 6/14

このグラフでは たとえば横軸 x軸 に不動産物件の床面積 縦軸 y軸 に 物件の家賃をとって そこに不動産会社から貰ってきたデータをプロットする そ れらがグラフに記された無数の点々だ これらの点々 データ に最もフィットす る直線を引く 算出する 作業が 線形回帰分析 である 線形とは直線を意味す る あらかじめグラフにプロットした多数の点々 データ は 同じく統計 ないし は機械学習の専門用語で トレーニング セット と呼ばれる 線形回帰分析によ って これらの点々にフィットする直線が一旦 引かれてしまうと トレーニング セットはお役御免になる このようにして得られた直線は モデル と呼ばれる モデルは必ずしも直線と は限らず 何らかの曲線になることもある このようにモデル この事例では直線 が決まると あとは新しい物件の床面積 x座標 を入力すれば この直線に従っ て その物件の家賃 y座標 を計算 推定 予測 することができる 4 回帰分析の要点とは ここで注意すべきは 現実世界に存在する多くのデータは 線形回帰分析 つま り単なる直線ではフィットできないことだ その場合 前述の通り 直線よりも複 雑な ある種の曲線を使って 点々 トレーニング セット にフィットさせる必 要がある その様子を示したのが 以下の図表2である 図表2 回帰分析で最適なモデル 近似曲線 を求める作業 出典 Machine Learning by Andrew Ng, Coursera 7/14

上の3つのグラフには いずれも同じ点々 トレーニング セット がプロット されている このうち一番左のグラフでは これらの点々に対し直線でフィットさ せようとしているが 明らかに無理がある そこで中央のグラフでは 直線ではな く xの二乗項 を含む2次曲線でフィットさせようとしている このように直線 線形 ではなく ある種の曲線で点々にフィットさせる場合は 非線形回帰分析 と呼ばれる 明らかに中央のグラフは これらの点々に上手くフィットしている が 敢えて 難を言えば 全部の点々にぴったり2次曲線が乗っているわけではない そこで x の3乗 4乗項 まで導入して 言わば無理矢理にでも点々の全てに乗る4次曲線 を描いたのが 一番右のグラフである これも当然 非線形回帰分析の一種である さて これら3つのうち 今回のようなケースに関する 正解はどれかというと それは中央のグラフ 2次曲線 である 確かに 一番右のグラフに描かれた4次 曲線は全ての点々 トレーニング セット にピッタリ乗っているが それは実は 回帰分析の目的ではない つまりトレーニング セットはあくまで最適なモデル 点々に無理なくフィットする直線や曲線 を求めるためのデータに過ぎないので 実際にはモデルが点々から多少ずれても構わないのだ 逆に それらの点々にピッタリ合わせようとしたばかりに あまりにも不自然な 形状の曲線 モデル を引いてしまうと そのモデルは本来の目的である 推定 予測 に使えなくなってしまう このような状況は 機械学習の専門用語で overfit 過剰適応 と呼ばれる 上の図表2の場合 一番右のグラフがそれに当たる 逆 に一番左のグラフでは モデル この場合は直線 が単純過ぎて 点々 トレーニ ング セット とは余りにもかけ離れている この状態は underfit 適応不足 と呼ばれる underfitもoverfitも望ましい状態ではない あらゆる回帰分析の目的は 多数の 点々 トレーニング セット に過不足なくフィットする just right 最適 のモ デル 直線や曲線 を導き出すことにある 5 Google翻訳は大量の対訳文書から学ぶ さて前準備が大分長くなったが Google翻訳も基本的には 以上のような回帰分 析の手法に基づいている ここで大前提として Google翻訳が回帰分析のために使 うトレーニング セットは グーグル 公式にはアルファベット がこれまでに収 集した大量の対訳文書である 日英翻訳を例にとって考えると たとえば国連で作 成される英語と日本語間の対訳文書などがそれに当たる これを2次元座標上で直感 的に表現したのが 以下の図表3である 8/14

図表3 Google翻訳に使われるトレーニング セット 大量の対訳文書 グラフ 上の点々 出典 筆者作成 上のグラフにプロットされた多数の点々が Google翻訳の回帰分析でトレーニン グ セットとして使われる日英の対訳文書だ そしてGoogle翻訳が実際に行ってい るのは 実はこれらの点々にフィットするモデル 直線や曲線 を求める作業に過 ぎないのである これはGoogle翻訳がリニューアルされた現在でも同じだ ただし以前との違いは 最適なモデルを求めるために ディープラーニング あるいは ディープ ニュー ラルネット などと呼ばれる最先端の機械学習技術を導入したことにある ディープラーニングは人工知能の一種だが 統計学的な観点からは 現時点にお いて 最も高度で洗練された非線形回帰分析の手法 という位置づけにある つま りGoogle翻訳は今回 ディープラーニングを導入したとは言え 統計的な回帰分析 に頼っている点では以前と同じなのだ ただし その性能はリニューアルの前後では大きく異なる この違いを見るため に まず従来のGoogle翻訳による回帰分析の様子を示したのが以下の図表4だ 必ず しもモデルが直線になるとは限らないが ここではそれが比較的単純なモデルある ことを示すため 敢えて直線を採用した あくまで象徴的な意味しかない 9/14

図表4 従来のGoogle翻訳はunderfitの状態にあったため 点々 実データ 対訳 文書 とモデルの間に大きな乖離があった 出典 筆者作成 図表4に示したように 従来のGoogle翻訳は明らかにunderfitの状態にあった こ れまでのGoogle翻訳が 英語 ドイツ語 フランス語など互いに親和性の高い欧州 言語族などを除く 日本語と英語などの間で正直使い物にならなかったのは その ためだ つまりモデルを求めるための回帰分析として 恐らくベイズ統計に基づく 比較的単純な方式を採用していたため モデルがunderfitの状態にあったからなのだ 6 モデルを最適化した これに対し今回のリニューアル後は 最も高度な回帰分析の手法であるディープ ラーニングを搭載したので just rightの状態へと改善された その様子を示したの が 以下の図表5だ 10/14

図表5 リニューアル後は ディープラーニングによって 実データにフィット するモデルになった 出典 筆者作成 一旦 このように最適モデルが作られると あとは新しい英文 x座標 を入力 すると このモデルに従って日本語訳 y座標 が出力される 図表6 これこそ Google翻訳が英 日の翻訳時に 実際行っている作業なのだ 図表6 英語の原文を入力すると 事前に算出されたモデル 回帰曲線 に従っ て日本語訳が出力される 出典 筆者作成 11/14

ただし正確を期すために断っておくと 以上の説明は実態よりも極端に単純化さ れている つまり実際のGoogle翻訳では 約1000種類の言語的な特徴量を変数にし て回帰分析のモデルを作成している 従って ここまで紹介してきたようなX軸 Y軸による2次元座標で その様子を表 現するのは実際には無理で 厳密には1000次元の座標を使う必要がある しかし私 たち人間が1000次元の座標 つまり1000次元の空間を頭の中に思い描くことは不可 能 そこで筆者は 分かりやすく説明するために 2次元の座標で直感的 視覚的に 表現した こうした回帰分析によって算出されるモデルとは ある物事と別の物事の相関関 係に過ぎない 逆に物事の背後に潜む 因果関係 や 自然法則 あるいは 真理 や 論理 といったものは一切無視されている Google翻訳のような自然言語サー ビスで無視されたのは 言葉の意味 だ このやり方に従う限り いくらディープラーニングのような洗練された手法を導 入しようと 実在データ 私たち人間が話したり 書いたりする自然な文章 とモ デルの間には 図表5から見て取れるように ある程度のズレ 落差 が生じるの は止むを得ない そのズレは Google翻訳の処理対象が短く単純な文章である場合はあまり目立た ない これに対し たとえば2.で紹介したNew York Times記事のように 比較的高 度な長文を入力した場合 両者の落差は激しくなり 結果的にその日本語訳は意味 不明の文章になってしまうのだ 7 天井知らずのスケーラビリティとは しかし問題は 現在ではなく将来のGoogle翻訳の性能である そこに搭載された ディープラーニングの最大の特徴は その並外れたスケーラビリティにある スケ ーラビリティとは システムに入力されるトレーニング セットのデータ量に比例 して システムの性能がどんどんアップすることを意味する 従来の機械学習技術では ある時点でスケーラビリティが限界に達し それ以上 はいくらデータを入力しても システムの性能は頭打ちになってしまった これに 対しディープラーニングでは 入力データ量を増やせば増やすほど システムの性 能が天井知らずに上昇し続けるのだ この効果が如実に現れたのが 画像認識や音声認識など いわゆる パターン認 識 と呼ばれる分野だ 世界中のAI研究者が飽くことを知らず 毎日々々 大量の 画像や音声データを入力した結果 今ではディープラーニングのパターン認識力は 私たち人間を追い抜き 今もアップし続けている たとえば以下の2枚の写真 どち らが チーター でどちらが レパード 豹 か私たち人間には判別し難いが 現 在のディープラーニングはそれを正確に判定することができる 12/14

図表7 どちらがチーターで どちらがレパードか 答えは脚注11 出典 ウィキペディア 興味深いのは 以上のようなパターン認識で起きたのと同じ事が 果たしてGoogle 翻訳のような自然言語処理の分野でも起きるのか ということだ それは確かに私 たち人間のように言葉の意味を理解することはできないが 回帰分析のような一種 のパターン認識によって翻訳の精度を日々向上させている 特に英仏独など欧州言 語族の間では 現時点においても 新聞記事など比較的複雑な長文でも ほぼ支障 なく使えるレベルに達していると見てよい 8 言葉を理解しなくても 言葉を操ることはできるのか これに対し 日本語と英語のように言語構造が全く異なる場合は 冒頭で示した ようにGoogle翻訳の精度はまだ不十分である しかし今後 入力するトレーニング セットのデータ量をどんどん増やしていけば 例によって天井知らずのスケーラビ リティに従って いつかは私たち人間に匹敵する翻訳精度に達するかもしれない 仮に そうなれば それは 言葉の意味を理解することなく 言葉を自在に操る一 種のイディオサバン2 の誕生である ユーザーは喜ぶが 言語学者や心理学者 哲 学者らは渋い顔をするだろう もちろん それとは相反する見方もある 確かに これまでチェスや将棋 囲碁 などは 人工知能のパターン認識技術によって次々と制覇されてしまった しかし 厳密なルールと論理に縛られた これらボードゲームとは対照的に 私たちが普段 使っている言葉は本質的に融通無碍で捉えどころがない 確かに文法というルール も存在するが これは私たちの日常的な言語活動には あまり関与していない印象 1 左がチーター 右がレパード イディオサバン Idiot Savant 知的障害や発達障害などのある者のうち ごく特定 の分野に限って優れた能力を発揮する者の症状 出典 ウィキペディア 2 13/14

を受ける このため たとえディープラーニングによって どれほど回帰分析のモ デルを精緻化したところで 実際に私たちが普段行っている言語活動を このモデ ルでカバーすることは無理という見方である 逃げを打つようで恐縮だが 現時点の筆者には ディープラーニングによる自然 言語処理が今後 どこまで発達するのか予想できない 見極めるには もう少し時 間が必要だ たとえば今から1年後に より大量のデータを消化したGoogle翻訳の精 度がどこまで向上しているか これを見れば その将来性は自ずと明らかになるだ ろう 執筆者プロフィール 氏 名 小林 雅一 こばやし まさかず 所 属 KDDI総研 専門 メディア IT コンテンツ産業の調査研究 経 歴 東京大学大学院理学系研究科を終了後 雑誌記者などを経てアメリカに留学 ボ ストン大学でマスコミ論を専攻し ニューヨークで新聞社勤務 慶應義塾大学メディア コミュニケーション研究所などで教鞭をとった後 現職 主な著書 クラウドからAIへ アップル グーグル フェイスブックの次なる主戦場 朝日新 書 日本企業復活へのHTML5戦略 光文社 スマートフォンのすすめ 手のひらのクラウドで未来を生きる ぱる出版 ウェブ進化 最終形 HTML5 が世界を変える 朝日新書 モバイル コンピューティング PHP研究所 社員監視時代 光文社ペーパーバックス 欧米メディア 知日派の日本論 光文社ペーパーバックス ほか多数 14/14