WATSONとOSS

Similar documents
ワトソンで体感する人工知能 フォローアップ情報 株式会社リックテレコム / 書籍出版部 ( 最終情報更新日 :2018 年 4 月 5 日 ) [INDEX] 2018 年 4 月 1 日時点の IBM Watson 仕様変更について ( 著者 : 井上研一氏からのフォロー情報 ) [ 変更点 -1

Bluemix いつでもWebinarシリーズ 第15回 「Bluemix概説(改訂版)」

ILE RPGからWatson APIを使用_1.0

IBM API Connect 開発者ポータル構成ガイド 1章

IBM Watsonを活用したチャットボット構築のアプローチ

nlp1-12.key

Microsoft PowerPoint - (140428NIIELS説明会)J-STAGE Lite(仮称)のご紹介_v2.pptx

Microsoft PowerPoint - TwitterInsight edit.pptx

PowerPoint プレゼンテーション

スライド 0

IBM Cognos 10 Upgrade FAQ

Exfront4.1.0リリースノート

Bluemix いつでもWebinarシリーズ 第15回 「Bluemix概説(改訂版)」

intra-mart Accel Platform — IM-共通マスタ スマートフォン拡張プログラミングガイド   初版  

IBM i とクラウドのつなぎ 本アイ ビー エム株式会社 Power Systems テクニカル セールス 菅 丈

スライド 1

Mindjet for iPhone 1.0 User FAQ

tokyo_t3.pdf

スライド 1

Oracle Enterprise Linux 5における認証

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

PowerPoint Presentation

情報システム設計論II ユーザインタフェース(1)

< 目次 > 1. パソコンの画面構成... 3 連絡先一覧... 3 連絡先一覧の切り替え... 4 連絡先... 6 付帯情報... 7 関連... 7 代行入力... 8 CRM... 8 グローバルメニュー SkyDesk Cards R for ios 画面構成... 12

一般社団法人ビジネス機械・情報システム産業協会

Silk Central Connect 15.5 リリースノート

JavaScript カスタマイズ入門 kintone university アプリデザイナープラス JavaScript カスタマイズ入門編演習問題回答 演習問題 第 2 章サンプルで試そう 1 cybozu.com developer network の サンプルで試そう ( 以下 サンプル と

COBOL EE開発環境 ご紹介資料

intra-mart Accel Platform

スライド 1

事前準備 1. Visual Studio Community 2013 または Professional 以上のエディションのインストール 2. Android スマートフォンへの任意の QR コードリーダーアプリのインストール 3. アプリ素材のダウンロード

引き算アフィリ ASP 登録用の日記サイトを 作成しよう Copyright 株式会社アリウープ, All Rights Reserved. 1


IBM 次世代クラウド・プラットフォーム コードネーム “BlueMix”ご紹介

Code_Aster / Salome-Meca 中級者への道 2015年5月31日

Oracle Business Rules

2. オプション設定画面で, 必要事項を記入 選択します. 少なくとも, タイトル に課題の見出しとなる文章を入力する他, 種別 を アンケート( 無記名式 ) に設定する必要があります. また, アクセス制限はここでは コースメニューで非表示にする に設定します. その他設定は必要に応じて行って下

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審

Oracle Cloud Adapter for Oracle RightNow Cloud Service

目次 更新履歴... 1 画面設計書の目的... 3 必要な内容... 3 画面一覧... 4 必要な内容... 4 画面遷移... 5 画面レイアウト... 6 入力パラメータ... 7 必要な内容... 7 項目定義... 8 必要な内容... 8 部品の種類... 9 ( 参考 ) 部品指定と

PowerPoint プレゼンテーション

BIP Smart FAQ

OneDrive for Businessのご紹介

PPT113_簡易マニュアル(横)

Delphi/400を使用したWebサービスアプリケーション

yukarik


PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

Microsoft Word - RefWorksコース( _.doc

Microsoft Word - RefWorksコース doc

Oracle SALTを使用してTuxedoサービスをSOAP Webサービスとして公開する方法

CubePDF ユーザーズマニュアル

Sharing the Development Database

の ご紹介

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

Office Survey System V4 オフィスサーベイシステム Ver.4.0 社員拡張属性機能のご紹介 2018 年 8 月 有限会社アルファ アソシエイツ

15288解説_D.pptx

PowerPoint プレゼンテーション

<91808DEC90E096BE8F EA94CA95D2816A2E786C7378>

WagbySpec7

PassSureExam Best Exam Questions & Valid Exam Torrent & Pass for Sure

<< 目次 >> 1 PDF コンバータのインストール ライセンスコードの入力 PDF にフォントを埋め込みたい場合の設定 PDF オートコンバータ EX で使用しない場合 PDF コンバータ単体で使用する場合の説明 PDF コンバータのアン

WBT [6] [7] [8] [9] Web [1] WBT [2] [3] ipad PC ipad ipad ipad [4] QR QR [5] IC IC PDA IC PDA US-ASCII 4,296 QR IC IC IC QR QR QR A BB A A CC

5-2. 顧客情報をエクスポートする 顧客管理へのアクセス手順 メールディーラーで管理する顧客情報に関する設定を行います 1. 画面右上の 管理設定 をクリックする 2. 管理設定 をクリックする 3. ( タブ ) 顧客管理 をクリックする 2

Webサイト解析 ログ分析レポート

Ⅰ. 問題を 1 問ずつ入力していく方法 1. 挿入 メニューから e- ラーニング を選び テスト をクリックして下さい 2. 新規テストの作成ウィザード ( テストの設定 ) が開くので各項目を設定して下さい ここでは 名称を 確認問題 満点を 5 点 合格点を 3 点 制限時間なしで設定します

報道関係者各位 プレスリリース 2019 年 01 月 15 日 株式会社ネオジャパン グループウェア desknet's NEO バージョン 5.2 を 1 月 15 日に提供開始 ~ 業務アプリ作成ツール AppSuite との連携を強化 他にも AppSuite 連携 API 公開など多数の機

■デザイン

変更履歴 版数 修正日 修正箇所 修正内容 /7/27 初版 /12/4 - プロパティを修正 2 / 10

スーパー英語アカデミック版Ver.2

開発・運用時のガイド JDK8への移行に伴う留意点 [UNIX]

IBM Rational Software Delivery Platform v7.0 What's

電話業務 の課題を 自動化 半自動化で 解決する CallCall-IVR CallCall-IVR は これまでの電話システムでは難しかった電話受付時の音声ガイダンスのリアルタイム編集 AI チャットボット連携 音声認識 自動翻訳などの管理をオンラインサービス ( 企業ご担当者様ご自身で編集 )

本書の内容について ( 目次 ) はじめに 1 初期設定を行う 1 ログインする 2 企業情報を設定する 2 メンバーを登録する 3 その他の設定 :SFA/CRM 利用権限設定 6 その他の設定 : 設備予約設定 7 本書の内容を越える 詳しい操作マニュアルは Knowledge Suite 操作

PowerPoint プレゼンテーション

Slide 1

4_Dojo_OpMan_v200.xlsx

Taro-time to spare.jtd

eYACHO 管理者ガイド

Microsoft Word - A04 - Configuring Launch In Context_jp-ReviewedandCorrected a.doc

キリしていて メニューのボタンも大きくなっているので マウス操作はもちろん タッチ操作でも使いやすくなっているのが特長です アドレスバー画面上部にあるアドレスバーは インターネット検索も兼ねています ここにキーワードを直接入力して検索を実行できます 現在表示されているタブの右横にある + をクリック

<4D F736F F D D28F A82B582F182AB82F C DEC90E096BE8F E C52E646F63>

ITdumpsFree Get free valid exam dumps and pass your exam test with confidence

Oracle SQL Developerの移行機能を使用したOracle Databaseへの移行

改訂履歴

il12-portal2.key

PowerPoint Presentation

<4D F736F F F696E74202D208A778F708FEE95F197AC92CA82F08EC08CBB82B782E98B5A8F E97708B5A8F70816A5F94D196EC8D758E742E >


MWSCup2017c1-dist

MotionBoard Ver. 5.6 パッチ適用手順書

AI AI Artificial Intelligence AI Strategy& Foresight AI AI AI AI 1 AI AI AI AI AI AI AI AI AI AI AI AI AI 2 AI 1 AI AI 3 AI 3 20 AI AI AI AI AI

ScholarOne Manuscripts オンライン投稿マニュアル 1 語表 の切替え 2 ログイン 34 アカウント作成 5 ホーム 6 ダッシュボード 7 順 1: 種別 タイトル 要旨 8 順 2: キーワード 9 順 3: 著者 10 順 4: 希望査読者 11 順 5: 設問 12 順

PowerPoint プレゼンテーション

サイボウズ Office 9 掲示板マニュアル

よくある問題を解決する~ 5 分でそのままつかえるソリューション by AWS ソリューションズビルダチーム

KS_GoogleApps_guide

Transcription:

Watson と OSS の AI/Deep Learning 本アイ ビー エム株式会社ワトソン事業部 雅典

おことわり この資料の内容は講演者 の個 的 解であり 所属会社の 場 戦略 意 を代表するものではありません この資料は執筆時点の情報を元に書いているため 必ずしも最新情報であるとはかぎりません この資料の内容の正確性には責任を負いません IBM IBM ロゴおよび ibm.com は 世界の多くの国で登録された International Business Machines Corporation の商標です 他の製品名およびサービス名等は それぞれ IBM または各社の商標の場合があります 現時点での IBM の商標リストについては www.ibm.com/legal/copytrade.shtml をご覧ください 当資料に記載された製品名または会社名はそれぞれの各社の商標または登録商標です 1

講演者略歴 雅典 1987 年 本アイ ビー エムに 社 社当時は 東京基礎研究所研究員として APL2 を利 した数式処理システム 数学教育 援システムの研究開発に従事する 1993 年に SE 部 に異動し IT スペシャリストとして主にオープン系システムのインフラ設計 構築及びアプリケーションデザインを担当 2013 年よりスマーターシティ事業に転属し 2016 年 8 にワトソン事業部に異動 今に る いろいろな領域を幅広くやっているので 基盤系からアプリ開発 プログラム 語 SQL チューニングまで 通り語れるのが 慢 mail: akaishi@jp.ibm.com 2

次 第 部 IBM Watson 紹介 Watsonとは Watson API - NLC(Natural Language Classifier) - R&R(Retrieve and Rank) - VR(Visual Recognition) - Discovery 第 部 Watson と OSS の関わり Watson 開発環境としての OSS Watson API 構成要素としての OSS - R&R と Solr の関係 - Discovery と Elasticsearch の関係 WatsonとOSS 機能レベルの 較例 - VRとTensorflowサンプルアプリの 較 3

第 部 IBM Watson 紹介 Watson とは 4

人工知能研究とコグニティブ システム 間の知的活動を拡張 記号処理 IBM リサーチのグランドチャレンジプロジェクト 然 語処理 チェス対戦 DeepBlue 知識表現 質問応答システム Watson Ø がん診断 援 Ø 保険査定 援 Ø 顧客接点変 Ø 画像認識 Ø 声認識 コグニティブシステム ( コグニティブビジネス基盤 ) 脳のはたらきを再現 ニューラルネットワーク 専 知識のルール化 機械学習 Deep Learning Artificial Intelligence エキスパート システムビッグデータ活 AI 基盤 1960 1980 2000 2016 International Business Machines Corporation 5

人工知能研究とコグニティブ システム 間の知的活動を拡張 記号処理 IBM リサーチのグランドチャレンジプロジェクト 然 語処理 チェス対戦 DeepBlue 知識表現 質問応答システム Watson Ø がん診断 援 Ø 保険査定 援 Ø 顧客接点変 Ø 画像認識 Ø 声認識 Augmented Intelligence コグニティブシステム ( コグニティブビジネス基盤 ) 脳のはたらきを再現 ニューラルネットワーク 専 知識のルール化 機械学習 Deep Learning Artificial Intelligence エキスパート システムビッグデータ活 AI 基盤 1960 1980 2000 2016 International Business Machines Corporation 6

コグニティブ システムの特長 従来のコンピューター システムとの違い 理解 (Understanding) 推論 (Reasoning) 学習 (Learning) と対話をし 必要な情報の探索や 度な意思決定を 援する (Interacting) 2016 International Business Machines Corporation 7

人間の知識を活用するコグニティブ システム 知識を活 しビジネス課題を解決 ソリューション Watson Solution Framework 照会応答 Engagement 考える 読む る 聴く 話す Watsonの 提供する機能 知識ベース 探索 発 Discovery 意思決定 援 Decision Watsonコグニティブ サービス 質問応答 テキスト解析 探索 発 声認識合成 画像認識 然 語処理 知識表現 機械学習 Deep Learning 個別領域 献 企業内データ 2016 International Business Machines Corporation 概念体系 辞書 脈情報 専 家の 知 8

顧客接点 Watson の顧客接点への適 - 対話型 動応答 三菱東京 UFJ 銀 は 10 7 より Web チャット形式の 動対話応答機能 バーチャルアシスタント Chat サービス を開始 モバイル IBM Watson コーヒーマシーン ネスレ ジャパンは IBM Watson を活 したマルチ チャネル対応の対話型 動応答によるお客様サポート ネスレ チャット アシスタント を 11 21 より開始 タブレット PC LINE コールセンター JAL は 12 5 IBM Watson を活 し JAL バーチャルアシスタントサービス 開始 ちゃん同伴のハワイ旅 の不安を解消 2016 International Business Machines Corporation 9

探索 発 Watson の知識探索 活 ソリューション ~ ベイラー医科 学との共同研究 膨 な 化学研究 献の分析をとおして癌治療の研究を加速 CHEK2 BMPR2 GREEN p53 Kinases RED/ORANGE/YELLOW Predicted Targets 試験管テスト 体研究 化合物 Watson Corpus ( 知識ベース ) 化学物質データベース 公開されたゲノム情報 医療 献 副作 毒性 Medline Watson の適 : クリニカル トライアル 実験ノート その他 1TB 超データ 4000 万超 献など 他の刊 物 FDA drugs/labels 特許 l p53 の活性化と不活性化を導くタンパク質を予測するため p53 に関する 7 万もの科学論 を分析 l この 動分析によって ベイラー医科 学のがん研究者は 新たな研究対象となり得る 6 つのタンパク質を特定 2016 International Business Machines Corporation 10

意思決定 援 Watson が学習する専 家の判断 ~ Watson 技術を活 した保険 払審査業務 かんぽ 命は コグニティブ コンピューティング IBM Watson を導 国内保険会社としては初めて 保険 払審査業務で 度な判断が必要とされる 的査定の 援に役 てようとしている 過去の査定事例に含まれるビッグデータを Watson に学習させることで 10 年近い経験が必要だった難易度の い査定業務を 較的経験の浅い社員でも実施可能にするとともに 査定品質の向上や 産性の向上を図るのが 的だ 本 IBM 提供 経 PR 記事より http://ps.nikkei.co.jp/ibmwatson1603/p2.html 2016 International Business Machines Corporation 11

Watson とは ところで Watson とはなんなのか? 実はいろいろな意味の Watson があります クイズ番組に勝った Watson: 数百 の研究者チームが つの 的のため何年もかけて開発した特注システム 先進的な Watson: "Jeopardy!" ほどではないが 新規ソリューション開拓を 的に戦略的に構築されたシステムが多い 事例紹介にでてくるものは今のところこのパターンが多い 普通の Watson: 商 の製品 サービスを組み合わせてつくるソリューション 上記に べて簡単に構築できるが 機能的な制約は多い 現段階で本番運 されているのは ほとんどが顧客接点系 次ページ以降で紹介するのは 普通の Watson を構築するためのサービス 製品ということになります 12

Watson の構成要素と製品ファミリー Watson 製品ファミリー製品 サービスの形態として きく次の 3 つに分類される 本 はこのうち 2 の API サービスを中 に紹介します 1 オンプレミス製品 (Watson Explorer) 2 クラウド上の API サービス (Natural Language Classifier 等 ) 3 クラウド上の SaaS サービス (Watson Knowledge Studio) ユースケース 顧客対応オペレータ 援 セルフサービス型顧客対応 融商品アドバイス リスク管理 がん診断 援 審査プロセス クリニカルトライアルマッチング 創薬 援 エコシステムパートナーソリューション Watson 製品 / サービス IBM SW 製品 3Watson Knowledge Studio 1Watson Explorer ( テキスト解析エンジン ) 自然言語解析機能 分析機能 2016 International Business Machines Corporation 2Watson API Natural Language Classifier, Conversation, Retrieve & Rank, Personality Insights, Speech to Text, Tone etc. Watson Analytics ( 他の SaaS サービス ) コグニティブ (AI) の領域 Other Analytics Software Cognos, SPSS, 構造データ構造データ

Watson API 紹介 - NLC (Natural Language Classifier) - R&R (Retrieve and Rank) - VR (Visual Recognition) - Discovery 14

Watson Developer Cloud で提供の API サービス Watson Developer Cloud で提供している API サービスは 々進化しています 2017 年 3 18 現在の提供サービスは以下の通りとなります 語系 画像系 Natural Language Classifier テキスト 章の分類を う ( 質問の意図推定など ) Conversation アプリケーションに 然 語インターフェースを追加してエンドユーザとのやり取りを 動化 Personality Insights テキストから筆者の性格を推定する Tone Analyzer( 本語未対応 ) テキストの感情 社交性 体を解析する Visual Recognition 画像コンテンツに含まれる意味を検出する Retrieve and Rank 然 語の質問に対して 回答の候補を返す Document Conversion 書を新しい形式に変換する Natural Language Understanding( 本語未対応 ) 然 語処理を通じてキーワード抽出 エンティティー抽出 情分析 感情分析 概念タグ付け 関係抽出 分類法種別 作成者抽出などを う Language Translator( 部 本語未対応 ) 1 然 語テキストについて翻訳対象の 語へ翻訳を う 声系 Speech to Text 声をテキスト 章に変換する Text to Speech テキスト 章を 声に変換する 分析系 Discovery( 本語未対応 ) 認知検索およびコンテンツ分析エンジンをアプリケーションに追加して 優れた意思決定を うのに役 つパターン 傾向 およびアクション可能な洞察を識別する Tradeoff Analytics( 本語未対応 ) 複数の競合する選択肢の中から 選択を う過程を 援する 本 紹介する API https://www.ibm.com/watson/developercloud/services-catalog.html 1 Language Translator に関してはニュースドメインのみ 本語対応をしています

NLC (Natural Language Classifier) NLC とは : 質問やテキストに含まれるひとつまたは複数の意図を判別する機能 意図とは 内部の実装として deep learning を利 質問や発 から 語に含まれるノイズを取り除いて それが何を おうとしているか あるいは何を聞こうとしているのかということ 例 : 銀 座はどうやって開けますか? 銀 で 座を開くために必要なものを教えてください はどちらも 銀 座開設 法 という 意図 を聞くための質問 のバリエーション NLC での学習とは 銀 座開設 法 を意図とする異なる複数の質問 ( 最低 10 個程度 ) を同じ意図のバリエーションとして学習させる -> 学習の結果 質問 と似た表現の質問 に対しても同じ 意図 を持つ質問 であると解釈できるようになる -> FAQ と呼ばれるよくある質問に対して適切な回答を つける仕組みを実現するのに適した仕組み 16

NLC (Natural Language Classifier) ( 学習フェーズ ) 質問 銀 座はどうやって開けますか 銀行で口座を開くために必要なものを教えてください 住所変更はどうやって いますか 転居したのですが どうしたらいいですか 学習 意図 銀 座開設 法 つの 意図 に対して 表現の異なる複数の 質問 ( 最低 5 つ 20 程度が望ましい ) を 意し 学習させる 住所変更 続き ( 運 フェーズ ) 質問 ( ) 学習させた質問 と似た表現の質問は同 NLC 問い合わせ結果 ( 出 ) じ 意図 と判断するようになる意図候補確信度 銀 座を開きたいのですが 銀 座開設 法 0.95 住所変更 続き 0.10 : : 17

R&R とは : R&R (Retrieve and Rank) 複数ある検索結果の優先順位を学習によって変更するしくみ 質問 辞書 Retrieve Rank Solr ( インデックスされた文書 ) ランカー ( トレーニングモデル ) 再ランクされた回答 コレクション ( 書群 ) Solr による検索結果 ランカーによって再ランクされる この時点では Solr という OSS の検索エンジンによる検索結果が単純に返る 表 順は 検索キーワードの頻度に基づくもので 重要性の順とはなっていない ランカーと呼ばれる機械学習モデルに検索結果の優先順位を学習させる 学習を続けると 重要な順番に表 されるようになる 18

R&R (Retrieve and Rank) 実 サンプル 質問 : 明治維新の志 たちにちなんだ名所を教えてください 回答結果例 : ID Title Body 692 親鸞聖 御旧跡きらら坂 京都の観光名所の つです 修学院離宮の脇より 叡 の 頂に る古道で 親鸞上 も参拝に利 したと伝えられています ( 中略 ) 760 新島旧邸同志社の創 し 幕末は志 としても活躍した新島襄の旧邸宅です ( 中略 ) 897 維新の道坂本 をはじめ 維新の志 たち 549 が霊 に祀られています ( 中略 ) 学習 法 : グランドトゥルース と呼ばれる 質問 と回答の関連度を CSV で表現したファイル ( 関連度ファイル ) を 意し API でサーバーにアップロードすることで学習させます ( 例 ) 明治維新の志 たちにちなんだ名所を教えてください, 897, 3, 760, 2, 692, 0

Visual Recognition の提供機能 Visual Recognition は画像コンテンツに含まれる意味を検出します この API は下記の詳細機能を提供しています Image Tagging Facial Detection Visual Learning 般種別画像の特徴を検知し タグとして抽出しクラス キーワード ( などの 般名詞 ) を 成します この機能は事前学習済みであり 成されるキーワードは他ユーザーと共通のものとなります 顔検出イメージ内の 物の顔を検出します また 顔の 般的な年齢層と性別も されます 有名 に関してはその名称も検出することが可能です この機能は事前学習済みであり 検出結果は他のユーザーと共通のものとなります 画像トレーニングカスタム画像種別を います ユーザーが識別を いたいクラスのイメージを事前学習させます 識別結果は確信度と共に返されます Similarity Search Link Extraction 類似イメージ検索 ( ベータ ) 事前準備としてイメージのコレクションをアップロードした後 検索をかけると視覚的に類似したイメージを検出します Web 画像抽出指定された URL 先の Web ぺージの内容を分析し ページ内容に 番関連性の い画像を抽出します 20

画像トレーニング (Visual Learning) 画像トレーニング について内部の実装としてdeep learningを利 的 Visual Recognition による事前分類やフィルタリングをすることで 業務における様々な確認や分析作業を う 間の負荷低減を います 不適切な画像のフィルタリング 画像選択での事前分類 商品や製作物の品質確認 トレーニングデータ 分類すべきクラスごとに集められた最低 10 枚の画像 ( 適切な分類品質を得るには 50 枚以上 理想的には 200 枚 ) どのクラスにも該当しないネガティブな画像 (2 つ以上のクラスがある場合はなくてもいい ) Apple クラス ( ポジティブ ) Banana クラス ( ポジティブ ) Orange クラス ( ポジティブ ) Vegetable ( ネガティブ ) 分類器 Apple 21

画像トレーニング (Visual Learning) 画像トレーニングの利 サンプルネットで有名になった ラブラドールと 分けの付かないフライドチキン を VR で 分ける 学習データネット上で集めたラブラドールとフライドチキンの写真約 200 枚ずつ 22

画像トレーニング (Visual Learning) 検証結果 全問正解 参考リンク : http://qiita.com/vegasato/items/863b614cd5ab88cf2d44 23

Discovery Discovery はテキスト分析の SaaS/API プラットフォームとして これから IBM が推進しようとしているサービスです 下記の機能を つの API ですべて持っていることが最 の特徴です データ取り込み機能 : HTML / PDF / WORD / JSON に対応 機能的に従来の Document Conversion と同等です エンリッチ機能 : 取り込んだ 書に対して NLU(Natural Language Understanding) によるタグ付けを います 追加可能項 は Entity, Concepts など最 7 項 です ストレージ機能 : データはクラウド上に INDEX として保存されます 検索機能 : エンリッチ機能で付加された情報を含め データの検索を うことができます 内部で動いている検索エンジンは OSS の Elasticsearch です 24

Discovery Query サンプル (1) ( ユースケース ) IBM が XXX 社を買収する という News 記事中の 章をすべて収集する ( 検索パラメータ ) aggregation=nested(relations).filter(relations.action.text:acquire,relations.subject.text:ibm).term(relations.sentence) Discovery は検索用の Query 言語を持っており これを使うことで複雑な検索も一回の API 呼び出しで行うことが可能です この例では 検索対象コーパスに IBM が標準で提供している Discovery のコレクションである Watson News を利用しています

Discovery Query サンプル (2) ( ユースケース ) 2017 年 1 1 から 2017 年 1 31 までの間の Airbnb に関する記事という条件で検索し その記事の評判分析を 単位で う ( 検索パラメータ ) aggregation 機能は複数の関数を連続して利 可能 query= text:airbnb count=0 aggregation=term(docsentiment.type).timeslice(blekko.chrondate,1day) filter=blekko.chrondate>1483196400,blekko.chrondate<1485788400 期間を FROM-TO で絞り込む場合 chrondate を利 する Query の結果 グラフ化の結果 (D3.js を利 )

第 部 Watson と OSS の関わり Watson 開発環境としての OSS Watson API 構成要素としての OSS - R&R と Solr の関係 - Discovery と ElasticSearch の関係 WatsonとOSS 機能レベルの 較例 - VRとTensorflowサンプルアプリの 較 27

Watson 開発環境としての OSS GitHub Watson Developer Cloud ( おまけ )Kibana の利 28

Watson 開発環境としての OSS GitHub GitHub はソースコード管理 + チーム開発 援機能を持った統合環境です OSS のリポジトリとして 常に有名です IBM は 2016 年に Github との戦略的提携を発表しています Watson Developers Cloud Watson API を使ったアプリ開発を 援する環境です ライブラリ サンプルアプリリポジトリは GitHub 上に構築されています Bluemix と連携することで 効率のいい 開発 テスト 実 環境を構築可能です https://github.com/watson-developer-cloud/ 以前に べて IBM の開発系のマインドがオープン志向になった つの象徴 29

Watson 開発環境としての OSS サンプルアプリのリポジトリの README.md ファイル例を下に します Bluemix のアカウントを持ったユーザーがこのボタンをクリックすると Bluemix に向けて deploy が始まり 数分後には利 可能なサービスまで起動される状態になります 簡単にサンプルアプリのビルド 実 ができます Watson を試してみたい は是 お試し下さい 30

Watson 開発環境としての OSS ( おまけ )Kibana の利 Watson API 呼び出し のアプリケーションサーバーを Bluemix 上に作った場合 そのサーバーのログ分析に Kibana を利 できる形になっています ダッシュボード左のメニューから ログ をクリックします 画 右の 詳細ビュー をクリックします Kibana が 動的に起動します 31

Watson API 構成要素としての OSS R&R と Solr の関係 Discovery と ElasticSearch の関係 32

R&R と Solr の関係 Watson API の つである R&R (Retrieve and Rank) では OSS の検索エンジンである Solr が API の構成要素として使われています -> 実は R&R は簡単に構築可能な Solr SaaS として利 することも可能です ( 基盤的な冗 構成も API が裏でやってくれています ) 質問 辞書 Retrieve Solr 連携 プラグイン Rank IBM 独 開発機械学習モデル OSS 部分 (Solr + kuromoji) Solr ( インデックスされた文書 ) ランカー ( トレーニングモデル ) 再ランクされた回答 コレクション ( 書群 ) Solr による検索結果 ランカーによって再ランクされる 33

R&R と Solr の関係 R&R の API で Solr Index 作成時に必要な構成ファイルの 部を以下に します 本語形態素解析には Solr にバンドルされている OSS の kuromoji が使われています Solr 連携 プラグイン <fieldtype name="watson_text_ja" indexed="true" stored="true" class="com.ibm.watson.hector.plugins.fieldtype.watsontextfield"> <analyzer> 形態素解析実装は kuromoji <tokenizer class="solr.japanesetokenizerfactory" mode="search"/> <filter class="solr.japanesebaseformfilterfactory"/> <filter class="solr.japanesepartofspeechstopfilterfactory" tags="lang/stoptags_ja.txt"/> <filter class="solr.cjkwidthfilterfactory"/> <filter class="solr.stopfilterfactory" words="lang/stopwords_ja.txt" ignorecase="true"/> <filter class="solr.japanesekatakanastemfilterfactory" minimumlength="4"/> <filter class="solr.lowercasefilterfactory"/> </analyzer> </fieldtype>

R&R と Solr の関係 (API リファレンス記載の標準検索パターン ) Ranker なしに素の Solr を呼び出す 法と Ranker 付きで呼び出す 法の 2 通りがあります 1 つの Solr Index に複数の Ranker を持たせることも可能です Ranker なしに素の Solr を利 ( 表 順は Solr の結果と同 ) ${base_url}/solr_clusters/${cluster_id}/solr/${collection_name}/select? q=' 検索文字列 '... Ranker による順付けを う場合 ( 機械学習の結果を含めて表 順が決まる ) ${base_url}/solr_clusters/${cluster_id}/solr/${collection_name}/fselect? ranker_id=${ranker_id},q=' 検索文字列 '...

R&R と Solr の関係 ( テストで判明した拡張検索パターン ) Solr で元々持っている MLT(MoreLikeThis 類似検索 ) も 夫すると使えます ただし この場合 Ranker との連携はできなくなります MoreLikeThis Handler 呼び出しを う場合 R&R 標準の構成ファイルに修正が必要です MoreLikeThis Component の呼び出し ${base_url}/solr_clusters/${cluster_id}/solr/${collection_name}/select? mlt=true,q=' 検索文字列 '... MoreLikeThis Handler の呼び出し ${base_url}/solr_clusters/${cluster_id}/solr/${collection_name}/mlt? q=' 検索文字列 ',mlt.mintf=2,mlt.mindf=5... 後者の呼び出しを う場合に必要な構成ファイルの追加定義 <!-- Added by this project for mlt --> <requesthandler name="/mlt" class="solr.morelikethishandler"> </requesthandler> R&R を Solr として使う場合のより詳細な情報については下記リンク先を参考とされて下さい https://www.ibm.com/watson/developercloud/doc/retrieve-rank/solr_ops.shtml#incompatible

Discovery と Elasticsearch の関係 R&R では API 内部のインデックス 検索機能の実装が Solr だったのに対して 新しい API である Discovery ではその内部で Elasticsearch を利 しています Discovery API で query により検索をかけると結果セットはそれぞれ score を含んでいて これが検索 との適合度を しています 結果セットは socre の い順に返されるので 結果的に より検索 に合致した 書から順に表 されることになります この score の実装は OSS である Elasticsearch により われています (Index 体も Elasticsearch のもの ) Discovery の検索のもう つの きな特徴である aggregation 関数に関しては Discovery(IBM) 独 の実装となってます Discovery は OSS の Elasticsearch の特徴をうまく活 した API であるということができます

Discovery と Elasticsearch の関係 Discovery での検索サンプル下の図は Watson News に対して Discovery の query 機能で検索をした結果です Elasticsearch で求められた score の い順に結果が返されていることがわかります 同じキーワードを filter 機能で検索すると 結果件数は同じですが score の値はすべて 0 になります query 検索引数 画 ここに検索条件を れるとスコア付きで検索結果が返る スコア付きで検索結果が返ってきている様

WatsonとOSS 機能レベルの 較例 - VRとTensorflowサンプルアプリの 較 39

VR と Tensorflow サンプルアプリの 較 資料作成のきっかけ Watson API の VR と Tensorflow はどちらがいいのか という質問をする IBM 社員 お客様が多いことに気付きました そもそも この 2 つを 較するのは 業務パッケージと WEB framework の stutus2 のどちらがいいか を 較するのと同じくらい意味がないことなのですが ということで 社員向けに VR と Tensorflow の ち位置の違いを説明するとともに 相 が Tensorflow でなく Tensorflow サンプルアプリなら 較可能ではあるので そのような 較テスト結果も付けた資料を作成しました 40

VR と Tensorflow サンプルプログラムとの 較 VR の画像トレーニング機能は 機能的には Google で提供している Deep Learning フレームワーク Tensorflow 付属のサンプルプログラムと似た点がありますが サービスのレベルは相当異なっています 以下にその違いを整理しました Visual Recognition 画層トレーニング Tensorlflow サンプル (full_connected_feed.py) ニューラルネットへの 由度 学習 の データ 学習にかかる 間 トレーニングに必要なイメージ数 内部処理はすべて隠蔽されていて 学習データ以外に外部から調整できる余地はない 般的な jpeg または png ファイルを クラス毎に zip で固めたもの イメージサイズは 320x320 が理想的だがそうでなくてもいい 画像の収集 -> クラスことに zip に固める ->API 呼び出しで終わるので 常に簡単 1 クラスあたり最低 50 枚 理想的には 200 枚程度 これ以上多くなってもあまり学習には効果がない ニューラルネットの組み 重み付け関数のパラメータなどすべて調整可能 ( サンプルはあくまで最低限の動作をするプログラムという位置づけ ) 機械学習しやすいよう イメージデータからヘッダなど除いて 1 次元配列データに展開したもの サンプルプログラムのため 解像度は 28x28 で固定 実際のイメージファイルを とする場合 機械モデルの となる 1 次元配列データを作るため事前準備としての加 が必要 サンプルアプリは 1 クラスあたり 5000 枚 ( 全体で 50000 枚 ) を利 している ある程度の認識性能を出すためにはこの程度の枚数が必要と考えられる トレーニングに必要なイメージ数 については 2 つの 式で実際にテストし結果を 較しました 41

ベンチマークテスト VR および Tensorflow サンプルアプリでの学習曲線を条件をそろえてテストしました VR に関しては最新の 2016-05-20 版 Tensorflow に関しては v1.0 を利 しています テスト 法 : VR と Tensorflow サンプルプログラムとの 較 教師データ : http://yann.lecun.com/exdb/mnist/ に公開されている 書き 字 (0 から 9 の数字 ) サンプルデータを利 しました 0 から 9 までの数字はランダムに出てくるので 例えば先頭から 500 件のデータを取ると 1 クラスあたりそれぞれ約 50 枚のイメージが対応する形になります 全体で 60000 件分ありますが 先頭から N 件のみを教師データとするテストを N を変えて いました VR には このデータに逆変換をかけて png ファイルとしたものを利 しました 確認データ : http://yann.lecun.com/exdb/mnist/ に公開されている 書き 字 ( 数字 ) サンプルデータ データの形式は教師データと同様です 全体で 10000 件分ありますが 条件を合わせるため先頭から 100 件のみを検証データとしました Tensorflow に関しては テストの試 のたびに正解数にばらつきがあったので 5 回テストを い平均値を取りました 42

ベンチマークテスト結果 VR と Tensorflow サンプルプログラムとの 較 結論として Visual Recognition の が少ない枚数で認識可能であることがわかりました ある程度の品質を担保するのに 1 クラスあたり 50 枚 ( 全体件数に換算すると 500 枚 ) 理想的に 200 枚 ( 全体件数換算で 2000 枚 ) という Visual Recognition の学習ガイドの妥当性も確認できました 1 クラス当たり学習データ数 VR tensor flow サンプル 1 回 2 回 3 回 4 回 5 回 10 73% 69.2% 70% 68% 64% 72% 72% 20 88% 72.8% 74% 74% 72% 71% 73% 50 96% 86.2% 86% 86% 86% 87% 86% 100 95% 89.2% 89% 88% 90% 92% 87% 200 99% 88.6% 88% 89% 89% 88% 89% 500 89.4% 91% 88% 90% 88% 90% 1000 92.4% 93% 92% 93% 92% 92% 43

VR と Tensorflow サンプルプログラムとの 較 ベンチマークテスト結果前ページの結果をグラフで したものです 44

VR と Tensorflow サンプルプログラムとの 較 Visual Recognition が少ない学習データで い認識精度を出せる理由について ( 参照元 ) https://developer.ibm.com/answers/questions/316140/visual-recognition-capabilities/ ( 本語訳抜粋 ) Visual Recognition の画像トレーニング機能は deep learning の仕組みを使っていますが 新しい分類器を作った時点で数百万のサンプルデータによる事前学習データが活 されています deep learning の中 的な概念は 特定のクラスを他のクラスと分類するのにどのような特徴量を利 するかです このような特徴量は 形 質感 (texture) などで明 的に表されるものではなく トレーニングにより学習される機械ネットワークの数千万のパラメータによって暗黙に表現されます Visual Recognition は 形 質感 (texture) などの特徴量を組み合わせた形によりクラス間の識別を っているということができます -> 事前学習と合っていない種類の画像の識別ではうまくいかない可能性も考えられます 45

VR と Tensorflow サンプルプログラムとの 較 較結果まとめ 今回の 較は Watson API で提供されている機能と TensorFlow などのフレームワークを利 したカスタム AI との 較に 般化することも可能です そういう観点で両者の 所 短所を 較すると次のようになります それぞれの特徴を理解して適材適所で対応することが重要です Watson API カスタム AI コスト 1 Call あたりの従量料 なので い 1 度開発してしまえば従量料 はかからない 適 範囲 限定されている 機械学習が適 可能な領域に対しては どこでも可能 利 しやすさすぐに使える開発 数がかかる 学習 数 VR のように事前学習されたモデルでは少ない学習 数となる場合がある 基本的に多くの学習 数が必要 ( 夫次第ではそうでないこともある ) チューニング余地 完全なブラックボックスで 切できない ニューラルネットワークの組み パラメータなどいくらでも可能 46

End of File 47