日 本 音 響 学 会 北 陸 支 部 ジョイント 研 究 会 資 料 PCに 於 けるGoogle 音 声 認 識 の 利 用 山 崎 信 久 (ウィンドクラフト) 船 田 哲 男 ( 元 金 沢 大 )
音 声 認 識 の 種 類 方 式 特 定 話 者 方 式 ( 特 定 話 者 での 学 習 が 必 要 ) 不 特 定 話 者 方 式 ( 学 習 不 要 ) 種 類 連 続 認 識 単 語 認 識 ( 限 定 語 認 識 ) 連 続 認 識 単 語 認 識 ( 限 定 語 認 識 ) 例 ) Windows 搭 載 音 声 コマンドTool Julius Julian(Julius 統 合 ) ドラゴンスピー チ AmiVoice Google 音 声 認 識 用 途 例 口 述 筆 記 コマンド 操 作 口 述 筆 記 自 動 応 答 翻 訳 翻 訳 Google 音 声 認 識 : 単 語 認 識 に 近 いが 限 定 語 ではない
不 特 定 話 者 認 識 ソフト 例 音 声 認 識 の 状 況 Julius ( 京 都 大 学 等 ) オープンソースで 高 速 な 認 識 辞 書 が 固 定 学 習 機 能 がないため 認 識 率 が 向 上 しない AmiVoice (アドバンスド メディア 社 製 品 ) 実 用 的 な 変 換 速 度 と 認 識 率 学 習 機 能 があり 認 識 率 向 上 可 能 入 力 依 存 性 が 高 い ヘッドセット 以 外 では 認 識 率 低 下 開 発 者 利 用 は 困 難 *その 他 翻 訳 ソフトの 超 速 通 訳 ツージル などもある
AmiVoiceのデモ(メーカ) 実 用 的 な 認 識 速 度 実 用 的 な 認 識 率 同 音 異 義 語 の 学 習 機 能 入 力 の 依 存 性 大
Googleの 音 声 認 識 の 登 場 インフラの 変 化 ネットワークの 進 歩 ( 高 速 化 ) スマートホンの 台 頭 ( 端 末 小 型 化 ) 使 用 者 の 変 化 通 信 による 情 報 参 照 キーボードレス 時 の 入 力 手 段 Googleが 音 声 認 識 を 発 表 2009 年 にスマートホン 向 けから 開 始
Google 音 声 認 識 デモ 実 用 的 な 認 識 率 キーボードより 高 速 な 入 力 入 力 の 依 存 性 小 通 常 環 境 で 良 好 な 認 識 語 句 レベルでの 認 識 長 文 に 不 向 きだが 検 索 には 十 分 認 識 のタイムラグ 話 しながらの 認 識 には 不 向 き
Google 音 声 認 識 (1) 経 緯 2009 年 末 Googleが 発 表 スマートホン 向 けとしてiPhone Android 用 に 発 表 特 徴 不 特 定 話 者 認 識 ( 学 習 不 要 ) 実 用 的 な 認 識 率 ( 検 索 で 語 彙 の 予 測 ) 条 件 ネットワーク 接 続 ( 要 高 速 ) ポイント サーバで 認 識 する 単 語 認 識 に 近 いが 特 定 語 ではない ( 良 く 検 索 する 語 句 は 認 識 率 が 高 い) 速 度 は 話 す 速 度 には 追 いつかない ( 区 切 りが 必 要 になる)
Google 音 声 認 識 (2) スマートホンの 状 況 iphone: 主 に 検 索 用 のアプリとして 提 供 されている Android: 上 記 以 外 に 音 声 認 識 インテント( 入 力 ダイアログ 風 ) として 開 発 利 用 可 能 IME 版 の 開 発 によりどのアプリでも 音 声 入 力 可 能 (ベータ) google-voice-typing-integration https://code.google.com/p/google-voice-typing-integration/source/browse/#git%2fvoiceimedemo Googleの 提 供 内 容 iphone アプリ 内 部 での 利 用 のみ (Googleの 提 供 アプリのみの 利 用 になる) Android 開 発 者 が 利 用 可 能 音 声 認 識 をインテント(ダイアログ 風 )として 呼 び 出 し 可 能 IME 版 が 利 用 可 能 これによってあらゆる 入 力 部 分 で 利 用 可 能 メモでも 入 力 可 能 ショートメールにも 入 力 可 能
Google 音 声 認 識 (3) PCの 状 況 2011 年 春 PC 向 けChromeに 搭 載 HTML5の 音 声 入 力 拡 張 として 動 作 音 声 入 力 の 手 法 ) HTMLで 記 述 する (HTML5) <input x-webkit-speech type="text" /> で 入 力 が 扱 える 条 件 ) 上 のタグを 解 釈 できるブラウザに 限 る 現 状 はGoogleChromeのみ そのままでは 音 声 検 索 がしにくいので 以 下 のエク ステンションを 入 れる Speakable Textareas http://userscripts.org/scripts/show/108011
GoogleChromeデモ スマートホンと 同 じ 環 境 マイクの 制 限 小 HTML5の 記 述 要 PlugInにより 入 力 欄 に 音 声 認 識 追 加 可 能 応 用 ( 開 発 ) 利 用 困 難 Cheromeに 依 存 しているため
アプリケーションの 現 状 (1) OSAPIからWebAPIへ OSAPIの 利 用 デバイス プログラム 出 力 構 成 ) 処 理 はすべてOS 上 のプログラムで 処 理 される 長 所 ) ネットワーク 接 続 が 不 要 である 短 所 ) 処 理 能 力 がPCで 決 まる 複 雑 なプログラムでは 多 くの 知 識 を 必 要 とする 開 発 分 量 が 膨 大 になる 専 門 知 識 が 必 要 になる OSによる 依 存 性 が 高 い 機 種 への 移 植 が 煩 雑
アプリケーションの 現 状 (2) OSAPIからWebAPIへ WebAPIの 利 用 デバイス プログラム 出 力 構 成 ) 処 理 の 中 核 はサーバ 上 のプログラ ムで 処 理 される 長 所 ) PCの 処 理 能 力 に 依 存 しない 複 雑 なプログラムが 不 要 パラメータを 送 信 し 結 果 を 受 け 取 る OS 依 存 性 が 低 い HTTP 通 信 があれば 可 能 短 所 ) ネットワークが 必 須 になる パラメータによっては 高 速 必 須 中 身 はブラックボックス プログラムは 相 手 次 第
WebAPIの 例 (1) 例 1) 住 所 の 地 図 を 表 示 する( 金 沢 大 学 の 住 所 ) http://maps.google.co.jp/maps?q= 石 川 県 金 沢 市 角 間 町 &hl=ja プログラム
WebAPIの 例 (2) 例 2) TTS(テキストの 読 み 上 げ) http://translate.google.com/translate_tts?tl=ja&q=こんにちは 船 田 先 生 プログラム
WebAPIの 使 い 方 まとめ 入 力 ) GETやPOSTで 特 定 のURLに 通 知 する 出 力 ) 結 果 として 定 められた 形 式 で 出 力 される 例 ) 地 図 入 力 : 住 所 や 緯 度 経 度 ( 座 標 )など プログラム 出 力 : 画 像 やマーカ TTS( 読 み 上 げ) 入 力 :テキスト(+ 言 語 ) 出 力 :mp3 形 式 のファイル WebAPIの 特 徴 基 本 はブラウザを 前 提 としている 記 述 はHTMLやJavaScriptで 行 う HTMLも 時 代 に 応 じて 拡 張 がなされている(HTML5) ローカルPCのプログラムでも GET/POSTでHTTP 通 信 を 行 うことでパラメータを 送 信 できる 返 答 された 結 果 を 処 理 することで プログラムとして 動 作 できる
WebAPIのデモ
PCに 於 けるGoogle 音 声 認 識 (1) Chromeの 動 作 分 析 HTML5の 構 文 解 釈 音 声 入 力 音 声 をサーバに 入 力 表 示 サーバから 結 果 受 信 音 声 認 識 具 体 的 な 内 部 動 作 マイクから 音 声 データを 生 成 ( 音 声 ファイル 化 する) それを 以 下 にPOSTする https://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=en-us ( 引 数 に 関 しては 後 述 する) 認 識 結 果 はJSON 形 式 で 返 答 される ( 結 果 の 内 容 に 関 しては 後 述 する) 原 理 サイト http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/
PCに 於 けるGoogle 音 声 認 識 (2) 技 術 内 容 1) 音 声 入 力 をファイルにする 語 句 を 区 切 るため 無 音 検 出 で 区 切 る ファイル 形 式 はflacまたはSpeex 形 式 (flac 形 式 が 無 難 ) サンプリングレートは8KHzまたは16KHz 16KHzのflacの 時 Content_Typeは"audio/x-flac; rate=16000"を 指 定 することでGoogleに 通 知 2) 音 声 ファイルをURLにPostする 引 数 は 言 語 指 定 ( 英 語 はlang=en-US, 日 本 語 はlang=ja-JP) 候 補 数 指 定 (maxresult=10)などがある 3) 結 果 をJSON 形 式 で 受 け 取 る 結 果 はstatus(0 以 外 は 認 識 できず)id( 順 序 判 定 用 )に 候 補 指 定 の 分 以 下 が 付 属 する hypotheses( 予 測 ):utterance( 発 声 )が 認 識 結 果 confidence( 信 頼 性 )が 確 からしさ プログラム 解 説 サイト http://sebastian.germes.in/blog/2011/09/
PCに 於 けるGoogle 音 声 認 識 (3) 応 用 例 IEでの 音 声 認 識 1) 音 声 入 力 ファイル 作 成 入 力 からFlashにてwavファイル 作 成 中 継 サーバにてwav 形 式 をflac 形 式 に 変 換 2) 音 声 ファイルのPost 中 継 サーバからPHPでGoogleにPost 3) 結 果 を 受 け 取 る 中 継 サーバで 結 果 のトークンを 受 け 取 りFlashに 通 知 作 成 ソフトのデモ IEデモサイト http://select-items.net/pfu/google/speech/
終 わりに(まとめ) スマートホンの 発 達 (PC+モバイル) ネットワークの 発 達 ( 常 時 接 続 & 高 速 化 ) 機 種 依 存 性 の 少 ない 開 発 HTML+JavaScript またはそれに 類 する 通 信 + 処 理 WebAPIの 活 用 が 加 速 通 信 前 提 のアプリケーション 開 発 複 雑 な 内 容 はサーバがサービス 提 供 例 ) 音 声 認 識 音 声 合 成 翻 訳 OCR 地 図...