音 声 認 識 応 用 アプリ の 現 状 と 未 来 2010 年 3 月 8 日 NTTサイバースペース 研 究 所 高 橋 敏 0 0
本 講 演 の 目 的 長 年 の 音 声 認 識 の 研 究 開 発 により, 技 術 レベルは 着 実 に 進 歩 し, 応 用 アプリも 広 がってきた.しかし 現 状, できるようになったこと, まだできないこと の 境 界 線 は, 一 般 に, 正 しく 理 解 されているとは 言 い 難 い. 本 講 演 では, 現 状 技 術 によって 構 築 可 能 な 音 声 認 識 応 用 アプリを 紹 介 することを 通 して, 音 声 認 識 技 術 の 現 状 レベルを 理 解 していただくことを 目 的 とする. また, 高 度 な 技 術 と 使 える 機 能 欲 しい 機 能 と は 必 ずしもリンクしない. 現 状 技 術 でもアイデア 次 第 で Android 端 末 向 けのおもしろい 音 声 応 用 アプリが 考 え られるだろう. 発 想 のヒントを 提 供 できれば 幸 いである
振 り 返 れば 約 20 年 前 の 入 社 当 時 は, 数 百 単 語 ~ 数 千 単 語 の 単 語 認 識 ま たは 定 型 文 認 識 が 研 究 テーマであった. 現 在 では, 語 彙 サイズ10 万 語 の 連 続 音 声 認 識 が 市 販 のPCソ フトウェアで 利 用 できるまでになった. 過 去 特 定 話 者 事 前 登 録 あり 防 音 室 録 音 孤 立 単 語 発 声 ハードウェア 現 在 不 特 定 話 者 事 前 登 録 なし 日 常 環 境 録 音 連 続 発 声 ソフトウェア
音 声 認 識 研 究 の 変 遷 NTT 音 声 認 識 エンジン VoiceRex VoiceRex VoiceRex 2000 VoiceRex 2003 VoiceRex 2006 VoiceRex 2008 次 世 代 VoiceRex 単 語 音 声 読 み 上 げ 音 声 機 械 対 人 間 の 自 由 発 話 音 声 人 間 対 人 間 の 話 し 言 葉 音 声 アナウンサー 一 般 ユーザ 明 瞭 な 発 声 ゆっくり, 丁 寧 発 話 速 度 が 速 い,ラフな 発 声 文 法 に 則 した 発 話 語 順 の 入 れ 替 え, 不 要 語 の 挿 入 オペレータの 丁 寧 な 話 し 言 葉 一 般 ユーザのラフな 話 し 言 葉 ニュース 話 題 雑 音 がない スタジオ タスク 内 話 題 (レストラン 検 索 ) 雑 音 が 比 較 的 少 ない コンタクトセンタでの 話 題 一 般 オフィス 話 題 雑 音 が 多 い 広 範 囲 な 話 題 コンピュータへの 丁 寧 な 発 声 人 と 人 とのコミュニケーションにおける 自 由 な 発 声
音 声 認 識 応 用 アプリの 大 分 類 音 声 インタフェース( 音 声 コマンド)として 使 う スイッチの 代 替,もしくは,キー 入 力 の 代 替 人 に 優 しいインタフェース( 低 リテラシー 層 向 け) 電 話 自 動 音 声 応 答 装 置, 音 声 対 話 エージェントシステム 音 声 カーナビ, ( 腕 時 計 型 PHS) ディクテーション( 口 述 筆 記 )として 使 う キーボードによる 文 書 作 成 の 代 替 テレビ 字 幕 作 成, 議 会 録 作 成, 音 声 ワープロ
音 声 インタフェース ( 音 声 コマンド)
音 声 自 動 応 答 装 置 お 客 様 の 音 声 を 認 識 し, 内 容 に 合 わせた 着 信 先 に 自 動 的 に 振 り 分 ける( 商 品 名 や 問 い 合 わせ 内 容 など) (http://www.ntt.com/freedialin/index.html) 単 語 音 声 認 識 得 られるメリット 振 り 分 け 先 を 多 数 設 定 可 能 低 コストで 案 内 24 時 間 対 応 デメリットへの 対 応 単 語 発 声 PB 入 力 も 使 える うまくいかない 場 合 にオペレータ 登 場
音 声 による 端 末 入 力 小 型 端 末 における 文 字 入 力 の 煩 わしさを 音 声 入 力 により 軽 減. 通 信 を 利 用 して 入 力 音 声 をサーバに 転 送.バックエンドの 豊 富 な 計 算 機 リソース, 知 識 リソースを 活 用 して 認 識 処 理 を 実 施 分 散 型 音 声 認 識 (Distributed Speech Recognition:DSR) 音 声 データ IP-NW 音 声 認 識 用 音 響 モデル 言 語 モデル クライアント 音 声 認 識 結 果 音 声 認 識 サーバ (クラウド 環 境 ) 音 声 入 力 雑 音 抑 圧 音 声 検 出 音 声 分 析 エンコード デコード 探 索 認 識 結 果
音 声 カーナビ 自 動 車 運 転 時 でも 音 声 を 使 ってハンズフリー アイズフリーでの カーナビ 操 作 が 可 能 音 声 対 話 によって 目 的 地 をダイレクトに 設 定 可 能 住 所 電 話 番 号 ランドマーク ジャンル 工 場 や 倉 庫 での 種 分 け 作 業, 検 査 作 業 でも ハンズフリー,アイズフリーが 求 められる 雑 音 下 音 声 認 識 が 課 題
マルチモーダル 音 声 対 話 エージェント 概 要 日 常 会 話 に 近 い 発 声 で,キャ ラクターエージェントと 対 話 しな がらタスクを 実 行 する 対 話 型 サ ービスを 提 供 します そーねー 夜 8 時 からの えーと 金 曜 時 代 劇 って 予 約 できますか? TV 番 組 予 約 特 長 言 い 回 し 語 順 を 制 限 しない 日 常 会 話 に 近 い 発 声 を 受 け 付 け 自 然 な 発 話 からキーワードを 抽 出 して 用 件 を 理 解 各 種 システムを 容 易 に 作 成 できる ツール 類 を 用 意 えーと 新 横 浜 なんですが イタリアンはないでしょうか? 店 舗 検 索
ディクテーション ( 口 述 筆 記 )
テレビ 字 幕 作 成 支 援 システム アナウンサーのニュース 音 声 を 認 識.または, 実 況 中 継 の 生 放 送 音 声 をリスピーカーが 音 声 認 識 用 に 再 発 声 してた 音 声 を 認 識. 誤 認 識 箇 所 は 人 手 で 修 正 して 字 幕 送 出 番 組 リスピーク ( 認 識 用 発 声 ) 得 られるメリット 字 幕 作 成 の 負 担 軽 減 特 殊 スキル 者 が 実 施 するよりも 低 コスト 字 幕 付 与 義 務 化 への 準 備 修 正 & 字 幕 送 出 デメリットへの 対 応 アナウンサーは 丁 寧 な 発 声 ニュースの 話 題 は 事 前 に 把 握 可 能 アナウンサー( 話 者 )は 事 前 に 把 握 可 能 字 幕 向 けに 再 発 声 最 後 は 人 が 修 正
音 声 議 会 録 作 成 支 援 システム 議 場 で 収 録 される 音 声 を 音 声 認 識 してテキスト 化 し, 修 正 編 集 することで, 議 会 録 の 作 成 を 効 率 化 するシステム 音 声 認 識 サーバと 連 携 した 収 録 管 理 認 識 編 集 の 一 連 のシステム 速 記 者 など 特 殊 技 能 者 を 必 要 としない 映 像 収 録 サーバ 映 像 音 声 エンコード コンテンツ 管 理 サーバ 映 像 音 声 管 理 AP 音 声 認 識 サーバ CCSシステム 音 声 認 識 エンジン 形 態 素 解 析 ソフト センタ システム 業 務 AP LAN 本 会 議 場 委 員 会 室 音 声 映 像 視 聴 ツール 議 会 録 作 成 エディタ
音 声 認 識 の 利 点 と 欠 点
音 声 認 識 の 利 点 人 に 優 しいインタフェースである 高 齢 者 をはじめ, 低 リテラシー 層 でも 分 かりやすい 入 力 手 段 である. 少 ない 労 力 で 文 字 入 力 できる 音 声 入 力 に 慣 れれば,キーボードよりも 高 速 に 文 字 入 力 が 可 能 である. 手 がふさがっていても 利 用 可 能 である 両 手 を 使 った 作 業 中 でも 文 字 (コマンド) 入 力 が 可 能 である. 省 スペース マイクとディスプレイ(またはスピーカ)さえあれば 実 現 可 能 で ある.
音 声 認 識 の 欠 点 ( 人 間 がそうであるように,) 機 械 も 聞 き 間 違 いをする 音 声 認 識 率 は100%ではなく, 誤 認 識 が 発 生 する. 機 械 には 知 識 がないので,とんでもない 誤 認 識 をする 入 力 音 声 に 制 約 条 件 がある 騒 音 下 では 認 識 率 が 低 下 する. 人 の 声 の 雑 音 に 弱 い. 滑 舌 よく 丁 寧 に 発 声 される 必 要 がある ( 音 素 と 音 素 の 音 声 特 徴 が 類 似 して 混 同 してしまう) 音 声 認 識 辞 書 にない 単 語 は 認 識 できない 発 声 する 内 容 ( 話 題 )が,ある 程 度, 限 定 される 必 要 がある ( 単 語 の 出 現 頻 度 や 単 語 連 鎖 を 学 習 するため)
音 声 認 識 技 術 の 現 状 (2つの 適 用 領 域 を 比 較 ) 議 会 録 作 成 適 用 可 能 vs. ( 会 社 の) 会 議 録 作 成 適 用 困 難 原 稿 がある 思 いつくままにしゃべる プレゼン 形 式 ( 独 話 ) 対 話 または 多 人 数 参 加 滑 舌 よく 発 声 発 声 が 曖 昧 静 かな 議 場 雑 音 がある 会 議 室 専 用 マイクがある 専 用 マイクなし(ICレコーダ) 発 話 に 即 した 過 去 の 議 事 録 はない 議 事 録 がある (あっても 要 約 した 議 事 録 ) 発 話 内 容 をそのまま 書 き 起 こし 残 す 要 点 をまとめて 残 す
音 声 認 識 システムの 改 善 点 認 識 性 能 が 低 い. なぜ 誤 認 識 したのかわからない. 同 じ 間 違 いを 何 度 もする. 環 境 の 変 化 に 弱 い(ロバストネスが 低 い) 何 をしゃべったらよいかわからない,どこまで 対 応 でき るのかわからない. 新 しい 単 語 ( 最 近 登 場 した 新 語 )が 認 識 されない 発 声 しながら 文 章 を 考 えるのは 難 しい( 話 し 言 葉 と 書 き 言 葉 は 異 なる) 誤 認 識 箇 所 が 発 見 しにくく, 修 正 がしにくい.
音 声 認 識 を 利 用 したアプリ 構 築 の 注 意 点 音 声 認 識 が 適 用 しやすい 領 域 ( 技 術 的 観 点 から) 蓄 積 された 大 量 テキストがある( 新 聞 データ, 議 会 録,クエリーログ) 何 を 発 声 すればよいかすぐわかる( 住 所, 電 話 番 号 ) 誤 認 識 への 対 応 誤 認 識 が 即 アプリの 致 命 的 なエラーにならない 修 正 する 手 段 を 備 える 徹 底 的 に 精 度 を 高 める(タスクチューニング) 認 識 精 度 向 上 のための 対 応 誤 認 識 した 要 因 をフィードバックする 声 の 大 きさ, 発 話 のタイミング 周 囲 雑 音 滑 舌 の 悪 さ 語 彙 外 発 声 システムの 透 明 性 を 高 める 誤 認 識 してもどういう 状 態 にあるか, 次 に 何 をすればよいかわかる
おわりに 音 声 認 識 技 術 は 発 展 途 上.しかし 着 実 に 進 展 している. 様 々な 応 用 アプリを 構 築 し, 研 究 開 発 にフィードバックす ることが 重 要. どのような 領 域 でどう 使 われると 真 価 を 発 揮 できるか, 柔 軟 な 発 想 が 求 められる. 端 末 に 向 かってしゃべる 文 化 をいかに 醸 成 するか. あなたなら,ちょっと 癖 のある 音 声 認 識 技 術 を 何 に 応 用 しますか?