スライド 1

Similar documents
WISS PowerPoint [3] [16] Mehrabian [10] 7% 93% [10] [19][18] Hindus [7] Lyons [9] [8] [14] TalkMan [4] [5] [6] 3 [19][18] [19] [19] 1 F0 [11] 7

1. はじめに 2


(1)2004年度 日本地理

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

8_17.dvi


Jupyter Notebook を活用したプログラムライブラリ構築の検討 吹谷芳博 1, 藤澤正樹 1 ( 1 あすか製薬株式会社 ) Examination of the program library construction using Jupyter Notebook ASKA Pharm

1.3期・井上健0.doc

01.12期・井須英次1.doc

IPSJ SIG Technical Report Vol.2014-NL-216 No.6 Vol.2014-SLP-101 No /5/ MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate

Microsoft PowerPoint - …Z…O…†…fi…g…‡…f…‰‡É‡æ‡é™ñ‘oflÅ

インターネットサービス_vol5

PRONETA

トピックモデルの応用: 関係データ、ネットワークデータ

-2-

<4D F736F F F696E74202D2091CE CA48B8682CC906982DF95FB76322E >

橡会議録(第5回).doc

講演「母乳育児のうそほんと」

人芯経営論 ・・・リーダーシップ考②

平成13年度 地域工業活性化支援事業報告書(多摩全域)

はたらく若者ハンドブック


2

GJG160842_O.QXD

回答者のうち 68% がこの一年間にクラウドソーシングを利用したと回答しており クラウドソーシングがかなり普及していることがわかる ( 表 2) また 利用したと回答した人(34 人 ) のうち 59%(20 人 ) が前年に比べて発注件数を増やすとともに 利用したことのない人 (11 人 ) のう

県士会広報第185号-最終.indd

分野 コース名 基礎的 IT セミナーコース一覧 内容 I T 理解 I T スキル活用 I T 倫理 新技術動向 業務の I T 化 ネットワーク 表計算 ベデーースタ プンレ / ゼ文ン書テ作ー成ショ ホームページ 情報発信コンンプスライア 情報テセィキュリ 1 第 4 次産業革命のインパクト新

DE-6001 取扱説明書


研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

情報処理学会研究報告 2. 関 連 研 究 鉢植え 2.1 公共空間での第三者間コミュニケーション支援 空間を共有した第三者同士のコミュニケーションを実現するシステムとして ちかチャッ ト3) が挙げられる ちかチャットは ソフトバンクモバイル製の端末で Bluetooth を利用 ディスプレイ し

歌声情報処理: 歌声を対象とした音楽情報処理

untitled


untitled

橡okamura-ppt.PDF

2


1

夏目小兵衛直克

-1-

( )


<4D F736F F D2081A193B98BE EA97708CFB8DC08B4B92E D8D878CFB8DC0817A B4B816A81798A6D92E894C5817A2E646F63>

nenkin.PDF

1(FST ) FST FST FST 2(FST ) FST FST 4 FST MMDAgent FST FST 5 MMDAgent FST FST FST MMDAgent FST FST FSTFST 状態番号, 遷移先状態番号, 遷移条件, 出 FST 例 / ε ε / ε / は 1

IT活用力セミナーカリキュラムモデル訓練分野別コース一覧・コース体系

研究主題

1. はじめに , NHK

共有辞書を用いた 効率の良い圧縮アルゴリズム

1: NTT Yahoo! , , , , CIAIR CIAIR- ICSD CIAIR-ICSD 6 dlwz lg 3 30 dl wz 2 60 dl O D O:

2 機器等 サービス名 ili ( イリー ) 提供会社 ( 株 ) ログバー サービス開始時期 2017 年 6 月 ~ 概要 ili ( イリー ) は 旅行 に特化したワンフレーズ音声翻訳デバイスです インターネットは不要 日英中の言語に対応しています 法人向けサービス ili for Gue

腎不全-第22回.indd

メタデータ管理システム

IPSJ SIG Technical Report Vol.2013-SLP-98 No /10/25 1,a) 1 ( Q&A ) ( ) YJVOICE Development of speech recognition and natural language processing

2 [6] ( 3)

情報ビジネス NO10 1. 旅行業界の e ビジネス 旅行業界の e ビジネス 2012 年 12 月 11 日 後保範 目的 : 一般的な e ビジネスを学んできた 一つの業界 ( 旅行 ) を詳しく見てみる 旅行業界の e ビジネスの全体像を示す 業界の中での戦略 連携を体系的に学ぶ 旅行業界

PowerPoint プレゼンテーション

いるが それら Wiki 上でのデータは構造化されておらず 上記で述べた複雑さによ る問題がある 本プロトタイプではこの問題を解決する いくつかの解を提示してい る 図 1 スナップショット : ニーズを満たす結果の推薦 サービス対象をモンスターハンターに絞ったことにより 各行動に対応する述語に対し

組込みシステムにおける UMLモデルカタログの実践研究

Microsoft PowerPoint - survey-sp hori


Taro10-岩手県警察航空隊の運営及

AI AI Artificial Intelligence AI Strategy& Foresight AI AI AI AI 1 AI AI AI AI AI AI AI AI AI AI AI AI AI 2 AI 1 AI AI 3 AI 3 20 AI AI AI AI AI

untitled

Microsoft PowerPoint - 【最終提出版】 MATLAB_EXPO2014講演資料_ルネサス菅原.pptx

入力環境に依存 /a, i, u, e, o / X P(X/W) 入力音声 信号処理 探索 ( デコーダ ) P(W/X) P(W) P(X/W) P(W) 京都 ky o: t o 単語辞書 タスクドメインに依存 京都 + の + 天気 時間 1000 時間 100 時間 10 時間

untitled

24 京都教育大学教育実践研究紀要 第17号 内容 発達段階に応じてどのように充実を図るかが重要であるとされ CAN-DOの形で指標形式が示されてい る そこでは ヨーロッパ言語共通参照枠 CEFR の日本版であるCEFR-Jを参考に 系統だった指導と学習 評価 筆記テストのみならず スピーチ イン

5temp+.indd

JACi400のご紹介~RPGとHTMLで簡単Web化~

平成21年7月21日

Oracle SQL Developer Data Modeler

Microsoft Word - AT _A.doc

使える! IBM Systems Director Navigator for i の新機能

untitled


2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事

データコピーとは データコピーは 古い NAS のデータを新しい HDL-Z シリーズに簡単にコピーできます 環境例本製品は以下の用途の際に最適です 古い HDL-Z シリーズから新しい HDL-Z シリーズへのコピー古い HDL-Z シリーズから 新しい HDL-Z シリーズへのスムーズなコピーが

デザインパターン第一章「生成《


スライド 1

平成 29 年度ジャパンリンクセンター運営実績 平成 30 年 3 月 31 日 ジャパンリンクセンター運営委員会 1) 1. 委員会 分科会 メンバーミーティングの主宰 招集 事務 (1) ジャパンリンクセンター運営委員会ジャパンリンクセンター運営委員会を四半期に 1 回 合計 4 回開催した ま

IPSJ SIG Technical Report Vol.2016-CSEC-75 No /12/1 3DCG CAPTCHA 1,a) (3D) 3DCG CAPTCHA CAPTCHA 3 3D CAPTCHA CAPTCHA 1 CAPTCHA 3 1. Web CA


AquesTalk プログラミングガイド

新事業・サービスの創出プロセスと各プロセスに含まれるタスク


スライド 1

2.2 車載応用でのでの技術課題車載応用では, 安全性を確保するために音声技術は重要な技術である. しかし, 現状ではまだ十分に仕様を満たしているとは言えない. 特に, 次の問題が存在している. ) ユーザビリティの問題 : 全てのインタフェース (HMI) は, 透過的インタフェースの 原則を満足

コンピュータ応用・演習 情報処理システム

untitled

untitled

Microsoft Windows向けOracle Database 12cでのOracleホーム・ユーザーの導入

厚生労働科学研究費補助金(循環器疾患等生活習慣病対策総合研究事業)

プレポスト【解説】

untitled

bebras_slide.pptx

大域照明計算手法開発のためのレンダリングフレームワーク Lightmetrica: 拡張 検証に特化した研究開発のためレンダラ 図 1: Lightmetrica を用いてレンダリングした画像例 シーンは拡散反射面 光沢面を含み 複数の面光 源を用いて ピンホールカメラを用いてレンダリングを行った

Transcription:

音声言語シンポジウム 10 周年企画 音声言語研究関連分野の 10 年の歩み 音声対話システム 音声インタフェース ( 株 ) ホンダ リサーチ インスティチュート ジャパン 中野幹生 nakano@jp.honda-ri.com 1

1999 年には何が研究開発されていたのか 研究 音声対話システムの基本構成が共有化 ( 次頁 ) さまざまな音声対話システムの試作 ARISE (EU 列車時刻案内 ) Communicator ( フライト予約 DARPA) ROBITA ( 早大小林研 ) 観光案内 ( 豊橋技科大中川研 ) Jijo-2 ( 産総研 ) DUG-1 (NTT) 文献検索 ( 東大広瀬研 ) マルチモーダル入力 (OGI 等 ) マルチモーダル出力 (KTH 等 ) 開発 VoiceXML Forum 立ち上げ (3 月 ) 0.9 策定 (9 月 ) 音声認識カーナビが普及 技術課題のリストアップ 2

音声対話システムの基本構成 ( 中野 堂坂, 人工知能学会誌 2002; cf. 河原 荒木, 音声対話システム 2006) 談話理解モデル 談話理解 対話状態 対話管理 対話管理規則 言語理解モデル 言語理解 言語生成 言語生成規則 言語モデル 音声認識 音声合成 音声合成知識 音響モデル 3

1999 年当時, 何が課題だったのか 4

1999 年当時, 何が課題だったのか 理解率向上 エラー検出 & リカバリ ( 平沢他,SLP99) 確認戦略 ( 新美他,SLP99) 5

1999 年当時, 何が課題だったのか 話し言葉理解 柔軟な発話交代 (Nakano et al. Eurospeech 99) 韻律の利用 応答生成 ( 桐山 & 広瀬,SLP99) 6

1999 年当時, 何が課題だったのか 複数ドメインでの対話 (Lin et al. Eurospeech 99) 複数人との対話 (Matsusaka et al. Eurospeech 99) 対話の種類 7

1999 年当時, 何が課題だったのか 音声認識インタフェースの利用者増加 対話の種類 システムに対する人間の行動分析 ( 小林 SLP99) システム開発効率 ( 小暮他 SLP99) 8

10 年間の進展 音声認識インタフェースの利用者増加 システムに対する人間の行動分析 研究が進展 認識理解信頼度 (e.g. Hazen 他, Comp. Speech & Lang. 02, 駒谷他情処論 02) 文脈を利用した音声理解 (e.g. Higashinaka 他 ACL03, 藤原他信学論 06, Bohus PhD Thesis 07) 動的, 確率的な対話制御 (Singh AAAI00, Dohsaka et al Eurospeech 03, Williams 他 Comp. Speech & Lang 07) システム開発効率 対話の種類 9

10 年間の進展 音声認識インタフェースの利用者増加 研究が進展 種々の話し言葉音声理解法 ( サーベイ : De Mori, ASRU07) 話者交代 (e.g. Sato et al. ICSLP02, Kitaoka et al. J.JSAI05, Raux,SIGDial08, Fujie et al. Interspeech05) 韻律を利用した態度認識 (e.g. Fujie et al. Interspeech04) 対話の種類 システムに対する人間の行動分析 システム開発効率 10

10 年間の進展 音声認識インタフェースの利用者増加 様々なタイプの対話システムの研究 ドキュメント検索 (e.g. Misu et al. ICASSP07) 非タスク指向 (e.g. Bernsen et al. ADS04) クイズ (Higashinaka et all. Interspeech07) マルチドメイン対話 (e.g. O Neill et al.icslp04, Komatani et al. Sigdial06) 対話的プレゼンテーション (Nishimura et al. IUI07) 対話の種類 システムに対する人間の行動分析 システム開発効率 11

10 年間の進展 音声認識インタフェースの利用者増加 ツール構築 & 研究進展 音声認識, 合成, 対話ツール充実 対話知識 モデルの Unsupervised 学習, 能動学習 (Tur et al. Speech Communication 05, Sudoh et al. Speech Communication 05) WEB からの知識獲得 (e.g. Misu et al. Interspeech06) 未登録語などのオンライン知識獲得 (e.g. Choueiter et al. Interspeech07) 対話の種類 システムに対する人間の行動分析 システム開発効率 12

10 年間の進展 音声認識インタフェースの利用者増加 データ収集用システム Communicator (DARPA) 京都バス案内 ( 京大 ) CIAIR( 名大 ) たけまるくん ( 奈良先端大 ) 対話システムを用いた user study (e.g. Hu et al. CHI 2007) 対話の種類 システムに対する人間の行動分析 システム開発効率 13

10 年間の進展 音声認識インタフェースの利用者増加 商用システム 音声カーナビ ボイスポータル 電話応答 ( チケット予約, フライト情報 etc.) ハンドヘルドデバイス 対話の種類 システムに対する人間の行動分析 システム開発効率 14

ブレイクスルーはあったか? 技術課題 各技術課題の研究は着実に進んだが, ブレイクスルーといえるほどのインパクトのある新技術はなかったのではないか 研究パラダイムのシフトがあった 音声対話ツール 例 : Galatea( 含 Julius), Galaxy, VoiceXML,etc. 音声インタフェース利用の裾野を広げた 人ーシステム対話の収集 分析事例の増加 対話の種類の増加 15

できなかったこと 各技術の研究段階から実用段階への移行 特に統計的手法 データの収集 & アノテーションのコストが膨大 (cf. Knight et al. Eurospeech 2001) 音声対話 音声認識インタフェースを日常的に使う人を増やすこと ( 特に日本で ) 誰とでも対話できる人工知能対話システムはまだ難しい 限定されたインタフェースとして使う場合でもインタフェースとしての課題が解決されていない (cf. Shneiderman&Plaisant 2005) 誤りの取り消しなど 16

今後の展開予想 研究パラダイムの多様化 既存の音声認識にこだわらない音声 IF ( 産総研後藤音声スポッタなど ) マルチモーダル知能システムの音声言語センサ エフェクタ 音声インタフェース 同一パラダイム 音声言語処理 音声対話システム インタフェース人工知能協力音声言語処理 対話知識の自動構築 オンライン学習 語彙, 言語モデル, 音声理解, 対話コンテンツ,etc. 他分野との協力を容易にするツール ( 早大中野 小林 Proxy Agent など ) 17