サブテーマ4: マルチモーダルデータからの 不 変 情 報 の 発 見 と その 方 法 論 の 研 究 研 究 代 表 者 [ 統 計 数 理 研 究 所 ] 松 井 知 子 共 同 研 究 者 [ 早 稲 田 大 学 ] 田 邉 國 士 [ 国 立 情 報 学 研 究 所 ] 佐 藤 真 一, 古 山 宣 洋, 井 上 雅 史 [ 京 都 教 育 大 学 ] 花 田 里 欧 子 [ 和 歌 山 大 学 / 統 計 数 理 研 究 所 ] 入 野 俊 夫 [ 統 計 数 理 研 究 所 ] 福 水 健 次 1. 研 究 目 標 21 世 紀 の 知 識 社 会 では インターネットや 大 容 量 の 電 子 媒 体 を 通 して 多 様 なマルチモー ダルデータが 一 層 利 用 できるようになることは 確 実 である その 中 で それらのデータを いろいろな 目 的 でうまく 処 理 する 技 術 が 強 く 求 められている 本 サブテーマでは 各 目 的 に 合 わせて マルチモーダルデータから 重 要 な 情 報 (ここでは 不 変 情 報 と 呼 ぶ)を 自 動 的 に 発 見 するための 新 しい 帰 納 的 方 法 論 について 検 討 を 行 う マルチモーダルデータを 扱 う 画 像 音 声 言 語 対 話 処 理 などに 関 する 具 体 的 な 課 題 をいくつか 取 り 上 げ それ ぞれに 不 変 情 報 の 発 見 を 試 み それらのアプローチを 横 断 的 に 解 析 する 従 来 の 方 法 論 の 多 くは 先 験 的 な 知 識 に 基 づいた 要 素 還 元 による 例 えば マルチモー ダルデータの 統 合 の 問 題 においては 個 々のモダリティごとに 先 験 的 に 分 節 化 を 行 った 上 で 連 関 を 構 造 化 するというアプローチが 取 られている しかし これは 人 間 が 行 う 処 理 とは 異 なり 雑 音 やスケールの 違 いによる 影 響 を 受 け 易 い 人 間 の 処 理 を 探 求 し より 高 性 能 なデータ 処 理 を 実 現 するためには マルチモーダルデータを 先 験 的 に 分 離 しないで 一 つのまとまりとして 捉 えることが 必 要 である その 手 段 として 近 年 開 発 された PLRM(Penalized Logistic Regression Machine)や SVM(Support Vector Machine)など 自 動 モデル 選 択 の 機 構 を 含 む 帰 納 的 学 習 機 械 を 用 い ることが 有 望 である これらの 学 習 機 械 は 画 像 や 音 声 処 理 などのパターン 認 識 の 分 野 で 利 用 されているが 個 別 のデータに 対 して 適 用 されているに 過 ぎない 本 サブテーマでは マルチモーダルデータを 統 合 的 に 捕 らえ 帰 納 的 アプローチにより 不 変 情 報 を 発 見 するし くみを 見 出 すことを 目 標 とする 具 体 的 にいくつかの 課 題 への 取 り 組 むことにより その 方 法 論 の 有 効 性 可 能 性 を 明 らかにする 2. 年 次 研 究 計 画 平 成 17 年 度 H17 年 度 は A) 映 像 データからの 不 変 事 象 の 学 習 検 索 B)ダイナミカルシステムを 用 いた 身 - 1 -
体 協 調 の 不 変 原 理 の 探 求 C) 身 体 性 制 約 下 における 外 界 データの 不 変 情 報 抽 出 機 械 として の 知 覚 神 経 回 路 の 特 定 D) 対 話 データからの 不 変 情 報 (コミュニケーション パターン) を 規 定 する 要 因 の 特 定 の 四 つの 課 題 に 取 り 組 んだ 各 課 題 の 進 捗 は 次 の 通 りである A) 比 較 的 オーソドックスな 特 徴 量 ( 色 モーメント Gabor テクスチャ キーワードベクト ル 等 )と 比 較 的 オーソドックスな 学 習 機 械 (SVM) を 用 い 特 に 全 体 / 局 所 情 報 間 マ ルチモーダル 情 報 に 対 しモードの 異 なる 情 報 間 分 類 結 果 / 低 レベル 特 徴 量 のように 抽 象 度 の 異 なる 情 報 間 等 に 対 する 融 合 方 法 に 注 力 して 検 討 を 行 った B) コミュニケーションにおける 身 体 的 な 個 人 内 ならびに 個 人 間 の 協 調 に 関 する 実 験 か ら 発 話 - 身 振 り 協 調 系 と 呼 吸 運 動 が 密 接 に 関 わりながら 協 調 系 を 組 織 していることが わかった また 屈 曲 と 発 声 が 同 期 するモード A 伸 展 と 発 声 が 同 期 するモード B に 関 して 結 合 再 帰 性 分 析 により モード B よりもモード A において 手 首 運 動 と 呼 吸 運 動 とがより 同 期 していることを 示 した C) PLRM により パルス 音 もしくは 純 音 について 聴 覚 フィルタの 出 力 の 一 次 結 合 情 報 に 基 づいて 音 源 方 向 が 検 出 できることを 確 かめた D) H17 年 度 は, 今 年 度 以 降 の 本 格 稼 動 のための 準 備 作 業 を 行 った 具 体 的 には 研 究 アプ ローチに 関 してメンバー 間 で 共 通 認 識 を 得 ること 対 話 分 析 に 関 連 する 学 術 的 知 識 を 共 有 すること データ 取 得 及 びその 分 析 のための 計 算 機 やソフトウェア 研 究 支 援 者 の 確 保 等 の 環 境 整 備 である 平 成 18 年 度 A)~D)の 各 課 題 について 次 の 計 画 で 取 り 組 む A) H17 年 度 は 比 較 的 オーソドックスな 特 徴 量 ( 色 モーメント Gabor テクスチャ キーワー ドベクトル 等 )と 比 較 的 オーソドックスな SVM を 用 い 特 に 全 体 / 局 所 情 報 間 マル チモーダル 情 報 に 対 しモードの 異 なる 情 報 間 分 類 結 果 / 低 レベル 特 徴 量 のように 抽 象 度 の 異 なる 情 報 間 等 に 対 する 融 合 方 法 に 注 力 して 検 討 を 行 った 平 成 18 年 度 も 引 き 続 き 最 適 な 特 徴 量 ならびに 最 適 な 融 合 方 法 について 検 討 を 行 う あわせて 新 たな 特 徴 量 の 検 討 ( 階 層 型 色 ヒストグラムの 利 用 音 響 情 報 の 利 用 など) 新 たな 識 別 器 の 利 用 について 検 討 を 行 う B) H17 年 度 の 統 制 実 験 結 果 を 踏 まえ より 自 然 な 会 話 場 面 における 身 体 協 調 の 不 変 情 報 に ついて 検 討 する これまでにデータ 集 録 してある 自 然 会 話 データ( 音 声 映 像 呼 吸 運 動 身 振 り 動 作 など 一 部 の 身 体 部 位 の3 次 元 動 作 データ)について 再 帰 定 量 分 析 (Recurrence Quantification Analysis)などの 手 法 を 用 いて 分 析 していく また 同 じコミュニケーションを 対 象 とする D)の 課 題 に 再 帰 定 量 分 析 を 適 用 することも 考 える C) 学 習 データとして 雑 音 データを 複 数 作 成 して 用 い PLRM による 音 源 方 向 検 出 の 汎 化 性 について 調 べる また 聴 覚 系 には 音 の 始 まりに 反 応 する onset ニューロンが 存 在 す ることが 知 られているが このニューロンの 働 きと 音 源 方 向 検 出 との 関 係 についても - 2 -
検 討 する D) 本 格 的 なデータの 収 集 一 対 話 内 に 見 出 される 不 変 情 報 の 発 見 に 取 り 組 む 平 成 19 年 度 B)と D)の 課 題 を 統 合 し 新 たに B) 対 話 における 言 語 身 体 動 作 データからの 不 変 情 報 の 抽 出 と 活 用 の 課 題 とする 各 課 題 について 次 の 計 画 で 推 進 する 同 時 に 帰 納 的 メタウェア アプローチに 関 する 分 野 横 断 的 な 検 討 を 開 始 する A) Rush サマリタスクならびに 高 レベル 特 徴 抽 出 タスクの 両 者 に 参 加 する 予 定 である Rush サマリタスクは 放 送 映 像 を 制 作 するための 素 材 映 像 が 与 えられ その 概 要 映 像 を 自 動 生 成 することが 求 められている 素 材 映 像 に 含 まれる 冗 長 性 を 検 出 し 削 除 するアル ゴリズム 見 やすい 概 要 映 像 の 評 価 関 数 ならびにその 最 適 化 アルゴリズムについて 検 討 する 高 レベル 特 徴 抽 出 タスクとしては 画 像 特 徴 としては 全 体 特 徴 ならびに 局 所 特 徴 さらには 色 テキスチャ モーメント 等 考 えられ 得 るさまざまな 特 徴 量 を 網 羅 的 に 利 用 するアプローチをとる さらには テキストや 音 響 特 徴 も 利 用 することを 検 討 しており それらの 適 切 な 融 合 アルゴリズムについて 検 討 する B) 18 年 度 に 引 き 続 き 自 然 会 話 データについての 分 析 を 進 める データ 収 集 の 継 続 と 複 数 の 対 話 を 横 断 して 見 出 される 不 変 情 報 の 発 見 に 取 り 組 む C) PLRM のポスト 分 析 から 音 源 方 向 検 出 における 不 変 情 報 の 定 義 を 試 み 知 覚 神 経 回 路 の 特 定 を 目 指 す 平 成 20 年 度 A) B)の 課 題 について 次 の 検 討 を 展 開 する 各 課 題 の 検 討 結 果 をまとめていき 分 野 横 断 的 な 帰 納 的 メタウェア 帰 納 的 手 法 に 関 する 資 料 化 を 行 う A) 引 き 続 き 高 レベル 特 徴 抽 出 タスクに 参 加 する 予 定 である 分 類 するべき 概 念 レベル( 例 えばスポーツ 航 空 機 など)に 対 して それを 構 成 する 中 間 的 概 念 レベル( 例 えばテ ニスコート 選 手 飛 行 機 の 機 首 尾 翼 など)の 検 出 器 を 利 用 すると 識 別 性 能 が 上 がる ことがわかっている 本 年 度 はその 中 間 的 概 念 レベルを 自 動 発 見 する 手 法 について 検 討 し 識 別 性 能 の 向 上 を 図 る B) あるモダリティー( 発 話 内 容, 音 韻, 身 振 り 等 )に 着 目 して 対 話 内 での 行 為 の 出 現 パターンと カウンセリングの 進 行 との 関 係 を 調 査 する 例 えば 相 槌 の 表 現 の 多 様 性 が セラピストの 熟 練 度 と 関 連 するということが 心 理 臨 床 の 分 野 で 知 られている が それと 同 様 に 臨 床 的 な 意 味 づけが 可 能 であるような 対 話 内 での 異 なるモダリティー に 属 する 行 動 を 選 び 出 して それらの 単 一 モダリティーでの 行 為 の 出 現 とカウンセリ ングとの 関 連 を 調 査 する 平 成 21 年 度 昨 年 度 に 引 き 続 き 各 課 題 の 検 討 結 果 を 踏 まえ 分 野 横 断 的 な 帰 納 的 メタウェア 帰 納 的 手 法 に 関 する 資 料 化 を 行 う これらにより 映 像 検 索 の 高 度 化 人 間 のコミュニケーションに - 3 -
おける 間 の 問 題 の 解 明, 知 覚 神 経 回 路 の 特 定, 臨 床 心 理 士 の 支 援 ツールの 開 発 などを 目 指 す A) B)の 課 題 について 次 の 検 討 を 引 き 続 き 行 う A) 引 き 続 き 高 レベル 特 徴 抽 出 タスクに 参 加 する 予 定 である また これまでの 知 見 を まとめ 各 タスクごとに 最 適 な 特 徴 量 および 中 間 的 概 念 レベル 等 について 再 考 し 映 像 の 概 念 レベルへの 識 別 タスクにおける 不 変 量 として 定 式 化 を 図 る B) 平 成 20 年 度 において 例 えば 相 槌 表 現 というテキストモダリティーと 身 振 りというモ ダリティーが 対 話 内 でどのように 生 起 しているかという 情 報 が 蓄 積 される 平 成 21 年 度 は それら 複 数 のモダリティーに 属 する 行 動 が どのように 相 互 作 用 を 行 っている か またその 相 互 作 用 が 臨 床 の 面 接 場 面 でどのような 意 味 を 持 つのかを 検 証 する 3. 平 成 18 年 度 の 研 究 進 捗 昨 年 度 に 引 き 続 き A)~D)の 四 つの 課 題 に 取 り 組 み 次 の 進 捗 が 得 られた A) TRECVID ショット 境 界 検 出 タスクには KDDI 研 究 所 のグループと 共 同 して 望 んだ KDDI から 提 供 された 複 数 の 特 徴 量 を 用 い 本 研 究 グループで 開 発 したカーネル 融 合 法 と 組 み 合 わせ SVM を 学 習 器 として 利 用 してショット 境 界 を 検 出 し その 効 果 を 確 認 した また 高 レベル 特 徴 抽 出 タスクとしては カラー 情 報 を 使 わず テクスチャ 特 徴 に 強 い Local Binary Pattern(LBP) 特 徴 を 用 い 識 別 器 としては SVM を 用 いて 実 験 を 行 った ところ 要 求 された 40 弱 の 概 念 クラスの 識 別 性 能 で 他 の TRECVID 参 加 グループと 遜 色 ない 性 能 を 達 成 した B) 個 人 が 行 う 発 話 ( 呼 吸 ) と 身 振 り との 協 調 ダイナミクスについて 検 証 して 手 首 運 動 と 発 声 ( 呼 吸 ) 運 動 との 間 に 協 調 関 係 があることが 示 唆 した C) 人 間 の 音 源 定 位 に 関 してコインシデンス 検 出 機 構 を 必 要 としない 神 経 発 火 パターンの コーディング 法 を 考 案 した D) 昨 年 度 に 整 備 されたデータ 収 集 プロセスを 元 にして 年 間 を 通 じて 計 10の 対 話 のビ デオデータを 収 集 した さらに それらのビデオデータ 中 の 発 話 内 容 を 書 き 起 こした トランスクリプトを 作 成 し 分 析 対 象 データの 一 部 とするのみならず 心 理 臨 床 学 習 者 の 学 習 を 支 援 する 素 材 としての 使 用 可 能 性 についても 検 討 した また 定 量 的 な 帰 納 プロセスに 基 づく 分 析 の 前 段 階 として 一 対 話 内 でのデータを 特 に 身 振 りに 着 目 し て 観 察 法 に 基 づき 分 析 し 心 理 臨 床 により 密 着 した 対 話 内 の 指 標 の 発 見 を 目 指 した その 結 果 身 振 り 使 用 がクライアントの 心 理 的 な 抵 抗 の 緩 和 に 寄 与 している 可 能 性 な ど 臨 床 的 に 興 味 深 い 知 見 が 得 られたので この 結 果 を 国 際 会 議 に 投 稿 した 4. 平 成 18 年 度 研 究 成 果 (1) 知 見 成 果 物 知 的 財 産 権 等 知 見 : - 4 -
- 人 間 の 音 源 定 位 に 関 してコインシデンス 検 出 機 構 を 必 要 としない 神 経 発 火 パターンの コーディング - 身 振 りと 発 話 の 協 調 の 基 底 にあるダイナミクスに 関 する 理 解 - 臨 床 実 践 におけるセラピストの 自 覚 的 非 自 覚 的 な 対 話 方 略 の 事 例 による 理 解 成 果 物 : - 非 実 験 室 環 境 における 臨 床 心 理 面 接 場 面 を 対 象 としたデータ 収 録 マニュアル - 可 読 性 を 重 視 した 二 者 対 話 トランスクリプト( 書 き 起 こし)の 作 成 規 則 - 編 集 済 み 対 話 ビデオデータ 10 対 話 分 - サンプルトランスクリプト 10 対 話 分 (2) 成 果 発 表 等 論 文 発 表 < 学 術 論 文 > - Fukumizu, K., F. R. Bach and A. Gretton, Statistical Consistency of Kernel Canonical Correlation Analysis, Journal of Machine Learning Research 8, pp. 361-383, 2007. < 会 議 録 > - Fukumizu, K., Bach, F.R., Gretton, A. Statistical Convergence of Kernel CCA Statistical Convergence of Kernel CCA, Advances in Neural Information Processing Systems 18, MIT Press, Cambridge MA, pp. 387-394, 2006. - M. Naito, K. Matsumoto, K. Hoashi, F. Sugaya, Y. Nakajima, M. Shshibory, K. Kita, M. Cuturi, T. Matsui, and S. Satoh, Shot Boundary Detection and High-Level Feature Extraction Experiments for TRECVID 2006, Proc. The TRECVID 2006 Workshop, 14, 2006. - D.-D. Le and S. Satoh, Concept Detection Using Local Binary Patterns and SVM, Proc. The TRECVID 2006 Workshop, 2006. - M.Cuturi, Permanents, Transportation Polytopes and Positive Definite Kernels on Histograms, Proc. IJCAI, 2007. - 福 水 健 次, カーネル 法 : 再 生 核 を 用 いた 機 械 学 習 の 方 法 論, 日 本 統 計 学 会 75 周 年 記 念 事 業 21 世 紀 の 知 識 創 造 社 会 を 支 える 統 計 科 学 の 現 状 と 展 望 予 稿 集, pp.32-39, 2006. - T. A. Myrvoll, 松 井 知 子, Information fusion using multiple kernel logistic regression with applications to phonetic feature detection, 日 本 音 響 学 会 春 季 研 究 発 表 会 予 稿 集, 2007. - M. Cuturi, J.-P. Vert, O. Birkenes, 松 井 知 子, Phoneme recognition using global alignment kernel, 日 本 音 響 学 会 春 季 研 究 発 表 会 予 稿 集, 2007. - 5 -
会 議 発 表 等 < 招 待 講 演 > - 福 水 健 次, 再 生 核 ヒルベルト 空 間 と 統 計 的 学 習, 人 工 知 能 学 会 データマイニン グと 統 計 数 理 研 究 会, 東 京, 2006.7.11. - 福 水 健 次, カーネル 法 : 再 生 核 を 用 いた 機 械 学 習 の 方 法 論, 日 本 統 計 学 会 75 周 年 記 念 事 業 第 2 回 研 究 会, 東 京, 2006.12.16. < 一 般 講 演 > - M. Naito, K. Matsumoto, K. Hoashi, F. Sugaya, Y. Nakajima, M. Shshibory, K. Kita, M. Cuturi, T. Matsui, and S. Satoh, Shot Boundary Detection and High-Level Feature Extraction Experiments for TRECVID 2006, The TRECVID 2006 Workshop, 2006.11.13. - D.-D. Le and S. Satoh, Concept Detection Using Local Binary Patterns and SVM, The TRECVID 2006 Workshop, 2006.11.13. - M.Cuturi and K. Fukumizu, Kernels on Structured Objects Through Nested Histograms, NIPS, 2006.12.6. - M.Cuturi, Permanents, Transportation Polytopes and Positive Definite Kernels on Histograms, IJCAI, 2007.1.9. - T. A. Myrvoll, 松 井 知 子, Information fusion using multiple kernel logistic regression with applications to phonetic feature detection, 日 本 音 響 学 会 春 季 研 究 発 表 会, 2007.3.14. - M. Cuturi, J.-P. Vert, O. Birkenes, 松 井 知 子, Phoneme recognition using global alignment kernel, 日 本 音 響 学 会 春 季 研 究 発 表 会, 2007.3.14. 5.その 他 Workshop on Machine Learning and Optimization at the ISM の 開 催 (2006.8.16) - 6 -