応用音響学 - PDF 無料ダウンロード

東京大学工学部 4 年生夏学期応用音響学第 1 回 (4/5) 猿渡洋東京大学大学院情報理工学系研究科創造情報学 / システム情報学専攻 hiroshi_saruwatari@ipc.i.u-tokyo.ac.jp

2019 年度講義スケジュール前半 ( 猿渡担当 ) 4/05: 第 1 回 4/19: 第 2 回 4/26: 第 3 回 5/10: 第 4 回 5/17 は休講予定 5/24: 第 5 回 5/31: 第 6 回後半 ( 小山先生担当 ) 6/07: 第 7 回 6/14: 第 8 回 6/21: 第 9 回 6/28: 第 10 回 7/05: 第 11 回 7/12 は休講予定 7/26: 学期末試験 ( 予定 )

講義目的講義前半 ( 猿渡担当 ) 音声分析, 音声符号化, 音声認識, 音声合成, 音響信号処理などに関連する基礎知識について講義する応用として, 携帯電話や MP3 などの音声音楽情報圧縮技術や音声認識技術音声合成システムなどがある統計的信号処理の基礎, スペクトル解析, パターン認識, 確率モデル, 統計学習, 最適解探策などの基本概念とアルゴリズムを理解し, これらの技術の基礎になる知識と概念の習得を目指す講義後半 ( 小山先生担当 ) 音響現象の数理的なモデリング方法を理解することを目的とし, 音波の伝播, 反射, 回折, 散乱などの現象を数学的に記述するための基礎事項について講義する応用として, 音源位置の推定や音場の可視化, 音の VR/AR や騒音振動制御, 音響数値シミュレーションなどがあるこれらの基本概念を理解することで, 様々な波動場の計測制御技術の基礎となる知識の習得を目指す

講義前半の概要狙いと性格信号処理論第一第二に続く信号処理論第三と捉えても良い統計的信号処理非定常時系列モデルベイズ統計学学習アルゴリズム音声音響信号処理応用対象領域信号推定音声分析音声符号化音声認識音声合成その他の音響信号処理講義重点統計的信号処理の基礎基本アルゴリズムの理解前提知識線形系理論とフーリエ解析確率統計学の基礎 ( 分布推定 )

講義前半の内容信号処理信号処理論第一信号処理論第二応用音響学確率統計パターン認識

講義前半の内容信号推定理論 Wiener フィルタ Kalman フィルタ短時間スペクトル分析サンプリング定理量子化雑音高域強調窓関数短時間自己相関関数短時間スペクトル解析ピッチ構造短時間ケプストラム解析全極型モデル線形モデル自己回帰モデル線形予測分析 (LPC) 残差信号ピッチ抽出偏自己相関分析 (PARCOR) スペクトル距離板倉齋藤距離クラスタリング解析 k-means クラスタリングスカラー量子化とベクトル量子化混合正規分布と EM アルゴリズム非線形時間伸縮動的時間伸縮 DP マッチング音声の確率モデル自己回帰モデル多次元正規分布混合正規分布隠れマルコフモデル (HMM) 信号処理応用音声認識 / 合成システム音源分離 / 音声強調 / その他の音響信号処理システム

講義資料と成績評価講義資料 http://www.sp.ipc.i.u-tokyo.ac.jp/~saruwatari/ ( システム情報第一研究室からたどれるようにしておきます ) 成績評価出席点学期末試験

音響メディア応用例

なぜ音メディアに焦点をあてるのか? 音メディアに関する信号処理研究の魅力とは? 自然界の音が持つ無限の多様性 (cf. 無線通信信号 ) 研究のアプローチに多面性あり ( 決定論的? 統計的?) 最後は聴かせてなんぼの評価芸術性も併せ持つ物理世界 ( 波動 ) と情報世界 ( 抽象 ) をまたぐ学問でありかつそれを統一的に取り扱うシステム工学である対象の多様性ゆえになんでもありの分野でもある物理音響学センシング理論数理モデリング実現したいシステム

なぜ音メディアに焦点をあてるのか? 波動方程式室内音響伝達関数音生成過程 etc. 離散サンプリングフーリエ解析球面調和解析圧縮センシング etc. 統計モデリング最尤ベイズ推定機械学習スパース最適化物理音響学センシング理論数理モデリング実現したいシステム

応用紹介 : ブラインド音源分離 (BlindSourceSeparation) 混ざり合った信号から元の信号を取り出すどのように混ざったかに関する空間情報は利用できない W 実は上記は2つのことを同時に推定している [ 空間 ] 統計的に独立な音源の分類問題 ( 分離行列 Wの推定 ) [ 信号 ] 各音源が属する確率分布 p(y) の推定問題上記を閉形式で解く方法は存在せず凸問題でもない大変困難!

応用紹介 : 低ランク近似音源モデルに基づく BSS [Kitamura, et al. 2015] ドラムストリング音声からなる複合音の分離 Source 1 Source 2 Source 3 2 m 20 50 70 2.83 cm 2.83 cm

応用紹介 : 聖徳太子マイクリアルタイム BSS [Saruwatari, et al. 2009] 4ch マイクと DSP(TI 社製 C67) から構成される独立成分分析 BSS 専用モジュールを 2005 年に開発 2009 年に世界初の商用化 ( 警察備品に採用 )

Frequency Frequency 応用紹介 : 残響抑圧 [Kameoka, et al.] 観測信号のスペクトログラム Time 残響除去信号のスペクトログラム Time

応用紹介 : 音声合成おはようテキスト音声合成 x Probability y x y 入力 x と出力 y の関係をどう記述するか? 統計的逆問題人間らしい声とは何か? 人間らしい声の統計モデル化

応用紹介 :DNN-GAN 音声合成 [Saito, Takamichi, et al. 2016] 人間の声に似せようと努力ウソ ( 合成音 ) に騙されまいと攻防

応用紹介 : リアルタイム DNN 声質変換 [2019 年 3 月日経 xtech] https://www.youtube.com/watch?v=p9rgqoynfcg

応用紹介 : 音声認識音声対話システム [Shikano, Saruwatari, et al. 2009]

応用紹介 : 統計的時系列推定における音質の差 [Saruwatari, et al. 2012] 白色ノイズの場合人ごみノイズの場合観測音観測音最尤推定最尤推定ベイズ推定ベイズ推定ミュージカルノイズフリーミュージカルノイズフリーどの推定方式が音として自然か? 良い統計的性質を持つ推定法音響的に優れた技術

応用紹介 : 音バーチャルリアリティ物理的なスピーカ列はここ [Koyama, et al. 2014] ここから音が聞こえる ( でも実際は何も無い!)

統計的信号処理の基礎

確率則同時確率 ( または結合確率 ) : 事象 x と事象 y が同時に起こる確率条件つき確率 : 事象 x が起こった下で事象 y が起こる確率周辺化独立性と y が独立

ベイズの定理 : 雨が降っている : 太郎が傘をもっている太郎が傘を持って現れた時外で雨が降っている確率が, 普段雨が降ると太郎が傘を持って出かける確率と, 雨が降る確率を使って計算できる

確率モデル ( 尤度関数, 事前確率 ) 観測データを未知パラメータをとするとのことを尤度関数のことを事前確率のことを事後確率という

確率モデルデータの確率的な生成源例 1) 正規分布 (Normal distribution) 平均分散 2 次元の場合以後と表記例 2) Poisson 分布以後と表記

正規分布に従う確率変数の諸性質のときは従うを意味するとが独立ならの線形変換は正規分布に従うとの結合ベクトルは正規分布に従うこのときの, が与えられた下でのの条件つき期待値

Poisson 分布に従う確率変数の諸性質のときは従うを意味するとが独立ならとが独立でのとき二項分布

パラメータ推定データの確率的な生成プロセスの仮定 ( 順問題 ) 観測データの確率モデル化データから生成プロセスのパラメータの推定 ( 逆問題 ) 最尤推定, 最大事後確率推定, 最小平均二乗誤差推定, ベイズ推論順問題をモデル化ベイズの定理逆問題

ML 推定量,MAP 推定量,MMSE 推定量データが与えられた下でのパラメータの推定量最尤 (Maximum Likelihood) 推定量最大事後確率 (Maximum A Posteriori) 推定量 MAP 推定でを仮定した場合に相当最小平均二乗誤差 (Minimum Mean Squared Error) 推定量

Log-frequency 音声音響信号処理問題の多くは逆問題音響信号処理ブラインド音源分離残響除去音声情報処理音素特徴抽出音声認識イントネーション解析音楽情報処理多重音解析自動採譜本日は晴天なり Time

携帯電話における逆問題人間の音声生成モデル声帯での基本振動を声道で音色付ける声道位置によって太さの異なる音響管の連続と見なせる音響管における共振現象自己回帰 (AR) 過程声道を模擬した音響管声帯信号各微小管毎に透過反射が起きる複雑な共振特性が生じる口からの放射この生成モデルパラメータを求めて伝送する大幅な情報圧縮

音声のスペクトル構造補足短時間スペクトル音声は短時間区間ごとの電力スペクトル密度 ( 周波数領域におけるパワー特性 ) で測ることが多い音声スペクトル構造の 2 要素周波数とともにゆるやかに変化する成分 [ スペクトル包絡 ] 発声器官の共振反共振特性を表す ( つまり人間の喉口の形をあらわす特徴量 ) 細かく周期的 ( 有声音 ; 母音などの場合 ) または非周期的 ( 無声音の場合 ) に変化する成分 [ スペクトル微細構造 ] 音源の周期性 ( つまり声帯の基本周期声の高低を表す特徴量 ) 音声信号のスペクトルはこれら 2 つの要素の積で表される

音声のスペクトル構造補足 2 鼻腔声道人間頭部の断面図の共振音声の音色を与える ( スペクトル包絡構造 ) 声帯 1 の振動音声の基本周期を与える ( スペクトル微細構造 ) 1 2= 最終的な音声

生成モデルアプローチ 1 尤度関数の仮定観測データなプロセス 2 事前分布の仮定を生成する確率的をモデル化生成モデルのパラメータ θ の生成プロセスをモデル化原因の原因原因結果物理的制約 / 経験則生成過程 3 推論 ( 逆問題 ) データ Y から θ と α を推論最尤推定量 MMSE 推定量生成モデル ( 順問題 ),MAP 推定量, ベイズ事後分布

Wiener フィルタ

Wiener フィルタの問題設定問題 : : 観測信号, 音声信号, 雑音信号の離散 Fourier 変換 ( 複素スペクトル ) 雑音重畳音声から音声に関係するパラメータを推定したい仮定 : 音声と雑音は無相関音声は平均 0の複素正規分布に従う雑音は平均 0の複素正規分布に従う雑音パワースペクトル密度は既知 ( 例えば無音声区間から推定済みという状況を想定 )

問題設定 : の MMSE 推定量求めたいのは多変量 Gauss 分布の性質 (Wiener フィルタ )

線形推定器復習線形推定器観測データの線形結合で推定信号をモデル化平均二乗誤差最小規範を最小にするを求めることがここでの問題

Wiener-Hopf 積分方程式の解法復習が非因果的なフィルタの場合両辺を Fourier 変換の場合非因果的 Wiener フィルタ多変量ガウス分布の性質から導きだされる結果と比較せよ

カルマンフィルタ

測定対象に対するモデルの導入例 ) バネマスダンパ系の質点位置の推定バネマスダンパ系の質点がランダムな外力 F(t) により駆動されている質点の位置は観測雑音を含む測定器によって観測される観測雑音

離散時間 Kalman フィルタの問題設定システムモデル : 測定モデル : 観測雑音駆動雑音仮定は互いに独立な正規白色雑音パラメータ : と雑音共分散は既知

離散時間 Kalman フィルタの構成状態推定値時刻 k-1 までの観測値を用いた時刻 k-1 の状態推定値時間更新時刻 k-1 までの観測値を用いた時刻 k の状態推定値計測更新時刻 k までの観測値を用いた時刻 k の状態推定値観測値

離散時間 Kalman フィルタの目的と導出方針目的とからを逐次的に計算したいただし逐次更新アルゴリズム 2 1 3

1 状態の時間更新導出の詳細は信号処理論 2 講義資料参照時間更新による分散の増分

2 状態の計測更新イノベーション ( 観測値に対する予測の誤差 ) 更新式 Kalman ゲイン ( 未知 ) ( 参考 ) (θ,y) がガウス分布に従うとき

3 状態推定値の誤差共分散の更新はと独立

2 最適 Kalman ゲインの導出 Kalman ゲインを決定する最適化問題

2 最適 Kalman ゲインの導出最適化規準を最小化するはを満たすトレースの微分公式より

3 最適 Kalman ゲインにおける推定誤差共分散にを代入 ( 最適 Kalman ゲイン )

離散時間 Kalman フィルタのまとめ 2 1 3 1 2 3

逐次更新アルゴリズムで計算される確率分布時刻 t 1 から t k-1 までの観測信号が与えられたもとでの時刻 t k-1 における状態推定値の事後確率分布 : この分布の平均と共分散行列に相当時刻 t k-1 における上記事後分布を手がかりに推測される時刻 t k における状態推定値の事前確率分布上記事前分布と時刻 t k における観測信号をもとに得られる時刻 t k における状態推定値の事前確率分布

離散時間 Kalman フィルタの Bayes 的解釈システムモデルより : 計測モデルより : 時間更新計測更新