第 12 回 音声音響信号処理 ( 講義のまとめ ) 亀岡弘和 東京大学大学院情報理工学系研究科日本電信電話株式会社 NTT コミュニケーション科学基礎研究所
講義内容 ( キーワード ) 信号処理 符号化 標準化の実用システム例の紹介 情報通信の基本 ( 誤り検出 訂正符号 変調 IP) 符号化技術の基本 ( 量子化 予測 変換 圧縮 ) 音声分析 合成 認識 強調 音楽信号処理 統計的信号処理の基礎 ( スペクトル ガウス過程 最尤推定 ) ガウス性確率変数の基本性質 時間周波数分析 ( 短時間フーリエ変換 ウェーブレット変換 ) ウィナーフィルタとカルマンフィルタ 音声生成過程のモデル ( ソースフィルタ理論と藤崎モデル ) 自己回帰モデルと線形予測分析 独立成分分析によるブラインド音源分離 非負値行列因子分解によるスペクトログラムの分解表現 スペクトル間擬距離 最適化アルゴリズム (EM アルゴリズム 補助関数法 )
講義スケジュール 10/ 3 守谷先生担当 10/17 守谷先生担当 10/24 線形予測分析と自己回帰モデル 10/31 対称性を利用した雑音抑圧 11/ 7 ( 休講 ) 11/14 時間周波数解析 11/21 非負値行列因子分解 11/28 統計的手法による音声強調 12/ 5 独立成分分析によるブラインド音源分離 12/12 音楽スペクトログラムのベイズモデリング 12/19 ( 休講 ) 1/16 WienerフィルタとKalmanフィルタ 1/23 統計的手法による音声変換 1/30 講義のまとめ
第 1 回, 第 2 回 : 音声音響符号化の基本技術 標準化 音声 音楽符号化技術と国際標準基本技術 波形符号化 ( 時間領域 / 周波数領域での符号化 ) 分析合成符号化 ( 線形予測符号化 ) ハイブリッド符号化 (CELP 等 ) その他 ( ベクトル量子化, エントロピー符号化 ) 非可逆圧縮 ( 圧縮優先 ) MPEGレイヤー III (MP3),AAC, ミニディスク等 原音の情報量を1/5から1/10に圧縮 聴覚特性の利用 最小可聴値, 同時 / 継時マスキング 可逆圧縮 ( 品質優先 ) 元のデータを復元可能 ( 無歪 ) 過去の大量のアナログデータの永久保存
第 3 回 : 線形予測分析と自己回帰モデル 背景 統計的手法を取り入れた初めての音声研究 音声分析合成 ( ボコーダ ), 音声音響符号化, 音声認識のための音声特徴量, 音声強調 ( 残響除去 ブラインド音声分離 ) への応用 3 つの観点から解説 予測誤差 を最小化する観点 最小二乗誤差推定 線形系としての観点 自己回帰系 (AutoRegressive system) 音声の生成過程モデル 最尤推定問題としての定式化 白色化効果 スペクトルマッチングとしての観点 最尤スペクトル推定, 板倉斎藤距離
第 5 回 : 時間周波数解析 背景 信号を構成する周波数成分がどのように時間変化していくかを捉えるための処理 近年の音声音響信号処理の研究では不可欠な要素技術 代表的な解析手法, 信号への逆変換 短時間 Fourier 変換 (ShortTimeFourierTransform) 定義 波形を短時間ごとに窓掛けしてFourier 変換 スペクトログラムとは フィルタバンクとしての見方 ( 定バンド幅フィルタバンク ) ウェーブレット変換 定義 波形と ウェーブレット ( 小さな波 ) との内積 フィルタバンクとしての見方 ( 定 Qフィルタバンク ) 反復 STFT 振幅スペクトログラムから信号の最適変換
第 6 回 : 非負値行列因子分解 背景 画像処理分野で登場した技術 元々は顔画像を目 鼻 口などのパーツに分解することが目的 近年モノラル音源分離の手法として注目 スペクトログラムをデータ行列と見なして行列の積に分解 非負値行列因子分解 (Non-negativeMatrixFactorization) 非負値制約の意図, 非負値制約がもたらす効果について を非負制約の下で解く反復アルゴリズム 行列間の近さの規準 :Frobeniusノルム,Iダイバージェンス 基本アイディア : 補助関数法, 凸不等式 複素 NMF NMFによるスペクトログラム分解法が根源的に抱える問題 これを解決する新モデル
第 7 回 : 統計的手法による音声強調 背景 雑音や残響が重畳された観測信号から音声信号を強調したり抽出したりする技術 音声アプリケーション ( 携帯電話, 音声認識, 航空通信, テレ会議システム, 補聴器利用者による音声通信 ) において特に有用 音声強調問題の設定手法の分類 手法 1: 複素スペクトルの MMSE 推定量 [Wiener1949] 手法 2: 振幅スペクトルの ML 推定量 [McAulay1980] 手法 3: 振幅スペクトルの MMSE 推定量 [Ephraim1984] 事前 SN 比 ( または音声パワースペクトル密度 ) の推定方法 最尤法 ( パワー減算 (PS) 法 )
第 8 回 : 独立成分分析によるブラインド音源分離 背景 ブラインド音源分離とは, 複数のマイクロホンで取得した観測信号から同時に鳴っている複数の音源信号を分離獲得する技術 独立成分分析はブラインド音源分離を行うための統計的手法の一つ ブラインド音源分離の問題設定 音源信号と混合過程の両未知数を観測信号から推定 音源信号間の統計的独立性を仮定 中心極限定理 音をたくさん混ぜていくと振幅値の分布は正規分布に近づく 正規分布はエントロピーが最大な分布 独立成分分析 独立にする=エントロピーを減らす= 正規分布から遠ざける 非 Gauss 性の分布の例 : Laplace 分布 効率的なアルゴリズムの紹介 (FastICA, 自然勾配法 )
第 10 回 : Wiener フィルタと Kalman フィルタ 背景 雑音が重畳した観測信号から原信号を推定するための信号処理 Wiener フィルタ 原信号と観測信号の定常性を仮定 原信号の最小平均二乗誤差 (MinimumMeanSquareError) 推定量を得る時不変フィルタ Kalman フィルタ 原信号と観測信号の定常性を仮定しない 原信号の最小平均二乗誤差 (MinimumMeanSquareError) 推定量を得る時変フィルタ
第 11 回 : 統計的手法による音声変換 背景 話者の声質を変換する技術 映画の吹き替え, 携帯電話の帯域拡張, 肉伝導音声コミュニケーション, 無音声電話, 発声障害者補助への応用が期待 フレームベースの変換法 音声信号のペアの音素アラインメントが取れている状況を想定 各フレームにおいて独立に変換 混合正規分布モデルに基づく変換法が主流 系列ベース変換法 時系列単位での変換処理 最尤系列変換法 動的特徴量と静的特徴量との間の無矛盾制約 Kalmanフィルタ的な再帰式によるオンライン変換方式 系列内変動のモデル化
成績評価 レポート課題 本講義に関連する論文を 1 つ選び 発表資料形式 ( パワーポイント等 ) にまとめて学期末に提出してください 講義の感想 レポートとともに講義に対する感想文も一緒に提出して下さい 提出先 : kame.hirokazu@gmail.com 提出期限 : 2012 年 2 月 20 日 ( 月 )
レポートのチェック項目 1. 研究の背景と動機は何か ( どういう要請があって当該研究が行われたか )? 2. 手法の説明が論文の数式や図を単に写しただけになっていないか ( 図を効果的に使う, 自分なりの解釈を述べる, などの工夫がなされているか )? 3. なぜその論文を選んだのか? 興味深いと感じたか? 4. 当該論文で提案されている手法の強みと限界 弱点 問題は?
レポート課題対象論文のリスト 1. A. El-Jaroudi and J. Makhoul, "Discrete all-pole modeling," IEEE Transactions on Signal Processing, Vol. 39, No. 2, pp. 411-423, 1991. 2. R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant rooms," in Proc. 1988 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'88), pp. 2578-2581, 1988. 3. D.W. Griffin and J.S. Lim, "Signal estimation from modified short-time Fourier transform," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-32, No. 2, pp. 236-243, 1984. 4. T. Irino and R.D. Patterson, "A time-domain, level-dependent auditory filter: The gammachirp," The Journal of the Acoustic Society of America, Vol. 101, pp. 412-419, 1997. 5. A. T. Cemgil, "Bayesian inference for nonnegative matrix factorization models," Technical Report CUED/F-INFENG/TR.609, University of Cambridge, 2008. 6. C. Fevotte, N. Bertinand J.-L. Durrieu, "Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis," Neural Computation, Vol. 21, No. 3,pp. 793-830, 2009. 7. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 32, No. 6, pp. 1109-1121, 1984. 8. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 33, No. 2, pp. 443-445, 1985. 9. S. Amari, A. Cichocki and H.H. Yang, "A new learning algorithm for blind signal separation," In Advances in Neural Information Processing Systems (NIPS), Vol. 8, pp. 757-763 (1996).