SAP11_12 - PDF Free Download

第 12 回音声音響信号処理 ( 講義のまとめ ) 亀岡弘和東京大学大学院情報理工学系研究科日本電信電話株式会社 NTT コミュニケーション科学基礎研究所

講義内容 ( キーワード ) 信号処理符号化標準化の実用システム例の紹介情報通信の基本 ( 誤り検出訂正符号変調 IP) 符号化技術の基本 ( 量子化予測変換圧縮 ) 音声分析合成認識強調音楽信号処理統計的信号処理の基礎 ( スペクトルガウス過程最尤推定 ) ガウス性確率変数の基本性質時間周波数分析 ( 短時間フーリエ変換ウェーブレット変換 ) ウィナーフィルタとカルマンフィルタ音声生成過程のモデル ( ソースフィルタ理論と藤崎モデル ) 自己回帰モデルと線形予測分析独立成分分析によるブラインド音源分離非負値行列因子分解によるスペクトログラムの分解表現スペクトル間擬距離最適化アルゴリズム (EM アルゴリズム補助関数法 )

講義スケジュール 10/ 3 守谷先生担当 10/17 守谷先生担当 10/24 線形予測分析と自己回帰モデル 10/31 対称性を利用した雑音抑圧 11/ 7 ( 休講 ) 11/14 時間周波数解析 11/21 非負値行列因子分解 11/28 統計的手法による音声強調 12/ 5 独立成分分析によるブラインド音源分離 12/12 音楽スペクトログラムのベイズモデリング 12/19 ( 休講 ) 1/16 WienerフィルタとKalmanフィルタ 1/23 統計的手法による音声変換 1/30 講義のまとめ

第 1 回, 第 2 回 : 音声音響符号化の基本技術標準化音声音楽符号化技術と国際標準基本技術波形符号化 ( 時間領域 / 周波数領域での符号化 ) 分析合成符号化 ( 線形予測符号化 ) ハイブリッド符号化 (CELP 等 ) その他 ( ベクトル量子化, エントロピー符号化 ) 非可逆圧縮 ( 圧縮優先 ) MPEGレイヤー III (MP3),AAC, ミニディスク等原音の情報量を1/5から1/10に圧縮聴覚特性の利用最小可聴値, 同時 / 継時マスキング可逆圧縮 ( 品質優先 ) 元のデータを復元可能 ( 無歪 ) 過去の大量のアナログデータの永久保存

第 3 回 : 線形予測分析と自己回帰モデル背景統計的手法を取り入れた初めての音声研究音声分析合成 ( ボコーダ ), 音声音響符号化, 音声認識のための音声特徴量, 音声強調 ( 残響除去ブラインド音声分離 ) への応用 3 つの観点から解説予測誤差を最小化する観点最小二乗誤差推定線形系としての観点自己回帰系 (AutoRegressive system) 音声の生成過程モデル最尤推定問題としての定式化白色化効果スペクトルマッチングとしての観点最尤スペクトル推定, 板倉斎藤距離

第 5 回 : 時間周波数解析背景信号を構成する周波数成分がどのように時間変化していくかを捉えるための処理近年の音声音響信号処理の研究では不可欠な要素技術代表的な解析手法, 信号への逆変換短時間 Fourier 変換 (ShortTimeFourierTransform) 定義波形を短時間ごとに窓掛けしてFourier 変換スペクトログラムとはフィルタバンクとしての見方 ( 定バンド幅フィルタバンク ) ウェーブレット変換定義波形とウェーブレット ( 小さな波 ) との内積フィルタバンクとしての見方 ( 定 Qフィルタバンク ) 反復 STFT 振幅スペクトログラムから信号の最適変換

第 6 回 : 非負値行列因子分解背景画像処理分野で登場した技術元々は顔画像を目鼻口などのパーツに分解することが目的近年モノラル音源分離の手法として注目スペクトログラムをデータ行列と見なして行列の積に分解非負値行列因子分解 (Non-negativeMatrixFactorization) 非負値制約の意図, 非負値制約がもたらす効果についてを非負制約の下で解く反復アルゴリズム行列間の近さの規準 :Frobeniusノルム,Iダイバージェンス基本アイディア : 補助関数法, 凸不等式複素 NMF NMFによるスペクトログラム分解法が根源的に抱える問題これを解決する新モデル

第 7 回 : 統計的手法による音声強調背景雑音や残響が重畳された観測信号から音声信号を強調したり抽出したりする技術音声アプリケーション ( 携帯電話, 音声認識, 航空通信, テレ会議システム, 補聴器利用者による音声通信 ) において特に有用音声強調問題の設定手法の分類手法 1: 複素スペクトルの MMSE 推定量 [Wiener1949] 手法 2: 振幅スペクトルの ML 推定量 [McAulay1980] 手法 3: 振幅スペクトルの MMSE 推定量 [Ephraim1984] 事前 SN 比 ( または音声パワースペクトル密度 ) の推定方法最尤法 ( パワー減算 (PS) 法 )

第 8 回 : 独立成分分析によるブラインド音源分離背景ブラインド音源分離とは, 複数のマイクロホンで取得した観測信号から同時に鳴っている複数の音源信号を分離獲得する技術独立成分分析はブラインド音源分離を行うための統計的手法の一つブラインド音源分離の問題設定音源信号と混合過程の両未知数を観測信号から推定音源信号間の統計的独立性を仮定中心極限定理音をたくさん混ぜていくと振幅値の分布は正規分布に近づく正規分布はエントロピーが最大な分布独立成分分析独立にする=エントロピーを減らす= 正規分布から遠ざける非 Gauss 性の分布の例 : Laplace 分布効率的なアルゴリズムの紹介 (FastICA, 自然勾配法 )

第 10 回 : Wiener フィルタと Kalman フィルタ背景雑音が重畳した観測信号から原信号を推定するための信号処理 Wiener フィルタ原信号と観測信号の定常性を仮定原信号の最小平均二乗誤差 (MinimumMeanSquareError) 推定量を得る時不変フィルタ Kalman フィルタ原信号と観測信号の定常性を仮定しない原信号の最小平均二乗誤差 (MinimumMeanSquareError) 推定量を得る時変フィルタ

第 11 回 : 統計的手法による音声変換背景話者の声質を変換する技術映画の吹き替え, 携帯電話の帯域拡張, 肉伝導音声コミュニケーション, 無音声電話, 発声障害者補助への応用が期待フレームベースの変換法音声信号のペアの音素アラインメントが取れている状況を想定各フレームにおいて独立に変換混合正規分布モデルに基づく変換法が主流系列ベース変換法時系列単位での変換処理最尤系列変換法動的特徴量と静的特徴量との間の無矛盾制約 Kalmanフィルタ的な再帰式によるオンライン変換方式系列内変動のモデル化

成績評価レポート課題本講義に関連する論文を 1 つ選び発表資料形式 ( パワーポイント等 ) にまとめて学期末に提出してください講義の感想レポートとともに講義に対する感想文も一緒に提出して下さい提出先 : kame.hirokazu@gmail.com 提出期限 : 2012 年 2 月 20 日 ( 月 )

レポートのチェック項目 1. 研究の背景と動機は何か ( どういう要請があって当該研究が行われたか )? 2. 手法の説明が論文の数式や図を単に写しただけになっていないか ( 図を効果的に使う, 自分なりの解釈を述べる, などの工夫がなされているか )? 3. なぜその論文を選んだのか? 興味深いと感じたか? 4. 当該論文で提案されている手法の強みと限界弱点問題は?

レポート課題対象論文のリスト 1. A. El-Jaroudi and J. Makhoul, "Discrete all-pole modeling," IEEE Transactions on Signal Processing, Vol. 39, No. 2, pp. 411-423, 1991. 2. R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant rooms," in Proc. 1988 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'88), pp. 2578-2581, 1988. 3. D.W. Griffin and J.S. Lim, "Signal estimation from modified short-time Fourier transform," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-32, No. 2, pp. 236-243, 1984. 4. T. Irino and R.D. Patterson, "A time-domain, level-dependent auditory filter: The gammachirp," The Journal of the Acoustic Society of America, Vol. 101, pp. 412-419, 1997. 5. A. T. Cemgil, "Bayesian inference for nonnegative matrix factorization models," Technical Report CUED/F-INFENG/TR.609, University of Cambridge, 2008. 6. C. Fevotte, N. Bertinand J.-L. Durrieu, "Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis," Neural Computation, Vol. 21, No. 3,pp. 793-830, 2009. 7. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 32, No. 6, pp. 1109-1121, 1984. 8. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 33, No. 2, pp. 443-445, 1985. 9. S. Amari, A. Cichocki and H.H. Yang, "A new learning algorithm for blind signal separation," In Advances in Neural Information Processing Systems (NIPS), Vol. 8, pp. 757-763 (1996).