SAP11_12

Similar documents
SAP11_03

Missing Data NMF

Microsoft PowerPoint rev.ppt

PowerPoint プレゼンテーション

スパース表現による音響信号処理

IPSJ SIG Technical Report 1, Instrument Separation in Reverberant Environments Using Crystal Microphone Arrays Nobutaka ITO, 1, 2 Yu KITANO, 1

Implementation of Computationally Efficient Real-Time Voice Conversion

応用音響学

IBIStutorial2014

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

応用音響学

PowerPoint プレゼンテーション

untitled

Microsoft PowerPoint - 第3回2.ppt

<4D F736F F F696E74202D2091E6824F82518FCD E838B C68CEB82E894AD90B B2E >

Microsoft PowerPoint - SP _slides

画像処理工学

インターリーブADCでのタイミングスキュー影響のデジタル補正技術

数学 t t t t t 加法定理 t t t 倍角公式加法定理で α=β と置く. 三角関数

TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W l

Microsoft PowerPoint - ip02_01.ppt [互換モード]

2 DS SS (SS+DS) Fig. 2 Separation algorithm for motorcycle sound by combining DS and SS (SS+DS). 3. [3] DS SS 2 SS+DS 1 1 B SS SS 4. NMF 4. 1 (NMF) Y

音情報処理I

Microsoft PowerPoint - aep_1.ppt [互換モード]

トピックモデルの応用: 関係データ、ネットワークデータ

h(n) x(n) s(n) S (ω) = H(ω)X(ω) (5 1) H(ω) H(ω) = F[h(n)] (5 2) F X(ω) x(n) X(ω) = F[x(n)] (5 3) S (ω) s(n) S (ω) = F[s(n)] (5

SAP11_08

Information Theory

untitled

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

PowerPoint プレゼンテーション

様々なミクロ計量モデル†

Progress report

スペクトルに対応する英語はスペクトラム(spectrum)です

線形システム応答 Linear System response

Microsoft PowerPoint - 時系列解析(11)_講義用.pptx

PowerPoint Presentation

参考書 (1) 中村, 山本, 吉田 : ウェーブレットによる信号処理と画像処理, 共立出版 応用の紹介とプログラムリストが中心, 理論的背景はほとんどなし 意味不明の比喩を多用 各時代 各国別に美女を探すのが窓フーリエ変換である 応用テーマ : 不連続信号検出, 相関の検出, ノイズ除去, 画像デ

Microsoft PowerPoint - 画像工学 印刷用

IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

PowerPoint プレゼンテーション

Microsoft PowerPoint - 物情数学C(2012)(フーリエ前半)_up

MCMC: Marov Chain Monte Carlo [20] 2. VAE-NMF DNN DNN F T X x t R F t = 1,..., T x t 2. 1 Generative Adversarial Networ: GAN [21,22] GAN z t R D x t z

DVIOUT

す 局所領域 ωk において 線形変換に用いる係数 (ak 画素の係数 (ak bk ) を算出し 入力画像の信号成分を bk ) は次式のコスト関数 E を最小化するように最適化 有さない画素に対して 式 (2) より画素値を算出する される これにより 低解像度な画像から補間によるアップサ E(

IPSJ SIG Technical Report Vol.2014-MUS-104 No /8/27 F0 1,a) 1,b) 1,c) 2,d) (F0) F0 F0 Graphical User Interface (GUI) F0 1. [1] CD MIDI [2] [3,

2014 3

Signal Processing Toolbox

Microsoft PowerPoint - CSA_B3_EX2.pptx

動画コンテンツ 動画 1 動画 2 動画 3 生成中の映像 入力音楽 選択された素片 テンポによる伸縮 音楽的構造 A B B B B B A C C : 4) 6) Web Web 2 2 c 2009 Information Processing S

1. HNS [1] HNS HNS HNS [2] HNS [3] [4] [5] HNS 16ch SNR [6] 1 16ch 1 3 SNR [4] [5] 2. 2 HNS API HNS CS27-HNS [1] (SOA) [7] API Web 2

PowerPoint プレゼンテーション

音声情報処理

PowerPoint プレゼンテーション

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-MUS-99 No /5/11 スペクトル包絡と基本周波数の同時推定のための無限カーネル線形予測分析法 吉井和佳 1,a) 後藤真孝 1,b) 概要 : 本稿では, 音声信号のスペクトル包絡と基本

スライド 1

Microsoft PowerPoint - 第06章振幅変調.pptx

画像解析論(2) 講義内容

Microsoft Word doc

景気指標の新しい動向

生命情報学

第6章 実験モード解析

Microsoft PowerPoint - spe1_handout10.ppt


2. ICA ICA () (Blind Source Separation BBS) 2) Fig. 1 Model of Optical Topography. ( ) ICA 2.2 ICA ICA 3) n 1 1 x 1 (t) 2 x 2 (t) n x(t) 1 x(t

001

PowerPoint プレゼンテーション

工業数学F2-04(ウェブ用).pptx

Microsoft PowerPoint - H22制御工学I-2回.ppt

遅延デジタルフィルタの分散型積和演算回路を用いたFPGA実装の検討

PowerPoint プレゼンテーション

Microsoft PowerPoint - Lec15 [互換モード]

untitled

FFT

<4D F736F F F696E74202D C092425F D8A7789EF89C88A778BB38EBA816A8C6791D CC82B582AD82DD2E >

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

図 1: HPSS の処理の手順 HPSS では信号 s(t) をフレーム長 lk で STFT して得られる振幅スペクトログラム S 上で スペクトログラム を H, P に分離し 逆 STFT することにより 定常 狭帯域的成分 h(t) と非定常 広帯域的成分 p(t) とを分離する 調波打楽

スポーツ中継向け ターゲットマイク技術 を開発 ~ 歓声に埋もれたスポーツの競技音をクリアに抽出 NHK との実証実験を実施 ~ NTT メディアインテリジェンス研究所 音声言語メディアプロジェクト Copyright 2015 NTT corp. All Rights Reserved. 1

音声分野におけるMATLABの利用と先端研究

VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案

Microsoft PowerPoint - mp13-07.pptx

Microsoft PowerPoint - no1_17

Microsoft PowerPoint - mp11-06.pptx

DVIOUT

09.pptx

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

情報処理学会研究報告 IPSJ SIG Technical Report 調音運動 HMM 音声合成における調音特徴 - 声道パラメータ変換と音源の改良 小野田高幸 桂田浩一 新田恒雄 音声認識と合成を同じ調音運動モデルを用いて実現するシステムの開発を行っている. 調音特徴を用いて HMM を設計す

ディジタル信号処理

スライド 1

Microsoft PowerPoint - no1_19.pptx

2_05.dvi

2.2 (a) = 1, M = 9, p i 1 = p i = p i+1 = 0 (b) = 1, M = 9, p i 1 = 0, p i = 1, p i+1 = 1 1: M 2 M 2 w i [j] w i [j] = 1 j= w i w i = (w i [ ],, w i [


第 4 週コンボリューションその 2, 正弦波による分解 教科書 p. 16~ 目標コンボリューションの演習. 正弦波による信号の分解の考え方の理解. 正弦波の複素表現を学ぶ. 演習問題 問 1. 以下の図にならって,1 と 2 の δ 関数を図示せよ δ (t) 2

この時間波形における切り出し ( 以降 波形切り出し と呼ぶ ) は IR に含まれる全周波数成分を同一時刻で切り出すものである しかし 実際には周波数によって IR の長さは異なり また雑音のパワーも異なる 図 2 は 実測した室内インパルス応答 ( 室容積 12m 3 残響時間.6s) に 標準

目次 ガウス過程 (Gaussian Process; GP) 序論 GPによる回帰 GPによる識別 GP 状態空間モデル 概括 GP 状態空間モデルによる音楽ムードの推定

Microsoft Word - 02__⁄T_ŒÚ”�.doc

WAVE 形式のファイルにも出力できる 3 つの波形を同時に発生可能 正弦波, 三角波, 白色雑音などを選択 16bit なので値の範囲は ~ ここに表示されるのはデジタル信号サウンドカードから出力されるのはアナログ信号 Fig.1 WaveGene の操作パネル wav フ

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Transcription:

第 12 回 音声音響信号処理 ( 講義のまとめ ) 亀岡弘和 東京大学大学院情報理工学系研究科日本電信電話株式会社 NTT コミュニケーション科学基礎研究所

講義内容 ( キーワード ) 信号処理 符号化 標準化の実用システム例の紹介 情報通信の基本 ( 誤り検出 訂正符号 変調 IP) 符号化技術の基本 ( 量子化 予測 変換 圧縮 ) 音声分析 合成 認識 強調 音楽信号処理 統計的信号処理の基礎 ( スペクトル ガウス過程 最尤推定 ) ガウス性確率変数の基本性質 時間周波数分析 ( 短時間フーリエ変換 ウェーブレット変換 ) ウィナーフィルタとカルマンフィルタ 音声生成過程のモデル ( ソースフィルタ理論と藤崎モデル ) 自己回帰モデルと線形予測分析 独立成分分析によるブラインド音源分離 非負値行列因子分解によるスペクトログラムの分解表現 スペクトル間擬距離 最適化アルゴリズム (EM アルゴリズム 補助関数法 )

講義スケジュール 10/ 3 守谷先生担当 10/17 守谷先生担当 10/24 線形予測分析と自己回帰モデル 10/31 対称性を利用した雑音抑圧 11/ 7 ( 休講 ) 11/14 時間周波数解析 11/21 非負値行列因子分解 11/28 統計的手法による音声強調 12/ 5 独立成分分析によるブラインド音源分離 12/12 音楽スペクトログラムのベイズモデリング 12/19 ( 休講 ) 1/16 WienerフィルタとKalmanフィルタ 1/23 統計的手法による音声変換 1/30 講義のまとめ

第 1 回, 第 2 回 : 音声音響符号化の基本技術 標準化 音声 音楽符号化技術と国際標準基本技術 波形符号化 ( 時間領域 / 周波数領域での符号化 ) 分析合成符号化 ( 線形予測符号化 ) ハイブリッド符号化 (CELP 等 ) その他 ( ベクトル量子化, エントロピー符号化 ) 非可逆圧縮 ( 圧縮優先 ) MPEGレイヤー III (MP3),AAC, ミニディスク等 原音の情報量を1/5から1/10に圧縮 聴覚特性の利用 最小可聴値, 同時 / 継時マスキング 可逆圧縮 ( 品質優先 ) 元のデータを復元可能 ( 無歪 ) 過去の大量のアナログデータの永久保存

第 3 回 : 線形予測分析と自己回帰モデル 背景 統計的手法を取り入れた初めての音声研究 音声分析合成 ( ボコーダ ), 音声音響符号化, 音声認識のための音声特徴量, 音声強調 ( 残響除去 ブラインド音声分離 ) への応用 3 つの観点から解説 予測誤差 を最小化する観点 最小二乗誤差推定 線形系としての観点 自己回帰系 (AutoRegressive system) 音声の生成過程モデル 最尤推定問題としての定式化 白色化効果 スペクトルマッチングとしての観点 最尤スペクトル推定, 板倉斎藤距離

第 5 回 : 時間周波数解析 背景 信号を構成する周波数成分がどのように時間変化していくかを捉えるための処理 近年の音声音響信号処理の研究では不可欠な要素技術 代表的な解析手法, 信号への逆変換 短時間 Fourier 変換 (ShortTimeFourierTransform) 定義 波形を短時間ごとに窓掛けしてFourier 変換 スペクトログラムとは フィルタバンクとしての見方 ( 定バンド幅フィルタバンク ) ウェーブレット変換 定義 波形と ウェーブレット ( 小さな波 ) との内積 フィルタバンクとしての見方 ( 定 Qフィルタバンク ) 反復 STFT 振幅スペクトログラムから信号の最適変換

第 6 回 : 非負値行列因子分解 背景 画像処理分野で登場した技術 元々は顔画像を目 鼻 口などのパーツに分解することが目的 近年モノラル音源分離の手法として注目 スペクトログラムをデータ行列と見なして行列の積に分解 非負値行列因子分解 (Non-negativeMatrixFactorization) 非負値制約の意図, 非負値制約がもたらす効果について を非負制約の下で解く反復アルゴリズム 行列間の近さの規準 :Frobeniusノルム,Iダイバージェンス 基本アイディア : 補助関数法, 凸不等式 複素 NMF NMFによるスペクトログラム分解法が根源的に抱える問題 これを解決する新モデル

第 7 回 : 統計的手法による音声強調 背景 雑音や残響が重畳された観測信号から音声信号を強調したり抽出したりする技術 音声アプリケーション ( 携帯電話, 音声認識, 航空通信, テレ会議システム, 補聴器利用者による音声通信 ) において特に有用 音声強調問題の設定手法の分類 手法 1: 複素スペクトルの MMSE 推定量 [Wiener1949] 手法 2: 振幅スペクトルの ML 推定量 [McAulay1980] 手法 3: 振幅スペクトルの MMSE 推定量 [Ephraim1984] 事前 SN 比 ( または音声パワースペクトル密度 ) の推定方法 最尤法 ( パワー減算 (PS) 法 )

第 8 回 : 独立成分分析によるブラインド音源分離 背景 ブラインド音源分離とは, 複数のマイクロホンで取得した観測信号から同時に鳴っている複数の音源信号を分離獲得する技術 独立成分分析はブラインド音源分離を行うための統計的手法の一つ ブラインド音源分離の問題設定 音源信号と混合過程の両未知数を観測信号から推定 音源信号間の統計的独立性を仮定 中心極限定理 音をたくさん混ぜていくと振幅値の分布は正規分布に近づく 正規分布はエントロピーが最大な分布 独立成分分析 独立にする=エントロピーを減らす= 正規分布から遠ざける 非 Gauss 性の分布の例 : Laplace 分布 効率的なアルゴリズムの紹介 (FastICA, 自然勾配法 )

第 10 回 : Wiener フィルタと Kalman フィルタ 背景 雑音が重畳した観測信号から原信号を推定するための信号処理 Wiener フィルタ 原信号と観測信号の定常性を仮定 原信号の最小平均二乗誤差 (MinimumMeanSquareError) 推定量を得る時不変フィルタ Kalman フィルタ 原信号と観測信号の定常性を仮定しない 原信号の最小平均二乗誤差 (MinimumMeanSquareError) 推定量を得る時変フィルタ

第 11 回 : 統計的手法による音声変換 背景 話者の声質を変換する技術 映画の吹き替え, 携帯電話の帯域拡張, 肉伝導音声コミュニケーション, 無音声電話, 発声障害者補助への応用が期待 フレームベースの変換法 音声信号のペアの音素アラインメントが取れている状況を想定 各フレームにおいて独立に変換 混合正規分布モデルに基づく変換法が主流 系列ベース変換法 時系列単位での変換処理 最尤系列変換法 動的特徴量と静的特徴量との間の無矛盾制約 Kalmanフィルタ的な再帰式によるオンライン変換方式 系列内変動のモデル化

成績評価 レポート課題 本講義に関連する論文を 1 つ選び 発表資料形式 ( パワーポイント等 ) にまとめて学期末に提出してください 講義の感想 レポートとともに講義に対する感想文も一緒に提出して下さい 提出先 : kame.hirokazu@gmail.com 提出期限 : 2012 年 2 月 20 日 ( 月 )

レポートのチェック項目 1. 研究の背景と動機は何か ( どういう要請があって当該研究が行われたか )? 2. 手法の説明が論文の数式や図を単に写しただけになっていないか ( 図を効果的に使う, 自分なりの解釈を述べる, などの工夫がなされているか )? 3. なぜその論文を選んだのか? 興味深いと感じたか? 4. 当該論文で提案されている手法の強みと限界 弱点 問題は?

レポート課題対象論文のリスト 1. A. El-Jaroudi and J. Makhoul, "Discrete all-pole modeling," IEEE Transactions on Signal Processing, Vol. 39, No. 2, pp. 411-423, 1991. 2. R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant rooms," in Proc. 1988 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'88), pp. 2578-2581, 1988. 3. D.W. Griffin and J.S. Lim, "Signal estimation from modified short-time Fourier transform," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-32, No. 2, pp. 236-243, 1984. 4. T. Irino and R.D. Patterson, "A time-domain, level-dependent auditory filter: The gammachirp," The Journal of the Acoustic Society of America, Vol. 101, pp. 412-419, 1997. 5. A. T. Cemgil, "Bayesian inference for nonnegative matrix factorization models," Technical Report CUED/F-INFENG/TR.609, University of Cambridge, 2008. 6. C. Fevotte, N. Bertinand J.-L. Durrieu, "Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis," Neural Computation, Vol. 21, No. 3,pp. 793-830, 2009. 7. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 32, No. 6, pp. 1109-1121, 1984. 8. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 33, No. 2, pp. 443-445, 1985. 9. S. Amari, A. Cichocki and H.H. Yang, "A new learning algorithm for blind signal separation," In Advances in Neural Information Processing Systems (NIPS), Vol. 8, pp. 757-763 (1996).