応用音響学 - PDF Free Download

東京大学工学部 4 年生夏学期応用音響学第 3 回 (4/21) 猿渡洋東京大学大学院情報理工学系研究科システム情報学専攻 hiroshi_saruwatari@ipc.i.u-tokyo.ac.jp

講義スケジュール前半 ( 猿渡担当 ) 4/07: 第 1 回 4/14: 第 2 回 4/21: 第 3 回 4/28: 第 4 回 5/12: 第 5 回 5/19: 第 6 回後半 ( 牧野先生担当 ) 6/09: 第 7 回 6/16: 第 8 回 6/23: 第 9 回 6/30: 第 10 回 7/07: 第 11 回 7/14: 第 12 回 5 月 26 日は休講予定 7/28: 学期末試験 ( 予定 )

講義資料と成績評価講義資料 http://www.sp.ipc.i.u-tokyo.ac.jp/~saruwatari/ ( システム情報第一研究室からたどれるようにしておきます ) 成績評価出席点学期末試験

ケプストラム処理の特徴復習スペクトル構造の分解対数を利用してスペクトル積を和に変換ケフレンシー領域へ変換することによりスペクトル包絡と周期的微細構造を区別可能にする単純な窓かけ操作 ( リフター ) により包絡成分のみ ( もしくは微細構造のみ ) を抽出可能少ない演算量スペクトル包絡成分を抽出するのに必要な演算 [ 対数演算 + 逆 DFT+ リフタリング +DFT] 非常に少ない演算量で抽出可能

ケプストラムによるスペクトル包絡復習短時間スペクトル包絡の例スペクトル包絡の時間遷移抽出されたスペクトル包絡時間

ケプストラム分析のまとめ復習長所比較的単純な操作でスペクトル包絡抽出可能高次ケプストラムも使用すれば基本周波数も抽出可能問題点リフタリングのカットオフ位置をどのようにして決めるか? 抽出されたスペクトル包絡においてホルマント共振があまり強く表示されない人間の聴覚系では共振点をより聞いていると言われている声道での共振をモデルにしたパラメトリック分析が有効

本日の話題線形予測分析 (Linear Predictive Coding) 音声情報処理研究の歴史の幕開けとなった信号処理技術 ( 統計的手法を取り入れた初めての音声研究として有名 ) 音声分析合成 ( ボコーダ ) 音声音響符号化音声認識のための音声特徴量音声強調 ( 残響除去ブラインド音声分離 ) などへの応用日本発の技術としても知られる Levinson-Durbin- 板倉アルゴリズム偏自己相関 (PARCOR) 線スペクトル対 (Line Spectrum Pair) の発明や板倉齋藤距離の発見など板倉文忠氏 ( 名古屋大学名誉教授 ) の電電公社時代の活躍が世界的に有名

線形予測分析 3つの観点から解説予測誤差を最小化する観点最小二乗誤差推定線形系としての観点自己回帰系 (AutoRegressive system) 音声の生成過程モデル最尤推定白色化スペクトルマッチングとしての観点最尤スペクトル推定板倉斎藤距離

予測誤差を最小化動機 : 符号化への応用少ないパラメータで音声信号を表現したい問題 : 線形予測誤差の最小化時刻の信号のサンプル値を過去のサンプル値の線形結合で予測予測の誤差を最小にするには結合係数 ( 予測係数という ) をどう置けば良い? time

最小二乗誤差推定による定式化すべてのでとなるを求めたい目的関数最小解ではを満たすため

最小二乗誤差推定による定式化連立方程式に帰着以上より最適予測係数は以下の方程式を満たすこの方程式を Yule-Walker 方程式という

Levinson-Durbin-Itakura アルゴリズム (1/6) Yule-Walker 方程式連立一次方程式の解き方一般の場合 : Gauss の消去法左辺が正値対称行列の場合 : Cholesky 分解左辺が Toeplitz 行列の場合 : Levinson アルゴリズム上記のどれになるかは後述この場合の解き方は? Toeplitz 行列右辺と左辺の関係が特殊

Levinson-Durbin-Itakura アルゴリズム (2/6) 右辺を左辺に移項 P P 行列 (P+1) (P+1) 行列

Levinson-Durbin-Itakura アルゴリズム (3/6) P 次の ( 最適な ) 予測係数から (P+1) 次の ( 最適な ) 予測係数を再帰的に解けないか? 関係は?

Levinson-Durbin-Itakura アルゴリズム (4/6) 式 (*) を変形 (P+1) (P+1) 行列 (P+2) (P+2) 行列

Levinson-Durbin-Itakura アルゴリズム (5/6) 左辺は対称行列より 1 2 1-k P 2 ( k P は任意の係数 )

Levinson-Durbin-Itakura アルゴリズム (6/6) は任意なのでとなるようにを選ぶと上式は下記の形になるよって以下の再帰式を得る偏自己相関 (Partial Correlation; PARCOR) 係数 [Itakura1969] なお明らかに

予測誤差最適予測係数をとすると予測の誤差は予測誤差と予測係数から元信号を復元可能

( 補足 ) 相関係数算出における日米の差 1 予測残差の算出を厳密に考えてみる区間におけるの 2 乗和 p i p j ij j i n n n p i p j j i n n n p i i n n n j n x i n x i n x n 0 0 0 0 2 0 2 1 0 1 0 1 0 ) ( ) ( ) ( ) ( (n) [ 1], 0 n n ) ( ) ( where 1 0 j n x i n x n n n ij 自己相関関数

( 補足 ) 相関係数算出における日米の差 2 予測残差の最小化 2 乗残差和を最小にするを求める j p i1 j i ij p 2 i0 i 0 j ij, ( 0, ( j 1, 2,..., j 1, 2,..., p) p) (2) i よって線形予測係数を算出するには上記のp 個の連立 1 次方程式を解けばよい北米 ATTベル研究所のAtalらはコレスキー分解で解いた必ずしも解が存在するとは限らない?

( 補足 ) 相関係数算出における日米の差 3 安定に解を求めるには自己相関関数このとき ij に制約を設ける n 0, n1 x( n) 0, if ( n 0 or N n) ij n x ( n) x( n i j ) r i j i, jの2 変数に関する関数が1 変数 i j のみの関数となる ( 板倉ら日本側のアプローチ ) この場合の相関行列はテプリッツ型の行列となるレビンソンダービン ( 板倉 ) アルゴリズム等の高速解法で解けるかつそこで得られた線形予測係数による自己回帰モデルは安定

線形予測符号化 (Linear Predictive Coding) 時系列信号の可逆圧縮符号化の標準的な方式予測係数時系列信号予測誤差符号化して伝送線形予測分析器予測誤差の振幅は 0 付近に集中 Golomb-Rice 符号化出現頻度の高い振幅値に短い符号の割り当て

線形系としての解釈所与の信号から予測誤差を出力する線形システム所与の信号予測誤差移動平均システム ( 全零モデル ) 予測誤差を入力として所与の信号を出力する線形システムは? 予測誤差所与の信号自己回帰システム ( 全極モデル )

音声生成過程のモデルとして復習 2 鼻腔声道人間頭部の断面図の共振音声の音色を与える ( スペクトル包絡構造 ) 声帯 1 の振動音声の基本周期を与える ( スペクトル微細構造 ) 1 2= 最終的な音声

音声生成に適したモデルとは? 人間の音声生成モデル声帯での基本振動を声道で音色付ける声道位置によって太さの異なる音響管の連続と見なせる音響管における共振現象自己回帰 (AR) 過程声道を模擬した音響管声帯信号音声波形各微小管毎に透過反射が起きる複雑な共振特性が生じる

音声生成の線形モデル駆動音源部声道共振部パルス列音源 ( 有声音源 ) 白色雑音源 ( 無声音源 ) 線形システム音声信号 Speak & Spell LPC に基づく音声合成 LSI を搭載米国の Texas Instruments 社開発 1978 年発売因みに私 ( 猿渡 ) はリアルタイム ( 中学 1 年 ) で買って持ってました

統計モデルによる音声生成過程の表現声帯振動に関する仮定 Gauss 性定常性白色性 Toeplitz 行列声道特性に関する仮定自己回帰システム ( 全極モデル )

最尤推定今までの仮定をまとめると未知パラメータは観測されるのは観測信号の確率密度関数 ( 尤度関数という ) 対数尤度は logdet 項 :

白色化効果以上の統計モデルではについて白色性を仮定していたので先の最尤推定ではができるだけ白色になるようにを決めようとしていたことになるこのことをよりイメージしやすくするため以上のモデルを周波数領域で定式化してみよう

周波数領域での定式化時間領域では周波数領域 (Fourier 変換領域 ) では ( は離散 Fourier 変換行列 ) の確率密度関数は?

についてに関してここでは以下の巡回行列型を仮定よっても巡回行列は離散 Fourier 変換行列によって対角化される対角行列

周波数成分の確率密度関数以上をまとめると周波数の成分他の周波数の成分と独立 Im 分散がの複素正規分布に従う Re

スペクトルマッチングとしての見方周波数成分が与えられた下での対数尤度パワースペクトル規格化周波数上記の対数尤度は定数項を除けば以下と等しい板倉斎藤距離

板倉斎藤距離他の擬距離尺度との比較二乗誤差 I ダイバージェンス板倉齋藤距離

パワースペクトル線形予測分析はスペクトル包絡の推定に相当観測パワースペクトルと全極スペクトルとの板倉斎藤距離最小化観測パワースペクトル全極スペクトル周波数

線形予測によるスペクトル包絡の良さとは? 抽出されたスペクトル包絡ケプストラムよりもピーク重視であることに注目! DFT スペクトル

( 参考 ) ケプストラムによるスペクトル包絡抽出されたスペクトル包絡 DFT スペクトル

線形予測によるホルマント抽出

余談 : 線形予測法と日本人の貢献日経産業新聞 1999 年 4 月 20 日掲載音声認識の研究に金を出すことは価値ある投資だろうか音声認識の研究とはまさに錬金術に等しいこれは 196 9 年に米国音響学会誌に掲載された寄書の一部である著者はジョンピアス当時ベル電話研究所情報通信部門の責任者であったこれを機にピアス傘下にあった音声研究部門では音声認識の研究が全面的に中止されたトップの確信に満ちた判断で中止された研究をボトムアップで再開するのは容易なことではないこの再開の主役として登場したのは 1 人の日本人であった線形予測理論で世界的脚光を浴びていた現 NTT の板倉文忠 ( 名古屋大名誉教授 ) を客員研究員として招いたこれがベル研での音声認識研究の再始動をうながしたのである当時ベル研の研究室長であり板倉を招いたジェームスフラナガン ( 現米国ラトガース大学副学長 ) は振り返るとても正面切って音声認識の研究を行える状況ではなかった部外者である客員研究員が自主的に研究を始めるという苦肉の策を講じこれが図に当った

LPC による音声スペクトル推定の例 1~8 次

LPC による音声スペクトル推定の例 9, 10, 12, 14, 16, 18, 22, 26 次

線形予測分析のまとめ長所高速解法が存在するため比較的単純な操作でスペクトル包絡抽出可能抽出されたスペクトル包絡においてホルマント共振がより強調される (cf. ケプストラム分析 ) より少ないパラメータ ( たかだか p 個の予測係数のみ ) で音声スペクトル包絡を表現可能音声符号化に有利問題点 i 線形予測係数を量子化して伝送をする場合伝送誤差の影響によってすぐに不安定なフィルタになってしまう ( 例 ) 典型的な電話音声の場合 11 bits 以上の精度必要線形予測係数とスペクトルの直観的な関連がないのでスペクトルの補間を行う場合に予測係数補間が不可能

線形予測分析の拡張 1(PARCOR) 量子化誤差対策 : PARCOR 分析線形予測による伝達関数音響管の共振モデルに対応線形予測係数を音響管の各管における反射係数へ一意に変換可能反射係数が 1 を超えることは無い伝送エラーなどで歪んでしまった (1 以上にバケてしまった ) 反射係数を近似回復できるつまり絶対安定な伝達関数を受信側で構成可能しかしまだ改善点がより情報圧縮を行いたい場合とびとびの時間分析フレームのデータのみを伝送し受手側では時間補間をすることによって復元を行いたいしかし LPC 係数 PARCOR 係数とも時間軸方向の連続性はあまり明確ではない

線形予測分析の拡張 2(LSP) 係数の時間補間対策 : LSP( 線スペクトル対 ) 係数 PARCOR 係数をさらに周波数領域へマッピング絶対安定性を保ちつつスペクトルの時間補間が可能スペクトル包絡対応するLSPパラメータ ( 線スペクトルのペアを縦棒で表現 ) f 強い共振ピーク付近に棒線が密集共振の強さは密集度合で決まる伝送するのは線スペクトル ( ペア ) の周波数位置のみ

LSP 係数による時間補間 x(n) t1 t2 t3 t f f 時間 t1 と t3 における LSP( 線スペクトル対 ) の推移より時間 t2 における LSP 係数を推測補間できる