音情報処理論 音声処理における信号処理 ~ 線形予測分析 ~ 東京大学大学院情報理工学系研究科 / 奈良先端大 猿渡洋 4 年 月
準備 :Z 変換 Z 変換 離散的な時系列の特性を解析する 手法 準備 : は離散時間波形 x x { x,..., x, x,..., x } 実数 定義 正 Z 変換 ; 時間領域から Z 領域へ ここで X x は サンプル時間遅れを表す演算子 定義 逆 Z 変換 ;Z 領域から時間領域へ x j c X d 複素数
準備 :Z 変換の諸性質 時間遅れ : 畳み込み演算は Z 領域で積演算になる システムのインパルス応答を Z 変換したものをシステム伝達関数と呼ぶ H X Y h x y h A B h H においてとおけば DFTor フーリエ変換 のように考えることができ 周波数特性がわかる H or / f j N k j e e X x
準備 :Z 変換とシステム伝達関数 システム伝達関数の解析 p j j q p p q q A B h H pole ero / /...... Z の有理多項式 ero : 分子 = となる の解 零点 pole j : 分母 = となる の解 極
準備 :Z 変換とシステム伝達関数 極と零点の意味 極 : 分母 =の解 H の山 零点 : 分子 =の解 H の谷 Im[] 極 零点 Re[] 対数振幅特 j f H e 性 f
準備 :Z 変換とシステム伝達関数 3 極の配置とシステムの安定性 極の位置が単位円内 システムは安定単位円外 システムは不安定 極が単位円に接近 周波数特性上に強いピーク Im[] 極 極 Re[] 対数振幅特性 H e j f f
音声スペクトルからの情報抽出 音声信号スペクトル. スペクトル微細構造 周期成分 声帯の振動に対応 その人個人が持つ 声の高さ. スペクトル包絡構造 声道 鼻腔における共振 反共振特性 各音韻ごとの違いに対応 音声認識処理などでは この包絡情報に基づいて識別を行う.
スペクトル包絡の代表的抽出法 ケプストラム法 モデルを仮定しないノンパラメトリック法の一種 短時間スペクトル上において微細構造と包絡構造とを分ける 線形予測 Lear Predcto 法 自己回帰モデルに基づくパラメトリック法 声道における共振特性をモデリング
音声生成に適したモデルとは? 人間の音声生成モデル 声帯での基本振動を声道で音色付ける 声道 位置によって太さの異なる音響管の連続と見なせる 音響管における共振現象 自己回帰 AR 過程声道を模擬した音響管 声帯信号 各微小管毎に透過 反射が起きる 複雑な共振特性が生じる 口からの放射
線形予測と共振モデル 線形予測の原理 過去の波形標本値の組合せで現在の標本値を予測する 次の線形一次結合が成り立つと仮定 : x x x... px p ここでは平均値 分散の無相関な確率変数 この を最小にするように を決める を線形予測係数とよび を線形予測残差と呼ぶ 上式の Z 変換は以下で与えられる p X X... p X E E X p... p
線形予測と共振モデル 続き 式の意味 E X E A p... p where A p... p 予測残差 E を伝達関数 A に通して音声を生成 E A 声帯信号 極のみを持つ X 口からの放射
線形予測と共振モデル 続き 式で与えられる線形予測は 声帯信号のパワーを最小化するように声道特性を AR モデルによって推定する ことを示している A 推定されたは全極モデル 零点を持たず極だけから構成される伝達関数 であり その極の値によって共振特性が変化する 音声のスペクトル包絡の推定 A の推定に帰着 の推定問題
線形予測係数の推定 予測残差の算出 区間におけるの 乗和 p p j j j p p j j p j x x x [ ], where j x x j 自己相関関数
線形予測係数の推定 予測残差の最小化 j 乗残差和を最小にするを求める p j j p j j,, j,,..., p j,,..., p よって 線形予測係数を算出するには 上記のp 個の連立 次方程式を解けばよい 必ずしも解が存在するとは限らない?
線形予測係数の推定 3 安定に解を求めるには 自己相関関数 このとき j に制約を設ける, x, f or N j x x j r j, j の 変数に関する関数が 変数のみの関数となる j
線形予測係数の推定 4 を使用して連立方程式 を解く j r p p p p r r r r r r r r r r r r この行列はテプリッツ型 正定値行列 必ず逆行列が存在する利点. 線形予測係数が必ず求まる 利点. 高速解法 Durb の再帰的解法 が利用可能利点 3. 求められた全極モデルは絶対安定 極が単位円内
線形予測によるパワースペクトル LPC パワースペクトルの定義 f 予測残差のパワー... p p
線形予測によるスペクトル包絡 抽出されたスペクトル包絡 ケプストラムよりもピーク重視 であることに注目! DFT スペクトル
参考 ケプストラムによるスペクトル包絡 抽出されたスペクトル包絡 DFT スペクトル
線形予測によるホルマント抽出
余談 : 線形予測法と日本人の貢献 日経産業新聞 999 年 4 月 日掲載 音声認識の研究に金を出すことは価値ある投資だろうか 音声認識の研究とはまさに 錬金術 に等しい これは 969 年に米国音響学会誌に掲載された寄書の一部である 著者はジョン ピアス 当時 ベル電話研究所情報通信部門の責任者であった これを機に ピアス傘下にあった音声研究部門では 音声認識の研究が全面的に中止された トップの確信に満ちた判断で中止された研究をボトムアップで再開するのは容易なことではない この再開の主役として登場したのは 人の日本人であった 線形予測理論で世界的脚光を浴びていた現 NTT の板倉文忠 名古屋大名誉教授 を客員研究員として招いた これがベル研での音声認識研究の再始動をうながしたのである 当時 ベル研の研究室長であり 板倉を招いたジェームス フラナガン 現米国ラトガース大学副学長 は振り返る とても 正面切って音声認識の研究を行える状況ではなかった 部外者である客員研究員が自主的に研究を始めるという苦肉の策を講じ これが図に当った
線形予測分析のまとめ 長所 高速解法が存在するため比較的単純な操作でスペクトル包絡抽出可能 抽出されたスペクトル包絡において ホルマント共振がより強調される c.f. ケプストラム分析 より少ないパラメータ たかだか p 個の予測係数のみ で音声スペクトル包絡を表現可能 音声符号化に有利 問題点 線形予測係数を量子化して伝送をする場合 伝送誤差の影響によってすぐに不安定なフィルタになってしまう 例 典型的な電話音声の場合 bts 以上の精度必要 線形予測係数とスペクトルの直観的な関連がないので スペクトルの補間を行う場合に予測係数補間が不可能
線形予測分析の拡張 PARCOR 量子化誤差対策 : PARCOR 分析 線形予測による伝達関数 音響管の共振モデルに対応 線形予測係数を音響管の各管における反射係数へ一意に変換可能 反射係数が を超えることは無い 伝送エラーなどで歪んでしまった 以上にバケてしまった 反射係数を近似回復できる つまり絶対安定な伝達関数を受信側で構成可能 しかしまだ改善点が より情報圧縮を行いたい場合 とびとびの時間分析フレームのデータのみを伝送し 受手側では時間補間をすることによって復元を行いたい しかし LPC 係数 PARCOR 係数とも 時間軸方向の連続性はあまり明確ではない
線形予測分析の拡張 LSP 係数の時間補間対策 : LSP 線スペクトル対 係数 PARCOR 係数をさらに周波数領域へマッピング 絶対安定性を保ちつつスペクトルの時間補間が可能 スペクトル包絡 対応するLSPパラメータ 線スペクトルのペアを縦棒で表現 f 強い共振ピーク付近に棒線が密集 共振の強さは密集度合で決まる 伝送するのは線スペクトル ペア の周波数位置のみ
LSP 係数による時間補間 x t t t3 t f f 時間 t と t3 における LSP 線スペクトル対 の 推移より時間 t における LSP 係数を推測 補間できる
例題 : 次の線形予測モデル推定 音声波形の自己相関関数が以下のように与えられたとする r, r, r 5 a 線形予測係数を求めよ b LPCパワースペクトルを式で表せ はとする c b より極を求めて 平面に単位円とともに図示せよ d LPCパワースペクトルの概略図を書け 5
解答 : a 線形予測係数 線形予測係数 は以下を解くことで求まる r r r r r r よって /5 /3 /3 /5 /5 /5 /5
解答 : blpc パワースペクトル LPC パワースペクトルは次式で与えられる f 3 3 f
解答 : c 極とその配置 f の分母多項式の根が極である よって を解くと 3 3 5 j 3 極
解答 : dlpc パワースペクトル概略