TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W l

Size: px

Start display at page:

Download "TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W l"

みずきたつざわ
5 years ago
Views:

1 ,a,b,c,d,e,,,,,,,, TCX.,, (VoIP,,, 3GPP Extended Adaptive Multi-Rate Wideband (AMR- WB+ MPEG-D Unified Speech and Audio Coding (USAC [], [],,,, AMR-WB+ USAC, Transform Coded exitation (TCX, TCX NTT a sugiura@hil.t.u-toyo.ac.jp b amamoto.yutaa@lab.ntt.co.jp c harada.noboru@lab.ntt.co.jp d ameoa.hiroazu@lab.ntt.co.jp e moriya.taehiro@lab.ntt.co.jp,,, TCX., USAC (MDCT TCX [3] TCX,,, (LSP,,,.,, {a n } H = / + π j a n e N n, (0 N ( n, H H = / + a n γ n π j e N n, (0 < γ < ( n, H /H,,

2 TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W log ix j W ix j (3, W, X, Y sinc, W X Y, [9], W, Y ij W + ( log W i X j L(W (4 ix j

3 f(x = x x > 0 Jensen W = ix j λ (5 ij(w i X j /λ ij ( λ ij λ ij 0, λ ij = W i X j /λ ij, ( log W i X j log ϕ ij + W ix j, (ϕ ij > 0 ϕ ij (6, W L(W λ ij Y ij (7 W i X j + ( log ϕ ij + W ix j G(W ϕ ij λ ij = W ix j W, ϕ ij = W i X j (8 ix j (7, λ, ϕ G(W W, W mn G(W W = W = j Y mj λ mjn/x nj ( W mn W mn = + j X nj ϕ mj = 0 j Y mjλ mjn /X nj j X nj/ϕ mj (9, W G(W W (8 λ, ϕ, (7, W. l W W (l, λ, ϕ λ ij = W (l i X j W (l i X, ϕ ij = j W (l i X j (0, (9 G(W W (l+, W mn (l+ =, = W (l W (l+ mn ( j Y mjw mn (l X nj / W (l mn j X nj/ W (l m X j m X j ( j Y mx nj /Ŷ mj j X, Ŷ = W (l X ( nj/ŷmj U, UW X X,, W, U,,, Y 3.3 TCX, (, (,, H /H, γ, N, (, f(,, f(0 = 0, {a n }, H = / + n H 0 = / + n a n γ n a n γ f( n π j e N n, ( N (3 γ,, f( U, f(0 0. U. (4 f(n N,, 3

情報処理学会研究報告図 4 図 3 各帯域での包絡の線形予測分析からの改善量 (板倉斎藤距離基準の平均と標準偏差. 縦軸が 0 より大きい所は, 線形予測分包絡の比較. 緑点線が MDCT による実数スペクトル, 赤破線析の包絡よりもスペクトルからの距離が近いことを意味する. が提案手法, 青実線が線形予測分析による包絡.

4 情報処理学会研究報告図 4 図 3 各帯域での包絡の線形予測分析からの改善量 (板倉斎藤距離基準の平均と標準偏差. 縦軸が 0 より大きい所は, 線形予測分包絡の比較. 緑点線が MDCT による実数スペクトル, 赤破線析の包絡よりもスペクトルからの距離が近いことを意味する. が提案手法, 青実線が線形予測分析による包絡. RWC 研究用音楽データベースのポピュラー音楽及びクラシック計 5 曲からそれぞれランダムに 30 秒を切り取り使用. サンプリング周波数 6 Hz, フレームあたり 30 点のスペク化により各行の非零要素数が最大 7 つであるようなメル対トル, 包絡の次数は 6 次. MLSA フィルタは Speech Signal 数伸縮行列とその逆伸縮行列を設計した. そして, 音響信 Processing Toolit [0] のものを使用. 号の各フレームに対して, 最適化した伸縮行列または厳密な sinc 補間による伸縮を用いた二種類の解像度伸縮包絡, 及び MLSA フィルタによる包絡を求め, パワースペクトルとの板倉斎藤距離を計算した. 図 3 はあるフレームで線形予測分析と最適化した伸縮行列を用いた包絡を並べたものである. 低域において提案手法の包絡の解像度が向上していることが確認できる. また, 定量的な評価として, 各手法による包絡が通常の線形予測分析による包絡と比べ各帯域において精度がどれだけ変化するかを比較した結果を図 4 に示す. 各手法の包絡はいずれも対数的に周波数解像度を伸縮していることから, 通常の線形予測分析と比べ低域での精度が上がり, その分高図 5 提案手法の包絡を式 ( で平滑化した場合. 青破線が平滑化域での精度が下がっている. 最適化した行列と厳密な sinc 前, 赤実線が平滑化後, 次数は 6. 補間との比較では, いずれも低域での精度向上は同等であるが, 最適化した方では sinc 補間よりも高域での伸縮逆伸縮における無矛盾性が保たれていることがわかる. そして, 提案手法は MLSA フィルタとほぼ同等な性能を示した. 4. 聴覚重み付け比較続いて, 聴覚重み付けによる包絡の平滑化に関しても比較を行った. 通常, 線形予測分析で得られた包絡を式 ( によって重み付けした際には, 包絡のピークが急峻なほど大きく平滑化され, なだらかなものはあまり変化しない. しかし, 前節と同様の解像度伸縮をした包絡にこの単純な平滑化を行った結果, 図 5 のように低域において通常よりもピークの形が大きく残ってしまった. これは式 ( の操作がメル対数周波数軸上で行われてしまうことに起因する. 一方, 式 (3 を用いた場合, 図 6 のように軸の伸縮に合わ図 6 提案手法の包絡を式 (3 で平滑化した場合. 青破線が平滑化前, 赤実線が平滑化後, 次数は音質の主観評価せて平滑化された包絡が得られた. 周波数毎に γ に補正を最後に TCX をベースとした符号化器を作成し, 上の実かけることにより, 線形周波数軸上でのピークの急峻さに験で使用したメル対数伸縮行列による解像度伸縮を導入しあわせて平滑化されることが確認できた. て, ITU-R BS.534- MUltiple Stimuli with Hidden Ref- 04 Information Processing Society of Japan 4

5 5. (a MUSHRA TCX, TCX, AMR-WB+.,,, MLSA,,,, (b 7 95, * 5 erence and Anchor (MUSHRA TCX 6 Hz 30 (0 ms, 40 ms, AMR-WB+ 7 ms RWC 6 0,, 6 Hz 6 bps 7 TCX, AMR-WB+ 3, 3.5 Hz, 00 7(a AMR-WB+,, 7(b., 6, 3 5,, [] 3GPP TS 6.90 version.0.0 Release, 3GPP, 0. [] M. Neuendorf, et al., MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types, AES 3nd Convention, Budapest, HU, Apr. 0. [3] G. Fuchs, et al., MDCT-Based Coder for Highly Adaptive Speech and Audio Coding, EUSIPCO., IEEE, pp.64-68, 009. [4] R. Rice and J. Plaunt, Adaptive Variable-Length Coding for Efficient Compression of Spacecraft Television Data, Transaction on Communication Technology, IEEE, Vol. COM-9, No.6, Dec., 97. [5], et al, (MLSA, 83/, Vol.J66-A, No., pp.-9, 983. [6] K. Koshida, et al., Efficient Encoding of Mel-Generalized Cepstrum for CELP Coders, ICASSP-97., IEEE, Vol., pp , 997. [7] K. Koshida, et al., A Wideband CELP Speech Coder at 6 bit/s Based on Mel-Generalized Cepstral Analysis, ICASP-98, IEEE, Vol., pp.6-64, 998. [8],,,, 97. [9], et al.,,, vol. 006-MUS-66, pp.77-84, Aug [0] ( 3 5

Implementation of Computationally Efficient Real-Time Voice Conversion

Implementation of Computationally Efficient Real-Time Voice Conversion 音情報処理第 4 回音声符号化中村哲 1 秒間につき 128 kbi 使用音声符号化 1 秒間につき 8 kbi だけ使用伝送するビット数を 6% 程度に減らすことができる! 本日の講義を受けることでなぜこのようなことが可能なのかを理解することができます講義内容波形符号化標本化量子化音声符号化方式波形符号化方式分析合成方式ハイブリッド方式聴覚符号化方式符号化ある情報を他のもの