,a,b,c,d,e,,,,,,,, TCX.,, (VoIP,,, 3GPP Extended Adaptive Multi-Rate Wideband (AMR- WB+ MPEG-D Unified Speech and Audio Coding (USAC [], [],,,, AMR-WB+ USAC, Transform Coded exitation (TCX, TCX NTT a sugiura@hil.t.u-toyo.ac.jp b amamoto.yutaa@lab.ntt.co.jp c harada.noboru@lab.ntt.co.jp d ameoa.hiroazu@lab.ntt.co.jp e moriya.taehiro@lab.ntt.co.jp,,, TCX., USAC (MDCT TCX [3] TCX,,, (LSP,,,.,, {a n } H = / + π j a n e N n, (0 N ( n, H H = / + a n γ n π j e N n, (0 < γ < ( n, H /H,,
TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W log ix j W ix j (3, W, X, Y sinc, W X Y, [9], W, Y ij W + ( log W i X j L(W (4 ix j
f(x = x x > 0 Jensen W = ix j λ (5 ij(w i X j /λ ij ( λ ij λ ij 0, λ ij = W i X j /λ ij, ( log W i X j log ϕ ij + W ix j, (ϕ ij > 0 ϕ ij (6, W L(W λ ij Y ij (7 W i X j + ( log ϕ ij + W ix j G(W ϕ ij λ ij = W ix j W, ϕ ij = W i X j (8 ix j (7, λ, ϕ G(W W, W mn G(W W = W = j Y mj λ mjn/x nj ( W mn W mn = + j X nj ϕ mj = 0 j Y mjλ mjn /X nj j X nj/ϕ mj (9, W G(W W (8 λ, ϕ, (7, W. l W W (l, λ, ϕ λ ij = W (l i X j W (l i X, ϕ ij = j W (l i X j (0, (9 G(W W (l+, W mn (l+ =, = W (l W (l+ mn ( j Y mjw mn (l X nj / W (l mn j X nj/ W (l m X j m X j ( j Y mx nj /Ŷ mj j X, Ŷ = W (l X ( nj/ŷmj U, UW X X,, W, U,,, Y 3.3 TCX, (, (,, H /H, γ, N, (, f(,, f(0 = 0, {a n }, H = / + n H 0 = / + n a n γ n a n γ f( n π j e N n, ( N (3 γ,, f( U, f(0 0. U. (4 f(n 4. 4. N,, 3
情報処理学会研究報告 図 4 図 3 各帯域での包絡の線形予測分析からの改善量 (板倉斎藤距離基 準 の平均と標準偏差. 縦軸が 0 より大きい所は, 線形予測分 包絡の比較. 緑点線が MDCT による実数スペクトル, 赤破線 析の包絡よりもスペクトルからの距離が近いことを意味する. が提案手法, 青実線が線形予測分析による包絡. RWC 研究用音楽データベースのポピュラー音楽及びクラシッ ク計 5 曲からそれぞれランダムに 30 秒を切り取り使用. サ ンプリング周波数 6 Hz, フレームあたり 30 点のスペク 化により各行の非零要素数が最大 7 つであるようなメル対 トル, 包絡の次数は 6 次. MLSA フィルタは Speech Signal 数伸縮行列とその逆伸縮行列を設計した. そして, 音響信 Processing Toolit [0] のものを使用. 号の各フレームに対して, 最適化した伸縮行列または厳密 な sinc 補間による伸縮を用いた二種類の解像度伸縮包絡, 及び MLSA フィルタによる包絡を求め, パワースペクトル との板倉斎藤距離を計算した. 図 3 はある フレームで線形予測分析と最適化した伸縮 行列を用いた包絡を並べたものである. 低域において提案 手法の包絡の解像度が向上していることが確認できる. ま た, 定量的な評価として, 各手法による包絡が通常の線形予 測分析による包絡と比べ各帯域において精度がどれだけ変 化するかを比較した結果を図 4 に示す. 各手法の包絡はい ずれも対数的に周波数解像度を伸縮していることから, 通 常の線形予測分析と比べ低域での精度が上がり, その分高 図 5 提案手法の包絡を式 ( で平滑化した場合. 青破線が平滑化 域での精度が下がっている. 最適化した行列と厳密な sinc 前, 赤実線が平滑化後, 次数は 6. 補間との比較では, いずれも低域での精度向上は同等であ るが, 最適化した方では sinc 補間よりも高域での伸縮 逆 伸縮における無矛盾性が保たれていることがわかる. そし て, 提案手法は MLSA フィルタとほぼ同等な性能を示した. 4. 聴覚重み付け比較 続いて, 聴覚重み付けによる包絡の平滑化に関しても比 較を行った. 通常, 線形予測分析で得られた包絡を式 ( に よって重み付けした際には, 包絡のピークが急峻なほど大 きく平滑化され, なだらかなものはあまり変化しない. し かし, 前節と同様の解像度伸縮をした包絡にこの単純な平 滑化を行った結果, 図 5 のように低域において通常よりも ピークの形が大きく残ってしまった. これは式 ( の操作 がメル対数周波数軸上で行われてしまうことに起因する. 一方, 式 (3 を用いた場合, 図 6 のように軸の伸縮に合わ 図 6 提案手法の包絡を式 (3 で平滑化した場合. 青破線が平滑化 前, 赤実線が平滑化後, 次数は 6. 4.3 音質の主観評価 せて平滑化された包絡が得られた. 周波数毎に γ に補正を 最後に TCX をベースとした符号化器を作成し, 上の実 かけることにより, 線形周波数軸上でのピークの急峻さに 験で使用したメル対数伸縮行列による解像度伸縮を導入し あわせて平滑化されることが確認できた. て, ITU-R BS.534- MUltiple Stimuli with Hidden Ref- 04 Information Processing Society of Japan 4
5. (a MUSHRA TCX, TCX, AMR-WB+.,,, MLSA,,,, (b 7 95, * 5 erence and Anchor (MUSHRA TCX 6 Hz 30 (0 ms, 40 ms, AMR-WB+ 7 ms RWC 6 0,, 6 Hz 6 bps 7 TCX, AMR-WB+ 3, 3.5 Hz, 00 7(a AMR-WB+,, 7(b., 6, 3 5,, [] 3GPP TS 6.90 version.0.0 Release, 3GPP, 0. [] M. Neuendorf, et al., MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types, AES 3nd Convention, Budapest, HU, Apr. 0. [3] G. Fuchs, et al., MDCT-Based Coder for Highly Adaptive Speech and Audio Coding, EUSIPCO., IEEE, pp.64-68, 009. [4] R. Rice and J. Plaunt, Adaptive Variable-Length Coding for Efficient Compression of Spacecraft Television Data, Transaction on Communication Technology, IEEE, Vol. COM-9, No.6, Dec., 97. [5], et al, (MLSA, 83/, Vol.J66-A, No., pp.-9, 983. [6] K. Koshida, et al., Efficient Encoding of Mel-Generalized Cepstrum for CELP Coders, ICASSP-97., IEEE, Vol., pp.355-358, 997. [7] K. Koshida, et al., A Wideband CELP Speech Coder at 6 bit/s Based on Mel-Generalized Cepstral Analysis, ICASP-98, IEEE, Vol., pp.6-64, 998. [8],,,, 97. [9], et al.,,, vol. 006-MUS-66, pp.77-84, Aug. 006. [0] http://sp-t.sourceforge.net/ ( 3 5