TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W l

Similar documents
Implementation of Computationally Efficient Real-Time Voice Conversion

EVS 1 [17 19] EVS 2. EVS 2.1 EVS 13 1 Qualification Selection Characterization 3 [20] 12 EVS 2.2 EVS 1 20 ms 32 ms 2 8kHz NB: Narrow-ba

Microsoft PowerPoint - SP _slides

Microsoft Word - 02gun_08hen_03.doc

IPSJ SIG Technical Report 1, Instrument Separation in Reverberant Environments Using Crystal Microphone Arrays Nobutaka ITO, 1, 2 Yu KITANO, 1

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

STSNJ NL

GJG160842_O.QXD

SAP11_03

動画コンテンツ 動画 1 動画 2 動画 3 生成中の映像 入力音楽 選択された素片 テンポによる伸縮 音楽的構造 A B B B B B A C C : 4) 6) Web Web 2 2 c 2009 Information Processing S



2.2 (a) = 1, M = 9, p i 1 = p i = p i+1 = 0 (b) = 1, M = 9, p i 1 = 0, p i = 1, p i+1 = 1 1: M 2 M 2 w i [j] w i [j] = 1 j= w i w i = (w i [ ],, w i [

日歯雑誌(H19・5月号)済/P6‐16 クリニカル  柿木 5

IPSJ SIG Technical Report Vol.2010-AVM-68 No /3/ High-Efficient 2-pass Video Coding Algorithm based on Macroblock Rate-Distortion Kazu

広報1504月号.indd

IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

untitled

untitled


Missing Data NMF

PowerPoint プレゼンテーション

2 3

2013 M

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

IPSJ SIG Techncal Report 歌声データベース 歌声の波形 スペクトル抽出 基本周波数抽出 HMM メルケプストラム ラベル HMM の学習 対数基本周波数 c 学習部 コンテキスト依存モデル c ( 合成部 楽譜 ラベル変換 ラベル... メルケプストラム パラメータ生成 ML

it-ken_open.key

医系の統計入門第 2 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 2 版 1 刷発行時のものです.

Microsoft PowerPoint - ip02_01.ppt [互換モード]

スライド タイトルなし

PowerPoint Presentation

VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案

TCP/IP IEEE Bluetooth LAN TCP TCP BEC FEC M T M R M T 2. 2 [5] AODV [4]DSR [3] 1 MS 100m 5 /100m 2 MD 2 c 2009 Information Processing Society of

IPSJ SIG Technical Report Vol.2015-CVIM-196 No /3/6 1,a) 1,b) 1,c) U,,,, The Camera Position Alignment on a Gimbal Head for Fixed Viewpoint Swi

DEIM Forum 2019 A7-1 Flexible Distance-based Hashing mori

IPSJ-SLP

pp d 2 * Hz Hz 3 10 db Wind-induced noise, Noise reduction, Microphone array, Beamforming 1

2016 [1][2] H.264/AVC HEVC HEVC

3 3) 6) 1) MPEG-7 2) MPEG-7 (A) (B) 2 9) Zils 10) (1) (2) 2.1 2

2. ICA ICA () (Blind Source Separation BBS) 2) Fig. 1 Model of Optical Topography. ( ) ICA 2.2 ICA ICA 3) n 1 1 x 1 (t) 2 x 2 (t) n x(t) 1 x(t

, ( ξ/) ξ(x), ( ξ/) x = x 1,. ξ ξ ( ξ, u) = 0. M LS ξ ξ (6) u,, u M LS 3).,.. ξ x ξ = ξ(x),, 1. J = (ξ ξ, V [ξ ] 1 (ξ ξ )) (7) ( ξ, u) = 0, = 1,..., N

第 1 回バイオメトリクス研究会 ( 早稲田大学 ) THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS Proceedings of Biometrics Workshop,169


2 (2016 3Q N) c = o (11) Ax = b A x = c A n I n n n 2n (A I n ) (I n X) A A X A n A A A (1) (2) c 0 c (3) c A A i j n 1 ( 1) i+j A (i, j) A (i, j) ã i

Gmech08.dvi

2014 3

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

トピックモデルの応用: 関係データ、ネットワークデータ

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

スペクトルに対応する英語はスペクトラム(spectrum)です

VocaListener2(ぼかりす2): ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システム

[2] OCR [3], [4] [5] [6] [4], [7] [8], [9] 1 [10] Fig. 1 Current arrangement and size of ruby. 2 Fig. 2 Typography combined with printing

海生研ニュース

ディジタル信号処理

ohpr.dvi


音情報処理I

SAP11_12

図 1: HPSS の処理の手順 HPSS では信号 s(t) をフレーム長 lk で STFT して得られる振幅スペクトログラム S 上で スペクトログラム を H, P に分離し 逆 STFT することにより 定常 狭帯域的成分 h(t) と非定常 広帯域的成分 p(t) とを分離する 調波打楽

Microsoft Word - 02gun_08hen_02.doc

PowerPoint プレゼンテーション

基本 CMYK

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

2

インターリーブADCでのタイミングスキュー影響のデジタル補正技術

untitled

IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi

IEEE e

数値計算:フーリエ変換

1 Jensen et al.[6] GRT S&P500 GRT RT GRT Kiriu and Hibiki[8] Jensen et al.[6] GRT 3 GRT Generalized Recovery Theorem (Jensen et al.[6])

(5 B m e i 2π T mt m m B m e i 2π T mt m m B m e i 2π T mt B m (m < 0 C m m (6 (7 (5 g(t C 0 + m C m e i 2π T mt (7 C m e i 2π T mt + m m C m e i 2π T

cf_19_0802

a) Extraction of Similarities and Differences in Human Behavior Using Singular Value Decomposition Kenichi MISHIMA, Sayaka KANATA, Hiroaki NAKANISHI a

15群(○○○)-8編

10_08.dvi

本文/目次(裏白)

P1〜14/稲 〃

Wavelet HSI / [1] JPEG2000 9/7Wavelet [2][6] 2:1 9/7Wavelet Wavelet 80 Wavelet i


PDF

AAC技術解説

学習内容と日常生活との関連性の研究-第2部-第4章-1

Microsoft PowerPoint - 6.PID制御.pptx

97-00


す 局所領域 ωk において 線形変換に用いる係数 (ak 画素の係数 (ak bk ) を算出し 入力画像の信号成分を bk ) は次式のコスト関数 E を最小化するように最適化 有さない画素に対して 式 (2) より画素値を算出する される これにより 低解像度な画像から補間によるアップサ E(

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE {s-kasihr, wakamiya,

1 0/1, a/b/c/ {0, 1} S = {s 1, s 2,..., s q } S x = X 1 X 2 X 3 X n S (n = 1, 2, 3,...) n n s i P (X n = s i ) X m (m < n) P (X n = s i X n 1 = s j )

untitled

表紙.indd

WISS PowerPoint [3] [16] Mehrabian [10] 7% 93% [10] [19][18] Hindus [7] Lyons [9] [8] [14] TalkMan [4] [5] [6] 3 [19][18] [19] [19] 1 F0 [11] 7

2.R R R R Pan-Tompkins(PT) [8] R 2 SQRS[9] PT Q R WQRS[10] Quad Level Vector(QLV)[11] QRS R Continuous Wavelet Transform(CWT)[12] Mexican hat 4

表1-表4宅建99.indd

表1-表4宅建98.indd

表1-表4宅建101.indd

表1-表4宅建いわて-表紙.indd

5 Armitage x 1,, x n y i = 10x i + 3 y i = log x i {x i } {y i } 1.2 n i i x ij i j y ij, z ij i j 2 1 y = a x + b ( cm) x ij (i j )

sigmus201007_fujihara.dvi

IPSJ SIG Technical Report Vol.2015-MUS-107 No /5/23 HARK-Binaural Raspberry Pi 2 1,a) ( ) HARK 2 HARK-Binaural A/D Raspberry Pi 2 1.

Transcription:

,a,b,c,d,e,,,,,,,, TCX.,, (VoIP,,, 3GPP Extended Adaptive Multi-Rate Wideband (AMR- WB+ MPEG-D Unified Speech and Audio Coding (USAC [], [],,,, AMR-WB+ USAC, Transform Coded exitation (TCX, TCX NTT a sugiura@hil.t.u-toyo.ac.jp b amamoto.yutaa@lab.ntt.co.jp c harada.noboru@lab.ntt.co.jp d ameoa.hiroazu@lab.ntt.co.jp e moriya.taehiro@lab.ntt.co.jp,,, TCX., USAC (MDCT TCX [3] TCX,,, (LSP,,,.,, {a n } H = / + π j a n e N n, (0 N ( n, H H = / + a n γ n π j e N n, (0 < γ < ( n, H /H,,

TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W log ix j W ix j (3, W, X, Y sinc, W X Y, [9], W, Y ij W + ( log W i X j L(W (4 ix j

f(x = x x > 0 Jensen W = ix j λ (5 ij(w i X j /λ ij ( λ ij λ ij 0, λ ij = W i X j /λ ij, ( log W i X j log ϕ ij + W ix j, (ϕ ij > 0 ϕ ij (6, W L(W λ ij Y ij (7 W i X j + ( log ϕ ij + W ix j G(W ϕ ij λ ij = W ix j W, ϕ ij = W i X j (8 ix j (7, λ, ϕ G(W W, W mn G(W W = W = j Y mj λ mjn/x nj ( W mn W mn = + j X nj ϕ mj = 0 j Y mjλ mjn /X nj j X nj/ϕ mj (9, W G(W W (8 λ, ϕ, (7, W. l W W (l, λ, ϕ λ ij = W (l i X j W (l i X, ϕ ij = j W (l i X j (0, (9 G(W W (l+, W mn (l+ =, = W (l W (l+ mn ( j Y mjw mn (l X nj / W (l mn j X nj/ W (l m X j m X j ( j Y mx nj /Ŷ mj j X, Ŷ = W (l X ( nj/ŷmj U, UW X X,, W, U,,, Y 3.3 TCX, (, (,, H /H, γ, N, (, f(,, f(0 = 0, {a n }, H = / + n H 0 = / + n a n γ n a n γ f( n π j e N n, ( N (3 γ,, f( U, f(0 0. U. (4 f(n 4. 4. N,, 3

情報処理学会研究報告 図 4 図 3 各帯域での包絡の線形予測分析からの改善量 (板倉斎藤距離基 準 の平均と標準偏差. 縦軸が 0 より大きい所は, 線形予測分 包絡の比較. 緑点線が MDCT による実数スペクトル, 赤破線 析の包絡よりもスペクトルからの距離が近いことを意味する. が提案手法, 青実線が線形予測分析による包絡. RWC 研究用音楽データベースのポピュラー音楽及びクラシッ ク計 5 曲からそれぞれランダムに 30 秒を切り取り使用. サ ンプリング周波数 6 Hz, フレームあたり 30 点のスペク 化により各行の非零要素数が最大 7 つであるようなメル対 トル, 包絡の次数は 6 次. MLSA フィルタは Speech Signal 数伸縮行列とその逆伸縮行列を設計した. そして, 音響信 Processing Toolit [0] のものを使用. 号の各フレームに対して, 最適化した伸縮行列または厳密 な sinc 補間による伸縮を用いた二種類の解像度伸縮包絡, 及び MLSA フィルタによる包絡を求め, パワースペクトル との板倉斎藤距離を計算した. 図 3 はある フレームで線形予測分析と最適化した伸縮 行列を用いた包絡を並べたものである. 低域において提案 手法の包絡の解像度が向上していることが確認できる. ま た, 定量的な評価として, 各手法による包絡が通常の線形予 測分析による包絡と比べ各帯域において精度がどれだけ変 化するかを比較した結果を図 4 に示す. 各手法の包絡はい ずれも対数的に周波数解像度を伸縮していることから, 通 常の線形予測分析と比べ低域での精度が上がり, その分高 図 5 提案手法の包絡を式 ( で平滑化した場合. 青破線が平滑化 域での精度が下がっている. 最適化した行列と厳密な sinc 前, 赤実線が平滑化後, 次数は 6. 補間との比較では, いずれも低域での精度向上は同等であ るが, 最適化した方では sinc 補間よりも高域での伸縮 逆 伸縮における無矛盾性が保たれていることがわかる. そし て, 提案手法は MLSA フィルタとほぼ同等な性能を示した. 4. 聴覚重み付け比較 続いて, 聴覚重み付けによる包絡の平滑化に関しても比 較を行った. 通常, 線形予測分析で得られた包絡を式 ( に よって重み付けした際には, 包絡のピークが急峻なほど大 きく平滑化され, なだらかなものはあまり変化しない. し かし, 前節と同様の解像度伸縮をした包絡にこの単純な平 滑化を行った結果, 図 5 のように低域において通常よりも ピークの形が大きく残ってしまった. これは式 ( の操作 がメル対数周波数軸上で行われてしまうことに起因する. 一方, 式 (3 を用いた場合, 図 6 のように軸の伸縮に合わ 図 6 提案手法の包絡を式 (3 で平滑化した場合. 青破線が平滑化 前, 赤実線が平滑化後, 次数は 6. 4.3 音質の主観評価 せて平滑化された包絡が得られた. 周波数毎に γ に補正を 最後に TCX をベースとした符号化器を作成し, 上の実 かけることにより, 線形周波数軸上でのピークの急峻さに 験で使用したメル対数伸縮行列による解像度伸縮を導入し あわせて平滑化されることが確認できた. て, ITU-R BS.534- MUltiple Stimuli with Hidden Ref- 04 Information Processing Society of Japan 4

5. (a MUSHRA TCX, TCX, AMR-WB+.,,, MLSA,,,, (b 7 95, * 5 erence and Anchor (MUSHRA TCX 6 Hz 30 (0 ms, 40 ms, AMR-WB+ 7 ms RWC 6 0,, 6 Hz 6 bps 7 TCX, AMR-WB+ 3, 3.5 Hz, 00 7(a AMR-WB+,, 7(b., 6, 3 5,, [] 3GPP TS 6.90 version.0.0 Release, 3GPP, 0. [] M. Neuendorf, et al., MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types, AES 3nd Convention, Budapest, HU, Apr. 0. [3] G. Fuchs, et al., MDCT-Based Coder for Highly Adaptive Speech and Audio Coding, EUSIPCO., IEEE, pp.64-68, 009. [4] R. Rice and J. Plaunt, Adaptive Variable-Length Coding for Efficient Compression of Spacecraft Television Data, Transaction on Communication Technology, IEEE, Vol. COM-9, No.6, Dec., 97. [5], et al, (MLSA, 83/, Vol.J66-A, No., pp.-9, 983. [6] K. Koshida, et al., Efficient Encoding of Mel-Generalized Cepstrum for CELP Coders, ICASSP-97., IEEE, Vol., pp.355-358, 997. [7] K. Koshida, et al., A Wideband CELP Speech Coder at 6 bit/s Based on Mel-Generalized Cepstral Analysis, ICASP-98, IEEE, Vol., pp.6-64, 998. [8],,,, 97. [9], et al.,,, vol. 006-MUS-66, pp.77-84, Aug. 006. [0] http://sp-t.sourceforge.net/ ( 3 5