IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi

Size: px

Start display at page:

Download "IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi"

まいかのしろ
4 years ago
Views:

1 Bidirectional Gated Recurrent Units Singing Voice Synthesis Using Bidirectional Gated Recurrent Units. [] (HMM) [] [3], [4] Kobe University MEC Company Ltd. (Text to Speech: TTS) [5].. 3Hz Hz c 9 Information Processing Society of Japan

情報処理学会研究報告 y u me.3 楽譜特徴量 j i Frequency [Hz] 楽譜特徴量は楽譜中の歌詞を音素単位で解析し得られる特徴量である主な特徴として以下のものが含まれる当該音素と前後つまでの音素音節中における音素の位置..5.5 Time [s] 図オペラ歌唱音声のスペクトログラム Fig. Spectrogram of opera singing voice.

Time [s] らの特徴量データをバイナリや連続値 one-hot vector で表現したものを用いる図一般歌唱音声のスペクトログラム Fig. Spectrogram of singing voice.

2 情報処理学会研究報告 y u me.3 楽譜特徴量 j i Frequency [Hz] 楽譜特徴量は楽譜中の歌詞を音素単位で解析し得られる特徴量である主な特徴として以下のものが含まれる当該音素と前後つまでの音素音節中における音素の位置..5.5 Time [s] 図オペラ歌唱音声のスペクトログラム Fig. Spectrogram of opera singing voice. y u m e j i Frequency [Hz] 音節内の音素数音符中における音節の位置音符の音程継続長フレーズ小節中の位置音符のタイスラーの有無音符の強弱クレシェンドデクレシェンド中の位置総フレーズ小節音節音素数楽譜特徴量を DNN の入力として使用する場合はこれ.5. Time [s] らの特徴量データをバイナリや連続値 one-hot vector で表現したものを用いる図一般歌唱音声のスペクトログラム Fig. Spectrogram of singing voice..4 音響特徴量音響特徴量は音声波形データからボコーダを用いた解析によって得られるフレーム単位の特徴量であるボコーダから直接得られる特徴量は声色を表すスペクトル音程を音域の周波数成分が多く含まれるこの帯域は歌声の第 3 表す基本周波数声のかすれを表す非周期成分であるがフォルマントから第 4 フォルマントに対応し歌声の響実際に音響特徴量として使われるものはこれらを変換してき艶聴こえ易さに影響を与える通常の歌唱音声では次元圧縮したメルケプストラム対数基本周波数帯域非 45kHz 付近が周波数成分のピークであるがこの帯域は周期成分であることが多いオペラ歌唱におけるオーケストラの伴奏の周波数成分が最ボコーダから得られる音響特徴量は静的特徴量でありも多い帯域でもあり周波数成分が重複して歌声が伴奏にここから前後の時間での値との差分である動的特徴量を求埋もれる可能性があるそのためオペラ歌唱ではオーケスめることができる静的特徴量を c フレーム番号を t とトラ伴奏の周波数のピークと重複しない中高音域の周波数すると次動的特徴量 () と次動的特徴量 () は成分を強調することでオーケストラの伴奏の中でも聴衆以下の式で求められるに歌声と演奏の聞き分けを容易にさせている [6] またオペラ歌唱は母音の発声時に周波数成分の多い帯域が上下に移動するのが分かるこれは音程の揺らぎであるビブラートであり歌声を装飾するオペラ歌唱では一般 (ct+ ct ) () ct = ct = ct ct + ct+ () ct = ct = () () 歌唱に比べてビブラートが深く顕著に現れることが確認できる.5 Gated Recurrent Units を用いた音響特徴量推定本研究では音響モデルに関してオペラ歌唱音声を DNN. 歌声合成歌声合成システムは楽譜情報から歌声音声を合成するシ歌声合成の手法を用いて生成する本研究で用いた音響モデルの学習の流れを図 3 に示す楽譜データから抽出されステムであり録音した歌声音声を切り取って音声を作成た楽譜特徴量は Bidirectional GRU Network に入力されする波形接続型と確率的な音響モデリングを行う統計的トラジェクトリ学習により静的音響特徴量系列を得るそ歌声合成法が存在するまた統計的な歌声合成法としての後静的音響特徴量系列から系列内変動を求めそれぞ HMM や深層学習を用いたものが挙げられるれを教師データと比較し求められる誤差を用いてネット深層学習による統計的パラメトリック歌声合成は歌詞付きの楽譜情報をディープニューラルネットワーク (DNN) ワークの重みを更新する合成時は音響モデルに楽譜特徴量を入力して得られる音によって構成されるモデルに入力し歌声音声波形を出力響特徴量からボコーダを用いて音声を合成するする一般的には楽譜特徴量を入力とし音響特徴量を出力.5. Bidirectional Gated Recurrent Units とする音響モデルと音響特徴量を入力とし音声波形を出力するボコーダモデルによって構成される 9 Information Processing Society of Japan 学習時音響モデルの入力として楽譜特徴量教師としてオペラ歌唱音声から抽出された音響特徴量を用いる楽譜

3 L trj = P (o λ) = P (c λ) = N (c ĉ, P ) (8) Z Fig. 3 3 Training flow for acoustic models. Gated Recurrent Unit (GRU)[7] GRU Long Short-Term Memory (LSTM) Bidirectional GRU.5. GRU o [ ] o t = c t () c t () c t (3) [ ] o = o o o (4) T MLPG [8] MLPG [9] λ ĉ = arg max c P (o λ) = arg max P (W c ˆµ, ˆΣ) (5) c c = [c,, c T ] (3), (4) o o = W c W ˆµ ˆΣ ĉ P ĉ = P W Σ ˆµ = P W Σ o (6) P = (W Σ W ) (7) L trj Z.5.3 DNN (GV) [9]. GV v D c v(d) = T c(d) = T T (c t (d) c(d)) (9) t= T c t (d) () t= v(c) = [v(),, v(d)] GV L gv L gv = P (v(c) λ, λ v ) = N (v(c) v(ĉ), Σ v ) () L GV w L trj GV L gv w wt L = L trj L gv ().5.4 DNN [] Hz song song48 song song song c 9 Information Processing Society of Japan 3

4 6 khz, 56 MusicXML 534 WORLD[] 59.5 GRU 4 3 song9, song48 GRU (gru) (trj) GV (gvtrj) 3 song9 9 gvtrj gru trj, gvtrj gvtrj GV w =. 6 Adam[] Adam. 4 β =.9 β =.999 ϵ = 8 WORLD (MOS) 5 5 (MCD) (F RMSE) (V/UV FPR) (V/UV FNR) (BAPD) (GVD) 3. 4 song9 song48 MOS gru, trj, gvtrj song48 95% song9 song48 gvtrj song48 song9 song48 MOS song9 gru trj gvtrj 4 Fig. 4 MOS MOS evaluation for opera-style. song9 song48 song48 gvtrj MCD, F RMSE, BAPD, GVD song9 song48 GVD gvtrj GV MCD 5 song9, song48 (gvtrj), F D#4 gvtrj song9 song9 9 song48 8 F 6, 7, 8 song9, song48 (gvtrj), gvtrj song9 GV 4. GRU c 9 Information Processing Society of Japan 4

Table Result of objective evaluations. MCD (db) F RMSE (cent) V/UV FPR V/UV FNR BAPD (db) GVD song9 5.67 58.66 6.45 7.8 3 7.76 8.679 gru 5.58 57.

.5..5 Time [s] 5 F Fig. 5 Comparison of F. 6 song9 Fig. 6 Spectrogram of song9. 7 4 WaveNet[3] Hz Hz 6 5 3 7 7 6 5.5.5 Time song48(gvtrj) Fig.

: Expressive Singing Synthesis Based on Unit Selection for the Singing Synthesis Challenge 6., Proc. Interspeech, pp. 3 34 (6). [] Saino, K. et al.

5 Table Result of objective evaluations. MCD (db) F RMSE (cent) V/UV FPR V/UV FNR BAPD (db) GVD song gru trj gvtrj Frequency [Hz] Hz song9 gvtrj target.5.5 Time Time [s] 5 F Fig. 5 Comparison of F. 6 song9 Fig. 6 Spectrogram of song WaveNet[3] Hz Hz Time song48(gvtrj) Fig. 7 Spectrogram of song48 (gvtrj). 3 [] Bonada, J., Umbert, M. and Blaauw, M.: Expressive Singing Synthesis Based on Unit Selection for the Singing Synthesis Challenge 6., Proc. Interspeech, pp (6). [] Saino, K. et al.: An HMM-based singing voice synthesis system, Ninth International Conference on Spoken Language Processing (6). [3] Deep Neural Network - Sinsy.5.5 Time 8 Fig. 8 Target spectrogram. c 9 Information Processing Society of Japan 5

6 pp. 99 (8). [4] pp. 9 9 (9). [5] WaveNet pp (8). [6] Sundberg, J. et al.: pp. 3 (7). [7] Chung, J. et al.: Empirical evaluation of gated recurrent neural networks on sequence modeling, arxiv preprint arxiv: (4). [8] Tokuda, K. et al.: Speech parameter generation algorithms for HMM-based speech synthesis, ICASSP, Vol. 3, pp (). [9] Hashimoto, K. et al.: Trajectory training considering global variance for speech synthesis based on neural networks, ICASSP, pp (6). [] Nishimura, M. et al.: Singing Voice Synthesis Based on Deep Neural Networks, Proc. Interspeech, pp (6). [] Morise, M. et al.: WORLD: a vocoder-based high-quality speech synthesis system for real-time applications, IE- ICE TRANSACTIONS on Information and Systems, Vol. 99, No. 7, pp (6). [] Kingma, D. P. and Ba, J.: Adam: A method for stochastic optimization, arxiv preprint arxiv:4.698 (4). [3] Van Den Oord, A. et al.: WaveNet: A generative model for raw audio, SSW, p. 5 (6). c 9 Information Processing Society of Japan 6

Haiku Generation Based on Motif Images Using Deep Learning Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura Scho

Haiku Generation Based on Motif Images Using Deep Learning 1 2 2 2 Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura 2 1 1 School of Engineering Hokkaido University 2 2 Graduate