v.connect ユーザが声色操作を 指定できる歌声合成器 電気通信大学 情報工学科 小川 真 矢崎 俊志 阿部 公輝 (阿部公輝 研究室)
v.connect 開発当初 素片接続型合成器 入力 VSQファイル コーパス UTAU音源 分析合成 STRAIGHT Vocaloid2用 シーケンス UTAU用 ライブラリ v.connect STRAIGHT STRAIGHT版は 開発終了 合成音
v.connect 現在 素片接続型合成器 GUI コーパス UTAU音源 分析合成 WORLD Cadencii GUI Cadencii UTAU用 ライブラリ v.connect WORLD にて 現在も開発中 合成音
Cadencii HN: kbinani 氏制作 GUI アプリケーション 歌声合成器向け ピアノロール シーケンサ 様々な合成器に対し 統一的な操作が可能 v.connect を 合成器として添付
合成例(1) v.connect デモンストレーション Toss Up 本発表の技術を使用 sm15561654 歌声合成器デモ Toss Up 波音リツコネクト
発表の流れ v.connect 開発の経緯 研究背景 動機 目的 提案法 課題点 研究成果 まとめ
歌声合成ツール UTAU フリーの歌声合成器 HN : 飴屋 菖蒲氏開発 規格がオープン 自由にライブラリを作成可能 3,000 以上のライブラリ
UTAU 向けライブラリ アライメント情報つき波形データ 多くはキャラクタと共に配布 声色別の収録 先行発音 300ms 固定長区間 600ms ファイル名 あえ.wav VCV音素名 aえ 波形データ アライメント
UTAU 向けライブラリ例 (1) 櫻歌ミコ 2ch VIP 発 声: HN: 赤ずきん氏 絵: HN: 縣氏 収録内容 CV / VCV 音素片 パワー ささやき などの 声色別の収録 7 種類 キャラクタイラスト http://miko35.is-mine.net/
UTAU 向けライブラリ例 (2) 歌う音ナミ マレーシア発 声 絵: HN: Nami-chan 氏 収録内容 CV / VCV 音素片 Soft, Sweet などの 声色別の収録 5 種類 キャラクタイラスト http://utaunenami.webs.com/
UTAU 向けライブラリ例 (3) 龍音セイチ アメリカ発 声 HN: RyuuSeichi 氏 絵 HN: 漆原 龍紅氏 録音: HN: Yoru 氏 収録内容 VCV 音素片 Normal, Whisper の 声色別の収録 2 種類 キャラクタイラスト
問題点 1ライブラリに対し1合成器 フレーズ 音符毎に切り替えを行う 楽譜情報 歌声合成器 楽譜情報 声色A ライブラリ 声色Aの歌声 歌声合成器 声色B ライブラリ 声色Bの歌声 DAWなど 波形編集ソフト
問題点 1ライブラリに対し1合成器 フレーズ 音符毎に切り替えを行う 楽譜情報 歌声合成器 声色Aの歌声 楽譜情報 声色A ライブラリ 歌声合成器 声色B ライブラリ 声色Bの歌声 ライブラリを同時に使いたい DAWなど 波形編集ソフト
問題点 1ライブラリに対し1合成器 フレーズ 音符毎に切り替えを行う 楽譜情報 歌声合成器 声色Aの歌声 楽譜情報 声色A ライブラリ 歌声合成器 声色B ライブラリ 声色Bの歌声 ライブラリを同時に使いたい DAWなど できれば滑らかに変化させたい 波形編集ソフト
目的 歌声合成器に声質モーフィング機能を追加 任意時刻での モーフィング率指定を 可能にする 声色A 声色B
提案法 概要 統合された 声色ライブラリ 歌詞 GUI Cadencii Input: 演奏情報 時間伸縮用 マッチング関数 表情パラメータ 声色A ライブラリ 音高情報 声色B ライブラリ 接続モデル F0生成モデル 時間伸縮モデル スペクトル 残差 WORLD Synthesis F0 Output: 合成歌唱
課題点(Webでの配布に向けて) 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正
課題点 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正
音声分析合成系 WORLD Vocoder ベースで高速 高品質 単純な分析 再合成だけなら同時に行なえる かかる時間は分析 再合成 DIO 音声信号 WORLD STAR PLATINUM F0 列 STAR スペクトログラム 励起信号スペクトル
課題点 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正
WORLD のデータサイズ 標本化周波数 44,100[Hz] の場合 1 次元 DIO 音声信号 F0 列 STAR 1025 次元 STAR スペクトログラム PLATINUM 2048 次元 励起信号スペクトル WORLD 分析シフト長 n[ms] 毎に約 3,000 点必要 n = 2 の時で波形の 約 30 倍のデータ量
課題点 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正
課題点 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正
提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO WORLD Analysis STAR F0 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis 励起信号波形 メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum MelCepstrum OggVorbis 励起信号波形 時間伸縮関数
提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO F0 WORLD Analysis STAR 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis MelCepstrum 励起信号波形 ノイズ成分 声の特徴 メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum OggVorbis 励起信号波形 時間伸縮関数 発音の差
提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO WORLD Analysis STAR F0 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis 励起信号波形 メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum MelCepstrum OggVorbis 励起信号波形 時間伸縮関数
提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO WORLD Analysis STAR F0 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis 励起信号波形 メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum MelCepstrum OggVorbis 励起信号波形 時間伸縮関数
励起信号抽出法 PLATINUM 実信号スペクトル X (ω) と パワースペクトルの最小位相スペクトル H (ω) から励起信号を以下の式で求める X (ω) R (ω)= H (ω) 位相を無視しない高品質な分析合成系 励起信号スペクトル R(ω) は パワースペクトル的な扱いに適さない
励起信号の圧縮法 実信号スペクトル X と パワースペクトルの最小位相スペクトル H から励起信号を以下の式で求める X R = H モーフィング時 R(ω) は線形補間 r t = IDFT [ R ] として Vorbis 圧縮
提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO WORLD Analysis STAR F0 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis 励起信号波形 MelCepstrum メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum OggVorbis 励起信号波形 時間伸縮関数 発音の差
時間伸縮関数の設計 ライブラリ間の発音の差を補正 振幅包絡の差の積分を最小とする経路 m 2 i E t = x t, f s : 標本化周波数 fs i= m la dt t E A t E B T t d t T t min, s.t. dt 0 t=0 2 2 対応する素片同士でT(t)を記録
提案法 合成 対応時刻 声色A OggVorbis 励起信号波形 vorbis Decoder 時間伸縮関数 声色B MelCepstrum MelCepstrum OggVorbis 励起信号波形 FFT FFT vorbis Decoder FFT 線形周波数化 線形周波数化 対数パワースペクトル 重みつき和 重みつき和 励起信号スペクトル F0 generator F0 FFT WORLD Synthesis 音声波形
波音リツコネクト 本技術によるライブラリ 波音リツ Project と共同制作 http://hal-the-cat.music. coocan.jp/ritsu.html 上記で 波音リツコネクト として公開されています
波音リツコネクト収録内容 収録単位 VCV 収録語数 955語 マイク Audio-Technica AT-4040 Audio I/F Roland UA-25EX 収録場所 約60畳の業務用冷凍庫 MelCepstrum 32 次元 OggVorbis 44.1サンプルあたり 64kbit 声色指定 強い 中間 弱い 三種類
合成速度 波形からの合成の約 2 倍高速 32 秒のシーケンスの合成時間 単位 秒 CPU 波形から合成 提案手法 スレッド数 Celeron 1.73Ghz 89.1 40.4 1 Core2Quad 2.8Ghz 39.6 20.7 1 Core2Quad 2.8Ghz 22.3 10.5 2 Core i7 3.5Ghz 22.9 13.1 1 Core i7 3.5Ghz 11.6 6.6 2
ライブラリ容量 波形の約 2 倍 2[ms] あたりに必要なデータ量[bytes] WORLD RAW 提案手法 波形 176.4 - - スペクトル - 4096 128 励起信号 - 8192 約200 176.4 12288 約330 元データ 合計 圧縮の条件は波音リツコネクトと同じ
合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更
合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更
合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更
合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更
合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更
合成例 (3) 拙作 Breathe -retrieval- 声色指定パラメタ 音程遷移を付加 手作業 sm16309748 波音リツコネクト Breathe -retrieval- オリジナル
変換ツール インターネット上での 利用を前提 変換用の GUI を配布 波音リツコネクト と 同じページで公開中
変換ツール インターネット上での 利用を前提 変換用の GUI を配布 波音リツコネクト と 同じページで公開中
まとめ ユーザが声色操作可能な歌声合成器 v.connect を作成した 任意時刻 任意強度でモーフィング率を指定可能 合成速度とライブラリ容量を改善 速度約 2 倍 ライブラリ容量は波形の約 2 倍
今後の課題 品質についての定量的評価 モーフィング精度の向上 声色変化パラメタの自動生成 シーケンスの入力は手作業に依るところが大きい
予稿訂正のお詫び 予稿中 VocaListener2 の表記を VocalListener2 と誤記しておりました 大変失礼致しました ここに訂正するとともに 謹んでお詫び申し上げます
謝辞 開発にご助力いただいた Cadencii 開発者の kbinani 様 音源の制作にご協力いただいた 波音リツ Project のみなさま WORLD 開発の立命館大学の森勢助教 UTAU 開発の飴屋 菖蒲様 この場をお借りして感謝申し上げます
v.connect ご清聴ありがとうございました