v.connect 開発当初 素片接続型合成器 入力 VSQファイル コーパス UTAU音源 分析合成 STRAIGHT Vocaloid2用 シーケンス UTAU用 ライブラリ v.connect STRAIGHT STRAIGHT版は 開発終了 合成音

Similar documents
SAP11_03

IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi

PowerPoint プレゼンテーション

画像処理工学

Missing Data NMF

計測コラム emm182号用

WAVE 形式のファイルにも出力できる 3 つの波形を同時に発生可能 正弦波, 三角波, 白色雑音などを選択 16bit なので値の範囲は ~ ここに表示されるのはデジタル信号サウンドカードから出力されるのはアナログ信号 Fig.1 WaveGene の操作パネル wav フ

スペクトルに対応する英語はスペクトラム(spectrum)です


第 4 週コンボリューションその 2, 正弦波による分解 教科書 p. 16~ 目標コンボリューションの演習. 正弦波による信号の分解の考え方の理解. 正弦波の複素表現を学ぶ. 演習問題 問 1. 以下の図にならって,1 と 2 の δ 関数を図示せよ δ (t) 2

インターリーブADCでのタイミングスキュー影響のデジタル補正技術

<4D F736F F F696E74202D2091E FCD91BD8F6489BB82C691BD8F E835A83582E >

AudioGate 4 取扱説明書

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

Implementation of Computationally Efficient Real-Time Voice Conversion

歌声情報処理: 歌声を対象とした音楽情報処理

Microsoft PowerPoint - 第06章振幅変調.pptx

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

RMS(Root Mean Square value 実効値 ) 実効値は AC の電圧と電流両方の値を規定する 最も一般的で便利な値です AC 波形の実効値はその波形から得られる パワーのレベルを示すものであり AC 信号の最も重要な属性となります 実効値の計算は AC の電流波形と それによって

Łñ“’‘‚2004

プリント


Microsoft Word - 頻度解析プログラム概要

画像類似度測定の初歩的な手法の検証

(Microsoft Word - PLL\203f\203\202\216\221\227\277-2-\203T\203\223\203v\203\213.doc)

DVIOUT

Microsoft PowerPoint - HARKTutorial2_2010_2-WOL.pptx

Microsoft PowerPoint - ip02_01.ppt [互換モード]

help_ja

<4D F736F F F696E74202D C092425F D8A7789EF89C88A778BB38EBA816A8C6791D CC82B582AD82DD2E >

RLC 共振回路 概要 RLC 回路は, ラジオや通信工学, 発信器などに広く使われる. この回路の目的は, 特定の周波数のときに大きな電流を得ることである. 使い方には, 周波数を設定し外へ発する, 外部からの周波数に合わせて同調する, がある. このように, 周波数を扱うことから, 交流を考える

トピックモデルを用いた歌声特徴量の分析

Microsoft PowerPoint - dm1_5.pptx

音情報処理I

untitled

Introduction to System Identification

モータ HILS の概要 1 はじめに モータ HILS の需要 自動車の電子化及び 電気自動車やハイブリッド車の実用化に伴い モータの使用数が増大しています 従来行われていた駆動用モータ単体のシミュレーション レシプロエンジンとモータの駆動力分配制御シミュレーションの利用に加え パワーウインドやサ

Microsoft PowerPoint - 【最終提出版】 MATLAB_EXPO2014講演資料_ルネサス菅原.pptx

AquesTalk10 Win マニュアル

Microsoft PowerPoint - SP _slides

Microsoft Word - scilab_intro.doc

Taro-⑪JS5シンガーソングライタ

通信概論2011第2-3週.ppt

フィードバック ~ 様々な電子回路の性質 ~ 実験 (1) 目的実験 (1) では 非反転増幅器の増幅率や位相差が 回路を構成する抵抗値や入力信号の周波数によってどのように変わるのかを調べる 実験方法 図 1 のような自由振動回路を組み オペアンプの + 入力端子を接地したときの出力電圧 が 0 と

情報処理学会研究報告 IPSJ SIG Technical Report 調音運動 HMM 音声合成における調音特徴 - 声道パラメータ変換と音源の改良 小野田高幸 桂田浩一 新田恒雄 音声認識と合成を同じ調音運動モデルを用いて実現するシステムの開発を行っている. 調音特徴を用いて HMM を設計す

CF-7200 ポータブルFFT アナライザ「打撃試験で周波数応答関数を測定する操作手順」

Microsoft PowerPoint - 課題1解答.pptx

PowerPoint Presentation

PowerPoint プレゼンテーション

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

Microsoft PowerPoint - DigitalMedia2_3b.pptx

Microsoft PowerPoint pptx

ディジタル信号処理

AquesTalk10 Linux マニュアル

第 11 回 R, C, L で構成される回路その 3 + SPICE 演習 目標 : SPICE シミュレーションを使ってみる LR 回路の特性 C と L の両方を含む回路 共振回路 今回は講義中に SPICE シミュレーションの演習を併せて行う これまでの RC,CR 回路に加え,L と R

Microsoft PowerPoint - 画像工学2007-5印刷用

時系列データ解析ツール Oscope Professional「音質評価パック」

<4D F736F F F696E74202D B D91E58B438C C2D D B F97702E707074>

この取扱説明書について USB DAC 端子に USB ケーブルでコンピューターを接続すると コンピューターからの音声信号を再生できます この機能を使って PCM を再生する場合 ドライバーソフトウェアをコンピューターにインストールする必要はありません ただし この機能を使って DSD 音源をネイテ

表1_表4

Microsoft PowerPoint - 第3回2.ppt

QuartusII SOPC_Builderで利用できるGPIF-AVALONブリッジとは?

1. MPP.DSP の概要 MPP.DSP は Windows PC とインテル x86 プロセッサーの性能をフルに活用し オーディオに必要な様々な信号処理を提供するソフトウェアーです MPP.DSP は S&K Audio が設計し Venetor Sound が製品化したオーディオ I/F 装

本仕様はプロダクトバージョン Ver 以降に準じています

Microsoft Word - RefApp7インストールガイド.doc

ステップ 1: セミナー当日 開始 10 分前になったら セミナー参加用ページへアクセスする セミナー当日 開始 10 分前になりましたら 以下のどちらかのメールに記載されている Click here to join のリンク( セミナー参加用ページ ) をクリックします - 申込完了 *****

NMR ソフトウェア Deltaにおける定量NMR解析

2009 年 11 月 16 日版 ( 久家 ) 遠地 P 波の変位波形の作成 遠地 P 波の変位波形 ( 変位の時間関数 ) は 波線理論をもとに P U () t = S()* t E()* t P() t で近似的に計算できる * は畳み込み積分 (convolution) を表す ( 付録

Microsoft PowerPoint - 計測2.ppt [互換モード]

CLEFIA_ISEC発表

1. UART について UART は Universal Asynchronous Receiver Transmitter の頭文字をとったもので 非同期シリアル通信と呼ばれます シリアル通信とは 一本の信号線でデータをやりとりするために 1bit ずつデータを送出することをいいます データを受

3) 課題 課題 1.1 基本課題 WaveGene で音響信号の測定に使用する様々な信号を発生してみよう また, ヘッドフォンをパソコンの出力端子につないで聴いてみよう ( ただし, 音量に注意! サウンドカードやヘッドフォンの効率は周波数によって異なる ある周波数では平気でも, 他の周波数では大

AquesTalk10 Mac マニュアル

Microsoft PowerPoint - クロックジッタ_Handsout.ppt

Transcription:

v.connect ユーザが声色操作を 指定できる歌声合成器 電気通信大学 情報工学科 小川 真 矢崎 俊志 阿部 公輝 (阿部公輝 研究室)

v.connect 開発当初 素片接続型合成器 入力 VSQファイル コーパス UTAU音源 分析合成 STRAIGHT Vocaloid2用 シーケンス UTAU用 ライブラリ v.connect STRAIGHT STRAIGHT版は 開発終了 合成音

v.connect 現在 素片接続型合成器 GUI コーパス UTAU音源 分析合成 WORLD Cadencii GUI Cadencii UTAU用 ライブラリ v.connect WORLD にて 現在も開発中 合成音

Cadencii HN: kbinani 氏制作 GUI アプリケーション 歌声合成器向け ピアノロール シーケンサ 様々な合成器に対し 統一的な操作が可能 v.connect を 合成器として添付

合成例(1) v.connect デモンストレーション Toss Up 本発表の技術を使用 sm15561654 歌声合成器デモ Toss Up 波音リツコネクト

発表の流れ v.connect 開発の経緯 研究背景 動機 目的 提案法 課題点 研究成果 まとめ

歌声合成ツール UTAU フリーの歌声合成器 HN : 飴屋 菖蒲氏開発 規格がオープン 自由にライブラリを作成可能 3,000 以上のライブラリ

UTAU 向けライブラリ アライメント情報つき波形データ 多くはキャラクタと共に配布 声色別の収録 先行発音 300ms 固定長区間 600ms ファイル名 あえ.wav VCV音素名 aえ 波形データ アライメント

UTAU 向けライブラリ例 (1) 櫻歌ミコ 2ch VIP 発 声: HN: 赤ずきん氏 絵: HN: 縣氏 収録内容 CV / VCV 音素片 パワー ささやき などの 声色別の収録 7 種類 キャラクタイラスト http://miko35.is-mine.net/

UTAU 向けライブラリ例 (2) 歌う音ナミ マレーシア発 声 絵: HN: Nami-chan 氏 収録内容 CV / VCV 音素片 Soft, Sweet などの 声色別の収録 5 種類 キャラクタイラスト http://utaunenami.webs.com/

UTAU 向けライブラリ例 (3) 龍音セイチ アメリカ発 声 HN: RyuuSeichi 氏 絵 HN: 漆原 龍紅氏 録音: HN: Yoru 氏 収録内容 VCV 音素片 Normal, Whisper の 声色別の収録 2 種類 キャラクタイラスト

問題点 1ライブラリに対し1合成器 フレーズ 音符毎に切り替えを行う 楽譜情報 歌声合成器 楽譜情報 声色A ライブラリ 声色Aの歌声 歌声合成器 声色B ライブラリ 声色Bの歌声 DAWなど 波形編集ソフト

問題点 1ライブラリに対し1合成器 フレーズ 音符毎に切り替えを行う 楽譜情報 歌声合成器 声色Aの歌声 楽譜情報 声色A ライブラリ 歌声合成器 声色B ライブラリ 声色Bの歌声 ライブラリを同時に使いたい DAWなど 波形編集ソフト

問題点 1ライブラリに対し1合成器 フレーズ 音符毎に切り替えを行う 楽譜情報 歌声合成器 声色Aの歌声 楽譜情報 声色A ライブラリ 歌声合成器 声色B ライブラリ 声色Bの歌声 ライブラリを同時に使いたい DAWなど できれば滑らかに変化させたい 波形編集ソフト

目的 歌声合成器に声質モーフィング機能を追加 任意時刻での モーフィング率指定を 可能にする 声色A 声色B

提案法 概要 統合された 声色ライブラリ 歌詞 GUI Cadencii Input: 演奏情報 時間伸縮用 マッチング関数 表情パラメータ 声色A ライブラリ 音高情報 声色B ライブラリ 接続モデル F0生成モデル 時間伸縮モデル スペクトル 残差 WORLD Synthesis F0 Output: 合成歌唱

課題点(Webでの配布に向けて) 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正

課題点 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正

音声分析合成系 WORLD Vocoder ベースで高速 高品質 単純な分析 再合成だけなら同時に行なえる かかる時間は分析 再合成 DIO 音声信号 WORLD STAR PLATINUM F0 列 STAR スペクトログラム 励起信号スペクトル

課題点 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正

WORLD のデータサイズ 標本化周波数 44,100[Hz] の場合 1 次元 DIO 音声信号 F0 列 STAR 1025 次元 STAR スペクトログラム PLATINUM 2048 次元 励起信号スペクトル WORLD 分析シフト長 n[ms] 毎に約 3,000 点必要 n = 2 の時で波形の 約 30 倍のデータ量

課題点 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正

課題点 処理速度低下 事前に合成しやすい形へ分析 ライブラリ容量の増大 モーフィングによる処理量の増大 処理速度とトレードオフ 低次メルケプストラムと Vorbis で圧縮 ライブラリ間での発音の違い 素片ごとに時間の対応付けを行い補正

提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO WORLD Analysis STAR F0 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis 励起信号波形 メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum MelCepstrum OggVorbis 励起信号波形 時間伸縮関数

提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO F0 WORLD Analysis STAR 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis MelCepstrum 励起信号波形 ノイズ成分 声の特徴 メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum OggVorbis 励起信号波形 時間伸縮関数 発音の差

提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO WORLD Analysis STAR F0 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis 励起信号波形 メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum MelCepstrum OggVorbis 励起信号波形 時間伸縮関数

提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO WORLD Analysis STAR F0 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis 励起信号波形 メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum MelCepstrum OggVorbis 励起信号波形 時間伸縮関数

励起信号抽出法 PLATINUM 実信号スペクトル X (ω) と パワースペクトルの最小位相スペクトル H (ω) から励起信号を以下の式で求める X (ω) R (ω)= H (ω) 位相を無視しない高品質な分析合成系 励起信号スペクトル R(ω) は パワースペクトル的な扱いに適さない

励起信号の圧縮法 実信号スペクトル X と パワースペクトルの最小位相スペクトル H から励起信号を以下の式で求める X R = H モーフィング時 R(ω) は線形補間 r t = IDFT [ R ] として Vorbis 圧縮

提案法 事前分析 声色 A 波形 声色 B 波形 振幅包絡 振幅包絡 WORLD Analysis DIO WORLD Analysis STAR F0 伸縮マッチング PLATINUM F0 IFFT メル周波数変換 励起信号波形 対数化 Vorbis Encoder IFFT 低次元化 OggVorbis 励起信号波形 MelCepstrum メル周波数変換 IFFT IFFT Vorbis Encoder MelCepstrum OggVorbis 励起信号波形 時間伸縮関数 発音の差

時間伸縮関数の設計 ライブラリ間の発音の差を補正 振幅包絡の差の積分を最小とする経路 m 2 i E t = x t, f s : 標本化周波数 fs i= m la dt t E A t E B T t d t T t min, s.t. dt 0 t=0 2 2 対応する素片同士でT(t)を記録

提案法 合成 対応時刻 声色A OggVorbis 励起信号波形 vorbis Decoder 時間伸縮関数 声色B MelCepstrum MelCepstrum OggVorbis 励起信号波形 FFT FFT vorbis Decoder FFT 線形周波数化 線形周波数化 対数パワースペクトル 重みつき和 重みつき和 励起信号スペクトル F0 generator F0 FFT WORLD Synthesis 音声波形

波音リツコネクト 本技術によるライブラリ 波音リツ Project と共同制作 http://hal-the-cat.music. coocan.jp/ritsu.html 上記で 波音リツコネクト として公開されています

波音リツコネクト収録内容 収録単位 VCV 収録語数 955語 マイク Audio-Technica AT-4040 Audio I/F Roland UA-25EX 収録場所 約60畳の業務用冷凍庫 MelCepstrum 32 次元 OggVorbis 44.1サンプルあたり 64kbit 声色指定 強い 中間 弱い 三種類

合成速度 波形からの合成の約 2 倍高速 32 秒のシーケンスの合成時間 単位 秒 CPU 波形から合成 提案手法 スレッド数 Celeron 1.73Ghz 89.1 40.4 1 Core2Quad 2.8Ghz 39.6 20.7 1 Core2Quad 2.8Ghz 22.3 10.5 2 Core i7 3.5Ghz 22.9 13.1 1 Core i7 3.5Ghz 11.6 6.6 2

ライブラリ容量 波形の約 2 倍 2[ms] あたりに必要なデータ量[bytes] WORLD RAW 提案手法 波形 176.4 - - スペクトル - 4096 128 励起信号 - 8192 約200 176.4 12288 約330 元データ 合計 圧縮の条件は波音リツコネクトと同じ

合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更

合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更

合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更

合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更

合成例 (2) 童謡 ふるさと 圧縮の影響の比較 声色指定パラメタのみ手作業で編集 波形から合成 提案法で合成 操作パラメタの比較 モーフィング率一定 モーフィング率手動変更

合成例 (3) 拙作 Breathe -retrieval- 声色指定パラメタ 音程遷移を付加 手作業 sm16309748 波音リツコネクト Breathe -retrieval- オリジナル

変換ツール インターネット上での 利用を前提 変換用の GUI を配布 波音リツコネクト と 同じページで公開中

変換ツール インターネット上での 利用を前提 変換用の GUI を配布 波音リツコネクト と 同じページで公開中

まとめ ユーザが声色操作可能な歌声合成器 v.connect を作成した 任意時刻 任意強度でモーフィング率を指定可能 合成速度とライブラリ容量を改善 速度約 2 倍 ライブラリ容量は波形の約 2 倍

今後の課題 品質についての定量的評価 モーフィング精度の向上 声色変化パラメタの自動生成 シーケンスの入力は手作業に依るところが大きい

予稿訂正のお詫び 予稿中 VocaListener2 の表記を VocalListener2 と誤記しておりました 大変失礼致しました ここに訂正するとともに 謹んでお詫び申し上げます

謝辞 開発にご助力いただいた Cadencii 開発者の kbinani 様 音源の制作にご協力いただいた 波音リツ Project のみなさま WORLD 開発の立命館大学の森勢助教 UTAU 開発の飴屋 菖蒲様 この場をお借りして感謝申し上げます

v.connect ご清聴ありがとうございました