情報処理学会インタラクション 21 によって MIDI シーケンスデータを入力することができる VtoM システムの実現が求められる. そこで, 我々はタップ併用型 Voice-to-MIDI( 以下 TVM と略す ) 手法を既に提案した 4). これは, 計算機が苦手とするが人にとっては容易な区

Similar documents
Voice-to-MIDI A Method of Note Counting and Pitch Extraction by Using Melody Rhythm Taps for Voice-to-MIDI System Naoki ITOU and Kazushi NISHIMOTO MID

VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案

歌声情報処理: 歌声を対象とした音楽情報処理

IPSJ SIG Technical Report Vol.2012-MUS-94 No.3 Vol.2012-SLP-90 No /2/ DTM 200 GUIN-Resonator: A system synthesizing voice with the styl

1 Hiroki Minato 1 Abstract Keywords : [1] 59cm 35cm 24cm [2] 10 [3] [4] 23 1 *1 *1 Yonezawa laboratory Faculty of Informatics Kansai Uni

Taro-⑪JS5シンガーソングライタ

IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

P001-P012-日比野.indd

Web Web [4] Web Web [5] Web 2 Web 3 4 Web Web 2.1 Web Web Web Web Web 2.2 Web Web Web *1 Web * 2*3 Web 3. [6] [7] [8] 4. Web 4.1 Web Web *1 Ama

準備 1. まず AudioScore を起動します Sibelius 7 や 7.5 をお持ちの場合は Sibelius の [ クイックスタート ] メ ニューから [ インポート ] の [AudioScore] をクリックします Sibelius を起動せずに AudioScore を起動し

平成 27 年度卒業論文 クリシェによるコード進行自動生成システム 函館工業高等専門学校情報工学科 5 年 東海林研究室江守南津郎

IPSJ SIG Technical Report Vol.2010-GN-75 No /3/19 1. Proposal and Evaluation of Laboratory Experiments for understanding Offshore Software Deve

Temporal マニュアル

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

1. はじめに 2

MA3-1 30th Fuzzy System Symposium (Kochi, September 1-3, 2014) Analysis of Comfort Given to Human by Using Sound Generation System Based on Netowork o

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2010-MUS-85 No /5/28 歌詞朗読音声からのオンライン歌声合成システム 山田諒太郎 1 森山剛 1 本研究では, ユーザが歌の歌詞を朗読した音声波形を音素単位に分割し, 入力された楽譜情報

Fig. 3 Fig. 1 Fig. 4 Fig Fig.3 Fig ( 1 5 ) ( ON-OFF ) ON-OFF ( )

<4D F736F F D E718A798AED82CC CC90B89378>

ギター初心者のための 演奏練習支援システム 日本大学文理学部 情報科学科 B4 宇田川 真唯 1

[ 演習 3-6AA] ウェブページの検索結果の表示順序 ( 重要 ) 10D H 坂田侑亮 10D F 岩附彰人 10D D 財津宏明 1.1 ページランクとは ページランクとは グーグルが開発した検索エンジンのウェブページの重要度を判定する技術である サーチエ

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

早稲田大学大学院日本語教育研究科 修士論文概要書 論文題目 ネパール人日本語学習者による日本語のリズム生成 大熊伊宗 2018 年 3 月

(Microsoft PowerPoint -

IPSJ SIG Technical Report Vol.2014-MUS-102 No /2/ *1 *2 1 Presently with Graduate School of Science and Technology, Kwansei Gakuin Un

Microsoft Word - 卒論レジュメ_最終_.doc

help_ja

する距離を一定に保ち温度を変化させた場合のセンサーのカウント ( センサーが計測した距離 ) の変化を調べた ( 図 4) 実験で得られたセンサーの温度変化とカウント変化の一例をグラフ 1 に載せる グラフにおいて赤いデータ点がセンサーのカウント値である 計測距離一定で実験を行ったので理想的にはカウ

表紙.indd

b) ソフトウエア音源 MIDI 音源 演奏情報 緑表示 CPU 負荷が大きい パターンの編集可能 3. ル ー プ の 作 成 a) ループの選択 コントロール ループブラウザを表示 画面左下の目玉マークをクリック ボタンを次々と押す 色がつく と 絞り込みができる 選択解除 押したボタンをもう一

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN ( ),

The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). The material has been made available on the website

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

VocaListener2(ぼかりす2): ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システム

横浜市環境科学研究所


PowerPoint プレゼンテーション

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

PCA-ACUP の操作手順例 はじめに 本手順は PCA-ACUP を使用して再生機器からパソコンにサウンドを取り込み MP3 ファイル形式で分割保存するまでの操作手順の例を記載しております DigiOnSound5 L.E. のその他機能に関しましては まず DigiOnSound5 L.E.

EBNと疫学

<4D F736F F D BD8A7091AA97CA8AED8B4082CC90AB945C8DB782C982E682E98CEB8DB782C982C282A E646F6378>

HMD VR VR HMD VR HMD VR Eye-Gaze Interface on HMD for Virtual Reality Hiromu MIYASHITA Masaki HAYASHI Kenichi OKADA Faculty of Science and Technology,

1.Sound Engine Free の起動と 設定 Sound EngineFree を起動すると右下の画面が開きます Sound Engine Free のアイコン 起動時更新のチェック のチェックを外す 通常 録音はインターネットに接続されていない環境でおこないます そのような環境で Sou

(1) (2) 2. Eurydice Eurydice Eurydice 1) Eurydice 2) Eurydice 3) Eurydice Eurydice 2.2 Eurydice 1 hidden Markov model, HMM Viterbi [7] SMF forma

DEIM Forum 2010 A Web Abstract Classification Method for Revie

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

最小分散制御をベンチマークとする手法

SoftBank 008SH 取扱説明書

画像類似度測定の初歩的な手法の検証

ニンテンドー 3DS サウンド 1 安全に使用するためにはじめに 2 ニンテンドー 3DSサウンドとは 3 画面の見かたマイクで録音して遊ぶ 4 音声データを録音する 5 音声データを再生する SDカードの音楽を再生する 6 音楽ファイルを再生する 7 再生中の音楽ファイルで遊ぶ 8 おまかせ再生

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

Microsoft Word - 博士論文概要.docx

DSOC_DSR-04

03マイクロ波による光速の測定

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

e.Typist v.9.0 表原稿編

10

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

112 宇宙航空研究開発機構特別資料 JAXA-SP 衝撃試験時の加速度センサの挙動 ( ゼロシフトの発生と計測衝撃レベル ) エイ イー エス宇宙技術部 小野智行 発表内容 1. 目的 2. ゼロシフトについて 3. 調査項目 Cのゼロシフトについて のゼ

トピックモデルを用いた歌声特徴量の分析

IPSJ SIG Technical Report PIN(Personal Identification Number) An Examination of Icon-based User Authentication Method for Mobile Terminals Fum

エレクトーン弾き放題!マニュアル

目次 1. 英単語アクセント可視化システムについて 動作環境について システムの起動と終了 起動 終了 英単語一覧画面 英単語表示画面 英単語表示 英単

スライド 1

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

<4D F736F F D E646F DEC8B40945C82C982C282A282C4>

Excel2013基礎 数式と表編集

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

DVIOUT

研究計画書

4-a

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

. ) ) ) 4) ON DC 6 µm DC [4]. 8 NaPiOn 4

User s Manual Version :MZK-WDPR-01_Manual_V1 2

untitled

【NEM】発表資料(web掲載用).pptx

PowerPoint Presentation

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

方法 4 の手順 パソコンの条件 を確認するための画面を表示する Windows8より前のパソコンでの確認方法 () スタートボタン をクリックする () ( マイ ) コンピューター と書いてある部分を右クリックする (3) プロパティ をクリックする (4) システムの画面が表示される Wind

測量試補 重要事項

IPSJ SIG Technical Report Vol.2013-CE-119 No /3/15 C 1 1 Web C MILES(Model-based Interactive Learning Support) MILES 1. C C MILES(Model-based In

自己紹介 名前 : 竹田卓也 年齢 : 20 歳 ( 大学生 ) 経歴 : 人工知能歴 1ヶ月プログラミング歴 5 年くらい 言語 : PythonとかJavaとかGoとか 趣味 : オンライン オフラインゲーム 2

1. インストール方法 STEP 1 ダウンロードしたファイルを任意の場所に解凍し Setup.exe をダブルクリックしてください 下記画面が表示されたときは [ 詳細情報 ] をクリックし 表示された画面で [ 実行 ] をクリックしてください STEP 2 Microsoft.Net Fram

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

インターリーブADCでのタイミングスキュー影響のデジタル補正技術

PowerPoint プレゼンテーション

レポートでのデータのフィルタ

智美塾 ゆもつよメソッドのアーキテクチャ

た 観衆効果は技能レベルによって作用が異なっ 計測をした た 平均レベル以下の選手は観衆がいると成績が 下がったが, 平均以上の選手は観衆に見られると成績が上がった 興味深いことに, 観衆効果は観衆の数に比例してその効果を増すようである ネビルとキャン (Nevill and Cann, 1998)

業務用コンピュータサーバーに関する

スライド 1

リソース制約下における組込みソフトウェアの性能検証および最適化方法

平成 24 年度卒業論文 歌唱支援アプリケーションの開発 函館工業高等専門学校情報工学科 須田祥平 東海林智也

て DPCM によるドラムの 6 種類だけで構成していきます a) ベース - 三角波 図 2-1 ベース音代わりの三角波 最初は無音にしておくことで 連続で鳴らしても繋がって聞えないようにしました b) メインメロディ 図 2-2 メインメロディ 1 ピアノ というよりもビブラフォン的なものです

ポインタ変数

ネット取引不正検知レポート

エラー動作 スピンドル動作 スピンドルエラーの計測は 通常 複数の軸にあるセンサーによって行われる これらの計測の仕組みを理解するために これらのセンサーの 1つを検討する シングル非接触式センサーは 回転する対象物がセンサー方向またはセンサー反対方向に移動する1 軸上の対象物の変位を測定する 計測

0210研究会

経営統計学

目次 1 章序論 1.1 英文アブストラクト 研究背景 1 2 章開発環境 2 3 章自動作曲アプリケーションの開発 3.1 概要 メロディパートの作成 調の判定 コード作成 コード進行 伴奏パートの作成 ベースパー

Transcription:

メロディリズムのタップを併用する Voice-to-MIDI 変換手法の音高変換精度評価 伊藤直樹 西本一志 計算機を用いた音楽制作における MIDI シーケンスデータ入力法のひとつに鼻歌入力法がある. しかし既存システムでは 1 音毎の区切りがうまくゆかないことによる変換精度低下が起こる. この問題に対して我々はタップ併用型 Voice-to-MIDI 手法を提案し, 既にタタタ歌唱を前提とする既存 VtoM システムとの比較実験を行い, 既存システムと比較して勝るとも劣らない精度で音高変換できることを示している. しかし, 歌詞歌唱などの任意の発音の歌唱を許容する既存システムとの比較はこれまで行っておらず, 本システムの有用性を十分に示すことができていなかった. そこで今回タタタ歌唱を前提としない, 自由歌唱可能なシステムとの比較を実施し, 本システムの有用性を明らかにした. Evaluation of Pitch Translation Accuracy of a Voice-to-MIDI That Concurrently Uses Rhythm Taps of Singing Melody NAOKI ITOU KAZUSHI NISHIMOTO Voice-to-MIDI is an input method of MIDI sequence data just by singing a melody. However, the quality of translation of the ordinary Voice-to-MIDI systems is insufficient. One of the most significant problems is the poor accuracy of the segmentation of notes. To solve this problem, we already proposed a novel Voice-to-MIDI method that uses concurrently input rhythm tapping while singing. We confirmed that our prototype system achieved much more accurate translation results than that of the ordinary system that imposes users to sing in a special way called "tatata singing." However, we haven't yet compared our system with a system that allows the users to sing in any ways like singing with lyrics. Hence, in this paper, we conducted experiments to compare our system with the system that allows free singing and we confirmed the superiority of our system. 1. はじめに計算機を用いた音楽制作における MIDI(Musical Instrument Digital Interface) シーケンスデータ入力法のひとつに, 鼻歌入力 1)-3)(Voice-to-MIDI: 以下 VtoM) 法がある.VtoM を使うと, ユーザは, マイクに向かって頭に浮かんだメロディや記憶しているフレーズを歌うだけで音符を入力できるので, 特に絶対音感や相対音感を持たないユーザや楽器演奏技術の無いユーザにとって有用な入力方法である. しかしながら, 従来の VtoM システムには多くの課題があった. VtoM システムの処理は, 一般に 歌唱区間の検知 1 音毎の区間検知 その区間のピッチ採集 そのピッチ情報からの区間音高推定という手順で行われる. この各処理ステージで得られた結果は, いずれも連鎖的に次の処理の結果に影響を 北陸先端科学技術大学院大学 Japan Advanced Institute of Science and Technology 与える. したがって初期の処理ステージでの誤りは, それ以降のステージでのさらなる誤りを引き起こし, 最終的に得られる変換結果をきわめて精度の悪いものとしてしまう. これを防ぐためには各ステージにおいてできるだけ高い精度の処理結果を出すことが必要となる. とりわけ, 初期のステージである歌唱区間の検知および 1 音毎の区間検知の精度を上げることは, それ以降の処理ステージへの波及効果が大きいので, 極めて重要である. ところが, 歌唱区間や 1 音毎の区間を計算機処理によって検知することは容易ではない. このため, 多くの既存 VtoM システムでは, すべての音を タ という音で明確に区切って発声して歌う タタタ歌唱 のような, 特殊な歌唱方法が求められる. これにより一定の水準の処理結果が得られるようになる. しかしながら, たとえば初めに歌詞を作ってからメロディを作曲する 歌詞先作曲 の場合, 歌詞の持つイントネーションなどがメロディに大きく影響するため, 歌詞をそのまま歌唱することが不可欠である. このような場合, 歌唱スタイルを制限せず, 任意のスタイルの歌唱

情報処理学会インタラクション 21 によって MIDI シーケンスデータを入力することができる VtoM システムの実現が求められる. そこで, 我々はタップ併用型 Voice-to-MIDI( 以下 TVM と略す ) 手法を既に提案した 4). これは, 計算機が苦手とするが人にとっては容易な区間区切り作業を人が担当し, 計算機は得意だが人が苦手とするピッチ抽出を計算機が担当する, 人と計算機の協調型システムであると言える.TVM を用い, タタタ歌唱を前提とする既存 VtoM システムとの比較実験を行い, TVM が既存システムと比較して勝るとも劣らない精度で音高変換できることを示した 5). しかし, 歌詞歌唱などの任意の発音の歌唱を許容する既存システムとの比較はこれまで行っておらず, 本システムの有用性を十分に示すことができていなかった. そこで今回タタタ歌唱を前提としない, 自由歌唱可能なシステムとの比較を実施し, あらゆる歌唱スタイルにおける TVM の優位性を実証したので報告する. 図 2 にタタタ歌唱入力を前提とするある市販システムにおける ( ゆうやけこや ) けえのあかとんぼ 部分の変換結果を示す. 上段は入力された歌詞歌唱の音声波形を, 中段は正解のメロディラインを手動入力して 2 オクターブ移調したもの ( 正解データ ), 下段は V-to-M システムによる認識結果を示す. このシステムは音量変化によって音が区切られると推測されるが, 本来 1 音であるのに複数の音に認識されてしまったり, 逆に複数の音に分割されなければならない箇所が 1 音と認識されてしまったりしている箇所が多数ある. 図 3 は, 別のシステムによる おわれてみた 部分の変換結果である. このシステムでは主に音高変化によって音が区切られると推測されるが, 意図しないピッチの変化にも反応してしまい, お と て の部分で余計な音が出力されてしまっている. 2. 先行研究 文献 6)7) では音声認識のために, 本研究と同様に発声に併せたタッピングなどによる区切り情報入力を行っている. これらにより音節区切り情報の効果は示されているが,V-to-M システムへの適用を目的とした研究ではない. またこれらの文献より,TVM の歌詞認識への応用も考えられるが, 歌詞認識の難しさ 8) もあり, 現時点では研究の対象とはしていない. VtoM の精度向上に関する文献 9) では, 音程の外れた歌唱にも対応可能な手法についても述べられており, 発声した個々の音が絶対音高から外れていても, 相対音高としてはスケールを構成していることを利用して, 補正を行うことが提案されている. また文献 1) の鼻歌入力システムでは, スケール上の音に優先して認識されるように重み付けを行うことが可能である. これらの音高認識結果の補正手法は, 音響処理レベルを超えた, より高次の音楽処理レベルの処理ステージで適用される技術であり,TVM と組み合わせることによりさらに高精度な V-to-M システムを実現することが可能と考えられる. 図 1 赤とんぼの楽譜 図 2 音量によって区切られ, 複数音が 1 音に,1 音が複数音に 変換された例 ( 赤とんぼの けえのあかとんぼ ) 3. タップ併用型 Voi ce-to-midi システム 3.1 既存 VtoM システムの問題点既存の V-to-M システムに歌詞歌唱を入力したときの問題点を示す. 市販の V-toM システムに童謡 赤とんぼ ( 野ばら社刊 童謡 の変ホ長調版 1) を使用 : 図 1) を歌詞歌唱入力した結果を 2 例示す. 図 3 音高変化によって区切られ, 余分な音が出力された例 ( 赤 とんぼの おわれてみた ) このように, 従来の V-to-M システムは歌唱音声デ

メロディリズムのタップ入力併用によるユーザとシステムの協調型 Voice-to-MIDI 手法の音高変換精度評価 ータを適切に 1 音ずつに区切れず, その結果個々の音の音高や音長の誤認識が起こっていると言える. 3.2 タップ併用型 VtoM 手法の概要上記のような問題に対処するためには, 音量の変化が乏しいことによって音が区切られない問題やピッチの変化による意図しない区切れの発生を同時に抑えられなければならない. そこで TVM では, 機械が苦手な音符区切り判定を人間が手動処理し, 人間の苦手なピッチ抽出をシステムが自動処理するという協調的な処理手法を採用した. ユーザは, 歌唱と並行してメロディの各音を区切る情報 ( リズム区切り情報 ) を入力する. 具体的には, 歌唱するメロディのリズムに併せて鍵盤楽器や PC キーボード, あるいはなんらかのボタンなどをタッピングすることにより,1 音毎のリズム区切りを入力する. その上で, 鍵やボタンが押下された時点から短時間ピッチ算出処理を開始し, 鍵やボタンが離され押下が終了した時点か歌唱の途切れが検知された時点のどちらか長い方まで短時間ピッチ列算出を継続し, この間を 1つの音符に対応する音声データであるとして, 得られた短時間ピッチ列から 1 つの音高を推定し出力する. 3.3 プロトタイプの構成上記の処理を実装した TVM プロトタイプシステムについて述べる. 入力は音声波形とリズム区切り情報, 出力は D2-F5 までの半音単位の音高 (A4 = 44Hz を基準とする ) である. 入力音声は 225Hz,16bit, モノラルでサンプリングされる. リズム区切り情報には MIDI キーボードや PC キーボードの打鍵および離鍵の入力時刻情報を用いる.PC キーボードの場合は, タッピングに < と > の 2 キーを使用し,1 キーのみ連打しても 2 キーを交互に打鍵してもよい仕様とした. 処理はオンライン ( リアルタイム ) で行われる. キーを押下することにより, システムに打鍵情報 (MIDI note on message) が入力されたら, これをトリガーとしてマイクより入力されてくる歌唱音声データからの短時間ピッチ算出処理を開始し, キーが離され離鍵情報 (MIDI note off message) が入力されるか, 後述する無発声検知機構によって終了が検知されるまで短時間ピッチ算出処理を繰り返し, 短時間ピッチの時系列データを記録する. 短時間ピッチ算出は, 入力波形に対する短時間フーリエ変換 (STFT, フレームサイズ twin = 248samples : 約 1ms, フレーム移動間隔 t=128samples : 約 6ms) から求めたパワースペクトルの D2-F5 相当の周波数間に存在するピークのうち, このパワースペクトルに対する IFFT から求めた循環 自己相関の正の最大値近傍の周波数のものを用いて求める. 更にスペクトルの内挿 11) を用いて cent 単位で音高推定を行い短時間ピッチとして出力する. これは周波数解像度不足を補うためである. 離鍵後, 短時間ピッチ時系列データから半音単位でとったヒストグラムを生成し, 最も頻度の高い音高の音名を求め, これをこの区間に対応する音符 1 つ分の音高として出力する. 3.4 無発声検知機構以前のシステム 5)6) では, タップを終了することで音長が決定されるシンプルな仕組みであったため, 1 音の長さ分だけキーを押下し続けずに, タップしてもすぐに離してしまうようなタップでは十分な量の短時間ピッチ情報が取得できずない問題があった. この点を踏まえて, 本システムでは歌唱区間の途切れを検知する機構を実装した. 具体的には, 本システムではピッチ抽出に循環自己相関を用いているため, タップ後に D2-F5 の音高範囲内に最大の正相関値がなくなれば歌唱区間の終了と判断する. タップ終了と歌唱終了のタイミングによって終了位置は以下の 3 パターンに分かれる. タップ終了後に歌唱が終了 : 歌唱終了時点 歌唱が終了しないまま次のタップ開始 : 次のタップ開始直前 ( レガート音 ) タップ終了より先に歌唱が終了 : タップ終了時点この手法により対象とする音高範囲内に目立つ音がなければ, 音量閾値などの手法を用いずに有音 / 無音を判別可能となり, 周期性がはっきりとした音が存在していなければ環境音の音量変化への動的対応や小音量下でも判別が可能となるなどのメリットがある. 一方でこの手法では, タップ終了後でも, 歌唱以外の音に反応したことによって範囲内に最大の正相関値が出現していれば消音されない可能性があるが,PC 内蔵マイクやヘッドセットマイクなど数種類のマイクで調査したところ, 概ね良好に作動した. なお, タップ開始 ~2ms までは無発声を検知しないようにした. また, 音が鳴っているにもかかわらず音高範囲内にピッチが無いと判定されることを想定し, 音量 ( パワースペクトルの合計値 ) が直前のフレームの音量の 9% 以上であれば終了しない仕様とした. 4. 評価実験 4.1 実験概要リズム区切り情報追加による効果と問題点を探るため, 歌唱音声データの分割区間数の精度と, 各区間の

情報処理学会インタラクション 21 音高認識精度の評価を行った. すでに タタタ歌唱 を推奨するシステムを用いていた比較評価を行い, TVM がこのシステムと比較して勝るとも劣らない精度で音高変換できることを既に示している 6). 今回は,TVM と同様に歌詞歌唱などの自由な発音の入力を許容する VtoM システムと比較する. これは, 我々の目指す歌唱スタイルを制限しない入力という目的により近しい既存システムと考えられる. なお歌唱の音の立ち上がりおよび立ち下がりを正確に判定するのは困難であるため, 今回の実験では, 音長やリズムの精度については評価しない. 4.2 楽曲歌唱する楽曲は以下の 2 種類である. 課題曲 ( 赤とんぼ ) 各被験者が選んだ自由曲 ( 歌詞のあるメロディを 1コーラス程度 ) 赤とんぼは, 音高の範囲が広く, 変化も激しいが一方で同一音高が連続する箇所もあり, 適度な難しさを持っている. かつ多くの人が知っている曲であることから課題曲に採用した. 歌唱テンポによって大きく 2 種類の歌唱条件を設定し, テンポ自由 では, 被験者の好みのテンポで歌唱させた. また, 赤とんぼは通常遅いテンポで歌唱されるため, BPM=12 で歌唱させ, 歌唱とタップの同期が速いテンポでも可能かを検証した. 自由曲では, 赤とんぼよりもリズムや音高変化が複雑でより実践的な曲への対応が可能かを検証するために, 各被験者自身が選曲したポップスなどのメロディを歌唱させた. 4.3 機材設定比較に用いた既存 V-to-M システムは,KAWAI: Band Producer 2 12) に付属の鼻歌入力機能 ( 以下, BP2 と略す ) である. この機能は, 予め設定した音量閾値を超過したときと半音単位の音高閾値を超えたときに音符が区切られると変換結果から推測されるが, 例え音量で区切られなかったとしても音高変化があれば区切られるため, 歌唱の発音により影響されにくいと思われたため比較対象として採用した. 次にデータの記録および処理手順について述べる. 被験者に試唱させて BP2 の録音音量閾値を設定した後,BP2 に歌唱をリアルタイムで入力し,MIDI データに変換する. 同時にその歌唱は Wave 波形として BP2 上で録音される.TVM のためのタップデータの記録については, 被験者に歌唱と同時にタップを入力させ,BP2 とは別の PC で記録する. このタップデー タに BP2 で記録した波形と組み合わせてオフライン処理で MIDI データに変換する. 実験では両システムで完全に同じ歌唱波形を使用するために便宜上, 本来オンライン処理である TVM をオフライン処理とした. しかし, この実験のために更なる精度向上を目的としたような処理は追加せず, 同等の出力結果となる. なお,BP2 で記録した歌唱波形と TVM のタップデータの同期が必要となるが,TVM 用の PC で歌唱波形をタップと同期させて記録しており, その波形と BP2 の波形を目視して同期位置を探した. タップに用いたデバイスは,HP: 271p ノート PC のキー < および > である. これらのキーは隣接して存在する. 被験者は, これらのキーの両方あるいは片方のみを好みに応じて用いる. 4.4 被験者被験者は, 筆者らが所属する大学の男子学生 8 名と女子学生 1 名である. 予備調査により被験者の音楽知識や能力を調べた. 項目を以下に示す. [1] 鍵の音名 : ピアノ上の鍵の音名回答 [2] 音高聴取 : ピアノで弾かれた単音の音名回答 [3] 音の高低 : ピアノで弾かれた 2 音の高低回答項目 1-3 はいずれも全 6 問ある. 各被験者の 6 問中の正解数と楽器経験を表 1 に示す. なお TVM の支援対象は, 主に音感を持たないユーザであるが, この実験では, 様々な被験者のデータを得るために和音楽器経験者 リズム楽器経験者や音感があると思われる被験者にも参加をお願いした. その結果, 楽器経験なし 4 名と経験あり 5 名となった. 4.5 実験手順実験は大学内の防音室を用いて 1 名ずつ行った. まず VtoM の練習および歌唱しながらタッピングする練習を 5 分ずつ行った後, 以下の順序で実施した. まず, 被験者に課題曲の童謡 赤とんぼ の 1 番 ( 全 31 音符 : 図 1 参照 ) を, 歌詞を見ながら 3 回聴取させ, メロディをできるだけ覚えるように指示し, [1] 赤とんぼ : テンポ自由 [2] 赤とんぼ :BPM=12 [3] 自由曲の順に歌唱させた. この 3 歌唱課題それぞれにおいて表 2 の歌唱条件をランダムな順番で呈示して歌唱させた. 赤とんぼについては, それぞれの入力方法について,3 回ずつ歌唱を入力させた. 自由曲については, 被験者の負担を考えて 1 コーラス程度を 1 回歌唱させた. 各被験者の自由曲を表 3 に示す. 実験は全て歌詞歌唱 ( 途中で歌詞が分からなくなった場合は適当な発

メロディリズムのタップ入力併用によるユーザとシステムの協調型 Voice-to-MIDI 手法の音高変換精度評価 音でもよい ) で行い, 実験中は, 歌詞カードは見ても よいが楽譜は一切呈示しなかった. 表 1 各被験者の予備調査項目 1-3 の正解数と楽器経験 被験 音 音高聴取 音の 楽器経験 者 名 正解 半音差 高低 A 6 1 5 なし B 3 2 なし C 6 1 5 なし D 3 1 6 なし E 1 6 太鼓, ムックリ 1 カ月 F 5 5 和太鼓 2-3 年 G 6 6 電子オルガン 2 年 H 6 4 6 電子オルガン 3 年ピアノ 5 年 I 6 5 1 6 ピアノ 1 年以上 表 2 実験で用いた歌唱条件の組合せ [A] 赤とんぼ テンポ タップ 自由 あり なし (BP2 のみ使用 ) BPM = 12 あり なし (BP2 のみ使用 ) [B] 自由曲 テンポ タップ 自由 あり 注 1. テンポ 自由: 好みのテンポで歌唱. BPM=12: BPM=12 のメトロノームに合わせて歌唱. 注 2. タップ あり: タップしながら歌唱. なし: 歌唱のみ.BP2 におけるタップの有無による比較用. 表 3 各被験者の自由曲 被験者 歌手名 曲名 A Mr. Children Over B 井上あずみ さんぽ C フォーククルセダース 11 月 3 日 D スピッツ チェリー E Acid Black Cherry 愛してない F ブルームオブユース ラストツアー G チャーリー コーセイ ルパン三世その 1 H SMAP 世界で一つだけの花 I 高橋洋子 残酷な天使のテーゼ 4.6 評価方法被験者が必ずしも楽譜通り, あるいはそれを移調した音高通りに歌唱できたとは限らない. ゆえに正しく各システムの音高認識性能を評価するためには, 楽譜に記載された音との食い違いが被験者の歌唱の誤りによるものか, システムの誤認識によるものかを弁別しなければならない. そこで,BP2 で記録した実験中の歌唱音響波形から, 第一筆者が 1 音毎に音高の特定を行い, これを 正解データ とした. つまり, 楽譜上に記載されている音高ではなく, 実際に歌唱された音高を正解データとする. これにより, 被験者の歌唱誤りをシステムの誤りとみなしてしまうことを回避し, 純粋にシステムの性能を評価できる. こうして得られた正解データと各システムの音高認識結果の比較によって正解個数を割り出して評価を行った. 歌唱からの音高特定の手順 ( 正解データの求め方 ) は以下の通りである. 波形処理ソフト (Adobe: Audition1.) 上で, 各音の発音開始 ~ 終了までをループ再生した音に対して, ピッチを細かく調整可能なピッチベンドホイールつきのキーボード (Ensoniq: MR- 76) で音高特定を試みる. もし, ここで決められない場合は, その発音区間内で発音長に応じて適当に選んだ 1~4 箇所程度のそれぞれについて, ある程度定常な音になるように 3~3ms 程度の短い範囲でループ再生して局所的に音高特定を行う. あまりにも音高の変化が大きい音や音高の特定が困難な音は評価から除外した. なお各音の区切りはタッピングによって得られた区切りではなく, 試聴や波形の目測によっておおよその位置を割り出した. この作業により各音を, A) 音高が一意に決まる音 B) 2 音の間で決めがたい音 C) 発音中に音高が変化する音の 3 種類に分類した. なお,B と C に分類される音は, 可能性のある音すべてを正解データとみなした. 次に発音開始および終了位置に基づき, 個々の音について正解データと認識結果を対応づけ, 両者の音高を比較することにより正解を判定した. ここで分類 B, C にあてはまる音との比較の場合は, 複数の正解データのうちいずれかの音高と一致すれば正解とし, [1] 正解音 : 一致した音 [2] 誤り音 : 一致しなかった音 [3] 欠落音 : 欠落した音 自由曲では欠落した音を以下に分けて示す. a. 欠落した音の全体数 b. 欠落した音の内, 他の音と結合された音

情報処理学会インタラクション 21 [4] 余分音 : 余分な音に分類して個数を集計した. 自由曲の 3. 欠落した音 については, 出力されなかった音の全体数およびその内の正しく区切られず前の音と結合されてしまった音の数についても示す. 4.. 余分音 に分類されるのは, 本来 1 つの音が複数音に認識され, かつその中に正解と一致した音があった場合に正解音に加算される 1 音分を除いた残りの音, および歌唱中における咳等のノイズによるものなどとなる.1~3 の音数の合計は, 各メロディの全音符数と一致する ( 赤とんぼの場合 31 音 ). 最後に上記の分類結果を用いて変換精度を求める. 例えば, 正しく音高が変換された音数が多いが余分な音も多く出力された場合, よいシステムとは言い難い. そこで, 歌唱された音数に対して正しく音高が変換された音数の割合を測る再現率, およびシステムが認識した全音数に対して正しく音高が変換された音数の割合を測る適合率の 2 つの尺度で評価する. また再現率と適合率を総合して評価する指標として も求める. それぞれ以下の計算で求められる. 再現率 (%) = 正解音数 / 全歌唱音数 *1 適合率 (%) = 正解音数 / ( 正解音数 + 誤り音数 + 余分音数 )*1 = (2* 再現率 * 適合率 ) / ( 再現率 + 適合率 ) なお全歌唱音数は以下のように求める. 全歌唱音数 ( 音 ) = 正解音数 + 誤り音数 + 欠落音数 5. 評価実験結果および考察評価実験結果および考察について述べる. なお, BP2 で全体的に欠落音が多い点については, 同一音高の連続箇所など複数音が 1 音に変換されたことが影響することはあるが, その分を除いてもなお大量の欠落音が残る場合がある. そこで音量閾値設定の影響が考えられたため, 閾値を調整して検証してみたが変換結果に大きな変化は見られなかった. また音量が小さい音が出力された一方で, その音よりも音量が大きい音が欠落したケースも見られたため, 原因の特定は困難として断念した. 5.1 赤とんぼ : テンポ自由 テンポ自由, 歌詞歌唱, タップあり の歌唱条件による入力 3 回分計 93 音について被験者ごとに集計を行った結果, および BP2 におけるタップの有無による精度比較用に テンポ自由, 歌詞歌唱, タップなし の結果を表 4-A に示す. TVM は, 被験者 C の誤り音が多少多いものの, 全 体的に欠落 余分音は非常に少なく上手くタップによる音区切りおよび音高変換がなされていると言える. 一方 BP2 は誤り音が少なく認識した音の音高変換精度は非常に高いものの, 欠落 余分音が多いことが分かる. 欠落音については, 赤とんぼでは同一音高の連続箇所が楽譜上 4 箇所存在しており, それらが 1 音のロングトーンに変換された影響が見られた. 余分音が多い原因は歌唱中のピッチ変動や揺れが多いためである. 例えば 3 小節目の あか のような落差の大きい箇所では, ピッチが大幅なアンダーシュートを起こし, 本来の音高に戻るまでに複数の音高に掛かる. また 3-4 小節にかけての とーんーぼー のようなロングトーンは意図しないピッチ変動が起きやすい. また BP2 では, タップの有無に関わらず同等の認識精度であり, タップを行うことによって歌唱が乱れて精度が下がるようなことは無かったと考えられる. 総じて,TVM は BP2 よりも再現率 適合率 いずれも全被験者について高い結果を示した. 再現率 適合率ともに 1% の被験者が 5 名いた. これには楽器経験なしの被験者 A,B も含まれており, このレベルの曲や歌唱条件に対しては楽器経験の有無は影響を及ぼしにくいと見られる. 5.2 赤とんぼ : テンポ BPM = 12 テンポ BPM = 12, 歌詞歌唱, タップあり の歌唱条件による入力 3 回分計 93 音について被験者ごとに集計を行った結果, および BP2 におけるタップの有無による精度比較用に テンポ BPM = 12, 歌詞歌唱, タップなし の結果を表 4-B に示す. TVM では歌唱テンポの上昇に伴い負荷が高まるとともに誤り 欠落 余分の各音数も自由テンポ時より増加しているが, これは妥当な結果と言える. 中でも被験者 E は欠落 余分音が大きく増加しているが, 音長をある程度保ったタップ間隔ではなく, 区切るべき箇所から全く外れた音の途中でタップされた例が見られたことから, テンポが速く追いつかなかったというよりもタップするべき位置を把握できずに混乱したと見られる. 一方 BP2 では余分音については, 自由テンポ時よりもむしろ減少する結果となった. これは, テンポが速くなると 1 音当たりの歌唱時間が短くなりピッチの変動が減るためと考えられる. また BP2 では, BPM=12 での歌唱でも自由テンポ時と同様タップの有無によらず同等の認識精度であり, タップの有無はあまり精度に影響しなかったと考えられる. 総じて, タップ位置のミスが音高変換精度を落とす

メロディリズムのタップ入力併用によるユーザとシステムの協調型 Voice-to-MIDI 手法の音高変換精度評価 のは TVM の性質上避けがたく, テンポ自由時よりは多少劣るものの, 再現率 適合率 いずれもほとんどの被験者について TVM の方が高い結果となり, 再現率 適合率ともに 1% の被験者が 2 名いた. また余分音の出力が十分に抑制されており, テンポが速くなっても正しく変換可能であることが分かった. 5.3 自由曲各被験者が選択した自由曲について テンポ BPM = 自由, 歌詞歌唱, タップあり で入力した結果を図 4-C に示す. 図 4-C に見られるとおり, 合計値では TVM が BP2 よりも再現率 適合率 のすべてにおいて上回り, 総合的にみると TVM は, タップしながら歌唱する という負荷の高さにも関わらず, より実践的なポップスなどのメロディの入力においても高い変換精度を得られていることが分かる. ただし, 問題点も明らかになった. 被験者 A,E, F については, 欠落音中の結合音の数が多く見られる結果となっている. 結合音は, 被験者が 1 音ごとに正しくタップしていないため複数音が 1 音に結合されて変換された箇所であることを示す.TVM では区間の最頻音高が採用されるため, 複数音が 1 音に結合された場合, 最長音長の音の音高が採用されてしまい, その結果として誤り音と判定され, 更に残りの音は欠落音と判定されてしまう. よって結合音の存在は誤り音と欠落音の両方に影響を与えてしまう結果となる. ただし, 今回の評価基準では, タップ開始時点の音の音高を正解として精度を評価しているが, 仮に複数音が結合されて 1 音にみなされてしまった場合に, そこに含まれる音のいずれかの音と音高が一致した場合も正解とみなせば, 精度は更に上がる. これは BP2 でも同様に起こるが, 音高変化で音が区切られるため, 結合音の発生は主に同一音高連続箇所となる. よって TVM のように 1 音目が一致しなくても他のいずれかの音が一致することによる精度向上の余地は少ないと言える. このように今回の評価基準は TVM にとって厳しいものであるにも関わらず,TVM では, 被験者 E,F の場合に再現率についてそれぞれ BP2 より 15% および 18% 高く, 被験者 A の場合に BP2 と同等の適合率であり, また被験者 F の場合に適合率が BP2 よりも 14% 高いという結果となっていることから, TVM は良好な性能を達成していると言える. その他,A,E,F 以外の被験者における誤りの発生原因は, タップ開始位置のズレにより音区切りがうまくいかなかったことにあると考えられる. テンポが速く追いつかなかったと想像される箇所と, タップす るべき位置を把握できずに混乱したと想像される箇所が, ともに存在した. しかしながら, 各被験者とも非常に高いと思われる負荷にも関わらず高い再現率を達成していることから, タップしながら歌唱する 行為は, 基本的に実施可能なものであったと言うことができるだろう. 5.4 全体考察以上より,TVM は,BP2 のような音高変化によって音を区切る VtoM システムの問題点である 1 音が複数音に認識され余分な音が出力されやすいという点に対処できることが示された. また,TVM システムは, 歌唱時の負荷の増加はあるものの, 既存の歌詞歌唱などの任意の発音の歌唱を許容するシステムに比べて, より高い音高変換精度を達成した. よって先の タタタ歌唱 システムとの比較結果 5) と合わせて,TVM は十分な有用性があると考えられる. 6. 結論 本稿では, 我々が提案しているメロディリズムタップによって音の区切りを入力する人間と計算機との協調的 VtoM である, タップ併用 Voice-to-MIDI システムと歌詞歌唱などの任意の発音の歌唱を許容する既存 VtoM システムとの音高変換精度の比較を行った. その結果,TVM の有用性を実証するとともに,VtoM における音の区切りの重要性を示した. 今後, 誤った音区切りを減らすことと, タップへの依存度を減らすために必要なタップか否かを判定する機構を開発し組み込む予定である. また歌詞先作曲における実践的な使用評価を行っていく予定である. 参考文献 1) YAMAHA 株式会社 : XGworks ST; http://www.yamahasynth.com/jp/products/music_pro duction_software/ma_65w/ 2) 株式会社 INTERNET: SingerSongWriter Lite5; http://www.ssw.co.jp/products/ssw/win/sswlt6w/ind ex.html 3) MakeMusic Inc.: Finale21, http://www.e-frontier.co.jp/ 4) 伊藤直樹, 西本一志 : MIDI シーケンスデータの 2step 打ち込み法への鼻歌による音高入力の適用, 情報処理学会研報 26-EC-5, Vol.26, pp.43-48, (26). 5) Naoki Itou, Kazushi Nishimoto: A voice-to-midi system for singing melodies with lyrics, Proc. of the int. conf. on ACE'7, pp.183-189, Salzburg, Austria, (27). 6) 番弘光, 伊藤克亘, 武田一哉, 板倉文忠 : タッピングを利用した音声認識の検討 ; 情報処理学

情報処理学会インタラクション 21 会研報,SLP-47, pp71-76, (23). 7) 岩田憲治, 渡邉康司, 中川竜太, 篠田浩一, 古井貞煕 : 音声とペンの準同期入力に対するマルチモーダル認識 ; 日本音響学会 26 年秋季講演論文集 1-2-23, (26). 8) 尾関弘尚, 鎌田貴幸, 後藤真孝, 速水悟 : 歌声の歌詞認識における音高の影響について ; 日本音響学会秋季講論集, pp637-638, (23). 9) 清水純, 丸山剛志, 三浦雅展柳田益造 : ハミングによる単旋律の自動採譜 ; 日本音響学会音楽音響研究会研資, Vol.23, No.5, pp.95-1, (24). 1) 野ばら社 : http://www.nobarasha.co.jp/ 11) 原裕一郎, 井口征士 : 複素スペクトルを用いた周波数同定 : 計測自動制御学会, pp718-723, (1983). 12) 株式会社河合楽器製作所 : Band Producer 2, http://www.kawai.co.jp/ 表 4 赤とんぼおよび自由曲の変換結果 注 1. "*" 付きの被験者は 音楽経験なし と回答した被験者. 注 2. 全歌唱音数は本来 93 音だが, 歌唱されなかったり, 音高の特定が困難等で集計から除外した箇所がある. 注 3. 全歌唱音数 ( 音 ) = 正解音数 + 誤り音数 + 欠落音数 注 4. 再現率 (%) = 正解音数 / 全歌唱音数 * 1 適合率 (%) = 正解音数 / ( 正解音数 + 誤り音数 + 余分音数 ) * 1 = (2* 再現率 * 適合率 ) / ( 再現率 + 適合率 ) 注 5. 太字 :3 歌唱条件中最も高い値, 下線 :BP2 のタップあり / なしの 2 条件を比較し, より高い値を示す. A) 赤とんぼ [ 歌唱条件 : テンポ自由, 歌詞歌唱, タップあり ] 全歌 TVM BP2 BP2( タップなし歌詞歌唱 ) 被験者唱音正解誤り欠落余分再現適合正解誤り欠落余分再現適合全歌唱正解誤り欠落余分再現適合 数 ( 音 ) ( 音 ) ( 音 ) ( 音 ) ( 音 ) 率 (%) 率 (%) ( 音 ) ( 音 ) ( 音 ) ( 音 ) 率 (%) 率 (%) 音数 ( 音 ) ( 音 ) ( 音 ) ( 音 ) ( 音 ) 率 (%) 率 (%) A* 93 93 1 1 1 87 6 14 93.5 86.1 89.7 93 85 8 1 91.4 89.5 9.4 B* 93 93 1 1 1 8 1 12 6 86. 92. 88.9 93 58 5 3 3 62.4 87.9 73. C* 92 88 4 95.7 95.7 95.7 73 1 18 4 79.3 93.6 85.9 87 81 6 9 93.1 9. 91.5 D* 93 92 1 98.9 98.9 98.9 9 3 13 96.8 87.4 91.8 93 91 2 11 97.8 89.2 93.3 E 93 91 2 2 97.8 95.8 96.8 88 5 9 94.6 9.7 92.6 93 8 4 9 9 86. 86. 86. F 93 93 1 1 1 9 1 2 28 96.8 75.6 84.9 92 9 2 31 97.8 74.4 84.5 G 93 92 1 98.9 98.9 98.9 9 1 2 14 96.8 85.7 9.9 93 9 3 12 96.8 88.2 92.3 H 93 93 1 1 1 87 6 2 93.5 97.8 95.6 93 9 3 4 96.8 95.7 96.3 I 93 93 1 1 1 9 3 5 96.8 94.7 95.7 93 93 21 1 81.6 89.9 合計 836 828 8 2 99. 98.8 98.9 775 4 57 95 92.7 88.7 9.6 83 758 9 63 11 91.3 86.4 88.8 B) 赤とんぼ [ 歌唱条件 : テンポ BPM = 12, 歌詞歌唱, タップあり ] 全歌 TVM BP2 BP2( タップなし歌詞歌唱 ) 被験者唱音正解誤り欠落余分再現適合正解誤り欠落余分再現適合全歌唱正解誤り欠落余分再現適合 数 ( 音 ) ( 音 ) ( 音 ) ( 音 ) ( 音 ) 率 (%) 率 (%) ( 音 ) ( 音 ) ( 音 ) ( 音 ) 率 (%) 率 (%) 音数 ( 音 ) ( 音 ) ( 音 ) ( 音 ) ( 音 ) 率 (%) 率 (%) A* 93 93 2 1 97.9 98.9 76 17 13 81.7 85.4 89.7 93 77 16 11 82.8 87.5 85.1 B* 93 93 3 1 96.9 98.4 76 17 5 81.7 93.8 87.4 93 76 1 16 3 81.7 95. 87.9 C* 93 85 7 1 1 91.4 91.4 91.4 54 2 37 58.1 96.4 72.5 93 62 1 3 4 66.7 92.5 77.5 D* 93 93 1 1 1 88 2 3 7 94.6 9.7 92.6 93 79 14 4 84.9 95.2 89.8 E 93 73 5 15 11 78.5 82. 8.2 62 1 3 6 66.7 89.9 76.5 92 69 1 22 8 75. 88.5 81.2 F 93 9 3 96.8 96.8 96.8 67 26 3 72. 95.7 82.2 93 63 3 2 67.7 96.9 79.7 G 93 9 1 2 2 96.8 96.8 96.8 8 2 11 11 86. 86. 86. 93 8 13 14 86. 85.1 85.6 H 93 93 1 1 1 71 22 1 76.3 98.6 86.1 92 72 2 4 78.3 94.7 85.7 I 93 92 1 98.9 98.9 98.9 83 1 3 89.2 96.5 92.7 93 82 11 4 88.2 95.3 91.6 合計 837 82 17 18 19 95.8 95.7 95.8 657 7 173 49 78.5 92.1 84.8 835 66 3 172 54 79. 92.1 85.1 C) 自由曲 [ 歌唱条件 : テンポ BPM = 自由, 歌詞歌唱, タップあり ] 全歌唱 TVM BP2 被験者音数正解誤り欠落 ( 音 ) 余分再現率適合率正解誤り欠落 ( 音 ) 余分再現率適合率 ( 音 ) ( 音 ) ( 音 ) 結合 ( 音 ) ( 音 ) (%) (%) ( 音 ) ( 音 ) 結合 ( 音 ) ( 音 ) (%) (%) A* 12 87 13 2 23 72.5 87. 79.1 93 4 16 7 9 77.5 87.7 82.3 B* 63 58 5 18 92.1 92.1 92.1 44 1 7 2 69.8 93.6 8. C* 61 51 1 4 83.6 83.6 83.6 17 4 14 27.9 81. 41.5 D* 122 121 1 23 99.2 99.2 99.2 99 16 2 81.1 83.2 82.2 E 98 8 1 8 33 1 81.6 8. 8.8 65 7 1 4 66.3 94.2 77.8 F 172 155 8 9 37 2 9.1 93.9 92. 124 1 9 21 31 72.1 79.5 75.6 G 9 9 23 1 1 1 66 1 14 12 73.3 83.5 78 H 198 193 3 2 57 97.5 98.5 98. 141 1 2 43 71.2 99.3 82.9 I 29 197 12 1 94.3 93.8 94. 166 2 41 17 7 79.4 94.9 86.5 合計 1133 132 62 39/34 13 91.1 93.2 92.1 815 14 295/149 85 71.9 89.2 79.6