Microsoft PowerPoint - HARKTutorial2_2010_2-WOL.pptx

Similar documents
PCA-ACUP の操作手順例 はじめに 本手順は PCA-ACUP を使用して再生機器からパソコンにサウンドを取り込み MP3 ファイル形式で分割保存するまでの操作手順の例を記載しております DigiOnSound5 L.E. のその他機能に関しましては まず DigiOnSound5 L.E.

1. インストール方法 STEP 1 ダウンロードしたファイルを任意の場所に解凍し Setup.exe をダブルクリックしてください 下記画面が表示されたときは [ 詳細情報 ] をクリックし 表示された画面で [ 実行 ] をクリックしてください STEP 2 Microsoft.Net Fram

【赤外線リモコン 02】 Google Home との連携方法

4 本体の入力を USB-B 端子に対応する入力に切り換える 下記の画面表示になります 手順 8 の画面になるまでしばらくお待ちください 5 解凍したフォルダー内にある "Setup.exe" をダブルクリックして実行する InstallShield ウィザードが表示されます xxxxxxxxxx.

DA-300USB JP_GS_Final_1128.indd

Microsoft Word - シャットダウンスクリプトWin7.doc

テキストファイルの入出力1

A. ステレオミックス機能の搭載確認方法 ご利用のパソコンのサウンドデバイスにステレオミックス機能が存在するかどうかをご確認ください ステレオミックス機能は サウンドデバイスによって様々な呼び方がされています 代表的な名称を次に記します ステレオミックス 再生リダイレクト ステレオミキサー WAVE

2.WMP で音楽の取り込みと書き込みの設定 (1) 取り込みの設定 1 メニューバー ツール オプションを開く 2 オプション画面が開いたら 音楽の取り込みタブをクリックする 3 取り込みの形式を MP3 を設定する 4 取り込み後に CDを取り出すにチェックを入れる 5 OK ボタンをクリックす

4 本体の入力を USB-B 端子に対応する入力に切り換える 下記の画面表示になります 手順 8 の画面になるまでしばらくお待ちください 5 解凍したフォルダー内にある "Setup.exe" をダブルクリックして実行する InstallShield ウィザードが表示されます xxxxxxxxxx.

3 アドレスバーに URL を入力し ( 移動ボタン ) をタップします 入力した URL のホームページに移動します ネットワークへのログオン 画面が表示された場合は ユーザー名 を確 認し パスワード を入力して OK をタップしてください ホームページがうまく表示されないときは Opera B

Microsoft PowerPoint - Borland C++ Compilerの使用方法(v1.1).ppt [互換モード]

【赤外線リモコン 01】 Google Home との連携方法

REX-USB56 「FAX送信」編 第6.0版

【赤外線リモコン 01】 Google Home との連携方法

フローチャート自動生成ツール yflowgen の使い方 目次 1 はじめに 本ツールの機能 yflowgen.exe の使い方 yflowgen.exe の実行方法 制限事項 生成したファイル (gml ファイル形式 ) の開

Microsoft Word - ModelAnalys操作マニュアル_

REX-C56EX FAX送信 第5.0版

AI1608AYUSB手順V3

V-CUBEミーティング ご利用マニュアル

この取扱説明書について USB DAC 端子に USB ケーブルでコンピューターを接続すると コンピューターからの音声信号を再生できます この機能を使って PCM を再生する場合 ドライバーソフトウェアをコンピューターにインストールする必要はありません ただし この機能を使って DSD 音源をネイテ

KEW Smart for KEW3441BT 取扱説明書

目 次 1. はじめに ソフトの起動と終了 環境設定 発助 SMS ファイルの操作 電話番号設定 運用条件 回線情報 SMS 送信の開始と停止 ファイル出力... 16

SLCONFIG の操作 JF1PYE Ⅰ. PC と slconfig の通信設定 Ⅱ. Slconfig の操作 Ⅲ. 端末ソフトによる Command 機能 Ⅳ. slconfig 実行形式プログラムの作成 Ⅴ. 端末ソフト Tera Term のダウンロード インストー

Zoiper 操作マニュアル Ver /8/10 作成 Ver /7/10 作成 Ver /4/30 作成 Ver /3/30 作成 *Zoiper は Zoiper so4ware 社の製品です

初めてのプログラミング

再起動した状態になり パスワードを入力すると 図 2 のように DEXCS2011 のアイコ ンがデスクトップ上に表示される 2 端末を準備する メニューバーにある端末の形を左クリック 図 2 デスクトップ メニューバーに端末の形がない場合 図 3 メニューバー アプリケーション アクセサリー 端末

Microsoft Word - XOOPS インストールマニュアルv12.doc

目次 目次 準備いただくもの 準備 SQLServer2008 R2 ExpressEdition のインストール インストールの前に インストール 設定一覧 機

ServerView Resource Orchestrator V3.0 ネットワーク構成情報ファイルツール(Excel形式)の利用方法

RTC_STM32F4 の説明 2013/10/20 STM32F4 内蔵 RTC の日付 時刻の設定および読み込みを行うプログラムです UART2( 非同期シリアル通信ポート 2) を使用して RTC の設定および読み込みを行います 無料の開発ツール Atollic TrueSTUDIO for

プログラマブル LED 制御モジュール アプリ操作説明書 プログラマブル LED 制御モジュール設定アプリ操作説明書 適用モジュール 改訂番号 エレラボドットコム 1

WebSAM System Navigator JNS isadmin SNMP Trap 連携設定手順書 NEC 2012 年 12 月

:30 18:00 9:30 12:00 13:00 17:00


Microsoft PowerPoint - RL78G1E_スタータキットデモ手順_2012_1119修正版.pptx

Microsoft Word - プリンター登録_Windows XP Professional.doc

ServerView RAID Manager VMware vSphere ESXi 6 インストールガイド

4 自己登録 の画面が表示されたら 送信 をクリックします 5 アクションが完了しました : 成功 が表示されたら 画面を下にスクロールし 画面右下隅の OK をクリックします 6Windows 用または Mac 用のキャンパスクラウドエージェントをクリックしてダウ ンロードしてください 8 ダウン

1. MPP.DSP の概要 MPP.DSP は Windows PC とインテル x86 プロセッサーの性能をフルに活用し オーディオに必要な様々な信号処理を提供するソフトウェアーです MPP.DSP は S&K Audio が設計し Venetor Sound が製品化したオーディオ I/F 装

Marionette操作説明

C#の基本

10 完了 をクリック 13 このサーバーは認証が必要 をチェックして 設定 をクリック Windows メール Windows Vista に標準のメールソフト Windows メール の設定方法を説明します 1 スタート から 電子メール Windows メール をクリック 11 続いて設定ファ

Microsoft Word - VB.doc

本書は INpMac v2.20(intime 5.2 INplc 3 Windows7/8/8.1に対応 ) の内容を元に記載しています Microsoft Windows Visual Studio は 米国 Microsoft Corporation の米国及びその他の国における登録商標です

intra-mart Accel Platform — IM-共通マスタ スマートフォン拡張プログラミングガイド   初版  

デジタル回路入門

Windows用タブレットドライバー簡易ガイド

(Microsoft Word - Word\216\300\217K\212\356\221b1.doc)

(Microsoft Word - TBC\221\200\215\354\203K\203C\203hRev,A.doc)

インテル(R) Visual Fortran コンパイラ 10.0

Cisco Jabber for Windows のカスタマイズ

Sharing the Development Database

PowerPoint プレゼンテーション

PRONETA

目次 第一章インストールと製品登録 1.1 インストール & ライセンス認証 3 第二章 Leawo Music Recorder の基本操作 2.1 各部の名称と機能紹介 Leawo Music Recorder 設定 9 第三章製品活用 3.1 パソコンで音楽を無料ダウンロード 12

ESOTERIC ASIO USB DRIVER インストールマニュアル Windows 用 システム推奨条件 2 インストールで使用する言語を選択して 次へ ボタンをクリックする Intel Core 2 Duo 以上のプロセッサー搭載コンピュータ 搭載メモリ 1GB 以上 対応 OS Windo

VoiShredder操作ガイド

2011/11/22 Let s KARAOKE 音楽を録音 ~ 編集 ~ 歌声を CD に! 2011 年 11 月 20 日 AN_takatsuki 歌声を CD にする 皆さんパソコンを使って音楽を楽しんでいらっしゃると思います 楽曲の再生やパソコンへの取り込み 気に入った曲を集めたCD 作

PowerPoint プレゼンテーション

VECLOS Audio Driver インストールマニュアル Windows 用 2 次へ ボタンをクリックする 対応 OS Windows 7 (32bit 版 64bit 版 ) Windows 8( 32bit 版 64bit 版 ) Windows 8.1( 32bit 版 64bit 版

Field Logic, Inc. 標準モード 3D モデル作成 配置編 Field Logic, Inc. 第 1 版

InstallShield FAQ < 独自の InstallShield 前提条件を作成する > 注 ) このドキュメントは InstallShield 2014 Premier Edition を基に作成しています InstallShield 2014 以外のバージョンでは設定名などが異なる場合

CF-7200 ポータブルFFT アナライザ「打撃試験で周波数応答関数を測定する操作手順」

マクロの実行許可設定をする方法 Excel2010 で 2010 でマクロを有効にする方法について説明します 参考 URL:

PICKIT3オフライン書き込みガイドブック

CubePDF ユーザーズマニュアル

Peanut システムで FT8 を使用した画像交換体験記 Shu JA3GQJ FT8 は アマチュア無線の短波帯の弱い信号を処理し DX 通信に最適なモードです そのため 多くのアマチュア無線局で使用されています 私は無線の代わりにピーナッツ (peanut) と呼ばれるシステムを使用してインタ

セットアップチュートリアル SlingPlayer 伊藤忠商事株式会社 1

VB実用Ⅲ⑩ フリーデータベースⅡ

WebReportCafe

AquesTalk Mac マニュアル

目次 1. メールソフトの設定変更について... 1 (1) 設定内容 (Windows / Mac OS X / ipad / Android 等 )... 1 (2) 設定内容 ((1) の設定で送信できない場合のみ ) 設定変更操作手順... 3 (1) Windows / M

任意の間隔での FTP 画像送信イベントの設定方法 はじめに 本ドキュメントでは AXIS ネットワークカメラ / ビデオエンコーダにおいて任意の間隔で画像を FTP サー バーへ送信するイベントの設定手順を説明します 設定手順手順 1:AXIS ネットワークカメラ / ビデオエンコーダの設定ページ

目次 JAVIS Appli の基本機能... 3 JAVIS Appli について... 3 音声確認機能 JAVIS Appli( 有償版 ) の機能... 4 音声で読みの確認をする... 4 辞書機能... 5 単語を登録する... 5 単語を削除する... 6 音声コードの作成... 7

実験 5 CGI プログラミング 1 目的 動的にWebページを作成する手法の一つであるCGIについてプログラミングを通じて基本的な仕組みを学ぶ 2 実験 実験 1 Webサーバの設定確認と起動 (1)/etc/httpd/conf にある httpd.conf ファイルの cgi-bin に関する

PowerPoint プレゼンテーション

黒板作成 連携ツールの概要 黒板作成 連携ツールは 事前に撮影する工事写真用の黒板を作成するツールです 本書では EX-TREND 武蔵の写真管理 黒板作成 連携ツール ios アプリ 現場 DE カメラ土木版 の連携について 説明します 写真管理 EX-TREND 武蔵の写真管理で作成した 工種分

各種パスワードについて マイナンバー管理票では 3 種のパスワードを使用します (1) 読み取りパスワード Excel 機能の読み取りパスワードです 任意に設定可能です (2) 管理者パスワード マイナンバー管理表 の管理者のパスワードです 管理者パスワード はパスワードの流出を防ぐ目的で この操作

BizBrowser SmartDevice Android開発用スタートアップガイド

Transcription:

Practice 2 HARK による同時発話の分離と認識 HARK グループ大塚琢馬 Practice 2: 概要 HARK で複数話者同時認識を行う 目的 定位 分離 認識機能の実行方法を学ぶ Practice 2 でやること HARK の音源分離の概要を確認 TSP 信号から分離用伝達関数を作成 harktool3 を使用 定位 分離 認識用ネットワークファイルの確認 ネットワークファイルの実行

Practice 2: 同時発話認識の流れ 1 2 からあげ定食 混合音声の多チャンネル入力 ( ファイル or マイクアレー ) 音源定位音源方向, 4 マイク配置 とんこつラーメン 3 特徴抽出 音声認識 音源分離 Practice 2: システムブロック図 同時発話の混合音から音源定位 分離 認識 波形読込 FFT Geometric High-order Dicorrelation-based Source Separation 音源定位 音源分離 音声認識用 MUSIC 法 GHDSS 法 特徴抽出 MSLS 特徴量 定位用伝達関数 practice 1 で作成済 分離用伝達関数 practice 2 で作成 FlowDesigner 音声認識のリクエスト socket 通信 音声認識器 Julius

Practice 2: 予定 1. 分離用伝達関数の作成 harktool3 を使用 さきほど録音した TSP 信号を元に作成 2. 定位 分離 認識用ネットワークファイルを確認 3. 動作確認 事前に用意された以下のファイルを使用 a. 定位 分離用伝達関数ファイル b. シミュレーション合成された同時発話音声ファイル c. 音声認識設定ファイル Practice 2: 準備 端末にて次のコマンドを入力 cd ~/practice2 サウンド設定 ( 任意 ) VMware Player 右下 サウンドデバイスが無効 (NG) クリックして 接続 を選択 Ubuntu でも音量調整上部 サウンドデバイスが有効 (OK) 緑の丸がつく

Practice 2 harktool3 を用いた分離用伝達関数作成 Practice 2: 分離用伝達関数作成 基本的に定位用伝達関数の作り方と同じ 1. harktool3 起動 2. TSP ListFile, MICARY LocationFile を作成 Practice 1 で作成済み 3. 分離用伝達関数ファイル生成 4. Noise LocationFile を作成 ( 任意 ) 既知の雑音源の方向を記述

Practice 2: harktool3 を起動 端末で以下を入力 harktool3 ファイル 新規 (Ctrl+N) 1. TSP ListFile 2. MICARY LocationFile 3. Noise LocationFile ( 任意 ) Practice 2: TSP ListFile の作成 Practice 1 のときと同様 TSP ListFile テンプレートの作成方向角の例 0 355, 間隔 5 度 tsp ファイルが hogehoge/tsp_d000.wavh hogehoge/tsp_d005.wav hogehoge/tsp_d010.wav hogehoge/tsp_d350.wav hogehoge/tsp_d355.wav g のとき ファイル文字列 の例 /home/harkuser/hogehoge/tsp_d#degree#.wav 適当な名前で保存 適当な名前で保存例 : practice2 ディレクトリに sep tsp list

Practice 2: MICARY LocationFile の作成 MICARY LocationFile 測定伝達関数を使用する場合は適当でよい テンプレートは円周上のマイク配置を仮定 マイク数に応じたテンプレート作成その後, 実際の値を書き込む 例 (6 チャネルマイクロフォンアレーの場合 ) 1. 間隔を 60 度にしてテンプレート作成 2. 各マイク (Position 0 5) の座標を書きこむ 保存例 : practice2 ディレクトリに sep micary list Practice 3: 分離用伝達関数作成 1. harktool3 ファイル 新規 分離用伝達関数ファイル 2. 各種項目設定 音声信号データ : TSP MICARY LocationFile: MICARY LocationFile タブ生成ファイル例 /home/harkuser/practice2/sep micary list ImpulseResponse ListFile: l TSP ListFile タブ生成ファイル例 /home/harkuser/practice2/sep tsp list その他はデフォルト値

Practice 2: 伝達関数の確認 伝達関数ファイルの保存 : ファイル 保存 (Ctrl+S) 例 : practice2 ディレクトリ my sep tf.dat マイク位置, 伝達関数の可視化が可能 見たい項目の プロットする をダブルクリック Separation TF タブが出来ると成功 Practice 2: Noise LocationFile 概要 定常雑音源の位置を指定 特定方向の音を常にキャンセルするよう働くロボットのモーターノイズ, 正面が原点正方向テレビの音など音源 図のような場合 1. テンプレートの作成 2. 方向角 60 度に指定 45[deg] 60 [deg] 0[deg] 角度間隔 ロボット 負方向 -45[deg]

Practice 2: Noise LocationFile 使い方 GHDSS モジュールのプロパティで指定 1. FIXED_NOISE を true にする FIXED_NOISE_FILENAME が出てくる 2. FIXED_NOISE_FILENAME に harktool3 で作成したノイズ音源方向ファイル名 Practice 2 HARK での定位 分離 認識に必要なファイルの確認

Practice 2: 必要なファイル (1/4) 1. MultiSpeechRecog.n (XML 形式 ) FlowDesigner で作成したネットワークファイル ( 本体 ) スクリプト言語のように実行可能./MultiSpeechRecog.n 2. MultiSpeech.wav ( 多チャンネル wave ファイル ) 8 本のマイクで録音された 8ch の波形データ 通常の再生ソフトでは再生できない (WindowsMedia Player など ) 再生や波形閲覧にはwavesurferなどを使用 8ch マイクロフォンアレー Practice 2: 必要なファイル (2/4) 3. loc_ tf.dat, sep_ tf.dat ( バイナリ ) 音源定位 / 分離に用いる伝達関数部屋の残響 マイクの相対位置などの情報をもつ 実際の作成手順 1. TSP 信号を再生 + 録音 2. harktool3 を用いて変換 マイク位置情報からでも作成は可能 TSP 測定の方が精度は良い ( 事前情報が多い ) Mic. Array Sound source マイク分の伝達関数

Practice 2: 必要なファイル (3/4) 4. julius.conf 音声認識器 Julius の動作の設定を記述 julius_mft input mfcnet mfcnetはオリジナル Julius に無いモード ネットワーク越しにMSLSを送信 5. hmmdefs.gz 音声認識用 HMM のパラメータを記述 ただし HMM は MSLS で学習されている (MSLS: スペクトル特徴量 ) Practice 2: 必要なファイル (4/4) 7. logicaltri 可能な Triphone のリストを記述 8. order.(dfa dict) 発話内容の辞書など 9. transcription _ list*.txt MultiSpeech.wav の発話の書き起こしデータ ( 正解 ) 各ファイルの同じ行の語が同時発話されている 焼き魚定食 同時発話 サイコロステーキ サイコロステーキ 松坂牛ステーキ 松坂牛ステーキ 上にぎり list1.txt list2.txt

Practice 2: 必要なファイルまとめ ファイルの種類作り方用途 ネットワークファイル (MultiSpeechRecog.n) FlowDesigner を使用 HARK を利用した定位 分離 特徴量抽出 混合音ファイル or マイクロフォンアレーと 定位 分離 認識の 混合音ストリーム入力 A/D デバイス * を利用 対象となる音 定位 分離用伝達関数ファイル 録音したTSP 信号とマイク配置から harktool 音源定位 音源分離音源分離 (loc_tf.dat, sep_tf.dat) を用いて作成 julius 設定ファイル (julius.conf) 音響モデル (hmmdefs.gz) Triphone 記述ファイル (logicaltri) エディタなどで書く 外部ツール (HTK など ) * 外部ツール (HTK など ) * 単語辞書ファイル エディタ 外部ツール使用 * (order.dfa, order.dict) (Julius 添付ツール等 ) julius の入力方法や使用する音響モデルを指定 音声認識 音声認識 音声認識 * HARK Document 参照 Practice 2: ネットワークファイルの確認 flowdesigner MultiSpeechRecog.n XML をパースして GUI に表示 認識システムは 2つのネットワークで構成 MAIN (subnet): C 言語で言う main 関数のようなもの MAIN_LOOP (iterator): 繰り返し実行 CONDITION が終了条件クリックでクリックで MAIN_LOOP 表示 MAIN 表示

Practice 2: Main の構成 認識させる音声ファイル名の指定 MultiSpeech.wav これが定位, 分離, 認識を行う ファイルディスクリプタの生成 Practice 2. MAIN_LOOP の構成 1. 波形取得 短時間フーリエ変換 2. 音源定位 3. 音源分離 4. 音声特徴抽出 5. 音声認識 ( 特徴量をjuliusに送信 )

Practice 2 HARK を使って認識を行う Practice 2: 認識率の評価実験 (1/2) 実験内容 30 単語の同時発話を認識し 認識率を求める 1. 音声認識器の実行 julius_mft -C julius.conf 2>&1 tee result.txt & Julius の実行時の設定ファイル hmmdefs.gz, logicaltri はこのファイル中で指定されている 2. ネットワークファイルの実行 julius 実行結果を result.txt に書き出し./Recognition.sh i または./MultiSpeechRecog.n MultiSpeech.wav \ loc_tf.dat sep_tf.dat

Practice 2: FlowDesigner tips コマンドライン引数を指定する MAIN タブにて ノードを右クリック プロパティ Type: subnet_param Value: ARG n 1つ目の引数は ARG1 Practice 2: FlowDesigner Tips Iterator のプロパティに値を渡す MAIN_LOOP タブにて 外部からパラメータを設定したいノードのプロパティ Type: subnet_param Value: Iterator のプロパティに表示させたい項目名例 : Value に foo と入れると MAIN_LOOP のプロパティに foo 追加

Practice 2: 認識率の評価実験 (2/2) 音源方向 認識率の評価 認識結果 result.txt の解析スクリプトを実行 許容誤差./score.rb result.txt t t [ 正解ファイル ] [ 音源方向 ] [ 許容誤差 ] 認識率 単語正解 指定方向発話 音源方向 ±5 度の音声を正解データと比較./score.rb result.txt transcription_list1.txt 60 5./score.rb result.txt transcription_list2.txt 60 5 まとめ HARK による音源定位 分離 認識を体験 できるようになったこと 1. harktool3 を使った分離用伝達関数作成 2. Julius と HARK を用いた混合音声認識 3. FlowDesigner に引数を導入