PowerPoint プレゼンテーション

Similar documents
SAP11_03

Missing Data NMF

人工知能B

音情報処理I

音声情報処理

DVIOUT


Microsoft PowerPoint - spe1_handout10.ppt

Microsoft PowerPoint - 課題1解答.pptx

Microsoft PowerPoint - DigitalMedia2_3b.pptx

応用音響学

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

<4D F736F F F696E74202D C092425F D8A7789EF89C88A778BB38EBA816A8C6791D CC82B582AD82DD2E >

第 4 週コンボリューションその 2, 正弦波による分解 教科書 p. 16~ 目標コンボリューションの演習. 正弦波による信号の分解の考え方の理解. 正弦波の複素表現を学ぶ. 演習問題 問 1. 以下の図にならって,1 と 2 の δ 関数を図示せよ δ (t) 2

Microsoft PowerPoint - 第3回2.ppt

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

画像処理工学

PDF_ _„o“χƄo›c45−ª2“ƒ_Œ{ٶPDF.pdf

スペクトルに対応する英語はスペクトラム(spectrum)です

歌声情報処理: 歌声を対象とした音楽情報処理

RLC 共振回路 概要 RLC 回路は, ラジオや通信工学, 発信器などに広く使われる. この回路の目的は, 特定の周波数のときに大きな電流を得ることである. 使い方には, 周波数を設定し外へ発する, 外部からの周波数に合わせて同調する, がある. このように, 周波数を扱うことから, 交流を考える

Microsoft PowerPoint - 第06章振幅変調.pptx

応用音響学

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

スペクトルの用語 1 スペクトル図表は フーリエ変換の終着駅です スペクトル 正確には パワースペクトル ですね この図表は 非常に重要な情報を提供してくれます この内容をきちんと解明しなければいけません まず 用語を検討してみましょう 用語では パワー と スペクトル に分けましょう 次に その意

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft Word - 簡単な計算と作図.doc

Microsoft PowerPoint - dm1_5.pptx

(3) E-I 特性の傾きが出力コンダクタンス である 添え字 は utput( 出力 ) を意味する (4) E-BE 特性の傾きが電圧帰還率 r である 添え字 r は rrs( 逆 ) を表す 定数の値は, トランジスタの種類によって異なるばかりでなく, 同一のトランジスタでも,I, E, 周

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

画像類似度測定の初歩的な手法の検証

DVIOUT

計測コラム emm182号用

Implementation of Computationally Efficient Real-Time Voice Conversion

WAVE 形式のファイルにも出力できる 3 つの波形を同時に発生可能 正弦波, 三角波, 白色雑音などを選択 16bit なので値の範囲は ~ ここに表示されるのはデジタル信号サウンドカードから出力されるのはアナログ信号 Fig.1 WaveGene の操作パネル wav フ

相関係数と偏差ベクトル

トピックモデルを用いた歌声特徴量の分析

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

Microsoft Word - 卒業論文.doc

<4D F736F F D20837E836A837D E82CC88D98FED E12E646F63>

TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W l

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

(Microsoft Word - PLL\203f\203\202\216\221\227\277-2-\203T\203\223\203v\203\213.doc)

LEDの光度調整について

Signal Processing Toolbox

横浜市環境科学研究所

Microsoft PowerPoint - ip02_01.ppt [互換モード]

<4D F736F F D FCD B90DB93AE96402E646F63>

音声分野におけるMATLABの利用と先端研究

通信工学概論 音声通信

PowerPoint プレゼンテーション

PowerPoint Presentation

Microsoft PowerPoint - SP _slides

Microsoft PowerPoint - aep_1.ppt [互換モード]

Microsoft PowerPoint - CSA_B3_EX2.pptx

<4D F736F F D2089FC92E82D D4B CF591AA92E882C CA82C982C282A282C42E727466>

目次 1. ダイナミックレンジとは 不思議な体験 三つの信号の関係 測定 ダイナミックレンジまとめ

スライド タイトルなし

インターリーブADCでのタイミングスキュー影響のデジタル補正技術

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

EBNと疫学

IBIStutorial2014

<4D F736F F F696E74202D2091E FCD91BD8F6489BB82C691BD8F E835A83582E >

ギター初心者のための 演奏練習支援システム 日本大学文理学部 情報科学科 B4 宇田川 真唯 1

情報処理学会研究報告 IPSJ SIG Technical Report 調音運動 HMM 音声合成における調音特徴 - 声道パラメータ変換と音源の改良 小野田高幸 桂田浩一 新田恒雄 音声認識と合成を同じ調音運動モデルを用いて実現するシステムの開発を行っている. 調音特徴を用いて HMM を設計す

Microsoft Word - 博士論文概要.docx

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

Microsoft PowerPoint ppt

トルクリップル計測システム 特長 高速リップル計測 : モーターの常用回転数での計測が可能 自動計測 : ブレーキ負荷の PID トルク制御や回転制御で自動計測 使いやすいソフトウェア : タブ切り替えだけの簡単操作 豊富なグラフ表示 : 強度分布 ウォーターフォール表示 次数解析機能 : 特定の次

自己紹介 名前 : 竹田卓也 年齢 : 20 歳 ( 大学生 ) 経歴 : 人工知能歴 1ヶ月プログラミング歴 5 年くらい 言語 : PythonとかJavaとかGoとか 趣味 : オンライン オフラインゲーム 2

v.connect 開発当初 素片接続型合成器 入力 VSQファイル コーパス UTAU音源 分析合成 STRAIGHT Vocaloid2用 シーケンス UTAU用 ライブラリ v.connect STRAIGHT STRAIGHT版は 開発終了 合成音

微分方程式による現象記述と解きかた

s とは何か 2011 年 2 月 5 日目次へ戻る 1 正弦波の微分 y=v m sin ωt を時間 t で微分します V m は正弦波の最大値です 合成関数の微分法を用い y=v m sin u u=ωt と置きますと dy dt dy du du dt d du V m sin u d dt

<4D F736F F D208E518D6C B791BD8F6482CC8FDA8DD72E646F63>

線形システム応答 Linear System response

Microsoft PowerPoint - 物情数学C(2012)(フーリエ前半)_up

ディジタル信号処理

Transcription:

音響学入門ペディア Q. 様々な音響特徴量それぞれの使い方や意味を教えて下さい 千葉祐弥東北大学大学院工学研究科博士後期課程 2 年

マスター特徴量って何に使うものタイトルの書式設定? 統計的分析 人間が音を聞く仕組みを解明する ( 方向 高さ 大きさ 音色 の知覚 ) データの符号化 圧縮への応用など 機械学習 パターン認識 音声認識 音声インターフェースの作成 楽曲のジャンル推定 楽曲検索 推薦等への応用など 生のデータそのものを利用するのは無理がある 収録条件 個人差 データ差などの違いが大きくて本質的な部分がわかりにくい データ量や計算量が多くて取り扱いにくい より無駄が少なく データの本質をあらわした表現が欲しい! データからなるべく良い特徴量を抽出する必要がある 2

マスター特徴量の選び方タイトルの書式設定 よい特徴量とは? 問題によって異なる どのような特徴量を使うかは分析から得られた示唆やひらめきなどで決まる 例 ) 音素の判別に有効なのは スペクトルの概形に違いない! 積み上げられた知見 突然の思いつき 実際の作業 /a/ データ ( 音声波形 ) 特徴抽出 LPC 係数や MFCC ( スペクトル概形の表現 ) 分析 or 実験 統計的分析や認識実験により理論や効果を実証 自分が対象の説明に有効であると思えば何でも特徴量になり得るので 無限に種類が考えられる! よし悪しは別ですが 3

マスタータイトルの書式設定 とは言っても やはり実績のある音響特徴量はある このスライドでは特に 音声認識関連の話を軸に代表的なものを紹介します 以降のスライドの構成 音に関する人間の知覚について 音の基本属性にのっとった代表的な特徴量の紹介 音声 音楽の認識分野での典型的な事例の紹介 まとめ 音の基本属性については 音響特徴量ってなんですか? (http://abcpedia.acoustics.jp/bs13_a_q4.pdf) 4

特徴量の紹介 その前に マスタータイトルの書式設定知っててお得な人間の聴覚特性 何かの仕組みを考えるとき 生物を参考にするのは良い方法 特に音声認識に関連する分野では 人間がどのように音を聞いているのかを特徴量に反映させることが多い このような知見も 統計的な分析によって得られる アノマロカリスに耳はない 5

感覚の程度 L マスター音の大きさの知覚タイトルの書式設定 音の大きさの心理尺度ラウドネス 音の刺激の強さと大きさの感覚の程度の関係はおおむね下図の青線の様になる ( だいたい音のレベルが 10dB 上がると二倍の大きさに聞こえる ) 刺激の強さが 2 倍になっても感覚の程度は 2 倍にならない 音の刺激の強さ I また 周波数ごとに音の大きさの感じ方も異なる ( 参考 : 等ラウドネス曲線 ) 6

マスター音の高さの知覚タイトルの書式設定 高さの心理尺度 mel 例えば1000 melの2 倍の高さに感じる音を2000 melとする尺度基本周波数と知覚される高さ (mel) との関係 1) 1000Hz(=1000mel) の 2 倍の高さに聞こえる音は 2000Hz の音ではなく 3500Hz くらいの音 1000Hz(=1000mel) の音は 500Hz の音のだいたい 2 倍の高さに聞こえる 1) 鹿野ら, 音声認識システム, オーム社より 音の高さも 単に刺激が k 倍になれば k 倍に知覚されるわけではない 7

マスター 1. 音の大きさに関する特徴量タイトルの書式設定 音の大きさはパワーで表現 パワー = 波形振幅の二乗の時間平均値 波形全体 もしくは一部分で計算される 下の図では 25 ミリ秒区間のパワーを 10 ミリ秒毎に計算し 時間方向に並べている 人間の感覚を考慮して対数尺度に変換したものを特徴量とする場合が多い パワー抽出の例 あのーたんごないのおんそかん 大 小 大 小 8

マスター 2. 音の高さに関する特徴量タイトルの書式設定 音の高さの基本は基本周波数 (F0) ベーシックなF0 抽出方法としては自己相関法 ケプストラム法などがある こちらもF0を対数尺度に変換したものを特徴量とする場合が多い 音声の F0 抽出の例 あのーたんごないのおんそくかんのそうかんをもでるかしたものです 高 低 高 低 基本周波数については 音響特徴量ってなんですか? ( http://abcpedia.acoustics.jp/bs13_a_q4.pdf ) ケプストラムについては ケプストラムって要するに何ですか? ( http://abcpedia.acoustics.jp/bs13_q4.pdf ) 9

マスター 3. 音色に関する特徴量タイトルの書式設定 音色は基本的には含まれる音に含まれる周波数成分によって決まる ( 周波数スペクトル ) /a/ の音声波形 STFT ある時刻のパワースペクトル スペクトログラム ( 短時間パワースペクトルを時間方向に並べたもの ) FFT の結果そのまま扱うのは冗長 窓関数の影響や 雑音の影響に敏感すぎる 本質ではない部分はできれば無視したい 重要な部分だけを用いたり なめらかにする 10

マスター 3. 音色に関する特徴量タイトルの書式設定 フォルマント周波数 音声の特徴量 声道の共振周波数のこと ( 右図赤い矢印の辺り ) 発声器官は管に近似できる 音素 /a/ のスペクトル 近似 鼻腔 喉頭 唇 声帯 声道 人間はこの辺りの形を制御して発音を切り替えている ( 共振周波数が変わる ) 音素によって特徴的な共振周波数があるため 簡単な音素認識が可能 有声音 ( 特に母音 ) には顕著に現れるが 一部の子音の分別はできないので 現実の音声認識にはあまり使われない 11

マスター 3. 音色に関する特徴量タイトルの書式設定 重要なのはスペクトルの全体的な形 ( 概形 ) スペクトルの概形を表現するものとして 現在の音声認識は MFCC がよく使われる MFCC(Mel-Frequency Cepstrum Coefficient, メル周波数ケプストラム係数 ) 人の聴覚特性を考慮しながらスペクトルの概形を表現する特徴量 以下で抽出方法 ( 意味 ) を説明 STEP 1: メルフィルタバンクをスペクトルに掛ける メルフィルタバンク メル周波数ケプストラム係数 7 ページで紹介した mel 周波数に変換すると等間隔に並ぶフィルタバンク 人間の耳の特性を表現 ( 低いところはよくわかる 高いところは大雑把 ) 掛け算 結果 音素 /a/ のスペクトル 細かい 粗い 注 ) ここでは高い方の周波数成分を強調する処理を施している また この図は対数スペクトルだが 本当は真値に掛けて対数にする 得られたスペクトルの概形 12

マスター 3. 音色に関する特徴量タイトルの書式設定 STEP 2: スペクトル概形を離散コサイン変換 (DCT) する メル周波数ケプストラム係数 ケフレンシー空間 DCT 離散コサイン変換する理由 係数間の相関が減る ( 特徴量としての性能が向上 ) 概形成分は係数の下の方に集まるので 高い係数を減らせる可能性がある STEP 3: 下から 12 個くらいの係数を取り出す メル周波数ケプストラム係数 0 番目の係数は直流成分で 波形を表していないので除く場合が多い (0 番目の係数はこのグラフにはそもそも書いていない ) このへんの値を音声認識などに使う 13

マスター 3. 音色に関する特徴量タイトルの書式設定 おまけ : 下から 12 個の MFCC を逆離散コサイン変換してスペクトル概形に戻すと 13 個目以降を 0 にした IDCT /a/ のスペクトル 24 個の MFCC が表すスペクトル 12 個の MFCC が表すスペクトル 係数が減っても スペクトルの大まかな形は抽出できているように見える 14

マスター 3. 音色に関する特徴量タイトルの書式設定 LPC(Linear Predictive Coding, 線形予測符号 ) スペクトル包絡を全極フィルタで近似したもの 現在の時刻の音声サンプルを過去のサンプルの重み付き足しあわせ ( 線形結合 ) から予測 ( 重みがフィルタの係数 ) 下図の緑線が予測されたフィルタで スペクトル包絡が表現されている 全極形のパワースペクトルにケプストラムの概念を導入した LPC ケプストラムというものもある 鼻腔 喉頭 唇 声帯 声道 声道の共振特性は全極形フィルタで表現すると都合が良い 15

マスター 4. 音楽信号の解析タイトルの書式設定 楽器レベル ピアノ ヴァイオリン 楽器ごとに音響的な性質 ( 調波構造など ) は異なる 楽曲レベル RWC 研究用音楽データベース No.1 永遠のレプリカ の一節 ( スペクトログラム ) 楽曲はもっと複雑 テンポやコード進行なども特徴量になる 16

マスター事例の紹介タイトルの書式設定 最後に 音声 音楽認識関連の典型的な事例について抜粋し 問題解決に有効とされている音の性質をまとめました 音声 音楽 事例 特徴量に組み込む音の性質 今回挙げたもので使えそうなもの 音声認識音色 大きさ MFCC, パワー 話者識別音色 MFCC 感情認識 ( 喜び 怒り 悲しみ ) 音楽情報検索 ( ジャンル アーティスト 楽器 ) 高さ 大きさの変化 音色 音色の時間変化 高さ テンポ コード進行 基本周波数, パワー MFCC, 基本周波数 楽曲間類似度の推定音色 リズム 高さ MFCC, 基本周波数 ハミング検索高さ基本周波数 あくまで例なので この問題に対してこのような特徴量を取れば間違いない ということを示したものでありません それぞれの問題に関してもっと効果のある特徴量が考案されている場合もあります 表にはテンポやコード進行など 必ずしも同一のレイヤーで議論するべきではない特徴量も含まれています 17

マスターまとめタイトルの書式設定 Q. 様々な音響特徴量それぞれの使い方や意味を教えて下さい 特に音声認識周辺で使われている特徴量の 代表的なものと その使われ方を紹介 どのような特徴量が良いかは問題設定によって決まるため 使い方やその種類は無限にあることも事実 データから対象とする問題を上手く説明できそうな特徴量を考えることが重要 例 ) 人間はどのようにして音が鳴った方向を知覚するのかを考えたいなら 人間のように音声をステレオで録音 2 つの波形の時間のズレを特徴量として分析する など 18