IPSJ SIG Technical Report Vol.2009-SLP-77 No /7/ GOP Improvement of Structure-based Automatic Estimation of Pronunciation Proficiency

Similar documents
1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

log F0 意識 しゃべり 葉の log F0 Fig. 1 1 An example of classification of substyles of rap. ' & 2. 4) m.o.v.e 5) motsu motsu (1) (2) (3) (4) (1) (2) mot

DPA,, ShareLog 3) 4) 2.2 Strino Strino STRain-based user Interface with tacticle of elastic Natural ObjectsStrino 1 Strino ) PC Log-Log (2007 6)

IPSJ SIG Technical Report Vol.2012-MUS-96 No /8/10 MIDI Modeling Performance Indeterminacies for Polyphonic Midi Score Following and

( ) [1] [4] ( ) 2. [5] [6] Piano Tutor[7] [1], [2], [8], [9] Radiobaton[10] Two Finger Piano[11] Coloring-in Piano[12] ism[13] MIDI MIDI 1 Fig. 1 Syst

Vol.54 No (July 2013) [9] [10] [11] [12], [13] 1 Fig. 1 Flowchart of the proposed system. c 2013 Information

untitled

17 Proposal of an Algorithm of Image Extraction and Research on Improvement of a Man-machine Interface of Food Intake Measuring System

202


NINJAL Research Papers No.8


Fig. 3 Flow diagram of image processing. Black rectangle in the photo indicates the processing area (128 x 32 pixels).

258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS ) GPS Global Positioning System

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE.

05_藤田先生_責

IPSJ SIG Technical Report Vol.2016-CE-137 No /12/ e β /α α β β / α A judgment method of difficulty of task for a learner using simple

0801297,繊維学会ファイバ11月号/報文-01-青山

Vol. 48 No. 3 Mar PM PM PMBOK PM PM PM PM PM A Proposal and Its Demonstration of Developing System for Project Managers through University-Indus

Visual Evaluation of Polka-dot Patterns Yoojin LEE and Nobuko NARUSE * Granduate School of Bunka Women's University, and * Faculty of Fashion Science,

Fig. 2 Signal plane divided into cell of DWT Fig. 1 Schematic diagram for the monitoring system

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

On the Wireless Beam of Short Electric Waves. (VII) (A New Electric Wave Projector.) By S. UDA, Member (Tohoku Imperial University.) Abstract. A new e

Vol. 48 No. 4 Apr LAN TCP/IP LAN TCP/IP 1 PC TCP/IP 1 PC User-mode Linux 12 Development of a System to Visualize Computer Network Behavior for L

経済論集 44‐1(よこ)/2.李

[2] OCR [3], [4] [5] [6] [4], [7] [8], [9] 1 [10] Fig. 1 Current arrangement and size of ruby. 2 Fig. 2 Typography combined with printing

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

Powered by TCPDF ( Title 初級レベルの授業報告 : 基幹コース3 科目を担当して Sub Title Author 中村, 愛 (Nakamura, Ai) Publisher 慶應義塾大学日本語 日本文化教育センター Publication 20

Table 1. Assumed performance of a water electrol ysis plant. Fig. 1. Structure of a proposed power generation system utilizing waste heat from factori

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

駒田朋子.indd

..,,,, , ( ) 3.,., 3.,., 500, 233.,, 3,,.,, i

Table 1. Reluctance equalization design. Fig. 2. Voltage vector of LSynRM. Fig. 4. Analytical model. Table 2. Specifications of analytical models. Fig

EQUIVALENT TRANSFORMATION TECHNIQUE FOR ISLANDING DETECTION METHODS OF SYNCHRONOUS GENERATOR -REACTIVE POWER PERTURBATION METHODS USING AVR OR SVC- Ju

技術研究報告第26号

01_31窶愴胆1窶窶ー窶慊イfiツ。01-16

IPSJ SIG Technical Report Vol.2009-DPS-141 No.20 Vol.2009-GN-73 No.20 Vol.2009-EIP-46 No /11/27 1. MIERUKEN 1 2 MIERUKEN MIERUKEN MIERUKEN: Spe

,,.,.,,.,.,.,.,,.,..,,,, i

IPSJ SIG Technical Report Vol.2010-NL-199 No /11/ treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corp

橡LET.PDF

08-特集04.indd


kut-paper-template.dvi

倉田.indd

28 Horizontal angle correction using straight line detection in an equirectangular image

2 122

IPSJ SIG Technical Report Vol.2015-MUS-107 No /5/23 HARK-Binaural Raspberry Pi 2 1,a) ( ) HARK 2 HARK-Binaural A/D Raspberry Pi 2 1.

情意要因が英語の読解力と会話力に及ぼす影響-JGSS-2008 のデータから-

Kyushu Communication Studies 第2号



揃 Lag [hour] Lag [day] 35

1: A/B/C/D Fig. 1 Modeling Based on Difference in Agitation Method artisoc[7] A D 2017 Information Processing

A comparative study of the team strengths calculated by mathematical and statistical methods and points and winning rate of the Tokyo Big6 Baseball Le

Vol.55 No (Jan. 2014) saccess 6 saccess 7 saccess 2. [3] p.33 * B (A) (B) (C) (D) (E) (F) *1 [3], [4] Web PDF a m


2. ICA ICA () (Blind Source Separation BBS) 2) Fig. 1 Model of Optical Topography. ( ) ICA 2.2 ICA ICA 3) n 1 1 x 1 (t) 2 x 2 (t) n x(t) 1 x(t

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-GI-34 No /7/ % Selections of Discarding Mahjong Piece Using Neural Network Matsui


<30315F985F95B65F90B490852E696E6464>

Study on Application of the cos a Method to Neutron Stress Measurement Toshihiko SASAKI*3 and Yukio HIROSE Department of Materials Science and Enginee

A pp CALL College Life CD-ROM Development of CD-ROM English Teaching Materials, College Life Series, for Improving English Communica

Vol. 43 No. 7 July 2002 ATR-MATRIX,,, ATR ITL ATR-MATRIX ATR-MATRIX 90% ATR-MATRIX Development and Evaluation of ATR-MATRIX Speech Translation System

CA HP,,,,,,.,,,,,,.,,,,,,.,,,,,,.,,,,,,.,,,,,,.,,,,,,.,,,,,.,,,,,.,,,,,.,,,,,.,,,,,.,,,,,.,,,,,.,,,,,.,,,,,,.,,,,,.,,,,,,.,,,,,.,,,,,.,,,,,,.,,,,,,.,,

(a) 1 (b) 3. Gilbert Pernicka[2] Treibitz Schechner[3] Narasimhan [4] Kim [5] Nayar [6] [7][8][9] 2. X X X [10] [11] L L t L s L = L t + L s

/ p p

外国語学部 紀要30号(横書)/03_菊地俊一

06’ÓŠ¹/ŒØŒì


Transcription:

GOP Improvement of Structure-based Automatic Estimation of Pronunciation Proficiency Masayuki Suzuki, Dean Luo, Nobuaki Minematsu and Keikichi Hirose Adequacy in controlling the vocal organs is often estimated from spectral envelopes of input utterances but the envelope patterns are also affected by alternating speakers. To develop a good and stable method for automatic estimation of pronunciation proficiency, the envelope changes caused by linguistic factors and those by extra-linguistic factors should be properly separated. For this aim, a structural representation of pronunciation was proposed recently and its effectiveness was experimentally shown. After the proposal, we have tested that representation also for ASR and, through these works, we have learned better how to apply speech structures to various tasks. In this paper, based on our recently acquired knowledge on the structures, several methods are examined to improve the automatic estimation of pronunciation proficiency. Further, a relative structural distance measure is also proposed. Experimental results show that higher correlations are obtained between human rating and machine rating and that, in comparison to widely-used GOP scores, higher robustness is realized with respect to extra-linguistic factors.. CALL Nintendo DS iphone 2002 20 5 6 240 8 CALL ) MFCC 2) 3) The University of Tokyo c 2009 Information Processing Society of Japan

情報処理学会研究報告 c q5 (x) c p (x) p5 (x) q (x) p2 (x) cd c4 c3 c2 c2 cd c4 c3 図 f -divergence によって作られる一発声の構造的表象 Fig. An utterance structure composed only of f -divergences p4 (x) p3 (x) S S5 h q4 (x) q3 (x) q2 (x) 図 2 変換をかけても不変な距離関係 Fig. 2 Speaker-invariant system of language sounds T S2 T2 O T5 S3 S4 T4 T3 図 3 二つの構造の比較 Fig. 3 Structure comparison through shift & rotation 用いて表象することで得られる すなわち 音声中の音響イベントの絶対的音響量を捨象 図を 図 2 に示す 図 2 において 任意の写像 h に対して pi (x) と pj (x) 間の f -divergence し イベント群から成る距離行列を用いて 発声 イベント群 を構造として表象する こ は qi (x) と qj (x) 間のそれと等しくなる これは各分布の広がりの様子に応じて空間を局所的 れを用いて外国語発音を表象すると 個人差の大部分が消失し 音韻の幾何学構造のみが浮 に歪 め て 分布中心間距離を計測することで得られる性質である 本研究では f -divergence き彫りになる 既に 自動発音評定や発音誤り検出に関する検討を行なって来た3),4) 最近 の関数 として Bhattacharyya Distance BD の平方根を使用している 二つの正規 分布 Na (µa, Σa ) Nb (µb, Σb ) 間の BD は 下記となる ³ (Σa + Σb ) /2 Σa + Σb BD (Na, Nb ) = (µa µb )T (µa µb ) + log () 8 2 2 Σa 2 Σb 2 構造を用いて音声分析を行なうためには 二つの構造間を比較する尺度が必要になる ケ では音声認識への応用も検討され 構造を用いた分析手法は高度化されつつある5),6) 本研究では 音声の構造的表象を用いた自動発音評定を取り扱う 具体的には 峯松が 2004 年に行なった実験を再度試みる3) 先行研究との差分は 構造に基づく音声認識研究 の中で得られた種々の知見を取り入れ 更なる精度向上を図ったことである ) 音素より プストラム空間において マイク特性差異と声道長差異は およそケプストラム軌跡に対す 細かな音響イベント単位の利用 2) 特徴量選択による部分構造化を検討し さらに 3) 二 るシフト 回転という幾何学的変換に対応することになる9) このことを踏まえ 二つの構 つの構造間差異を相対的に計算する手法を新たに導入する 造を比較する概念図を 図 3 に示す 二つの構造間の距離は 最も値が小さくなるように 2. 音声の構造的表象を用いた分析 適切にシフト 回転を行なった後の 全ての頂点間の距離の和として定義する これは 以 3) 下の式で非常によく近似できることが実験的に示されている s X D (S, T ) = (Sij Tij )2 M 音声の構造的表象を一発声から抽出する方法を図 に示す まず一発声からケプストラ ム時系列を抽出し それを自動区分化し 各区分を分布としてモデル化することで 音響イ ベント分布群を得る そして それらの音響イベント間の f -divergence 分布間距離尺度 (2) i<j ここで S と T は 全イベント群から計算される f -divergence の距離行列であり M は の一種 を計算することで 一つの幾何学構造を定義する 図 は 一発声からの構造抽出 イベント数である 式 (2) を利用することで 構造の回転やシフト すなわち適応処理 を を図示しているが 複数発声からの構造抽出も可能である 例えば複数の発声から 特定話 明示的に行なわずに 適切な回転 シフト後のスコアが得られることになる 者音素 HMM を学習し 各音素 HMM の出力確率分布群を音響イベント群として構造を抽 以上の手法を用い 学習者構造と教師構造の比較を通して 学習者習熟度の自動評定が可 3) 出する方法がある 他には 英語の単母音を含む単語を発声させ 各母音部分を切り出し 能になる 既に 構造による自動評定値と English Read by Japanese database ERJ 0) て分布化したものを音響イベントとして 構造を抽出することも可能である7) に含まれる手動評定値間の 高い相関関係が確認されている3) さらに D (S, T ) を各音響 次に f -divergence の性質について述べる ある二つの分布に 任意の一対一対応変換を イベントペアに分解することで 矯正対象音素を特定する手法も提案されている4),7) 施しても その分布間の f -divergence は常に一定となる8) f -divergence が不変となる概念 2 c 2009 Information Processing Society of Japan

4 Fig. 4 The French vowel system proposed by R. Jakobson Utterances Feature vector sequences Distributions (states) Structure Sub-structure 3. A teacher /i/ /p/ /i/ /p/ /p/ /p/ /i/ /k/ /i/ /k/ Selection of state pairs /p/ /i/ /p/ /k/ /i/ /k/ A student Utterances Feature vector sequences Distributions (states) Structure Sub-structure 5 Fig. 5 Sub-structure extraction for a student and a teacher ) 4 4. 3 HMM HMM 3 5),6) HMM M M(M )/2 M 2 PCA LDA 5) (2) D 2 (S, T ) = { } 2 Sij T ij M (S. (3) 2 ij + T ij ) (3) i<j 5 HMM f-divergence 5 5 HMM D 2 CALL 2) 3 c 2009 Information Processing Society of Japan

HMMs Table Conditions for acoustic analysis 6bit / 6kHz 25 msec 0 msec 75 MFCC 2 HMM 3 left to right aa,ae,ah,ao,aw,ax,axr,ay,b,ch,d,dh,eh,er,ey,f,g,hh,ih, iy,j,jh,k,l,m,n,ng,ow,oy,p,r,s,sh,t,th,uh,uw,v,w,y,z,zh,sil 43 5 0 6 26 6 6 Goodness Of Pronunciation (GOP) GOP Witt 3) GOP 5. 5. ERJ 0) ERJ 8 TIMIT 75 ERJ 200 0 5 20 8 20 2 M08&F2 M08 5.2 GOP 200 43 HMM 43 C 2 = 903 HMM 43 3 C 2 = 8, 256 M08 HMM 200 200 8 208 8 6 D D 2 GOP (o,..., o T, p,..., p N ) = P (p,..., p N o,..., o T ) = N { } P (o p i p i ) log N D P N log pi q Q (op i q) N D pi i= i= { } P (o p i p i ) max q Q P (o p i q) T N o p i p i D pi. {o p,...,o p N } {o,...,o T } Q GOP HMM GOP 9 HMM 8 M08 8 HMM ERJ 20 HMM MFCC 25 5.3 6 D D 2 7 6 7 D 2 7 (4) 4 c 2009 Information Processing Society of Japan

Fig. 6 0.9 0.7 0.5 0.3 Previous method (D) Proposed method (D2) 0 00 200 300 400 500 600 700 800 900 Number of selected phoneme pairs 6 Correlations with phoneme-based structure analysis 0.9 0.7 0.5 0.3 Previous method (D) Proposed method (D2) 0 000 2000 3000 4000 5000 6000 7000 8000 Fig. 7 Number of selected state pairs 7 Correlations with state-based structure analysis 0.9 0.7 0.5 0.3 All the 20 teachers A single teacher 0 5 0 5 20 25 30 35 40 45 Number of selected phonemes 8 GOP Fig. 8 Correlations with GOP analysis D D 2 6 7 D 2 86 D 2 4 86 43 4 5 4 0.94 0.92 0.9 7 3 8 GOP ERJ HMM HMM M08 GOP GOP 20 HMM 27 7 5.4 9 86 D 2 GOP 0 A single teacher s structure 20 teachers HMMs (GOP) - - -0.3 - -0. 0 0. 0.3 B Warping parameter A A B 9 Fig. 9 Correlations with warped utterances! = 0.3! = -0.3 HMM 27 STRAIGHT α α=+0 0 α=+0.30 0.30 GOP 5 c 2009 Information Processing Society of Japan

GOP GOP GOP HMM CALL 4) HMM HMM 6. GOP 3 Repeat after me CALL CALL 20 5,6 7. ) 2) 3) GOP ) M. Russell et al., Challenges for computer recognition of children s speech, Proc. SLaTE, CD-ROM, 2007. 2) SP2009 (2009-6 ) 3) SP2003-80 pp.3-36 (2004-) 4) vol.j90-d no.5 pp.249 262 (2007-5) 5) Y. Qiao et al., Random discriminant structure analysis for continous Japanese vowel recognition, Proc. ASRU, pp.576 58, 2007. 6) S. Asakawa et al., Multi-stream parameterization for structural speech recognition, Proc. ICASSP, pp.4097 400, 2008. 7) N. Minematsu et al., Structural representation of the pronunciation and its use for classifying Japanese learners of English, Proc. SLaTE, CD-ROM, 2007. 8) Y. Qiao et al., f-divergence is a generalized invariant measure between distributions, Proc. INTERSPEECH, pp.349 452, 2008. 9) D. Saito et al., Directional dependency of cepstrum on vocal tract length, Proc. ICASSP, pp.4485 4488, 2008. 0) N. Minematsu, et al., Development of English speech database read by Japanese to support CALL research, Proc. ICA, pp.577 560, 2004. ) (986) 2) 3-0-2 pp.489 492 (2008-3) 3) S. M. Witt et al., Phone-level pronunciation scoring and assessment for interactive language learning, Speech Communication, 30, pp.95 08, 2000. 4) BE-GO http://be-go.benesse.ne.jp/be-go/ 6 c 2009 Information Processing Society of Japan