コーパスに基づく言語学教育研究報告　９

コーパスに基づく言語学教育研究報告 No.9 (2012) 編集距離を用いた英文自動エラータグ付与ツールの開発と評価投野由紀夫 ( 東京外国語大学大学院総合国際学研究院 ) 望月源 ( 東京外国語大学大学院総合国際学研究院 ) 要旨学習者の発話作文データにはさまざまなエラーが含まれており, 第二言語習得研究ではこの習得段階ごとのエラーの特徴分析が盛んに行われている 1 つの問題は, 学習者データの規模が大きくなってくるとエラー分析のためのエラータグ付けが予想以上に困難になり, そのため大規模学習者コーパスに関するエラー分析はあまり進んでいない本研究ではこのような現状を受けて, 対応する正解文さえ用意すれば編集距離を用いて自動的にオリジナル文と正解文を対比して差分を特定し, エラータグを付与するツールの開発に関して報告し, その評価実験とエラータグ付与データの分析例を紹介する 1. はじめに第二言語習得研究では学習者言語 (learner language) の分析がその中心的な課題の 1 つになる学習者言語の分析の方法的には, 内省や文法性判断テスト (grammatcalty udgement test), 条件統制下での誘因タスク (elctaton task) などが考えられるが, そのうちで最も自然な産出に近いものが自由英作文や自由会話などの自然産出データ (natural producton data) である (Ells REF) この 10 年ほどでコーパス言語学の分野の隆盛に伴い, 第二言語習得研究でも学習者コーパス (learner corpus) という新しい研究領域が発展してきた (Granger REF) 中間言語をコーパス分析する際にさまざまな処理レベルが考えられるが, 通常のコーパス言語学で行われる言語注釈付の処理のうち, 品詞付与 (POS taggng), 構文解析 (syntactc parsng) に関しては, 学習者データの場合には一般に精度が低くなることが知られている (REF) これは学習者データがエラー( 誤用 ) を含むからで, そのエラーの同定と解析に関する研究は 1 つの大きな注目すべき分野となってきている本研究では, この英作文中に含まれるエラーを正解文との対応データにより編集距離 (edt dstance) という手法を用いて自動同定し, 自動的にエラータグを付与するツールの開発とその評価に関して報告する -71-

2. 関連研究 2.1. 学習者コーパスを用いたエラー分析学習者コーパスの研究は程度の差こそあれ, たいていは学習者のエラーを扱っているただ全体的な焦点がエラー分析であるよりは, 母語話者と比較して過剰使用 (overuse), 過小使用 (underuse) といった現象も含めて包括的に分析している研究も多い (Granger 1998) 特定のエラーを扱った研究としては, スペリング (He 1998), 語彙 (Ch Man-la et al. 1994; Mlton and Freeman 1996; Lenko-Szymanska 2003), 動詞 (Källkvst 1995), 時制 (Granger 1999; Housen 2002), 冠詞 (Mason & Uzar 2001), 談話照応関係 (Flowerdew 2000), コロケーション (Tono 1996; Nesselhauf 2005) などがあり, 複数の品詞エラーや文法エラーを総合的に分析したものとしては Ncholls (2003), Abe and Tono (2005), Albert et al. (2009) などがあるまたこれらの応用としてエラー分析の結果は Longman Dctonary of Contemporary Englsh (LDOCE, 第 5 版,2009),Cambrdge Advanced Learner s Dctonary (CALD, 第 3 版, 2008) といった学習英英辞典にコラムで掲載され用法上の注意喚起がされているエラー分析の方法的には, 大別して 2 通りのやり方が一般的である 1 つは, 包括的なエラータグセットを準備し, すべての作文データに人手でタグ付与を行うもの Cambrdge Learner Corpus (CLC) がその代表的なものであるが, これは膨大な時間と労力がかかるため, CLC 以外のコーパスプロジェクトでは比較的小規模データに付与するに留まっているのが現状である 1 もう 1 つは, 研究課題となる特定の言語事象を対象としてエラー分析をする方法 2 で, 上記の研究例のほとんどがこのタイプになるそのような中で自動エラー分析に対する期待は大きく, 大量の学習者データの自動分析が今後の大きな関心になってきている 2.2. 自動エラー分析工学系の分野では自然言語処理の方法を応用して自動エラー分析の試みがこの10 年間で大きく発展してきた関連分野としては, 英作文の自動評価採点システムがあり, 現在主要なものだけでも Proect Essay Grade (PEG) (Page 2003), Intellgent Essay Assessor (IEA) (Landauer, Laham, and Foltz 2000), Electronc Essay Rater (E-rater) (Bursten and Marcu 2000), IntellMetrc (Ellot 2003) などがある IEA は Pearson Knowledge Technologes (PKT) として, WrteToLearn や Versant といった学習システムに, また E-rater は Educatonal Testng Servce (ETS) の Crteron という自動英作文評価システムに, そして IntellMetrc は Vantage Learnng の My Access という英作文評価システムでそれぞれ具体的に応用されているこれらのシステムは, 人間の評価したグレード別英作文のテキスト, あるいは同種の内容の母語話者の英文から機械学習により言語特徴を抽出したものにグレード別の閾値 (threshold) を決め, 新たな英作文の特徴と照合した際に, 一定の閾値を超えた項目に加点するという方法をとり, その特徴抽出分野は各システムによって統語談話内容分析などの独自モジュールを持つ 90 年代はテキスト長, 文の長さ, 単語の種類, といった表層的 1 Cambrdge Learner Corpus は公称 3000 万語 (95000 件の英作文 ) にエラータグが付与されている 2 課題別タグ付与 (Problem-orented taggng) と呼ぶ -72-

な情報が多く, 後に IEA のように潜在意味分析 (Latent Semantc Analyss) (Foltz 1996) を用いて, 意味解析に迫るような試みもされているすべてのシステムが英作文の総合評価 (holstc scorng) を行うと同時に, 観点別のスコアも算出でき, 人間の評価との相関も極めて高いことが報告されている (Dkl 2006) これらの英作文評価の場合は, 英作文全体の評価が目的であるが, 文法項目の自動エラー同定はまた別の関心をもって研究されている大部分のデータ駆動型 (data-drven) の手法はある単語の文脈での適切な使用か否かの判定を, 伝統的な文脈情報を利用したスペリングエラーの同定 (Goldng 1995; Goldng and Roth 1996) と同様の分類手法を用いて行う特にエラー同定で盛んに研究されているのは冠詞と前置詞で, これは両者共に機能語で屈折などをもたないいわゆる閉じた類 (closed class) であること, そして学習者データでもエラー確率が高い項目であることがあげられる文脈を用いた分類手法は, 対象となるエラー項目の生起する文脈 ( 通常, 冠詞や前置詞であればその前後 2-3 語 ) を特徴ベクトルとして捉えるこの際に特徴ベクトルとしては単語または形態素情報 (Knght and Chander 1994), 品詞情報 (Izum et al. 2003; Gamon et al. 2008),WordNet からの情報 (Lee 2004; DeFelce and Pulman 2007) などがある分類器 (classfer) の選択は, 決定木 (Knght and Chander 1994; Gamon et al. 2008) を使ったものもあったが, 最近は最大エントロピー (maxmum entropy) 分類器をアルゴリズムとして用いたものが主流である訓練データとしては, 母語話者の大規模コーパス ( 例 :BNC) を用いたり, グレード別リーディング教材を用いる試みもある (Han et al. 2004) これらの分類課題としてとらえるアプローチ以外に, 言語モデルを用いた手法も若干ではあるが見られる基本的な考え方としては, 言語モデルのスコアが著しく低い部分にエラーがあると疑う, というものである最も古いものでは Atwell(1987) が品詞 n-gram モデル, また Chodorow and Leacock (2000) の相互情報量 (Mutual Informaton) とカイ 2 乗統計を用いたもの,Turner and Charnak (2007) の構文解析情報を用いた言語モデル, 汎用言語モデルとエラータイプ別分類器を用いた混合的アプローチ (Gamon et al. 2008) などがある 3. 編集距離を用いたエラー自動判定自動エラー分析は現在エラーの種類などを限定した範囲ではかなりの成果を上げているが, 一方で生の英作文データを入力してそれに各種エラータグを自動付与するというところまではいっていないその 1 つの大きな理由は, 機能語以外の膨大な内容語に関するエラーが非常に多岐にわたるため, これらの分析に関しては前述の英作文の自動採点などでも正確に判定できないためである我々の主目的は, 大規模学習者データへのエラータグ付与をできるだけ正確にかつ自動で付与する手法の開発であるエラータグを全種類マニュアルで付与している例としては前述の CLC や NICT JLE Corpus( 和泉他 2004) があるが, タグセットを記憶してすべてのエラーに付与する作業は人間でも相当に複雑かつエラー判定などの信頼性も問われるむしろ, エラー判定をするよりも, 英作文を自然な英文になるように添削してもらい, その -73-

添削データとの比較で誤り部分を機械処理で検出した方が早いのではないか, というのが我々の問題意識であった 3.1. 編集距離について編集距離 ( あるいはレーベンシュタイン距離 ) とは,2 つの文字列があるときに, 一方の文字列をどのくらい編集するともう一方の文字列が作成されるかを距離として計算することで,2 つの文字列の類似度 ( 相違度 ) を測る尺度であるここでは編集距離について説明する編集距離では, 文字列に対して行える操作をそれぞれ以下のように定義される置換挿入削除の 3 種類であるとする置換は, 元の文字列の中のある 1 文字を, 別の 1 文字に入れ替える操作挿入は, 元の文字列のどこかに適当な 1 文字を挿入する操作削除は, 元の文字列のある 1 文字を, 削除する操作 2 つの文字列について, 片方の文字列に置換, 挿入, 削除の操作を繰り返すことで, もう片方の文字列を作り出すことができると考えるある文字列 X と文字列 Y との文字列間の距離は, 文字列 Y を,X から作り出すのに必要な置換, 挿入, 削除操作の回数の最小値と定義される例えば, 文字列 start と smart,color と colour,sport と spot およびより複雑な例である rapd と rabbt および grease と grape の編集距離はそれぞれ以下のように考えられる文字列 start から smart を作り出すことは,start の 2 文字目 t を m に 1 回置換することで行えるので, 編集距離は 1 である文字列 color と colour では,color の 5 文字目に u を挿入して colour が作成できるので, 編集距離は 1 である文字列 sport と spot では,sport の 4 文字目 r を削除して spot が作成できるので, 編集距離 1 であるより複雑な例として, 文字列 rapd と rabbt では, rapd の 3 文字目 p を b に置換し, 次に b を挿入し, 最後の d を t に置換するという 3 つの操作が必要になるので, 編集距離は 3 である文字列 grease と grape では, grease の 3 文字目の e を削除し, 5 文字目の s を p に置換する 2 つの操作が必要になるので, 編集距離は 2 である -74-

3.1.1. DP マッチングによる編集距離の計算編集距離は動的計画法を用いた DP マッチング法 ( 浪平,1989) によって比較的簡単に計算することができる 2 文字間の編集距離を測るための動的計画法は次のように定式化できる x x Lx y y Ly 文字数 I の文字列 X を 1 2 I とし, 文字数 J の文字列 Y を 1 2 J とする部分文字列 x 1 x 2 Lx と部分文字列 y 1 y 2 L y の編集距離を g(, ) とする ( 最終的に求める編集距離は, g( I, J ) である ) 文字間の距離 d x, y ) を次のように定義する ( x = y なら 0 d ( x, y ) = 式 (1) x y なら1 DP マッチング法では, g(, ) の直前の状態として可能性のある, g( 1, ), g (, 1), g( 1, 1) が計算済みで値がわかっているとして, それぞれの値から g(, ) を求めることを考えるここで, x と y に対して, 行える操作は, 置換( x を y に置換 ), 削除 x を削除 ), 挿入( y を挿入 ) の 3 つであるので, g(, ) を求めるには, 次の組み ( 合わせが考えられる g(0,0) = 0 g(,0) = g( 1,0) + d( x,0) ( > 0) g(0, ) = g(0, 1) + d(0, y ) ( > 0) g( 1, ) + 1 g(, ) = max g( 1, 1) + d( x, y ) g(, 1) + 1 ( > 0, > 0) 式 ( 2) 文字列 X を rapd, 文字列 Y を rabbt としたときの計算の様子を経路の図として示すと図 1 のようになる図 1 中の縦軸がに対応し, 横軸がに対応し, 左下が g (0,0), 右上が g( I, J ) とする編集距離 g( I, J ) は図中で ( 0,0) の位置から ( I, J ) = (5,6) の位置に向かって, 一致, 置換, 挿入, 削除を繰り返してたどりつくことができる経路の中から最も距離の短い経路を選択することで得られるこの例の rapd と rabbt では, r が一致( 位置は ( 1,1) ), a が一致( ( 2,2) ) した後,rapd の 3 文字目 p を b に置換し( ( 3,3) ), b を挿入し ( ( 3,4) ), b が一致し( ( 4,5) ), d を t に置換する( ( 5,6) ) という経路が最短になるこのうち, 一致する文字は編集操作がないので, 編集距離は 3 になる ( 図の太字矢印部分が編集操作を示す ) -75-

5 d 4 3 p 2 a 1 r 0 1 2 3 4 5 6 r a b b t 図 1:DP マッチングの例この DP マッチングを,2 つの文字列間でなく,2 つの文間に適用すれば, 文と文の一致度を計算することもでき,2 文間のどの単語とどの単語が対応するかが計算できる 3.1.2. DP マッチングの学習者データへの応用前述したように我々の目的は, 大規模学習者データへのエラータグ付与をできるだけ正確にかつ自動で付与する手法の開発であるそのための手法として, 学習者データとそれを添削したデータを用意し, 両者を自動比較する手法をとる以下の例のように, 入力として, 学習者データと, その添削データがあると仮定し, 学習者データ文 I usually bred and mlk. 添削データ文 I usually eat bread and mlk. 編集距離を計算する DP マッチングアルゴリズムに基づいて, 各文のそれぞれの単語の対応を自動的に計算し, 誤りの種類を判定するプログラムを作成することができるようにする具体的には, 上記の学習者データ文と添削データ文を 2 つの文字列としてペアで与えると, 添削データ文に対する学習者データ文の一致度を計算することで,DP マッチングでは,I, usually, and, mlk が一致し,eat が削除されているという答えを得たいさらに,bread と bred は単語の位置としては一致する (bread を bred で置換している ) が, a が削除された綴り誤りであるということも判定したいこの目的に適した手法として望月らによる英語学習者のディクテーション支援システム ( 望月ら 2000) で用いられた文レベルと単語レベルの 2 段階の DP マッチング手法が応用できる 2 つの文字列間の DP マッチングを文のレベルで行えば, マッチングの対象は文字でなく単語になるそのため, 削除されている単語は学習者データで抜け落ちている脱落した単語を示すことになるこの例では,eat が脱落しているので, 学習者が動詞 eat を書き漏らした ( 誤った ) ということが判断できるまた, 文のレベルで置換と判断された bread と bred を対象に単語のレベルで DP マッチングを行えば, マッチングの対象は文字になるそのため, a が削除されている綴り誤りであることが判断できるただし, ディクテーション学習では流れてくる音声を聞き取るため, 正解の文と学習者データとの単語の語順が大きく入れ替わることが少ないが, 作文の場合は, 正しい文に対して, 語順が入れ替わっていることが多く起きる可 -76-

能性があるこの場合,DP マッチング手法の置換挿入削除だけ十分でなく, 解析精度が大きく下がる可能性がある対策として語順の入れ替わりを考慮した転移を考える必要がある 3.2. 今回作成したプログラムについてエラー自動判定プログラムは, 大きく次の 2 つのバージョンにわかれる 1 つ目は, 前節で説明した DP マッチング法を適用した基本手法で,( 望月ら,2000) を改良して作成したバージョンである 2 つ目は, 転移を考慮して, 基本手法の DP マッチングの結果を修正するバージョンである以下 2 つの手法について説明する 3.2.1. 基本手法本研究で用いる DP マッチング法を適用した基本手法の定義は次のようになる単語レベルのマッチングと文レベルのマッチングの 2 段階のマッチングを行う単語レベルのマッチングでは, 単語ペアを対象に, 単語内の 1 文字をマッチングの単位とする文レベルのマッチングでは, 文ペアを対象に, 文内の 1 単語をマッチングの単位とするまず単語レベルでのマッチングを行っておき, 文レベルのマッチングの際に, 単語レベルのマッチング結果を考慮することによりマッチングを高い精度で行うどちらのレベルでも置換, 挿入, 削除の 3 つの操作を想定するこの考えのもと, g(, ) を求める DP マッチングの計算式は次の漸化式のようになる g(, ) = max{ g( 1, ) + d( x,*), g( 1, 1) + d( x, y g(, 1) + d(*, y )} ), 式 (3) ここで, * は対応する文字( あるいは単語 ) がないことを意味し, 文字 ( 単語 ) 間の距離 d x, y ) はそれぞれ次の場合に対応する ( d( x,*) d( x, y ) d(*, y ) x に対応するyの文字がない削除 xとy が対応する場合で, x y であれば置換, 式 (4) x = y であれば一致 xにない文字 y が存在する挿入 d( x, y ) を次式のように定義する -77-

x = y x y で x y での場合 1 x = * または y x * かつy * の場合, 単語レベルでは, 0 = * の場合, 0 g w ( x, y ) 文レベルでは, max( x, y ) 式 (5) g w ( x, y ) ここで文レベルの場合の値の計算式は, 単語 x と単語 y の単語レベルの max( x, y ) DP マッチングの結果 g w ( x, y ) を, 長い方の文字数で割った値を意味するまた初期値は, 以下の式のように設定する g( 0,0) g(,0) g(0, ) = = = 0 n = 1 n= 1 d( x,*)(1 I ) n d(*, y )(1 J ) n 式 (6) 単語数 I の文 X と単語数 J の文 Y のマッチングは次のように行うまず, 式 (6) により初期値を与える次に, 式 (3) により, g(, ) の値を再帰的に計算し, g( I, J ) まで計算をする文レベルのマッチングでは, * は対応する単語がないことを意味する各 g(, ) の計算で, d( x, y ) における単語レベルのマッチング結果が必要になった場合, 単語 x と y を用いて単語レベルのマッチングを再帰的に行う単語レベルにおいては, * は対応する文字がないことを意味する文 X を正解文とし, 文 Y を学生の文とすると, マッチングの結果から誤りの状態が次のように特定できる x = *, y * の場合は, 余分な単語の付加 ( 付加誤り,addton error) x *, y = * の場合は, 必要な単語の抜け落ち ( 脱落誤り,omsson error) x y, x *, y * の場合は, 単語の綴り誤り ( 誤形成誤り,msformaton error) 以上の処理を反映させたプログラム ( プログラム A とする ) を Ruby により作成した 3.2.2. 語順を勘案した改良手法ここでは, 転移を考慮して, 基本手法の DP マッチングの結果を修正するバージョンについて説明する今, 以下の英文ペアがあったとする学習者データ文 I eat breakfast bred and mlk 添削データ文 I eat bread and mlk for breakfast 前述の基本となる DP マッチング法をこの英文ペア ( 添削データ文を文 X とし学習者データ文を文 Y とする ) に適用すると, 以下の結果を得る -78-

I eat <add>breakfast</add> <msf= bread >bred</msf> and mlk <oms>for</oms><oms>breakfast </oms> ここで, タグのない単語は一致していることを意味するまた,<add>breakfast</add> タグは挿入操作に対応し, 余分な単語 breakfast が学習者データ文に付加 (addton) されている, と判断されたことを意味する <oms>for</oms> タグは削除操作に対応し, 必要な単語 for が学習者データ文では抜け落ちている脱落 (omsson), と判断されたことを意味するまた,<msf= bread >bred</msf> タグは, 置換操作に対応し, 正しい綴り bread が誤った綴り bred と表記されている誤形成 (msformaton), と判断されたことを意味するそのため, この解析結果では, 添削データ文に対し, 学習者データ文では,I, eat は正しく,breakfast が余分で,bread を bred と綴り誤りをし, and と mlk は正しいが,for と breakfast が脱落しているということになる DP マッチングの結果としては正しい結果が得られているが, 学習者データの誤り分析の観点からは望ましい分析結果とは言えないこの場合は, I, eat および,bread and mlk は正しいが,for が脱落し,breakfast が一番最後から eat の直後に転移 (transposton) しているとなるのが望ましいつまり, <add>breakfast</add> と <oms>breakfast</oms> は同じ単語であり, 転移に該当すると判断されるべきである本稿では, これを <trs_add>breakfast</trs_add> と <trs_oms>breakfast </trs_oms> と表現することにするこうした転移の問題に対応するため, ここでは転移誤りの可能性のある組み合わせを洗い出し,DP マッチングの結果を修正する方法を述べるひとくちに転移誤りの可能性のある組み合わせといっても, その解析難易度にはいくつかのレベルが考えられる非常に簡単にいうと, DP マッチングの 2 つの操作結果が直接的な転移のペアと解釈できるレベル, DP マッチングの結果を転移として修正するために, もう一つ別の操作が必要となるレベル, DP マッチングの結果を転移として修正するために, もう 2 つ別の操作が必要となるレベル, あるいはそれ以上の操作が必要となるレベル, という具合に, 必要な操作の数に応じて難易度が高くなる本研究では, その中で最初のレベルである DP マッチングの 2 つの操作結果が直接的な転移のペアと解釈できる場合について, 具体的な出現パターンを 3 パターンあげ, 対応するプログラムを作成した以下で説明するなお, 説明のため, 単語を A,B, C のように簡略化して表現するまた, 実際の DP マッチングのアルゴリズムに合わせて, 添削データ文, 学習者データ文の順番に例示するパターン I: 置換操作の結果, 綴り誤りであると判定される 2 つの単語が, それぞれ対応する転移のペアであるケース添削データ文 A B C D E 学習者データ文 D B C A E 解析結果 : <msf= A >D</msf> B C <msf= D >A</msf> E このパターンでは,DP マッチングの結果として, 学習者データ文の D と A がそれぞれ添削データ文の A と D の綴り誤りであると判断されるが, 実際は,D と A が入れ替わってい -79-

る転移である修正 :<trs= A >D</trs> B C <trs= D >A</trs> E パターン II: 転移している 1 つの単語が, 学習者データ文では付加, 添削データ文では脱落と判断されるケース添削データ文 A B C D E 学習者データ文 A D B C E 解析結果 : A <add>d</add> B C <oms>d</oms> E このパターンでは,DP マッチング結果として, 学習者データ文側の D が付加され, 添削データ文側の D が脱落していると判断されるが, 実際は,D が転移している修正 : A <trs_add>d</trs> B C <trs_oms>d</trs_oms> E パターン III: 転移している 1 つの単語が, 学習者データ文では脱落, 添削データ文では付加と判断されるケース添削データ文 A B C D E 学習者データ文 B C D E A 解析結果 :<oms>a</oms> B C D E <add>a</add> このパターンでは,DP マッチング結果として, 添削データ文側の A が脱落し, 学習者データ文側の A が付加されていると判断されるが, 実際は A が転移している修正 : <trs_oms>a</trs_oms> B C D E <trs_add>a</trs_add> 前述のパターン I,II,III について, それぞれ以下の方法で転移の可能性を調べるここでは, 説明のため, 文字数 K の文字列 Z を z z z Lz 1 2 3 K とし, 添削データ文を文 X, 学習者データ文を文 Y,DP マッチングの結果として出力される操作のタグ付きの文を文 Z とする例 : 文 X( 添削データ文 ) I eat breakfast bred and mlk 文 Y( 学習者データ文 )I eat bread and mlk for breakfast 文 Z( マッチング結果 )I eat <add>breakfast</add> <msf= bread >bred</msf> and mlk <oms> for</oms> <oms>breakfast</oms> パターン I パターン I では, ペアとなる msf があるかどうかを調べ, ペアが見つかったら, それらが転移であると判断する具体的には, まず, 文 Z 内の単語を, 文の先頭 ( z 1 ) から調べていき, その中に msf タグがあるか調べるもし,k 番目の単語 ( z k ) に msf タグが見つかったら,k+1 番目以降の単語について msf タグがあるか調べる k+n 番目の単語 ( z k+ n ) に msf タグが見つかったら, 次の比較を行う z が <msf= x >y</msf> で, が k z k+ n -80-

<msf= y >x</msf> というように, z k の msf の属性値と z k+ n の単語が一致し, かつ z k の単語と z k+ n の msf の属性値が一致するならば,2 つの単語は転移である可能性が高いので, z k を <trs>x</trs> とし, を <trs>y</trs> とする z k+ n パターン II パターン II では, 付加と判断され add タグのついた単語と削除と判断され oms タグのついた単語が対応関係にあるとき, それらは転移であると判断する具体的には, まず, 文 Z 内の単語を, 文の先頭 ( z 1 ) から調べていき, その中に add タグがあるか調べるもし,k 番目の単語 ( z ) に add タグが見つかったら,k+1 番目以降の単語について oms k z + タグがあるか調べる k+n 番目の単語 ( k n ) に oms タグが見つかったら, 次の比較を行う単語 zk と単語 z k + n が一致するかどうかを調べ, 一致するならば,2 つの単語は転移である可能性が高いので, z を <trs_add>y</trs_add> とし, を <trs_oms>x</trs_oms> とする k z k+ n パターン III パターン III では, 削除と判断され oms タグのついた単語と付加と判断され add タグのついた単語が対応関係にあるとき, それらは転移であると判断する具体的には, まず, 文 Z 内の単語を, 文の先頭 ( z 1 ) から調べていき, その中に oms タグがあるか調べるもし,k 番目の単語 ( z ) に oms タグが見つかったら,k+1 番目以降の単語について add k z + タグがあるか調べる k+n 番目の単語 ( k n ) に add タグが見つかったら, 次の比較を行う単語 zk と単語 z k + n が一致するかどうかを調べ, 一致するならば,2 つの単語は転移である可能性が高いので, z を <trs_oms>x</trs_oms> とし, を <trs_add>y</trs_add> とする k z k+ n なお,I,II,III いずれの場合においても,2 つの単語が一致すると判断する基準として以下の 2 つを用いた (a) 2 つの単語内の文字列が 90% 以上一致している場合 (b) 2 つの単語内の文字列の一致度が 75% 以上で, かつ不一致の文字数が 2 以下の場合プログラム A に, 以上の修正処理を施したプログラム ( プログラム B とする ) を Ruby により作成した 4. 実験 4.1. 正解文対応データの作成対象となる英作文データは投野が中心で構築した JEFLL Corpus( 投野 2007) を用いた JEFLL Corpus は日本人英語学習者の中高生約 1 万件の英作文コーパスである 1 万件のデータには正解文が対応付けデータとして整備されている正解文は各作文の文レベルでの -81-

添削を日本における英語指導の経験のある母語話者に依頼したもので, できるだけ原文の意図を汲みながらローカルエラーを中心に文構造をあまり大幅に書き換えずに自然な英語になるよう添削を指示した 4.2. 実験 1 4.2.1. 実験手順対応付けされたオリジナル文と添削文のデータを望月作成の ruby スクリプトで処理した一対の英文を比較したアウトプットとして, 編集距離で判定された代入 (substtuton) 操作には誤形成 (msformaton), 挿入 (nserton) 操作には余剰 (addton), 削除 (deleton) 操作には脱落 (omsson) のエラータグをそれぞれ付与したこれに対して, 評価用データとして高 1 データからランダムに 2000 文を抽出し, 正解文と対照させながら人手によるエラータグを付与したこの 2 種類のデータを比較して, 自動付与の精度評価を行った 4.2.2. 実験 1 の結果と考察表 1 に実験 1 の結果を示す 3 表 1: 対応データからの編集距離による自動エラータグ付与の評価脱落 (omsson) 余剰 (addton) 誤形成 (msformaton) 正しい判定 393 214 462 誤った判定 7 7 179 タグ付与漏れ 0 0 1 適合率 (precson) 0.9825 0.9683 0.7207 再現率 (recall) 1.00 1.00 0.999 F 値 0.9911 0.9839 0.8373 脱落余剰エラーに関しては再現率は 100% で, 対応付けデータでの判定は非常に網羅的であるさらに適合率も 96% 以上で, 精度も極めて高かったこれに対して誤形成エラーは再現率はほぼ 99% と高かったが, 適合率は 72% に留まったプログラムとしては特に誤形成エラーが判定が難しく, 編集距離で誤形成と判定された部分は通常, 単語と単語が 1 対 1 で対応している場合にはほぼうまく処理できているが,(1) のように 1 対多対応しているケースでは判定がうまくいかないことが多かった (1) C: I wll take out kendo protecton frst. O: I wll brng kendo-bougu frst. T: I wll <oms>take</oms> <msf crr="out">brng</msf> <msf crr="kendo">kendo-bougu</msf> <oms>protecton</oms> frst. (C: 母語話者添削文,O: 学習者の書いたオリジナル文,T: タグ付与結果 ) 3 オリジナルデータは Tono and Mochzuk (2009) を参照 -82-

(1) は本来的には brng と take out,kendo-bougu と kendo protecton がそれぞれオリジナルと正解で誤形成エラーとして対応していなければいけないが, プログラム的にはまず同一要素である kendo という部分を探してそこから前後の単語を 1 つずつ比べていくので, take と protecton が分析上は脱落エラーになってしまったこれに関しては, 表 1 の集計の際には誤形成エラーの判定として誤りにカウントし, 脱落エラーの誤りには含んでいないさらに今回はエラーとは見なさなかったが,(2) に示すような語順に関するエラーの取り扱いに問題があることが判明した : (2) C: I lke model ralways. O: I lke ralway's model. T: I lke <add>ralway's</add> model <oms>ralways</oms>. これは本来的には同一要素の転置 (transposton) にあたるので, 語順のエラーと見なされるべきなのだが, 最初のプログラムではこの処理は手つかずであった 4.3. 実験 2 4.3.1. プログラムの改良と再実験実験 1 の結果を受けて, プログラムの改良を行った転置に対応するため, 出力結果を見て以下のような後処理をするように改善した 4 : 1) 文中のエラー箇所に同一要素と思われる文字列があるかを判定 (a) 文字列が 90% 以上一致している場合 (b) 文字列の一致度が 75% 以上で, かつ不一致の文字数が 2 以下 2) 上記の要素を転置と見なし, 脱落余剰のタグではなく, 転置 <trs> というタグを付与するこれをもとに JEFLL Corpus に再度タグ付を試みた評価実験のため, 今回は中 1 と高 1 のデータから各 50 サンプルを抽出し, プログラム処理後の転置のタグがついた部分を人手で確認し, 精度評価を行った 4.3.2. 実験 2 の結果と考察評価実験の結果を表 2 に示す 4 この処理は Damerau-Levenshten dstance といわれる手法とほぼ同じ内容である -83-

表 2: 転置処理を行った自動エラータグ付与の精度 ( 転置部分のみ ) データ正しい判定誤った判定判定漏れ適合率再現率中学 1 年 49 3 1 P: 0.94 R: 0.98 高校 1 年 41 14 7 P: 0.75 R: 0.89 プログラムの改善により, 転置部分の判定は適合率が中学が 94%, 高校が 75% で可能になった再現率も中学 (98%) に比べ, 高校 (89%) は落ちるしかし, 従来の分析で誤認していた語順関連のエラーにかなりの精度で対応できることがわかった実際の改善された処理例を (3) に示す : (3) C: I go to school n Setagaya. O: I go to setagaya school. T1: I go to <add>setagaya</add> school <oms>n</oms> <oms>setagaya</oms>. T2: I go to <trs_add crr = Setagaya >setagaya</trs_add> school <oms>n</oms> <trs_oms crr = setagaya >Setagaya</trs_oms>. T1 が従来のプログラムでのアウトプット,T2 が今回の改良版である Setagaya に関しては <trs_add> と <trs_oms> が 1 つの語順エラーのペアという判定をしている次に処理がうまくいかなかったケースを考察する (4) C: My frends and I performed Love love love. O: I and my frens ensou suru Love love love. T2: <trs_add crr= I >I</trs_add> <add>and</add> <msf crr= My >my</msf> <msf crr= frends >frens </msf> <msf crr="and">ensou</msf> <trs_oms crr="i">i</trs_oms> <msf crr="performed">suru</msf> Love love love. (4) は対応関係としては,() My frends and I と I and my frens, () performed と ensou suru を関係づけたいのだが, 最初に一致した単語 I が順序的に間違っているのを無視して, それを固定した基点として前後のタグをつけてしまっているプログラムの文脈をチェックする順序を見直す必要があるさらに (5) のような文脈では, 過度の修正を行ってしまっている : (5) C: I lke sng a song, they lke sng a song too. O: I lke sngng a song and they lke sngng a song, too. T1: I lke <msf crr= sngng >sng</msf> a <msf crr= song >song,</msf> <oms>and </oms> they lke <msf crr= sngng >sng</msf> a <msf crr= song, >song</msf> too. T2: I lke <msf crr= sngng >sng</msf> a <trs>song,</trs> <oms>and</oms> they lke <msf crr= sngng >sng</msf> a <trs>song</trs> too. -84-

この例のように, 同じ語が 2 回あり, かつ <msf> で両者がエラー箇所としてタグ付されていると語順エラーの対象と間違ってしまうと言う過剰修正の例であるこれらの改善すべき点はあるものの, 実験 1 で明らかになった語順エラーに対する精度が実験 2 ではかなり向上していることが確認されたこれをもとにして JEFLL Corpus 全体に正解文に基づくエラータグを自動付与することができた上記のタグ付与精度を念頭に置いて利用すればいろいろな研究の基礎資料となるエラータグ付きデータを提供できる可能性が開けた全体的に, 正解文との対応データによる自動エラータグ付与は目視によるエラータグ付与よりも効率がよいまず表層の変形の仕方に着目して編集距離で差異を特定してしまい, 脱落余剰誤形成語順の 4 タイプのエラータグを付与してから, それぞれの単語に品詞情報を付与すれば, タグ付与部分の品詞別分析データなどを比較的容易に作ることができる CLC などで付与している品詞別のエラータグはほとんど今回の我々の自動分析で特定できるエラーが多く, 正解文を作るという作業が時間がかかるものの, タグ付与を目視でやるよりは数段能率良く正解文を作成するのに集中することが可能である 5. エラータグの分析本論の中心的なテーマではないが, 自動付与したエラータグからわかる全般的なエラー傾向に関して最後に概略を触れておきたい精度が高かった余剰エラーと脱落エラーを中心に述べる 5.1. 余剰エラー余剰エラーは 67 万語の JEFLL Corpus 中で,36,955 回出現した表 3 が JEFLL Corpus の中学 1 年 ~ 高校 3 年までの余剰エラーとその 1 万語換算の正規化頻度である表 3: 余剰エラー ( コーパスサイズ :1 万語換算 ) 中 1 中 2 中 3 高 1 高 2 高 3 決定詞 50.7 47.6 39.6 50.9 55.0 52.2 名詞 59.3 43.4 35.1 23.2 20.7 21.3 代名詞 23.9 24.2 20.0 35.6 36.9 38.7 副詞 25.7 28.5 29.4 60.2 58.2 58.1 形容詞 23.3 20.0 15.0 18.6 19.1 19.1 be 48.3 39.8 34.8 42.3 40.9 45.7 動詞 31.7 36.9 46.3 124.4 113.2 108.5 前置詞 19.9 33.8 30.7 55.3 51.0 51.0 法助動詞 10.2 6.0 7.6 28.2 32.5 31.0 to 不定詞 10.4 19.3 15.4 20.0 18.3 18.7 接続詞 6.6 6.7 9.0 14.0 11.7 13.0-85-

これを見ると, 余剰エラーの中にはコンスタントにエラーが減少する項目 ( 名詞 ), 逆に増加する項目 ( 代名詞, 副詞, 動詞, 前置詞, 法助動詞, 接続詞 ), ほとんど一定のもの ( 決定詞, 形容詞,be 動詞,to 不定詞 ) があることがわかる図 1, 図 2 はこれらの品詞別余剰エラー頻度と学年の関係を多変量解析したものである : 図 1: 対応分析 ( 余剰エラー ) 図 2: 階層化クラスター分析 ( 余剰エラー ) -86-

これを見る限り, 名詞の余剰エラーは中学 1 年にのみ顕著で, これはほとんどが英語が出てこないので代わりに日本語を使った部分であるクラスター分析の結果からもわかるように, 相対頻度的には圧倒的に動詞に関する余剰エラーが他のエラーに類を見ないほど高頻度であるそしてこれらの動詞エラーは相対的に中学よりも高校に多い内容を見てみると, 動詞の選択間違いのエラー, 動詞の時制や相に関するエラーが多いやはり学習事項の難易度が上がってくると, 使いこなしが難しい部分にエラーが出るまた英作文では学習段階初期よりも中級レベルの方が学習した事項をいろいろ使ってみようと試みて逆に初級よりも間違いを犯しやすくなるということも考えられる 5.2. 脱落エラー次に脱落エラーの全般的な傾向を表 4 に示す脱落エラーは JEFLL Corpus 中には 83,221 回出現したこれは余剰エラーの 2 倍強であるいかに何かを落としてしまうエラーの方が, 付け足してしまうエラーに比べると外国語の産出の特徴になるかがわかるであろうただ, 余剰エラーと決定的に違うのは, 脱落エラーは全体的に初級段階で多くてもレベルが上がるにつれて減っていくのが一般的であるのに対して, 余剰エラーはレベルが上がると同時にエラー頻度も増加するものがある, という点である脱落エラーで最も顕著なのは決定詞 ( 冠詞類と some, any など ) と名詞である特に冠詞の脱落エラーは日本人の英語の場合には日本語に冠詞がないために, 冠詞を持つ母語話者と比べるとエラー頻度が高い次に動詞, 前置詞, 代名詞類は中 1 が非常に多いが, その後急に減少し, その後はあまり急激に減らずに一定量のエラーが観察されるこれらは脱落に関しては初期の落ちやすい時期を習得段階的に克服して安定する時期が中 2 を過ぎると出てくるただ, 中 3 以降はまたさまざまな動詞や前置詞の新しい用法に触れるため, それらをリスクを冒して使ってみることによる誤りも増える表 4: 脱落エラー (1 万語換算 ) 中 1 中 2 中 3 高 1 高 2 高 3 決定詞 319.75 301.54 211.43 298.26 226.26 233.30 名詞 495.78 336.25 169.16 228.43 199.65 253.28 代名詞 252.65 154.03 89.59 96.32 90.17 101.34 副詞 107.84 74.33 59.46 83.69 86.94 87.20 形容詞 144.37 89.77 42.53 64.91 60.57 79.80 be 144.59 95.34 71.42 88.78 79.53 72.92 動詞 354.07 217.07 159.68 158.60 122.99 151.68 前置詞 226.74 177.19 121.49 201.06 184.52 179.71 法助動詞 47.39 21.083 16.66 21.93 23.26 21.28 to 不定詞 61.12 45.72 32.52 52.81 36.06 42.30 接続詞 36.32 22.96 11.61 16.84 12.20 12.59 多変量解析の結果が図 3,4 である : -87-

図 3: 対応分析 ( 脱落エラー ) 図 4: 階層化クラスター分析 ( 脱落エラー ) クラスター分析の結果が前述の分類の結果を裏付けているデンドログラムの右側が比較的高頻度の脱落エラー群である対応分析の結果は, 決定詞は高校のグループと近く, 動詞や代名詞は中学初期と近いこれらの品詞関係の発達段階と脱落エラーは密接に関係していることが伺えるデータである -88-

6. 結論本論では英語学習者の英作文データに自動エラータグ付与を行う方法として, 正解文との対応付けデータを用い, 編集距離を用いて自動的に原文と正解文の差異を同定することで, 自動エラータグ付与を行うプログラムの開発とその評価を行ったエラーの自動同定などの研究とは一線を画するが, 大量にエラータグ付与を行ってその学習者データをさらに精度の高いデータへと加工していくための非常に実際的な解決策となると期待される結果は, 全体的に精度が高く現状でも十分運用できるレベルであることが分かったこれを用いて, エラータグ付与のプロセスが簡略化され, 大規模データに比較的簡易に正確にエラータグが付与できる環境が整うことで, レベル別の学習者データの解析がますます進み, 多様な学習システムへの応用へと展開していくことを願ってやまない引用文献投野由紀夫 (2007) 日本人中高生 1 万人の英語コーパス : JEFLL コーパス小学館. 浪平博人 (1989) 学習コンピュータアルゴリズム, 技術評論社. 望月源, 神谷泰弘, 奥村学, 島津明 (2000) 英語ディクテーション学習支援システムの構築, 教育システム情報学会誌,19/13: 63-77. Abe, M. and Tono, Y. (2005) Varatons n L2 spoken and wrtten Englsh: nvestgatng patterns of grammatcal errors across profcency levels. Proceedngs of Corpus Lngustcs 2005 Conference http://www.brmngham.ac.uk/documents/college-artslaw/corpus/conference-archves/2005-ournal /LanguageLearnngandError/varatonsnL2.doc, accessed 08/09/2011. Albert, C., Garner, M., Rykner, A. and Sant-Dzer, P. (2009) Analyzng a corpus of documents wrtten n Englsh by natve speakers of French: classfyng and annotatng lexcal and grammatcal errors. Mahlberg, M., V. González-Díaz and C. Smth (eds.) Proceedngs of the Corpus Lngustcs Conference (CL2009), Unversty of Lverpool, UK, (20-23 July, 2009). Bursten, J. and Marcu, D. (2000) Benefts of modularty n an automated essay scorng system. (ERIC reproducton servce No. TM 032 010). Atwell, E. (1987) How to detect grammatcal errors n a text wthout parsng t. Proceedngs of the 3rd EACL. Copenhagen, 38 45. Cambrdge Advanced Learner s Dctonary, Cambrdge Unversty Press. [ 本文中では CALD と略記 ] Ch Man-La, A., Wong, P-Y, and Chau-png, M.W., (1994) Collocatonal problems amongst ESL learners: A corpus-based study. L. Flowerdew and A.K.K. Tong (eds), Enterng text. Hong Kong: Language Centre, Hong Kong Unversty of Scence and Technology, and Department of Englsh, Guangzhou Insttute of Foregn Languages, 157-165. Chodorow, M. and Leacock, C. (2000) An unsupervsed method for detectng grammatcal errors. Proceedngs of the frst conference on North Amercan chapter of the Assocaton for Computatonal Lngustcs, San Francsco, CA, USA, 2000. Morgan Kaufmann Publshers Inc, -89-

140-147. De Felce, R., & Pulman, S. G. (2007) Automatcally acqurng models of preposton use. F. Costello, J. Kelleher, & M. Volk (eds.), Proceedngs of the Fourth ACL-SIGSEM Workshop on Prepostons. Prague: Assocaton for Computatonal Lngustcs, 45-50. Dkl, S. (2006) Automated Essay Scorng. Turksh Onlne Journal of Dstance Educaton- TOJDE. Volume 7, Number 1, Artcle 5., Turkey, 49-62 Ellot, S. (2003). IntellMetrc: from here to valdty. In Mark D. Sherms and Jll C. Bursten (Eds.). Automated Essay Scorng: A Cross Dscplnary Approach. Mahwah, NJ: Lawrence Erlbaum Assocates. Flowerdew, L. (2000) Investgatng referental and pragmatc errors n a learner corpus, Burnard, L. and McEnery, T. (eds.) Rethnkng Language Pedagogy from a Corpus Perspectve. Frankfurt am Man: Peter Lang, 145-154. Foltz, P. W. (1996). Latent Semantc Analyss for text-based research. Behavor Research Methods, Instruments and Computers, 28(2), 197 202. Gamon, M., Gao, J., Brockett, C., Klementev, A., Dolan, W.B., Belenko, D., and Vanderwende, L. (2008). Usng contextual speller technques and language modelng for ESL error correcton. Proceedngs of the Thrd Internatonal Jont Conference on Natural Language Processng. Hyderabad, Inda: Asan Federaton of Natural Language Processng, 449-455. Goldng, A. (1995) A Bayesan Hybrd for Context Senstve Spellng Correcton. Proceedngs of the 3rd Workshop on Very Large Corpora. Cambrdge, USA. 39 53. Goldng, A. and Roth, D. (1996) Applyng Wnnow to context-senstve spellng correcton. Proceedngs of the Int. Conference on Machne Learnng, 182 190. Granger, S. (1998) Learner Englsh on Computer. London: Addson Wesley Longman. Granger, S. (1999) Use of tenses by advanced EFL learners: evdence from an error-tagged computer corpus. Hasselgård, H. and Oksefell, S. (eds.) Out of Corpora - Studes n Honour of Stg Johansson. Amsterdam: Rodop, 191-202. Han, N.-R., Chodorow, M. and Leacock, C. (2004) Detectng errors n Englsh artcle usage wth a maxmum entropy classfer traned on a large, dverse corpus. Proceedngs of the Fourth Internatonal Conference on Language Resources and Evaluaton. Lsbon: European Language Resources Assocaton, 1625-1628. He, A. (1998) A corpus-based analyss of mddle school students' Englsh spellng errors Granger, S. and Hung, J. (eds.) Proceedngs of the Frst Internatonal Symposum on Computer Learner Corpora, Second Language Acquston and Foregn Language Teachng. (14-16 December,1998), Hong Kong:The Chnese Unversty of Hong Kong, 54-58. Housen, A. (2002) A corpus-based study of the L2-acquston of the Englsh verb system, S. Granger, J. Hung, & S. Petch-Tyson (eds.) Computer learner corpora, second language acquston and foregn language teachng. Amsterdam: John Benamns, 77-116. Ingels, P. (1997) A Robust Text Processng Technque Appled to Lexcal Error Recovery, Ph.D. -90-

thess, Cornel Unversty. http://arxv.org/pdf/cmp-lg/9702003v1, accessed 01/08/2011. Izum, E., Saga, T., Uchmoto, K., Supnth, T., and Isahara, H. (2003) Automatc error detecton n the Japanese learners' Englsh spoken data. Companon Volume of the Proceedngs of the Assocaton of Computatonal Lngustcs (ACL) 2003, Japan, 145-148. Izum, E., Uchmoto, K., & Isahara, H. (2004). The NICT JLE Corpus: Explotng the language learners speech database for research and educaton. Internatonal Journal of the Computer, the Internet and Management, 12(2), 119-125. Källkvst, M. (1995) Lexcal errors among verbs: a plot study of the vocabulary of advanced Swedsh learners of Englsh, Workng Papers n Englsh and Appled Lngustcs 2. Research Centre for Englsh and Appled Lngustcs, Unversty of Cambrdge, 103-115. Knght, K. & Chander, I. (1994). Automatc postedtng of documents. K. S. H. Forbus (ed.) Proceedngs of the 12th Natonal Conference on Artfcal Intellgence. Seattle: Morgan Kaufmann, 779-784. Landauer, T. K., Laham, D., & Foltz, P. W. (2000) The Intellgent Essay Assessor. Mart A. Hearst (ed), The debate on automated essay gradng. IEEE Intellgent systems, 27-31. http://que.nfo-scence.uowa.edu/~lght/research/mypapers/autogradngieee.pdf, accessed 01/08/2011. Lee, J. (2004) Automatc artcle restoraton. Proceedngs of the Human Language Technology Conference of the North Amercan Chapter of the Assocaton for Computatonal Lngustcs. Boston: Assocaton for Computatonal Lngustcs, 31-36. Lenko-Szymanska, A. (2003) Lexcal problems n the advanced learner corpus of wrtten data. Paper presented at PALC 2003 (Practcal Applcatons of Language Corpora), Lodz, Poland, (4-6 Aprl, 2003). Longman Dctonary of Contemporary Englsh, London: Pearson Educaton. Ffth Edton. [ 本文中では LDOCE と略記 ] Mason, O. & Uzar, R. (2001) Locatng the zero artcle: how TEFL can beneft from NLP. Aston, G and L. Burnard (Eds.) Corpora n the descrpton and teachng of Englsh. Papers from the 5th ESSE conference, Bologna CLUEB, 44-52. Mlton, J. and Freeman, R. (1996) Lexcal varaton n the wrtng of Chnese learners of Englsh. C.E. Persy (ed.) Synchronc Corpus Lngustcs. Amsterdam: Rodop, 2003, 121-131. Nesselhauf, N. (2005) Collocatons n Learner Corpus. Amsterdam: John Benamns. Ncholls, D. (2003) The Cambrdge Learner Corpus error codng and analyss for lexcography and ELT. Proceedngs of Corpus Lngustcs 2003, http://ucrel.lancs.ac.uk/publcatons/cl2003/ papers/ncholls.pdf, accessed 08/09/2011. Page, E. B. (2003) Proect Essay Grade: PEG. M. D. Sherms & J. Bursten (eds.) Automated Essay Scorng: A Cross-Dscplnary Perspectve. Mahwah, NJ: Lawrence Erlbaum Assocates. Tono, Y. (1996) Usng learner corpora for lexcography, LEXIKOS 6: 116-132. Tono, Y. and Mochzuk, H. (2009) Toward automatc error dentfcaton n learner corpora: a DP -91-

matchng approach. Paper presented at Corpus Lngustcs 2009 conference. Unversty of Lverpool, 22 July 2009. Turner, J., & Charnak, E. (2007) Language modelng for determner selecton. Human Language Technologes 2007: The Conference of the North Amercan Chapter of the Assocaton for Computatonal Lngustcs; Companon Volume, Short Papers. Rochester, NY: Assocaton for Computatonal Lngustc, 177-180. -92-

コーパスに基づく言語学教育研究報告 ９

コーパスに基づく言語学教育研究報告　９