概要 コロケーションリストのもう一歩先へ : 英和辞書の執筆者と使用者の立場から 成城大学社会イノベーション学部石井康毅 コロケーションは学習者にとって重要だが 連語辞典は使いこなせないことが多い コーパスから簡単に連語リストが作れる これは執筆者から見て非常に有用だが これだけでは 学習者向け辞書における実際の記述や用例の作成には不十分 コンコーダンスラインを丁寧に見なくてはいけないが 限られた時間の中で ここにかかる時間は大きい ここを減らせば 他の部分の改善に時間を充てられる ひとつのアプローチとして 発表者は n-gram 頻度データを辞書執筆に活かす実践を行った 辞書におけるコロケーション情報を学習者にとってより有用なものにするための方策を考察する 8 9 1. コロケーションの重要性と学習者にとっての問題 コロケーション情報が必要な場面 : 主に発信 学習者の作文に見られる誤りの例 We are different from character. ( 私たちは性格が異なる ) [in] one of the best/most challenges ( 最大の課題の 1 つ ) [biggest/greatest など ] on the level of graduate schools ( 大学院のレベルで ) [at] コロケーション辞典を学生に使わせた コロケーションの重要性を認識し 適切なコロケーションを調べる練習を授業に取り入れた 見出し語 連語が充実している Oxford Collocations Dictionary (Second Edition) を使用 10 11 コロケーション辞典を使いこなせない 上級の学習者でないと連語のリストだけでは不十分ということがわかった 問題 A) 連語が複数挙げられていると どれを選択したらよいか分からない B) 連語として与えられた語をそもそも知らない C) 適切な連語が選べたとしても発信の場面でフレーズとして使えない 学習者の作文に見られる誤りの例 ( 問題 C) protect environment [the がない ] reduce traffic congestions [congestion は不可算 ] get medal [ 可算名詞の medal を無冠詞単数で使っている ] 12 2. 英和辞典でのコロケーションの記述例 プログレッシブ英和中辞典 ( 第 5 版 ) のコロケーションコラム (deal) 連語のグループ分けが分かりやすい 難語 多義語などには語訳を付しているため問題 Bの解消に役立つ 13
オーレックス英和辞典 のコロケーションコラム (campaign) オーレックス英和辞典 のボールドによるコロケーション表示 (level) フレーズレベルで示して訳を付けることで問題 B と C の解消に対応 14 15 フレーズレベルでの提示の重要性 参考 : 連関式英単語 LINKAGE でのコロケーション提示 (job) 参考 : 連関式英単語 LINKAGE での関連語 コロケーション提示 (accident) 16 17 3. コロケーション情報のコーパスからの抽出 現在よく行われている ( と思われる ) 方法 コーパス検索プログラムのコロケーション抽出機能 ( 通常スパンと品詞で抽出 ) Sketch Engine の Word Sketch( 構文情報を利用してより精密に抽出 ) BNCweb で形容詞 +challenge のリストを作成 (1 億語 ) 18 19
COCA で形容詞 +challenge のリストを作成 (4.25 億語 ) Sketch Engine の Word Sketch で形容詞 +challenge のリストを作成の例 ( 約 30 億語の ententen, クラスター ) 20 21 4. 連語リストの情報を辞書に反映するに当たっての問題 1. 中級の英和辞典使用者が必要とするフレーズレベルのコロケーション情報は 連語のリストだけでは作れない 名詞の数 冠詞 修飾語句などについて どのような形で使われるか 語義によるコロケーションの違い 2. 単一コーパスのデータでは地域差 使用域の違いが見えない 異なるコーパスで作成した連語リストを見比べる場合 どの項目が必要かの判断が容易でない 連語リストの問題を解決する方法 コンコーダンスラインを丁寧に確認していく 1 これはもちろん重要なことだが 限られた辞書執筆の時間の中で コンコーダンスラインの分析にかかる時間は決して少なくない この部分を減らせば 他の部分の改善に充てる時間を生み出せる 2 学習者に必要なフレーズを検討する際に助けとなるように もう少し多くのデータを自動的に得る 22 23 5. 連語リスト +α のデータの作成 Word Sketch やその他のコーパス検索プラットフォームでは得られないデータをコーパスから抽出 特徴 1: 構文解析はしていないが 単なるスパンではなく 品詞配列を考慮している 動詞 + 対象名詞であれば 動詞 (+ 副詞 )(+ 冠詞 )(+ 副詞 )(+ 形容詞 )+ 対象名詞のように定義して 無関係なものを排除しながら できるだけ多くの適格な連語を抽出する 特徴 2: 高頻度 n-gramを表示する n-gram: n 語 ( 本来はn 文字 ) の連続を1 単位として頻度などのデータを得る手法 例 : Unemployment has reached its highest level in five years. n=3のn-gram Unemployment has reached has reached its reached its highest its highest level highest level in level in five in five years 句の頻度リスト が得られる 24 25
特徴 3: BNC と ANC (Second Release) の Written/Spoken データに基づいて コロケーションとして提示する候補を表示する over+ 名詞の例 ( 注 : 全ての語がレマ化されている ) over の n-gram の例 (n=3) 26 27 n-gram データの有用性 連語のリストには現れないものが見える コンコーダンスラインでは見落としてしまうかもしれない情報が得られる 例 : over the next/past/last (few years) 6. データに基づく記述の実践例 エースクラウン英和辞典 の over ( 一部 ) 28 29 n-gram データの有用性 ( コロケーション以外 ) 通常はあまり注目されず, コロケーションとしては抽出されにくい代名詞を含むフレーズも抽出できる like( 前置詞等 ): it is/seems like, (and) things like that, like you know エースクラウン英和辞典 の like ( 一部 ) 7. 今後の課題 コロケーションが 語の使い分けの説明に生きる場合もある Oxford Learner's Thesaurus での類義語のコロケーション提示 (waste) プログレッシブ英和中辞典 ( 第 5 版 ) の類語コラム (break) 30 31
執筆者が様々なデータに簡単にアクセスできる必要性 連語のリスト 各連語の数 冠詞 屈折形など 高頻度 n-gramのデータ レマ化してあるものとしてないものの両方が有用 地域 分野 モードなどの情報 レーベルの必要性を判断する上で必要 一部のサブコーパスにしか出ていないものはそう明示する ( 各辞書のユーザーに合わせた重要連語の候補 ) ( 上記の情報を類義語同士で簡単に比較できる ) 限られた時間の中でコンコーダンスラインの熟読にかけていた部分を他の要素の改善に充てられる 情報を辞書でうまく有機的に統合する必要性 DVD 版の LDOCE5 の画面 32 33 コンコーダンスラインを丁寧に見ることも重要 例 1: 動詞 account の後に来る名詞 コンコーダンスラインを見ると accounting standards ( 会計基準 ) のことだと分かる standard が account (for) の目的語として高頻度? 34 35 まとめ 例 2: 形容詞 acidを修飾する副詞 slightlyがあるが このコロケーションが用いられるのが 酸性 の意味なのか 辛らつ の意味なのかは コンコーダンスラインを見ないと分からない slightly は acid が 酸性 の意味の場合にのみ使用されていることが分かる 自動抽出されるデータの精度がいくら上がっても コンコーダンスラインを見ていくことは変わらず重要 しかし辞書制作にかけられる時間には限りがある 多大な時間を要する作業の一部を自動処理で肩代わりさせて 執筆者はコンピューターが苦手とする作業に集中することができる その一つの例がコロケーション コロケーションの学習者への提示法も 執筆者によるデータを見ながらの記述も かなり洗練されてきたが まだコーパス 言語処理 統計処理によってできる / しなくてはいけないことは多い 36 37