Microsoft PowerPoint - JOPTシンポジウム2016 ver.2.pptx

CEFR J に基づく英語口頭能力テスト開発の必要性と可能性東京外国語大学根岸雅史

CEFR levels A B C B1: C1: A1: Breakthrough beginner Threshold Intermediate Effective operational Advanced A2: Waystage elementary B2: Vantage Upper intermediate C2: Mastery Proficiency Basicuser Independent user Proficientuser 2

CEFR J のレベル設定 :12 段階 A1 A2 B1 B2 C1 C2 80% の日本人は A level に属する Pre A1 A1.1 A1.2 A1.3 A2.1 A2.2 B1.1 B1.2 B2.1 B2.2 3

The CEFR J Project: Phase 2 (2012 2015) CEFR-J Wordlist CEFR-J Grammar Profile ELP Descriptor DB ELT coursebook corpus Reference Level Description Corpus based approach Machine learning CEFR-J Text Profile CEFR-J Ver.1 Japanese EFL Learner corpus CEFR-J Error Profile 2011 2012 2016 4

The process of the CEFR J RLDs A1 A2 A1 A2 ELT coursebooks Grammar items B1 ELT coursebooks Text characteristics B1 Corpus analysis Feature extraction B2 Corpus analysis Feature extraction B2 Tono; Ishii Hayashi & Okumura Arase Grammar Profile Text Profile 5

The process of the CEFR J RLDs A1 A1 A2 A2 Written learner corpus Common errors B1 Spoken learner corpus Grammar items B1 Corpus analysis Feature extraction B2 Corpus analysis Feature extraction B2 Tono Hayashi & Okumura Brendan, Izumi, Kaneko & Hirokawa Error Profile Learner Speech Profile 6

Possible applications FL policy making Syllabus design CEFR J Test design Materials design 7

CEFR J プロジェクト CEFR J プロジェクトの成果産出モード ( スピーキングライティング ) における日本人英語学習者の発達段階に応じた文法語彙などの基準特性受容モード ( リスニングリーディング ) におけるテキストの基準特性新規プロジェクト基準特性を基にした CEFR J ベースの指導タスクと評価テストの開発実証データをとることで指導タスクと評価テストの妥当性を検証指導タスクと評価テストのアイテムバンクを構築公開 8

CEFR J 新規プロジェクト指導タスク + 評価テストの開発学際的なチーム言語教育学言語テストコーパス言語学自然言語処理音声認識 9

CEFR J 新規プロジェクト教材作成 : コーパス言語学や言語処理の専門家により導き出された言語資源を言語教育学の専門家が教材として具現化言語テスト開発 : 先の言語資源をもとに言語教育学と言語テストの専門家が共同してテスト項目を作成そのテストデータをテスト統計の専門家が分析こうして開発されたテストは音声認識の専門家の力を借りることでスピーキングテストの自動採点までを実現本研究により 4 技能型の大学入試システムの開発に貢献 10

CEFR J 新規プロジェクト研究計画 H29 H30 H31 指導タスクのプロトタイプ完成 1 受容技能班 2 発表技能班の作業を 4 言語資源構築班がサポート指導タスクに対応する評価テストの開発協力校での実施フィードバック指導タスク & 評価テスト改訂指導タスク & 評価テストアイテムバンク ( 一般公開 ) + CEFR-J レベル自動判定ツール 3 言語処理インタフェース班紙ベース &ICT 環境などの複数インタフェースの提案と試作音声認識ライティングの自動判定技術の応用可能性を検討 11

英語の入試はどうなる? センター試験の後継 + 個別入試英語 4 技能試験情報サイト http://4skills.eiken.or.jp/education/innovation.html 外部試験の利用 4 技能の測定 4 技能のバランス 12

参考各試験団体のデータによる CEFR との対照表 13

平成 26 年度英語教育改善のための英語力調査事業報告書全国の無作為抽出による高等学校第 3 学年約 7 万人 ( 約 480 校 ) を対象に英語に関する4 技能 ( 読むこと聞くこと書くこと話すこと ) がバランスよく育成されているかという観点から本調査を実施し生徒の英語力や英語の学習状況の把握分析を通じて学校における生徒への指導の充実や学習状況の改善に活用するなお本調査は高校生の英語教育の多様性を踏まえ世界標準に基づいて日本の高校生全体の英語力を測定するため CEFR (Common European Framework of Reference for Languages: ヨーロッパ言語共通参照枠 ) を参照して測定することとした A1~B2 14

平成 26, 27 年度英語力調査 ( 高等学校 ) 15

平成 26, 27 年度英語力調査 ( 高等学校 ) 16

平成 27 年度英語力調査 ( 中学校 ) 17

参考各試験団体のデータによる CEFR との対照表 18

見えてきた : 大学入学希望者学力評価テスト ( 仮称 ) の英語の問題イメージ独自開発? 聞くこと読むこと書くことの三技能及び技能統合型合計で 110 分程度別に話すこと 10 分程度のテスト構成時間を想定 CEFR の A1 上位層から B1 層を中心として測定が可能であり CEFR におけるレベルとの関連づけをすること等化 (IRT を含む ) 19

大規模テストにおけるスピーキングテストチャレンジ : 50 万人の受験者同日受験 50 万人の受験者の採点短い採点期間 we cannot afford not to introduce a test with a powerful beneficial backwash effect. (Hughes, 2002) 20

Potential solutions scoring By machine Advances in automated speech recognition and computational linguistics have now made it possible for machines to score written and even spoken performance, especially when responses are more guided or controlled (Xi, 2012)... The prospect is for more flexible automated scoring systems to emerge: systems that are capable of rating language elicited through different prompts without having to be trained for each individual task. Green (2014) Is it available in 2020/2024? 21

CEFR J 新規プロジェクトスピーキングやライティングの評価テストテストの機械配信音声認識をもとにした自動採点従来人間がやってきた採点も学習者の発達段階ごとの基準特性を利用して個別の指導タスクに依存しない自動採点を実現する 22

CEFR J 新規プロジェクト CEFR J Can Do ディスクリプタからのテストタスク作成テストの機械配信音声データの機械収集音声認識自動採点 23

課題と可能性タスクの限定性課題やりとりの限定性パソコンに向かって話す違和感音声認識の精度可能性一斉実施が可能なので多様なタスクの実施が可能試験官ロボット? 認識可能な英語音声かどうかが最低基準になる? 同時解答の問題ノイズキャンセリング? 採点の信頼性人間とほぼ同程度 (0.8 程度を実現 ) 採点の妥当性採点のプロセスの説明可能性が高いただし学習者教師が解釈可能か? コスト初期投資を官民共同? 24

人による実施に対するメリット観点コスト試験官採点官のトレーニング採点のモニタリング採点期間パフォーマンスの安定性メリットランニングコストが安い不要不要結果の即時性多様なタスクによりパフォーマンスは安定 25

テストのインパクト The research into washback suggests that teachers tend to pay close attention to the format of a test, rather than considering the underlying construct the knowledge, skills or abilities targeted by the assessment. Just focussing on practice with the test format might not really help test takers to improve in the abilities being assessed (Green, 2007). A new spoken interview assessment based on personal information intended to assess impromptu conversation skills might, in practice, encourage memorisation of formulaic exchanges or short memorised speeches on obscure topics, even though these may be of rather limited value outside (or even inside) the examination room (Shohamy et al., 1996). Green. (2014) 教師や受験者に根底にあるテストの構成概念とその指導法を正しく伝える必要性 26