2018 年度日本語教育学会春季大会パネルセッション 1 PPT 資料 : http://jhlee.sakura.ne.jp/talk/nkg2018.pdf 日本語教育におけるこれからの評価研究を考える 李在鎬 ( 早稲田大学 ) 伊東祐郎 ( 東京外国語大学 ) 島田めぐみ ( 日本大学 ) 近藤ブラウン妃美 ( ハワイ大学マノア校 )
ゴール 言語教育における評価の重要性を確認した上で, これからの日本語教育における評価活動および研究の活性化のため, 特に今後の日本語テスト開発や研究においてどのような視点が必要か検討する http://jhlee.sakura.ne.jp/talk/nkg2018.pdf
発表 1 評価研究を支える理論的視点について論じる 具体的には, 評価研究の過去と現在をつなぐ視点としてコミュニケーション能力論から心理測定, 第二言語習得理論の理論的展開にいたる枠組みを概観した上でテストと評価リテラシーについて考える 発表 2 テスト研究の実際を支える方法論的視点および分析的視点について論じる 特にデータ科学の観点から, データに対して, どのような分析方法があるかを述べ, 統計的手法を用いる意味と重要性を指摘する 発表 3 テストの波及効果に注目し, テスト評価が学習者や社会に与える影響力を妥当性や実用性に関連付けて考察する 事例として, 海外の日本語教育現場で最も影響力のある 3 つの日本語能力テストを取り上げ, 今後の日本語能力テスト開発及び研究の課題も提示する 発表 4 コンピュータやウェブを利用したテストに注目し, 何を, どこまでできるかについて論じる 特に評価研究の新たな視点として, 自然言語処理の技術を応用したパフォーマンス評価の可能性について考える
狙い ( 願い ) 1. 評価の研究の面白さ 奥深さを伝える 2. 面白い話だったなぁ で終わらせない 3. 日頃の教育実践や研究に評価研究を意識する 伊東祐郎 近藤ブラウン妃美 http://jhlee.sakura.ne.jp/talk/nkg2018.pdf 島田めぐみ 野口裕之 李在鎬 ( 編 )
日本語教育学会 2018 春季大会パネル 評価研究の理論的視点 : テスティングと評価リテラシー 伊東祐郎 /ITO Sukero ( 東京外国語大学 ) 2018.5.26
発表 1 の目的 日本語教育における評価リテラシーについて考えてみる 言語テストが測定しようとしている日本語力の可視化について再確認する 妥当性と信頼性の高いテストの開発 実施に必要な事項をまとめてみる
身近に存在する測定道具 以下に示すものの数値はどのように測定してい るのか 1 身 長 身長計 2 体 重 体重計 物理特性 3 視 力 視力検査表 4 聴 力 聴力検査 5 知 能 知能検査 潜在特性 6 日本語力?
リテラシーとは リテラシー ( 英 : literacy) とは 原義では 読解記述力 を指す 転じて現代では ( 何らかのカタチで表現されたものを ) 適切に理解 解釈 分析し 改めて記述 表現する という意味に使われるようになり 日本語の 識字率 と同じ意味で用いられている (Wikipedia より )
評価リテラシー (LAL) とは 評価リテラシー ( 英 :Language Assessment Literacy(LAL)) とは 言語能力の評価にかかわる一連の手続きに必要となる技能的知識 (knowledge skills) と言われている 具体的には 1 評価方法の設計 2 評価の実施 3 評価結果の解釈 4 評価結果の活用 6 評価の事後報告に求められる技能的知識である テストの信頼性と妥当性を高めるための技能的知識
テスティングの史的変遷 (Spolsky,1978) 前科学的測定時代 (Pre-scientific era) 心理測定 構造言語学の時代 (The psychometric-structuralist era) 心理 社会言語学の時代 (The psycholinguistic-sociolinguistic era)
(1) 前科学的測定時代 テストの作成から 実施 採点 評価までの一連の作業は教師が管理運営 テストに関する特別な知識や作問技術など専門性が問われることがない時代 テストの精度の指標である信頼性や妥当性などの視点からテストを分析 評価することのなかった時代
(2) 心理測定 構造言語学の時代 教育測定や言語学から科学的基盤を得て テスト理論が独自の研究領域として確立 教育測定学は 集団知能検査の開発と平行して確立される 当時のテスト理論は テストの結果として得られる得点を真の値と誤差の和としてとらえ 記述統計学を基礎として信頼性を重視
(3) 心理 社会言語学の時代 言語能力はそれを構成する各要素が独立して存在するものではない 総合的かつ有機的に機能してはじめてコミュニケーションができる 統合的測定法 (integrative test) として提唱される 外国語能力を有機的な統合体であるとする立場
読解テストはどのような能力を 文法能力 文法 - 形態論 統語論 語彙 規則 - 綴り 句読点 社会言語学的能力 目的 トピック 背景知識 方略的能力 スキャニング スキミング 談話能力 結束生 一貫性 測定しようとしているか?
< グラフ 1> 読解 到達度テスト 得点分布 9 8 7 6 5 4 3 2 1 0~2 ~8 0 ~14 ~20 ~26 ~32 ~38 ~44 ~50 ~56 ~62 ~68 ~74 ~80 ~86 ~92 ~98
< グラフ 2> 読解 熟達度テスト 得点分布 7 6 5 4 3 2 1 0 0~2 ~8 ~14 ~20 ~26 ~32 ~38 ~44 ~50 ~56 ~62 ~68 ~74 ~80 ~86 ~92 ~98
2 つの異なる読解テストの得点を どう解釈すべきか? ある学生の 2 つの異なる読解テストの得点結果 到達度テスト 80 点 熟達度テスト 94 点 ( 最高点 ) この学生の読解力の解釈と得点の正しい利用法はいかにあるべきか?
2つの異なる読解テストが測定していたものは何か? 読解テキスト ( テスト内容 ) は どのような観点で選ばれていたのか テスト課題 ( 設問 ) は どのような読解能力 ( フ ロフィシェンシー ) を測定しようと設定されていたのか
重要な点 読解テキスト ( テストの内容 ) の妥当性を検討すると共に テスト得点を使用する方法の妥当性を検討することが重要である テスト得点がどのような読解能力を反映し 妥当性に貢献しているかを検討することが重要である 妥当性を検証するために テストが試験開発者が想定する言語能力をテスト得点に十分に影響を与えている と明確に説明できる根拠 (= 妥当性の根拠 ) が必要である
妥当性の根拠 妥当性 = 適切性 有意味性 有用性 テスト得点の解釈と利用との間の関係を裏付ける証拠を収集する (1) 内容適切性 (2) 基準関連性 (3) 構成概念の有意味性
妥当性の検討とは 問題作成のための手順の検討である テスト実施にかかわる全ての側面 手順は成績に影響を与える すなわち成績に差異を生むことになる
テスト得点に影響を与える要因 (Bachman,1990) プロフィシェンシー テスト方法の側面 テストの得点 個人的特性 ランダムな要因
テスト得点に影響を与える要因 1テスト方法の側面 言語能力を引き出すためのテスト方法にかかわる特性や諸相 テスト環境 テスト受験の指示 解答方法 課題に対する作業の特性 テスト形式 課題への慣れ 不慣れ 試験官の個性 特性
テスト得点に影響を与える要因 2 個人的特性 測定したい言語能力の一部とは考えられない受験者の特性 認知様式についての知識 特定の領域についての知識 年齢 性別 人種 民族 文化などの集団的特性 教育歴 社会背景 生活環境 テストにかかわる知恵 ( テスト準備 対策 )
テスト得点に影響を与える要因 3ランダムな要因 予測不可能で一時的な状態 状況によって変化する環境 精神的緊張感 認知的特徴 テスト実施者の任務遂行の方法
日本語教師に求められる LAL 1 言語運用能力を構成している要素と言語習得にかかわる知識 2 初級 中級 上級という言語運用能力の発達 漸増性にかかわる知識 3 言語運用能力の測定を目的としたテスト開発におけるテスト課題と発問の設定能力 4テストの信頼性 妥当性などテストの精度検証に必要な知識や技能
主な参考図書 日本語教師のためのテスト作成マニュアル 伊東祐郎 (2008) アルク 日本語教師のための評価入門 近藤ブラウン妃実 (2012) くろしお出版 テストを作る 関正昭 平高史也編村上京子他著 (2013) スリーエーネットワーク 言語テストの基礎知識 ブラウン, J.B. 和田稔訳 (1999) 大修館書店 < 実践 > 言語テスト作成法 バックマン, L.F. 他 大友賢二他監訳 (2000) 大修館書店 外国語の学習 教授 評価のためのヨーロッパ共通参照枠 吉島茂 大橋理枝訳編 (2004) 朝日出版
ありがとうございました
A L
4 E 4 4 F C 24 30 1 R 3 8.1 4 F8 E F 3
1 2. -
8 8 8 8 8 8 29-2 - 17. 546 8-0. 2 3. 8
H : D e a D2 M lt H H s e Ia IzF H 1 H D s zf F H -. n
H : D t D2 M H nh a zt I z I F H 1 l H D F F H -. s e n
a 7 a 3 H3 3 3 3 3 3 = = M. 28..0 -. 1 -
. G
-.
k. 210- ) 8 a h 6 a h 6 h S i
u S. 210- ) z a 8 i 6 i 6 h k
. - 2
( 6 - ( ). ( ) ) 0 6 ) 24
( 6 - ( ). ( ) ) 0 6 ) 24
2-3 2.
1 3536. -0 6 2 6 2
3 9 2 0-7 1. 7
5 9. 2 3-5 2 3-5 17-7 26 3
4 3 7 1 4 8 0.7 8 0.715 2-
0 5 8 3 5 5 9 7 9 42 2 6 1 3
Y Y h g f z v Opwysrps i -0 ST z g f z rps i STz Trprkyoc su nc dz ah iystz rps ey Tz c c gc ml t 4 7 5 57 8 3 67F A7 5 7 9 6 F 7J7 2, 8 AD7E F E 7 9 E D. F F F E I EF K E7 8 F 8 D ED F F 17D7
評価研究の社会的視点 : 日本語能力テストの波及効果 近藤ブラウン妃美ハワイ大学マノア校 Kimi Kondo-Brown University of Hawai i at Mānoa 日本語教育学会春季大会 2018 年 5 月 26 日 1
日本語テスト評価の影響力 テストの実施や受験という活動そのもの テスト結果の解釈と使用 社会全体 マクロ (Macro) レベル 教育現場 カリキュラム 指導マイクロ (Micro) レベル 学習者 学習 動機付け テストの影響力 (IMPACT) (Bachman & Palmer, 1996) 波及効果 (WASHBACK EFFECT) = 主にテストの指導と学習への影響力 (Hughes, 1989; 2003) 2
テスト評価の影響力と妥当性 Messick (1988) のテスト評価の妥当性枠組み Evidential basis ( 証拠ベース ) Consequential basis ( 影響ベース ) 実証的証拠 (empirical evidence) と理論的根拠が, テスト得点の解釈と使用の適切さをどの程度支持できるかを示す度合い テスト結果の解釈と使用の正当性を学習者, 教育現場, そして社会に与える影響という側面から判断 テスト開発者や使用者の価値判断 (value implications) がテスト評価にどのような影響? 3
言語テスト評価で有益な波及効果を達成する条件 ヒューズ, アーサー (2003) 英語のテストはこう作る 靜哲夫 ( 訳 ), 研究社社 [Hughes, A. (2003). Testing for language teachers (2nd ed.). Cambridge, UK: Cambridge University Press. 伸ばしてやりたい能力をテストせよ - 例えば, 話す能力を伸ばす努力をさせたいなら, 話す能力をテストすべきだ これは至極当たりまえのことである が驚くべきことに, この当たり前のことが非常にしばしば無視されている ( ヒューズ 2003, p. 58 [ 靜訳 ]) 直接テスティングを用いよー伸ばしてやりたい技能を直接テストすれば, そのテスト対策としてそういう技能を練習することになる ( ヒューズ 2003, p. 60 [ 靜訳 ]) 4
テスト評価の波及効果の予測の難しさ 保守的なテスト形式について推定される負の波及効果と, コミュニカティブなアセスメント ( 進化した形と思われている ) について推定される正の波及効果に関する両方の研究では, 波及効果は, 多くの場合, なかなか予測が難しいことが示されている ( マクナマラ 2004, p.89 [ 伊東他監訳 ]) マクナマラ, ティム (2004) 言語テスティング概論 伊東祐郎 三枝令子 島田めぐみ 野口裕之 ( 監訳 ), スリーエーネットワーク [McNamara, T. F. (2000) Language testing. Oxford: Oxford University Press. ] テストの波及効果の事後調査の必要性 5
テスト評価の実用性 言語を教えたりテストしたりするのに時間と資金が無限に使える最高の環境も考えられるであろうが, 残念ながら, このようなことは極めてまれである ( 中略 ) 教育やテストにどれほど経費がかかるか考えた上で決定を下さねばならない状況に常に直面している ( ブラウン 2005, p. 39 [ 和田訳 ]) ブラウン,J.D. (2005) 言語テストの基礎知識 正しい問題作成 評価のために 和田稔 ( 訳 ), 大修館書店 [Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice-Hall.] 6
テスト評価の有用 ( 有益 ) 性 (Green, 2014, p. 58) 有益な影響 (beneficial consequences) 妥当性 信頼性 実用性 ( 必要条件 ) Green, A. (2014). Exploring language assessment and testing: Language in action. New York, NY: Routledge. 7
米国で最も影響力のある日本語能力テスト : 現状と課題 1) 日本語能力試験 (Japanese Language Proficiency Test: JLPT) 2) 全米外国語教育協会 (The American Council on the Teaching of Foreign Languages: ACTFL) の日本語インタビュー式口頭能力試験 (Oral Proficiency Interview: OPI) 3) 日本語 AP [Advanced Placement] 試験 8
日本語能力試験 (JLPT) マークシートを使った選択式の受容テスト 言語知識 文字 語彙 文法 読解 聴解 課題遂行 のための言語コミュニケーション能力を測る https://www.jlpt.jp/about/points.html 9
日本語能力試験の影響力 1) 日本の多くの教育機関や企業が日本 語能力証明として利用している最重要テストの一つ ( 大隅 谷内 2015) 2) 2017 年度の受験者数は 88 万人を超 え, 海外での受験者は全体の約 3 分の 2 を占めている 参考 : 日本語能力試験ホームページ (http://www.jlpt.jp/) 10
日本語能力試験の波及効果 海外日本語学習者の学習意欲を高め, 日本語能力向上に役立ってきた ( 例, 田口 ブシマキナ ノヴィコワ 2016) 留学 就職 11
日本語能力試験の妥当性 1) マークシート式の受容テストで, 課題遂行のための言語コミュニケーション能力 を測っているというには, それなりの妥当性検証が必要 2) 受容テストだけを使用すると, そのテスト結果の解釈があてはまる領域 ( 一般化の領域 (domain of generalization) ) は 受容能力 の領域に限られるのではないか? 12
日本語能力試験 : 今後の課題 1) 今後の調査で, 日本語能力試験と ACTFL OPI の結果を比べる等, 同試験とスピーキング パフォーマンスの関係をもっと明らかにすべきだ (Hatasa & Watanabe, 2017, p. 199) 2) 今後, もし何らかのパフォーマンス テストを導入できるようになれば, その波及効果は大きい テストが変われば, 受験者がテスト準備のためにする学習方法や内容も変わる (Bachman & Palmer, 1996) 13
日本語能力試験 : 今後の課題 3) 口頭能力部門を増設するための調査 (1998 2001 年 ) が行われた ( 安高 2013) 4) 直接テストの増設が難しいのであれば, ACTFL OPI のようなパフォーマンス テスト が日本の大学や企業で認可される可 能性を検討する意味があるのでは? 14
全米外国語教育協会開発のインタビュー式口頭能力試験 (The American Council on the Teaching of Foreign Languages Oral Proficiency Interview[ACTFL OPI]) 15
ACTFL OPI について 1) 口頭の言語能力の測定を意図したテスト 2) 妥当性の面で, 過去に厳しい評価も受けてきたが, 今日米国で同試験よりも優れているとされる口頭テストは, まだ開発されていない ( 近藤ブラウン 2013, pp. 100-110) 3) プログラム評価や能力 資格認定の目的で米国で最も広域に使用されている 16
外国語教員免許取得のための ACTFL OPI 1) 米国の教員養成認定審議会は, 外国語教員免許候補者に ACTFL OPI 及び WPT の受 験を義務付け, 候補者は州認定の能力基準に達していなければ, 教員免許を取得できない 2) 全米の外国語教員養成プログラムのアクレディテ ション ( 教育の質保証認定 ) や教員候補者に多大な影響 (Glisan, Swender, & Surface, 2013) 17
外国語教員免許取得のための ACTFL OPI 米国の外国語教員養成にプラスの影響 (Kissau, 2014) 厳しすぎる (Burke, 2013) 中級上 上級下の 能力認定基準 適切である (Tedick, 2013) 能力認定基準を下げている州もある 18
ACTFL OPI のオンライン化 : 日本語 OPIc の実施 1) 以前は対面式か電話応答で OPI が行なわれていたが, 実用性を高めるためにオンライン化 $139/OPI $70/OPIc 2) 2017 年から日本語でもコンピュータ ベースの OPIc が使用できるようになった 19
日本語 OPIc の能力判定範囲 各レベルでターゲットになっている能力判定範囲〇実際のパフォーマンスが, 受験者の選んだターゲットレベルから外れても, 判定可能な能力範囲 初級下 初級中 初級上 中級下 中級中 中級上 上級下 上級中 上級上 超級 1 〇 2 〇〇 〇 3 〇〇〇〇 4 〇 〇 5 〇〇 https://www.languagetesting.com/oral-proficiency-interview-by-computer-opic 20
ACTFL OPI&OPIc: 今後の課題 1) 他言語 ( スペイン語 ) を扱った研究においては,OPIc の能力判定が OPI の結果より高い傾向にあると報告されている (Thomson, Cox, & Knapp, 2016) 2) 受験者に OPI と OPIc のどちらの口頭テストが望ましいかという問いには, OPI] と答えた者が圧倒的に多かった (Brown, Cox, & Thomson, 2017) 3) 今後, 日本語 OPIc の妥当性検証も必要 21
日本語 AP 試験 Japanese Language and Culture Exam(2007 年開始 ) 大学進学適正試験を管理しているカレッジ ボード (College board) の大学単位認 定試験 毎年,2400 名以上の高校生が日本語 A P 試験を受けている 22
日本語 AP 試験 米国のナショナル スタンダーズ (National Standards)( ワールド ランゲージ教育基準 ) に基づく コミュニケーション能力 日本文化の知識 やりとり interpersonal 解釈 interpretive 発表 presentational 23
日本語 AP 試験 : 構成 すべての設問がコンピュータ べース テスト内容 設問形式 設問数 点数配分 リスニング 多枝選択 30-35 25% リーディング 多枝選択 35-40 25% スピーキング ( 対話型 ) 自由回答 4 12.5% スピーキング ( 提示型 ) 自由回答 1 12.5% ライティング ( 対話型 ) 自由回答 / 記述式ライティング ( 提示型 ) 自由回答 / 記述式 5 12.5% 1 12.5% https://apcentral.collegeboard.org/courses/ap-japanese-language-and-culture/exam 24
日本語 AP 試験 : 5 段階の能力判定 米国の大学で日本語を約 2 年間学んだ学習者に期待される日本語能力レベル ( 中級下 ~ 中級中 ) にどの程度達しているのか? 5 点 : Extremely well qualified 4 点 : Well qualified 3 点 : Qualified 2 点 : Possibly qualified 1 点 :No recommendation 大学単位取得可能25 合格点
日本語 AP 試験結果 (2017 年度 ) 1200 1000 米国の外国語 800 継承語としての600 日本語学習者に400 大きな影響 200 NON STANDARD 受験者 ( 継承語学習者等 ) 0 5 点 4 点 3 点 2 点 1 点 862 100 114 23 22 STANDARD 受験者 234 167 392 177 338 Data derived from: http://apcentral.collegeboard.com/apc/members/exam/exam_information/157014.html 26
日本語 AP 試験 : 今後の課題 1) 日本語 AP 試験の妥当性研究はあまりない 2) 多枝選択問題の項目分析は定期的にされているらしいが, 自由回答問題の妥当性に関しては実態がよくわからない 日本語 AP 試験 ( 自由回答問題 ) の妥当性検証 (Suzumura, in progress) 3) 米国での日本語教育を後押ししているようだが ( 国際交流基金 2017), 妥当性に関する事後調査を基に, テスト開発者やテスト結果の利用者 ( 例. 大学 ) は何をすべきか? 27
まとめ : 米国で最も影響力のある日本語能力テスト AP JLPT 妥当性に関する今後の研究課題 プラスの 影響力 ACTFL OPI 実用性とのバランス 妥当性 実用性 28
引用文献 1) 安高紀子 (2015) コンピュータによる日本語口頭能力テスト 李在鎬 ( 編 ) 日本語教育のための言語テストガイドブック 第 10 章, くろしお出版,pp. 195 212. 2) 大隅敦子 谷内美智子 (2015) コンピュータによる日本語口頭能力テスト 李在鎬 ( 編 ) 日本語教育のための言語テストガイドブック 第 2 章, くろしお出版,pp. 31 48. 3) 国際交流基金 (2017) 日本語教育国 地域別情報 : 米国 2017 年度 <https://www.jpf.go.jp/j/project/japanese/survey/area/country/2017/usa.html> ( 2018 年 1 月 5 日 ) 4) 近藤ブラウン妃美 (2012) 日本語教師のための評価入門 くろしお出版 5) ユーズ, アーサー (2003) 英語のテストはこう作る 靜哲夫 ( 訳 ), 研究社 [Hughes, A. (2003). Testing for language teachers (2nd ed.). Cambridge, UK: Cambridge University Press. 6) 田口智之 ブシマキナ, アナスタシア ノヴィコワ, オリガ (2016) 日本語学習動機づけ分析のための学習課題価値尺度の作成 : ロシア人大学生を対象に APU 言語研究論叢 第 1 巻, 71 84. <http://r cube.ritsumei.ac.jp/repo/repository/rcube/7633/aplj.pdf> (2018 年 2 月 15 日 ) 7) ブラウン,J.D. (2005) 言語テストの基礎知識 正しい問題作成 評価のために 和田稔 ( 訳 ), 大修館書店 [Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall.] 29
引用文献 8) マクナマラ, ティム (2004) 言語テスティング概論 伊東祐郎 三枝令子 島田めぐみ 野口裕之 ( 監訳 ), スリーエーネットワーク [McNamara, T. F. (2000) Language testing. Oxford: Oxford University Press. ] 9) Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice:designing and developing useful language tests. Oxford, UK: Oxford University Press. 10) Burke, B. (2013). Looking into a crystal ball: Is requiring high stakes language proficiency tests really going to improve world language education? The Modern Language Journal, 97 (2), 531 534. 11) Brown, A. V., Cox, T. L., & Thompson, G. L. (2017). A comparative discourse analysis of Spanish past narrations from the ACTFL OPI and OPIc. Foreign Language Annals, 50 (4), 793 807. 12) Glisan, E. W., Swender, E., & Surface, E. A. (2013). Oral proficiency standards and Foreign language teacher candidates: Current findings and future research directions. Foreign Language Annals, 46 (2), 264 289. 13) Green, A. (2014). Exploring language assessment and testing: Language in action. New York, NY: Routledge. 30
引用文献 14) Hatasa, Y., & Watanabe, T. (2017). Japanese as a second language assessment in Japan: Current issues and future directions. Language Assessment Quarterly, 14 (3), 192 213. 15) Hughes, A. (1989). Testing for language teachers. Cambridge, UK: Cambridge University Press. 16) Kissau, S. (2014). The impact of the oral proficiency interview on one foreign language teacher education program. Foreign Language Annals, 47, 527 545. 17) Messick, S. (1988). The once and future issues of validity: Assessing the meaning and consequences of measurement. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 33 45). Hillsdale, NJ: Lawrence Erlbaum Associates. 18) Suzumura, N. (in progress). Examining the usefulness of the computer based speaking tasks of the AP Japanese language and culture exam. PhD Dissertation. University of Hawaii at Manoa. 19) Tedick, D. J. (2013). Embracing proficiency and program standards and rising to the challenge: A response to Burke. The Modern Language Journal, 97 (2), 535 538. 20) Thompson, G. L., Cox, T. L., & Knapp, N. (2016). Comparing the OPI and OPIc: The effect of test method on oral proficiency scores and student preference. Foreign Language Annals, 49, 75 92. 31
評価研究の拡張的視点 : コンピュータ工学と評価研究 李在鎬 ( 早稲田大学 ) http://jhlee.sakura.ne.jp/talk/ngk2018.pdf
発表目的 1. コンピュータを用いた評価の現状を紹介する 特に英語圏での研究状況や教育工学分野における研究状況を紹介 2. テキストマイニングによる評価研究の事例紹介 作文の自動評価に関するシステムを紹介
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー Chapelle&Voss 2016, 言語学習とテクノロジーの進化を検討 LLT(Language, Learning and Technology) で 198 本の論文あり 学習者の言語能力の評価は言語教育の重要な部分であり コンピュータ技術の影響を言語学習と同じくらい重要なもの (Chapelle&Voss 2016) テクノロジーの有用性 : 適応型テスティング (Adaptive Testing) と作文の自動評価 (Automated Writing Evaluation) http://www.lltjournal.org/item/2950 Chapelle, C.A. & Voss, E. (2016). 20 years of technology and language assessment in Language Learning & Technology. Language, Learning and Technology 20(2):116-128.
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー CBT: コンピュータを用いて出題, 実施されるテストの総称 90 年台 CALL(computer-assisted language learning) を言語テストへ拡張,CALT (Computer-Assisted Language Testing) から Computer-Adaptive Language Testing(Brown 1997, Dunkel 1999) 言語テストにおけるテクノロジーの飛躍的進化 CAT(Computer-Adaptive Test, コンピュータ適応型テスト )( 赤倉 柏原 2016): 受験者の解答履歴から学力である能力値を逐次的に推定し, その能力値に応じて情報量が最大の項目を出題する CBT の方式 * 難しすぎず易しすぎずの項目 Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59. Dunkel, P. A. (1999). Considerations in developing or using second/foreign language proficiency computer-adaptive tests. Language Learning & Technology, 2(2), 77 93. 日本教育工学会 ( 監修 ) 赤倉貴子 柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー e テスティング,IBT: コンピュータ + ネットワークでテストを展開 CBT の成 形 3 つの特徴 ( 植野 永岡 ( 編 )(2009)) 1. マルチメディアによる質問項目の提示 2. ネットワーク上でのテスト実施 3. コンピュータの計算 / 推論機能によるテスト構成支援 これらの有機的融合でペーパーベースのテストでは実現できないメリットが得られる 植野真臣 永岡慶三 ( 編 )(2009) e テスティング 培風館
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー テストにコンピュータを導入する意義は何か? CBTの意義 (Educational Testing Service 1996) 1. テスト設計の強化 2. テスト管理のスケジューリングの柔軟性の向上 3. テストの管理をより標準化できる 4. 受験者の能力に応じた測定が可能 5. ライティングテストの選択的導入 6. 多様な回答行動を記録 7. テストデザインと実施における将来の革新につながるプラットフォーム Educational Testing Service. (1996). TOEFL: Announcing computer-based testing. Princeton, NJ: Educational Testing Service.
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー 受験者視点でみた CBT の優れている点 (Brown1997) 1. 多枝選択式のテストでは得点の計算が人間よりはるかに正確 2. テストの得点を即座にフィードバックできる 3. 項目応答理論を導入することで個人の能力にあった適確な測定ができる 4. 各個人ベースのテストを配信することで自分のペースに合わせてテストを受けられる 5. 多くの学生はコンピュータを好み, テストプロセスを楽しむことができる https://scholarspace.manoa.hawaii.edu/bitstream/10125/25003/1/01_01_brown.pdf Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59.
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー 作成者 実施者視点でみた CBT e テスティングの優れている点 ( 植野 2012, 李 2015) 1. テストの配布 回収が自動で可能 2. テストの印刷 運搬のコストがかからない 3. 多様な素材 ( 動画, 音声 ) を利用したテスト作成が可能 4. テスト素材の提示に関する制御が可能 5. 回答行動に関する数値データからテストの改善が可能 6. テストの自動構成が可能 植野真臣 (2012) e テスティング 永岡慶三ほか ( 編 ) 教育工学における学習評価 ミネルヴァ書房李在鎬 ( 編 )(2015) 日本語教育のための言語テストガイドブック くろしお出版
正答率によって上位群と下位群に分岐する 作文テストで得点率 :25% 以下 テストの自動構成の例 J100 J300 作文テストで得点率 :26% 以上 J400 J800 1. パターン1: 文法分岐テスト (10 問 ) で50% 以下は,J100に判定 テストは終了 2. パターン2: 文完成で25% 以下は初級向け 3. パターン3: 文完成で25% 以上は中上級向け
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー 開発者視点でみた CBT の優れている点 ( 赤倉 2016) 1. テストをコンピュータを使って実施することにより ペーパーテストでは収集できない情報を大量に得ることができること 2. 大規模な出題項目 ( テストの問題 ) データベースを含む 出題項目を管理するためのアイテムバンクを構築できることから 受験者の能力を測定するための最適な項目を出題できる適応型テストの構成が容易であること イノベーションにつなげられる 得点以外の情報で学習者の理解度を確認できる 新たなフィードバックができる 赤倉貴子 柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー デメリット (Brown1997) 1. インフラが整っているところでしか実施できない ( 現在は解決 ) 2. マシンパワーや画面サイズの制約をうけることも考えられる ( 現在は解決 ) 3. ICT リテラシーが成績に影響する 4. コンピュータ操作に対する不安がパフォーマンスに影響する https://scholarspace.manoa.hawaii.edu/bitstream/10125/25003/1/01_01_brown.pdf Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59.
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー CBT をめぐる様々な技術革新 1. 新たなプラットフォームの提案 小規模システムの提案 (Googleフォームや Kahoot! など ) も提案 2. 個人認証技術の進化 ( 画像認識技術 生体認証 ) 3. ウェブベースのシステム化により 身近な存在として定着 次の10 年に向けての研究課題 1. パフォーマンス評価, 産出能力の評価 2. 関連技術の導入 ( 言語処理, 音声認識, 機械学習 ) 3. 学習者の誤りの可視化
英作文における誤りの可視化例 http://www.ccr.kyutech.ac.jp/professors/iizuka/i7/i7-2/entry-653.html 学習者の作文をもとにアニメーション 教材をもとにアニメーション 東本崇仁 (2016) 教育現場での e テスティング技術の利用 応用 赤倉貴子 柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー 人のことばを理解しているかのように振る舞う機械 1. 自然言語処理の要素技術 ( 形態素解析, 係り受け解析, 文脈処理, 照応処理 ) をもとに進化 2. ウェブによる大量データの収集が可能 3. 汎用的な方法論を利用 テキストマイニング, データマイニング ( 豊田 2008), エデュケーショナルデータマイニング (Romero and Ventura (2013) Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 3(1), 12 27. 豊田秀樹 (2008) データマイニング入門 東京図書.
https://jreadability.net/ JWRITER 作文のレベル =1.637+ 平均文 0.045+ 中級後半語数 0.021+TTR -0.430+ 動詞数 0.015+ 中級前半語数 0.011+ 総文字数 -0.004+ 和語数 0.007+ 漢語数 0.007(R 2 =0.760) 李 部 迫田 (2017) 李在鎬, 部陽 郎, 迫田久美子 (2017) 人工知能の仕組みを利用した学習者作文評価システム jwriter I-JAS を利用した試み 日本語教育学会 2017 秋季大会 ( 新潟朱鷺メッセ )
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 学習者コーパスの活用 1. I-JAS(International Corpus of Japanese as a Second Language) の作文データから日本語の習熟度に応じたことばの癖を学習 2. 新しいテキストに対して,I-JAS のどのレベルともっとも類似しているかを回帰式でもって判定 3. より良い作文を書くためのアドバイスなども行う ( 診断的評価 ) 語彙のバランスの良し悪し, 表現の さ, 語彙の分かりやすさなど
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 評価指標について Type/Token Ratio 平均文 漢語 TTR 中級後半語彙
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 評価指標について
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 人の評価とコンピュータの評価 縦軸 : 日本語作文 30 編に対して大学教員 44 名がつけた 5 段階評定値に対して IRT(Item Response Theory: 項目応答理論 ) 系モデルで各作文の潜在特性尺度値 ( 以下, 能力値 θ ) を推定 ( 伊集院ほか 2017 のデータ ) 横軸 :jwriter による評価値 伊集院郁子, 李在鎬, 小森和子, 野口裕之 (2017) IRT 系モデルと Readability による日本語作文の定量的分析 大学教員による評価とコンピュータによる自動評価の比較 日本語教育学会 2017 秋季大会 ( 新潟朱鷺メッセ )
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf より良いコンピュータベースのパフォーマンス評価のために 1. 現状として人の評価に対して,7 8 割程度しか当てられない 2. 評価指標の妥当性の検証が難しい なぜこれらの指標が選択されたのかは分からない データがこうなっているから 3. コンピュータ分析指標と作文教育の指導方針が異なっている
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf より良いコンピュータベースのパフォーマンス評価のために 1. 現状として人の評価に対して,7 8 割程度しか当てられない 人間同士でもずれることを考えると, この精度が限界 2. 評価指標の妥当性の検証が難しい なぜこれらの指標が選択されたのかは分からない データがこうなっているから 日本語教師の経験知を移植する 人の評価ではどんなところに注目するのかを調査 3. コンピュータ分析指標と作文教育の指導方針が異なっている モダリティをもとに論理構造の把握できるシステムへ 例示 ( あげられる ),
http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 最後に 言語能力を評価する立場としての教師に求められるもの 1. 評価リテラシー ( 伊東 )+ 統計リテラシー ( 島田 )+IT リテラシー ( 李 ) 2. 意識改革 : テストがかわれば, 教育や受験者や社会がかわる ( 近藤 ) あまり勉強してないな 今学期の学生はできがわるいな 現象 今学期の問題は出来が悪いな 学生の能力に合わない問題を作ったかも 評価を意識しない教師 評価を意識する教師