日本語教育学会発表資料（李・伊東・島田・近藤）

2018 年度日本語教育学会春季大会パネルセッション 1 PPT 資料 : http://jhlee.sakura.ne.jp/talk/nkg2018.pdf 日本語教育におけるこれからの評価研究を考える李在鎬 ( 早稲田大学 ) 伊東祐郎 ( 東京外国語大学 ) 島田めぐみ ( 日本大学 ) 近藤ブラウン妃美 ( ハワイ大学マノア校 )

ゴール言語教育における評価の重要性を確認した上で, これからの日本語教育における評価活動および研究の活性化のため, 特に今後の日本語テスト開発や研究においてどのような視点が必要か検討する http://jhlee.sakura.ne.jp/talk/nkg2018.pdf

発表 1 評価研究を支える理論的視点について論じる具体的には, 評価研究の過去と現在をつなぐ視点としてコミュニケーション能力論から心理測定, 第二言語習得理論の理論的展開にいたる枠組みを概観した上でテストと評価リテラシーについて考える発表 2 テスト研究の実際を支える方法論的視点および分析的視点について論じる特にデータ科学の観点から, データに対して, どのような分析方法があるかを述べ, 統計的手法を用いる意味と重要性を指摘する発表 3 テストの波及効果に注目し, テスト評価が学習者や社会に与える影響力を妥当性や実用性に関連付けて考察する事例として, 海外の日本語教育現場で最も影響力のある 3 つの日本語能力テストを取り上げ, 今後の日本語能力テスト開発及び研究の課題も提示する発表 4 コンピュータやウェブを利用したテストに注目し, 何を, どこまでできるかについて論じる特に評価研究の新たな視点として, 自然言語処理の技術を応用したパフォーマンス評価の可能性について考える

狙い ( 願い ) 1. 評価の研究の面白さ奥深さを伝える 2. 面白い話だったなぁで終わらせない 3. 日頃の教育実践や研究に評価研究を意識する伊東祐郎近藤ブラウン妃美 http://jhlee.sakura.ne.jp/talk/nkg2018.pdf 島田めぐみ野口裕之李在鎬 ( 編 )

日本語教育学会 2018 春季大会パネル評価研究の理論的視点 : テスティングと評価リテラシー伊東祐郎 /ITO Sukero ( 東京外国語大学 ) 2018.5.26

発表 1 の目的日本語教育における評価リテラシーについて考えてみる言語テストが測定しようとしている日本語力の可視化について再確認する妥当性と信頼性の高いテストの開発実施に必要な事項をまとめてみる

身近に存在する測定道具以下に示すものの数値はどのように測定しているのか 1 身長身長計 2 体重体重計物理特性 3 視力視力検査表 4 聴力聴力検査 5 知能知能検査潜在特性 6 日本語力?

リテラシーとはリテラシー ( 英 : literacy) とは原義では読解記述力を指す転じて現代では ( 何らかのカタチで表現されたものを ) 適切に理解解釈分析し改めて記述表現するという意味に使われるようになり日本語の識字率と同じ意味で用いられている (Wikipedia より )

評価リテラシー (LAL) とは評価リテラシー ( 英 :Language Assessment Literacy(LAL)) とは言語能力の評価にかかわる一連の手続きに必要となる技能的知識 (knowledge skills) と言われている具体的には 1 評価方法の設計 2 評価の実施 3 評価結果の解釈 4 評価結果の活用 6 評価の事後報告に求められる技能的知識であるテストの信頼性と妥当性を高めるための技能的知識

テスティングの史的変遷 (Spolsky,1978) 前科学的測定時代 (Pre-scientific era) 心理測定構造言語学の時代 (The psychometric-structuralist era) 心理社会言語学の時代 (The psycholinguistic-sociolinguistic era)

(1) 前科学的測定時代テストの作成から実施採点評価までの一連の作業は教師が管理運営テストに関する特別な知識や作問技術など専門性が問われることがない時代テストの精度の指標である信頼性や妥当性などの視点からテストを分析評価することのなかった時代

(2) 心理測定構造言語学の時代教育測定や言語学から科学的基盤を得てテスト理論が独自の研究領域として確立教育測定学は集団知能検査の開発と平行して確立される当時のテスト理論はテストの結果として得られる得点を真の値と誤差の和としてとらえ記述統計学を基礎として信頼性を重視

(3) 心理社会言語学の時代言語能力はそれを構成する各要素が独立して存在するものではない総合的かつ有機的に機能してはじめてコミュニケーションができる統合的測定法 (integrative test) として提唱される外国語能力を有機的な統合体であるとする立場

読解テストはどのような能力を文法能力文法 - 形態論統語論語彙規則 - 綴り句読点社会言語学的能力目的トピック背景知識方略的能力スキャニングスキミング談話能力結束生一貫性測定しようとしているか?

< グラフ 1> 読解到達度テスト得点分布 9 8 7 6 5 4 3 2 1 0~2 ~8 0 ~14 ~20 ~26 ~32 ~38 ~44 ~50 ~56 ~62 ~68 ~74 ~80 ~86 ~92 ~98

< グラフ 2> 読解熟達度テスト得点分布 7 6 5 4 3 2 1 0 0~2 ~8 ~14 ~20 ~26 ~32 ~38 ~44 ~50 ~56 ~62 ~68 ~74 ~80 ~86 ~92 ~98

2 つの異なる読解テストの得点をどう解釈すべきか? ある学生の 2 つの異なる読解テストの得点結果到達度テスト 80 点熟達度テスト 94 点 ( 最高点 ) この学生の読解力の解釈と得点の正しい利用法はいかにあるべきか?

2つの異なる読解テストが測定していたものは何か? 読解テキスト ( テスト内容 ) はどのような観点で選ばれていたのかテスト課題 ( 設問 ) はどのような読解能力 ( フロフィシェンシー ) を測定しようと設定されていたのか

重要な点読解テキスト ( テストの内容 ) の妥当性を検討すると共にテスト得点を使用する方法の妥当性を検討することが重要であるテスト得点がどのような読解能力を反映し妥当性に貢献しているかを検討することが重要である妥当性を検証するためにテストが試験開発者が想定する言語能力をテスト得点に十分に影響を与えていると明確に説明できる根拠 (= 妥当性の根拠 ) が必要である

妥当性の根拠妥当性 = 適切性有意味性有用性テスト得点の解釈と利用との間の関係を裏付ける証拠を収集する (1) 内容適切性 (2) 基準関連性 (3) 構成概念の有意味性

妥当性の検討とは問題作成のための手順の検討であるテスト実施にかかわる全ての側面手順は成績に影響を与えるすなわち成績に差異を生むことになる

テスト得点に影響を与える要因 (Bachman,1990) プロフィシェンシーテスト方法の側面テストの得点個人的特性ランダムな要因

テスト得点に影響を与える要因 1テスト方法の側面言語能力を引き出すためのテスト方法にかかわる特性や諸相テスト環境テスト受験の指示解答方法課題に対する作業の特性テスト形式課題への慣れ不慣れ試験官の個性特性

テスト得点に影響を与える要因 2 個人的特性測定したい言語能力の一部とは考えられない受験者の特性認知様式についての知識特定の領域についての知識年齢性別人種民族文化などの集団的特性教育歴社会背景生活環境テストにかかわる知恵 ( テスト準備対策 )

テスト得点に影響を与える要因 3ランダムな要因予測不可能で一時的な状態状況によって変化する環境精神的緊張感認知的特徴テスト実施者の任務遂行の方法

日本語教師に求められる LAL 1 言語運用能力を構成している要素と言語習得にかかわる知識 2 初級中級上級という言語運用能力の発達漸増性にかかわる知識 3 言語運用能力の測定を目的としたテスト開発におけるテスト課題と発問の設定能力 4テストの信頼性妥当性などテストの精度検証に必要な知識や技能

主な参考図書日本語教師のためのテスト作成マニュアル伊東祐郎 (2008) アルク日本語教師のための評価入門近藤ブラウン妃実 (2012) くろしお出版テストを作る関正昭平高史也編村上京子他著 (2013) スリーエーネットワーク言語テストの基礎知識ブラウン, J.B. 和田稔訳 (1999) 大修館書店 < 実践 > 言語テスト作成法バックマン, L.F. 他大友賢二他監訳 (2000) 大修館書店外国語の学習教授評価のためのヨーロッパ共通参照枠吉島茂大橋理枝訳編 (2004) 朝日出版

ありがとうございました

A L

4 E 4 4 F C 24 30 1 R 3 8.1 4 F8 E F 3

1 2. -

8 8 8 8 8 8 29-2 - 17. 546 8-0. 2 3. 8

H : D e a D2 M lt H H s e Ia IzF H 1 H D s zf F H -. n

H : D t D2 M H nh a zt I z I F H 1 l H D F F H -. s e n

a 7 a 3 H3 3 3 3 3 3 = = M. 28..0 -. 1 -

. G

k. 210- ) 8 a h 6 a h 6 h S i

u S. 210- ) z a 8 i 6 i 6 h k

. - 2

( 6 - ( ). ( ) ) 0 6 ) 24

2-3 2.

1 3536. -0 6 2 6 2

3 9 2 0-7 1. 7

5 9. 2 3-5 2 3-5 17-7 26 3

4 3 7 1 4 8 0.7 8 0.715 2-

0 5 8 3 5 5 9 7 9 42 2 6 1 3

Y Y h g f z v Opwysrps i -0 ST z g f z rps i STz Trprkyoc su nc dz ah iystz rps ey Tz c c gc ml t 4 7 5 57 8 3 67F A7 5 7 9 6 F 7J7 2, 8 AD7E F E 7 9 E D. F F F E I EF K E7 8 F 8 D ED F F 17D7

評価研究の社会的視点 : 日本語能力テストの波及効果近藤ブラウン妃美ハワイ大学マノア校 Kimi Kondo-Brown University of Hawai i at Mānoa 日本語教育学会春季大会 2018 年 5 月 26 日 1

日本語テスト評価の影響力テストの実施や受験という活動そのものテスト結果の解釈と使用社会全体マクロ (Macro) レベル教育現場カリキュラム指導マイクロ (Micro) レベル学習者学習動機付けテストの影響力 (IMPACT) (Bachman & Palmer, 1996) 波及効果 (WASHBACK EFFECT) = 主にテストの指導と学習への影響力 (Hughes, 1989; 2003) 2

テスト評価の影響力と妥当性 Messick (1988) のテスト評価の妥当性枠組み Evidential basis ( 証拠ベース ) Consequential basis ( 影響ベース ) 実証的証拠 (empirical evidence) と理論的根拠が, テスト得点の解釈と使用の適切さをどの程度支持できるかを示す度合いテスト結果の解釈と使用の正当性を学習者, 教育現場, そして社会に与える影響という側面から判断テスト開発者や使用者の価値判断 (value implications) がテスト評価にどのような影響? 3

言語テスト評価で有益な波及効果を達成する条件ヒューズ, アーサー (2003) 英語のテストはこう作る靜哲夫 ( 訳 ), 研究社社 [Hughes, A. (2003). Testing for language teachers (2nd ed.). Cambridge, UK: Cambridge University Press. 伸ばしてやりたい能力をテストせよ - 例えば, 話す能力を伸ばす努力をさせたいなら, 話す能力をテストすべきだこれは至極当たりまえのことであるが驚くべきことに, この当たり前のことが非常にしばしば無視されている ( ヒューズ 2003, p. 58 [ 靜訳 ]) 直接テスティングを用いよー伸ばしてやりたい技能を直接テストすれば, そのテスト対策としてそういう技能を練習することになる ( ヒューズ 2003, p. 60 [ 靜訳 ]) 4

テスト評価の波及効果の予測の難しさ保守的なテスト形式について推定される負の波及効果と, コミュニカティブなアセスメント ( 進化した形と思われている ) について推定される正の波及効果に関する両方の研究では, 波及効果は, 多くの場合, なかなか予測が難しいことが示されている ( マクナマラ 2004, p.89 [ 伊東他監訳 ]) マクナマラ, ティム (2004) 言語テスティング概論伊東祐郎三枝令子島田めぐみ野口裕之 ( 監訳 ), スリーエーネットワーク [McNamara, T. F. (2000) Language testing. Oxford: Oxford University Press. ] テストの波及効果の事後調査の必要性 5

テスト評価の実用性言語を教えたりテストしたりするのに時間と資金が無限に使える最高の環境も考えられるであろうが, 残念ながら, このようなことは極めてまれである ( 中略 ) 教育やテストにどれほど経費がかかるか考えた上で決定を下さねばならない状況に常に直面している ( ブラウン 2005, p. 39 [ 和田訳 ]) ブラウン,J.D. (2005) 言語テストの基礎知識正しい問題作成評価のために和田稔 ( 訳 ), 大修館書店 [Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice-Hall.] 6

テスト評価の有用 ( 有益 ) 性 (Green, 2014, p. 58) 有益な影響 (beneficial consequences) 妥当性信頼性実用性 ( 必要条件 ) Green, A. (2014). Exploring language assessment and testing: Language in action. New York, NY: Routledge. 7

米国で最も影響力のある日本語能力テスト : 現状と課題 1) 日本語能力試験 (Japanese Language Proficiency Test: JLPT) 2) 全米外国語教育協会 (The American Council on the Teaching of Foreign Languages: ACTFL) の日本語インタビュー式口頭能力試験 (Oral Proficiency Interview: OPI) 3) 日本語 AP [Advanced Placement] 試験 8

日本語能力試験 (JLPT) マークシートを使った選択式の受容テスト言語知識文字語彙文法読解聴解課題遂行のための言語コミュニケーション能力を測る https://www.jlpt.jp/about/points.html 9

日本語能力試験の影響力 1) 日本の多くの教育機関や企業が日本語能力証明として利用している最重要テストの一つ ( 大隅谷内 2015) 2) 2017 年度の受験者数は 88 万人を超え, 海外での受験者は全体の約 3 分の 2 を占めている参考 : 日本語能力試験ホームページ (http://www.jlpt.jp/) 10

日本語能力試験の波及効果海外日本語学習者の学習意欲を高め, 日本語能力向上に役立ってきた ( 例, 田口ブシマキナノヴィコワ 2016) 留学就職 11

日本語能力試験の妥当性 1) マークシート式の受容テストで, 課題遂行のための言語コミュニケーション能力を測っているというには, それなりの妥当性検証が必要 2) 受容テストだけを使用すると, そのテスト結果の解釈があてはまる領域 ( 一般化の領域 (domain of generalization) ) は受容能力の領域に限られるのではないか? 12

日本語能力試験 : 今後の課題 1) 今後の調査で, 日本語能力試験と ACTFL OPI の結果を比べる等, 同試験とスピーキングパフォーマンスの関係をもっと明らかにすべきだ (Hatasa & Watanabe, 2017, p. 199) 2) 今後, もし何らかのパフォーマンステストを導入できるようになれば, その波及効果は大きいテストが変われば, 受験者がテスト準備のためにする学習方法や内容も変わる (Bachman & Palmer, 1996) 13

日本語能力試験 : 今後の課題 3) 口頭能力部門を増設するための調査 (1998 2001 年 ) が行われた ( 安高 2013) 4) 直接テストの増設が難しいのであれば, ACTFL OPI のようなパフォーマンステストが日本の大学や企業で認可される可能性を検討する意味があるのでは? 14

全米外国語教育協会開発のインタビュー式口頭能力試験 (The American Council on the Teaching of Foreign Languages Oral Proficiency Interview[ACTFL OPI]) 15

ACTFL OPI について 1) 口頭の言語能力の測定を意図したテスト 2) 妥当性の面で, 過去に厳しい評価も受けてきたが, 今日米国で同試験よりも優れているとされる口頭テストは, まだ開発されていない ( 近藤ブラウン 2013, pp. 100-110) 3) プログラム評価や能力資格認定の目的で米国で最も広域に使用されている 16

外国語教員免許取得のための ACTFL OPI 1) 米国の教員養成認定審議会は, 外国語教員免許候補者に ACTFL OPI 及び WPT の受験を義務付け, 候補者は州認定の能力基準に達していなければ, 教員免許を取得できない 2) 全米の外国語教員養成プログラムのアクレディテション ( 教育の質保証認定 ) や教員候補者に多大な影響 (Glisan, Swender, & Surface, 2013) 17

外国語教員免許取得のための ACTFL OPI 米国の外国語教員養成にプラスの影響 (Kissau, 2014) 厳しすぎる (Burke, 2013) 中級上上級下の能力認定基準適切である (Tedick, 2013) 能力認定基準を下げている州もある 18

ACTFL OPI のオンライン化 : 日本語 OPIc の実施 1) 以前は対面式か電話応答で OPI が行なわれていたが, 実用性を高めるためにオンライン化 $139/OPI $70/OPIc 2) 2017 年から日本語でもコンピュータベースの OPIc が使用できるようになった 19

日本語 OPIc の能力判定範囲各レベルでターゲットになっている能力判定範囲〇実際のパフォーマンスが, 受験者の選んだターゲットレベルから外れても, 判定可能な能力範囲初級下初級中初級上中級下中級中中級上上級下上級中上級上超級 1 〇 2 〇〇〇 3 〇〇〇〇 4 〇〇 5 〇〇 https://www.languagetesting.com/oral-proficiency-interview-by-computer-opic 20

ACTFL OPI&OPIc: 今後の課題 1) 他言語 ( スペイン語 ) を扱った研究においては,OPIc の能力判定が OPI の結果より高い傾向にあると報告されている (Thomson, Cox, & Knapp, 2016) 2) 受験者に OPI と OPIc のどちらの口頭テストが望ましいかという問いには, OPI] と答えた者が圧倒的に多かった (Brown, Cox, & Thomson, 2017) 3) 今後, 日本語 OPIc の妥当性検証も必要 21

日本語 AP 試験 Japanese Language and Culture Exam(2007 年開始 ) 大学進学適正試験を管理しているカレッジボード (College board) の大学単位認定試験毎年,2400 名以上の高校生が日本語 A P 試験を受けている 22

日本語 AP 試験米国のナショナルスタンダーズ (National Standards)( ワールドランゲージ教育基準 ) に基づくコミュニケーション能力日本文化の知識やりとり interpersonal 解釈 interpretive 発表 presentational 23

日本語 AP 試験 : 構成すべての設問がコンピュータべーステスト内容設問形式設問数点数配分リスニング多枝選択 30-35 25% リーディング多枝選択 35-40 25% スピーキング ( 対話型 ) 自由回答 4 12.5% スピーキング ( 提示型 ) 自由回答 1 12.5% ライティング ( 対話型 ) 自由回答 / 記述式ライティング ( 提示型 ) 自由回答 / 記述式 5 12.5% 1 12.5% https://apcentral.collegeboard.org/courses/ap-japanese-language-and-culture/exam 24

日本語 AP 試験 : 5 段階の能力判定米国の大学で日本語を約 2 年間学んだ学習者に期待される日本語能力レベル ( 中級下 ~ 中級中 ) にどの程度達しているのか? 5 点 : Extremely well qualified 4 点 : Well qualified 3 点 : Qualified 2 点 : Possibly qualified 1 点 :No recommendation 大学単位取得可能25 合格点

日本語 AP 試験結果 (2017 年度 ) 1200 1000 米国の外国語 800 継承語としての600 日本語学習者に400 大きな影響 200 NON STANDARD 受験者 ( 継承語学習者等 ) 0 5 点 4 点 3 点 2 点 1 点 862 100 114 23 22 STANDARD 受験者 234 167 392 177 338 Data derived from: http://apcentral.collegeboard.com/apc/members/exam/exam_information/157014.html 26

日本語 AP 試験 : 今後の課題 1) 日本語 AP 試験の妥当性研究はあまりない 2) 多枝選択問題の項目分析は定期的にされているらしいが, 自由回答問題の妥当性に関しては実態がよくわからない日本語 AP 試験 ( 自由回答問題 ) の妥当性検証 (Suzumura, in progress) 3) 米国での日本語教育を後押ししているようだが ( 国際交流基金 2017), 妥当性に関する事後調査を基に, テスト開発者やテスト結果の利用者 ( 例. 大学 ) は何をすべきか? 27

まとめ : 米国で最も影響力のある日本語能力テスト AP JLPT 妥当性に関する今後の研究課題プラスの影響力 ACTFL OPI 実用性とのバランス妥当性実用性 28

引用文献 1) 安高紀子 (2015) コンピュータによる日本語口頭能力テスト李在鎬 ( 編 ) 日本語教育のための言語テストガイドブック第 10 章, くろしお出版,pp. 195 212. 2) 大隅敦子谷内美智子 (2015) コンピュータによる日本語口頭能力テスト李在鎬 ( 編 ) 日本語教育のための言語テストガイドブック第 2 章, くろしお出版,pp. 31 48. 3) 国際交流基金 (2017) 日本語教育国地域別情報 : 米国 2017 年度 <https://www.jpf.go.jp/j/project/japanese/survey/area/country/2017/usa.html> ( 2018 年 1 月 5 日 ) 4) 近藤ブラウン妃美 (2012) 日本語教師のための評価入門くろしお出版 5) ユーズ, アーサー (2003) 英語のテストはこう作る靜哲夫 ( 訳 ), 研究社 [Hughes, A. (2003). Testing for language teachers (2nd ed.). Cambridge, UK: Cambridge University Press. 6) 田口智之ブシマキナ, アナスタシアノヴィコワ, オリガ (2016) 日本語学習動機づけ分析のための学習課題価値尺度の作成 : ロシア人大学生を対象に APU 言語研究論叢第 1 巻, 71 84. <http://r cube.ritsumei.ac.jp/repo/repository/rcube/7633/aplj.pdf> (2018 年 2 月 15 日 ) 7) ブラウン,J.D. (2005) 言語テストの基礎知識正しい問題作成評価のために和田稔 ( 訳 ), 大修館書店 [Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall.] 29

引用文献 8) マクナマラ, ティム (2004) 言語テスティング概論伊東祐郎三枝令子島田めぐみ野口裕之 ( 監訳 ), スリーエーネットワーク [McNamara, T. F. (2000) Language testing. Oxford: Oxford University Press. ] 9) Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice:designing and developing useful language tests. Oxford, UK: Oxford University Press. 10) Burke, B. (2013). Looking into a crystal ball: Is requiring high stakes language proficiency tests really going to improve world language education? The Modern Language Journal, 97 (2), 531 534. 11) Brown, A. V., Cox, T. L., & Thompson, G. L. (2017). A comparative discourse analysis of Spanish past narrations from the ACTFL OPI and OPIc. Foreign Language Annals, 50 (4), 793 807. 12) Glisan, E. W., Swender, E., & Surface, E. A. (2013). Oral proficiency standards and Foreign language teacher candidates: Current findings and future research directions. Foreign Language Annals, 46 (2), 264 289. 13) Green, A. (2014). Exploring language assessment and testing: Language in action. New York, NY: Routledge. 30

引用文献 14) Hatasa, Y., & Watanabe, T. (2017). Japanese as a second language assessment in Japan: Current issues and future directions. Language Assessment Quarterly, 14 (3), 192 213. 15) Hughes, A. (1989). Testing for language teachers. Cambridge, UK: Cambridge University Press. 16) Kissau, S. (2014). The impact of the oral proficiency interview on one foreign language teacher education program. Foreign Language Annals, 47, 527 545. 17) Messick, S. (1988). The once and future issues of validity: Assessing the meaning and consequences of measurement. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 33 45). Hillsdale, NJ: Lawrence Erlbaum Associates. 18) Suzumura, N. (in progress). Examining the usefulness of the computer based speaking tasks of the AP Japanese language and culture exam. PhD Dissertation. University of Hawaii at Manoa. 19) Tedick, D. J. (2013). Embracing proficiency and program standards and rising to the challenge: A response to Burke. The Modern Language Journal, 97 (2), 535 538. 20) Thompson, G. L., Cox, T. L., & Knapp, N. (2016). Comparing the OPI and OPIc: The effect of test method on oral proficiency scores and student preference. Foreign Language Annals, 49, 75 92. 31

評価研究の拡張的視点 : コンピュータ工学と評価研究李在鎬 ( 早稲田大学 ) http://jhlee.sakura.ne.jp/talk/ngk2018.pdf

発表目的 1. コンピュータを用いた評価の現状を紹介する特に英語圏での研究状況や教育工学分野における研究状況を紹介 2. テキストマイニングによる評価研究の事例紹介作文の自動評価に関するシステムを紹介

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジー Chapelle&Voss 2016, 言語学習とテクノロジーの進化を検討 LLT(Language, Learning and Technology) で 198 本の論文あり学習者の言語能力の評価は言語教育の重要な部分でありコンピュータ技術の影響を言語学習と同じくらい重要なもの (Chapelle&Voss 2016) テクノロジーの有用性 : 適応型テスティング (Adaptive Testing) と作文の自動評価 (Automated Writing Evaluation) http://www.lltjournal.org/item/2950 Chapelle, C.A. & Voss, E. (2016). 20 years of technology and language assessment in Language Learning & Technology. Language, Learning and Technology 20(2):116-128.

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジー CBT: コンピュータを用いて出題, 実施されるテストの総称 90 年台 CALL(computer-assisted language learning) を言語テストへ拡張,CALT (Computer-Assisted Language Testing) から Computer-Adaptive Language Testing(Brown 1997, Dunkel 1999) 言語テストにおけるテクノロジーの飛躍的進化 CAT(Computer-Adaptive Test, コンピュータ適応型テスト )( 赤倉柏原 2016): 受験者の解答履歴から学力である能力値を逐次的に推定し, その能力値に応じて情報量が最大の項目を出題する CBT の方式 * 難しすぎず易しすぎずの項目 Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59. Dunkel, P. A. (1999). Considerations in developing or using second/foreign language proficiency computer-adaptive tests. Language Learning & Technology, 2(2), 77 93. 日本教育工学会 ( 監修 ) 赤倉貴子柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジー e テスティング,IBT: コンピュータ + ネットワークでテストを展開 CBT の成形 3 つの特徴 ( 植野永岡 ( 編 )(2009)) 1. マルチメディアによる質問項目の提示 2. ネットワーク上でのテスト実施 3. コンピュータの計算 / 推論機能によるテスト構成支援これらの有機的融合でペーパーベースのテストでは実現できないメリットが得られる植野真臣永岡慶三 ( 編 )(2009) e テスティング培風館

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジーテストにコンピュータを導入する意義は何か? CBTの意義 (Educational Testing Service 1996) 1. テスト設計の強化 2. テスト管理のスケジューリングの柔軟性の向上 3. テストの管理をより標準化できる 4. 受験者の能力に応じた測定が可能 5. ライティングテストの選択的導入 6. 多様な回答行動を記録 7. テストデザインと実施における将来の革新につながるプラットフォーム Educational Testing Service. (1996). TOEFL: Announcing computer-based testing. Princeton, NJ: Educational Testing Service.

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジー受験者視点でみた CBT の優れている点 (Brown1997) 1. 多枝選択式のテストでは得点の計算が人間よりはるかに正確 2. テストの得点を即座にフィードバックできる 3. 項目応答理論を導入することで個人の能力にあった適確な測定ができる 4. 各個人ベースのテストを配信することで自分のペースに合わせてテストを受けられる 5. 多くの学生はコンピュータを好み, テストプロセスを楽しむことができる https://scholarspace.manoa.hawaii.edu/bitstream/10125/25003/1/01_01_brown.pdf Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59.

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジー作成者実施者視点でみた CBT e テスティングの優れている点 ( 植野 2012, 李 2015) 1. テストの配布回収が自動で可能 2. テストの印刷運搬のコストがかからない 3. 多様な素材 ( 動画, 音声 ) を利用したテスト作成が可能 4. テスト素材の提示に関する制御が可能 5. 回答行動に関する数値データからテストの改善が可能 6. テストの自動構成が可能植野真臣 (2012) e テスティング永岡慶三ほか ( 編 ) 教育工学における学習評価ミネルヴァ書房李在鎬 ( 編 )(2015) 日本語教育のための言語テストガイドブックくろしお出版

正答率によって上位群と下位群に分岐する作文テストで得点率 :25% 以下テストの自動構成の例 J100 J300 作文テストで得点率 :26% 以上 J400 J800 1. パターン1: 文法分岐テスト (10 問 ) で50% 以下は,J100に判定テストは終了 2. パターン2: 文完成で25% 以下は初級向け 3. パターン3: 文完成で25% 以上は中上級向け

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジー開発者視点でみた CBT の優れている点 ( 赤倉 2016) 1. テストをコンピュータを使って実施することによりペーパーテストでは収集できない情報を大量に得ることができること 2. 大規模な出題項目 ( テストの問題 ) データベースを含む出題項目を管理するためのアイテムバンクを構築できることから受験者の能力を測定するための最適な項目を出題できる適応型テストの構成が容易であることイノベーションにつなげられる得点以外の情報で学習者の理解度を確認できる新たなフィードバックができる赤倉貴子柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジーデメリット (Brown1997) 1. インフラが整っているところでしか実施できない ( 現在は解決 ) 2. マシンパワーや画面サイズの制約をうけることも考えられる ( 現在は解決 ) 3. ICT リテラシーが成績に影響する 4. コンピュータ操作に対する不安がパフォーマンスに影響する https://scholarspace.manoa.hawaii.edu/bitstream/10125/25003/1/01_01_brown.pdf Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59.

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジー CBT をめぐる様々な技術革新 1. 新たなプラットフォームの提案小規模システムの提案 (Googleフォームや Kahoot! など ) も提案 2. 個人認証技術の進化 ( 画像認識技術生体認証 ) 3. ウェブベースのシステム化により身近な存在として定着次の10 年に向けての研究課題 1. パフォーマンス評価, 産出能力の評価 2. 関連技術の導入 ( 言語処理, 音声認識, 機械学習 ) 3. 学習者の誤りの可視化

英作文における誤りの可視化例 http://www.ccr.kyutech.ac.jp/professors/iizuka/i7/i7-2/entry-653.html 学習者の作文をもとにアニメーション教材をもとにアニメーション東本崇仁 (2016) 教育現場での e テスティング技術の利用応用赤倉貴子柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テストテクノロジー人のことばを理解しているかのように振る舞う機械 1. 自然言語処理の要素技術 ( 形態素解析, 係り受け解析, 文脈処理, 照応処理 ) をもとに進化 2. ウェブによる大量データの収集が可能 3. 汎用的な方法論を利用テキストマイニング, データマイニング ( 豊田 2008), エデュケーショナルデータマイニング (Romero and Ventura (2013) Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 3(1), 12 27. 豊田秀樹 (2008) データマイニング入門東京図書.

https://jreadability.net/ JWRITER 作文のレベル =1.637+ 平均文 0.045+ 中級後半語数 0.021+TTR -0.430+ 動詞数 0.015+ 中級前半語数 0.011+ 総文字数 -0.004+ 和語数 0.007+ 漢語数 0.007(R 2 =0.760) 李部迫田 (2017) 李在鎬, 部陽郎, 迫田久美子 (2017) 人工知能の仕組みを利用した学習者作文評価システム jwriter I-JAS を利用した試み日本語教育学会 2017 秋季大会 ( 新潟朱鷺メッセ )

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 学習者コーパスの活用 1. I-JAS(International Corpus of Japanese as a Second Language) の作文データから日本語の習熟度に応じたことばの癖を学習 2. 新しいテキストに対して,I-JAS のどのレベルともっとも類似しているかを回帰式でもって判定 3. より良い作文を書くためのアドバイスなども行う ( 診断的評価 ) 語彙のバランスの良し悪し, 表現のさ, 語彙の分かりやすさなど

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 評価指標について Type/Token Ratio 平均文漢語 TTR 中級後半語彙

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 評価指標について

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 人の評価とコンピュータの評価縦軸 : 日本語作文 30 編に対して大学教員 44 名がつけた 5 段階評定値に対して IRT(Item Response Theory: 項目応答理論 ) 系モデルで各作文の潜在特性尺度値 ( 以下, 能力値 θ ) を推定 ( 伊集院ほか 2017 のデータ ) 横軸 :jwriter による評価値伊集院郁子, 李在鎬, 小森和子, 野口裕之 (2017) IRT 系モデルと Readability による日本語作文の定量的分析大学教員による評価とコンピュータによる自動評価の比較日本語教育学会 2017 秋季大会 ( 新潟朱鷺メッセ )

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf より良いコンピュータベースのパフォーマンス評価のために 1. 現状として人の評価に対して,7 8 割程度しか当てられない 2. 評価指標の妥当性の検証が難しいなぜこれらの指標が選択されたのかは分からないデータがこうなっているから 3. コンピュータ分析指標と作文教育の指導方針が異なっている

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf より良いコンピュータベースのパフォーマンス評価のために 1. 現状として人の評価に対して,7 8 割程度しか当てられない人間同士でもずれることを考えると, この精度が限界 2. 評価指標の妥当性の検証が難しいなぜこれらの指標が選択されたのかは分からないデータがこうなっているから日本語教師の経験知を移植する人の評価ではどんなところに注目するのかを調査 3. コンピュータ分析指標と作文教育の指導方針が異なっているモダリティをもとに論理構造の把握できるシステムへ例示 ( あげられる ),

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 最後に言語能力を評価する立場としての教師に求められるもの 1. 評価リテラシー ( 伊東 )+ 統計リテラシー ( 島田 )+IT リテラシー ( 李 ) 2. 意識改革 : テストがかわれば, 教育や受験者や社会がかわる ( 近藤 ) あまり勉強してないな今学期の学生はできがわるいな現象今学期の問題は出来が悪いな学生の能力に合わない問題を作ったかも評価を意識しない教師評価を意識する教師