日本語教育学会発表資料(李・伊東・島田・近藤)

Similar documents
<4D F736F F D E382E32372E979B82D982A98C7697CA8D918CEA8A77975C8D658F575F93FC8D6594C52E646F6378>

Exploring the Art of Vocabulary Learning Strategies: A Closer Look at Japanese EFL University Students A Dissertation Submitted t

10 AB C D 4

「外国語活動」と「小学校英語」をつなぐ,評価のあり方について

Présentation PowerPoint

24 京都教育大学教育実践研究紀要 第17号 内容 発達段階に応じてどのように充実を図るかが重要であるとされ CAN-DOの形で指標形式が示されてい る そこでは ヨーロッパ言語共通参照枠 CEFR の日本版であるCEFR-Jを参考に 系統だった指導と学習 評価 筆記テストのみならず スピーチ イン

博士論文 考え続ける義務感と反復思考の役割に注目した 診断横断的なメタ認知モデルの構築 ( 要約 ) 平成 30 年 3 月 広島大学大学院総合科学研究科 向井秀文

1 高等学校学習指導要領との整合性 高等学校学習指導要領との整合性 ( 試験名 : 実用英語技能検定 ( 英検 )2 級 ) ⅰ) 試験の目的 出題方針について < 目的 > 英検 2 級は 4 技能における英語運用能力 (CEFR の B1 レベル ) を測定するテストである テスト課題においては

【資料4】「英検CAN-DOリスト」の概要と「提言1」に関する調査報告)(抜粋)

11_寄稿論文_李_再校.mcd

evaluation TylerR. W p

教授要目及び科目一覧_本文.indd

修-CIA Exam Change Handbook_FAQs_ indd

論文題目 大学生のお金に対する信念が家計管理と社会参加に果たす役割 氏名 渡辺伸子 論文概要本論文では, お金に対する態度の中でも認知的な面での個人差を お金に対する信念 と呼び, お金に対する信念が家計管理および社会参加の領域でどのような役割を果たしているか明らかにすることを目指した つまり, お

スライド 1

2017 年 9 月 8 日 このリリースは文部科学記者会でも発表しています 報道関係各位 株式会社イーオンイーオン 中学 高校の英語教師を対象とした 中高における英語教育実態調査 2017 を実施 英会話教室を運営する株式会社イーオン ( 本社 : 東京都新宿区 代表取締役 : 三宅義和 以下 イ

a223_imai

表 1 各研修の概要 研修 Ⅰ 研修 Ⅱ 研修 Ⅲ 調査対象者数 ( 出身国数 ) 49 名 (30 か国 ) 15 名 (3 か国 ) 32 名 (30 か国 ) 研修期間 ( 実施時期 ) 約 6 か月 (10 月 ~3 月 ) 約 2 か月 (1 月 ~3 月 ) 約 8 か月 (10 月 ~

国際数学・理科教育動向調査(TIMSS2015)のポイント

成績評価を「学習のための評価」に

甲37号

資料7-2 川嶋委員からの資料

パーソナリティ研究 2005 第13巻 第2号 170–182

2016 年度シラバス科目名 Communication Skills V (CALL) 担当者高橋妙子免許 資格受講要件 開講学科等 英語コミュニケーション学科 授業形態 演習 開講時期 後期 配当学年 2 単 位 数 2 必修 選択 選択必修 授業概要と方法ロマンティックコメディ映画を教材化した

英語 ポイント 1 民間の資格 検定試験を用いて4 技能 ( 読む 聞く 書く 話す ) を評価 2 段階別評価 CEFR ( セファール ) を活用 3 大学入学共通テストでは 筆記 ( リーディング ) とリスニングを実施 ポイント 1 民間の資格 検定試験を用いて 4 技能 ( 読む 聞く 書

a)発表題目

修士論文 ( 要旨 ) 2012 年 1 月 聴解ストラテジーを用いた教授法の開発と実践 指導宮副ウォン裕子教授 言語教育研究科日本語教育専攻 210J3019 梁凱傑

Microsoft PowerPoint - 表紙

<4D F736F F D2092CA96F388C493E08E6D834B >

平成23年度全国学力・学習状況調査問題を活用した結果の分析   資料


説明項目 1. 審査で注目すべき要求事項の変化点 2. 変化点に対応した審査はどうあるべきか 文書化した情報 外部 内部の課題の特定 リスク 機会 関連する利害関係者の特定 プロセスの計画 実施 3. ISO 14001:2015への移行 EMS 適用範囲 リーダーシップ パフォーマンス その他 (

【教】⑩山森直人先生【本文】/【教】⑩山森直人先生【本文】

<4D F736F F F696E74202D FA8C6F B938C8FD888EA95948FE38FEA8AE98BC6817A81758A4F8D91906C97AF8A7790B682CC8DCC977082C693FA967B8CEA945C97CD82C98AD682B782E992B28DB881768C8B89CA838C837C815B83678DC58F4994C52E70707

PowerPoint 프레젠테이션

56 語学教育研究所紀要 Vol.10 上記項目を前年度と比較すると, 数値はほとんど変わらない データの分析及び考察は別稿にゆずることにし, ここでは前年度と大きく異なる点は自由記載が多くなったことであることを指摘したい 回収回答者の半数近くが自由記載に積極的だった 昨年度は教師に対する感謝の言葉

報告書9(資料6)

11号02/百々瀬.indd

説明項目 1. 審査で注目すべき要求事項の変化点 2. 変化点に対応した審査はどうあるべきか 文書化した情報 外部 内部の課題の特定 リスク 機会 利害関係者の特定 QMS 適用範囲 3. ISO 9001:2015への移行 リーダーシップ パフォーマンス 組織の知識 その他 ( 考慮する 必要に応

A pp CALL College Life CD-ROM Development of CD-ROM English Teaching Materials, College Life Series, for Improving English Communica

早稲田大学大学院日本語教育研究科 修士論文概要書 論文題目 ネパール人日本語学習者による日本語のリズム生成 大熊伊宗 2018 年 3 月

山梨大学教職大学院専攻長 堀哲夫教授提出資料

< 受験生トレンド > 受験生に必須のアイテム 受験生の半数以上が勉強に SNS を活用 3 人に 1 人以上が活用している Twitter が第 1 位に 目的は モチベーションを上げたい 記録に残したい 共有して安心したい が上位に 勉強専門アカウントについては約 5 割が興味 約 2 割が活用

02’ÓŠ¹/“Hfi¡

夏休み集中講座 とは? International English Language Testing System (IELTS: アイエルツ ) は 海外留学や研修のために英語力を証明する必要のある方に最適なテストです イギリス オーストラリア カナダ ニュージーランドのほぼ全ての高等教育機関で認

ケンブリッジ国際児童英検 (YLE テスト ) 学校 スクール関係者の方へ ~ 早期英語学習で子どもたちの将来にとって有利なスタートを ~

本文/YAZ325T

慶應外語 2019 年度春学期三田正科注意 : やむをえない理由により 予告なしに担当講師が代講または変更となることがあります 講座開始後 この変更を理由に講座をキャンセルされる場合 受講料の返還はいたしません 講座コード C ベトナム語 基礎コース 担当者 グエン Nguyễn ミン

2018 年 9 月 3 日 このリリースは文部科学記者会でも発表しています 報道関係各位 株式会社イーオンイーオン 中学 高校の英語教師を対象とした 中高における英語教育実態調査 2018 を実施 英会話教室を運営する株式会社イーオン ( 本社 : 東京都新宿区 代表取締役 : 三宅義和 以下 イ

Water Sunshine

医学英語 II 1 ユニットの概要 Medical English courses are designed to help students become independent lifelong learners and healthcare professionals who can util


研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

課題研究の進め方 これは,10 年経験者研修講座の各教科の課題研究の研修で使っている資料をまとめたものです 課題研究の進め方 と 課題研究報告書の書き方 について, 教科を限定せずに一般的に紹介してありますので, 校内研修などにご活用ください

<4D F736F F D AA90CD E7792E88D5A82CC8FF38BB5816A819A819B2E646F63>

งานนำเสนอ PowerPoint

2016/4/27 応用言語学演習 Ⅱa 人文学類 4 年 R.M. 論文紹介 Plakans, L. (2009). The role of reading strategies in integrated L2 writing tasks. Journal of English for Acad

booklet_B.xlsx

2019 年 2 月 12 日株式会社ベネッセホールディングス代表取締役社長安達保 進研ゼミ 受講費内で英語検定試験対策や入試対策も! 学年を超え英語 4 技能を学ぶ 12 段階習熟度別トレーニンク 導入 ~2019 年 4 月号教材から小中高講座で提供開始 ~ 株式会社ベネッセホールディングスの子

<4D F736F F D2092CA96F388C493E08E6D834B A6D92E8816A2E646F63>

(Microsoft Word - \207U\202P.doc)

ISO9001:2015規格要求事項解説テキスト(サンプル) 株式会社ハピネックス提供資料

<4D F736F F D DC58F498A6D92E894C5817A30345F93FA967B8CEA814593FA967B95B689BB89C896DA5F A778F4388C493E E646F6378>

Microsoft Word - manuscript_kiire_summary.docx

<4D F736F F D A8D CA48F43834B C E FCD817A E

回数テーマ学習内容学びのポイント 2 過去に行われた自閉症児の教育 2 感覚統合法によるアプローチ 認知発達を重視したアプローチ 感覚統合法における指導段階について学ぶ 自閉症児に対する感覚統合法の実際を学ぶ 感覚統合法の問題点について学ぶ 言語 認知障害説について学ぶ 自閉症児における認知障害につ

236390恵泉女学園大学2018年度学生生活ハンドブック.indd

PowerPoint プレゼンテーション

応用言語学特講発表資料第 7 章前半担当 :M.Y. [ 第 7 章 ] 語彙の習得 1. 第二言語学習者が目標とすべき語彙サイズ A) 語彙サイズ の定義第二言語習得論の中でよく用いられる 語彙サイズ には研究者のなかでも複数の見解がある (Nation&Meara,2002) それらは以下のとお

SEM44-西堀ゆり.indd

今年度は 創立 125 周年 です 平成 29 年度 12 月号杉並区立杉並第三小学校 杉並区高円寺南 TEL FAX 杉三小の子

英語科教育学 2 学期末課題 : 文献研究英語教育コース 1 年 M.O. Kim, D., & Gilman, D. A. (2008). Effects of text, audio, and graphic aids in multimedia instruction for vocabula

紀要8.pdf

論文内容の要旨

IPSJ SIG Technical Report Vol.2014-CE-126 No /10/11 1,a) Kinect Support System for Romaji Learning through Exercise Abstract: Educatio

授業科目名英語科教育基礎論 a (Basics of English Language Education a) 科目番号 授業形態講義単位数 1 単位標準履修年次 2 年次実施学期春 AB 曜時限水曜 2 時限対象学群 学類担当教員 ( 連絡先 ) 斉田智里 ( 非常勤講師 ) オ

情報技術論 教養科目 4 群 / 選択 / 前期 / 講義 / 2 単位 / 1 年次司書資格科目 / 必修 ここ数年で急速に身近な生活の中に浸透してきた情報通信技術 (ICT) の基礎知識や概念を学ぶことにより 現代の社会基盤であるインターネットやコンピュータ システムの利点 欠点 それらをふまえ

どのような便益があり得るか? より重要な ( ハイリスクの ) プロセス及びそれらのアウトプットに焦点が当たる 相互に依存するプロセスについての理解 定義及び統合が改善される プロセス及びマネジメントシステム全体の計画策定 実施 確認及び改善の体系的なマネジメント 資源の有効利用及び説明責任の強化

博士論文概要 タイトル : 物語談話における文法と談話構造 氏名 : 奥川育子 本論文の目的は自然な日本語の物語談話 (Narrative) とはどのようなものなのかを明らかにすること また 日本語学習者の誤用 中間言語分析を通じて 日本語上級者であっても習得が難しい 一つの構造体としてのまとまりを

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟


平成19 年度国際交流基金 項目別評価シート

JICA 事業評価ガイドライン ( 第 2 版 ) 独立行政法人国際協力機構 評価部 2014 年 5 月 1

Ł\1,4.ai

日本語教育紀要8/pdf用表紙

コーチング心理学におけるメソッド開発の試み 東北大学大学院 徳吉陽河

2 教科に関する調査の結果 ( 各教科での % ) (1) 小学校 国語 4 年生 5 年生 6 年生 狭山市埼玉県狭山市埼玉県狭山市埼玉県 平領均域正等答別率 話すこと 聞くこと 書くこと

4 単元の評価規準 コミュニケーションへの関心 意欲 態度 外国語表現の能力 外国語理解の能力 言語や文化についての知識 理解 与えられた話題に対し 聞いたり読んだりした 1 比較構文の用法を理解 て, ペアで協力して積極 こと, 学んだことや経 している 的に自分の意見や考えを 験したことに基づき

ヤングラーナーズ(YLE)英語検定

教職研究科紀要_第9号_06実践報告_田中先生ほか04.indd

(2) 国語科 国語 A 国語 A においては 平均正答率が平均を上回っている 国語 A の正答数の分布では 平均に比べ 中位層が薄く 上位層 下位層が厚い傾向が見られる 漢字を読む 漢字を書く 設問において 平均正答率が平均を下回っている 国語 B 国語 B においては 平均正答率が平均を上回って

<4D F736F F D208EC08F4B8CA48B86838C837C815B83678D9191F22E646F63>

PowerPoint Presentation

Jupyter Notebook を活用したプログラムライブラリ構築の検討 吹谷芳博 1, 藤澤正樹 1 ( 1 あすか製薬株式会社 ) Examination of the program library construction using Jupyter Notebook ASKA Pharm

よくある質問 TELP とは? TELP を受講する利点 TELP と他の ESL プログラムとの違い TELP には初級の ESL クラスがありますか? TELP を終了するためにどのくらいの時間がかかりますか? TELP の費用 TELP の申し込み方法 TELP のクラス分けテストの受験方法


H30全国HP


Microsoft Word - 医療学科AP(0613修正マスタ).docx

目 次 1 学力調査の概要 1 2 内容別調査結果の概要 (1) 内容別正答率 2 (2) 分類 区分別正答率 小学校国語 A( 知識 ) 国語 B( 活用 ) 3 小学校算数 A( 知識 ) 算数 B( 活用 ) 5 中学校国語 A( 知識 ) 国語 B( 活用 ) 7 中学校数学 A( 知識 )

Transcription:

2018 年度日本語教育学会春季大会パネルセッション 1 PPT 資料 : http://jhlee.sakura.ne.jp/talk/nkg2018.pdf 日本語教育におけるこれからの評価研究を考える 李在鎬 ( 早稲田大学 ) 伊東祐郎 ( 東京外国語大学 ) 島田めぐみ ( 日本大学 ) 近藤ブラウン妃美 ( ハワイ大学マノア校 )

ゴール 言語教育における評価の重要性を確認した上で, これからの日本語教育における評価活動および研究の活性化のため, 特に今後の日本語テスト開発や研究においてどのような視点が必要か検討する http://jhlee.sakura.ne.jp/talk/nkg2018.pdf

発表 1 評価研究を支える理論的視点について論じる 具体的には, 評価研究の過去と現在をつなぐ視点としてコミュニケーション能力論から心理測定, 第二言語習得理論の理論的展開にいたる枠組みを概観した上でテストと評価リテラシーについて考える 発表 2 テスト研究の実際を支える方法論的視点および分析的視点について論じる 特にデータ科学の観点から, データに対して, どのような分析方法があるかを述べ, 統計的手法を用いる意味と重要性を指摘する 発表 3 テストの波及効果に注目し, テスト評価が学習者や社会に与える影響力を妥当性や実用性に関連付けて考察する 事例として, 海外の日本語教育現場で最も影響力のある 3 つの日本語能力テストを取り上げ, 今後の日本語能力テスト開発及び研究の課題も提示する 発表 4 コンピュータやウェブを利用したテストに注目し, 何を, どこまでできるかについて論じる 特に評価研究の新たな視点として, 自然言語処理の技術を応用したパフォーマンス評価の可能性について考える

狙い ( 願い ) 1. 評価の研究の面白さ 奥深さを伝える 2. 面白い話だったなぁ で終わらせない 3. 日頃の教育実践や研究に評価研究を意識する 伊東祐郎 近藤ブラウン妃美 http://jhlee.sakura.ne.jp/talk/nkg2018.pdf 島田めぐみ 野口裕之 李在鎬 ( 編 )

日本語教育学会 2018 春季大会パネル 評価研究の理論的視点 : テスティングと評価リテラシー 伊東祐郎 /ITO Sukero ( 東京外国語大学 ) 2018.5.26

発表 1 の目的 日本語教育における評価リテラシーについて考えてみる 言語テストが測定しようとしている日本語力の可視化について再確認する 妥当性と信頼性の高いテストの開発 実施に必要な事項をまとめてみる

身近に存在する測定道具 以下に示すものの数値はどのように測定してい るのか 1 身 長 身長計 2 体 重 体重計 物理特性 3 視 力 視力検査表 4 聴 力 聴力検査 5 知 能 知能検査 潜在特性 6 日本語力?

リテラシーとは リテラシー ( 英 : literacy) とは 原義では 読解記述力 を指す 転じて現代では ( 何らかのカタチで表現されたものを ) 適切に理解 解釈 分析し 改めて記述 表現する という意味に使われるようになり 日本語の 識字率 と同じ意味で用いられている (Wikipedia より )

評価リテラシー (LAL) とは 評価リテラシー ( 英 :Language Assessment Literacy(LAL)) とは 言語能力の評価にかかわる一連の手続きに必要となる技能的知識 (knowledge skills) と言われている 具体的には 1 評価方法の設計 2 評価の実施 3 評価結果の解釈 4 評価結果の活用 6 評価の事後報告に求められる技能的知識である テストの信頼性と妥当性を高めるための技能的知識

テスティングの史的変遷 (Spolsky,1978) 前科学的測定時代 (Pre-scientific era) 心理測定 構造言語学の時代 (The psychometric-structuralist era) 心理 社会言語学の時代 (The psycholinguistic-sociolinguistic era)

(1) 前科学的測定時代 テストの作成から 実施 採点 評価までの一連の作業は教師が管理運営 テストに関する特別な知識や作問技術など専門性が問われることがない時代 テストの精度の指標である信頼性や妥当性などの視点からテストを分析 評価することのなかった時代

(2) 心理測定 構造言語学の時代 教育測定や言語学から科学的基盤を得て テスト理論が独自の研究領域として確立 教育測定学は 集団知能検査の開発と平行して確立される 当時のテスト理論は テストの結果として得られる得点を真の値と誤差の和としてとらえ 記述統計学を基礎として信頼性を重視

(3) 心理 社会言語学の時代 言語能力はそれを構成する各要素が独立して存在するものではない 総合的かつ有機的に機能してはじめてコミュニケーションができる 統合的測定法 (integrative test) として提唱される 外国語能力を有機的な統合体であるとする立場

読解テストはどのような能力を 文法能力 文法 - 形態論 統語論 語彙 規則 - 綴り 句読点 社会言語学的能力 目的 トピック 背景知識 方略的能力 スキャニング スキミング 談話能力 結束生 一貫性 測定しようとしているか?

< グラフ 1> 読解 到達度テスト 得点分布 9 8 7 6 5 4 3 2 1 0~2 ~8 0 ~14 ~20 ~26 ~32 ~38 ~44 ~50 ~56 ~62 ~68 ~74 ~80 ~86 ~92 ~98

< グラフ 2> 読解 熟達度テスト 得点分布 7 6 5 4 3 2 1 0 0~2 ~8 ~14 ~20 ~26 ~32 ~38 ~44 ~50 ~56 ~62 ~68 ~74 ~80 ~86 ~92 ~98

2 つの異なる読解テストの得点を どう解釈すべきか? ある学生の 2 つの異なる読解テストの得点結果 到達度テスト 80 点 熟達度テスト 94 点 ( 最高点 ) この学生の読解力の解釈と得点の正しい利用法はいかにあるべきか?

2つの異なる読解テストが測定していたものは何か? 読解テキスト ( テスト内容 ) は どのような観点で選ばれていたのか テスト課題 ( 設問 ) は どのような読解能力 ( フ ロフィシェンシー ) を測定しようと設定されていたのか

重要な点 読解テキスト ( テストの内容 ) の妥当性を検討すると共に テスト得点を使用する方法の妥当性を検討することが重要である テスト得点がどのような読解能力を反映し 妥当性に貢献しているかを検討することが重要である 妥当性を検証するために テストが試験開発者が想定する言語能力をテスト得点に十分に影響を与えている と明確に説明できる根拠 (= 妥当性の根拠 ) が必要である

妥当性の根拠 妥当性 = 適切性 有意味性 有用性 テスト得点の解釈と利用との間の関係を裏付ける証拠を収集する (1) 内容適切性 (2) 基準関連性 (3) 構成概念の有意味性

妥当性の検討とは 問題作成のための手順の検討である テスト実施にかかわる全ての側面 手順は成績に影響を与える すなわち成績に差異を生むことになる

テスト得点に影響を与える要因 (Bachman,1990) プロフィシェンシー テスト方法の側面 テストの得点 個人的特性 ランダムな要因

テスト得点に影響を与える要因 1テスト方法の側面 言語能力を引き出すためのテスト方法にかかわる特性や諸相 テスト環境 テスト受験の指示 解答方法 課題に対する作業の特性 テスト形式 課題への慣れ 不慣れ 試験官の個性 特性

テスト得点に影響を与える要因 2 個人的特性 測定したい言語能力の一部とは考えられない受験者の特性 認知様式についての知識 特定の領域についての知識 年齢 性別 人種 民族 文化などの集団的特性 教育歴 社会背景 生活環境 テストにかかわる知恵 ( テスト準備 対策 )

テスト得点に影響を与える要因 3ランダムな要因 予測不可能で一時的な状態 状況によって変化する環境 精神的緊張感 認知的特徴 テスト実施者の任務遂行の方法

日本語教師に求められる LAL 1 言語運用能力を構成している要素と言語習得にかかわる知識 2 初級 中級 上級という言語運用能力の発達 漸増性にかかわる知識 3 言語運用能力の測定を目的としたテスト開発におけるテスト課題と発問の設定能力 4テストの信頼性 妥当性などテストの精度検証に必要な知識や技能

主な参考図書 日本語教師のためのテスト作成マニュアル 伊東祐郎 (2008) アルク 日本語教師のための評価入門 近藤ブラウン妃実 (2012) くろしお出版 テストを作る 関正昭 平高史也編村上京子他著 (2013) スリーエーネットワーク 言語テストの基礎知識 ブラウン, J.B. 和田稔訳 (1999) 大修館書店 < 実践 > 言語テスト作成法 バックマン, L.F. 他 大友賢二他監訳 (2000) 大修館書店 外国語の学習 教授 評価のためのヨーロッパ共通参照枠 吉島茂 大橋理枝訳編 (2004) 朝日出版

ありがとうございました

A L

4 E 4 4 F C 24 30 1 R 3 8.1 4 F8 E F 3

1 2. -

8 8 8 8 8 8 29-2 - 17. 546 8-0. 2 3. 8

H : D e a D2 M lt H H s e Ia IzF H 1 H D s zf F H -. n

H : D t D2 M H nh a zt I z I F H 1 l H D F F H -. s e n

a 7 a 3 H3 3 3 3 3 3 = = M. 28..0 -. 1 -

. G

-.

k. 210- ) 8 a h 6 a h 6 h S i

u S. 210- ) z a 8 i 6 i 6 h k

. - 2

( 6 - ( ). ( ) ) 0 6 ) 24

( 6 - ( ). ( ) ) 0 6 ) 24

2-3 2.

1 3536. -0 6 2 6 2

3 9 2 0-7 1. 7

5 9. 2 3-5 2 3-5 17-7 26 3

4 3 7 1 4 8 0.7 8 0.715 2-

0 5 8 3 5 5 9 7 9 42 2 6 1 3

Y Y h g f z v Opwysrps i -0 ST z g f z rps i STz Trprkyoc su nc dz ah iystz rps ey Tz c c gc ml t 4 7 5 57 8 3 67F A7 5 7 9 6 F 7J7 2, 8 AD7E F E 7 9 E D. F F F E I EF K E7 8 F 8 D ED F F 17D7

評価研究の社会的視点 : 日本語能力テストの波及効果 近藤ブラウン妃美ハワイ大学マノア校 Kimi Kondo-Brown University of Hawai i at Mānoa 日本語教育学会春季大会 2018 年 5 月 26 日 1

日本語テスト評価の影響力 テストの実施や受験という活動そのもの テスト結果の解釈と使用 社会全体 マクロ (Macro) レベル 教育現場 カリキュラム 指導マイクロ (Micro) レベル 学習者 学習 動機付け テストの影響力 (IMPACT) (Bachman & Palmer, 1996) 波及効果 (WASHBACK EFFECT) = 主にテストの指導と学習への影響力 (Hughes, 1989; 2003) 2

テスト評価の影響力と妥当性 Messick (1988) のテスト評価の妥当性枠組み Evidential basis ( 証拠ベース ) Consequential basis ( 影響ベース ) 実証的証拠 (empirical evidence) と理論的根拠が, テスト得点の解釈と使用の適切さをどの程度支持できるかを示す度合い テスト結果の解釈と使用の正当性を学習者, 教育現場, そして社会に与える影響という側面から判断 テスト開発者や使用者の価値判断 (value implications) がテスト評価にどのような影響? 3

言語テスト評価で有益な波及効果を達成する条件 ヒューズ, アーサー (2003) 英語のテストはこう作る 靜哲夫 ( 訳 ), 研究社社 [Hughes, A. (2003). Testing for language teachers (2nd ed.). Cambridge, UK: Cambridge University Press. 伸ばしてやりたい能力をテストせよ - 例えば, 話す能力を伸ばす努力をさせたいなら, 話す能力をテストすべきだ これは至極当たりまえのことである が驚くべきことに, この当たり前のことが非常にしばしば無視されている ( ヒューズ 2003, p. 58 [ 靜訳 ]) 直接テスティングを用いよー伸ばしてやりたい技能を直接テストすれば, そのテスト対策としてそういう技能を練習することになる ( ヒューズ 2003, p. 60 [ 靜訳 ]) 4

テスト評価の波及効果の予測の難しさ 保守的なテスト形式について推定される負の波及効果と, コミュニカティブなアセスメント ( 進化した形と思われている ) について推定される正の波及効果に関する両方の研究では, 波及効果は, 多くの場合, なかなか予測が難しいことが示されている ( マクナマラ 2004, p.89 [ 伊東他監訳 ]) マクナマラ, ティム (2004) 言語テスティング概論 伊東祐郎 三枝令子 島田めぐみ 野口裕之 ( 監訳 ), スリーエーネットワーク [McNamara, T. F. (2000) Language testing. Oxford: Oxford University Press. ] テストの波及効果の事後調査の必要性 5

テスト評価の実用性 言語を教えたりテストしたりするのに時間と資金が無限に使える最高の環境も考えられるであろうが, 残念ながら, このようなことは極めてまれである ( 中略 ) 教育やテストにどれほど経費がかかるか考えた上で決定を下さねばならない状況に常に直面している ( ブラウン 2005, p. 39 [ 和田訳 ]) ブラウン,J.D. (2005) 言語テストの基礎知識 正しい問題作成 評価のために 和田稔 ( 訳 ), 大修館書店 [Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice-Hall.] 6

テスト評価の有用 ( 有益 ) 性 (Green, 2014, p. 58) 有益な影響 (beneficial consequences) 妥当性 信頼性 実用性 ( 必要条件 ) Green, A. (2014). Exploring language assessment and testing: Language in action. New York, NY: Routledge. 7

米国で最も影響力のある日本語能力テスト : 現状と課題 1) 日本語能力試験 (Japanese Language Proficiency Test: JLPT) 2) 全米外国語教育協会 (The American Council on the Teaching of Foreign Languages: ACTFL) の日本語インタビュー式口頭能力試験 (Oral Proficiency Interview: OPI) 3) 日本語 AP [Advanced Placement] 試験 8

日本語能力試験 (JLPT) マークシートを使った選択式の受容テスト 言語知識 文字 語彙 文法 読解 聴解 課題遂行 のための言語コミュニケーション能力を測る https://www.jlpt.jp/about/points.html 9

日本語能力試験の影響力 1) 日本の多くの教育機関や企業が日本 語能力証明として利用している最重要テストの一つ ( 大隅 谷内 2015) 2) 2017 年度の受験者数は 88 万人を超 え, 海外での受験者は全体の約 3 分の 2 を占めている 参考 : 日本語能力試験ホームページ (http://www.jlpt.jp/) 10

日本語能力試験の波及効果 海外日本語学習者の学習意欲を高め, 日本語能力向上に役立ってきた ( 例, 田口 ブシマキナ ノヴィコワ 2016) 留学 就職 11

日本語能力試験の妥当性 1) マークシート式の受容テストで, 課題遂行のための言語コミュニケーション能力 を測っているというには, それなりの妥当性検証が必要 2) 受容テストだけを使用すると, そのテスト結果の解釈があてはまる領域 ( 一般化の領域 (domain of generalization) ) は 受容能力 の領域に限られるのではないか? 12

日本語能力試験 : 今後の課題 1) 今後の調査で, 日本語能力試験と ACTFL OPI の結果を比べる等, 同試験とスピーキング パフォーマンスの関係をもっと明らかにすべきだ (Hatasa & Watanabe, 2017, p. 199) 2) 今後, もし何らかのパフォーマンス テストを導入できるようになれば, その波及効果は大きい テストが変われば, 受験者がテスト準備のためにする学習方法や内容も変わる (Bachman & Palmer, 1996) 13

日本語能力試験 : 今後の課題 3) 口頭能力部門を増設するための調査 (1998 2001 年 ) が行われた ( 安高 2013) 4) 直接テストの増設が難しいのであれば, ACTFL OPI のようなパフォーマンス テスト が日本の大学や企業で認可される可 能性を検討する意味があるのでは? 14

全米外国語教育協会開発のインタビュー式口頭能力試験 (The American Council on the Teaching of Foreign Languages Oral Proficiency Interview[ACTFL OPI]) 15

ACTFL OPI について 1) 口頭の言語能力の測定を意図したテスト 2) 妥当性の面で, 過去に厳しい評価も受けてきたが, 今日米国で同試験よりも優れているとされる口頭テストは, まだ開発されていない ( 近藤ブラウン 2013, pp. 100-110) 3) プログラム評価や能力 資格認定の目的で米国で最も広域に使用されている 16

外国語教員免許取得のための ACTFL OPI 1) 米国の教員養成認定審議会は, 外国語教員免許候補者に ACTFL OPI 及び WPT の受 験を義務付け, 候補者は州認定の能力基準に達していなければ, 教員免許を取得できない 2) 全米の外国語教員養成プログラムのアクレディテ ション ( 教育の質保証認定 ) や教員候補者に多大な影響 (Glisan, Swender, & Surface, 2013) 17

外国語教員免許取得のための ACTFL OPI 米国の外国語教員養成にプラスの影響 (Kissau, 2014) 厳しすぎる (Burke, 2013) 中級上 上級下の 能力認定基準 適切である (Tedick, 2013) 能力認定基準を下げている州もある 18

ACTFL OPI のオンライン化 : 日本語 OPIc の実施 1) 以前は対面式か電話応答で OPI が行なわれていたが, 実用性を高めるためにオンライン化 $139/OPI $70/OPIc 2) 2017 年から日本語でもコンピュータ ベースの OPIc が使用できるようになった 19

日本語 OPIc の能力判定範囲 各レベルでターゲットになっている能力判定範囲〇実際のパフォーマンスが, 受験者の選んだターゲットレベルから外れても, 判定可能な能力範囲 初級下 初級中 初級上 中級下 中級中 中級上 上級下 上級中 上級上 超級 1 〇 2 〇〇 〇 3 〇〇〇〇 4 〇 〇 5 〇〇 https://www.languagetesting.com/oral-proficiency-interview-by-computer-opic 20

ACTFL OPI&OPIc: 今後の課題 1) 他言語 ( スペイン語 ) を扱った研究においては,OPIc の能力判定が OPI の結果より高い傾向にあると報告されている (Thomson, Cox, & Knapp, 2016) 2) 受験者に OPI と OPIc のどちらの口頭テストが望ましいかという問いには, OPI] と答えた者が圧倒的に多かった (Brown, Cox, & Thomson, 2017) 3) 今後, 日本語 OPIc の妥当性検証も必要 21

日本語 AP 試験 Japanese Language and Culture Exam(2007 年開始 ) 大学進学適正試験を管理しているカレッジ ボード (College board) の大学単位認 定試験 毎年,2400 名以上の高校生が日本語 A P 試験を受けている 22

日本語 AP 試験 米国のナショナル スタンダーズ (National Standards)( ワールド ランゲージ教育基準 ) に基づく コミュニケーション能力 日本文化の知識 やりとり interpersonal 解釈 interpretive 発表 presentational 23

日本語 AP 試験 : 構成 すべての設問がコンピュータ べース テスト内容 設問形式 設問数 点数配分 リスニング 多枝選択 30-35 25% リーディング 多枝選択 35-40 25% スピーキング ( 対話型 ) 自由回答 4 12.5% スピーキング ( 提示型 ) 自由回答 1 12.5% ライティング ( 対話型 ) 自由回答 / 記述式ライティング ( 提示型 ) 自由回答 / 記述式 5 12.5% 1 12.5% https://apcentral.collegeboard.org/courses/ap-japanese-language-and-culture/exam 24

日本語 AP 試験 : 5 段階の能力判定 米国の大学で日本語を約 2 年間学んだ学習者に期待される日本語能力レベル ( 中級下 ~ 中級中 ) にどの程度達しているのか? 5 点 : Extremely well qualified 4 点 : Well qualified 3 点 : Qualified 2 点 : Possibly qualified 1 点 :No recommendation 大学単位取得可能25 合格点

日本語 AP 試験結果 (2017 年度 ) 1200 1000 米国の外国語 800 継承語としての600 日本語学習者に400 大きな影響 200 NON STANDARD 受験者 ( 継承語学習者等 ) 0 5 点 4 点 3 点 2 点 1 点 862 100 114 23 22 STANDARD 受験者 234 167 392 177 338 Data derived from: http://apcentral.collegeboard.com/apc/members/exam/exam_information/157014.html 26

日本語 AP 試験 : 今後の課題 1) 日本語 AP 試験の妥当性研究はあまりない 2) 多枝選択問題の項目分析は定期的にされているらしいが, 自由回答問題の妥当性に関しては実態がよくわからない 日本語 AP 試験 ( 自由回答問題 ) の妥当性検証 (Suzumura, in progress) 3) 米国での日本語教育を後押ししているようだが ( 国際交流基金 2017), 妥当性に関する事後調査を基に, テスト開発者やテスト結果の利用者 ( 例. 大学 ) は何をすべきか? 27

まとめ : 米国で最も影響力のある日本語能力テスト AP JLPT 妥当性に関する今後の研究課題 プラスの 影響力 ACTFL OPI 実用性とのバランス 妥当性 実用性 28

引用文献 1) 安高紀子 (2015) コンピュータによる日本語口頭能力テスト 李在鎬 ( 編 ) 日本語教育のための言語テストガイドブック 第 10 章, くろしお出版,pp. 195 212. 2) 大隅敦子 谷内美智子 (2015) コンピュータによる日本語口頭能力テスト 李在鎬 ( 編 ) 日本語教育のための言語テストガイドブック 第 2 章, くろしお出版,pp. 31 48. 3) 国際交流基金 (2017) 日本語教育国 地域別情報 : 米国 2017 年度 <https://www.jpf.go.jp/j/project/japanese/survey/area/country/2017/usa.html> ( 2018 年 1 月 5 日 ) 4) 近藤ブラウン妃美 (2012) 日本語教師のための評価入門 くろしお出版 5) ユーズ, アーサー (2003) 英語のテストはこう作る 靜哲夫 ( 訳 ), 研究社 [Hughes, A. (2003). Testing for language teachers (2nd ed.). Cambridge, UK: Cambridge University Press. 6) 田口智之 ブシマキナ, アナスタシア ノヴィコワ, オリガ (2016) 日本語学習動機づけ分析のための学習課題価値尺度の作成 : ロシア人大学生を対象に APU 言語研究論叢 第 1 巻, 71 84. <http://r cube.ritsumei.ac.jp/repo/repository/rcube/7633/aplj.pdf> (2018 年 2 月 15 日 ) 7) ブラウン,J.D. (2005) 言語テストの基礎知識 正しい問題作成 評価のために 和田稔 ( 訳 ), 大修館書店 [Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall.] 29

引用文献 8) マクナマラ, ティム (2004) 言語テスティング概論 伊東祐郎 三枝令子 島田めぐみ 野口裕之 ( 監訳 ), スリーエーネットワーク [McNamara, T. F. (2000) Language testing. Oxford: Oxford University Press. ] 9) Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice:designing and developing useful language tests. Oxford, UK: Oxford University Press. 10) Burke, B. (2013). Looking into a crystal ball: Is requiring high stakes language proficiency tests really going to improve world language education? The Modern Language Journal, 97 (2), 531 534. 11) Brown, A. V., Cox, T. L., & Thompson, G. L. (2017). A comparative discourse analysis of Spanish past narrations from the ACTFL OPI and OPIc. Foreign Language Annals, 50 (4), 793 807. 12) Glisan, E. W., Swender, E., & Surface, E. A. (2013). Oral proficiency standards and Foreign language teacher candidates: Current findings and future research directions. Foreign Language Annals, 46 (2), 264 289. 13) Green, A. (2014). Exploring language assessment and testing: Language in action. New York, NY: Routledge. 30

引用文献 14) Hatasa, Y., & Watanabe, T. (2017). Japanese as a second language assessment in Japan: Current issues and future directions. Language Assessment Quarterly, 14 (3), 192 213. 15) Hughes, A. (1989). Testing for language teachers. Cambridge, UK: Cambridge University Press. 16) Kissau, S. (2014). The impact of the oral proficiency interview on one foreign language teacher education program. Foreign Language Annals, 47, 527 545. 17) Messick, S. (1988). The once and future issues of validity: Assessing the meaning and consequences of measurement. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 33 45). Hillsdale, NJ: Lawrence Erlbaum Associates. 18) Suzumura, N. (in progress). Examining the usefulness of the computer based speaking tasks of the AP Japanese language and culture exam. PhD Dissertation. University of Hawaii at Manoa. 19) Tedick, D. J. (2013). Embracing proficiency and program standards and rising to the challenge: A response to Burke. The Modern Language Journal, 97 (2), 535 538. 20) Thompson, G. L., Cox, T. L., & Knapp, N. (2016). Comparing the OPI and OPIc: The effect of test method on oral proficiency scores and student preference. Foreign Language Annals, 49, 75 92. 31

評価研究の拡張的視点 : コンピュータ工学と評価研究 李在鎬 ( 早稲田大学 ) http://jhlee.sakura.ne.jp/talk/ngk2018.pdf

発表目的 1. コンピュータを用いた評価の現状を紹介する 特に英語圏での研究状況や教育工学分野における研究状況を紹介 2. テキストマイニングによる評価研究の事例紹介 作文の自動評価に関するシステムを紹介

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー Chapelle&Voss 2016, 言語学習とテクノロジーの進化を検討 LLT(Language, Learning and Technology) で 198 本の論文あり 学習者の言語能力の評価は言語教育の重要な部分であり コンピュータ技術の影響を言語学習と同じくらい重要なもの (Chapelle&Voss 2016) テクノロジーの有用性 : 適応型テスティング (Adaptive Testing) と作文の自動評価 (Automated Writing Evaluation) http://www.lltjournal.org/item/2950 Chapelle, C.A. & Voss, E. (2016). 20 years of technology and language assessment in Language Learning & Technology. Language, Learning and Technology 20(2):116-128.

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー CBT: コンピュータを用いて出題, 実施されるテストの総称 90 年台 CALL(computer-assisted language learning) を言語テストへ拡張,CALT (Computer-Assisted Language Testing) から Computer-Adaptive Language Testing(Brown 1997, Dunkel 1999) 言語テストにおけるテクノロジーの飛躍的進化 CAT(Computer-Adaptive Test, コンピュータ適応型テスト )( 赤倉 柏原 2016): 受験者の解答履歴から学力である能力値を逐次的に推定し, その能力値に応じて情報量が最大の項目を出題する CBT の方式 * 難しすぎず易しすぎずの項目 Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59. Dunkel, P. A. (1999). Considerations in developing or using second/foreign language proficiency computer-adaptive tests. Language Learning & Technology, 2(2), 77 93. 日本教育工学会 ( 監修 ) 赤倉貴子 柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー e テスティング,IBT: コンピュータ + ネットワークでテストを展開 CBT の成 形 3 つの特徴 ( 植野 永岡 ( 編 )(2009)) 1. マルチメディアによる質問項目の提示 2. ネットワーク上でのテスト実施 3. コンピュータの計算 / 推論機能によるテスト構成支援 これらの有機的融合でペーパーベースのテストでは実現できないメリットが得られる 植野真臣 永岡慶三 ( 編 )(2009) e テスティング 培風館

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー テストにコンピュータを導入する意義は何か? CBTの意義 (Educational Testing Service 1996) 1. テスト設計の強化 2. テスト管理のスケジューリングの柔軟性の向上 3. テストの管理をより標準化できる 4. 受験者の能力に応じた測定が可能 5. ライティングテストの選択的導入 6. 多様な回答行動を記録 7. テストデザインと実施における将来の革新につながるプラットフォーム Educational Testing Service. (1996). TOEFL: Announcing computer-based testing. Princeton, NJ: Educational Testing Service.

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー 受験者視点でみた CBT の優れている点 (Brown1997) 1. 多枝選択式のテストでは得点の計算が人間よりはるかに正確 2. テストの得点を即座にフィードバックできる 3. 項目応答理論を導入することで個人の能力にあった適確な測定ができる 4. 各個人ベースのテストを配信することで自分のペースに合わせてテストを受けられる 5. 多くの学生はコンピュータを好み, テストプロセスを楽しむことができる https://scholarspace.manoa.hawaii.edu/bitstream/10125/25003/1/01_01_brown.pdf Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59.

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー 作成者 実施者視点でみた CBT e テスティングの優れている点 ( 植野 2012, 李 2015) 1. テストの配布 回収が自動で可能 2. テストの印刷 運搬のコストがかからない 3. 多様な素材 ( 動画, 音声 ) を利用したテスト作成が可能 4. テスト素材の提示に関する制御が可能 5. 回答行動に関する数値データからテストの改善が可能 6. テストの自動構成が可能 植野真臣 (2012) e テスティング 永岡慶三ほか ( 編 ) 教育工学における学習評価 ミネルヴァ書房李在鎬 ( 編 )(2015) 日本語教育のための言語テストガイドブック くろしお出版

正答率によって上位群と下位群に分岐する 作文テストで得点率 :25% 以下 テストの自動構成の例 J100 J300 作文テストで得点率 :26% 以上 J400 J800 1. パターン1: 文法分岐テスト (10 問 ) で50% 以下は,J100に判定 テストは終了 2. パターン2: 文完成で25% 以下は初級向け 3. パターン3: 文完成で25% 以上は中上級向け

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー 開発者視点でみた CBT の優れている点 ( 赤倉 2016) 1. テストをコンピュータを使って実施することにより ペーパーテストでは収集できない情報を大量に得ることができること 2. 大規模な出題項目 ( テストの問題 ) データベースを含む 出題項目を管理するためのアイテムバンクを構築できることから 受験者の能力を測定するための最適な項目を出題できる適応型テストの構成が容易であること イノベーションにつなげられる 得点以外の情報で学習者の理解度を確認できる 新たなフィードバックができる 赤倉貴子 柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー デメリット (Brown1997) 1. インフラが整っているところでしか実施できない ( 現在は解決 ) 2. マシンパワーや画面サイズの制約をうけることも考えられる ( 現在は解決 ) 3. ICT リテラシーが成績に影響する 4. コンピュータ操作に対する不安がパフォーマンスに影響する https://scholarspace.manoa.hawaii.edu/bitstream/10125/25003/1/01_01_brown.pdf Brown, J. D. (1997). Computers in language testing: Present research and some future directions. Language Learning & Technology, 1(1), 44 59.

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー CBT をめぐる様々な技術革新 1. 新たなプラットフォームの提案 小規模システムの提案 (Googleフォームや Kahoot! など ) も提案 2. 個人認証技術の進化 ( 画像認識技術 生体認証 ) 3. ウェブベースのシステム化により 身近な存在として定着 次の10 年に向けての研究課題 1. パフォーマンス評価, 産出能力の評価 2. 関連技術の導入 ( 言語処理, 音声認識, 機械学習 ) 3. 学習者の誤りの可視化

英作文における誤りの可視化例 http://www.ccr.kyutech.ac.jp/professors/iizuka/i7/i7-2/entry-653.html 学習者の作文をもとにアニメーション 教材をもとにアニメーション 東本崇仁 (2016) 教育現場での e テスティング技術の利用 応用 赤倉貴子 柏原昭博 ( 編 )(2016) e ラーニング /e テスティング ( 教育工学選書 2) ミネルヴァ書房

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf テスト テクノロジー 人のことばを理解しているかのように振る舞う機械 1. 自然言語処理の要素技術 ( 形態素解析, 係り受け解析, 文脈処理, 照応処理 ) をもとに進化 2. ウェブによる大量データの収集が可能 3. 汎用的な方法論を利用 テキストマイニング, データマイニング ( 豊田 2008), エデュケーショナルデータマイニング (Romero and Ventura (2013) Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 3(1), 12 27. 豊田秀樹 (2008) データマイニング入門 東京図書.

https://jreadability.net/ JWRITER 作文のレベル =1.637+ 平均文 0.045+ 中級後半語数 0.021+TTR -0.430+ 動詞数 0.015+ 中級前半語数 0.011+ 総文字数 -0.004+ 和語数 0.007+ 漢語数 0.007(R 2 =0.760) 李 部 迫田 (2017) 李在鎬, 部陽 郎, 迫田久美子 (2017) 人工知能の仕組みを利用した学習者作文評価システム jwriter I-JAS を利用した試み 日本語教育学会 2017 秋季大会 ( 新潟朱鷺メッセ )

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 学習者コーパスの活用 1. I-JAS(International Corpus of Japanese as a Second Language) の作文データから日本語の習熟度に応じたことばの癖を学習 2. 新しいテキストに対して,I-JAS のどのレベルともっとも類似しているかを回帰式でもって判定 3. より良い作文を書くためのアドバイスなども行う ( 診断的評価 ) 語彙のバランスの良し悪し, 表現の さ, 語彙の分かりやすさなど

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 評価指標について Type/Token Ratio 平均文 漢語 TTR 中級後半語彙

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 評価指標について

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 人の評価とコンピュータの評価 縦軸 : 日本語作文 30 編に対して大学教員 44 名がつけた 5 段階評定値に対して IRT(Item Response Theory: 項目応答理論 ) 系モデルで各作文の潜在特性尺度値 ( 以下, 能力値 θ ) を推定 ( 伊集院ほか 2017 のデータ ) 横軸 :jwriter による評価値 伊集院郁子, 李在鎬, 小森和子, 野口裕之 (2017) IRT 系モデルと Readability による日本語作文の定量的分析 大学教員による評価とコンピュータによる自動評価の比較 日本語教育学会 2017 秋季大会 ( 新潟朱鷺メッセ )

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf より良いコンピュータベースのパフォーマンス評価のために 1. 現状として人の評価に対して,7 8 割程度しか当てられない 2. 評価指標の妥当性の検証が難しい なぜこれらの指標が選択されたのかは分からない データがこうなっているから 3. コンピュータ分析指標と作文教育の指導方針が異なっている

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf より良いコンピュータベースのパフォーマンス評価のために 1. 現状として人の評価に対して,7 8 割程度しか当てられない 人間同士でもずれることを考えると, この精度が限界 2. 評価指標の妥当性の検証が難しい なぜこれらの指標が選択されたのかは分からない データがこうなっているから 日本語教師の経験知を移植する 人の評価ではどんなところに注目するのかを調査 3. コンピュータ分析指標と作文教育の指導方針が異なっている モダリティをもとに論理構造の把握できるシステムへ 例示 ( あげられる ),

http://jhlee.sakura.ne.jp/talk/ngk2018.pdf 最後に 言語能力を評価する立場としての教師に求められるもの 1. 評価リテラシー ( 伊東 )+ 統計リテラシー ( 島田 )+IT リテラシー ( 李 ) 2. 意識改革 : テストがかわれば, 教育や受験者や社会がかわる ( 近藤 ) あまり勉強してないな 今学期の学生はできがわるいな 現象 今学期の問題は出来が悪いな 学生の能力に合わない問題を作ったかも 評価を意識しない教師 評価を意識する教師