「日中Skype会話コーパス」を用いた話題別語彙の抽出 ―「食」の場合―

Similar documents
4 学習の活動 単元 Lesson 1 (2 時間 ) 主語の決定 / 見えない主語の発見 / 主語の it 外国語表現の能力 適切な主語を選択し英文を書くことができる 外国語理解の能力 日本の年中行事に関する内容の英文を読んで理解できる 言語や文化についての知識 理解 適切な主語を選択 練習問題の

京都立石神井高等学校平成 31 年度教科 ( 外国語 ( 英語 ) ) 科目 ( 英語表現 Ⅱ ) 年間授業計 ( 標準 α) 教 科 : 外国語 ( 英語 ) 科目 : 英語表現 Ⅱ 単位数 : 2 単位 対象学年組 : 第 2 学年 A 組 ~G 組 教科担当者 :(A 組 : 岡本 松井 )(

<4D F736F F D E382E32372E979B82D982A98C7697CA8D918CEA8A77975C8D658F575F93FC8D6594C52E646F6378>

<4D F736F F D AA90CD E7792E88D5A82CC8FF38BB5816A819A819B2E646F63>

甲37号

平成 29 年度年間授業計画 & シラバス 東京都立足立高等学校定時制課程 対象学年 教科 科目名 担当者名 1 学年 ( 普通科 商業科 ) 外国語科コミュニケーション 佐々木友子 風見岳快 英語 Ⅰ 使用教科書 出版社 : 三省堂 教科書名 :Vista English Communicatio

งานนำเสนอ PowerPoint

H30全国HP

Microsoft Word - 02_03_categorylabel.doc

慶應外語 2019 年度春学期三田正科注意 : やむをえない理由により 予告なしに担当講師が代講または変更となることがあります 講座開始後 この変更を理由に講座をキャンセルされる場合 受講料の返還はいたしません 講座コード C ベトナム語 基礎コース 担当者 グエン Nguyễn ミン

T_BJPG_ _Chapter3

「産業上利用することができる発明」の審査の運用指針(案)

ホームページ掲載資料 平成 30 年度 全国学力 学習状況調査結果 ( 上尾市立小 中学校概要 ) 平成 30 年 4 月 17 日実施 上尾市教育委員会

nlp1-12.key

早稲田大学大学院日本語教育研究科 修士論文概要書 論文題目 ネパール人日本語学習者による日本語のリズム生成 大熊伊宗 2018 年 3 月

注意:やむをえない理由により、予告なしに担当講師が代講または変更となることがあります

I II III 28 29

生活設計レジメ

44 4 I (1) ( ) (10 15 ) ( 17 ) ( 3 1 ) (2)


Microsoft Word - 英語科指導案 公開研 2学年_H _.docm

総合的な探究の時間 は 何を 何のために学ぶ学習なのか? 総合的な探究の時間 は与えられたテーマから みなさんが自分で 課題 を見つけて調べる学習です 総合的な探究の時間 ( 総合的な学習の時間 ) には教科書がありません だから 自分で調べるべき課題を設定し 自分の力で探究学習 ( 調べ学習 )

博士論文概要 タイトル : 物語談話における文法と談話構造 氏名 : 奥川育子 本論文の目的は自然な日本語の物語談話 (Narrative) とはどのようなものなのかを明らかにすること また 日本語学習者の誤用 中間言語分析を通じて 日本語上級者であっても習得が難しい 一つの構造体としてのまとまりを

物販アフィリエイトの極意 基本的に短期決戦型のブログでしたらリサーチとライバルチェックが重要視されます 逆に長期的なメルマガアフィリエイトではリサーチの重要度よりも 情報発信力が重要になってきます 今回の講座では短期決戦型になりますので このリサーチ力を身につけて下 さい 1 物販アフィリエイトをや

平成 21 年度全国学力 学習状況調査結果の概要と分析及び改善計画 調査実施期日 平成 21 年 10 月 2 日 ( 金 ) 教務部 平成 21 年 4 月 21 日 ( 火 )AM8:50~11:50 調査実施学級数等 三次市立十日市小学校第 6 学年い ろ は に組 (95 名 ) 教科に関す

2 116

目 次 1 学力調査の概要 1 2 内容別調査結果の概要 (1) 内容別正答率 2 (2) 分類 区分別正答率 小学校国語 A( 知識 ) 国語 B( 活用 ) 3 小学校算数 A( 知識 ) 算数 B( 活用 ) 5 中学校国語 A( 知識 ) 国語 B( 活用 ) 7 中学校数学 A( 知識 )

日本語「~ておく」の用法について

注意:やむをえない理由により、予告なしに担当講師が代講または変更となることがあります

指導内容科目国語総合の具体的な指導目標評価の観点 方法 読むこと 書くこと 対象を的確に説明したり描写したりするなど 適切な表現の下かを考えて読む 常用漢字の大体を読み 書くことができ 文や文章の中で使うことができる 与えられた題材に即して 自分が体験したことや考えたこと 身の回りのことなどから 相

教科 : 外国語科目 : コミュニケーション英語 Ⅰ 別紙 1 話すこと 学習指導要領ウ聞いたり読んだりしたこと 学んだことや経験したことに基づき 情報や考えなどについて 話し合ったり意見の交換をしたりする 都立工芸高校学力スタンダード 300~600 語程度の教科書の文章の内容を理解した後に 英語

Microsoft Word - H1369 インターネット1(IE版)(T)

課題研究の進め方 これは,10 年経験者研修講座の各教科の課題研究の研修で使っている資料をまとめたものです 課題研究の進め方 と 課題研究報告書の書き方 について, 教科を限定せずに一般的に紹介してありますので, 校内研修などにご活用ください

(3) 将来の夢や目標を持っていますか 平成 29 年度 平成 28 年度 平成

1 高等学校学習指導要領との整合性 高等学校学習指導要領との整合性 ( 試験名 : 実用英語技能検定 ( 英検 )2 級 ) ⅰ) 試験の目的 出題方針について < 目的 > 英検 2 級は 4 技能における英語運用能力 (CEFR の B1 レベル ) を測定するテストである テスト課題においては

相互行為における不同意の会話分析研究 ―マルチモダリティの視点から―

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

コミュニケーションを意識した授業を考えるーJF日本語教育スタンダードを利用してー

<4D F736F F D C815B918D8CA4836A B A E B92B28DB F C8B89CA82CC82A8926D82E782B E646F632E646F6378>

散布度

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

フトを用いて 質問項目間の相関関係に着目し 分析することにした 2 研究目的 全国学力 学習状況調査結果の分析を通して 本県の児童生徒の国語及び算数 数学の学習 に対する関心 意欲の傾向を考察する 3 研究方法平成 25 年度全国学力 学習状況調査の児童生徒質問紙のうち 国語及び算数 数学の学習に対

Microsoft PowerPoint - ???????

(4) ものごとを最後までやりとげて, うれしかったことがありますか (5) 自分には, よいところがあると思いますか

調査概要 タイトル バンダイこどもアンケートレポートVol.198 お子様はタイムマシンに乗れるならどの時代に行ってみたいですか? 実査期間 2011 年 11 月 29 日 ~12 月 8 日 調査対象 小学生のお子様の保護者 調査方法 雑誌 新聞及びインターネット上でのアンケート付きプレゼント企

多言語版「チュウ太のweb辞書」を用いた語彙学習

自己紹介をしよう

i


Wide Scanner TWAIN Source ユーザーズガイド

<4D F736F F F696E74202D E815B836C AE89E6947A904D B C98AD682B782E9837D815B F B835E2E707074>

(4) 学校の規則を守っていますか (5) いじめは, どんな理由があってもいけないことだと思いますか

101003S インドネシア語基礎単科セット 入船ゆかり 水曜日 金曜日 インドネシア語基礎の講座を全て受講する場合は セットで申込みをしてください この講座で重視している項目使用言語 A 授業の内容この講座で重視している項目使用言語 インドネシア語初級西脇敦子金曜日初級 A 基礎 Aに

データ概要調査対象 : 留学ジャーナルから 7 月 ~9 月に短期留学 (1 週間 ~4 週間の留学を指す ) した大学生に任意で実施したアンケート調査の結果調査人数 :64 名調査期間 :2016 年 9 月 26 日 ~10 月 16 日 留学期間 1 週間以内 2 週間 3 週間 4 週間 合

2 教科に関する調査の結果 (1) 平均正答率 % 小学校 中学校 4 年生 5 年生 6 年生 1 年生 2 年生 3 年生 国語算数 数学英語 狭山市 埼玉県 狭山市 61.4

学習指導要領の領域等の平均正答率をみると 各教科のすべての領域でほぼ同じ値か わずかに低い値を示しています 国語では A 問題のすべての領域で 全国の平均正答率をわずかながら低い値を示しています このことから 基礎知識をしっかりと定着させるための日常的な学習活動が必要です 家庭学習が形式的になってい

いろいろな衣装を知ろう

補充資料 2-1 単元 Let's Read 1 の指導展開案 (1) 単元 Let's Read 1 A Magic Box 1 の指導展開案(1/5 時間 ) (1) 目標 物語を読んで 場面展開を読み取ることができる 昨日の日記 というトピックに基づき 自分について英語で書いて表現できる (2

<4D F736F F D D5792B28DB8838C837C815B A81778E7182C782E E B92B28DB E81788C8B89CA82CC82A8926D82E782B E646F63>

会話の中では感覚的にそれほど 違い を意識して使っているものではないと考え 今回は 同じ can を用いての表現として一連の学習として扱うことにした また 語 学習得において 自分の表現したいこと がはじめにあり それを何とか表現しよ うとする過程を通して初めて自分の言葉として言語を獲得できるという


2 教科に関する調査の結果 ( 各教科での % ) (1) 小学校 国語 4 年生 5 年生 6 年生 狭山市埼玉県狭山市埼玉県狭山市埼玉県 平領均域正等答別率 話すこと 聞くこと 書くこと

1 (1) (2)

- 2 -


II III I ~ 2 ~

中堅中小企業向け秘密保持マニュアル

橡ミュラー列伝Ⅰ.PDF

2016 年度 アメリカ留学報告書 実習先 : ノースウエストミズーリ州立大学 実習期間 :8 月 24 日 ~12 月 18 日 新潟国際情報大学国際文化学科学籍番号 : 樋浦優里

国際数学・理科教育動向調査(TIMSS2015)のポイント

Transcription:

真正性のある接触場面会話コーパスを用いた話題特徴語の抽出 ポップ カルチャーの場合 中俣尚己 ( 京都教育大学 )

1. はじめに

本研究の目的 トピックシラバスに基づいた教材を作る上で欠かせない語彙の選定を, 実際にそのトピックについて話している 会話コーパスのデータから 半自動的に行うという試み * 語彙に関する研究 ( 森 ( 編 )2016 など )

これまでの重要な成果 山内 ( 編 )(2013) 実践日本語教育スタンダード ( 以下 実践 S) 実質語は話題に従属するという考え方

1.1.1.1. 食名詞 : 具体物の 料理名 : 個体 まず,100 の話題を選定 各話題ごとに文型を設定 その文型に入りうる名詞をパラディグマティックに配列 A B C 3 段階の難易度 意味分類 A B C 料理名: 個体 カレー パン ごはん サラダ うどん そば サンドイッチ ステーキ ハンバーグ 刺身 ライス 粥 実 麺 漬物 ~ 漬け

本研究が目指すもの 実践 S での語の選定や難易度判定は大部分が執筆者の主観に基づくもの 学習者の接触場面にその語が必要かは未検証 会話コーパスから機械的にその話題に従属する語彙を抽出できれば, 客観的かつ大規模な語彙表を作成できる 実践 S の枠に, データから具体的な語を流し込む作業 話題に従属しない語 本当に? 機能語と話題の関連性が分かれば 教室活動を考える手がかりに

2. 先行研究

特徴語抽出とは 特定の文書群と他の文書群を比較し, 特定の文書群によく出現する語を特徴語として抽出する研究は広く行われている 指標は ( 色々あるが ) 対数尤度比 (Log-Likelihood Ratio) が効果的とされる ( 内山ほか 2004, 中條ほか 2005) 田中 近藤 (2011) 中俣 (2015b) 山内 橋本 (2016) 教科特徴語 話し言葉 食 書き言葉 食

中俣 (2015b) 自身が構築した 日中 Skype 会話コーパス について 料理 の話題の会話を分析したところ 244 語が抽出され,80% 以上が実際に 料理 と関係していることが確認された 十分に高い数値であるが 誤抽出の語があることが問題 料理 回のファイルをまるまる分析対象にしたため 誤抽出の語は 話題が逸れた箇所に集中 会話内容を精査し, 実際にその話題について話している箇所だけを切り出してサブコーパスを構築すれば,100% に近い精度で抽出できるのでは? 本研究へ

3. 方法 3.1 3.2 使用したコーパスについて特徴語抽出の手順

3.1 使用したコーパスについて 日中 Skype 会話コーパス 2012 年 5 月 ~7 月に 東京 実践女子大学と長沙 湖南大学の学生間で行った Skype を利用した遠隔日本語会話活動 ( 中俣ほか 2013) を録音 文字化したもの 接触場面会話コーパス

日中 Skype 会話コーパス とは 中国人学習者は全員 2 年生 日本人は 3 年生 ~M1 9 ペア 38 会話 総会話時間 46:48:35 1 会話あたり平均 1:13:55 語数は約 20 万語 ( 後述の 雪だるま で解析 ) テキストファイル 笑いや発話の重なりといった簡単な記号を含む

利用するには 中俣のホームページから無料でダウンロードできます ( Skype コーパス で検索 )

特徴 1: 真正性がある コーパスのための活動ではない Skype を用いた会話活動を通し 中国の学習者には学んだ日本語を使う機会を提供するとともに学習意欲を継続させること 日本の母語話者には外国人と文化交流をしたり日本語を教えたりしながら 日本語について考えてもらうことが第一の目的 真正性のある接触場面の雑談

表 1 KYコーパスと日中 Skype 会話コーパスの出現数の比較 語 KY コーパス Skype コーパス 明後日 0 7 木曜 6 41 すごい 77 211 すごく 190 86 すげえ 0 4 明後日 や 木曜 は基本語であるのに, コーパスに出現しにくい ( 北村 冨岡 川村 2009)

特徴 2: 縦断的なデータ 会話活動は 1 週間に 1 回 継続的に行った 最も多いペアで 7 回分の会話がある

特徴 3: 一種の電話場面 終結部などは電話場面そのものの展開が観察される ( 橋内 1999) コミュニケーション ブレイクダウンや沈黙の研究にもどうぞ

特徴 4: 話題が指定されている 1 ポップカルチャー 6 伝統 行事 2 料理 7 夏休み 夏の予定 3 家庭 家族 子供 8 大学生活 4 故郷 今住んでいる場所 5 敬語 0 指定なし トピック認定できず 必ずしも厳密に守られているわけではなく 話がそれたり日本語についての質問も

3.2 特徴語抽出の手順 コーパス全体を目視し ポップ カルチャー が話題の特定コーパス (28,960 語 ) とそれ以外が話題の対照コーパス (175,352 語 ) に分割 ( 調査協力者と発表者の 2 人で行った ) ポップ カルチャー にはドラマ 音楽 アニメーションを含めるが 文学は含めない 学習者と母語話者は分割しない なぜか?

表 4 日中 Skype 会話コーパス における話者別の異なり語数と延べ語数 ( 中俣 2015b) 話者異なり語数延べ語数 TTR 中国人学習者 日本人母語話者 5,374 103,883 0.0517 4,923 100,749 0.0489

接触場面において学習者と母語話者の語彙の違いは小さい 細かく語彙を分析しても 母語話者 はよく使うが 学習者はあまり使わ ない あるいはその逆の語という ものは一部の機能語的な語に 限られる ( 中俣印刷中 ) 話者の違いによる特徴語 < 話題の違いによる特徴語

日本語解析システム 雪だるま 長岡技術科学大学の山本和英氏が開発 形態素ではなく 単語 に分割することを目的とする ( 森 2016) 気が早い のような慣用句 かもしれない のような複合辞 勉強する のようなサ変動詞 無理だ のような形容動詞をそれぞれ 1 語として出力 解析は 2015 年 12 月 26 日に行った

対数尤度比を計算 田中 近藤 (2011) の補正値 2(alna+blnb+clnc+dlnd-(a+b)ln(a+b)-(a+c)ln(a+c)- (b+d)ln(b+d)-(c+d)ln(c+d)+(a+b+c+d)ln(a+b+c+d)) a: 当該資料での当該語の度数 b: 参照資料での当該語の度数 c: 当該資料の延べ語数 -a d: 参照資料の延べ語数 -b ln は自然対数を表す a または b が 0 の場合 alna または blnb を 0 として計算する ad-bc<0 の場合の場合 -1 を乗じる補正を行う 0.1% 水準で有意となる 10.83 よりも大きい語を ポップカルチャー 特徴語と認定する

4. 結果

3.3 結果 発話の断片 ( テレビと言おうとして テレ ) を除いて,251 語を抽出 ポップ カルチャー コーパスのうち 異なり語数の 11.9% 延べ語数の 28.7% ( 機能語 感動詞を含む ) 参考 : 食 コーパス 異なり 11.9% 延べ 16.0%

表 4-1 代表的な特徴語 品詞語数精度代表的な語 103 91% アニメ 映画 ドラマ 歌 題名 歌手 人気 曲 誰 主人公 番組 マンガ グループ テレビ番組 推理 音楽 テレビドラマ カラオケ 作品 漫画 人 一人 舞台 闘争 コント 語数は機械的に抽出された語 精度はそのうち, 実際に話題に 関連している割合 一般名詞

表 4-2 代表的な特徴語 品詞語数精度代表的な語 固有名詞 92 100% 嵐 蛍の光 木村拓哉 SMAP 亮さん ジェイ チョウ ハンガー ゲーム AKB サザエさん 貞子 ナルト 陰陽師 セーラームーン 福山 福山雅治 Shine 山口 ピカチュウ 語数は機械的に抽出された語 精度はそのうち, 実際に話題に関連している割合

表 4-3 代表的な特徴語 品詞語数精度代表的な語 動詞 19 95% 見る 聞く 知る 出る 読む 歌う 流れる 描く 参加する 見れる おすすめする はやる 捨てる 調べる 感動する 出演する 主演する 語数は機械的に抽出された語 精度はそのうち, 実際に話題に関連している割合

表 4-4 代表的な特徴語 品詞語数精度代表的な語 形容詞 17 100% 人気 この 好き 面白い 可愛い かっこいい 有名 新しい 古い 大人気 無理 怖い ソフト 真面目 爽やか 副詞 8 100% ニコニコ とっても いろいろ 最近 去年 昔 今 さっき 感動詞 9 0% あああ ふうーん へええ ん んー うん よーし のう え 機能語 3?? た ている の

表 5 誤判定と考えられる語 広い意味では関係するもの 話題が微妙にずれたもの 日本 台湾 インターネット 無料 情報 ネット 集める校歌 スケジュール 卒業式

5. 考察 5.1 5.2 作品外語彙と作品内語彙抽出された機能語から考える教室活動

5.1 作品外語彙と作品内語彙 251 語のうち 動詞や形容詞はそれぞれ 10% にも満たず 少数の語彙が選ばれていた 反対に名詞は 77% を占め 語彙学習における名詞の重要性を示している 一般名詞 宇宙 宇宙兄弟 固有名詞 イタチ NARUTO このような語が多数を占めているのではないか?

表 6 作品外語彙と作品内語彙 一般名詞 固有名詞 作品外語彙 監督 キャラクター バンド など77 例 福山雅治 コクリコ坂 貞子 など88 例 作品内語彙 政治 ロボット お見合い など16 例 ピカチュウ ナルト など4 例

5.2 抽出された機能語から 考える教室活動 直感では抽出しにくい 誰 が抽出された 食 の話題と比べれば 誰が出演するのか 誰が監督か 誰が主人公か など 誰 が話題になることは相対的に多いと言える 疑問詞 誰 を使う活動とポップ カルチャーという話題は相性が良い 他の疑問詞も?

食 に関係しない語彙 疑問詞 いつ は抽出されなかったが 最近 去年 今 昔 さっき ている た 山内 ( 編 )(2013) では 話題に従属しない 語 しかし 従属 とまでは言わなくても ( 少なくとも教室活動を考えるレベルでは ) 相性のよい話題 が存在するのでは

機能語が重要になるか? 食 の場合 駅前の鯛焼き屋はおいしいです 駅前の鯛焼き屋はおいしかったです 文の意味は異なるが 聞き手の行動は同じ ポップ カルチャー の場合 昔 セーラームーン を見ました 今 セーラームーン を見ています 聞き手の行動が異なってくる ドラマ や 映画 には時間的制約があるので テンス アスペクトが重要 真正性のある活動になる

教室活動の例 昔見た作品を紹介する 私は 時間の副詞 を見ました が出ていました で見ることができます ぜひ見て下さい

教室活動の例 今放映中の作品を紹介する 私は 時間の副詞 を見ています が出ています チャンネルで 時からやっています ぜひ見て下さい

難易度による話題の分類 ( 山内 橋本 2016:59 より抜粋 ) I-a I-b I-c II-a II-b II-C III IV 町 家族 趣味 など 食 衣 旅行 交通 など 住 日常生活 絵画 など ふるさと 友達 容姿 など 音楽 映画 演劇 芸道 など 文芸 出版 家事 祭り など 言葉 思い出 悩み など 算数 数学 サイエンス など

機能語の観点を加えると 衣 食 住 時間的変化がない ふるさと ポップ カルチャー 時間的制約がある テンス アスペクト サイエンス ヴォイスなども重要

6. おわりに

本研究では 日中 Skype 会話コーパス から ポップ カルチャー に特徴的な語を半自動的に 251 語抽出した コーパスの規模から考えれば質 量ともに十分で 話題シラバスの教材作りに貢献可能 機能語の中にも特定の話題と相性が良いものがある 逆に 機能語を練習する際に その違いが真正な意味を持つ話題がある これらは経験的には知られていたが 会話データから抽出できるという方法論を示したことに本研究の意義がある 今後は複数の話題を対象に 同様の調査を行いたい

参考文献 ( 追加 ) 内山将男 中條清美 山本英子 井佐原均 (2004) 英語教育のための分野特徴単語の選定尺度の比較 自然言語処理 11-3 森篤嗣 (2016) 旧 JLPT 語彙表に基づく形態素解析単位の考察 庵功雄 佐藤琢三 中俣尚己 ( 編 ) 日本語文法研究のフロンティア 山内博之 橋本直幸 (2016) 第 2 章教育語彙表への応用 砂川有里子 ( 編 ) 講座日本語コ パス5. コーパスと日本語教育

発表は以上です ご意見 ご質問よろしくお願いします 利用希望者は Skype コーパス で検索!