< 日本語教育と AI: 研究実践例と今後の課題 > 読解支援システムへの AI 活用の可能性と留意点 東京国際大学 川村よし子
読解支援システムへの AI 活用の可能性と留意点 はじめに 1. 読解支援システムと自然言語処理技術 2. リーディング チュウ太 3. チュウ太のWeb 辞書 4. チュウ太のやさしくなーれ 5.AI 活用の可能性と留意点
はじめに はじめに AI( 人工知能 ) とは? HAL=AI ELIZA は? Google Tranlsate は? AI を言語教育に活用できるのか? AI を日本語教育に用いる時にネックになるものは?
1. 読解支援システムと自然言語処理技術 1998 年 Web 上にある膨大な量の日本語情報日本語教育や自律学習の教材として活用可能 読解学習支援システム リーディング チュウ太 辞書ツールの多言語化 : チュウ太の Web 辞書 共生社会への対応 : チュウ太のやさしくなーれ 共通している自然言語処理技術 : 形態素解析
2. リーディング チュウ太 読みたい文章を入力すれば 本文中の全ての単語の辞書引きやレベル判定が自動で行える 辞書ツール入力された文章 形態素解析 Chasen 辞書と照合結果画面 : 本文中の単語と辞書情報がリンク学習履歴 : あなたの単語リスト を自動生成 レベル判定ツール入力された文章 形態素解析 Chasen 単語リストと照合結果画面 : 本文中の単語や漢字の難易度レベルを表示 日本語の文章の分析には形態素解析が不可欠
形態素解析 を活用する際の工夫と留意点 読みが複数ある場合 Chasen の読み情報をすべて出すことで対応 意味が複数ある場合 辞書情報をすべて出すことで対応 ( 辞書ツールは翻訳ツールではない ) 形態素解析の誤解析 ( 解析精度は 98.5%) Chasen が解析に用いている形態素辞書に依存
形態素解析の誤解析 ( 解析精度は 98.5%) Chasen が解析に用いている形態素辞書に依存 例 1: 語彙的複合動詞は 1 語扱い ( 押し出す 取り乱す 気が付く etc.) 辞書に当該語がなければ 表示不能 レベル分けリストになければ 級外 例 2: 締約国会議 締約 + 国会 + 議 単語ごとの重みづけを変更して対応 例 3: 行った 行う + た プログラムで前接助詞とセットにして対応 平仮名の べた書き は苦手 利用の際は できるだけ漢字かな交じり文を入力
3. チュウ太の Web 辞書 多言語版の辞書ツール読みたい文章を入力すれば 本文中の全ての単語の辞書引きが自動で行える仕組み 文章 形態素解析 MeCab 辞書と照合 本文中の単語と辞書情報がリンク 意味ごとに例文も表示 あなたの単語リスト 作成 ( 復習が可能 ) 複数言語版の辞書を同時表示可能 ふりがな機能も搭載
チュウ太の Web 辞書 の 多言語辞書編集チーム 対訳辞書編集チーム 25 言語 ( 編集完了語数順 ) ロシア語英語スロヴェニア語ハンガリー語ベトナム語トルコ語ブルガリア語中国語韓国語タイ語ポルトガル語スペイン語チェコ語ドイツ語キルギス語マレー語マラティ語スロヴァキア語ルーマニア語フランス語イタリア語フィンランド語インドネシア語タガログ語アラビア語 (2018 年 3 月 22 日現在 )
ミニ辞書も搭載 ニーズ : 簡易版でもいいので早く欲しい 1 語 1 訳の形のミニ辞書を作成 旧 日本語能力試験出題基準 の語彙:8,600 語 ミニ辞書が完成した言語インドネシア語 タガログ語 英語 スペイン語 タイ語中国語 ( 簡体字 繁体字 ) 韓国語 クロアチア語 ミニ辞書編集中の言語ルーマニア語 フィンランド語 アルメニア語
チュウ太の Web 辞書 の結果画面
ふりがな機能を使った結果画面
MeCab を活用する際の工夫と留意点 意味が複数ある場合 辞書情報をすべて出すことで対応 読みが複数ある場合 辞書情報に複数の読みを併記することで対応 形態素解析の誤解析 解析精度を上げるための工夫 MeCab 辞書に単語を追加できる仕組みを搭載 例 : 単語 : うがい ペットボトル 人件費 複合語 : 好奇心 一方的 かっこ悪い 専門用語 : 清拭 解毒剤 認知症 但し ひらがなのべた書きは極めて低い解析精度
MeCab を活用する際の工夫と留意点 意味が複数ある場合 辞書情報をすべて出すことで対応 読みが複数ある場合 辞書情報に複数の読みを併記することで対応 形態素解析の誤解析 解析精度を上げるための工夫 MeCab 辞書に単語を追加できる仕組みを搭載 例 : 単語 : うがい ペットボトル 人件費 複合語 : 好奇心 一方的 かっこ悪い 専門用語 : 清拭 解毒剤 認知症 但し ひらがなのべた書きは極めて低い解析精度 にっぽんでは さかなをなまのままたべるさしみやすしなどはにんきのあるりょうりです
Mecab の 解析結果
MeCab を活用する際の工夫と留意点 意味が複数ある場合 辞書情報をすべて出すことで対応 読みが複数ある場合 辞書情報に複数の読みを併記することで対応 形態素解析の誤解析 解析精度を上げるための工夫 MeCab 辞書に単語を追加できる仕組みを搭載 例 : 単語 : うがい ペットボトル 人件費 複合語 : 好奇心 一方的 かっこ悪い 専門用語 : 清拭 解毒剤 認知症 ひらがなのべた書きは極めて低い解析精度 通常の書き方の ( 漢字かな交じり ) 文を入力する
4. チュウ太のやさしくなーれ 入力文中の難しい単語を自動でやさしく書き換える 文章 形態素解析 MeCab 書き換え辞書と照合 やさしい単語への書き換え ( 活用の変化にも対応 ) 元の文と書き換えた文を併記 ( ふりがなも付与 ) 説明的になる語はバルーンで表示 名詞 + 名詞の複合語もバルーンで表示 多義語もバルーンで表示
やさしくなーれの結果画面 緑 : 書き換えた語青 : バルーン表示の語黒 : 書き換えない語赤 : リストにない語
4. チュウ太のやさしくなーれ 難しい単語を自動でやさしく書き換える 文章 形態素解析 MeCab 書き換え辞書と照合 やさしい単語への書き換え ( 活用の変化にも対応 ) 元の文と書き換えた文を併記 ( ふりがなも付与 ) 説明的になる語はバルーンで表示 名詞 + 名詞の複合語もバルーンで表示 多義語もバルーンで表示 < 問題点 > バルーン表示の語が多くなる
< 問題点 > バルーン表示の語が多くなる 文脈にあわせた多義語の書き換え サ変動詞 + 名詞 の書き換え < 動詞の時制の決定 > 例 : 調査結果 調べた結果選考方法 選ぶやり方入居者 入っている人 <Google N-gram を活用した対応 > 1. 書き換え候補の動詞の 3 種類の活用 + 名詞 を検索 2. コーパスに当該の組み合わせがあれば書き換え 3. 複数候補ある時には 多いほうで書き換え
< 問題点 > バルーン表示の語が多くなる 文脈にあわせた多義語の書き換え 名詞 + 助詞 + サ変動詞 ( 多義語 )+ する の書き換え < サ変動詞の意味の決定 > 事件が発生する 事件が起きる大量の蚊が発生する 多くの蚊が生まれる <Google N-gram を活用した対応 > 1. 当該名詞 & 書き換え候補 ABC をコーパスで検索 2. その組み合わせがヒットすれば 当該動詞に書き換え 3. 複数候補がヒットすれば 多いほうで書き換え
< コーパスの活用の問題点 > 文脈にあわせた多義語の書き換え <コーパス利用の際に考えるべき問題 > 同一文の複数コピーが含まれる可能性 誤った使い方をしている文が含まれる可能性 偏った領域の表現が含まれる可能性
コーパス利用 ( 作成 ) における課題 日本語ウェブコーパス 2010 ( 矢田晋 2010) 2010 年 6 月から 9 月にかけて収集した約 1 億件のウェブページから作成したコーパス http://s-yata.jp/corpus/nwc2010/ngrams/ 例 : 技術 という単語の N グラム検索の結果 日本技術総業の菊池政美 という文字列が 9940 件もヒット
Web 上の情報収集で起きる問題の一例 http://mizusato.at.webry.info/200801/article_22.html たまたま技術という単語でNグラム検索したら 日本技術総業の菊池政美と という文字列が9940 件もヒットしていて 個人への誹謗中傷が異常に繰り返されていた様子
< コーパスの作成 ( 活用 ) の問題点 > 同一文の複数コピーが含まれる可能性一部改変の場合 同一文の排除ではチェック不能 適切な対応が不可欠 誤った使い方をしている文が含まれる可能性自動翻訳の結果等の混在への配慮 偏った領域の表現が含まれる可能性収集源の吟味 ( Web コーパスの危険性 )
5.AI 活用の可能性と留意点 読解支援システムへのAI 活用の可能性 < 例 1> チュウ太のやさしくなーれ の現状活用 日本語の活用を個々にプログラミング書き換え 品詞の組み合わせごとに対応コロケーションに配慮した 意味 の決定 対応は困難 AI( ディープラーニング ) による多義語の意味の決定に期待
5.AI 活用の可能性と留意点 学習支援システムへのAI 活用の可能性 < 例 2> チュウ太のWeb 辞書 言語ごとに対訳辞書を作成各言語の辞書ツールがほしいとの要望 AI( ディープラーニング ) を活用して各言語ごとの対訳辞書の自動生成各言語の形態素解析システムの開発そのほかにもいろいろな可能性があるが
5.AI 活用の可能性と留意点 < 言語教育分野でAIを活用する際の留意点 > 日本語教育に活用するには 模範的な日本語を提示できること 誤りを極力減らすこと読解支援システムに活用するには 辞書( 単語 コロケーション 文型 etc.) コーパス( 日本語として違和感のない文の集合体 ) 形態素解析( 誤解析を減らす改良ができる仕組み ) そして
NINJAL-LWP for BCCWJ ( 例 : オノマトペ )
5.AI 活用の可能性と留意点 < 言語教育分野でAIを活用する際の留意点 > 日本語教育に活用するには 模範的な日本語を提示できること 誤りを極力減らすこと読解支援システムに活用するには 辞書( 単語 コロケーション 文型 etc.) コーパス( 日本語として違和感のない文の集合体 ) 形態素解析( 誤解析を減らす改良ができる仕組み ) 出力結果の適切な活用( 十二分の配慮と検証と吟味 )
5.AI 活用の可能性と留意点 < 言語教育分野でAIを活用する際の留意点 > 日本語教育に活用するには 模範的な日本語を提示できること 誤りを極力減らすこと読解支援システムに活用するには 辞書( 単語 コロケーション 文型 etc.) コーパス( 日本語として違和感のない文の集合体 ) 形態素解析( 誤解析を減らす改良ができる仕組み ) 出力結果の適切な活用( 十二分の配慮と検証と吟味 ) AIの判断の根拠を明らかにできる仕組み
おわりに AIの言語教育への活用に期待 AI 導入に際しては十二分の配慮と検証と吟味が必要 AIの可能性と課題についての認識 AIの判断の根拠を明らかにする仕組み作り 日本語教師とコンピュータ技術者との密な連携が必要 ご清聴ありがとうございました