1. はじめに 2

Similar documents
x i 2 x x i i 1 i xi+ 1xi+ 2x i+ 3 健康児に本剤を接種し ( 窓幅 3 n-gram 長の上限 3 の場合 ) 文字 ( 種 )1-gram: -3/ 児 (K) -2/ に (H) -1/ 本 (K) 1/ 剤 (K) 2/ を (H) 3/ 接 (K) 文字 (

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

¥ì¥·¥Ô¤Î¸À¸ì½èÍý¤Î¸½¾õ

演習 レシピテキストの係り受け解析

コーパスを用いた中国語ネット語の判定システム 竇梓瑜 ( 東京農工大学工学府情報工学専攻 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) A Detection System of Chinese Netspeak Using

多言語版「チュウ太のweb辞書」を用いた語彙学習

MeCab 汎用日本語形態素解析エンジン

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

<43534A2F925A925088CA814592B CA B835E B D836A B202D B B69>

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

マルチエージェントシステムグループの研究計画

アウトライン 字幕付与と音声認識 字幕作成システム 音声認識の構成 コーパス ( 主に言語モデルについて ) 自動整形 コーパス システムの利用例 リアルタイムの字幕作成 2

mecab-gree ppt

nlp1-12.key

スライド 1

Microsoft PowerPoint LRW.pptx

Microsoft PowerPoint - algo ppt [互換モード]

NLP プログラミング勉強会 4 単語分割 自然言語処理プログラミング勉強会 4 - 単語分割 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

不満をバネに社会を改善するデータ ~株式会社不満買取センター~

自然言語は曖昧性だらけ! I saw a girl with a telescope 構文解析 ( パージング ) は構造的な曖昧性を解消 2

実テキストの情報分析のための頑健な言語処理基盤

3-1-1 発音情報が未知の言語における テキスト音声合成システム構築法の検討 沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一名古屋工業大学 日本音響学会 2015 年秋季研究発表 2015 年 9 月 18 日

<4D F736F F D E382E32372E979B82D982A98C7697CA8D918CEA8A77975C8D658F575F93FC8D6594C52E646F6378>

図1 ネイルレシピ検索システム概要 ントを取得することによって ユーザの持っている服に似合う コーディネートを検索するシステムを構築することを目的とし ている [7] 本研究では ネイルレシピを対象としており 場 所に対応しているかだけでなく ユーザの好みや腕も考慮して いる 津田らは 爪の反射率の

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

立ち読みページ

スライド 1

vol24_3_003jp


研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

先行研究 pp

040402.ユニットテスト

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

< 本件に関する問い合わせ先 > 知識創成コミュニケーション研究センター言語基盤グループ村田真樹 Tel: Fax: < 広報問い合わせ先 > 総合企画部広報室報道担当 Tel: Fax: < 用語解説

レビューテキストの書き の評価視点に対する評価点の推定 29 3

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

テキストマイニングの登場 テキストデータのような定性データは 大量のデータ を分析することで安定した傾向が見いだせますが 人 手で大量のテキストデータを分析することは現実的に はほとんど不可能でした テキストマイニングの登場によって 大量のデータを 統一的な視点 基準から少ない労力で分析することが

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

第14回情報プロフェッショナルシンポジウム予稿集

Microsoft PowerPoint SIGAL.ppt

自己紹介 23 年 : NAIST 博士後期課程修了 統計的自然言語処理 機械学習 データマイニング 24 年 : NTT コミュニケーション科学基礎研究所入所リサーチアソシエイト グラフ構造に対する機械学習手法 25 年 ~ Google 株式会社ソフトウェアエンジニア Web 検索 ( サーチク

EBNと疫学

研究背景 センサなどによって観測される情報の多くは時系列列データ たくさんの時系列列データの中から有益な情報を取得し その内容を理理解する 手法の開発が重要 取得された情報をより抽象度度の 高いレベルで表現 時系列列データの振る舞いを 言語で説明する 手法の開発 HandRight_x HandRi

スライド 1

Microsoft Word - pdf 論文1

VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案

Microsoft Word - DEIM論文3.doc

ビジネス統計 統計基礎とエクセル分析 正誤表

0210研究会

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

コンビニデザートに対する生活者の意見でわかるブランド評価 テキストマイニングによる 意見 の分析 Contents 1 注目される CGM 2 ネットにひろがる意見 3 意見を 言葉 で分析 4 パネルの解説 5 ご協力いただいた企業様 数理システムユーザーコンファレンス 2007

ギター初心者のための 演奏練習支援システム 日本大学文理学部 情報科学科 B4 宇田川 真唯 1

DEIM Forum 2019 C3-5 tweet

スライド 1

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

(Microsoft Word - deim2009\215\305\217I\224\305_kobayashi.docx)

nlp1-04a.key

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17

PowerPoint Presentation

目次 ペトリネットの概要 適用事例

平塚信用金庫の現況 2015

共有辞書を用いた 効率の良い圧縮アルゴリズム

csj-report.pdf

(NICT) ( ) ( ) (NEC) ( )

オートマトン 形式言語及び演習 3. 正規表現 酒井正彦 正規表現とは 正規表現 ( 正則表現, Regular Expression) オートマトン : 言語を定義する機械正規表現 : 言語

文字入力 ソフトウェアキーボードを切り替える...56 文字入力画面の見かた...56 文字を入力する...58 文字入力の便利な機能を利用する...60 iwnn IME の設定を行う

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

<4D F736F F D2091B28BC68CA48B8695F18D908F912E646F63>

3.BCCWJ における固有表現抽出のエラー分析手法 3.1 BCCWJ における KNP のエラー分析今回エラーの分析をするにあたって BCCWJ のうち YAHOO! 知恵袋 白書 YAHOO! ブログ 書籍 雑誌 新聞 の 6 つからランダムサンプリングした計 136 個のテキストに対して人手

いるが それら Wiki 上でのデータは構造化されておらず 上記で述べた複雑さによ る問題がある 本プロトタイプではこの問題を解決する いくつかの解を提示してい る 図 1 スナップショット : ニーズを満たす結果の推薦 サービス対象をモンスターハンターに絞ったことにより 各行動に対応する述語に対し

コロケーションリストのもう一歩先へ: 英和辞書の執筆者と使用者の立場から

電子情報通信学会ワードテンプレート (タイトル)

ドキュメント1

help_ja

JA2008

東海道新幹線でDS



言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin



株主通信:第18期 中間



ワタベウェディング株式会社

2



株主通信 第16 期 報告書

21 POINT 1 POINT 2 POINT 3



1

平成27年度版 税金の本 第5章 贈与と税金 第2節 贈与税の特例 (PDF)

1003shinseihin.pdf

市民参加プログラムパワーポイント版 資料編

30


5

untitled

Transcription:

点予測と能動学習を用いた効率的なコーパス構築 形態素解析における実証実験 京都大学情報学研究科 Graham NEUBIG 1

1. はじめに 2

形態素解析 べた書きの文字列を意味のある単位に分割し 様々な情報を付与 品詞 基本形 読み 発音等を推定 農産物価格安定法を施行した 価格 / 名詞 / 価格 / かかく / かかく安定 / 名詞 / 安定 / あんてい / あんてー法 / 接尾辞 / 法 / ほう / ほーを / 助詞 / を / を / お施行 / 動詞 / 施行 / しこう / しこーした / 動詞 / する / した / した 言語処理の中で特に高い精度が必要 3

単語分割 形態素解析の現状 ルールベース ( JUMAN 等 ) TODO 機械学習の系列ラベリング ( ChaSen MeCab 等 ) TODO 4

既存の手法の問題点 一般分野における利用を想定 それ以外の分野で利用すると精度が著しく下がる 5

本研究 目的 : 単語分割や形態素解析の分野適応に必要な労力の軽減 提案手法 : 部分的アノテーション : 文全体ではなく 必要な箇所だけをアノテーションする 点予測を利用することで学習を実現 能動学習 : アノテーションがもっとも有効な箇所を選択し 作業者に提示する 分野適応のためのツールをオープンソースで公開 評価実験 : 医療分野における分野適応 時間効率を評価基準とする 6

言語処理の応用に必要な情報 多くの応用では 形態素解析のほとんどの情報が不要 応用 分割 品詞 読み 発音 機械翻訳 質問応答 かな漢字変換 音声認識 これらの情報を利用するより 形態素解析の精度が上がった方が結果的に良いシステム出力となる 7

2. 言語資源とアノテーション法 8

単語分割に必要な言語資源 辞書 単語の表記のみ 一般分野 厳密な単語分割基準に沿った物は入手可 UniDic IPADIC JUMAN 適応分野 厳密な単語分割基準に沿っていない物 ( 複合語を含む物 ) は多くの場合入手可能 9

アノテーション法 : フルアノテーション 従来の学習法では文全体をアノテーション 分割される単語の間に空白を挿入 単語境界に関する 2 つタグ : = 単語境界あり = 単語境界なし 農産物価格安定法を施行 農産物価格安定法を施行 + 直感的で分かりやすい - 文全体のアノテーションを行う必要がある 10

アノテーション法 : 部分的アノテーション 文の中で重要な部分のみをアノテーション タグの種類を拡張 = 単語境界あり ー = 単語境界なし = 単語境界の有無が未知 農産物価格安定法を施行 農産物 価 - 格 安 - 定法を施行 + 重要な箇所だけをアノテーションすることが可能 - フルアノテーションより少し手間がかかる 11

3. 単語分割の推定法 12

従来の単語分割 従来の単語分割法は HMM や CRF など 文全体の解を求める解析法を利用することが多い 文全体がアノテーションされた学習データが必要 Tsuboi et al. 08 は部分的アノテーションで CRF を学習 スパースなアノテーションでは膨大な学習時間 本研究では各単語境界の有無を個別に判定する点推定を利用 13

点推定による単語分割 各文字間で分割を行うかどうかの 2 値分類問題 農産物価格安定法を施行 0110101110 農産物価格安定法を施行 適当な素性を決め SVM やロジスティック回帰などを利用して解く 本研究では線形 SVM を利用 14

単語分割の素性 文字 n-gram と文字種 n-gram 素性 判定点 農産物価格安定法を施行 1-gram: 2-gram: 3-gram: 辞書単語素性 窓幅 = 2 文字 -2/ 定 -1/ 法 +1/ を +2/ 施 -2/ 定法 -1/ 法を +1/ を施 -2/ 定法を -1/ 法を施 文字種 -2/K -1/K +1/H +2/K -2/KK -1/KH +1/HK -2/KKH -1/KHK 判定点 農産物価格安定法を施行 辞書単語の範囲 L1( 定 ) R1( 法 ) L2( 安定 ) I2( 定法 ) 15

京都テキスト解析ツールキット ( KyTea ) 単語分割 読み推定の機能 部分的アノテーションから学習可能 点推定を利用 分類器として線形 SVM やロジスティック回帰 LIBLINEAR で実装 オープンソースで公開中 http://www.phontron.com/kytea 16

4. アノテーション戦略 17

アノテーション過程の概要 部分的アノテーションを最大限に活かすために有用な箇所をアノテーションする必要がある 以下の能動学習手順を用いて有用なタグを付与 C g D g モデル (1) D C a a 自動分割 コーパス 信頼度付きコーパス (3) 人手によるアノテーション 点選択 (2) アノテーションすべき点 18

ベースライン戦略 : フルアノテーション 一般分野の学習コーパス C g を利用して学習された分割器で適応コーパスを分割 C a 人手でこの分割結果を訂正 農産物価格安定法を施行 農産物価格安定法を施行 + 誤り箇所を修正するだけで 量的には効率的 - 学習に有用でないところもアノテーション 19

提案戦略 1: 点アノテーション 自動分割結果から信頼度の最も低い 100 点を選択 この点の単語境界にタグを付与 農産物? 価格安定法を施行 農産物 価格安定法を施行 + 有用箇所を積極的にアノテーションできる - 知らない単語が出た場合 インターネットや辞書で調べる必要があり 1 点に付き多くの作業時間 20

提案戦略 2: 単語アノテーション 自動分割結果から信頼度の最も低い 100 点を選択 その点だけでなくその点に隣接する ( または含む ) 単語全体をアノテーション 農産物? 価格安定法を施行 農産 物 価 - 格 安定法を施行 + アノテーションの有効性と速度の釣り合いが取れる 21

5. 評価 22

医療分野への適応実験 実験条件 一般分野コーパス C g : 現代日本語書き言葉コーパス ( モニター公開データ 1.29M 文字 ) 一般分野辞書 : UniDic ver. 1.3.9 (223k 単語 ) 適応分野コーパス C : 医療分野のコーパス (20.1M 文字 ) a 適応分野辞書 : ライフサイエンス辞書 (95.3k 単語 ) 1 人の作業者が交互に各戦略を順に繰り返す ( 点 単語 フル 点 単語 フル ) C a D g D a 実験開始時点では作業者は初心者 評価基準 : から取り除いた 1000 文に対する境界精度 23

実験結果 : アノテーション時間 各戦略のアノテーション時間を検証 戦略 100 点 100 タグ フルアノテーション - 16s 点アノテーション 9m15s 9m15s 単語アノテーション 10m35s 2m15s フルアノテーションは圧倒的に早い 点アノテーションは 1 点のアノテーションにかかる時間は単語アノテーションより早いが 1 タグは遅い 24

実験結果 : 時間効率 Accuracy vs. Annotation Time Segmentation Accuracy 99.50% 99.00% 98.50% 98.00% F ull (F ) Point (P) W ord (W ) 97.50% 0 60 120 180 240 Annotation Time (Minutes) フルと点アノテーションはほぼ同等の精度 単語アノテーションは両方を上回る 25

むすび 能動学習と点推定に基づいた分野適応法を提案した 3 つのアノテーション戦略を比較し 単語アノテーションは時間効率でもっとも高い精度を実現 このような分野適応は他の解析タスクでも利用可能 読み推定 品詞推定 固有表現抽出 インタフェースの改善でさらに効率の良いアノテーションが期待できる 26

ご清聴ありがとうございました 27

量効率 Accuracy vs. Annotated Tags 99. 50% F ull (F ) Point (P) W ord (W ) 99. 00% Segmentation Accuracy 98. 50% 98. 00% 97. 50% 10 100 1000 10000 100000 Number of Tags Annotated 28