数理言語

Similar documents
数理言語

nlp1-05.key

自然言語は曖昧性だらけ! I saw a girl with a telescope 構文解析 ( パージング ) は構造的な曖昧性を解消 2

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

Microsoft PowerPoint - 11Syntax.ppt

数理言語

Microsoft PowerPoint - アルデIII 02回目10月14日

nlp1-04a.key

Microsoft PowerPoint - 08LR-conflicts.ppt [互換モード]

Microsoft PowerPoint - アルデIII 02回目10月15日

Microsoft PowerPoint - 02LanguageTheory.ppt [互換モード]

Microsoft PowerPoint PCFG.ppt

(1.2) T D = 0 T = D = 30 kn 1.2 (1.4) 2F W = 0 F = W/2 = 300 kn/2 = 150 kn 1.3 (1.9) R = W 1 + W 2 = = 1100 N. (1.9) W 2 b W 1 a = 0

生命情報学

PowerPoint プレゼンテーション

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

Microsoft PowerPoint - 3.ppt [互換モード]

様々なミクロ計量モデル†

Microsoft PowerPoint SIGAL.ppt

オートマトンと言語


1. はじめに 2

5_motif 公開版.ppt

トピックモデルの応用: 関係データ、ネットワークデータ

文法と言語 ー文脈自由文法とLR構文解析2ー

Microsoft Word - 補論3.2

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

数理言語

数理言語

128 3 II S 1, S 2 Φ 1, Φ 2 Φ 1 = { B( r) n( r)}ds S 1 Φ 2 = { B( r) n( r)}ds (3.3) S 2 S S 1 +S 2 { B( r) n( r)}ds = 0 (3.4) S 1, S 2 { B( r) n( r)}ds

An Automated Proof of Equivalence on Quantum Cryptographic Protocols

混沌系工学特論 #5

untitled

nlp1-12.key

情報工学実験 C コンパイラ第 2 回説明資料 (2017 年度 ) 担当 : 笹倉 佐藤

Microsoft PowerPoint - 09-search.ppt [互換モード]

研究背景 センサなどによって観測される情報の多くは時系列列データ たくさんの時系列列データの中から有益な情報を取得し その内容を理理解する 手法の開発が重要 取得された情報をより抽象度度の 高いレベルで表現 時系列列データの振る舞いを 言語で説明する 手法の開発 HandRight_x HandRi

さくらの個別指導 ( さくら教育研究所 ) A AB A B A B A AB AB AB B

24 I ( ) 1. R 3 (i) C : x 2 + y 2 1 = 0 (ii) C : y = ± 1 x 2 ( 1 x 1) (iii) C : x = cos t, y = sin t (0 t 2π) 1.1. γ : [a, b] R n ; t γ(t) = (x

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

演習 レシピテキストの係り受け解析

SO(2)

B

PowerPoint プレゼンテーション

ビジネス統計 統計基礎とエクセル分析 正誤表

アルゴリズムとデータ構造

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ

memo

( )

PowerPoint プレゼンテーション

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

自己紹介 : 村脇有吾 京都大学大学院情報学研究科知能情報学専攻助教工学部電気電子工学科兼担 専門 : 計算言語学と自然言語処理 表の仕事は普通のテキスト処理 単語分割 ゼロ照応解析 常識的知識の獲得ほか 今日お話も裏の仕事 言語の研究ですが テキストは直接扱いません 2

ボルツマンマシンの高速化

簡単な検索と整列(ソート)

スライド タイトルなし

(1) (2) (3) (4) 1

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

1 n A a 11 a 1n A =.. a m1 a mn Ax = λx (1) x n λ (eigenvalue problem) x = 0 ( x 0 ) λ A ( ) λ Ax = λx x Ax = λx y T A = λy T x Ax = λx cx ( 1) 1.1 Th

() x + y + y + x dy dx = 0 () dy + xy = x dx y + x y ( 5) ( s55906) 0.7. (). 5 (). ( 6) ( s6590) 0.8 m n. 0.9 n n A. ( 6) ( s6590) f A (λ) = det(a λi)

ii 3.,. 4. F. (), ,,. 8.,. 1. (75%) (25%) =7 20, =7 21 (. ). 1.,, (). 3.,. 1. ().,.,.,.,.,. () (12 )., (), 0. 2., 1., 0,.

自己紹介 名前 : 竹田卓也 年齢 : 20 歳 ( 大学生 ) 経歴 : 人工知能歴 1ヶ月プログラミング歴 5 年くらい 言語 : PythonとかJavaとかGoとか 趣味 : オンライン オフラインゲーム 2

<43534A2F925A925088CA814592B CA B835E B D836A B202D B B69>

知識工学 II ( 第 2 回 ) 二宮崇 ( ) 論理的エージェント (7 章 ) 論理による推論 命題論理 述語論理 ブール関数 ( 論理回路 )+ 推論 ブール関数 +( 述語 限量子 ( ) 変数 関数 定数 等号 )+ 推論 7.1 知識

FEM原理講座 (サンプルテキスト)

1. 2 P 2 (x, y) 2 x y (0, 0) R 2 = {(x, y) x, y R} x, y R P = (x, y) O = (0, 0) OP ( ) OP x x, y y ( ) x v = y ( ) x 2 1 v = P = (x, y) y ( x y ) 2 (x

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

9 5 ( α+ ) = (α + ) α (log ) = α d = α C d = log + C C 5. () d = 4 d = C = C = 3 + C 3 () d = d = C = C = 3 + C 3 =

1 12 ( )150 ( ( ) ) x M x 0 1 M 2 5x 2 + 4x + 3 x 2 1 M x M 2 1 M x (x + 1) 2 (1) x 2 + x + 1 M (2) 1 3 M (3) x 4 +

Probit , Mixed logit

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

4. ϵ(ν, T ) = c 4 u(ν, T ) ϵ(ν, T ) T ν π4 Planck dx = 0 e x 1 15 U(T ) x 3 U(T ) = σt 4 Stefan-Boltzmann σ 2π5 k 4 15c 2 h 3 = W m 2 K 4 5.

(NICT) ( ) ( ) (NEC) ( )


<4D F736F F D E4F8E9F82C982A882AF82E98D7397F1>

Microsoft PowerPoint - algo ppt [互換モード]

統計的データ解析

Gauss Gauss ɛ 0 E ds = Q (1) xy σ (x, y, z) (2) a ρ(x, y, z) = x 2 + y 2 (r, θ, φ) (1) xy A Gauss ɛ 0 E ds = ɛ 0 EA Q = ρa ɛ 0 EA = ρea E = (ρ/ɛ 0 )e

スライド 1

言語モデルの基礎 2


TOP URL 1

京都立石神井高等学校平成 31 年度教科 ( 外国語 ( 英語 ) ) 科目 ( 英語表現 Ⅱ ) 年間授業計 ( 標準 α) 教 科 : 外国語 ( 英語 ) 科目 : 英語表現 Ⅱ 単位数 : 2 単位 対象学年組 : 第 2 学年 A 組 ~G 組 教科担当者 :(A 組 : 岡本 松井 )(

S I. dy fx x fx y fx + C 3 C vt dy fx 4 x, y dy yt gt + Ct + C dt v e kt xt v e kt + C k x v k + C C xt v k 3 r r + dr e kt S Sr πr dt d v } dt k e kt

数理言語

PowerPoint プレゼンテーション

N cos s s cos ψ e e e e 3 3 e e 3 e 3 e

Microsoft PowerPoint - mp11-06.pptx

A Constructive Approach to Gene Expression Dynamics


カイ二乗フィット検定、パラメータの誤差

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-MPS-93 No /5/23 統計的文法獲得モデルのための部分木ブロック化サンプリング法 進藤裕之 1,a) 松本裕治 2 永田昌明 1 概要 : 自然言語処理分野における統計的文法獲得では,

構文解析表の作成講義でも少し触れましたが 各選言で先頭に出現する可能性がある終端記号の集合 のことを DIRECTOR 集合とよびます DIRECTOR は direction( 方向 ) を決定するという意味を持っており LL(k) 構文解析器が非終端記号を解析する際に そのうちどの選言を利用する

C8

3-1-1 発音情報が未知の言語における テキスト音声合成システム構築法の検討 沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一名古屋工業大学 日本音響学会 2015 年秋季研究発表 2015 年 9 月 18 日

文章のトピック 文章には様々なトピックが存在する Cuomo to Push for Broader Ban on Assault Weapons 2012 Was Hottest Year in U.S. History 2

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

科目名 総合英語 ⅠA 対象学年 1 年 期間 通年 曜日 時限 金 1-2 限 授業回数 90 分 34 回 授業種別 講義 回 / 週 1 回 取得単位 4 単位 授業目的達成目標 読み 書き を通して 聞く こと 話す ことにも役立つ英語の力を習得させる 文法を踏まえてパラグラフの内容を迅速か

4 学習の活動 単元 Lesson 1 (2 時間 ) 主語の決定 / 見えない主語の発見 / 主語の it 外国語表現の能力 適切な主語を選択し英文を書くことができる 外国語理解の能力 日本の年中行事に関する内容の英文を読んで理解できる 言語や文化についての知識 理解 適切な主語を選択 練習問題の

スライド 1

Transcription:

人工知能特論 II 二宮崇

今日の講義の予定 PCFG Pobabstc Cotext Fee Gamma 確率付文脈自由文法 マルコフ文法 論文 Mcae Cos 997 Tee geeatve excased modes fo statstca asg I oc. of C-EC.6 3 Mcae Cos 999 Head-Dve Statstca Modes fo Natua aguage Pasg P.D tess Uvesty of Pesyvaa Mcae Cos 003 Head-Dve Statstca Modes fo Natua aguage Pasg Comutatoa gustcs 94 589--637. Dae M. Bke 004 Itcaces of Cos Pasg Mode Comutatoa gustcs 30 479 5

構文木 t の確率を計算 構文木 t S CFG G パラメータ 値 S NP VP θ S NP VP.0 NP N PP θ NP N PP.0 N NP PP NP VP VP N N PP N θ N N PP N 0. VP NP VP θ VP NP VP 0.3 VP V θ VP V 0.7 PP が θ PP が 0.5 太郎 N が PP N N PP を V 褒める PP を θ PP を 0.3 PP と θ PP と 0. 花子 と 映画 N 太郎 θ N 太郎 0.3 N 花子 θ N 花子 0. N 映画 θ N 映画 0.4 V 褒める θ V 褒める 0.3 V 見る θ V 見る 0.7 t = θ S NP VP θ NP N PP θ N 太郎 θ PP が θ VP NP VP θ NP N PP θ N N PP N θ N 花子 θ PP と θ N 映画 θ PP を θ VP V θ V 褒める =.0.0 0.3 0.5 0.3.0 0. 0. 0. 0.4 0.3 0.7 0.3 = 0.000004536 3

最大確率の木を選ぶ 構文解析 ある文 s に対し CFG<V N V T P σ> を用いて s を導出できる全ての構文木集合を Ts としたとき ~ t ag max tt s t 4

単純な数え上げ パラメータ推定 学習 教師付学習のもっとも単純な実現 正解構文木の集合 ツリーバンクと呼ばれる があれば その中で使われている CFG 書換規則の頻度をカウントすれば各々のパラメータを簡単に計算できる 最尤推定 教師無学習の最も有名な実現 正解構文木がない場合や書換規則パラメータ以外のパラメータが存在する場合に使われる 5

パラメータは条件付き確率 α という形の CFG ルールに対するパラメータ θ α パラメータの関数と明示するほうがわかりやすいけど その確率は親が生成された時の条件確率 θ α = α 今後は パラメータの形ではなくて 条件付き確率の形式で説明していきます 6

PCFG 概説 7

ツリーバンクを使った構文解析 文法規則 辞書 S NP VP NP DET N NP N 人間が文法を直接定義するのは困難 構文木の実例 ツリーバンク に基づく定量的評価が必要 文法はツリーバンクから導出 ツリーバンク文法 検証 開発 コンピュータ ツリーバンク 8

ツリーバンク 実世界の文に対して人手で構文木を付与する 明示的な文法を仮定しない 構造は開発者の言語直感とガイドラインに依存 ガイドラインはあるが 文法で定義されるような 何が正解か の客観的基準は存在しない 文法? ecod date as t bee set. 9

有名なツリーバンク 構文木や係り受け木を人手で付与したコーパス ツリーバンク の登場 Pe Teebak [Macus et a. 993] SUSNNE [Samso 995] TIGER Teebak [Bats et a. 00] Pague Deedecy Teebak [Hajc 998] Vebmob [Hcs et a. 000] EDR コーパス [EDR 995] 京都大学テキストコーパス [ 黒橋ら 997] 日本語話し言葉コーパス [ 前川ら 000] 0

Pe Teebak / 構文木が付与された最初の大規模英語ツリーバンク [Macus et a. 993] 様々な分野の英語テキストを収録 Wa Steet Joua 新聞 約 5 万文 00 万語 TIS 航空券予約の会話 Bo 様々な分野のテキスト Stcboad 電話の自由発話

Pe Teebak / 品詞 : NN 普通名詞 VBZ 三単現動詞 構文木 : NP 名詞句 VP 動詞句 Fucto tag u eemet: 述語項構造を計算するための付加情報 詳細省略 名詞句 S VP NP VP 限定詞 DT NN NN VBZ RB VBN VBN ecod date as t bee set. 普通名詞三単現動詞副詞過去分詞

ツリーバンクから文法を抽出す る ツリーバンクの背後にある文法を自動抽出 潜在的な規則性を自動獲得できるはず S VP 文法抽出 文法? NP VP DT NN NN VBZ RB VBN VBN ecod date as t bee set. ツリーバンク開発 3

確率 CFG の自動抽出 / ツリーバンクの各分岐を CFG 規則だと仮定して抽出する [Caak 996; 997] c.f. [Seke995] S VP NP VP DT NN NN VBZ RB VBN VBN ecod date as t bee set. CFG 規則 S NP VP NP DT NN NN VP VBZ RB VP VP VBN VBN 4

確率 CFG の自動抽出 / ツリーバンクでの出現頻度から確率値を推定 確率値最大の木を探索することで 構文解析の曖昧性解消ができる S VP NP VP DT NN NN VBZ RB VBN VBN ecod date as t bee set. S NP VP NP DT NN NN VP VBZ RB VP VP VBN VBN 0.5 0.03 0.0 0. 5

問題点 : 文法が大きい 40000 文から約 5000 の CFG 規則 CFG 規則数が収束しない [Caete et a. 997] 抽象化 一般化しきれていない 6000 4000 000 0000 8000 6000 4000 000 0 文法規則数 0 0000 0000 30000 40000 6

問題点 : 精度が低い Caak [996]: 80% NP S VP NP VP We aed te agotm to We seected te aoac to IE NN VBD DT NN IN NN NP S NP VP NP PP NP IE NP PP VP VP PP NP NP PP 同じ品詞列でも 単語によって構文木の形が変わる 7

ツリーバンク文法の改良 文法が大きい CFG 規則の自動圧縮 [Kotov et a. 998; 999] CFG 規則の確率モデル化 [Magema 995; Cos 997; Caak 000] 精度が低い 非終端記号の細分化 [Magema 995; Cos 996; 997; Joso 998; Caak 000] 8

CFG 規則の確率モデル化 Makov Gamma: CFG 規則を確率的に生成する [Cos 997; Caak 000] NP DT NN NN NP = NN NP NN NN NP DT NN NN NP 原理的には 全ての CFG 規則をもつ PCFG Pe Teebak から抽出したそのままの PCFG より高精度を達成する 9

非終端記号の細分化 / 語彙化 : Head ecoato tabe Magema 995 を用いて 非終端記号に ead od を付与 NP S VP aed aed NP VP aed NN VBD DT NN IN NN We aed te agotm to PP to NP We agotm IE 参考 語彙化の意味 [Gdea 00; Bke 004] IE Head ecoato tabe 親の記号主辞になる子の記号 S VP NP PP VP VP VBD VBZ NN IN Caak [996]: 80% vs. Magema [995]: 86% 0

非終端記号の細分化 / 非終端記号だけでは構造を決める情報が少ない 例 親の非終端記号で細分化 [Joso 998] S S NP VP NP-S VP-S V NP 主語の NP と目的語の NP が区別できる 主語は代名詞が出やすい 目的語は長くなりやすい V-VP NP-VP その他 様々な周辺情報で細分化 [Caak 000; Ke et a. 003]

マルコフ文法

マルコフ文法 CFG 規則を確率的に生成する [Cos 997; Caak 000] NP DT NN NN NP = NN NP NN NN NP DT NN NN NP 原理的には 全ての CFG 規則をもつ PCFG Pe Teebak から抽出したそのままの PCFG より高精度を達成する State-of-te-at の性能のパーザーの基本的な仕組 3

何故マルコフ文法を講義で扱うの か? 現在の おおよそ 最高性能のパーザー Caak&Joso005 の基礎 Caak000 のパーザーの出力をエントロピー最大化法を用いて eakg Caak パーザーもマルコフ文法の一種 モデル 精度 F cos999 88.9% caak000 89.55% caak&joso005 9.0% 4

マルコフ過程 : シャノンゲーム Naa eats a???? 次に何が来るのか予測 バイグラム P ae a C a ae C a P ae eats a C eats a C eats ae a トライグラム 5

マルコフ過程 : 確率モデル 条件付き確率は だから つまり B B 3 3 3 3 B B 6

マルコフ過程 : 確率モデル 単語列の確率モデル 単語列の N グラムモデル N- 次のマルコフ過程 直前の N- 個の単語列の影響のみ受ける ユニグラム 0 次のマルコフ過程 バイグラム 次のマルコフ過程 トライグラム 次のマルコフ過程 3 4 3 N 7

高次のマルコフ過程の問題 高い次数のマルコフ過程 より精度が高いことが期待できる 訓練データに出現しなかった単語列に対しては推定ができない ゼロ頻度問題 データスパースネス 次数が高いほどデータスパースになってしまう 8

スムージング 線形補間法 ea teoato N グラムの確率値を低次の M グラム M<N の確率値と線形に補間する方法 トライグラムの場合 ~ N N N ~ 3 3 ただし 9

スムージング 補間係数 λ を推定 ヘルドアウト補間法 ed-out teoato 訓練データとヘルドアウトデータにわける 訓練データで N グラムを学習 ヘルドアウトデータで補間係数を学習 補間係数は EM アルゴリズムで最尤推定 トライグラムの場合 3 3 3 3 3 ~ ~ ~ D D D D D D 30

スムージング 削除補間法 deeted teoato データを m 個に分割... m... m を N グラムの訓練データ を補間係数推定のためのヘルドアウトデータとしてヘルドアウト推定法で学習 同様に 3... m で N グラム で補間係数を学習 これを繰り返して... m- で N グラム m で補間係数を学習 以上のようにして求めた補間係数の平均をとる = の時 リーヴィング ワン アウト法と呼ばれる リーブ ワン アウトともいう 3

COINS MODE 3

ツリーバンクの変形 語彙化 TOP Sbougt VBD Head ecoato tabe 親の記号主辞になる子の記号 S VP VP VP VBD VBZ NP NN PP IN NPeek NN NPIBM NNP NNPIBM NNP VPbougt VBD JJast JJ VBDbougt VBD NPotus NNP ast NNeek NN eek IBM bougt NNPotus NNP otus 33

語彙化 構文木ノードが非終端記号から 非終端記号 + 主辞語 + 主辞品詞 の組になった ue CFG の構文木ノード : NP 語彙化 CFG の構文木ノード : NPIBM NNP 書換規則も語彙化されたノードで表現 ue CFG: S NP NP VP 語彙化 CFG: Sbougt VBD NPeek NN NPIBM NNP VPbougt VBD 34

語彙化 CFG の書換規則 書換規則 M... HR...R m m H: ead-cd M: 親 : 主辞の左側の修飾句 R: 主辞の右側の修飾句 : 主辞語と主辞品詞のペア : の主辞語と主辞品詞のペア : R の主辞語と主辞品詞のペア 書換規則の確率... H R... Rm m M 35

書換規則のマルコフ化 書換規則の確率 STOP R STOP H M R R R H M M H M R R H m m m m............... ただし 36

書換規則のマルコフ化 書換規則の確率 0 次のマルコフ過程 c.f. caak000 は 3 次のマルコフ文法 つまり... H M H M...... H M R H M R R R...... m m H M R H M M H M R R H 語彙化と 書換規則の確率の定義が変わるだけで その他は ue PCFG と同じであることに注意! 37

書換規則のマルコフ化 : 例 Sbougt NPeek NPIBM VPbougt NPeekNPIBMVPbougtSbougt= VPS bougt NPIBMS VP bougt NPeekS VP bougt STOPS VP bougt STOPS VP bougt 38

Dstace 関数の追加 マルコフ化の際に Dstace 関数を追加 書換規則の確率... H M H M...... H M R H M R R R...... m m H M R H M M H M R R H 39

Dstace 関数の中身 Dstace 関数が指す部分木 M H R... R - - R... R m m δ- はこの木のこと 40

Dstace 関数の中身 求めようとする構文木ノードの条件付き確率 R... の一つ手前のノード R - - の下に広がる部分構文木が対象 Dstace 関数の返す値 R か である? 部分構文木の下に動詞を含むか否か? 4

COINS MODE 4

ツリーバンクの変形 語彙化 + 補語 句 / 修飾語 句 の区別 TOP Sbougt VBD NPeek NN NP-CIBM NNP VPbougt VBD NNPIBM NNP NP-Cotus NNP JJast JJ NNeek NN IBM VBbougt VBD ast eek bougt NNPotus NNP otus 43

ツリーバンクの変形 補語 comemets/ 修飾語 adjucts の区別 次の条件を満たす非終端記号は全て補語 comemets 非終端記号は次のうちのいずれかである 親が S である NP SBR S 親が VP である NP SBR S 3 親が SBR である S 非終端記号は次のうちのいずれかの sematc tag をもっていてはいけない DV VOC BNF DIR EXT OC NMR TMP CR o PRP それに加えて 前置詞句の主辞の後にすぐに続く兄弟ノードは補語である 44

下位範疇化フレーム : 問題 補語や修飾語の区別をつけても 文法的に誤った構文と正しい構文の確率に差がつかない 例 不正解 S S 正解 VP NP-C VP NP-C Deyfus NP-C te best fud as DJP NP Deyfus NP te best fud as DJP o o 45

下位範疇化フレーム : 問題 補語や修飾語の区別をつけても 文法的に誤った構文と正しい構文の確率に差がつかない 例 不正解 NP-C Te ssue as S VP NP-C a b fudg VP-C NP-C Cogess NP-C Te ssue S as NP a b VP NP-C fudg 正解 VP NP-C Cogess 46

下位範疇化フレーム 解決策 下位範疇化フレーム subcat fame を導入 補語として取る非終端記号の多重集合 mut set HPSGで出てきたVの下のSUBJやCOMPSやSPR 47

書換規則の確率モデル C 左側の下位範疇化フレーム と RC 右側の下位範疇化フレーム の導入 例 RC={NP-C NP-C} C={NP-C} c {NP-C NP-C}S VP bougt} や c {NP-C VP- C}VP VB as は低い...... c c m m RC H M R C H M H M RC H M C M H M R R H 48

下位範疇化フレーム 下位範疇化フレームは補語をひとつとる度に消費される 減っていく 下位範疇化フレームに要素が残っている間はSTOPに対する確率は0 下位範疇化フレームに要素が無い場合は 補語をとる確率は0 49

下位範疇化フレーム : 例 Sbougt NPeek NP-CIBM VPbougt の確率 VPS bougt c {NP-C}S VP bougt c {}S VP bougt NP-CIBMS VP bougt {NP-C} NPeekS VP bougt {} STOPS VP bougt {} STOPS VP bougt {} 50

Cos Mode 3 痕跡 Tace と - 移動 ex. Te stoe SBR c TRCE bougt Books Botes ex. Te stoe SBR c Maks bougt TRCE ex.3 Te stoe SBR c Maks bougt Books Botes fom TRCE 5

Cos Mode 3 例 NPstoe NPstoe WHNPtat SBRtat+ga Sbougt+ga bougt が TRCE をとった後の下位範疇化フレームは空 : {} Te stoe WDT tat bougt の下位範疇化フレーム : {NP-C} NP-CMaks Maks VBD bougt VPbougt+ga TRCE NPeek ast eek 5

主辞品詞主辞語 スムージング と R t t R t 削除補間法 deeted teoato back-off eve M H C M H RC H... c C... c RC... t t... R t... M H C M H C M H RC M H RC...... Mt MHt MHtδC t MHtδC Mt MHt MHtδC t MHtδC 3 M MH MHδC t 4 - - - t 53

性能評価 PRSEV という基準で評価 構文木ノードの位置 左端の位置と右端の位置 と非終端記号ラベル abeed Pecso P= パーザーが正解したラベル数 / パーザーが出力したラベル数 abeed Reca R = パーザーが正解したラベル数 / ツリーバンク中のラベル数 abeed F-ScoeF-Scoe = abeed ecso と abeed eca の調和平均 =*P*R/P+R mode P R F Magema95 84.3% 84.0% 84.% Cos96 85.7% 85.3% 85.5% Mode 87.6% 86.8% 87.% Mode 88.% 87.5% 87.8% Mode 3 88.% 87.5% 87.8% 54

まとめ マルコフ文法 マルコフ過程 スムージング Cos Mode Cos Mode Cos Mode 3 講義資料 tt://aeb.cs.eme-u.ac.j/~omya/a/ 55