nlp1-04a.key - PDF 無料ダウンロード

自然言語処理論 I. 文法 ( 構文解析 ) その構文解析 sytctic lysis, prsig 文の構文的な構造を決定すること句構造文法が使われることが多い文法による構文木は一般に複数ある構文木の違い = 解釈の違い構文解析の目的句構造文法の規則を使って, 文を生成できる構文木を全て見つけだすこと文法が入力文を生成できるかどうかを調べるだけではない pro I 構文解析とは構文木の違い = 解釈の違い drwer pro I drwer (hmmer) 前終端記号と辞書規則前終端記号 (pre-termil symbol) 単語を生成する前のシンボル品詞に相当する種類の文法規則句構造規則非終端記号と前終端記号からなる規則辞書規則前終端記号単語という規則

( 句構造規則 ) ( 辞書規則 ) pro I pro,drwer 構文解析の入力単語列を入力とする膨大な数の辞書規則が必要品詞列を入力とする単語と品詞の対応付けは形態素解析で行う前終端記号を終端記号として扱う句構造規則句構造規則のみ使う実際には品詞列を入力とする場合が多い pro I drwer 辞書規則構文解析アルゴリズム大きく分けて種類あるトップダウンアルゴリズム開始記号 () から品詞列へボトムアップアルゴリズム品詞列から開始記号 () へ代表的な構文解析アルゴリズム CKY 法, チャート法, アーリー法再帰遷移ネットワーク, 一般化 LR 法 CKY 法 Cocke-Ksmi-Youger 法文法はチョムスキー標準形に限る CKY 表構文解析の途中経過を保持するためのテーブル

CKY 表 m 行列の対角成分に入力文の単語を置く ijは, 入力文のi 番目からj 番目の単語を支配する非終端記号を置く 9 drwer CKY 法のアルゴリズム for i:= to do ii = {A A wi} ( 辞書規則の適用 ) for d:= to - do for i:= to - d do j=i+d for k=i to j - do ijに {A(Bb,Cc) A B C, Bb ik,cc k+,j} を追加に開始記号があれば解析成功, それ以外は失敗 ( は入力単語数,b,c は識別番号 ) 0 CKY 法のアルゴリズム表を埋める順序は以下の通り変数 d がつの対角線を表す辞書規則 d= d= d= d= d= d= d= m drwer CKY 法のアルゴリズムマス目 ijを埋める時以下の順序でつの要素の組み合わせをチェック数字は変数 k に対応の場合 (,),(,),(,),(,) が規則の右辺になるかどうかをチェック m ij drwer

CKY 法 ( 解析例 / 構文木の復元 ) 解析例文法入力文 m drwer m drwer 解析過程黒板別紙資料 ( 後日配布 ) 構文木の復元完成した CKY 表の履歴をたどる m m (,) drwer (,) (,) (,) drwer (,) (,) (,) (,) (,) (,) (,) m m (,) drwer (,) (,) (,) drwer (,) (,) (,) (,) (,) (,) (,) CKY 法の特徴計算量 O( ) は入力文の長さ ( 単語数 ) ボトムアップアルゴリズムアルゴリズムが単純で理解しやすいチョムスキー標準形の文法でしか解析できない

チャート法 (chrt prsig) 通りの方式トップダウンチャート法ボトムアップチャート法構文解析の途中経過をチャートに保存チャート法用語節点 (ode) 単語と単語の間に存在する仮想的な点弧 (rc) 節点間を結び文の部分的な構造を表す [i, j, A α. β] i は弧の始点 j は弧の終点ドットは解析が終了している位置を表す cup 0 [0,,. ] [,,. ] 用語不活性弧 (ictie rc) ドットが右辺の最後にある弧活性弧 (ctie rc) 不活性弧以外の弧チャート (chrt) ノード弧の集合アジェンダ (ged) 記号チャートに追加するべき弧のリスト ( スタック ) : 入力単語の長さ X,Y,Z: 非終端記号 : 開始記号トップダウンチャート法アルゴリズム辞書規則の適用入力文の各単語 wkについて不活性弧 [k,k+,a wk.] をアジェンダに追加活性弧 [0,0,.α] をアジェンダの先頭に追加は開始記号 α,β,γ: 終端記号または非終端記号の列 ( 空列を含む ) 9 0

アジェンダが空になるまで以下の操作を繰り返す. ( 弧の選択 ) アジェンダから弧を個選びチャートに追加 ( 以下 rc). ( 弧の結合 ) rc が活性弧 [i, j, X α.yβ] のとき rc の右にある不活性弧 [j, k, Y γ] を探し結合する rc が不活性弧 [i, j, Y γ.] のとき rc の左にある活性弧 [k, i, X α.yβ] を探し結合する結合してできた新しい弧 [i, k, X αy().β] をアジェンダに追加 ( は不活性弧のID( 履歴 ) ). ( 新しい弧の提案 ) rc が活性弧 [i, j, X α.yβ] のとき Y を左辺とする規則 Y γ ( 辞書規則を除く ) があれば新しい活性弧 [j, j, Y. γ] を作ってアジェンダに追加弧の結合活性弧 + 不活性弧で新しい弧を作る [i, j, X α. Y β] + [j, k, Y γ.] [i, k, X αy.β] 同じ弧が既にチャートまたはアジェンダにあるときは追加しないトップダウンチャート法チャートへの弧の追加 :X[α] と弧を省略表記するとよい : 弧番号, X: 規則の左辺, α:. の右にある記号列次にどんな弧を結合すればいいかわかりやすい [0,, α.] という不活性弧ができていれば解析成功それ以外は失敗トップダウンチャート法解析例文法 cup cup 解析文 cup 解析過程黒板別紙資料 ( 後日配布 )

構文木の復元弧に履歴を残す弧に識別番号をつける右辺がどの不活性弧によって構成されるかを記録不活性弧 [0,, α.] の履歴をたどれば構文木が復元できる () 得られる構文木の例 () () 番号は不活性弧の番号 cup () () () チャート法の特徴計算量はO( ) 任意の文脈自由文法が扱える種類の方式トップダウンとボトムアップ縦型探索と横型探索文法の予測能力が使える無駄な弧を生成しないので効率が良いトップダウンチャート法のみ広く使われている縦型探索と横型探索縦型探索つの解の候補の解析を優先的に進める文が文法によって生成できるかだけを調べるときに便利横型探索全ての解の候補の解析を並列に進めるビームサーチに向いているチャート法では両方とも可能アジェンダをスタックにしたときは縦型探索アジェンダをキューにしたときは横型探索文法の予測能力弧, b 無駄な弧 (cup の品詞がであるという解釈は誤り ) トップダウンチャート法では生成されない文法によって :[,,. ] :[] b:[,,. ] の後にはが現われないことが予想されている :[] :[] :[] cup 0 :[,] :[,]