自己紹介 : 村脇有吾京都大学大学院情報学研究科知能情報学専攻助教工学部電気電子工学科兼担専門 : 計算言語学と自然言語処理表の仕事は普通のテキスト処理単語分割ゼロ照応解析常識的知識の獲得ほか今日お話も裏の仕事言語の研究ですがテキストは直接扱いません 2

潜在表現に基づく言語構造の史的変化の分析京都大学村脇有吾機構間連携文理融合プロジェクト言語における系統変異多様性とその数理シンポジウム 2018 年 2 月 2 日 TKP 東京駅大手町カンファレンスセンター

言語構造の潜在表現 Step 1. 各言語を潜在表現に変換潜在パラメータ列 z ll, 推論 1 1 0 0 表層特徴列 x ll, 2 1 3 Step 2. 系統樹群から各潜在パラメータの遷移率行列を推定 ( 内部ノードの状態年代も同時推定 ) 史的変化の統計的推論 0 time before present 1 0 0 0 各パラメータの遷移率行列 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 Q kk = 0.0003 0.0002 1 1 1 0 0 1 1 1 1 1 1 0 シミュレーションによる分析 Step 3. 遷移率行列を用いて言語の時間変化をシミュレート潜在パラメータ列 z ll, 1 1 0 0 時間 tt Q kk = 0.0003 0.0002 潜在パラメータ列 z ll, 生成 1 0 0 1 表層特徴列 x ll, 1 1 2 3

言語構造の潜在表現史的変化の統計的推論 Step 1. 各言語を潜在表現に変換潜在パラメータ列 z ll, 推論表層特徴列 x ll, 1 1 0 0 2 1 3 Step 2. 系統樹群から各潜在パラメータの遷移率行列を ( 内部ノードの状態年代も同時推定 ) 0 time before present 1 0 0 0 各パラメータの遷移率行列 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 Q kk = 0.0003 0.0002 1 1 1 0 0 1 1 1 1 1 1 0 Step 3. 遷移率行列を用いて言語の時間変化をシミュレートシミュレーションによる分析潜在パラメータ列 z ll, 1 1 0 0 時間 tt Q kk = 0.0003 0.0002 潜在パラメータ列 z ll, 生成 1 0 0 1 表層特徴列 x ll, 1 1 2 3

基本語順 : Subject, Object, Verb [Dryer, 2005] SOV 日本語 John ga tegami o yon-da S O V SVO 英語 The dog chased the cat S V O VSO アイルランド語 Léann na sagairt na leabhair V S O The priests are reading the books. 4

基本語順 : Subject, Object, Verb [Dryer, 2005] 出典 : http://wals.info/feature/81a 5

基本語順に関する疑問 [Maurits+, PNAS 2014] なぜ世界における分布がこのようになっているのかどのように変化してきたのか原型言語 ( それが存在したとして ) はどの語順だったのか 6

基本語順に関する従来説の例 [Maurits+, PNAS 2014] SOV が最も高頻度なのは 1. 機能的に優れているから 2. かつてより高頻度だったなごりにすぎない SVO の方が機能的に優れている SOV SVO が SVO SOV よりも多い ( と推測 ) 原型言語も SOV だったかもパントマイム実験で SOV が選好される原型言語は SOV だった傍証現代人 ( しかも WEIRD) を使った実験で原型言語のことが本当にわかるのか 7

史的変化の推論個別言語の分析歴史文献の分析中英語期に SVO への固定化が進む内的再構オーストロアジア語族のムンダ語派は (S)OV 語順だが VO 語順の痕跡が残る [Donegan+, 2004] 言語間比較共時類型論の動態化 [Greenberg, 1969] 系統学的比較法 8

系統学的比較法系統樹が ( 主に語彙的手がかりを用いた推論により ) 既知とする系統樹上のどのエッジで注目する値が出現したか推測できる ( 場合がある ) 簡単のために 2 値特徴で例示するが多値特徴への拡張は容易 9

系統学的比較法もちろん現在得られる手がかりだけでは確信を持って決められない場合も多い人間はお手上げ 10

系統学的比較法もちろん現在得られる手がかりだけでは確信を持って決められない場合も多い人間はお手上げ確率的手法の出番 10

状態遷移モデル ( マルコフ連鎖 ) まずは簡単のために離散時間を考える時刻 tt である値 ( 状態 ) のとき時刻 tt + 1 で取る値 ( 状態 ) の確率のモデル 0.95 0.05 0.90 0.10 11

連続時間マルコフ連鎖 (CTMC) 現在の値がaaのとき時間 tt 後に値がbbになる確率 : exp(tttt) aa,bb αα αα ただし遷移率行列 QQ = ββ ββ 確率時間時間 12

( 年代つき ) 系統樹群を用いた遷移率行列の推定 [Greenhill+, 2010] [Maurits+, PNAS 2014] 観測データ ( 年代つき ) 系統樹 ( 群 ) 葉ノードの状態潜在データ遷移率行列内部ノードの状態 time before present QQ = αα αα ββ ββ 0 13

言語構造の潜在表現 Step 1. 各言語を潜在表現に変換潜在パラメータ列 z ll, 推論 1 1 0 0 表層特徴列 x ll, 2 1 3 Step 2. 系統樹群から各潜在パラメータの遷移率行列を推定 ( 内部ノードの状態年代も同時推定 ) 史的変化の統計的推論 0 time before present 1 0 0 0 各パラメータの遷移率行列 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 Q kk = 0.0003 0.0002 1 1 1 0 0 1 1 1 1 1 1 0 Step 3. 遷移率行列を用いて言語の時間変化をシミュレートシミュレーションによる分析潜在パラメータ列 z ll, 1 1 0 0 時間 tt Q kk = 0.0003 0.0002 潜在パラメータ列 z ll, 生成 1 0 0 1 表層特徴列 x ll, 1 1 2 14

言語構造の潜在表現 Step 1. 各言語を潜在表現に変換潜在パラメータ列 z ll, 推論 1 1 0 0 表層特徴列 x ll, 2 1 3 Step 2. 系統樹群から各潜在パラメータの遷移率行列を推定 ( 内部ノードの状態年代も同時推定 ) 史的変化の統計的推論 0 time before present 1 0 0 0 各パラメータの遷移率行列 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 Q kk = 0.0003 0.0002 1 1 1 0 0 1 1 1 1 1 1 0 Step 3. 遷移率行列を用いて言語の時間変化をシミュレシミュレーションによる分析潜在パラメータ列 z ll, 1 1 0 0 時間 tt Q kk = 0.0003 0.0002 潜在パラメータ列 z ll, 生成 1 0 0 1 表層特徴列 x ll, 1 1 2 14

基本語順の遷移確率と将来変化の予測 [Maurits+, PNAS 2014] 15

言語構造の潜在表現 Step 1. 各言語を潜在表現に変換潜在パラメータ列 z ll, 推論表層特徴列 x ll, 1 1 0 0 2 1 3 Step 2. 系統樹群から各潜在パラメータの遷移率行列を推定 ( 内部ノードの状態年代も同時推定 ) 史的変化の統計的推論 0 time before present 1 0 0 0 各パラメータの遷移率行列 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 Q kk = 0.0003 0.0002 1 1 1 0 0 1 1 1 1 1 1 0 Step 3. 遷移率行列を用いて言語の時間変化をシミュレートシミュレーションによる分析潜在パラメータ列 z ll, 1 1 0 0 時間 tt Q kk = 0.0003 0.0002 潜在パラメータ列 z ll, 生成 1 0 0 1 表層特徴列 x ll, 1 1 2 16

言語構造の潜在表現 Step 1. 各言語を潜在表現に変換潜在パラメータ列 z ll, 推論 1 1 0 0 表層特徴列 x ll, 2 1 3 Step 2. 系統樹群から各潜在パラメータの遷移率行列を推定 ( 内部ノードの状態年代も同時推定 ) 史的変化の統計的推論 0 time before present 1 0 0 0 各パラメータの遷移率行列 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 Q kk = 0.0003 0.0002 1 1 1 0 0 1 1 1 1 1 1 0 Step 3. 遷移率行列を用いて言語の時間変化をシミュレートシミュレーションによる分析潜在パラメータ列 z ll, 1 1 0 0 時間 tt Q kk = 0.0003 0.0002 潜在パラメータ列 z ll, 生成 1 0 0 1 表層特徴列 x ll, 1 1 2 16

特徴間の依存関係を利用した含意的普遍性 [Greenberg, 1963] 目的語動詞と名詞関係節の語順の関係 If VO, then NRel If RelN, then OV 分析の精緻化 NRel RelN VO OV 基本語順の変化は一大変化であり他の特徴の変化と連動しているはず英語の SVO 語順への変化は孤立語化と連動しているように見える 17

単純に特徴ごとに遷移率行列を用意すると独立性を仮定したことに特徴対の値の組み合わせ 12 が不自然だという知識を推論に反映させられない time before present 0 11 11 11 11 21 22 11 11 22 特徴 1 1 2 特徴 2 1 2 QQ 1 = αα 1 αα 1 QQ2 = ββ αα 1 2 ββ 1 αα 2 ββ 2 ββ 2 18

値の組み合わせの展開による依存関係モデル化 [Dunn+, Nature 2011] 3 個以上の特徴や多値特徴 ( 基本語順は 6-7 値 ) は組合せ爆発を起こして推論困難 time before present 0 1 1 1 1 3 4 1 1 4 特徴 1 QQ = 1 2 11 12 21 22 特徴 2 1 2 qq 12 1 2 qq 21 qq 31 qq 13 qq 42 qq 24 qq 34 3 4 qq 43 11 12 21 22 qq 12 qq 13 qq 21 qq 24 qq 31 qq 34 qq 42 qq 43 19

表層特徴列を互いに独立な潜在パラメータ列に写像 104 個の特徴を 100 個の 2 値パラメータに再編パラメータは仮定により互いに独立確率的生成モデルパラメータ列から特徴列への変換は生成特徴列からパラメータ列への変換は事後推論 [Murawaki, IJCNLP2017] 潜在空間上で操作表層特徴列 x ll, 2 1 3 潜在パラメータ列 z ll, 推論 1 1 0 0 潜在パラメータ列 z ll, 生成 1 0 0 1 表層特徴列 x ll, 1 1 2 20

特徴間の依存関係を捉えるのは 0 1 0 1 潜在パラメータ列 z ll, 重み行列 WW 2.9 6.3 8.2 0.2 重み行列 WW 0.4-4.3-0.2 0.3-0.3-5.7-2.5 1.2-0.2 5.9 0.3-2.4 = 8.4 [Murawaki, IJCNLP2017] -2.3-7.3 2.5 特徴スコア列 θθ ll, Softmax 分布から確率的に生成 1 1 3 表層特徴列 x ll, 21

獲得されたパラメータの地理的分布の例表層的特徴に見られた地理的信号を潜在的パラメータへ写像しても維持している ( ように見える ) 22

言語構造の潜在表現 Step 1. 各言語を潜在表現に変換潜在パラメータ列 z ll, 推論 1 1 0 0 表層特徴列 x ll, 2 1 3 Step 2. 系統樹群から各潜在パラメータの遷移率行列を推定 ( 内部ノードの状態年代も同時推定 ) 史的変化の統計的推論 0 time before present 1 0 0 0 各パラメータの遷移率行列 0 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 Q kk = 0.0003 0.0002 1 1 1 0 0 1 1 1 1 1 1 0 Step 3. 遷移率行列を用いて言語の時間変化をシミュレートシミュレーションによる分析潜在パラメータ列 z ll, 1 1 0 0 時間 tt Q kk = 0.0003 0.0002 潜在パラメータ列 z ll, 生成 1 0 0 1 表層特徴列 x ll, 1 1 2 23

2 千年後の基本語順の予測平均遷移確率語順維持確率の言語ごとのばらつき 24

日本語の将来予測 25

回帰分析 SVO 語順を持つ言語のうちどのような特徴を持つものが安定的孤立語性と語順維持確率に高い相関日本語が 2 千年後に SVO 語順に変化する (12.3%) 場合何が特徴的格表示に接語 ( がを ) を使わない可能性が高いこのばらつきの説明 26

まとめと今後の課題潜在表現への変換により言語の構造的特徴間の依存関係を捉える史的変化の分析手法を提案今後の課題基本語順以外の特徴の分析祖語の推論結果の分析大語族の系統推定と世界祖語 () の語順推定接触のモデル化 [Murawaki, NAACL2016] 27