Poincaré Embedding による 分散表現の獲得 M1 橋本隼人 森信介 京都大学情報学研究科 / 学術情報メディアセンター森研究室 1

Similar documents
複素数平面への誘い

スライド タイトルなし

> > <., vs. > x 2 x y = ax 2 + bx + c y = 0 2 ax 2 + bx + c = 0 y = 0 x ( x ) y = ax 2 + bx + c D = b 2 4ac (1) D > 0 x (2) D = 0 x (3

Microsoft PowerPoint - 9.pptx

Computational Semantics 1 category specificity Warrington (1975); Warrington & Shallice (1979, 1984) 2 basic level superiority 3 super-ordinate catego

all.dvi

2015年度 岡山大・理系数学

6 2 2 x y x y t P P = P t P = I P P P ( ) ( ) ,, ( ) ( ) cos θ sin θ cos θ sin θ, sin θ cos θ sin θ cos θ y x θ x θ P

学習指導要領

Microsoft PowerPoint - 9.pptx

さくらの個別指導 ( さくら教育研究所 ) A 2 2 Q ABC 2 1 BC AB, AC AB, BC AC 1 B BC AB = QR PQ = 1 2 AC AB = PR 3 PQ = 2 BC AC = QR PR = 1



(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

1 θ i (1) A B θ ( ) A = B = sin 3θ = sin θ (A B sin 2 θ) ( ) 1 2 π 3 < = θ < = 2 π 3 Ax Bx3 = 1 2 θ = π sin θ (2) a b c θ sin 5θ = sin θ f(sin 2 θ) 2

function2.pdf

Microsoft Word - é£Łåfi†ã…Žã‡¯ã…‹ã…«ç©ºéŒfiã†®æ§‰ç¯›ã†¨ã†šã†®è©Łä¾¡ï¼™

1 12 ( )150 ( ( ) ) x M x 0 1 M 2 5x 2 + 4x + 3 x 2 1 M x M 2 1 M x (x + 1) 2 (1) x 2 + x + 1 M (2) 1 3 M (3) x 4 +

自然言語処理24_705

nlp1-12.key

相関係数と偏差ベクトル

1. はじめに 2

1 1 3 ABCD ABD AC BD E E BD 1 : 2 (1) AB = AD =, AB AD = (2) AE = AB + (3) A F AD AE 2 = AF = AB + AD AF AE = t AC = t AE AC FC = t = (4) ABD ABCD 1 1

18 ( ) I II III A B C(100 ) 1, 2, 3, 5 I II A B (100 ) 1, 2, 3 I II A B (80 ) 6 8 I II III A B C(80 ) 1 n (1 + x) n (1) n C 1 + n C

29

さくらの個別指導 ( さくら教育研究所 ) A a 1 a 2 a 3 a n {a n } a 1 a n n n 1 n n 0 a n = 1 n 1 n n O n {a n } n a n α {a n } α {a

Twitter Twitter [5] ANPI NLP 5 [6] Lee [7] Lee [8] Twitter Flickr FreeWiFi FreeWiFi Flickr FreeWiFi 2. 2 Mikolov [9] [10] word2vec word2vec word2vec k

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

1 29 ( ) I II III A B (120 ) 2 5 I II III A B (120 ) 1, 6 8 I II A B (120 ) 1, 6, 7 I II A B (100 ) 1 OAB A B OA = 2 OA OB = 3 OB A B 2 :

Chap3.key

2 (1) a = ( 2, 2), b = (1, 2), c = (4, 4) c = l a + k b l, k (2) a = (3, 5) (1) (4, 4) = l( 2, 2) + k(1, 2), (4, 4) = ( 2l + k, 2l 2k) 2l + k = 4, 2l

学力スタンダード(様式1)

PowerPoint Presentation

all.dvi

Microsoft PowerPoint - qcomp.ppt [互換モード]

untitled

(1) 3 A B E e AE = e AB OE = OA + e AB = (1 35 e ) e OE z 1 1 e E xy e = 0 e = 5 OE = ( 2 0 0) E ( 2 0 0) (2) 3 E P Q k EQ = k EP E y 0

An Automated Proof of Equivalence on Quantum Cryptographic Protocols

統計学入門 練習問題解答集

vecrot

70 : 20 : A B (20 ) (30 ) 50 1

(1.2) T D = 0 T = D = 30 kn 1.2 (1.4) 2F W = 0 F = W/2 = 300 kn/2 = 150 kn 1.3 (1.9) R = W 1 + W 2 = = 1100 N. (1.9) W 2 b W 1 a = 0

CG


             論文の内容の要旨

テンソル ( その ) テンソル ( その ) スカラー ( 階のテンソル ) スカラー ( 階のテンソル ) 階数 ベクトル ( 階のテンソル ) ベクトル ( 階のテンソル ) 行列表現 シンボリック表現 [ ]

DEIM Forum 2019 C3-5 tweet

4 4 θ X θ P θ 4. 0, 405 P 0 X 405 X P 4. () 60 () 45 () 40 (4) 765 (5) 40 B 60 0 P = 90, = ( ) = X

Microsoft PowerPoint - 資料04 重回帰分析.ppt

高等学校学習指導要領解説 数学編

学習指導要領

2016年度 京都大・文系数学

A (1) = 4 A( 1, 4) 1 A 4 () = tan A(0, 0) π A π

untitled

2015-2017年度 2次数学セレクション(複素数)解答解説

名古屋工業大の数学 2000 年 ~2015 年 大学入試数学動画解説サイト

/27 (13 8/24) (9/27) (9/27) / / / /16 12

I A A441 : April 15, 2013 Version : 1.1 I Kawahira, Tomoki TA (Shigehiro, Yoshida )

Microsoft PowerPoint - 物情数学C(2012)(フーリエ前半)_up

線形代数とは

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

OABC OA OC 4, OB, AOB BOC COA 60 OA a OB b OC c () AB AC () ABC D OD ABC OD OA + p AB + q AC p q () OABC 4 f(x) + x ( ), () y f(x) P l 4 () y f(x) l P

研修コーナー

服用者向け_資料28_0623

tnbp59-21_Web:P2/ky132379509610002944

1 (1) ( i ) 60 (ii) 75 (iii) 315 (2) π ( i ) (ii) π (iii) 7 12 π ( (3) r, AOB = θ 0 < θ < π ) OAB A 2 OB P ( AB ) < ( AP ) (4) 0 < θ < π 2 sin θ

学習指導要領

Information is physical. Rolf Landauer It from bit. John Wheeler I think there is a world market for maybe five computers. Thomas Watson

GTC Japan, 2018/09/14 得居誠也, Preferred Networks Chainer における 深層学習の高速化 Optimizing Deep Learning with Chainer

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

A(6, 13) B(1, 1) 65 y C 2 A(2, 1) B( 3, 2) C 66 x + 2y 1 = 0 2 A(1, 1) B(3, 0) P 67 3 A(3, 3) B(1, 2) C(4, 0) (1) ABC G (2) 3 A B C P 6

パーキンソン病治療ガイドライン2002

日本内科学会雑誌第97巻第7号

arctan 1 arctan arctan arctan π = = ( ) π = 4 = π = π = π = =

座標系.rtf


2016年度 広島大・文系数学

TOP URL 1

日本内科学会雑誌第98巻第4号

言語モデルの基礎 2

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

_0212_68<5A66><4EBA><79D1>_<6821><4E86><FF08><30C8><30F3><30DC><306A><3057><FF09>.pdf

ビジネス統計 統計基礎とエクセル分析 正誤表

9. 05 L x P(x) P(0) P(x) u(x) u(x) (0 < = x < = L) P(x) E(x) A(x) P(L) f ( d EA du ) = 0 (9.) dx dx u(0) = 0 (9.2) E(L)A(L) du (L) = f (9.3) dx (9.) P

BD = a, EA = b, BH = a, BF = b 3 EF B, EOA, BOD EF B EOA BF : AO = BE : AE, b : = BE : b, AF = BF = b BE = bb. () EF = b AF = b b. (2) EF B BOD EF : B

untitled

( 4) ( ) (Poincaré) (Poincaré disk) 1 2 (hyperboloid) [1] [2, 3, 4] 1 [1] 1 y = 0 L (hyperboloid) K (Klein disk) J (hemisphere) I (P

時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

学習指導要領

学習指導要領

PoincareDisk-3.doc

2017年度 神戸大・理系数学

< F55542D303996E291E894AD8CA9365F834E E95AA90CD836D815B>

スライド 1

第13章  テキストのクラスター分析

4 4 4 a b c d a b A c d A a da ad bce O E O n A n O ad bc a d n A n O 5 {a n } S n a k n a n + k S n a a n+ S n n S n n log x x {xy } x, y x + y 7 fx

2018年度 神戸大・理系数学

5 n P j j (P i,, P k, j 1) 1 n n ) φ(n) = n (1 1Pj [ ] φ φ P j j P j j = = = = = n = φ(p j j ) (P j j P j 1 j ) P j j ( 1 1 P j ) P j j ) (1 1Pj (1 1P

...Z QX

Microsoft Word - ?????1?2009????????-1.docx

Transcription:

Poincaré Embedding による 分散表現の獲得 M1 橋本隼人 森信介 京都大学情報学研究科 / 学術情報メディアセンター森研究室 1

おしらせ 予稿集から変更 ネガティブサンプリングの式 追加実験 ご意見等は予稿のアドレスかこちらへ <hayato.hashimoto@gmail.com> http://www.ar.media.kyoto-u.ac.jp/ 京都大学森研究室自然言語処理 2

発表の要旨 背景 : 階層的構造に適した Poincaré Embedding. (Nickel&Kiela. NIPS 17) WordNet からの学習 提案手法 : テキストからの教師なし学習 埋込み表現学習に適した内積を Poincaré 円盤上で定義 評価 : 埋め込み表現の既存評価手法 および 階層的構造を考慮した分類タスクによる評価 実験 :Continuous Bag-of-Words/ 英語版 Wikipedia 考察 まとめ : 提案手法はテキストから階層的構造を学習できる 3

Word2Vec / 合成可能性 4 / 28 背景 * * * * Mikolov の Skip-Gram with Negative Sampling で文脈 からベクトルは学習できる ( 意味の基底と ) 合成可能性 : king - man + woman = queen Vietnam + capital = Hanoi

語義の階層的構造 5 / 28 背景 * * * * 階層を下れば下るほど増えるカテゴリ 次元を増やすのが正解? ツリーが入る空間を用意 リーダー 作業員 人労働者親戚エンジニア事務員 プログラマ 5

Poincaré 円盤 6 / 28 背景 * * * * Nickel&Kiela は 埋め込み空間にリーマン幾 何の計量テンソルを導入することを提案した (from abyss.uoregon.edu)

Poincaré 円盤 7 / 28 背景 * * * *

Nickel & Kiela (2017) 8 / 28 背景 * * * * Nickel & Kiela は WordNet の上位語ー下位語関係の木構造を Poincaré 円盤を用いたモデルで学習 Euclid 計量に基づくベースラインモデルよりよく表現することができることを示した 8

9 / 28 背景 * * * * 9

テキストからの学習 10 / 28 * 提案手法 * * * Nickel らは人手により作られた階層的データがPoincare Embeddingによりうまく埋め込みできることがわかった 本発表では テキストから教師なしでよい埋め込み表現を得るために Poincare Embeddingができるかを検討したい 10

テキストへの適用時の問題 11 / 28 * 提案手法 * * * WordNet 再現タスクでは Euclid モデルでも内積より距離のほうがよい テキストからの埋め込み表現学習では 距離より内積のほうがよい 11

Euclid 内積から Poincaré 内積 12 / 28 * 提案手法 * * * A C O B 単位ベクトルの cosine 類似度を図形で図示すると 左のようになる 12

Euclid 内積から Poincaré 内積 13 / 28 * 提案手法 * * * A C H B 三角形 ABCと三角形 AOH は相似 ( 相似比 AO : AB) O AC = 相似比 AH = 距離 2 /2 OC = 1- 距離 2 /2 13

Euclid 内積から Poincaré 内積 14 / 28 * 提案手法 * * * A C H B 三角形 ABCと三角形 AOH は相似 ( 相似比 AO : AB) O AC = 相似比 AH = 距離 2 /2 OC = 1- 距離 2 /2 14

Poincaré 内積 ( もどき ) 15 / 28 * 提案手法 * * * cos Θ = 1 - d(x, y) 2 / 2 内積 = x y cos Θ = x y (1 - d(x, y) 2 / 2) Poincaré 円盤を単位円とみなす ベクトルの大きさのパラメータを別途導入する (r x, x) P (r y, y) = r x r y (1 - d P (x, y) 2 / 2) 15

Poincaré 内積 16 / 28 * 提案手法 * * * ネガティブサンプリングで確率を計算 log P(x context) = σ (r x r y (1 - d P (x, y) 2 /D 2 ) ) (1 - σ (r n1 r y (1 - d P (x, y) 2 /D 2 ) )) CBoW, ナイーブに重み付き平均 ( リーマン計量を考慮しない ) y = Σ r x / Σ r i i i r = Σ r / #context y i ( i context) 16

埋め込み表現の既存評価尺度 17 / 28 * * 評価 * * 人手評価による単語類似度と順位相関係数で評価 (Spearman s ρ) Dataset: MEN WordSim-353 SimLex-999 MEN と WordSimは関連付け (Relatedness: カップとコーヒーなど ) にも高いスコアが割り当てられ SimLexは類似度 (Similarity) のみ 17

埋め込み表現の既存評価尺度 18 / 28 * * 評価 * * Qvec, analogy resolution は加算 乗算 基底変換ができる前提のため 今回評価 には用いなかった 18

WordNet を用いた提案評価尺度 WordNetから二つの枝をえらび 同一の枝に属している単語ペアと例 : (mother, father), (professor, officer) 同一の枝に属していない単語ペアを例 : (professor, daughter) 二値分類するタスク worker 距離の閾値により解いた時のROC AUC で評価 19 / 28 * * 評価 * * person relative engineer 19

WordNet を用いた提案評価尺度 階層的構造の評価のために いくつかのレベルで二つの枝を選び AUC を平均する 20 / 28 * * 評価 * * person 距離のみで評価可能 上下関係の距離によらない worker relative engineer officer 20

実装 / 実験設定 21 / 28 * * * 実験 * Continuous Bag-of-Words ナイーブに重み付き平均 ( リーマン計量を考慮しない ) ケーリングとする Python で実装 (chainer 4.0.0β), batch 学習 +GPU ミニバッチ学習 GPU Gradient Clipping Sigmoid arg. Clipping: [-6, 6] AdaGrad により学習初期学習率 0.001 RSGD を Forward を円盤の中にいれる処理 Backward を微係数のス FunctionNode として実装 ナイーブにモーメンタム (msgd,, Adam) は使えない ( モーメンタムをリーマン計量対応にする必要がある また ネガティブサンプリングではまれな語のパラメータはまれにしか更新されな い ) 21

実験設定 22 / 28 * * * 実験 * コーパス Wikipedia 英語版 8.75 億語 ( 全体の数割 ) 語彙 100 万語 (Wikipedia 英語版全体からの出現頻度で決定 ) 単語と文脈を別に学習し 単語のベクトルで評価 20 epochs, スムージング 0.75 Subsampling: なし語彙頻度スムージング指数 (α): 0.75 Window: 2, 5, 10, 15 次元 : 10, 20, 100, 300 Gradient Clipping: 10.0 バッチサイズ 65536 22

結果 (WordNet 同枝判定 ) 23 / 28 * * * * 結果 次元窓幅 2 5 10 10 Poincare 0.6773 0.6605 0.6232 ( 評価時のみドット積 ) 0.6348 0.6163 0.6369 dot 0.6116 0.6205 0.6208 20 Poincare 0.6937 0.6694 0.6593 0.6533 0.6468 0.6567 dot 0.6443 0.6444 0.6445 100 Poincare 0.6316 0.6850 0.6847 0.6304 0.6506 0.6566 23 dot 0.6513 0.6580 0.6571

結果 (WordNet 同枝判定 ) 24 / 28 ROC AUC dim = 100 24 / 28 * * * * 結果 Poincare Embedding (win=5, win=10) Euclidean Baseline LexVec 配布モデル Iteration 24

結果 ( 類似度 ) 25 / 28 * * * * 結果 Iteration 25

結果 ( 類似度 ) 26 / 28 * * * * 結果 Iteration 26

学習表現の可視化 27 / 28 * * * * 結果 27

まとめ 埋込み表現学習に適した内積を Poincaré 円盤上で定義 階層的な構造をうまく埋め込み空間でたもっているかどうかを図るタスクを定義 タスクの結果および埋め込みの可視化から確認できる限りでは Poincaré Embedding を用いた埋め込み表現は 教師なしで階層的な構造を学習していると考えられる 28