条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析"

Transcription

1 * NTT (Fri),

2 PDF :

3 (,,,...) Twitter Blog... (Brain damaged!)

4 CSJ... (,,...)

5 ( +, ACL2009), : NPYLM (Nested Pitman-Yor LM)

6 NPYLM as a Semi-Markov model BOS EOS Semi-Markov HMM (Murphy 02, Ostendorf 96) +MCMC (n )

7 ,,, : JESS-CM joint probability model embedding style semisupervised conditional model ( + ACL08/09) CRF/HMM, CRF/Naive Bayes

8 JESS-CM on CRF/HMM ( +, ACL2008) ^ she has a cat $ CRF + HMM, CRF HMM ( ) NPYLM? (Semi-Markov)

9 NPYLM as a Semi-Markov model BOS EOS Semi-Markov HMM (Murphy 02, Ostendorf 96) +MCMC (n )

10 Semi-Markov CRF (NIPS 2004)? ^ Semi-Markov CRF ( : NE) (1GB 20GB) ( ) : 95%

11 Markov CRF Semi-Markov LM ^ CRF NPYLM 2?

12 CRF NPYLM Andrew+(EMNLP 2006) CRF semi-markov CRF p( ) 1 1=, 0= 0 start mid end (start, mid, end) := (start, mid)+ (mid, end)

13 NPYLM CRF (1)!! : 0 0, 0 1, 1 0, 1 1 Markov(=HMM), Semi-Markov

14 NPYLM CRF (2) Case 1 1 : ,,,

15 NPYLM CRF (3) 1 Case 1 0 : 1 0,,,,,,,, 0

16 NPY CRF: Code example 0 0 C++ double sentence::ccz (int t, HPYLM *lm) { wstring w, h; int i, j, k, L = src.size(); double z = 0; } for (k = 0; k < MAX_LENGTH - 2; k++) { if (!(t k < L)) break; for (j = 2 + k; j < index[t k]; j++) { w = src.substr(t k -j, j + 1); if (t + k - j < 0) { /* (t k - j) - 1 */ h = EOS; z += lm->ngram_probability (w, h); } else { for (i = 0; i < index[t + k - j]; i++) { h = src.substr(t + k -j -i, i + 1); z += lm->ngram_probability (w, h); } } } } return z;

17 What are we doing? (1) 1 1

18 What are we doing? (1) 0 1

19 What are we doing? (1) 1 0

20 What are we doing? (1) 0 0

21 What are we doing? (1) 0 0

22 What are we doing? (1) 0 0

23 What are we doing? (1) DAG, 4 :

24 What are we doing? (2),, 1 0,

25 Experiments (still ongoing) (Sina Microblog) Tremendous! Twitter, blog CSJ ( ) SIGHAN Bakeoff 2005

26 ( ^ ^ ) ( ^ ^ ) ( ^ ^ ) ( ) ( ^ ^ ) ( ^ ^ ) : 37,400 : 40,000

27 2 あるるるる 2 ますえ 2 そびれちゃった 2 メリクリスマース3 シクシク 3 チーム 45 ロック 11 キムタク 12 うなぁ 2 したろう 3 去った 4 死兆星 4 スッキリ 6 ドバァア 2 開催 47 おく 17 スワロフスキー 3 わたる 11 コマ送り 3 おおっお 7 にじむ 4 簿 12 ギギ 2 呼んで 29 席 グラビア 85 田尻 3 より焼き 2 ヒャダルコ 3 永久 34 ヤマト 2 早いし 2 信じろ 6 似てる 26 居る 10 よる 85 LaQua 7 ただただ 7 ストロベリメロディ21 スターーーートゥハッッッ 2 ひろがって 3 しろま 3 カワユスピンク 2 海馬 3 除外 3 けえ 6 なんとゆう 2

28 (Sina microblog) (Twitter) 今天一大早就被电话吵醒了, 折磨死我了, 昨天太晚睡了, 早上被这电话搞的晕忽忽! 头疼, 发热 貌似感冒了, 晚上睡觉不能裸睡了 要穿睡衣了 咿 ~? 半个钟前发的围脖咋不见了咧 ~~ 只是感慨了一下今天的归途特顺嘛 ~~~ ( ) b 下雨了, 不知道广州那边有没有下雨, 明天的同学聚会我去不了了,[ 伤心 ] 大哭學校付近一隻很可愛的狗狗, 做了點特效 [ 心 ] [ 心 ] [ 心 ] 我們學校學生超愛牠的!!![ 哈哈 ] 明儿我要把中山陵搞定 ~~~~~ 玛丽隔壁的 ~~~ ( _ ) 好饿啊.... 走! 妈妈带你出去吃饭去 ~..... ( ( ( ( ( ヾ ( o = ^ ェ ) o 喵 ~ o ( = ω = ) m 梦 混乱的梦 清晰的梦 : MSR ( ) : Sina API, 98700

29 SIGHAN Bakeoff 2005,... : MSR Asia 87k+ Chinese Gigaword 200k, ( 2004 ) 97.4%

30 [ : ]

31 : 2ch (10000 ), NPYCRF/K=12, : : A s 2007 StrikerS? No

32 A s 2007 StrikerS SS...

33 NHK, 6,000 : ( ) : ( )

34 ? (JESS-CM): 2 Jelinek-Mercer Bayes (Dirichlet) (MacKay 1994) HMM!

35 CRF JESS-CM Semi-Markov( )<->Markov( ) [ ]