数学 数学 数学之美 Google 数学 Google 1 (Statistical Language Models) Google 学 - 学 Noam Chomsky 学 数学 (Claude Shannon) 数学 数学 (Fred Jelinek) IBM 学 (Sabbatical Lea

Similar documents
IBM-Mode1 Q: A: cash money It is fine today 2

gengo.dvi


untitled

1 AND TFIDF Web DFIWF Wikipedia Web Web AND 5. Wikipedia AND 6. Wikipedia Web Ma [4] Ma URL AND Tian [8] Tian Tian Web Cimiano [3] [

21 Pitman-Yor Pitman- Yor [7] n -gram W w n-gram G Pitman-Yor P Y (d, θ, G 0 ) (1) G P Y (d, θ, G 0 ) (1) Pitman-Yor d, θ, G 0 d 0 d 1 θ Pitman-Yor G

s t 1, 2,..., 10 s t a, b,..., k t s 1, 2,..., 10 1 a, b,..., k 1 s t ts 1 0 ( 2.25) ½ ¾ ½¼ x 1j = 1 x 2c = 1 x 3e = 1

情報理論 第5回 情報量とエントロピー

Grund.dvi

ohp1.dvi

Journal04-03&04.PMD

A Japanese Word Dependency Corpus ÆüËܸì¤Îñ¸ì·¸¤ê¼õ¤±¥³¡¼¥Ñ¥¹

Modal Phrase MP because but 2 IP Inflection Phrase IP as long as if IP 3 VP Verb Phrase VP while before [ MP MP [ IP IP [ VP VP ]]] [ MP [ IP [ VP ]]]

..,,,, , ( ) 3.,., 3.,., 500, 233.,, 3,,.,, i

untitled

No. 3 Oct The person to the left of the stool carried the traffic-cone towards the trash-can. α α β α α β α α β α Track2 Track3 Track1 Track0 1

2

離散最適化基礎論 第 11回 組合せ最適化と半正定値計画法

自然言語処理23_175


& 3 3 ' ' (., (Pixel), (Light Intensity) (Random Variable). (Joint Probability). V., V = {,,, V }. i x i x = (x, x,, x V ) T. x i i (State Variable),

h23w1.dvi

Microsoft PowerPoint - …Z…O…†…fi…g…‡…f…‰‡É‡æ‡é™ñ‘oflÅ

2

t.dvi

23_33.indd

A11 (1993,1994) 29 A12 (1994) 29 A13 Trefethen and Bau Numerical Linear Algebra (1997) 29 A14 (1999) 30 A15 (2003) 30 A16 (2004) 30 A17 (2007) 30 A18

IPSJ SIG Technical Report Vol.2010-CVIM-170 No /1/ Visual Recognition of Wire Harnesses for Automated Wiring Masaki Yoneda, 1 Ta

22 Google Trends Estimation of Stock Dealing Timing using Google Trends

*2.5mm ”ŒŠá‡ÆfiÁ™¥‡Ì…Z†[…t…X…N…−†[…j…fi…O

TD 2048 TD 1 N N 2048 N TD N N N N N N 2048 N 2048 TD 2048 TD TD TD 2048 TD 2048 minimax 2048, 2048, TD, N i

NLC配布用.ppt

Corrected Version NICT /11/15, 1 Thursday, May 7,

1 J 2 tasu =: + (Tacit definition) (Explicit definition) 1.1 (&) x u&v y Fork Bond & Bond(&) 0&{ u u v v v y x y 1&{ ( p) ( q) x v&

1 Abstract 2 3 n a ax 2 + bx + c = 0 (a 0) (1) ( x + b ) 2 = b2 4ac 2a 4a 2 D = b 2 4ac > 0 (1) 2 D = 0 D < 0 x + b 2a = ± b2 4ac 2a b ± b 2

IPSJ SIG Technical Report Vol.2014-NL-219 No /12/17 1,a) Graham Neubig 1,b) Sakriani Sakti 1,c) 1,d) 1,e) 1. [23] 1(a) 1(b) [19] n-best [1] 1 N


25 About what prevent spoofing of misusing a session information

‰gficŒõ/’ÓŠ¹

IW2002-B5 1 Internet Week ( ) 9:30 12:30 ( ) Copyright 2002 All Rights Reserved, by Seiji Kumagai ADSL FTTH 24 IP LAN

Research on decision making in multi-player games with imperfect information

matsuda.dvi

( ) (, ) arxiv: hgm OpenXM search. d n A = (a ij ). A i a i Z d, Z d. i a ij > 0. β N 0 A = N 0 a N 0 a n Z A (β; p) = Au=β,u N n 0 A

H indd

1 Foundations of Artificial Intelligence (Overview) artificial intelligence; AI Logic Theorist 1956 Dartmouth Conference Turing test image recognition

23回会社説明会資料(HP用)

スライド 1

untitled

( : A9TB2096)

SO(2)


日本感性工学会論文誌

2007/2 Vol. J90 D No Web 2. 1 [3] [2], [11] [18] [14] YELLOW [16] [8] tfidf [19] 2. 2 / 30% 90% [24] 2. 3 [4], [21] 428

a) Extraction of Similarities and Differences in Human Behavior Using Singular Value Decomposition Kenichi MISHIMA, Sayaka KANATA, Hiroaki NAKANISHI a

音声読み上げブラウザの読み上げかた


els08ws-kuroda-slides.key

( ) ( ) Modified on 2009/05/24, 2008/09/17, 15, 12, 11, 10, 09 Created on 2008/07/02 1 1) ( ) ( ) (exgen Excel VBA ) 2)3) 1.1 ( ) ( ) : : (1) ( ) ( )

DEIM Forum 2014 B Twitter Twitter Twitter 2006 Twitter 201

-like BCCWJ CD-ROM CiNii NII BCCWJ BCCWJ

24 SPAM Performance Comparison of Machine Learning Algorithms for SPAM Discrimination

WIDE 1

6 ( ) 1 / 53

Int Int 29 print Int fmt tostring 2 2 [19] ML ML [19] ML Emacs Standard ML M M ::= x c λx.m M M let x = M in M end (M) x c λx.

N-gram Language Models for Speech Recognition

_314I01BM浅谷2.indd

fiš„v5.dvi

,.,. NP,., ,.,,.,.,,, (PCA)...,,. Tipping and Bishop (1999) PCA. (PPCA)., (Ilin and Raiko, 2010). PPCA EM., , tatsukaw

Part y mx + n mt + n m 1 mt n + n t m 2 t + mn 0 t m 0 n 18 y n n a 7 3 ; x α α 1 7α +t t 3 4α + 3t t x α x α y mx + n

II II,,,, AII BII CII

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

一般社団法人電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGIN



PDF

WPA(Win Probability Added) 1 WPA WPA ( ) WPA WPA WPA WPA WPA

. p.1/34

直交座標系の回転

IPSJ SIG Technical Report Vol.2009-CVIM-167 No /6/10 Real AdaBoost HOG 1 1 1, 2 1 Real AdaBoost HOG HOG Real AdaBoost HOG A Method for Reducing

/* sansu1.c */ #include <stdio.h> main() { int a, b, c; /* a, b, c */ a = 200; b = 1300; /* a 200 */ /* b 200 */ c = a + b; /* a b c */ }

johnny-paper2nd.dvi

2001 Miller-Rabin Rabin-Solovay-Strassen self-contained RSA RSA RSA ( ) Shor RSA RSA 1 Solovay-Strassen Miller-Rabin [3, pp

¥ì¥·¥Ô¤Î¸À¸ì½èÍý¤Î¸½¾õ

橡ボーダーライン.PDF

x, y x 3 y xy 3 x 2 y + xy 2 x 3 + y 3 = x 3 y xy 3 x 2 y + xy 2 x 3 + y 3 = 15 xy (x y) (x + y) xy (x y) (x y) ( x 2 + xy + y 2) = 15 (x y)


I, II 1, A = A 4 : 6 = max{ A, } A A 10 10%

30

E 2017 [ 03] (DAG; Directed Acyclic Graph) [ 13, Mori 14] DAG ( ) Mori [Mori 12] [McDonald 05] [Hamada 00] 2. Mori [Mori 12] Mori Mori Momouchi

3807 (3)(2) ,267 1 Fig. 1 Advertisement to the author of a blog. 3 (1) (2) (3) (2) (1) TV 2-0 Adsense (2) Web ) 6) 3


Isogai, T., Building a dynamic correlation network for fat-tailed financial asset returns, Applied Network Science (7):-24, 206,

数学Ⅱ演習(足助・09夏)

[12] Qui [6][7] Google N-gram[11] Web ( 4travel 5, 6 ) ( 7 ) ( All About 8 ) (1) (2) (3) 3 3 (1) (2) (3) (a) ( (b) (c) (d) (e) (1

11_寄稿論文_李_再校.mcd

004139 医用画像‐27‐3/★追悼文‐27‐3‐0 松本様

Duality in Bayesian prediction and its implication

untitled

IPSJ SIG Technical Report On a Bayesian Network-based Model for Referring Expressions Kotaro Funakoshi, 1 Mikio Nakano, 1 Takenobu Tokunaga 2

Transcription:

数学之美 * October 2, 2010 * 1

数学 数学 数学之美 Google 数学 Google 1 (Statistical Language Models) Google 学 - 学 Noam Chomsky 学 数学 (Claude Shannon) 数学 数学 (Fred Jelinek) IBM 学 (Sabbatical Leave) 学 S w 1, w 2,, w n S S 数学 S P(S) S P (S) P (S) = P (w 1 )P (w 2 w 1 )P (w 3 w 1, w 2 ) P (w n w 1, w 2 w n 1 ). P (w 1 ) w 1 P (w 2 w 1 ) w n wi w i 1 ( S P (S) = P (w 1 )P (w 2 w 1 )P (w 3 w 2 ) P (w i w i 1 ), ( N-1 2

P (w i w i 1 ) 数 数 (w i 1, w i ) w i 1 数 P (w i w i 1 ) = P (w i 1, w i )/P (w i 1 ) 数学 学 Google 美 (NIST) Google 数学 美 之 997 20 学 数学 学 Google 2 美 / / / / / 美 / / / / / 学 学 数 数 - - - - 学 - 学 - 学 - - 学 90 学 数 数学 3

S A 1, A 2, A 3,, A k, B 1, B 2, B 3,, B m, C 1, C 2, C 3,, C n, A 1, A 2, B 1, B 2, C 1, C 2 A 1, A 2,, A k P P (A 1, A 2, A 3,, A k ) > P (B 1, B 2, B 3,, B m ), P (A 1, A 2, A 3,, A k ) > P (C 1, C 2, C 3,, C n ). Dynamic Programming Viterbi 学 学 学 学 学 学 学 学 Computational Linguistics 学 学 学 Google 之 数学 Google 1. 2. 3. Critical Tokenization and its Properties 4. Chinese word segmentation without using lexicon and hand-crafted training data 4

3 数学 之 数学 之 s 1, s 2, s 3, o 1, o 2, o 3 o 1, o 2, o 3, s 1, s 2, s 3, 学 Hidden Markov Model o 1, o 2, o 3 s 1, s 2, s 3 数学 o 1, o 2, o 3, P (s 1, s 2, s 3, o 1, o 2, o 3, ) s 1, s 2, s 3, 数 P (o 1, o 2, o 3, s 1, s 2, s 3, ) P (s 1, s 2, s 3, ). P (o 1, o 2, o 3, s 1, s 2, s 3, ) s 1, s 2, s 3, o 1, o 2, o 3,, P (s 1, s 2, s 3, ) s 1, s 2, s 3, s 1, s 2, s 3, 数 s 1, s 2, s 3, 1. s 1, s 2, s 3, s i s i 1 2. i o i s i, P (o 1, o 2, o 3, s 1, s 2, s 3, ) = P (o 1 s 1 ) P (o 2 s 2 ) P (o 3 s 3 ) 5

Viterbi s1, s2, s3, 之 s 1, s 2, s 3, s 1, s 2, s 3, o 1, o 2, o 3, o 1, o 2, o 3, P (o 1, o 2, o 3, s 1, s 2, s 3, ) 学 (Acoustic Model) (Translation Model) (Correction Model) P (s 1, s 2, s 3, ) Baum 60 IBM Fred Jelinek ( ) 学 Jim and Janet Baker ( ) ( 30% 10%) Sphinx 学 学 数学 之 4? :Google 1948 (shāng)? 1 32 1-16? 1-8? 9-16 6

bit 数, 数 数 数 log log 32 = 5, log 64 = 6 美 32 数 (p 1 log p 1 + p 2 log p 2 + + p 32 log p 32 ). p 1 p 2,, p 32 32 (Entropy) H 32 数学 X H(X) = x P (x) log 2 [P (x)]. 7000 13 13 数 10% 95% 8-9 5 250 320KB 1MB 数 redundancy) 250 数 学 7

5 之美 数 [ Google Page Rank ( ) 数 George Boole) 学数学 数学 之 数学 数学 1854 An Investigation of the Laws of Thought, on which are founded the Mathematical Theories of Logic and Probabilities 数学 数 1 TRUE ) 0 FALSE ) AND) (OR) NOT) AND-NOT AND 1 0 1 1 0 0 0 0 AND 0 0 1 1 (0), 1 0 OR 1 0 1 1 1 0 1 0 OR 1 1 0 0 0 1 1 NOT 1 0 0 1 NOT 1 0 0 1 1 0 数学 数 80 1938 数 数 数 数学 8

TRUE, 1 FALSE, 0 AND AND (NOT ) - - - True False 数 之 数 数 1 0 数 0100100001100001 数 之 数 0010100110000001 数 AND 0000100000000001 数 数 1 数 数 数 Alta Vista 学 3-5 数 之 Shards) 数学 9

6 (Web Crawlers) [ 数学 数学 学 数学 数 数 数 (Web Crawlers) 之 Google Trends 数学 数学 ] Traverse) 数学 Leonhard Euler 1736 Konigsberg 学 BFS) DFS) Hyperlinks) Robot) 学 (MIT) 学. Matthew Gray) 1993 10

( www wanderer ) (Hash Table) Google 数 200 200 634 7 (Fred Jelinek) (Perplexity) Sphinx 997 997 60 20 Mutual Information) Kullback-Leibler Divergence) Bush 美 美 Kerry Kerry 11

美 Bush (Gale) (Church) (Yarowsky) 学 (Mitch Marcus) Kullback-Leibler Divergence 数 数 - TF/IDF) TF/IDF TF/IDF 数学 学. (Thomas Cover) (Elements of Information Theory) 1 2 8. (Fred Jelinek) 学 学 学 学 D 学 学 A 1949 美 美 学 学 学 8 学 学 学 12

学 学 Roman Jakobson ( [ ] 学 (Noam Chomsky) 学 学 学 之 学 学 学 学 IBM 学 学 学 1972 IBM IBM T.G. Watson Labs 学 IBM 之 IBM Bahl Dragon (Della Pietra) BCJR (Cocke) (Raviv) IBM Google, 学 学 学 美 BCJR 数 之 IBM IBM 之 Amaden BCJR IBM IBM 学 IBM IBM 学 IBM 数 学 CLSP 20-30 学 学 CLSP CLSP 之 学 学 学 学 学 学 学 学 学 学 学 IBM, AT&T Google 13

学 学 学 学 学 美 学 学 Pascale 学 学 学 1 2 3 4 5 6 9 [ (Page Rank) 学 ] 数 数 数 Term Frequency) 14

2 35 5 0.002 0.035 0.005 数 0.042 w 1, w 2,, w N :T F 1, T F 2,, T F N TF: term frequency) :T F 1 + T F 2 + + T F N 10 83 数 Google 15

学 学 学 AT&T 学 Mohri, Pereira Riley C AT&T 学 AT&T AT&T 学 学 Google AT&T C 学 学 AT&T 11 Google 47.. Nicolas Cage) 之 Lord of War) 47( AK47) ( 47 ( Google. (Amit Singhal) Google 47 Google Google Matt Cutts Spam) 学 学 美 数 40% Google 16

1 2 3 4... 789... 64000 47 debug) 之 (Salton) AT&T 数 AT&T Google Google Google AT&T 学 Google Google 学 2005 学 40 美 RAID) (Randy Katz) 12 Google 数 数 TF/IDF / TF/IDF) TF/IDF TF/IDF 64,000 TF/IDF 17

TF/IDF 1 0 2 0.0034 3 0 4 0.00052 5 0... 789 0.034... 64000 0.075 64,000 数 64,000 之 学 数 a, b c A, B C A cos A = b2 + c 2 a 2 2bc b c cos A = a b a b b c X Y x 1, x 2,, x 64000 y 1, y 2,, y 64000 cos θ = x 1 y 1 + x 2 y 2 + + x 64000 y 64000 x 2 1 + x 2 2 + + x 2 64000 y. 1 2 + y2 2 + + y64000 2 学学 数学 18

13 数 Fingerprint) URL) Google 数学之美 http://www.baidu.com/s?ie=gb2312&bs=%ca%fd%d1% A7%D6%AE%C3%C0&sr=&z=&cl=3&f=8&wd=%CE%E2%BE%FC+%CA%FD%D1%A7%D6%AE% C3%C0&ct=0 200 2 TB GB 50% 4TB 数 200 128 16 数 数 893249432984398432980545454543 16 1/6 16 数 Fingerprint) 数 128 数 数, 数 prng) prng 之 数 数 数 1001 9 01010001 ( 81 0100 数 MersenneTwister,, Cookie cookie cookie MersenneTwister 数 数 csprng) MD5 SHA1 128 160 数 SHA1 19

14 数学 [ 数学之美 数学 Google 学 学 学 之 美 之 学 20

8-10 学 学 数 数 学 学 学 Verrier Google 1. 数学 2. 3. 数 4. / 数 TF/IDF) page rank) 15 数学之美 学 美 学 (Michael Collins) 21

15.1 美 (Mitch Marcus) 学 学 学 (MIT) 数 数 (sentence parser) (Eric Brill) Ratnaparkhi Eisnar 数学 美 AT&T AT&T MIT MIT 学 15.2 美 (Eric Brill) 学 学 学 (transformation rule based machine learning) chang 学 美 (part of speech tagging) Google 学 学 Google Google 之 22

16 [ 数学 (the maximum entropy principle) ] Google 学 wang-xiao-bo ( ) 学 学 数学 (maximum entropy) AT&T 1/6 之 1/3 2/15 1/3 之 23

wang-xiao-bo 学 数学 Csiszar 数 数 w 3 w 1 w 2 subject P (w 3 w 1, w 2, subject) = e{λ 1(w 1,w 2,w 3 )+λ 2 (subject,w 3 )} Z(w 1, w 2, subject) 数 lambda Z 数 之 数 数 数 数 数 数 GIS(generalized iterative scaling) GIS 1. 2. N 数 数 3. 2 GIS Darroch Ratcliff 数学 Csiszar) Darroch Ratcliff GIS 64 GIS (Della Pietra) IBM GIS IIS improved iterative scaling 数 IBM 24

数学 美 学 美 学 IBM (Adwait Ratnaparkhi) 之 学 学 数学 IIS 数 (language model) 20 SUN Google IBM 学 IBM (hedge fund) - (Renaissance Technologies) 学 数学 1988 34% 1988 200 Berkshire Hathaway) 16 数学 数学 17 (Search Engine Anti-SPAM) (SPAM) 25

数 数 (page rank) Google Google Matt Cutts Google ( Google 数 学 数学 26

Google ( 18 学学 数 数 学 学 学 学 数学 数 Singular Value Decomposition SVD) A A = a 11 a 1j a 1N a i1 a ij a in a M1 a Mj a MN M=1,000,000 N=500,000 i j j i TF/IDF) X B Y 数 1.5 之 数 X 数 Y 27

之 A w 数 数 Google MapReduce Google Google Google 19 (Bayesian Networks) (Markov Chain) 之 之 之 28

(belief) (belief networks) 之 之 数 数 NP-complete IBM Watson (Geoffrey Zweig) 学 (Jeff Bilmes) 之 Google Google 20 学 (Mitch Marcus) 学 AT&T 学 学 LDC 学 数 数 数 (corpus) 数 学 美 学 DARPA 学 数 PennTree Bank PennTree Bank 29

LDC 学 数 LDC 之 学 try-and-error 学 学 学 bioinformatics ( 学 学 学 学 学 学 学 学 学 21 Bloom Filter FBI hash table Yahoo,Hotmail Gmai email spamer email email 1.6GB email googlechinablog.com/2006/08/blog-post.html 50 数学 1/8 1/4. 数 X 数 F 1, F 2,, F 8 f 1, f 2,, f 8 数 G 1 30

数 g 1, g 2,, g 8 email email Y 数 F 1, F 2,, F 8 s 1, s 2,, s 8 t 1, t 2,, t 8 Y t 1, t 2,, t 8 之 之 22 学 数学 学 学 数学 http://ent.sina.com.cn/v/2005-10-17/ba866985.shtml 学 EBKTBP CAESAR 学 31

A B C E B A D F E K R P S T 0543 0543 0543 3737 2947 数 学 美 美 AF 美 美 美 AF 美 AF 美 学 美 学 学 之 数学 Caesar 数 Ascii X=099097101115097114 1. 数 数 P Q 100, N = P Q, M = (P 1) (Q 1) 2. M 数 E M E 1 数 3. 数 D E D M 1 E D mod M = 1 4. E 32

D N X Y X K mod N = Y D Y X D Y X Y D mod N = X 1. 2. N,E D, 3. E D N 数 N P Q P Q 数 P Q 50 RSA-158 数 39505874583265144526419767800614481996020776460304936454139376051579355 62652945068360972784246821953509354430587049025199565533571020979922648 4977949442955603 = 3388495837466721394368393204672181522815830368604993 048084925840555281177 116588234066712599031483765583832708181310122581 46392600439520994131344334162924536139 数 N N=P Q 33

P Q 之 数?? 学?? game theory 数学 数 23 6700 26 676 6700 p 1, p 2, p 3,, p 6700 L 1, L 2, L 3,, L 6700 p 1 L 1 + p 2 L 2 + + p 6700 L 6700 GBK http://www. googlechinablog.com/2006/04/4.html H = p 1 log p 1 p 6700 log p 6700 26 log 26 = 4.7 10/4.7 = 2.1 8 8/4.7=1.7 http://www.googlechinablog.com/2006/04/blog-post.html 6 6/4.7 = 1.3 学 学 34

之 数 2.98 数 100 http : //tools.google.com/pinyin/ 24 Google T-Mobile HTC Android 3G 学 Dynamic Programming 之 shortest path 数 数 数 数 数 数 数 35

数 Dynamic Programming programming 数学 -> -> -> -> -> -> 10 10 15 10 15 Y 1, Y 2, Y 3,, Y N W 11, W 12, W 13 Y1 W 21, W 22, W 23, W 24 Y2 36

数学 数学 37

38