linguistics - PDF Free Download

R @ linguistics 2007/08/24 ( ) R @ linguistics 2007/08/24 1 / 24

1 2 R 3 R 4 5 ( ) R @ linguistics 2007/08/24 2 / 24

R R: ( ) R @ linguistics 2007/08/24 3 / 24

R Life is short. Use the command line. (Crawley 2002: 11) R Commander ( ) R @ linguistics 2007/08/24 4 / 24

R Stefan Evert Stefan Gries (to appear). Quantitative corpus linguistics with R: a practical introduction. New York: Routledge. Harald Baayen (to appear). Analyzing Linguistic Data. A Practical Introduction to Statistics. Cambridge: Cambridge University Press. ( ) ( ) R @ linguistics 2007/08/24 5 / 24

R R > > 3+5 [1] 8 > 22/7 [1] 3.142857 > 1+2*3 [1] 7 > sqrt(49) [1] 7 ( ) R @ linguistics 2007/08/24 6 / 24

R > x <- 33 > y <- 6*7 > y [1] 42 > x+y [1] 75 ( ) R @ linguistics 2007/08/24 7 / 24

R :c > myvector <- c(1,5,4,3,8,6) > myvector [1] 1 5 4 3 8 6 > mean(myvector) [1] 4.5 > sd(myvector) [1] 2.428992 ( ) R @ linguistics 2007/08/24 8 / 24

R > help(sd) >?sd sum() max() rev() length() sort() summary() ( ) R @ linguistics 2007/08/24 9 / 24

R > mymatrix <- matrix(1:9, nrow=3) 1:9 c(1,2,3,4,5,6,7,8,9) > mymatrix [,1] [,2] [,3] [1,] 1 4 7 [2,] 2 5 8 [3,] 3 6 9 Excel > fix(mymatrix) ( ) R @ linguistics 2007/08/24 10 / 24

I give that to her. I give her that. Recipient 1 2 3 ( ) R @ linguistics 2007/08/24 11 / 24

read.delim() read.csv() (csv) Excel 1 Excel verbs.txt 2 3 R > verbs <- read.delim("clipboard") > verbs <- read.delim(choose.files()) ( ) R @ linguistics 2007/08/24 12 / 24

> head(verbs) xtabs > mydata <- xtabs ( + Recipient, data=verbs) > mydata NP 34 521 PP 47 301 ( ) R @ linguistics 2007/08/24 13 / 24

NP 34 521 PP 47 301 > barplot(mydata) > barplot(mydata, beside=t, legend=t) 1 2 Microsoft Word ( ) R @ linguistics 2007/08/24 14 / 24

NP 34 521 PP 47 301 > chisq.test(mydata) > fisher.test(mydata) ( ) R @ linguistics 2007/08/24 15 / 24

> fisher.test(mydata) Fisher s Exact Test for Count Data data: y p-value = 0.0002826 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.2547492 0.6809272 sample estimates: odds ratio 0.4183587 p < 0.001 ( ) R @ linguistics 2007/08/24 16 / 24

R > mysentence <- "This is a pen" > mysentence [1] "This is a pen" > mywords <- unlist(strsplit(mysentence, " ")) [1] "This" "is" "a" "pen" > grep("is", mywords) [1] 1 2 > grep("is", mywords, value=t) [1] "This" "is" ( ) R @ linguistics 2007/08/24 17 / 24

-ness P ness = n 1 N n 1 : -ness 1 N: -ness 1 2 3 ( ) R @ linguistics 2007/08/24 18 / 24

> alice.text <- scan(choose.files(), what="char", sep="\n") alice.txt > alice.text <- tolower(alice.text) > alice.words <- unlist(strsplit(alice.text, "\\W")) -ing > ing.words <- grep("ing$", alice.words, value=t) ( ) R @ linguistics 2007/08/24 19 / 24

> ing.freqlist <- table(ing.words) > ing.freqlist.sorted <- sort(ing.freqlist, decreasing=t) (N) > ing.token.freq <- sum(ing.freqlist.sorted) (n 1 ) > ing.hapax <- length(ing.freqlist.sorted[ing.freqlist.sorted==1]) > ing.hapax / ing.token.freq ( ) R @ linguistics 2007/08/24 20 / 24

> source(choose.files()) productivity.r > alice.text <- scan(choose.files(), what="char", sep="\n") alice.txt ( ) R @ linguistics 2007/08/24 21 / 24

freq.list(), type.freq(), token.freq(), hapax(), productivity() > freq.list("oo", alice.text) > productivity("ity$", alice.text) ( ) R @ linguistics 2007/08/24 22 / 24

R http://cwoweb2.bai.ne.jp/%7ejgb11101/ http://aoki2.si.gunma-u.ac.jp/r/ http://www.okada.jp.org/rwiki/ R wiki ( ) R @ linguistics 2007/08/24 23 / 24

( ) R @ linguistics 2007/08/24 24 / 24