2009 年 6 月 27 日 AntConc Tutorial Quick Start and Reference 1.AntConc 1 導 入 : pp.1~4 2. 早 速 使 ってみよう KWIC 機 能 : pp.5~6 3. 出 てきたものを 並 び 替 え SORT 機 能 : pp.7~9 4. 検 索 に 役 立 つ 正 規 表 現 について: p.10 5.タグセット 一 覧 とその 活 用 法 : pp.11~12 6. 単 語 の 分 布 を 調 べる Concordance Plot 機 能 : p.13 7.まとまった 語 句 を 調 べる Clusters 機 能 : pp.14~15 8. 単 語 リストを 作 る Wordlist 機 能 : pp.16~21 9.レンマ 化 (lemmatization)の 方 法 : pp.22~25 10. 語 の 共 起 関 係 を 算 出 する Collocate 機 能 : pp.27~29 11. 特 徴 語 を 抽 出 する Keyword List 機 能 : pp.29~32 東 京 外 国 語 大 学 大 学 院 総 合 国 際 学 研 究 科 言 語 文 化 専 攻 博 士 後 期 課 程 1 年 金 田 拓 村 上 明 1 2009 年 6 月 22 現 在 Version3.2.2 を Windows XP で 動 作 確 認 1
1.AntConc 導 入 AntConc はフリーソフトでありながら 高 機 能 かつ 使 いやすいインターフェイス を 備 えた 優 れたコンコーダンス ソフトウェアです Anthony LAURENCE 氏 ( 早 稲 田 大 学 )により 開 発 されています Laurence 氏 ホームページの software よりダウンロード 可 能 です HP http://www.antlab.sci.waseda.ac.jp/ ソフト http://www.antlab.sci.waseda.ac.jp/software.html お 使 いの OS(Windows, Mac OS, Linux)に 合 わせたバージョンを 選 んでダウン ロードします ダウンロードしたファイルはお 好 きな 場 所 に 保 存 してください 2
ダウンロードした 実 行 ファイルをダブルクリックすると 下 のような 画 面 が 出 ます コンコーダンス ソフトでは 分 析 するテキストを 最 初 に 指 定 します Open File(s)はテキストファイルを 開 くために Open Dir はフォルダ 単 位 で 複 数 のファイルを 開 くために 使 います 3
Open File(s)では 以 下 のような 選 択 画 面 になるので 分 析 したいファイルのあ る 階 層 へ 移 動 し 対 象 ファイルを 選 びます ( 後 でファイル 追 加 も 可 能 です) Open Dir では 分 析 したいファイル 群 が 含 まれるフォルダを 指 定 すると そ の 中 のファイル 全 てが 分 析 対 象 として 選 択 されます 4
Corpus Files の 下 に 分 析 したいテキストファイル 名 が 出 ていれば 準 備 完 了 です 2. 早 速 使 ってみよう (KWIC 機 能 ) AntConc には 様 々な 機 能 が 実 装 されており 上 の 青 枠 内 のタブを 選 んで 機 能 を 選 択 します ソフトを 実 行 すると 最 初 は Concordance が 選 択 されています まず はこの Concordance 機 能 を 使 ってみましょう Concordance 機 能 は 別 名 KWIC(Key Word In Context)とも 呼 ばれ 検 索 対 象 語 (これを Node Word といいます)を 含 む 行 を 取 り 出 し どのような 前 後 関 係 の 中 で 使 われているかを 一 覧 表 示 する 機 能 です 5
Search Term の 中 に 調 べたい 単 語 を 入 れて Start ボタンを 押 せば 分 析 開 始 です ここでは 例 として The Adventure of Sherlock Holmes( 邦 題 シャーロック ホー ムズの 冒 険 )を 用 いて red という 単 語 で 検 索 してみます 2 Red を 含 む 文 が 51 抽 出 できました!(red を 中 心 に 前 後 が 見 えます) 2 Project Gutenberg http://www.gutenberg.org/wiki/main_page より 無 料 で 入 手 可 能 6
3. 出 てきたものを 並 び 替 える SORT 機 能 欲 しい 文 を 取 り 出 すことはできましたが このままだと 調 べたい 特 徴 を 見 る のが 大 変 かもしれません そのために AntConc にはソート 機 能 ( 並 べ 替 え)が あります 上 の KWIC Sort という 部 分 で 並 び 替 えが 可 能 です 初 期 設 定 では [ 0 ] に 設 定 してありますが ボタンを 押 すと 1R, 2R ボ タンを 押 すと 1L, 2L と 数 値 が 変 化 します これらは 検 索 語 (Node Word)から 見 て 左 もしくは 右 の 何 語 目 を 基 準 に 並 び 替 えるか ということを 表 します R が 右, L は 左 で 前 の 数 字 が 何 語 目 かとい うことを 表 します A shock of very bright red hair grew low over his 5L 4L 3L 2L 1L NW 1R 2R 3R 4R 5R 左 はred の 前 に 来 る 語 右 は red の 後 に 来 る 語 ですね 例 えば 1R, 2R, 3R と 入 力 した 場 合 まず red の 直 後 に 来 る 語 (1R)で 並 び 替 えを 行 い 次 に 同 じ red hair でも その 次 に 来 る 語 (2R)を 基 準 に その 後 はそのまた 次 に 来 る 語 (3R)を 基 準 に と 3 段 階 で 並 び 替 えがなされます (チェックボックス[ ]に チェックを 入 れ ない 限 り 機 能 しないので 注 意 ) 7
準 備 が 終 わったら Sort ボタンを 押 します 小 さくて 見 づらいですが 並 び 替 えられました それぞれ Node Word が 青 1R が 赤 2R が 黄 緑 3R が 紫 で 表 示 されています この 機 能 を 使 用 して 並 び 替 えることで 後 に 何 が 来 るか 前 に 何 が 来 るか などの 関 係 が 見 やすくなります 8
調 べているうちに 表 示 される 前 後 関 係 だけでは 意 味 を 把 握 できないときが あります そんなときは 検 索 語 (Node Word)をクリックしてみましょう ( [ ニア ]のような 手 のマークになるはずです) すると 表 示 されている 文 章 が 実 際 に 分 析 対 象 のテキストで 使 われている ところまで 本 文 にジャンプできます ( 検 索 語 は 青 色 になっています) 9
4. 検 索 に 役 立 つ 正 規 表 現 (Regular Expression)について やや 高 度 な 検 索 方 法 として 正 規 表 現 による 検 索 があります 正 規 表 現 とは いくつかの 文 字 列 を 代 数 的 に 表 現 する 方 法 で 例 えば 以 下 のようなものがあり ます * 直 前 の 文 字 を 0 回 以 上 繰 り 返 す (アスタリスク) 例 )shoo*t は shot にも shoot にも shooooot にもマッチします + 直 前 の 文 字 を 1 回 以 上 繰 り 返 す (プラス) 例 )shoo+t は shoot や shooooot にはマッチしますが shot にはマッチしません? 直 前 の 文 字 が 0 回 または 1 回 ある (クエスチョンマーク) 例 )books?は book にも books にもマッチします. 任 意 の 一 文 字 (ピリオド) 例 )s.t は sit にも sat にも set にもマッチします w 英 数 字 あるいはアンダーバーが 一 文 字 ( 円 記 号 とダブリュー) 例 ) w+は 任 意 の 英 数 文 字 列 にマッチします d 数 字 一 文 字 ( 円 記 号 とディー) 例 ) d+は 数 字 列 にマッチします 選 択 ( 縦 棒 ) 例 )is am are は is am are のいずれかにマッチします ( ) グループ 化 (かっこ) 例 )s(a i)t は sat あるいは sit にマッチします [ ] 中 の 一 文 字 にマッチする ( 角 かっこ) 例 )s[ai]t は sat あるいは sit にマッチします ^ 行 頭 (ハット) 例 )^I は 行 頭 の I のみにマッチします $ 行 末 (ドル 記 号 ) 例 )me$は 行 末 の me のみにマッチします [^] ~ 以 外 ( 角 かっことハット) 例 )s[^e]t は sat や sit にはマッチしますが set にはマッチしません s 空 白 文 字 つまりスペースやタブ ( 円 記 号 とエス) 例 ) w+ s w+は 任 意 の 二 単 語 にマッチします b 単 語 区 切 り ( 円 記 号 とビー) 例 )in は into や sin にもマッチしますが bin b は in にしかマッチしません エスケープ 文 字 ( 上 記 の 記 号 を 文 字 として 処 理 する) ( 円 記 号 ) 例 )ピリオドを 検 索 したい 場 合 は.とします 10
5.タグセット 一 覧 とその 活 用 法 以 下 が 今 回 使 用 するタグの 一 覧 です CC CD DT EX FW IN JJ JJR JJS LS MD NN NNS NP NPS PDT POS PP PPS RB RBR RBS RP SYM TO UH VB VBD VBG VBN VBP VBZ VH VHD VHG VHN VHP VHZ VV VVD VVG Coordinating conjunction Cardinal number Determiner Existential there Foreign word Preposition or subordinating conjunction Adjective Adjective, comparative Adjective, superlative List item marker Modal Noun, singular or mass Noun, plural Proper noun, singular Proper noun, plural Predeterminer Possessive ending Personal pronoun Possessive pronoun Adverb Adverb, comparative Adverb, superlative Particle Symbol to Interjection Be-verb, base form Be-verb, past tense Be-verb, gerund or present participle Be-verb, past participle Be-verb, non-3rd person singular present Be-verb, 3rd person singular present Have, base form Have, past tense Have, gerund or present participle Have, past participle Have, non-3rd person singular present Have, 3rd person singular present Other verbs, base form Other verbs, past tense Other verbs, gerund or present participle 11
VVN VVP VVZ WDT WP WP$ WRB Other verbs, past participle Other verbs, non-3rd person singular present Other verbs, 3rd person singular present Wh-determiner Wh-pronoun Possessive wh-pronoun Wh-adverb タグは 表 層 形 (タブ)タグ(タブ)レンマ という 形 式 で 一 語 一 行 で 付 与 されています 例 えば There are many problems facing the Monarchy. という 文 であれば 以 下 のようになります There EX There are VBP be many JJ many problems NNS problem facing VVG face the DT the Monarchy NN monarchy. SENT. AntConc では 行 末 の 改 行 には s がマッチします そのことと 正 規 表 現 を 組 み 合 わせることにより 様 々な 項 目 が 抽 出 可 能 となります 進 行 相 be 動 詞 +-ing 形 の 動 詞 レンマが be の 語 +タグが V[ 何 か 一 文 字 ]G 例 えば 以 下 のような 形 is VBZ be eating VVG eat be 動 詞 : bbe s -ing 形 の 動 詞 : w+ sv.g bbe s w+ sv.g 12
6. 単 語 の 分 布 を 調 べる Concordance Plot 機 能 検 索 した 語 がテキスト 中 テキスト 間 でどのように 分 布 しているかを 調 べた い 場 合 には 左 から 2 番 目 の Concordance Plot タブをクリックして 選 択 します Concordance で 調 べた 人 はそのまま 調 べていない 人 は 下 のボックスに 検 索 し たい 語 を 入 れます ここでは The Adventure of Sherlock Holmes に 加 えて The Memoir of Sherlock Holmes( 邦 題 シャーロック ホームズの 回 想 ), The Return of Sherlock Holmes ( 邦 題 シャーロック ホームズの 帰 還 )の 3 テキストを 用 いま した すると 上 の 青 枠 のような 結 果 が 得 られます 横 長 のバーが 各 テキストファイル 縦 線 の 入 っている 位 置 に 検 索 語 red が 出 現 しているという 意 味 です 上 を 見 ると red は 冒 険 の しかも 一 部 に 集 中 し て 使 用 されているらしいことが 分 かります ( The Red-headed League 邦 題 赤 毛 組 合 のトピックのためだと 推 測 されます) 13
7.まとまった 語 句 を 調 べる Clusters 機 能 2 章 で 調 べたい 単 語 を 含 む 文 脈 を 検 索 しました 一 つ 一 つ 文 を 見 ることそれ 自 体 は 貴 重 な 情 報 をもたらしてくれますが 一 方 で 非 常 に 時 間 と 労 力 を 必 要 とする 欠 点 を 持 ちあわせています そこで 検 索 語 を 含 む かたまり (chunk, cluster などと 呼 ばれます)で 数 値 として 取 り 出 す Clusters 機 能 を 使 うことで 頻 度 を 数 値 で 取 り 出 すことができま す まずは Concordance のときと 同 じく 検 索 したい 語 を 赤 で 囲 ってあるボックス に 入 れます 次 に 緑 で 囲 った Cluster Size を 指 定 します これはそのまま Min. Size が 最 小 単 位 Max. Size が 最 大 単 位 つまり 何 語 から 何 語 までの 大 きさをかたま りとみなすか という 設 定 です 例 えば Min を 2, Max を 4 と 入 力 すると 2 語 から 4 語 つまり 2 語 かたまり 3 語 かたまり 4 語 かたまりの 語 を cluster と みなして 分 析 出 力 します 14
すると 上 のように 検 索 語 を 含 むかたまりを 自 動 で 計 算 してくれ 頻 度 に 基 づいた 情 報 が 得 られます 15
8.Word List 機 能 の 使 い 方 Word List 機 能 を 使 えば 対 象 ファイル 中 の 語 を 頻 度 順 アルファベット 順 に 見 ることができます 手 順 は 以 下 の 通 りです Word List のタブをクリックします まずはそのまま 左 下 の Start をクリックします 16
すると 処 理 対 象 のファイルの 中 に 出 現 する 語 が 頻 度 順 に 表 示 されます 語 をクリックするとその 語 を KWIC 形 式 で 見 ることができます 17
アルファベット 順 でソートしてみます まずは Sort by Word をクリックします Sort をクリックすると アルファベット 順 でソートされました 18
今 度 は 語 末 のアルファベット 順 でソートしてみます Sort by Word End を 選 択 します ソートをクリックすると 語 末 のアルファベット 順 でソートされました 19
語 末 を 逆 アルファベット 順 にしてみます Invert Order にチェックを 入 れます Sort をクリックすると 語 末 が 逆 アルファベット 順 になりました 20
大 文 字 / 小 文 字 の 区 別 をなくしたい 場 合 は treat all data as lowercase にチェック を 入 れます 今 度 は Sort ではなく Start をクリックします 元 々 大 文 字 だった 文 字 も 小 文 字 として 扱 われるようになりました 21
9. レンマ 化 (lemmatization)の 方 法 上 記 手 法 では 語 形 が 異 なっていれば 全 て 別 の 語 としてカウントされてしま います つまり have has had having ve は 全 て 別 の 語 として 扱 われます これらを 全 て 同 一 の 語 として 扱 うには リストをレンマ 化 (レンマ: 辞 書 の 見 出 しの 形 )する 必 要 があります 以 下 ではその 方 法 を 説 明 します 画 面 上 部 の Tool Preferences をクリックします 22
Category 下 の Word List を 選 択 し Lemma List Options という 項 目 内 にある Open をクリックします e_lemma_no_hypen.txt を 選 択 します (e_lemma_no_hypen.txt は http://www.antlab.sci.waseda.ac.jp/antconc_index.html か ら 入 手 できます e_lemma.txt というファイルもありますが うまく 動 作 し ないためハイフンを 含 まないこちらのファイルの 方 が 良 いと 思 われます ) 23
Load をクリックします 下 のようなウィンドウが 現 れますので OK をクリックします 24
Use lemma list file にチェックを 入 れ Apply をクリックします Start をクリックすると レンマ 化 された Word List が 出 てきます be というレ ンマの 中 に am are be been などの 語 が 全 て 含 まれているのがわかります 25
10.Collocates 機 能 の 使 い 方 Collocates 機 能 では ファイル 中 の 語 の 共 起 関 係 を 見 ることができます 手 順 は 以 下 の 通 りです Collocates タブをクリックします Search Term に Holmes と 入 力 し Start をクリックします 26
Holmes という 語 と 共 起 する 語 が 出 てきました 頻 度 順 になっており 左 から 順 に 順 位 総 頻 度 対 象 語 (Holmes)の 左 側 に 出 現 する 頻 度 対 象 語 の 右 側 に 出 現 する 頻 度 となっています Collocate 欄 の 語 をクリックすれば その 語 を KWIC 形 式 で 見 ることができます 先 ほどは Holmes の 直 前 と 直 後 に 来 る 語 しか 見 ていませんでしたが 今 度 は 共 起 関 係 を 判 断 する 枠 を 広 げてみます Window Span をそれぞれ 5L 5R に 設 定 し ます これは 共 起 関 係 を 判 断 する 対 象 として 対 象 語 (Holmes)の 5 個 左 の 語 (5L)から 5 個 右 の 語 (5R)までを 見 るということです 27
Start をクリックすると 先 ほどとは 少 し 異 なる 結 果 が 出 てきました Sort by は Word List 機 能 とほぼ 同 じです Min. Collocate Frequency では 頻 度 が 一 定 値 以 下 の 語 を 対 象 外 にすることができます 他 のオプションは Tool Preferences Collocates で 見 ることができます 共 起 関 係 を 算 出 する 統 計 手 法 はデフォルトでは MI スコアを 用 いていますが T スコア を 用 いることもできます 28
11.Keyword List 機 能 Keyword List 機 能 では 二 つのテキストを 比 較 し 一 方 のテキストに 頻 度 面 で 特 徴 的 な 語 を 抽 出 することができます ここではこれまで 用 いてきたコナンド イルの 文 章 をアガサクリスティーの 文 章 と 比 較 することにより 双 方 の 特 徴 的 な 語 彙 を 明 らかにします Tool Preferences Keyword List と 進 み Reference Corpus Options というところ の Choose Files をクリックします 29
アガサクリスティーのファイルを 選 択 します コナンドイルの 文 章 だけでなくアガサクリスティーの 文 章 の 特 徴 的 な 語 も 見 たい 場 合 は Show negative keywords のチェックを 入 れます その 後 Apply を クリックします 30
Keyword List タブをクリックし Start をクリックすると まずはコナンドイル の 文 章 に 特 徴 的 な 語 を 見 ることができます Keyness とはもう 一 方 のテキストと 比 較 し どの 程 度 高 頻 度 であるかを 示 す 指 標 です スクロールバーを 下 げていくと 青 い 文 字 が 見 えます これがアガサクリステ ィーの 文 章 に 特 徴 的 な 語 です 31
画 面 下 部 のオプションは Word List 機 能 と 共 通 です Tool Preferences Keyword List で 他 の 設 定 を 行 うことができます Keyness の 算 出 手 法 等 もここで 変 更 できます 32