コーパスコンコーダンサ ChaKi.NET の 文 書 - 部 分 構 造 行 列 出 力 機 能 浅 原 正 幸 ( 国 立 国 語 研 究 所 ) 森 田 敏 生 ( 総 和 技 研 ) Document-Substructure Matrix Output Function on ChaKi.NET Masayuki Asahara (NINJAL) Toshio Morita (Sowa Research Co., Ltd.) 要 旨 コーパスを 用 いて 統 計 処 理 を 行 う 上 で 文 書 - 単 語 行 列 を 作 成 をすることが 多 い コーパス コンコーダンサ ChaKi.NET は 従 来 より 形 態 論 情 報 に 基 づくクエリ Tag Search の Wordlist 機 能 を 用 いることにより 文 書 - 単 語 行 列 を 作 成 することが 可 能 であった 今 回 この 機 能 を 拡 張 することにより n-gram データや 係 り 受 け 構 造 上 の 部 分 木 などの 文 書 - 部 分 構 造 行 列 出 力 機 能 を 実 装 した さらに 既 存 の 出 力 形 式 である Excel, CSV に 加 えて R の dataframe 形 式 を 出 力 できるようにした ポスター 発 表 では 当 該 機 能 のデモを 行 う 1. はじめに 複 数 文 書 コーパスを 用 いて 主 成 分 分 析 や 対 応 分 析 などの 統 計 処 理 を 行 う 際 に 文 書 - 単 語 行 列 を 作 成 をすることが 多 い( 浅 原 ほか (2014)) コーパスコンコーダンサ ChaKi.NET (Matsumoto et al. (2006)) (1) は Wordlist 機 能 を 用 いることにより 文 書 - 単 語 行 列 を 容 易 に 生 成 す ることができる (2) 特 徴 量 空 間 として 単 一 の 単 語 表 層 形 や 語 彙 素 のみならず 形 態 素 系 列 ( 浅 原 ほか (2015))や 係 り 受 け 部 分 木 ( 浅 原 加 藤 (2015))などの 部 分 構 造 データを 用 いることに より より 深 い 分 析 が 行 うことができる しかしながら 部 分 構 造 データの 枚 挙 においては 順 列 組 み 合 わせの 枚 挙 といった 煩 雑 な 作 業 が 伴 う プログラミングに 不 得 手 な 研 究 者 にとっ て この 作 業 が 一 つの 障 壁 となっている 今 回 ChaKi.NET の Wordlist 機 能 を 拡 張 して n-gram などの 連 続 部 分 系 列 や 連 続 部 分 木 などを 特 徴 量 空 間 とする 文 書 - 部 分 構 造 行 列 を 出 力 する 機 能 を 追 加 した (3) 既 存 の 出 力 形 式 である Excel 形 式 や CSV 形 式 に 加 えて R の dataframe 形 式 を 出 力 できるようにした 本 稿 で は これらの 新 機 能 を 解 説 するとともに 非 連 続 部 分 構 造 を 枚 挙 する 際 の 注 意 点 について 示 す masayu-a@ninjal.ac.jp (1) http://osdn.jp/projects/chaki/ (2) http://qiita.com/masayu-a/items/66285bcb8d40c6bbb494 (3) ChaKi.NET 3.00β Revision 500 257
2. ChaKi.NET の Wordlist 機 能 最 初 に ChaKi.NET の Wordlist 機 能 を 用 いた 文 書 - 単 語 行 列 作 成 機 能 について 解 説 す る あらかじめ 分 析 対 象 のテキストを 形 態 素 解 析 器 MeCab などで 解 析 して ChaKi.NET 用 の sqlite db ファイルを 作 成 してあることを 前 提 とする 後 に 述 べる 係 り 受 け 部 分 木 に 基 づく 分 析 を 行 う 場 合 には 最 初 から 係 り 受 け 解 析 器 CaboCha などで 解 析 してあることが 望 ましい (4) まず 最 初 にコーパスを ChaKi.NET にコーパスを 読 み 込 ませる sqlite db 化 した 複 数 ファイ ルを Search Conditions パネルの [Corpus/コーパス] タブに 展 開 する Search Conditions パネルに [Tag Search/Tag 検 索 ] タブを 選 択 し 以 下 の 図 のように 1 形 態 素 に 対 して 何 も 指 定 しない 検 索 式 (デフォールトの 状 態 )を 指 定 する 特 徴 量 空 間 として 名 詞 しか 定 義 しない 場 合 には 以 下 の 図 のように [PartOfSpeech] に 名 詞 -* を 選 択 する 検 索 窓 が 赤 字 の 場 合 当 該 検 索 クエリが 正 規 表 現 であることを 表 す この 状 態 で [Wordlist/ワードリスト 開 始 ] ボタンを 押 すと 下 図 のように 文 書 - 単 語 行 列 が 展 開 される 表 中 1 列 目 から 9 列 目 が 形 態 論 情 報 を 表 す 10 列 目 11 列 目 に 選 択 したコーパ (4) 複 数 のテキストファイルをバッチで 係 り 受 け 解 析 を 行 い sqlite db ファイルをに 格 納 する 方 法 については http://qiita.com/masayu-a/items/5e61dcf0ed7068c01f62 を 参 照 すること 258
スの 頻 度 が 示 される 12 列 目 の [All] の 列 に 全 コーパスの 頻 度 が 示 される デフォールトの 設 定 では 形 態 素 表 層 形 のみが 展 開 されている 各 列 のヘッダ 部 を 右 クリッ クすることにより 以 下 の 図 のように 畳 み 込 む [Compact Row Ctrl+C] か 展 開 する [Expand Row Ctrl+E] かが 選 択 できる 各 列 のヘッダ 部 を 左 ダブルクリックすることにより 当 該 列 で 昇 順 降 順 にソートされる 以 下 の 図 は [All] 列 ( 全 コーパス 中 の 頻 度 ) で 降 順 ソートしたものである この 状 態 で [File/ファイル (E)] [Send To Excel/CSV] を 選 択 し [to Excel] を 選 択 するとと 展 開 された 文 書 - 単 語 行 列 を 保 存 することができる 尚 Microsoft Excel がインストール されていない 機 材 の 場 合 はこの 機 能 が 利 用 できない 259
保 存 された Excel ファイルは 以 下 のようになる 前 の 画 面 で [to CSV] を 選 択 すると csv 形 式 のファイルが [to R dataframe] を 選 択 すると R 言 語 の dataframe 形 式 のファイルが 出 力 される 3. 文 書 - 連 続 部 分 系 列 行 列 以 下 では 文 書 - 部 分 系 列 行 列 の 展 開 方 法 について 説 明 する Search Conditions パネルに [Tag Search/Tag 検 索 ] タブを 選 択 し 以 下 の 図 のように 2 形 態 素 に 対 して 何 も 指 定 しない 検 索 式 を 指 定 することにより bigram 特 徴 量 空 間 を 考 慮 した 文 書 - 部 分 系 列 行 列 が 展 開 できる 1 列 目 から 9 列 目 までが 前 件 の 形 態 論 情 報 で 10 列 目 から 18 列 目 が 後 件 の 形 態 論 情 報 であ る 19 列 目 以 降 に 頻 度 情 報 が 格 納 される 260
trigram 以 上 の 特 徴 量 空 間 を 規 定 するためには 以 下 のように 形 態 素 の box を 増 やせばよい 係 り 受 け 解 析 結 果 を 格 納 することにより 文 節 境 界 の 情 報 がデータベースに 格 納 される [Dependency Search/Dependency 検 索 ] 機 能 を 用 いることにより 文 節 を 越 えない 部 分 系 列 の みを 展 開 することができる 以 下 の 図 は 文 節 内 bigram のみを 特 徴 量 とした 文 書 - 部 分 系 列 行 列 を 展 開 するための 式 である 内 側 の 形 態 素 の boxes 間 に - を 入 れることにより 2 形 態 素 が 隣 接 していることを 表 している 4. 文 書 - 非 連 続 部 分 系 列 行 列 作 成 時 の 重 複 枚 挙 の 問 題 4.1 連 続 部 分 系 列 と 非 連 続 部 分 系 列 前 節 では 連 続 部 分 系 列 (n-gram) を 特 徴 量 空 間 にした 場 合 の 文 書 - 部 分 系 列 行 列 を 展 開 す る 方 法 を 述 べた 本 節 では 非 連 続 部 分 系 列 (p-mer) を 特 徴 量 空 間 にした 場 合 の 文 書 - 部 分 系 列 行 列 の 展 開 する 方 法 と 注 意 点 について 述 べる 非 連 続 部 分 系 列 (p-mer) とは 連 続 していないとびとびの 部 分 列 のことである 特 に 言 及 し ない 場 合 非 連 続 部 分 系 列 (p-mer) は 連 続 部 分 系 列 (n-gram) を 含 むものとする n-gram とは 系 列 に 対 する 長 さ n の 連 続 部 分 列 (substring) のことをいい,p-mer とは 系 列 に 対 する 長 さ p の 部 分 列 (subsequence) のことをいう 例 えば ABCDE という 系 列 に 対 して,3-gram は ABC, BCD, CDE の 3 種 類 あり, 3-mer は ABC, AB/D, AB/E, A/CD, A/C/E, A/DE, BCD, BC/E, B/DE, CDE の 10 種 類 あり,それぞれ 頻 度 は 1 である p-mer の / は,そこにギャップがあることを 意 味 している 文 全 体 にわたって 非 連 続 部 分 系 列 を 枚 挙 する 方 法 として 系 列 パターンマイニングアルゴ リズム (Pei et al. (2001)) が 知 られている ChaKi.NET には 検 索 した 文 に 対 して 頻 出 系 列 パ ターンを 枚 挙 する 機 能 が 実 装 されている 261
4.2 既 存 の 非 連 続 部 分 系 列 枚 挙 機 能 1 文 書 に 対 する 非 連 続 部 分 系 列 枚 挙 機 能 は 以 前 から ChaKi.NET に 実 装 されている [Search Condition] パネルから [Collocation/コロケーション] タブを 選 択 し [Type of Statistics] に "Frequent Sequence Mining"を 選 択 することによって 頻 出 系 列 パターンの 枚 挙 が 行 われる 以 下 の 例 では 最 小 頻 度 3 最 小 系 列 長 3 最 大 ギャップ 長 最 大 ギャップ 数 ストップワードを として 表 層 形 により 枚 挙 する 場 合 の 検 索 式 である この 手 法 では 1 文 書 毎 に 同 じ 作 業 を 行 う 必 要 がある 4.3 Wordlist 機 能 を 用 いた 非 連 続 部 分 系 列 枚 挙 以 下 Wordlist 機 能 を 用 いて 非 連 続 部 分 系 列 を 枚 挙 する 方 法 について 述 べる [Tag Search/Tag 検 索 ] では 形 態 素 の box の 上 についている index により 形 態 素 の 隣 接 性 を 規 定 することができる 以 下 の 例 は Windows サイズ 4 までの 隣 接 形 態 素 の 2-mer を 展 開 する 検 索 式 である Window サイズ n を 広 げると 各 形 態 素 位 置 に 対 して n C p の 組 合 せが 展 開 されるので 注 意 す ること Window サイズを 制 限 する 他 の 方 法 として 文 節 境 界 により p-mer の 枚 挙 を 制 限 する 方 法 が ある [Dependency Search/Dependency 検 索 ] で 以 下 の 検 索 式 を 指 定 すると 文 節 内 2-mer を 枚 挙 する 2 形 態 素 boxes 間 の <は 形 態 素 の 順 序 を 規 定 する この 記 号 がない 場 合 は 逆 順 に ついても 枚 挙 してしまうので 注 意 すること 262
5. 文 書 - 部 分 木 行 列 係 り 受 け 部 分 木 を 特 徴 量 空 間 にする 場 合 [Dependency Search/Dependency 検 索 ] を 用 いて Wordlist 機 能 を 用 いればよい 以 下 の 例 では 動 詞 - 自 立 に 係 る 名 詞 を 枚 挙 する しかし 文 節 内 の 形 態 素 の 位 置 を 規 定 していないため 1 文 節 内 に 複 数 の 名 詞 が 存 在 する 場 合 には それぞれ 別 のものとして 枚 挙 される 残 念 ながら 文 節 内 の 形 態 素 位 置 については 先 頭 位 置 か 末 尾 位 置 しか 指 定 することができな い 以 下 の 例 は 各 文 節 内 形 態 素 の 出 現 位 置 を 先 頭 位 置 にしたもの( 左 図 )と 末 尾 位 置 にしたも の( 右 図 )である 6. おわりに 本 発 表 では コーパスコンコーダンサ ChaKi.NET の 文 書 - 部 分 構 造 行 列 出 力 機 能 につい て 紹 介 した ChaKi.NET は 他 にも 様 々な 機 能 がある ( 浅 原 森 田 (2013, 2014, 2015)) ので 組 み 263
合 わせて 利 用 されたい 謝 辞 本 研 究 の 一 部 は 科 研 費 基 盤 (B) 言 語 コーパスに 対 する 読 文 時 間 付 与 とその 利 用 (25284083) 科 研 費 萌 芽 近 代 語 コーパスに 対 する 統 語 情 報 アノテーション 基 準 策 定 (15K12888) 国 語 研 基 幹 型 共 同 研 究 プロジェクト コーパスアノテーションの 基 礎 研 究 および 国 語 研 超 大 規 模 コーパス 構 築 プロジェクト によるものです 参 考 文 献 Matsumoto, Yuji, Masayuki Asahara, Kiyota Hashimoto, Yukio Tono, Akira Otani, and Toshio Morita (2006). An annotated corpus management tool: Chaki. Proc. of LREC-2006, pp. 1418 1421. Pei, Jian, Jiawei Han, Behzad Mortazavi-Asi, Helen Pinto, Qiming Chen, Umeshwar Dayal, and Mei-Chun Hsu (2001). PrefixSpan: Mining Sequential Patterns Efficiently by Prefix- Projected Pattern Growth. Proceedings of the 17th International Conference on Data Engineering, pp. 215 224. 浅 原 正 幸 加 藤 祥 (2015). 文 体 指 標 を 特 徴 づける 係 り 受 け 部 分 木 の 抽 出 第 8 回 コーパス 日 本 語 学 ワークショップ. 浅 原 正 幸 加 藤 祥 立 花 幸 子 柏 野 和 佳 子 (2014). 文 体 指 標 と 語 彙 の 対 応 分 析 第 6 回 コー パス 日 本 語 学 ワークショップ, pp. 11 20. 浅 原 正 幸 加 藤 祥 立 花 幸 子 柏 野 和 佳 子 (2015). 文 体 指 標 と 語 彙 系 列 の 対 応 分 析 第 7 回 コーパス 日 本 語 学 ワークショップ, pp. 7 16. 浅 原 正 幸 森 田 敏 生 (2013). コーパスコンコーダンサ ChaKi.NET の 連 続 値 データ 型 第 4 回 コーパス 日 本 語 学 ワークショップ, pp. 223 232. 浅 原 正 幸 森 田 敏 生 (2014). コーパスコンコーダンサ ChaKi.NET の 連 続 値 データ 型 (2) 読 み 時 間 の 表 示 第 5 回 コーパス 日 本 語 学 ワークショップ, pp. 39 48. 浅 原 正 幸 森 田 敏 生 (2015). コーパスコンコーダンサ ChaKi.NET のプロジェクト 機 能 第 7 回 コーパス 日 本 語 学 ワークショップ, pp. 103 112. 264