通 時 コーパス 用 中 納 言 : Web ベースの 古 典 語 コンコーダンサー 小 木 曽 智 信 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) 中 村 壮 範 (マンパワージャパン 株 式 会 社 ) Chunagon for the NINJAL Diachronic Corpus: a Web-based Concordancer of Classical Japanese Toshinobu Ogiso (National Institute for Japanese Language and Linguistics) Takenori Nakamura (Manpower Japan Co., Ltd.) 1.はじめに 国 立 国 語 研 究 所 の 共 同 研 究 プロジェクト 通 時 コーパスの 設 計 1 では 日 本 語 の 歴 史 的 資 料 をコーパス 化 するための 研 究 が 行 われている その 一 環 として 先 行 して 整 備 が 進 ん でいる 一 部 のデータを 格 納 した Web アプリケーション 通 時 コーパス 用 中 納 言 の 共 同 研 究 者 向 けの 公 開 を 開 始 した 通 時 コーパス 用 中 納 言 は 現 代 日 本 語 書 き 言 葉 均 衡 コ ーパス ( 以 下 BCCWJ とする)の 公 開 にあたって 開 発 された Web ベースのコンコーダン サー 中 納 言 に 若 干 の 機 能 拡 張 を 行 い 源 氏 物 語 などの 通 時 コーパスの 一 部 のデー タを 格 納 したものである これにより 一 般 の 古 典 研 究 者 にも 使 いやすいインターフェイ スを 用 いて 通 時 コーパスを 利 用 することが 可 能 になった 本 発 表 では 通 時 コーパス 用 中 納 言 と 現 在 利 用 可 能 なデータについて 紹 介 する 2. 通 時 コーパス 用 中 納 言 の 概 要 中 納 言 はコーパスに 付 与 された 形 態 論 情 報 を 用 いて 高 度 な 検 索 を 行 うことが 可 能 な Web アプリケーションである 検 索 条 件 指 定 の 自 由 度 が 高 く 複 数 の 語 を 組 み 合 わせて 詳 細 な 条 件 指 定 を 行 うことができる 検 索 結 果 はキーとなる 語 の 形 態 論 情 報 サンプルの 書 誌 情 報 とともに KWIC 形 式 で 一 覧 表 示 されるほか 表 形 式 のテキストデータとしてダウ ンロードして 利 用 することもできる 今 回 準 備 中 の 通 時 コーパスデータをこのシステムに 格 納 して 利 用 することを 可 能 にし た( 次 ページ 図 1) BCCWJ では 短 単 位 と 長 単 位 の 二 つの 異 なるサイズの 形 態 論 情 報 を 用 いることができたが 通 時 コーパスのデータでは 今 のところ 長 単 位 の 整 備 が 進 ん でいないため 通 時 コーパス 用 中 納 言 では 短 単 位 だけが 利 用 可 能 となっている 通 時 コーパス 用 中 納 言 では 上 記 中 納 言 の 機 能 に 加 えて BCCWJ にはなかったテ キストに 関 する 情 報 が 利 用 できるようになっている 一 つは 本 文 種 別 と 呼 んでいる 情 報 で 小 学 館 新 編 古 典 文 学 全 集 に 付 けられている 情 報 を 元 に 会 話 手 紙 歌 詞 書 とそれ 以 外 ( 地 の 文 )の 別 が 個 々の 語 について 付 与 されている さらに 話 者 情 報 と して 会 話 についてはその 話 者 手 紙 については 書 き 手 歌 については 歌 番 号 な どの 情 報 が 付 与 されている togiso@ninjal.ac.jp 1 http://historicalcorpus.jp 109
図 1 通 時 コーパス 用 中 納 言 検 索 実 行 画 面 3. 収 録 データ 現 在 通 時 コーパス 用 中 納 言 に 格 納 され 利 用 可 能 になっているデータは 表 1 に 示 し た 13 作 品 約 87 万 語 である これらの 作 品 は 後 述 する 中 古 和 文 UniDic による 自 動 形 態 素 解 析 結 果 をもとに すべて 一 度 は 人 手 による 修 正 チェックを 経 たものである(た だし 一 部 データの 抜 き 取 り 調 査 によると 現 時 点 での 精 度 はおおむね 98% 程 度 であると 思 われる) 国 語 研 究 所 の 通 時 コーパスは 現 在 のところ 設 計 の 途 上 であり ごく 一 部 のデータ が 作 成 されているに 過 ぎない それでも 源 氏 物 語 をはじめとする 中 古 の 主 要 な 古 典 文 学 作 品 をカバーしている このうち 竹 取 物 語 伊 勢 物 語 土 佐 日 記 大 和 物 語 枕 草 子 源 氏 物 語 の 6 作 品 は 小 学 館 の 新 編 日 本 古 典 文 学 全 集 に 基 づくデータであり 最 終 的 な 通 時 コーパスにも 同 じテキストが 用 いられる 予 定 である 残 る 7 作 品 は 入 手 しやすいデータをもとに 形 態 素 解 析 の 学 習 用 データとしたものや 研 究 試 験 用 に 作 成 したものであり 参 考 データに とどまる 110
表 1 収 録 データ(2012 年 6 月 30 日 現 在 ) 作 品 名 語 数 ( 短 単 位 ) 備 考 竹 取 物 語 12583 小 学 館 新 編 日 本 古 典 文 学 全 伊 勢 物 語 15900 集 土 佐 日 記 8113 大 和 物 語 26733 枕 草 子 79879 源 氏 物 語 510714 古 今 仮 名 序 3107 その 他 紫 式 部 日 記 20346 大 鏡 82796 更 級 日 記 16652 方 丈 記 4191 徒 然 草 41675 恋 路 ゆかしき 大 将 44819 計 867508 ( 中 古 和 文 UniDic 学 習 用 デ ータ) 4. 形 態 論 情 報 通 時 コーパスのデータは BCCWJ と 同 様 に 形 態 素 解 析 技 術 を 用 いて 全 ての 本 文 テキス トに 単 語 の 切 れ 目 読 み 品 詞 活 用 などの 形 態 論 情 報 を 付 与 している 形 態 素 解 析 のた めの 辞 書 は BCCWJ の 構 築 に 用 いられた UniDic をもとに 中 古 和 文 を 解 析 できるよ うに 語 彙 を 増 補 しパラメータを 調 整 した 中 古 和 文 UniDic を 用 いている 中 古 和 文 UniDic は 未 知 語 のないテキストであればおおむね 96~97% 程 度 の 精 度 で 解 析 を 行 うこ とが 可 能 になっている 2 中 古 和 文 UniDic が 付 与 する 形 態 論 情 報 は BCCWJ と 同 様 の 短 単 位 を 採 用 し 中 古 語 であっても 現 代 語 とできるかぎり 基 準 を 揃 え 相 互 に 比 較 することができるように 配 慮 したものである ただし 語 の 歴 史 的 変 化 や 中 古 語 の 実 態 を 踏 まえ 時 代 別 に 異 なっ た 扱 いをしている 語 も 少 なくない たとえば 現 代 語 では 連 体 詞 とされる この その が 中 古 語 では 代 名 詞 こ そ と 格 助 詞 の に 分 けて 数 えられている この 中 古 和 文 用 の 短 単 位 の 規 定 は 小 椋 須 永 (2012)にまとめられている 3 通 時 コーパス 用 中 納 言 を 用 いて 中 古 語 の 検 索 をする 場 合 には この 短 単 位 の 規 定 に ついて 理 解 をしておく 必 要 がある 5. 検 索 方 法 中 納 言 に 格 納 されているデータは 形 態 論 情 報 が 付 与 されているため 表 層 の 文 字 列 だけでなく 形 態 論 情 報 を 利 用 することで 高 度 な 検 索 条 件 の 指 定 を 行 うことができる た とえば 語 彙 素 給 う ( 終 止 形 )を 指 定 することで 給 う 給 は 給 ひ 給 ふ など の 各 活 用 形 を 一 括 で 検 索 することが 可 能 である また UniDic の 見 出 し 語 の 階 層 構 造 によ り 見 出 し 語 を 語 彙 素 で 指 定 すれば その 異 表 記 を 一 括 検 索 することができる したがっ て 漢 字 表 記 と 仮 名 表 記 の 違 い 異 体 字 や 送 り 仮 名 の 揺 れなどを 一 々 意 識 することなく 検 索 できる 2 中 古 和 文 UniDic は 次 のサイトで 報 告 書 PDF と 共 に 一 般 公 開 している( 無 償 ) http://www2.ninjal.ac.jp/lrc/index.php?unidic 3 中 古 和 文 UniDic 短 単 位 規 程 集 の PDF ファイルも 上 記 ウェブサイトで 一 般 公 開 している 111
5.1 検 索 条 件 の 指 定 具 体 的 には 形 態 論 情 報 を 使 った 検 索 では 次 のコントロールで 検 索 条 件 を 設 定 する 選 択 で 条 件 指 定 する 属 性 ( 語 彙 素 出 現 書 字 形 など)を 選 び 右 の 空 欄 でその 中 身 を 指 定 する 短 単 位 の 条 件 の 追 加 ボタンで 一 つの 単 位 について 詳 細 な 条 件 指 定 を 追 加 できる 次 の 例 では 語 彙 素 が 読 む でかつ 活 用 形 が 連 体 形 の 例 を 検 索 している ( 活 用 形 など 選 択 肢 が 決 まっているものはドロップダウンメニューから 選 択 する) さらに 複 数 の 単 位 を 組 み 合 わせて 指 定 することもできる 前 方 共 起 条 件 の 追 加 ボタ ンでキーの 前 方 に 出 現 する 単 位 を 指 定 後 方 共 起 条 件 の 追 加 ボタンでキーの 後 方 に 出 現 する 単 位 を 指 定 する 共 起 条 件 は 前 方 後 方 合 わせて 最 大 10 個 まで 追 加 できる 共 起 位 置 は キーから または 文 頭 から を 基 準 として n 語 または n 語 以 内 のように 細 かく 指 定 する 事 ができる 次 の 例 は 美 しい の 連 体 形 の 直 後 ( 後 方 1 語 ) に 来 る 名 詞 を 検 索 したものである 中 納 言 では 形 態 論 情 報 を 使 った 検 索 以 外 に 文 字 列 検 索 によって 表 層 の 文 字 列 にもとづく 検 索 を 行 うこともできる この 場 合 にも 検 索 結 果 は 形 態 論 情 報 付 きで 表 示 さ れるため 調 査 したい 語 にどのような 形 態 論 情 報 が 付 与 されているか 分 からない 場 合 には いったん 文 字 列 検 索 で 形 態 論 情 報 を 確 認 すると 便 利 である なお このようにして 画 面 上 で 指 定 した 検 索 条 件 は システムが 解 釈 できる 検 索 条 件 式 に 変 換 されたのち 検 索 が 実 行 される この 検 索 条 件 式 は 検 索 履 歴 として 自 動 的 で サーバー 上 に 記 録 されるほか 画 面 上 で 編 集 をして 再 検 索 に 利 用 することが 可 能 になって いる たとえば 上 記 の 前 方 共 起 1 を 利 用 した 検 索 例 は 次 の 検 索 条 件 式 で 表 される キー: 品 詞 LIKE " 名 詞 %" AND 前 方 共 起 : ( 語 彙 素 = " 美 しい" AND 活 用 形 LIKE " 連 体 形 %") ON 1 WORDS FROM キー IN core="true" OR core="false" WITH OPTIONS unit="1" AND tglwords="20" AND tglkugiri=" " AND tglfixvariable="2" この 条 件 式 を 控 えておくことにより 中 納 言 のユーザーであれば 全 く 同 じ 検 索 を 再 現 す ることができる 112
5.2 検 索 実 行 とダウンロード 検 索 の 実 行 には 画 面 上 の 検 索 ボタンをクリックする これにより, 画 面 下 部 に 図 2 のような 検 索 結 果 が 表 示 される ただし 画 面 上 に 表 示 される 用 例 数 は 500 例 までとなっ ている これ 以 上 の 用 例 を 確 認 する 場 合 には 結 果 をダウンロードする 必 要 がある 図 2 検 索 結 果 の 表 示 この 検 索 結 果 の 各 列 は 列 の 表 示 のチェックボックスにより 表 示 の ON/OFF を 切 り 替 えることができる 検 索 結 果 のサンプル ID をクリックすることにより 当 該 位 置 周 辺 ( 前 後 30 単 位 )に 付 けられている 形 態 論 情 報 を 確 認 することができる( 図 3) 図 3 キー 周 辺 の 形 態 論 情 報 の 表 示 検 索 ボタンの 代 わりに 検 索 結 果 をダウンロード ボタンをクリックすることによ って 検 索 結 果 と 検 索 条 件 式 をテキストデータとしてダウンロードすることができる デ ータは zip 圧 縮 されており アーカイブ 中 のファイル kwic.txt が 検 索 結 果 のデータ(タブ 区 切 りの 表 形 式 テキスト 文 字 コードは UTF-8) summary.txt が 検 索 条 件 式 のデータとな っている 113
6. 検 索 例 検 索 例 として 完 了 の 助 動 詞 つ ぬ に 上 接 する 動 詞 のリストを 検 索 する 例 を 示 す( 図 4) ここでは 助 動 詞 の 前 方 2 語 以 内 に 来 る 動 詞 をキーとして 検 索 結 果 を 取 得 している 図 4 助 動 詞 つ の 上 接 動 詞 の 検 索 条 件 指 定 この 条 件 での 検 索 結 果 の 表 示 は 図 5 のようになる 図 5 助 動 詞 つ の 上 接 動 詞 の 検 索 結 果 上 記 の 画 面 は つ の 上 接 動 詞 を 検 索 するものだが 検 索 条 件 式 中 で 括 弧 と OR 演 算 子 を 用 いることで 二 つの 助 動 詞 を 一 度 に 検 索 するようにすることもできる キー: 品 詞 LIKE " 動 詞 %" AND 後 方 共 起 : (( 語 彙 素 = "つ" OR 語 彙 素 = "ぬ" ) AND 品 詞 LIKE " 助 動 詞 %") WITHIN 2 WORDS FROM キー IN core="true" OR core="false" WITH OPTIONS unit="1" AND tglwords="20" AND tglkugiri=" " AND tglfixvariable="2" 6.1 検 索 結 果 の 集 計 このような 検 索 によって 取 得 したデータをダウンロードすることで アプリケーション に 読 み 込 んでさまざまな 処 理 を 施 し 集 計 やデータの 分 析 に 利 用 することができる たと えば Microsoft Excel のピボットテーブル 機 能 を 利 用 することで 高 度 な 集 計 処 理 を 容 易 に 実 現 することができる 図 6 は 上 記 の 条 件 で 検 索 した 助 動 詞 つ と ぬ の 上 接 動 詞 のリストを Excel に 読 み 込 んで 助 動 詞 の 情 報 を 加 えたものである 114
図 6 助 動 詞 つ の 上 接 動 詞 の 検 索 結 果 ( 一 部 ) このデータをピボットテーブルで 集 計 することで 助 動 詞 別 に 高 頻 度 な 上 接 動 詞 をリスト アップすることができる( 図 7) 図 7 助 動 詞 つ ぬ の 高 頻 度 の 上 接 動 詞 ( 一 部 ) 115
7.おわりに 検 索 例 で 見 たように 従 来 であれば 大 変 な 労 力 と 時 間 を 要 していた 検 索 集 計 作 業 を 極 めて 簡 単 に 行 うことが 可 能 になった また 従 来 では 不 可 能 であった 高 度 な 組 み 合 わせ 検 索 が 可 能 になった 今 後 通 時 コーパス 用 中 納 言 を 用 いて 単 に 研 究 を 省 力 化 する だけでなく これまで 不 可 能 であった 新 次 元 の 古 典 語 研 究 がなされ 有 益 な 研 究 成 果 が 生 み 出 されることに 期 待 したい 現 在 通 時 コーパス 用 中 納 言 の 公 開 範 囲 は 共 同 研 究 者 の 一 部 に 限 定 しているが 今 後 は 公 開 範 囲 を 拡 大 していく 予 定 である 文 献 小 木 曽 智 信 中 村 壮 範 鈴 木 泰 山 八 木 豊 山 崎 誠 前 川 喜 久 雄 (2011) コーパス 検 索 シス テム 中 納 言 デモンストレーション 日 本 語 コーパス 完 成 記 念 講 演 会 予 稿 集 pp.43-46 小 木 曽 智 信 ほか(2012) 和 文 系 資 料 を 対 象 とした 形 態 素 解 析 辞 書 の 開 発 科 研 費 基 盤 研 究 (C) 和 文 系 資 料 を 対 象 とした 形 態 素 解 析 辞 書 の 開 発 ( 課 題 番 号 21520492) 研 究 成 果 報 告 書 (http://dl.dropbox.com/u/73297026/report/unidic-emj_report2012.pdf からダウン ロード 可 能 ) 小 椋 秀 樹 須 永 哲 矢 (2012) 中 古 和 文 UniDic 短 単 位 規 程 集 科 研 費 基 盤 研 究 (C) 和 文 系 資 料 を 対 象 とした 形 態 素 解 析 辞 書 の 開 発 ( 課 題 番 号 21520492) 研 究 成 果 報 告 書 2 (http://dl.dropbox.com/u/73297026/report/unidic-emj_rulebook2012.pdf からダウン ロード 可 能 ) Toshinobu Ogiso, Mamoru Komachi, Yasuharu Den and Yuji Matsumoto. (2012) UniDic for Early Middle Japanese: a Dictionary for Morphological Analysis of Classical Japanese. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC), pp.911-915. Istanbul, May 2012.(http://www.lrec-conf.org/proceedings/lrec2012/pdf/906_Paper.pdf からダウンロード 可 能 ) 関 連 URL コーパス 検 索 アプリケーション 中 納 言 (BCCWJ) http://chunagon.ninjal.ac.jp/ NINJAL 通 時 コーパスプロジェクト ホームページ http://www.historicalcorpus.jp/ 中 古 和 文 UniDic http://www2.ninjal.ac.jp/lrc/index.php?unidic 116