鈔 本 木 版 本 からの OCR テキストファイルの 整 理 と 加 工 笠 井 直 美 1. 作 成 の 經 緯 と 目 的 近 年 中 國 古 典 文 學 の 分 野 でも 電 子 テキスト 化 が 進 み 主 要 な 作 品 については 槪 ね 電 子 テキストが 入 手 できるようになった しかし 一 般 の 鑑 賞 向 けに 供 給 されている 無 料 または 安 價 なものは 學 術 的 な 使 用 に 耐 えうる 水 準 でないことが 多 く 專 門 家 の 關 與 した 水 準 の 高 いデータベースは 可 塑 性 のあるテキストファイルの 形 ではなく 高 度 な 操 作 が 施 せない 形 態 で 供 給 されている 等 問 題 も 多 いこと この 分 野 で 最 も 不 足 しているの は 實 はごく 基 礎 的 なもの 廣 く 硏 究 者 に 開 放 されている 信 賴 できるプレインテキ スト であると 考 えられる 1 信 賴 のおけるプレインテキストが 十 分 でない 狀 況 下 では 初 步 的 な 檢 索 に 基 づいた 分 析 さえも 正 確 は 期 しがたく 形 態 素 解 析 を 初 めとする 標 識 付 けのためのプログラムや 計 量 分 析 のためのプログラムも 效 果 を 發 揮 することができない また 白 話 文 學 において 特 に 留 意 すべき 點 として 排 印 本 を 出 版 する 際 に 行 われる 專 門 家 によるクラシカルな 方 針 の 校 訂 では 硏 究 上 重 要 な 情 報 が 消 し 去 られてしま うことが 擧 げられる 例 えば 木 版 本 や 鈔 本 で 使 用 されている 假 借 字 通 用 字 俗 字 異 體 字 などは 刊 行 地 域 や 刊 行 年 代 鈔 寫 年 代 などを 推 測 する 重 要 な 手 がかりになりう るが 2 從 來 の 校 訂 では 校 訂 者 が 正 しい 規 範 的 と 考 える 文 字 に 統 一 されて しまうのが 普 通 であった また 現 在 普 及 している 物 語 とは 小 異 のある 設 定 や 異 なる エピソードの 痕 跡 を 示 す 語 句 は 物 語 の 演 變 傳 播 を 檢 討 する 上 では 貴 重 な 情 報 だが こうした 部 分 をわざわざ 後 世 普 及 したバージョンに 沿 う 形 で 校 訂 しているケース も 見 られる 從 って 硏 究 上 の 目 的 によっては 一 般 讀 者 の 鑑 賞 の 便 を 考 えて 校 訂 された 排 印 本 で はなく 木 版 本 や 鈔 本 を 基 にした できるだけ 生 のデータが 殘 されている 電 子 テキ ストも 必 要 と 考 えられる 本 プロジェクトでは こうした 觀 點 から 試 行 的 に 木 版 本 や 鈔 本 を 基 にした できるだけ 生 に 近 いデータを 殘 した 電 子 テキスト の 作 成 公 開 を 行 うことにした 3 1 詳 しくは 笠 井 直 美 中 國 近 世 白 話 文 學 の 電 子 化 の 現 況 ( 雜 劇 篇 ) ( 名 古 屋 大 學 中 國 語 學 文 學 論 集 第 18 輯 2006 年 3 月 名 古 屋 大 學 中 國 語 學 文 學 會 pp.85-104) 及 び 中 國 近 世 白 話 文 學 の 電 子 化 の 現 況 及 び 學 術 利 用 に 有 效 なコーパスの 設 計 に 關 する 調 查 ( 科 學 硏 究 費 補 助 金 硏 究 成 果 報 告 書 2006 年 3 月 ) 特 にその 序 を 參 照 2 例 えば 佐 藤 晴 彥 國 家 圖 書 館 藏 水 滸 傳 殘 卷 について ( 日 本 中 國 學 會 報 第 57 集 2005 年 pp.256-268) 等 3 本 プロジェクトの 成 果 物 は ウェブサイト 中 國 白 話 文 學 の 電 子 化 情 報 63
なお 異 體 字 俗 字 等 をそのまま 殘 した 場 合 電 子 テキストの 利 點 である 檢 索 の 上 での 利 便 が 損 なわれるという 問 題 が 存 在 する これについては 將 來 的 には 公 開 されておりユーザー 自 身 によるカスタマイズが 可 能 な 異 體 字 同 一 視 テーブルを 組 み 込 んだ 檢 索 システムを 開 發 し それを 利 用 して 檢 索 を 行 うことで 解 決 するのが 適 切 と 考 える 4 本 プロジェクトでは 檢 索 システムの 開 發 は 行 っていないが 將 來 的 にそうしたシステムで 利 用 することを 前 提 に 電 子 テキストの 作 成 整 理 を 行 った 現 段 階 では 正 規 表 現 を 使 ったgrep 檢 索 が 可 能 なテキストエディタ 5 で 檢 索 をすることで 上 記 の 不 便 をある 程 度 解 消 することができる( 後 述 ) 2. 脈 望 館 鈔 校 本 古 今 雜 劇 OCRテキストファイルの 整 理 加 工 底 本 は 古 本 戲 曲 叢 刊 第 四 集 所 收 影 印 本 ( 底 本 は 中 國 國 家 圖 書 館 ( 舊 北 京 圖 書 館 ) 藏 本 ) である 底 本 (のコピー)を 凱 希 メディアサービスを 通 じて 北 京 書 同 文 數 字 化 技 術 公 司 に OCR 外 注 し 納 品 されたテキストファイルを 整 理 加 工 した 各 バージョンの 槪 要 及 び 作 業 手 順 は 以 下 の 通 り 2-1.OCR 版 1: 書 同 文 公 司 が 納 品 したテキストファイル 底 本 の 1 作 品 を 1 ファイルとしたテキストファイル(Uniocde UTF-16LE) 黑 旋 風 雙 獻 功 雜 劇 については 當 初 OCR を 依 賴 する 際 に 漏 れていた 部 分 ( 第 8 葉 裏 第 9 葉 表 )があり その 部 分 は 缺 けている 文 中 の 改 行 箇 所 はそのまま 再 現 されている OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 については 槪 ね "?" ( 全 角 )で 示 されている 曲 牌 名 は 槪 ね" " ト 書 き 部 分 は 槪 ね"( )"( 全 角 括 弧 )で 圍 ってある ただ し ファイルによっては 曲 牌 名 のマークアップを 行 っていないものもある Unicode における 以 下 の 文 字 ブロックが 使 用 されている * CJK 統 合 漢 字 (U+4E00~U+9FFF) * CJK 統 合 漢 字 擴 張 A 集 合 (U+3400~U+4DBF) * CJK 互 換 漢 字 (U+F900~U+FAFF):" 﨣 " 凉 "" 兀 " 等 が 使 用 されている * 私 用 領 域 (U+E000~U+F8FF): 多 數 使 用 されている 電 子 版 四 部 叢 刊 四 庫 全 書 等 で 使 用 されている HT_CJK+フォントで 表 示 すれば 底 本 に 近 いグリフとな http://dicom3.gsid.nagoya-u.ac.jp/bhwiki/ で 公 開 している 4 異 體 字 同 一 視 テーブルを 組 み 込 んだ 檢 索 システムそのものは 多 くの 業 者 が 開 發 して いるが 中 身 がブラックボックスとなっており 實 際 に システムがどの 文 字 (コード ポイント)とどの 文 字 を 同 時 に 檢 索 しているか ユーザーにはわからないようになって いることがほとんどである これでは ( 特 に 量 的 な 分 析 をしようとする 場 合 には) 結 果 の 妥 當 性 を 檢 證 することができず 硏 究 にそのまま 利 用 するのは 危 險 である 5 筆 者 は EmEditor( http://jp.emeditor.com/ )を 使 用 している 64
る * その 他 : 半 角 空 白 (U+0020) 全 角 空 白 (U+3000) "?" ( 全 角 ) " " "( ) "( 全 角 括 弧 ) 改 行 コード 2-2.OCR 版 2:OCR 版 1 に 以 下 の 變 更 を 行 ったもの ファイル 名 を 變 更 し エンコーディングスキームをUnicode UTF-8(BOM 無 し)に 變 更 した 6 黑 旋 風 雙 獻 功 雜 劇 の 依 賴 漏 れ 部 分 ( 第 8 葉 裏 第 9 葉 表 )を 別 途 OCR して 該 當 箇 所 に 插 入 した この 箇 所 では 曲 牌 名 は "[ ]" ト 書 き 部 分 は"( )"( 半 角 括 弧 ) で 圍 ってあり CJK 統 合 漢 字 擴 張 B 集 合 (U+20000~U+2A6DF)の 文 字 も 一 部 使 用 さ れている 2-3. 原 貌 版 :OCR 版 2 を 異 體 字 を 含 め できるだけ 底 本 に 近 くなるよう 修 正 し たもの 以 下 の 手 順 で 變 更 を 行 った 簡 單 な perl script を 使 用 して 半 葉 每 に 空 行 と 番 號 ( 第 一 葉 表 であれば "#01a" 第 二 葉 裏 であれば"#02b"とする 方 式 )を 插 入 簡 單 な perl script を 使 用 して ASCII 文 字 CJK 統 合 漢 字 "( )"" ""?"(い ずれも 全 角 ) 全 角 空 白 を 除 いた 文 字 を 抽 出 し コードポイントと 共 に 出 力 したファ イルを 作 成 し( 主 として CJK 統 合 漢 字 擴 張 A 集 合 私 用 領 域 の 文 字 が 抽 出 される) 置 換 校 訂 の 必 要 な 文 字 を 確 認 する 半 角 空 白 は 削 除 紛 れやすい 記 號 ( 例 えば 半 角 括 弧 )を 置 換 して 統 一 する 本 プロジェクトで 作 成 した HT_CJK+フォントのPrivate Use Area で 表 現 されている グリフとUnicode ( 主 としてCJK Unified Ideographs Extension B)で 定 義 されている 文 字 との 對 應 表 7 を 組 み 込 んだ 簡 單 なperl scriptを 使 用 して HT_CJK+フォントが 無 い と 適 切 に 表 示 できない 私 用 領 域 を 利 用 した 文 字 ( 外 字 )を 字 形 の 近 い 文 字 (CJK 統 合 漢 字 擴 張 B 擴 張 Aなど Unicodeで 定 義 された 文 字 )に 置 換 手 作 業 で 底 本 に 近 くなるよう 修 正 を 行 う ただし 折 數 は" "でくくり ( 漏 れが あれば) 曲 牌 は" "で ト 書 き 部 分 は"( )"でくくる 6 OCR 版 1 のファイル 名 は 業 者 が 適 宜 付 けたものであるが shift_jis に 含 まれない 文 字 が 使 用 されていることがある こうしたファイルを 日 本 語 版 OS 上 で 利 用 すると 例 え ば 壓 縮 する 場 合 プログラムで 處 理 を 行 う 場 合 ウェブサイトに 置 いて 他 の 人 にダウン ロードしてもらう 場 合 などにトラブルが 起 きやすい そこで OS に 關 わらずトラブル の 起 きにくい ASCII 文 字 を 使 用 したファイル 名 に 書 き 換 えた エンコーディングスキー ムは 筆 者 がテキストファイルの 整 理 加 工 に 利 用 した perl での 處 理 がやりやすく ウェブ 上 で 多 言 語 を 扱 う 場 合 に 實 質 的 に 標 準 となりつつある UTF-8 に 變 更 した 7 http://dicom3.gsid.nagoya-u.ac.jp/bhwiki/ の 異 體 字 のページよりダ ウンロード 可 能 65
底 本 にある 文 字 で CJK 統 合 漢 字 擴 張 C 集 合 までの 範 圍 に 相 當 する 文 字 (グリフ) が 見 つからなかった 箇 所 は やむを 得 ず" "にしてある これらを ISO/IEC 10646-1:2000 の IDS(Ideo- graphic Description Sequence) 形 式 で 示 せば 以 下 の 通 り である 8 利 用 目 的 と 方 法 によっては テキストにこちらを 埋 め 込 む 選 擇 肢 も 考 えら れる * 同 樂 院 燕 靑 博 魚 31b10 行 目 : 禾 丷 口 * 大 婦 小 妻 還 牢 末 2a10 行 目 : 人 匕 * 魯 智 深 喜 賞 黃 花 峪 14b4 行 目 15b7 行 目 : 扌 鮑 * 魯 智 深 喜 賞 黃 花 峪 15b6 行 目 : 遷 * 魯 智 深 喜 賞 黃 花 峪 25a3 行 目 : 扌 敵 底 本 は 槪 ね 量 の 差 はあれ 增 補 削 除 や 修 正 の 痕 跡 がある 增 補 削 除 修 正 が ど のような 狀 況 で 行 われたかについては 鈔 寫 を 行 った 人 物 が 自 身 で 誤 りに 氣 づいて 修 正 した 趙 琦 美 が 校 訂 した 趙 琦 美 の 後 にこの 鈔 本 を 所 有 した 人 物 が 書 き 入 れた な ど 複 數 の 可 能 性 があり 一 つの 作 品 に 複 數 人 が 書 き 入 れていることもあり 得 るが 影 印 本 からそれを( 完 全 に) 判 定 することは 困 難 である 一 般 論 的 には 修 正 後 の 文 字 を 採 用 すればいいようにも 思 われるが 脈 望 館 鈔 校 本 に 加 えられた 修 正 の 中 には 晁 蓋 哥 哥 因 三 打 祝 家 庄 身 亡 を 晁 蓋 哥 哥 因 打 曾 頭 市 身 亡 に 變 更 ( 黑 旋 風 仗 義 疎 財 頭 折 ) のように 物 語 の 演 變 や 傳 播 を 考 察 する 上 で 重 要 な 情 報 となる 修 正 もあるので 修 正 前 と 修 正 後 ( 嚴 密 には 最 終 修 正 後 )の 二 種 の 狀 況 がわかるよう 修 正 前 の 字 句 削 除 された 字 句 を" "で 修 正 後 の 字 句 增 補 された 字 句 を" "でくくることにした ファイル 名 が "*_o.txt" となってい るテキストはこの 狀 態 のものである 底 本 において 增 補 削 除 修 正 などの 痕 跡 が 非 常 に 多 い 作 品 については 修 正 前 の 狀 況 を 示 したバージョンと 修 正 後 の 狀 況 を 示 したバージョンとを 公 開 することとした "*_o.txt" のファイルから 內 の 文 字 列 ( 及 び )を 削 除 したものが 修 正 前 の 狀 況 を 示 したバージョンとなる これはファイル 名 を "*_o1.txt" とする "*_o.txt" のファイルから 內 の 文 字 列 ( 及 び )を 削 除 したものが 修 正 後 の 狀 況 を 示 したバージョンとなる これが 原 貌 版 2 で ファイル 名 を "*_o2.txt" とす る 2-4. 斷 句 版 1: 原 貌 版 1 に 最 低 限 の 修 正 と 標 點 符 號 を 加 えたもの 原 貌 版 で 檢 索 を 行 う 場 合 上 述 の 通 用 字 異 體 字 等 の 問 題 のほか 改 行 コード 及 び 句 讀 點 に 關 わる 問 題 がある 底 本 と 同 樣 の 改 行 を 再 現 している 原 貌 版 で ある 漢 字 二 8 例 えば " 扌 鮑 "であれば てへんに 鮑 一 字 を 表 す CHISE / 漢 字 構 造 情 報 データベース http://kanji.zinbun.kyoto-u.ac.jp/projects/chise/ids/ の 提 示 はイメージがつかみやすく 參 考 になる 66
字 の 熟 語 ( 假 に"AB"とする)を 檢 索 する 場 合 "AB"の 間 に 改 行 コードが 入 っている 可 能 性 を 考 慮 しなくてはならない 9 また 句 讀 點 のあるテキストを 檢 索 する 場 合 には A B という 箇 所 は( 探 そうとしている 熟 語 ではなく) 檢 出 しないが 句 讀 點 の 無 い 原 貌 版 では このような 箇 所 も 檢 出 してしまう 熟 語 "AB"が 頻 度 の 高 い 熟 語 である 場 合 には これはかなり 不 便 である こうした 狀 況 では 句 讀 點 を 施 し たテキストの 方 が 便 利 と 考 えられる 斷 句 版 は 原 則 として 原 貌 版 1( 修 正 前 の 狀 況 を 表 すテキスト)を 基 にし 以 下 の 作 業 を 行 った 葉 數 を 示 す 數 字 と 半 葉 ごとの 空 行 改 行 は 削 除 する 手 作 業 で 標 點 符 號 を 加 え と 最 低 限 の 修 正 を 行 う * 白 の 部 分 については " "" "のみを 用 いる ("?" "!" 括 弧 等 は 用 いない) * 曲 詞 の 部 分 については 鄭 騫 北 曲 新 譜 ( 藝 文 印 書 館 1973 年 ) 赤 松 紀 彥 ほか 編 元 刊 雜 劇 の 硏 究 ( 汲 古 書 院 2007 年 ) 等 を 參 考 に 曲 調 の 格 律 に 沿 った 符 號 を 施 すようにしたので 文 意 上 文 法 上 の 切 れ 目 とは 必 ずしも 合 致 しない 押 韻 箇 所 は " "で 韻 を 踏 まない 句 切 れの 箇 所 は " "で 句 中 藏 韻 は" "で 示 した 10 * 明 らかに 誤 りと 推 定 できる 箇 所 のみ 修 正 を 行 った 修 正 削 除 されるべき 字 句 を " "で 修 正 後 の 字 句 增 補 されるべき 字 句 を" "でくくって 示 す 底 本 に 見 られる 修 正 が 適 切 ( 修 正 前 の 狀 況 が 明 らかに 誤 り)と 思 われる 場 合 は それを 採 用 するが 通 用 字 を 正 字 (と 修 正 した 人 物 が 考 えていると 思 われる 文 字 ) に 修 正 しているような 箇 所 は 修 正 前 の 狀 況 をそのまま 殘 してある また 上 述 の 晁 蓋 哥 哥 因 三 打 祝 家 庄 身 亡 晁 蓋 哥 哥 因 打 曾 頭 市 身 亡 のような 例 も 修 正 前 の 狀 況 を 殘 してある 原 貌 版 に 含 まれている 異 體 字 通 用 字 等 はそのままである 2-5. 斷 句 版 2: 斷 句 版 1 の 異 體 字 俗 字 等 を 繁 體 字 に 置 換 したもの 上 述 のように 將 來 的 には 斷 句 版 1 を 異 體 字 同 一 視 テーブルを 組 み 込 んだ 檢 索 シ ステムで 檢 索 するの 適 切 と 思 われるが テキストエディタなどで 檢 索 を 行 う 場 合 の 便 の ため ゆるめに 標 準 化 を 行 った 繁 體 字 版 を 作 成 することにした これが 斷 句 版 2 である 斷 句 版 1 の 作 成 過 程 で 同 時 に 異 體 字 表 の 作 成 を 進 める 9 これは 正 規 表 現 を 使 用 した 檢 索 である 程 度 解 決 可 能 ではある 例 えば EmEditor であれば "A[ r n d #ab]*b" の 檢 索 式 で 改 行 ( 及 び 半 葉 每 のページを 示 す 數 字 ) を 跨 いだ 熟 語 を 檢 索 することができる 10 なるべく 曲 譜 に 沿 って 符 號 を 付 すように 努 めたが 曲 譜 とあまり 合 わない 曲 もあり その 場 合 には 一 句 があまりにも 長 くなりすぎないように 文 意 に 沿 って" "を 付 した 箇 所 がある また 感 嘆 詞 呼 びかけなど ト 書 きで 明 示 はされていないがメロディーに 乘 っていないと 思 われる 箇 所 の 後 にも" "を 付 した 67
上 記 の 異 體 字 表 を 組 み 込 んだ 簡 單 な perl script で 簡 體 字 俗 字 異 體 字 等 を 繁 體 字 に 置 換 すると 同 時 に 內 の 文 字 列 ( 及 び )を 削 除 する( 斷 句 版 1 で 修 正 後 にあるべき 文 字 列 のみが 殘 ることになる) 通 用 字 特 に 音 通 によるものは 敢 えて 變 更 せず そのままである(こうした 箇 所 は 正 文 そのものを 變 更 するのではなく 校 注 部 分 で 言 及 するのが 適 切 と 考 えられる) そのほか 校 訂 する 場 合 ( 特 に 一 般 向 けの 出 版 )でなされるような 大 幅 な 修 正 は 敢 えて 行 っていない 3. 西 廂 記 ( 毛 奇 齡 本 )OCRテキストファイルの 整 理 底 本 は 西 廂 記 五 卷 末 一 卷 ( 民 國 16 年 武 進 董 氏 誦 芬 室 石 印 本 )である 底 本 (の コピー)を 凱 希 メディアサービスを 通 じて 北 京 書 同 文 數 字 化 技 術 公 司 に OCR 外 注 し 納 品 されたテキストファイルを 整 理 公 開 した 槪 要 は 以 下 の 通 り 3-1.OCR 版 1: 書 同 文 公 司 より 納 品 されたテキストファイル 底 本 全 體 を 1 ファイルとしたテキストファイル(Unicode UTF-16LE) 文 中 の 改 行 箇 所 はそのまま 再 現 されている 底 本 は 曲 詞 の 部 分 と 科 白 批 評 部 分 とで 字 の 大 きさがやや 異 なっている やや 小 さい 科 白 批 評 部 分 は"( )"( 半 角 括 弧 )で 圍 んである 小 字 雙 行 ( 音 註 など)になっている 箇 所 は "(" で 始 めている ")" は 使 用 していない が 行 末 ( 論 理 行 の 行 末 )までが 小 字 雙 行 となる 底 本 で 文 字 を 楕 圓 に 圍 ってある 箇 所 は"[ ]"で 圍 われている OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 は "?" で 示 して ある 底 本 の 傍 點 圈 點 は OCR していない Unicode における 以 下 の 文 字 ブロックが 使 用 されている * CJK 統 合 漢 字 (U+4E00~U+9FFF) * CJK 統 合 漢 字 擴 張 A 集 合 (U+3400~U+4DBF) * CJK 統 合 漢 字 擴 張 B 集 合 (U+20000~U+2A6DF) * 私 用 領 域 (U+E000~U+F8FF):U+E81A が 使 用 されている これは 電 子 版 四 部 叢 刊 四 庫 全 書 等 で 使 用 されている HT_CJK+フォントで 表 示 すれば 底 本 とほぼ 同 じグリフとなる(U+E81A であれば とほぼ 同 じグリフ) * その 他 :"?"(U+003F 半 角 ) "( )"( 半 角 括 弧 U+0028 U+0029) "[ ]"( 全 角 大 括 弧 U+FF3B U+FF3D) 半 角 空 白 (U+0020) 全 角 空 白 (U+3000) 3-2.OCR 版 2:OCR 版 1 に 以 下 の 變 更 を 行 ったもの ファイル 名 を 變 更 し エンコーディングスキームを UTF-8(BOM 無 し)に 變 更 した "?"を" "に 置 換 した 68
4. 西 廂 記 ( 王 驥 德 注 本 )OCRテキストファイルの 整 理 底 本 は 新 校 注 古 本 西 廂 記 五 卷 坿 新 校 注 古 本 西 廂 記 考 一 卷 ( 民 國 28 年 北 平 富 晉 書 社 東 來 閣 書 店 影 印 本 山 陰 朱 朝 鼎 香 雪 居 刊 本 ( 萬 曆 42 年 序 )の 影 印 )である 底 本 (のコピー)を 凱 希 メディアサービスを 通 じて 創 新 力 博 公 司 に OCR 外 注 し 納 品 さ れたテキストファイルを 整 理 公 開 した 槪 要 は 以 下 の 通 り 4-1.OCR 版 1: 創 新 力 博 公 司 より 納 品 されたテキストファイル 底 本 全 體 を 1 ファイルとしたテキストファイル(Unicode UTF-16LE) ファイル 名 は 業 者 が 適 宜 附 けており 書 誌 學 的 には 正 確 ではないが 敢 えて 變 更 はしていない 文 中 の 改 行 箇 所 はそのまま 再 現 されている 底 本 で 小 字 雙 行 になっている 箇 所 は"( )"( 半 角 括 弧 )で 底 本 で 文 字 を 楕 圓 に 圍 っ てある 箇 所 は" "で 圍 われている なお 小 字 雙 行 の 箇 所 は 本 來 讀 むべき 順 番 と 異 なってテキスト 化 されている 箇 所 がある 插 圖 や 印 など 文 字 以 外 の 情 報 については 槪 ね 畫 像 ファイルを 別 途 作 成 し テキス トファイル 側 ではその 畫 像 の 埋 め 込 み 箇 所 に<image type='block'.../> 形 式 の タグを 入 れ 關 連 づけしてある OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 については 槪 ね 畫 像 ファイルを 別 途 作 成 し テキストファイル 側 ではその 畫 像 の 埋 め 込 み 箇 所 に <image type='char'.../> 形 式 のタグを 入 れ 關 連 づけしてある 底 本 の 傍 點 圈 點 を " "" "を 用 いて 槪 ね 再 現 している( 傍 點 の 連 續 圈 點 の 連 續 は 再 現 していない) 底 本 では 文 の 句 切 れ 箇 所 のほか 破 讀 の 字 についてはしばし ば 聲 調 を 示 すための 圈 點 が 付 されているが OCR の 際 にはこの 圈 點 も" "で 再 現 され ているため 文 の 終 わりでも 句 切 れ 箇 所 でもない 部 分 に" "が 入 っている Unicode における 以 下 の 文 字 ブロックが 使 用 されている * CJK 統 合 漢 字 (U+4E00~U+9FFF) * CJK 統 合 漢 字 擴 張 A 集 合 (U+3400~U+4DBF) * CJK 統 合 漢 字 擴 張 B 集 合 (U+20000~U+2A6DF) * CJK 互 換 漢 字 (U+F900~U+FAFF):" 裏 "" 一 種 が 使 用 されている * 私 用 領 域 (U+E000~U+F8FF):U+E81A が 使 用 されている これは 電 子 版 四 部 叢 刊 四 庫 全 書 等 で 使 用 されている HT_CJK+フォントで 表 示 すれば 底 本 とほぼ 同 じグリフとなる(U+E81A であれば とほぼ 同 じグリフ) * Basic Latin: 所 謂 ASCII 文 字 主 としてタグの 部 分 で 使 用 されている 改 行 コード 半 角 空 白 半 角 括 弧 等 を 含 む * その 他 :" "(U+3014 U+3015) なお 全 角 空 白 (U+3000)は 含 まない 4-2.OCR 版 2:OCR 版 1 に 以 下 の 變 更 を 行 ったもの ファイル 名 を 變 更 し エンコーディングスキームを UTF-8(BOM 無 し)に 變 更 した <image type='block'.../> 形 式 のタグを<image>に 置 換 必 要 に 應 じ 手 動 で 改 69
行 を 插 入 した <image type='char'.../>のタグを" "に 置 換 した " "" "を 全 て 削 除 した 5. 水 滸 傳 ( 容 與 堂 本 )OCRテキストファイルの 整 理 底 本 は 明 容 與 堂 刻 水 滸 傳 一 ~ 四 ( 上 海 人 民 出 版 社 中 國 國 家 圖 書 館 ( 舊 北 京 圖 書 館 ) 藏 本 を 底 本 とする 影 印 本 )である 底 本 (のコピー)を 凱 希 メディアサービスを 通 じて 創 新 力 博 公 司 に OCR 外 注 し 納 品 されたテキストファイルを 整 理 公 開 した 槪 要 は 以 下 の 通 り 5-1.OCR 版 1: 創 新 力 博 公 司 より 納 品 されたテキストファイル 底 本 の 半 葉 を1ファイルとしたテキストファイル(Unicode UTF-16LE)の 集 合 文 中 の 改 行 箇 所 はそのまま 再 現 されているが 空 行 空 白 の 部 分 は 槪 ね 詰 めてある 影 印 本 底 本 ( 中 國 國 家 圖 書 館 藏 本 )の 刷 り 保 存 狀 態 は 大 變 よいが 一 部 缺 けてい る 箇 所 があり それは 影 印 本 にもそのまま 反 映 されている 11 このような 底 本 の 缺 損 に 由 來 する 不 明 字 は 槪 ね" "(U+25A1)で 表 されている( 一 部 のファイルでは 全 角 空 白 (U+3000)で 表 現 ) 前 半 ( 第 49 回 まで)において 底 本 で 缺 けてはいないが OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 については 槪 ね 畫 像 ファイルを 別 途 作 成 し テキストファイル 側 ではその 畫 像 の 埋 め 込 み 箇 所 にタグを 入 れ 關 連 づけしてある ( 一 部 のファイルでは 全 角 空 白 (U+3000)となっている) 底 本 にある 批 評 のうち 各 回 末 總 評 と 正 文 に 小 字 雙 行 で 入 っている 批 評 は OCR され ており 夾 批 と 眉 批 は 省 略 されている Unicode における 以 下 の 文 字 ブロックが 使 用 されている * CJK 統 合 漢 字 (U+4E00~U+9FFF) * CJK 統 合 漢 字 擴 張 A 集 合 (U+3400~U+4DBF) * CJK 統 合 漢 字 擴 張 B 集 合 (U+20000~U+2A6DF) * CJK 互 換 漢 字 (U+F900~U+FAFF):" 﨑 "" 﨣 "の 二 種 が 使 用 されている * 私 用 領 域 (U+E000~U+F8FF):U+E850 が 使 用 されている これは 電 子 版 四 部 叢 刊 四 庫 全 書 等 で 使 用 されている HT_CJK+フォントで 表 示 すれば 底 本 とほぼ 同 じグリフとなる(U+E850 であれば とほぼ 同 じグリフ) * その 他 :" "(U+25A1) 全 角 空 白 (U+3000) 改 行 コード 11 筆 者 ( 笠 井 )は 1995 年 に 北 京 圖 書 館 ( 當 時 現 在 の 中 國 國 家 圖 書 館 ) 善 本 閱 覽 室 で 目 睹 調 查 する 機 會 があり 上 海 人 民 出 版 社 影 印 本 を 持 參 して 對 照 した 原 本 は 刷 り 保 存 狀 態 とも 大 變 良 く また 影 印 本 は 所 藏 印 を 消 去 しているほかは 文 字 の 缺 損 板 框 の 缺 けなども 補 ったりしておらず 原 本 に 非 常 に 忠 實 な 影 印 本 である 70
5-2.OCR 版 2:OCR 版 1 に 以 下 の 變 更 を 行 ったもの エンコーディングスキームを UTF-8(BOM 無 し)に 變 更 した 1 回 1 ファイルになるようファイルを 結 合 ( 半 葉 每 に 空 行 を 挾 んである)した 卷 首 は 000.txt とし 第 一 回 が 001.txt 以 下 順 に 第 一 百 回 が 100.txt となる 畫 像 ファイルへのタグは 一 律 に" "(U+3013)に 置 換 した 全 角 空 白 46 箇 所 のうち 底 本 で 缺 けてはいないが OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 と 思 われる 箇 所 については 原 則 として" " (U+3013)に(ごく 簡 單 な 文 字 OCR 漏 れなど 3 箇 所 については 手 作 業 で 入 力 ) 底 本 の 缺 損 により 判 讀 不 能 な 箇 所 は" "(U+25A1)に 置 換 した 本 來 空 白 であるべき( 文 脈 上 の 必 要 から 空 白 となっている) 箇 所 はそのまま 殘 した 私 用 領 域 の 文 字 U+E850 を ほぼ 同 じグリフである" "(U+499F)に 置 換 した 5-3.OCR 版 2 利 用 上 の 留 意 點 未 校 訂 なので 字 形 の 近 似 に 起 因 する 誤 字 が 含 まれている 上 述 のように 異 體 字 ( 及 び 字 形 の 類 似 した 別 字 )を 相 當 含 むので 檢 索 を 行 う 場 合 に はその 點 を 考 慮 する 必 要 がある 例 えば " 參 "を 調 べたい 場 合 " 參 参 叅 𠫭 " 等 を 同 時 に 檢 索 する など 12 各 回 末 總 評 と 正 文 に 小 字 雙 行 で 入 っている 批 評 はそのまま 殘 してあるので その 部 分 は 容 與 堂 本 水 滸 傳 の 正 文 ではない 點 に 留 意 されたい 特 に 正 文 に 小 字 雙 行 で 入 って いる 批 評 は ()でくくるよう 依 賴 したが 實 際 にはそうなっていないので 本 文 に まぎれてしまっており 注 意 が 必 要 である 內 閣 文 庫 藏 天 理 圖 書 館 藏 容 與 堂 本 の 卷 首 にある 忠 義 水 滸 傳 敘 ( 李 卓 吾 序 )は 中 國 國 家 圖 書 館 藏 本 にはないため このテキストファイルには 含 まれていない( 上 海 人 民 出 版 社 影 印 本 では 缺 損 部 分 については 內 閣 文 庫 藏 本 に 基 づく 補 遺 を 付 しており この 序 も 排 印 で 補 っている) 6.OCR 外 注 テキストの 精 度 業 者 からの 當 初 の 見 積 もりでは 錯 誤 率 0.03% 以 下 という 數 字 が 示 されていたが いず れもそこまでは 達 成 されていないように 見 受 けられる 特 に 本 プロジェクト 初 期 にOCRを 依 賴 した 脈 望 館 鈔 校 本 は ファイルによってやや ばらつきがあり 最 もひどい 例 ( 黑 旋 風 雙 獻 功 )では 依 賴 した 底 本 からのOCRでは なく 元 曲 選 本 の 電 子 テキストに 打 字 の 方 式 で 加 工 した(が 元 曲 選 本 の 痕 跡 が 殘 っている)ことを 強 く 示 唆 する 仕 上 がりのものもあった 13 ただし これはやはり 極 端 12 例 えば EmEditor であれば "[ 參 参 叅 𠫭 叁 叄 ]" の 檢 索 式 となる 13 例 えば OCR 版 1 では 第 二 折 末 の 店 小 二 下 場 詩 は 脈 望 館 本 には 存 在 しない( 元 曲 選 本 にある) 惹 場 大 是 非 不 如 関 了 店 只 去 吊 水 雞 の 三 句 がある このほか 第 一 葉 表 では 長 街 尋 護 臂 神 州 去 焼 香 渾 家 身 無 事 還 家 謝 穹 蒼 ( 下 搽 旦 云 ) 孔 目 你 尋 了 護 臂 早 些 兒 來 とあるべきところ 長 街 尋 護 臂 早 些 兒 耒 となって 行 の 眞 ん 中 71
な 例 で 他 のファイルはまずまず 滿 足 なできであった 本 プロジェクト 進 行 中 に OCR システムも 更 に 開 發 が 進 み CJK 統 合 字 擴 張 B 集 合 のブロックの 文 字 が 扱 えるアプリケーション フォントも 普 及 してきた 本 プロジェ クト 後 半 に OCR 依 賴 をした 水 滸 傳 ( 容 與 堂 本 )では 底 本 の 文 字 が 鮮 明 で 見 やすいこ ともあり かなり 精 度 が 上 がっている 正 確 さや 底 本 の 特 定 の 字 形 に 對 してどの 文 字 ( 字 體 )が 選 擇 されるかは 恐 らくオ ペレーターの 力 量 や 志 向 に 起 因 すると 思 われるばらつきがある( 多 くの 異 體 字 字 形 の 近 似 した 字 が 候 補 となるので いずれを 選 擇 するかはある 程 度 オペレーターの 裁 量 にな るため) 今 回 は こちらからは 細 かい 指 示 をほとんどしなかったのだが 依 賴 の 際 に ある 程 度 細 かい 指 定 を 行 った 方 が 良 かったかもしれない 精 度 について サンプル 的 に 第 48 回 ( 約 5000 字 )をチェックしてみた 明 らかに 誤 りと 見 なせる 例 のみ 抽 出 した(どの 異 體 字 を 選 擇 するかの 問 題 或 いは 底 本 の 字 形 からは 正 しい 文 字 が 必 ずしも 明 らかではなく 文 章 を 理 解 して 初 めてどの 字 か 判 定 で きるようなもの 14 は 抽 出 しない)ところ 以 下 の 17 箇 所 が 見 つかった 葉 數 行 OCR 版 底 本 1 表 9 小 嘆 囉 小 嘍 囉 2 裏 14 將 今 將 令 3 裏 13 要 來 要 求 4 表 7 只 要 賢 防 只 要 緊 防 7 表 1 知 何 如 何 7 表 4 歐 鵩 歐 鵬 7 表 5 歐 鵩 歐 鵬 7 表 6 歐 鵩 歐 鵬 7 表 8 歐 鵩 歐 鵬 7 裏 20 歐 鵩 歐 鵬 8 表 1 欒 延 玉 欒 廷 玉 8 表 4 欒 延 玉 欒 廷 玉 8 表 6 欒 延 玉 欒 廷 玉 8 裏 14 欒 延 玉 欒 廷 玉 あたりから 約 一 行 分 脫 落 していたり 分 毫 也 那 不 爭 分 毫 也 拿 不 爭 のような 變 換 ミス(OCR ではなく 打 字 による 誤 りと 思 われる) 将 押 觧 人 打 死 将 觧 人 打 死 のような 拔 け ある 行 の 一 番 上 の 文 字 であるはずの 字 がその 前 の 行 の 一 番 下 になっている( 改 行 位 置 を 手 作 業 で 插 入 した 際 のミスと 思 われる) などの 況 から 推 して 元 曲 選 本 の 電 子 テキストに 打 字 の 方 式 で 加 工 した 可 能 性 が 高 い 14 例 えば 詩 曰 とすべきところが 詩 日 となっている など 72
8 裏 21 欒 延 玉 欒 廷 玉 11 表 4 無 面 日 無 面 目 11 裏 13 15 下 囘 分 解 すなわち 第 48 回 についていえば 明 らかな 誤 りと 見 なせるものは 0.3% 程 度 含 まれ ていたことになる 事 前 の 見 積 もりの 10 倍 あるということになるが 以 前 に 比 べれば 大 幅 に 向 上 していると 言 えよう これだけではサンプルとしても 量 が 足 りず この 數 字 がどの 程 度 代 表 性 があるか 心 許 ないが OCR 外 注 を 考 えている 方 の 參 考 に 記 してお くことにする なお 本 プロジェクトでも 講 演 を 依 賴 し 今 回 本 報 告 書 にご 寄 稿 頂 いた 首 都 師 範 大 學 の 周 文 業 教 授 が 容 與 堂 本 の OCR テキストファイルを 頒 布 している 周 教 授 によ れば 創 新 力 博 とは 異 なる 業 者 に 依 賴 したとのことである これとの 比 較 は 詳 しくは 行 っていないが ざっと 見 た 感 じでは 以 下 の 點 が 指 摘 できる (1) 異 體 字 を 底 本 に 忠 實 に 再 現 するという 點 では おおむね 周 氏 のテキストの 方 がま さる 本 プロジェクトのテキストで いわゆる 正 字 あるいは 良 く 使 用 される 文 字 (CJK 統 合 漢 字 の 文 字 など)を 使 っている 箇 所 で 周 氏 のテキストでは 擴 張 A 擴 張 B などのブロックの 字 も 積 極 的 に 利 用 して 異 體 字 を 表 現 している (2) 上 記 のような 明 らかな 誤 り に 關 しては どちらも 多 少 あり 兩 者 を 比 較 する ことで 校 訂 が 多 少 能 率 的 になると 思 われる 16 (3) 周 氏 のテキストでは U+2A700~のコードポイントが 使 用 されている 同 梱 のフ ォントを 利 用 して 表 示 するシステムで いわば 外 字 の 一 種 である (U+2A700 U+2B734 は CJK 統 合 漢 字 擴 張 C 集 合 のブロックとなる 予 定 であるが 同 梱 のフ ォントで 表 示 されるのは Unicode に 追 加 される 予 定 のものとは 全 く 異 なったグリ フである) 周 氏 提 供 のシステムで 使 用 するのみであれば 何 ら 問 題 はないが テキ ストデータを 別 のプログラムで 處 理 したり このブロック 內 の 文 字 を 引 用 した 論 文 を 電 子 ファイルで 他 者 に 送 ったりする 場 合 は 問 題 が 生 ずる 可 能 性 がある 將 來 的 に 擴 張 C が 實 裝 され 普 及 した 場 合 には この 部 分 の 對 應 を 考 える 必 要 がある だろう 本 プロジェクトでのテキストファイル 作 成 は 試 行 的 な 性 格 のもので 現 段 階 で 提 供 で きるテキストファイルはまだ 少 數 である( 整 理 中 校 訂 中 校 訂 依 賴 中 のものがあり 將 來 的 にはもう 少 し 增 える 予 定 であるが) 木 版 本 鈔 本 の OCR 外 注 によるテキストフ ァイル 作 成 は 注 意 すべき 點 も 多 々あるが 工 夫 をすればそれなりには 使 える 段 階 15 16 一 行 脫 落 上 述 の 第 48 回 のチェックでは 兩 者 の 比 較 にフリーのテキスト 比 較 アプリケーショ ン Rekisa( http://frozenlib.net/rekisa/ )を 利 用 した 73
になりつつあると 思 われる 異 體 字 を 多 く 含 むテキストファイルの 活 用 には 異 體 字 表 の 整 備 と 公 開 オープンでカスタマイズ 可 能 な 檢 索 システムの 開 發 が 必 須 であり これ も 今 後 の 課 題 となろう 74