なお 異 體 字 俗 字 等 をそのまま 殘 した 場 合 電 子 テキストの 利 點 である 檢 索 の 上 での 利 便 が 損 なわれるという 問 題 が 存 在 する これについては 將 來 的 には 公 開 されておりユーザー 自 身 によるカスタマイズが 可 能 な 異 體 字 同 一



Similar documents
室 內 空 氣 品 質 維 護 管 理 專 責 人 員 設 置 管 理 辦 法 修 正 第 一 條 條 文 對 照 表 修 正 條 文 現 行 條 文 說 明 本 辦 法 依 室 內 空 氣 品 質 管 理 法 ( 以 下 簡 稱 本 法 ) 第 九 條 第 三 項 規 定 訂 定 之 第 二 條

修正條文

這 些 日 常 業 務 所 需 的 商 用 範 例 都 可 以 直 接 套 用, 您 只 要 依 需 求 加 以 適 度 修 改 即 可, 使 用 起 來 非 常 方 便 除 此 之 外 還 有 練 習 題, 提 供 讀 者 做 反 饋 練 習 如 針 對 商 業 文 書 中 特 有 的

平成25年度 独立行政法人日本学生支援機構の役職員の報酬・給与等について

m07 北見工業大学 様式①

(1)1オールゼロ 記 録 ケース 厚 生 年 金 期 間 A B 及 びCに 係 る 旧 厚 生 年 金 保 険 法 の 老 齢 年 金 ( 以 下 旧 厚 老 という )の 受 給 者 に 時 効 特 例 法 施 行 後 厚 生 年 金 期 間 Dが 判 明 した Bは 事 業 所 記 号 が

新竹市國民中學學生成績評量辦法修正草案條文對照表

質 問 票 ( 様 式 3) 質 問 番 号 62-1 質 問 内 容 鑑 定 評 価 依 頼 先 は 千 葉 県 などは 入 札 制 度 にしているが 神 奈 川 県 は 入 札 なのか?または 随 契 なのか?その 理 由 は? 地 価 調 査 業 務 は 単 にそれぞれの 地 点 の 鑑 定

2 役 員 の 報 酬 等 の 支 給 状 況 平 成 27 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 役 名 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 2,142 ( 地 域 手 当 ) 17,205 11,580 3,311 4 月 1

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

98至100年戶政解釋函令彙整一覽表

公表表紙

18 国立高等専門学校機構

<6D33335F976C8EAE CF6955C A2E786C73>

1 総 合 設 計 一 定 規 模 以 上 の 敷 地 面 積 及 び 一 定 割 合 以 上 の 空 地 を 有 する 建 築 計 画 について 特 定 行 政 庁 の 許 可 により 容 積 率 斜 線 制 限 などの 制 限 を 緩 和 する 制 度 である 建 築 敷 地 の 共 同 化 や

国立研究開発法人土木研究所の役職員の報酬・給与等について

公立各級學校專任教師兼職處理原則(草案)

<6D313588EF8FE991E58A778D9191E5834B C8EAE DC58F4992F18F6F816A F990B32E786C73>

Microsoft Word - 佐野市生活排水処理構想(案).doc

2 役 員 の 報 酬 等 の 支 給 状 況 役 名 法 人 の 長 理 事 理 事 ( 非 常 勤 ) 平 成 25 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 16,936 10,654 4,36

KINGSOFT Office 2016 動 作 環 境 対 応 日 本 語 版 版 共 通 利 用 上 記 動 作 以 上 以 上 空 容 量 以 上 他 接 続 環 境 推 奨 必 要 2

弁護士報酬規定(抜粋)

Microsoft Word - 修正對照表_ doc

1

前 言 本 手 冊 載 有 根 據 無 線 電 規 則 第 三 區 頻 率 劃 分 表 中 適 用 於 香 港 的 部 分 香 港 採 用 的 頻 譜 劃 分 及 香 港 使 用 的 頻 譜 規 劃 表 本 手 冊 旨 在 提 供 有 關 頻 譜 管 理 無 線 電 通 訊 系 統 設 計 及 其

表紙

Taro-08国立大学法人宮崎大学授業

( 別 途 調 査 様 式 1) 減 損 損 失 を 認 識 するに 至 った 経 緯 等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列 固 定

その 他 事 業 推 進 体 制 平 成 20 年 3 月 26 日 に 石 垣 島 国 営 土 地 改 良 事 業 推 進 協 議 会 を 設 立 し 事 業 を 推 進 ( 構 成 : 石 垣 市 石 垣 市 議 会 石 垣 島 土 地 改 良 区 石 垣 市 農 業 委 員 会 沖 縄 県 農

Taro-給与公表(H25).jtd

私立大学等研究設備整備費等補助金(私立大学等

為 が 行 われるおそれがある 場 合 に 都 道 府 県 公 安 委 員 会 がその 指 定 暴 力 団 等 を 特 定 抗 争 指 定 暴 力 団 等 として 指 定 し その 所 属 する 指 定 暴 力 団 員 が 警 戒 区 域 内 において 暴 力 団 の 事 務 所 を 新 たに 設

Microsoft Word 役員選挙規程.doc

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 き 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている

Microsoft Word - 不正アクセス行為の禁止等に関する法律等に基づく公安

(2) 広 島 国 際 学 院 大 学 ( 以 下 大 学 という ) (3) 広 島 国 際 学 院 大 学 自 動 車 短 期 大 学 部 ( 以 下 短 大 という ) (4) 広 島 国 際 学 院 高 等 学 校 ( 以 下 高 校 という ) ( 学 納 金 の 種 類 ) 第 3 条

入札公告 機動装備センター

目 次 第 1. 土 区 画 整 理 事 業 の 名 称 等 1 (1) 土 区 画 整 理 事 業 の 名 称 1 (2) 施 行 者 の 名 称 1 第 2. 施 行 区 1 (1) 施 行 区 の 位 置 1 (2) 施 行 区 位 置 図 1 (3) 施 行 区 の 区 域 1 (4) 施

<817993FA967B8E E A E815B817A B F976C8EAE82502D322E786C73>

検 討 検 討 の 進 め 方 検 討 状 況 簡 易 収 支 の 世 帯 からサンプリング 世 帯 名 作 成 事 務 の 廃 止 4 5 必 要 な 世 帯 数 の 確 保 が 可 能 か 簡 易 収 支 を 実 施 している 民 間 事 業 者 との 連 絡 等 に 伴 う 事 務 の 複 雑

( ( - ) ) ( ( ) ) 25 東 山 法 門 五 慧 能 人 々 傳 記 に つ い て ( ) 成 立 年 未 詳 ) ( 成 立 年 未 詳 ) ( 代 傳 記 慧 能 傳 記 に 言 及 す 文 獻 は 多 い が 時 代 が 降 ほ ど 後 世 創 作 を 多 く 含 み 史 實

Microsoft PowerPoint - 報告書(概要).ppt


16 日本学生支援機構

SXF 仕 様 実 装 規 約 版 ( 幾 何 検 定 編 ) 新 旧 対 照 表 2013/3/26 文 言 変 更 p.12(1. 基 本 事 項 ) (5)SXF 入 出 力 バージョン Ver.2 形 式 と Ver.3.0 形 式 および Ver.3.1 形 式 の 入 出 力 機 能 を

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc)

Microsoft Word 院會重要業務報告_12-004韓國日本司法制度_

Microsoft Word - 20年度(行個)答申第2号.doc

( 別 紙 ) 以 下 法 とあるのは 改 正 法 第 5 条 の 規 定 による 改 正 後 の 健 康 保 険 法 を 指 す ( 施 行 期 日 は 平 成 28 年 4 月 1 日 ) 1. 標 準 報 酬 月 額 の 等 級 区 分 の 追 加 について 問 1 法 改 正 により 追 加

一般競争入札について

者 が 在 学 した 期 間 の 年 数 を 乗 じて 得 た 額 から 当 該 者 が 在 学 した 期 間 に 納 付 すべき 授 業 料 の 総 額 を 控 除 した 額 を 徴 収 するものとする 3 在 学 生 が 長 期 履 修 学 生 として 認 められた 場 合 の 授 業 料 の

耐 震 診 断 受 付 期 間 4 月 16 日 ( 月 )~1 月 31 日 ( 木 ) 予 定 戸 数 100 戸 1 補 助 の 条 件 次 のすべての 要 件 に 該 当 すること (1) 市 民 自 らが 所 有 し 居 住 していること (2) 昭 和 56 年 5 月 31 日 以 前

R4財務対応障害一覧

Microsoft Word - 養生学研究投稿規定(改)

も く じ 1 税 源 移 譲 1 2 何 が 変 わったのか 改 正 の 3 つ の ポイント ポイント1 国 から 地 方 へ 3 兆 円 規 模 の 税 源 が 移 譲 される 2 ポイント2 個 人 住 民 税 の 税 率 構 造 が 一 律 10%に 変 わる 3 ポイント3 個 々の 納

高松市緊急輸送道路沿道建築物耐震改修等事業補助金交付要綱(案)

S16-386・ソフトウェアの調達に関する入札実施の件

2. ど の 様 な 経 緯 で 発 覚 し た の か ま た 遡 っ た の を 昨 年 4 月 ま で と し た の は 何 故 か 明 ら か に す る こ と 回 答 3 月 17 日 に 実 施 し た ダ イ ヤ 改 正 で 静 岡 車 両 区 の 構 内 運 転 が 静 岡 運

スライド 1

3 職 員 の 平 均 給 与 月 額 初 任 給 等 の 状 況 (1) 職 員 の 平 均 年 齢 平 均 給 料 月 額 及 び 平 均 給 与 月 額 の 状 況 (24 年 4 月 1 日 現 在 ) 1 一 般 行 政 職 平 均 年 齢 平 均 給 料 月 額 平 均 給 与 月 額

2 出 願 資 格 審 査 前 記 1の 出 願 資 格 (5) 又 は(6) により 出 願 を 希 望 する 者 には, 出 願 に 先 立 ち 出 願 資 格 審 査 を 行 いますので, 次 の 書 類 を 以 下 の 期 間 に 岡 山 大 学 大 学 院 自 然 科 学 研 究 科 等

Microsoft Word - 19年度(行個)答申第94号.doc

< 目 次 > 8. 雇 用 保 険 高 年 齢 雇 用 継 続 給 付 27 ( 育 児 休 業 給 付 介 護 休 業 給 付 ) 8.1 高 年 齢 雇 用 継 続 給 付 画 面 のマイナンバー 設 定 高 年 齢 雇 用 継 続 給 付 の 電 子 申 請 高

<6E32355F8D918DDB8BA697CD8BE28D C8EAE312E786C73>

2. 会 計 規 程 の 業 務 (1) 規 程 と 実 際 の 業 務 の 調 査 規 程 や 運 用 方 針 に 規 定 されている 業 務 ( 帳 票 )が 実 際 に 行 われているか( 作 成 されている か)どうかについて 調 べてみた 以 下 の 表 は 規 程 の 条 項 とそこに

<4D F736F F D203193FA8AD45F95CA8E86325F89898F4B315F94F093EF8AA98D AD97DF914F82CC8FEE95F182CC8EFB8F C28E8B89BB2E646F63>

川崎市木造住宅耐震診断助成金交付要綱

<4D F736F F F696E74202D D382E982B382C68AF1958D8BE090A C98AD682B782E B83678C8B89CA81698CF6955C A2E >

一宮市町内会に対する防犯カメラ設置補助金交付要綱

<4D F736F F D A94BD837D836C B4B92F62E646F6378>

基 準 地 価 格 3 年 に1 度 審 議 直 近 ではH23 年 12 月 に 審 議 土 地 評 価 替 えの 流 れと 固 定 資 産 評 価 審 議 会 基 準 地 とは 土 地 評 価 の 水 準 と 市 町 村 間 の 均 衡 を 確 保 するための 指 標 となるものであり 各 市

技 能 労 務 職 公 務 員 民 間 参 考 区 分 平 均 年 齢 職 員 数 平 均 給 与 月 額 平 均 給 与 月 額 平 均 給 料 月 額 (A) ( 国 ベース) 平 均 年 齢 平 均 給 与 月 額 対 応 する 民 間 の 類 似 職 種 東 庄 町 51.3 歳 18 77

奨学事業戦略部個人情報ファイル簿

1 林 地 台 帳 整 備 マニュアル( 案 )について 林 地 台 帳 整 備 マニュアル( 案 )の 構 成 構 成 記 載 内 容 第 1 章 はじめに 本 マニュアルの 目 的 記 載 内 容 について 説 明 しています 第 2 章 第 3 章 第 4 章 第 5 章 第 6 章 林 地

Microsoft PowerPoint 資料6 技術基準.ppt [互換モード]

(4) ラスパイレス 指 数 の 状 況 ( 各 年 4 月 1 日 現 在 ) ( 例 ) ( 例 ) 15 (H2) (H2) (H24) (H24) (H25.4.1) (H25.4.1) (H24) (H24)

する ( 評 定 の 時 期 ) 第 条 成 績 評 定 の 時 期 は 第 3 次 評 定 者 にあっては 完 成 検 査 及 び 部 分 引 渡 しに 伴 う 検 査 の 時 とし 第 次 評 定 者 及 び 第 次 評 定 者 にあっては 工 事 の 完 成 の 時 とする ( 成 績 評 定

財団法人○○会における最初の評議員の選任方法(案)

(2)大学・学部・研究科等の理念・目的が、大学構成員(教職員および学生)に周知され、社会に公表されているか

スライド 1

1 変更の許可等(都市計画法第35条の2)

平成27年度大学改革推進等補助金(大学改革推進事業)交付申請書等作成・提出要領

4 承 認 コミュニティ 組 織 は 市 長 若 しくはその 委 任 を 受 けた 者 又 は 監 査 委 員 の 監 査 に 応 じなければ ならない ( 状 況 報 告 ) 第 7 条 承 認 コミュニティ 組 織 は 市 長 が 必 要 と 認 めるときは 交 付 金 事 業 の 遂 行 の

預 金 を 確 保 しつつ 資 金 調 達 手 段 も 確 保 する 収 益 性 を 示 す 指 標 として 営 業 利 益 率 を 採 用 し 営 業 利 益 率 の 目 安 となる 数 値 を 公 表 する 株 主 の 皆 様 への 還 元 については 持 続 的 な 成 長 による 配 当 可


平成22年度

2 一 般 行 政 職 給 料 表 の 状 況 ( 平 成 2 年 月 1 日 現 在 ) 1 号 給 の 給 料 月 額 最 高 号 給 の 給 料 月 額 ( 注 ) 給 料 月 額 は 給 与 抑 制 措 置 を 行 う 前 のものです ( 単 位 : ) 3 職 員 の 平 均 給 与 月

目 標 を 達 成 するための 指 標 第 4 章 計 画 における 環 境 施 策 世 界 遺 産 への 登 録 早 期 登 録 の 実 現 史 跡 の 公 有 地 化 平 成 27 年 度 (2015 年 度 )までに 235,022.30m 2 施 策 の 体 系 1 歴 史 的 遺 産 とこ

一 括 登 録 方 法 一 括 登 録 をするには 予 め 専 用 の CSV ファイルを 作 成 する 必 要 があります 普 段 エクセルファイルで 管 理 をされている 方 は, 以 下 の 3 列 のみのデータとなるようにデータを 加 工 して CSV ファイルとして 保 存 して 下 さ

募集要項

Microsoft Word - 【溶け込み】【修正】第2章~第4章

小 売 電 気 の 登 録 数 の 推 移 昨 年 8 月 の 前 登 録 申 請 の 受 付 開 始 以 降 小 売 電 気 の 登 録 申 請 は 着 実 に 増 加 しており これまでに310 件 を 登 録 (6 月 30 日 時 点 ) 本 年 4 月 の 全 面 自 由 化 以 降 申

スライド 1

2 前 項 前 段 の 規 定 にかかわらず 年 俸 制 教 職 員 から 申 し 出 があった 場 合 においては 労 使 協 定 に 基 づき その 者 に 対 する 給 与 の 全 額 又 は 一 部 を 年 俸 制 教 職 員 が 希 望 する 金 融 機 関 等 の 本 人 名 義 の 口

2 役 員 の 報 酬 等 の 支 給 状 況 平 成 26 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 役 名 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 法 人 の 長 副 理 事 長 A 理 事 16,638 10,332 4,446 1,

<4D F736F F D B83578F4390B E797748CA E88E68E7792E88AEE8F805F48508C668DDA95AA816A E646F63>

<4D F736F F D C93FA967B91E5906B8DD082D682CC91CE899E2E646F6378>

った 場 合 など 監 事 の 任 務 懈 怠 の 場 合 は その 程 度 に 応 じて 業 績 勘 案 率 を 減 算 する (8) 役 員 の 法 人 に 対 する 特 段 の 貢 献 が 認 められる 場 合 は その 程 度 に 応 じて 業 績 勘 案 率 を 加 算 することができる

Microsoft Word - 答申第143号.doc

第 2-2 表 耐 火 構 造 等 に 必 要 な 性 能 に 関 する 技 術 的 基 準 構 造 の 種 類 部 分 火 災 の 種 類 時 間 要 件 1 時 間 を 基 本 とし 建 耐 力 壁 柱 床 はり 屋 根 階 段 耐 火 構 造 ( 令 第 107 条 ) 壁 床 外 壁 屋 根

Transcription:

鈔 本 木 版 本 からの OCR テキストファイルの 整 理 と 加 工 笠 井 直 美 1. 作 成 の 經 緯 と 目 的 近 年 中 國 古 典 文 學 の 分 野 でも 電 子 テキスト 化 が 進 み 主 要 な 作 品 については 槪 ね 電 子 テキストが 入 手 できるようになった しかし 一 般 の 鑑 賞 向 けに 供 給 されている 無 料 または 安 價 なものは 學 術 的 な 使 用 に 耐 えうる 水 準 でないことが 多 く 專 門 家 の 關 與 した 水 準 の 高 いデータベースは 可 塑 性 のあるテキストファイルの 形 ではなく 高 度 な 操 作 が 施 せない 形 態 で 供 給 されている 等 問 題 も 多 いこと この 分 野 で 最 も 不 足 しているの は 實 はごく 基 礎 的 なもの 廣 く 硏 究 者 に 開 放 されている 信 賴 できるプレインテキ スト であると 考 えられる 1 信 賴 のおけるプレインテキストが 十 分 でない 狀 況 下 では 初 步 的 な 檢 索 に 基 づいた 分 析 さえも 正 確 は 期 しがたく 形 態 素 解 析 を 初 めとする 標 識 付 けのためのプログラムや 計 量 分 析 のためのプログラムも 效 果 を 發 揮 することができない また 白 話 文 學 において 特 に 留 意 すべき 點 として 排 印 本 を 出 版 する 際 に 行 われる 專 門 家 によるクラシカルな 方 針 の 校 訂 では 硏 究 上 重 要 な 情 報 が 消 し 去 られてしま うことが 擧 げられる 例 えば 木 版 本 や 鈔 本 で 使 用 されている 假 借 字 通 用 字 俗 字 異 體 字 などは 刊 行 地 域 や 刊 行 年 代 鈔 寫 年 代 などを 推 測 する 重 要 な 手 がかりになりう るが 2 從 來 の 校 訂 では 校 訂 者 が 正 しい 規 範 的 と 考 える 文 字 に 統 一 されて しまうのが 普 通 であった また 現 在 普 及 している 物 語 とは 小 異 のある 設 定 や 異 なる エピソードの 痕 跡 を 示 す 語 句 は 物 語 の 演 變 傳 播 を 檢 討 する 上 では 貴 重 な 情 報 だが こうした 部 分 をわざわざ 後 世 普 及 したバージョンに 沿 う 形 で 校 訂 しているケース も 見 られる 從 って 硏 究 上 の 目 的 によっては 一 般 讀 者 の 鑑 賞 の 便 を 考 えて 校 訂 された 排 印 本 で はなく 木 版 本 や 鈔 本 を 基 にした できるだけ 生 のデータが 殘 されている 電 子 テキ ストも 必 要 と 考 えられる 本 プロジェクトでは こうした 觀 點 から 試 行 的 に 木 版 本 や 鈔 本 を 基 にした できるだけ 生 に 近 いデータを 殘 した 電 子 テキスト の 作 成 公 開 を 行 うことにした 3 1 詳 しくは 笠 井 直 美 中 國 近 世 白 話 文 學 の 電 子 化 の 現 況 ( 雜 劇 篇 ) ( 名 古 屋 大 學 中 國 語 學 文 學 論 集 第 18 輯 2006 年 3 月 名 古 屋 大 學 中 國 語 學 文 學 會 pp.85-104) 及 び 中 國 近 世 白 話 文 學 の 電 子 化 の 現 況 及 び 學 術 利 用 に 有 效 なコーパスの 設 計 に 關 する 調 查 ( 科 學 硏 究 費 補 助 金 硏 究 成 果 報 告 書 2006 年 3 月 ) 特 にその 序 を 參 照 2 例 えば 佐 藤 晴 彥 國 家 圖 書 館 藏 水 滸 傳 殘 卷 について ( 日 本 中 國 學 會 報 第 57 集 2005 年 pp.256-268) 等 3 本 プロジェクトの 成 果 物 は ウェブサイト 中 國 白 話 文 學 の 電 子 化 情 報 63

なお 異 體 字 俗 字 等 をそのまま 殘 した 場 合 電 子 テキストの 利 點 である 檢 索 の 上 での 利 便 が 損 なわれるという 問 題 が 存 在 する これについては 將 來 的 には 公 開 されておりユーザー 自 身 によるカスタマイズが 可 能 な 異 體 字 同 一 視 テーブルを 組 み 込 んだ 檢 索 システムを 開 發 し それを 利 用 して 檢 索 を 行 うことで 解 決 するのが 適 切 と 考 える 4 本 プロジェクトでは 檢 索 システムの 開 發 は 行 っていないが 將 來 的 にそうしたシステムで 利 用 することを 前 提 に 電 子 テキストの 作 成 整 理 を 行 った 現 段 階 では 正 規 表 現 を 使 ったgrep 檢 索 が 可 能 なテキストエディタ 5 で 檢 索 をすることで 上 記 の 不 便 をある 程 度 解 消 することができる( 後 述 ) 2. 脈 望 館 鈔 校 本 古 今 雜 劇 OCRテキストファイルの 整 理 加 工 底 本 は 古 本 戲 曲 叢 刊 第 四 集 所 收 影 印 本 ( 底 本 は 中 國 國 家 圖 書 館 ( 舊 北 京 圖 書 館 ) 藏 本 ) である 底 本 (のコピー)を 凱 希 メディアサービスを 通 じて 北 京 書 同 文 數 字 化 技 術 公 司 に OCR 外 注 し 納 品 されたテキストファイルを 整 理 加 工 した 各 バージョンの 槪 要 及 び 作 業 手 順 は 以 下 の 通 り 2-1.OCR 版 1: 書 同 文 公 司 が 納 品 したテキストファイル 底 本 の 1 作 品 を 1 ファイルとしたテキストファイル(Uniocde UTF-16LE) 黑 旋 風 雙 獻 功 雜 劇 については 當 初 OCR を 依 賴 する 際 に 漏 れていた 部 分 ( 第 8 葉 裏 第 9 葉 表 )があり その 部 分 は 缺 けている 文 中 の 改 行 箇 所 はそのまま 再 現 されている OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 については 槪 ね "?" ( 全 角 )で 示 されている 曲 牌 名 は 槪 ね" " ト 書 き 部 分 は 槪 ね"( )"( 全 角 括 弧 )で 圍 ってある ただ し ファイルによっては 曲 牌 名 のマークアップを 行 っていないものもある Unicode における 以 下 の 文 字 ブロックが 使 用 されている * CJK 統 合 漢 字 (U+4E00~U+9FFF) * CJK 統 合 漢 字 擴 張 A 集 合 (U+3400~U+4DBF) * CJK 互 換 漢 字 (U+F900~U+FAFF):" 﨣 " 凉 "" 兀 " 等 が 使 用 されている * 私 用 領 域 (U+E000~U+F8FF): 多 數 使 用 されている 電 子 版 四 部 叢 刊 四 庫 全 書 等 で 使 用 されている HT_CJK+フォントで 表 示 すれば 底 本 に 近 いグリフとな http://dicom3.gsid.nagoya-u.ac.jp/bhwiki/ で 公 開 している 4 異 體 字 同 一 視 テーブルを 組 み 込 んだ 檢 索 システムそのものは 多 くの 業 者 が 開 發 して いるが 中 身 がブラックボックスとなっており 實 際 に システムがどの 文 字 (コード ポイント)とどの 文 字 を 同 時 に 檢 索 しているか ユーザーにはわからないようになって いることがほとんどである これでは ( 特 に 量 的 な 分 析 をしようとする 場 合 には) 結 果 の 妥 當 性 を 檢 證 することができず 硏 究 にそのまま 利 用 するのは 危 險 である 5 筆 者 は EmEditor( http://jp.emeditor.com/ )を 使 用 している 64

る * その 他 : 半 角 空 白 (U+0020) 全 角 空 白 (U+3000) "?" ( 全 角 ) " " "( ) "( 全 角 括 弧 ) 改 行 コード 2-2.OCR 版 2:OCR 版 1 に 以 下 の 變 更 を 行 ったもの ファイル 名 を 變 更 し エンコーディングスキームをUnicode UTF-8(BOM 無 し)に 變 更 した 6 黑 旋 風 雙 獻 功 雜 劇 の 依 賴 漏 れ 部 分 ( 第 8 葉 裏 第 9 葉 表 )を 別 途 OCR して 該 當 箇 所 に 插 入 した この 箇 所 では 曲 牌 名 は "[ ]" ト 書 き 部 分 は"( )"( 半 角 括 弧 ) で 圍 ってあり CJK 統 合 漢 字 擴 張 B 集 合 (U+20000~U+2A6DF)の 文 字 も 一 部 使 用 さ れている 2-3. 原 貌 版 :OCR 版 2 を 異 體 字 を 含 め できるだけ 底 本 に 近 くなるよう 修 正 し たもの 以 下 の 手 順 で 變 更 を 行 った 簡 單 な perl script を 使 用 して 半 葉 每 に 空 行 と 番 號 ( 第 一 葉 表 であれば "#01a" 第 二 葉 裏 であれば"#02b"とする 方 式 )を 插 入 簡 單 な perl script を 使 用 して ASCII 文 字 CJK 統 合 漢 字 "( )"" ""?"(い ずれも 全 角 ) 全 角 空 白 を 除 いた 文 字 を 抽 出 し コードポイントと 共 に 出 力 したファ イルを 作 成 し( 主 として CJK 統 合 漢 字 擴 張 A 集 合 私 用 領 域 の 文 字 が 抽 出 される) 置 換 校 訂 の 必 要 な 文 字 を 確 認 する 半 角 空 白 は 削 除 紛 れやすい 記 號 ( 例 えば 半 角 括 弧 )を 置 換 して 統 一 する 本 プロジェクトで 作 成 した HT_CJK+フォントのPrivate Use Area で 表 現 されている グリフとUnicode ( 主 としてCJK Unified Ideographs Extension B)で 定 義 されている 文 字 との 對 應 表 7 を 組 み 込 んだ 簡 單 なperl scriptを 使 用 して HT_CJK+フォントが 無 い と 適 切 に 表 示 できない 私 用 領 域 を 利 用 した 文 字 ( 外 字 )を 字 形 の 近 い 文 字 (CJK 統 合 漢 字 擴 張 B 擴 張 Aなど Unicodeで 定 義 された 文 字 )に 置 換 手 作 業 で 底 本 に 近 くなるよう 修 正 を 行 う ただし 折 數 は" "でくくり ( 漏 れが あれば) 曲 牌 は" "で ト 書 き 部 分 は"( )"でくくる 6 OCR 版 1 のファイル 名 は 業 者 が 適 宜 付 けたものであるが shift_jis に 含 まれない 文 字 が 使 用 されていることがある こうしたファイルを 日 本 語 版 OS 上 で 利 用 すると 例 え ば 壓 縮 する 場 合 プログラムで 處 理 を 行 う 場 合 ウェブサイトに 置 いて 他 の 人 にダウン ロードしてもらう 場 合 などにトラブルが 起 きやすい そこで OS に 關 わらずトラブル の 起 きにくい ASCII 文 字 を 使 用 したファイル 名 に 書 き 換 えた エンコーディングスキー ムは 筆 者 がテキストファイルの 整 理 加 工 に 利 用 した perl での 處 理 がやりやすく ウェブ 上 で 多 言 語 を 扱 う 場 合 に 實 質 的 に 標 準 となりつつある UTF-8 に 變 更 した 7 http://dicom3.gsid.nagoya-u.ac.jp/bhwiki/ の 異 體 字 のページよりダ ウンロード 可 能 65

底 本 にある 文 字 で CJK 統 合 漢 字 擴 張 C 集 合 までの 範 圍 に 相 當 する 文 字 (グリフ) が 見 つからなかった 箇 所 は やむを 得 ず" "にしてある これらを ISO/IEC 10646-1:2000 の IDS(Ideo- graphic Description Sequence) 形 式 で 示 せば 以 下 の 通 り である 8 利 用 目 的 と 方 法 によっては テキストにこちらを 埋 め 込 む 選 擇 肢 も 考 えら れる * 同 樂 院 燕 靑 博 魚 31b10 行 目 : 禾 丷 口 * 大 婦 小 妻 還 牢 末 2a10 行 目 : 人 匕 * 魯 智 深 喜 賞 黃 花 峪 14b4 行 目 15b7 行 目 : 扌 鮑 * 魯 智 深 喜 賞 黃 花 峪 15b6 行 目 : 遷 * 魯 智 深 喜 賞 黃 花 峪 25a3 行 目 : 扌 敵 底 本 は 槪 ね 量 の 差 はあれ 增 補 削 除 や 修 正 の 痕 跡 がある 增 補 削 除 修 正 が ど のような 狀 況 で 行 われたかについては 鈔 寫 を 行 った 人 物 が 自 身 で 誤 りに 氣 づいて 修 正 した 趙 琦 美 が 校 訂 した 趙 琦 美 の 後 にこの 鈔 本 を 所 有 した 人 物 が 書 き 入 れた な ど 複 數 の 可 能 性 があり 一 つの 作 品 に 複 數 人 が 書 き 入 れていることもあり 得 るが 影 印 本 からそれを( 完 全 に) 判 定 することは 困 難 である 一 般 論 的 には 修 正 後 の 文 字 を 採 用 すればいいようにも 思 われるが 脈 望 館 鈔 校 本 に 加 えられた 修 正 の 中 には 晁 蓋 哥 哥 因 三 打 祝 家 庄 身 亡 を 晁 蓋 哥 哥 因 打 曾 頭 市 身 亡 に 變 更 ( 黑 旋 風 仗 義 疎 財 頭 折 ) のように 物 語 の 演 變 や 傳 播 を 考 察 する 上 で 重 要 な 情 報 となる 修 正 もあるので 修 正 前 と 修 正 後 ( 嚴 密 には 最 終 修 正 後 )の 二 種 の 狀 況 がわかるよう 修 正 前 の 字 句 削 除 された 字 句 を" "で 修 正 後 の 字 句 增 補 された 字 句 を" "でくくることにした ファイル 名 が "*_o.txt" となってい るテキストはこの 狀 態 のものである 底 本 において 增 補 削 除 修 正 などの 痕 跡 が 非 常 に 多 い 作 品 については 修 正 前 の 狀 況 を 示 したバージョンと 修 正 後 の 狀 況 を 示 したバージョンとを 公 開 することとした "*_o.txt" のファイルから 內 の 文 字 列 ( 及 び )を 削 除 したものが 修 正 前 の 狀 況 を 示 したバージョンとなる これはファイル 名 を "*_o1.txt" とする "*_o.txt" のファイルから 內 の 文 字 列 ( 及 び )を 削 除 したものが 修 正 後 の 狀 況 を 示 したバージョンとなる これが 原 貌 版 2 で ファイル 名 を "*_o2.txt" とす る 2-4. 斷 句 版 1: 原 貌 版 1 に 最 低 限 の 修 正 と 標 點 符 號 を 加 えたもの 原 貌 版 で 檢 索 を 行 う 場 合 上 述 の 通 用 字 異 體 字 等 の 問 題 のほか 改 行 コード 及 び 句 讀 點 に 關 わる 問 題 がある 底 本 と 同 樣 の 改 行 を 再 現 している 原 貌 版 で ある 漢 字 二 8 例 えば " 扌 鮑 "であれば てへんに 鮑 一 字 を 表 す CHISE / 漢 字 構 造 情 報 データベース http://kanji.zinbun.kyoto-u.ac.jp/projects/chise/ids/ の 提 示 はイメージがつかみやすく 參 考 になる 66

字 の 熟 語 ( 假 に"AB"とする)を 檢 索 する 場 合 "AB"の 間 に 改 行 コードが 入 っている 可 能 性 を 考 慮 しなくてはならない 9 また 句 讀 點 のあるテキストを 檢 索 する 場 合 には A B という 箇 所 は( 探 そうとしている 熟 語 ではなく) 檢 出 しないが 句 讀 點 の 無 い 原 貌 版 では このような 箇 所 も 檢 出 してしまう 熟 語 "AB"が 頻 度 の 高 い 熟 語 である 場 合 には これはかなり 不 便 である こうした 狀 況 では 句 讀 點 を 施 し たテキストの 方 が 便 利 と 考 えられる 斷 句 版 は 原 則 として 原 貌 版 1( 修 正 前 の 狀 況 を 表 すテキスト)を 基 にし 以 下 の 作 業 を 行 った 葉 數 を 示 す 數 字 と 半 葉 ごとの 空 行 改 行 は 削 除 する 手 作 業 で 標 點 符 號 を 加 え と 最 低 限 の 修 正 を 行 う * 白 の 部 分 については " "" "のみを 用 いる ("?" "!" 括 弧 等 は 用 いない) * 曲 詞 の 部 分 については 鄭 騫 北 曲 新 譜 ( 藝 文 印 書 館 1973 年 ) 赤 松 紀 彥 ほか 編 元 刊 雜 劇 の 硏 究 ( 汲 古 書 院 2007 年 ) 等 を 參 考 に 曲 調 の 格 律 に 沿 った 符 號 を 施 すようにしたので 文 意 上 文 法 上 の 切 れ 目 とは 必 ずしも 合 致 しない 押 韻 箇 所 は " "で 韻 を 踏 まない 句 切 れの 箇 所 は " "で 句 中 藏 韻 は" "で 示 した 10 * 明 らかに 誤 りと 推 定 できる 箇 所 のみ 修 正 を 行 った 修 正 削 除 されるべき 字 句 を " "で 修 正 後 の 字 句 增 補 されるべき 字 句 を" "でくくって 示 す 底 本 に 見 られる 修 正 が 適 切 ( 修 正 前 の 狀 況 が 明 らかに 誤 り)と 思 われる 場 合 は それを 採 用 するが 通 用 字 を 正 字 (と 修 正 した 人 物 が 考 えていると 思 われる 文 字 ) に 修 正 しているような 箇 所 は 修 正 前 の 狀 況 をそのまま 殘 してある また 上 述 の 晁 蓋 哥 哥 因 三 打 祝 家 庄 身 亡 晁 蓋 哥 哥 因 打 曾 頭 市 身 亡 のような 例 も 修 正 前 の 狀 況 を 殘 してある 原 貌 版 に 含 まれている 異 體 字 通 用 字 等 はそのままである 2-5. 斷 句 版 2: 斷 句 版 1 の 異 體 字 俗 字 等 を 繁 體 字 に 置 換 したもの 上 述 のように 將 來 的 には 斷 句 版 1 を 異 體 字 同 一 視 テーブルを 組 み 込 んだ 檢 索 シ ステムで 檢 索 するの 適 切 と 思 われるが テキストエディタなどで 檢 索 を 行 う 場 合 の 便 の ため ゆるめに 標 準 化 を 行 った 繁 體 字 版 を 作 成 することにした これが 斷 句 版 2 である 斷 句 版 1 の 作 成 過 程 で 同 時 に 異 體 字 表 の 作 成 を 進 める 9 これは 正 規 表 現 を 使 用 した 檢 索 である 程 度 解 決 可 能 ではある 例 えば EmEditor であれば "A[ r n d #ab]*b" の 檢 索 式 で 改 行 ( 及 び 半 葉 每 のページを 示 す 數 字 ) を 跨 いだ 熟 語 を 檢 索 することができる 10 なるべく 曲 譜 に 沿 って 符 號 を 付 すように 努 めたが 曲 譜 とあまり 合 わない 曲 もあり その 場 合 には 一 句 があまりにも 長 くなりすぎないように 文 意 に 沿 って" "を 付 した 箇 所 がある また 感 嘆 詞 呼 びかけなど ト 書 きで 明 示 はされていないがメロディーに 乘 っていないと 思 われる 箇 所 の 後 にも" "を 付 した 67

上 記 の 異 體 字 表 を 組 み 込 んだ 簡 單 な perl script で 簡 體 字 俗 字 異 體 字 等 を 繁 體 字 に 置 換 すると 同 時 に 內 の 文 字 列 ( 及 び )を 削 除 する( 斷 句 版 1 で 修 正 後 にあるべき 文 字 列 のみが 殘 ることになる) 通 用 字 特 に 音 通 によるものは 敢 えて 變 更 せず そのままである(こうした 箇 所 は 正 文 そのものを 變 更 するのではなく 校 注 部 分 で 言 及 するのが 適 切 と 考 えられる) そのほか 校 訂 する 場 合 ( 特 に 一 般 向 けの 出 版 )でなされるような 大 幅 な 修 正 は 敢 えて 行 っていない 3. 西 廂 記 ( 毛 奇 齡 本 )OCRテキストファイルの 整 理 底 本 は 西 廂 記 五 卷 末 一 卷 ( 民 國 16 年 武 進 董 氏 誦 芬 室 石 印 本 )である 底 本 (の コピー)を 凱 希 メディアサービスを 通 じて 北 京 書 同 文 數 字 化 技 術 公 司 に OCR 外 注 し 納 品 されたテキストファイルを 整 理 公 開 した 槪 要 は 以 下 の 通 り 3-1.OCR 版 1: 書 同 文 公 司 より 納 品 されたテキストファイル 底 本 全 體 を 1 ファイルとしたテキストファイル(Unicode UTF-16LE) 文 中 の 改 行 箇 所 はそのまま 再 現 されている 底 本 は 曲 詞 の 部 分 と 科 白 批 評 部 分 とで 字 の 大 きさがやや 異 なっている やや 小 さい 科 白 批 評 部 分 は"( )"( 半 角 括 弧 )で 圍 んである 小 字 雙 行 ( 音 註 など)になっている 箇 所 は "(" で 始 めている ")" は 使 用 していない が 行 末 ( 論 理 行 の 行 末 )までが 小 字 雙 行 となる 底 本 で 文 字 を 楕 圓 に 圍 ってある 箇 所 は"[ ]"で 圍 われている OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 は "?" で 示 して ある 底 本 の 傍 點 圈 點 は OCR していない Unicode における 以 下 の 文 字 ブロックが 使 用 されている * CJK 統 合 漢 字 (U+4E00~U+9FFF) * CJK 統 合 漢 字 擴 張 A 集 合 (U+3400~U+4DBF) * CJK 統 合 漢 字 擴 張 B 集 合 (U+20000~U+2A6DF) * 私 用 領 域 (U+E000~U+F8FF):U+E81A が 使 用 されている これは 電 子 版 四 部 叢 刊 四 庫 全 書 等 で 使 用 されている HT_CJK+フォントで 表 示 すれば 底 本 とほぼ 同 じグリフとなる(U+E81A であれば とほぼ 同 じグリフ) * その 他 :"?"(U+003F 半 角 ) "( )"( 半 角 括 弧 U+0028 U+0029) "[ ]"( 全 角 大 括 弧 U+FF3B U+FF3D) 半 角 空 白 (U+0020) 全 角 空 白 (U+3000) 3-2.OCR 版 2:OCR 版 1 に 以 下 の 變 更 を 行 ったもの ファイル 名 を 變 更 し エンコーディングスキームを UTF-8(BOM 無 し)に 變 更 した "?"を" "に 置 換 した 68

4. 西 廂 記 ( 王 驥 德 注 本 )OCRテキストファイルの 整 理 底 本 は 新 校 注 古 本 西 廂 記 五 卷 坿 新 校 注 古 本 西 廂 記 考 一 卷 ( 民 國 28 年 北 平 富 晉 書 社 東 來 閣 書 店 影 印 本 山 陰 朱 朝 鼎 香 雪 居 刊 本 ( 萬 曆 42 年 序 )の 影 印 )である 底 本 (のコピー)を 凱 希 メディアサービスを 通 じて 創 新 力 博 公 司 に OCR 外 注 し 納 品 さ れたテキストファイルを 整 理 公 開 した 槪 要 は 以 下 の 通 り 4-1.OCR 版 1: 創 新 力 博 公 司 より 納 品 されたテキストファイル 底 本 全 體 を 1 ファイルとしたテキストファイル(Unicode UTF-16LE) ファイル 名 は 業 者 が 適 宜 附 けており 書 誌 學 的 には 正 確 ではないが 敢 えて 變 更 はしていない 文 中 の 改 行 箇 所 はそのまま 再 現 されている 底 本 で 小 字 雙 行 になっている 箇 所 は"( )"( 半 角 括 弧 )で 底 本 で 文 字 を 楕 圓 に 圍 っ てある 箇 所 は" "で 圍 われている なお 小 字 雙 行 の 箇 所 は 本 來 讀 むべき 順 番 と 異 なってテキスト 化 されている 箇 所 がある 插 圖 や 印 など 文 字 以 外 の 情 報 については 槪 ね 畫 像 ファイルを 別 途 作 成 し テキス トファイル 側 ではその 畫 像 の 埋 め 込 み 箇 所 に<image type='block'.../> 形 式 の タグを 入 れ 關 連 づけしてある OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 については 槪 ね 畫 像 ファイルを 別 途 作 成 し テキストファイル 側 ではその 畫 像 の 埋 め 込 み 箇 所 に <image type='char'.../> 形 式 のタグを 入 れ 關 連 づけしてある 底 本 の 傍 點 圈 點 を " "" "を 用 いて 槪 ね 再 現 している( 傍 點 の 連 續 圈 點 の 連 續 は 再 現 していない) 底 本 では 文 の 句 切 れ 箇 所 のほか 破 讀 の 字 についてはしばし ば 聲 調 を 示 すための 圈 點 が 付 されているが OCR の 際 にはこの 圈 點 も" "で 再 現 され ているため 文 の 終 わりでも 句 切 れ 箇 所 でもない 部 分 に" "が 入 っている Unicode における 以 下 の 文 字 ブロックが 使 用 されている * CJK 統 合 漢 字 (U+4E00~U+9FFF) * CJK 統 合 漢 字 擴 張 A 集 合 (U+3400~U+4DBF) * CJK 統 合 漢 字 擴 張 B 集 合 (U+20000~U+2A6DF) * CJK 互 換 漢 字 (U+F900~U+FAFF):" 裏 "" 一 種 が 使 用 されている * 私 用 領 域 (U+E000~U+F8FF):U+E81A が 使 用 されている これは 電 子 版 四 部 叢 刊 四 庫 全 書 等 で 使 用 されている HT_CJK+フォントで 表 示 すれば 底 本 とほぼ 同 じグリフとなる(U+E81A であれば とほぼ 同 じグリフ) * Basic Latin: 所 謂 ASCII 文 字 主 としてタグの 部 分 で 使 用 されている 改 行 コード 半 角 空 白 半 角 括 弧 等 を 含 む * その 他 :" "(U+3014 U+3015) なお 全 角 空 白 (U+3000)は 含 まない 4-2.OCR 版 2:OCR 版 1 に 以 下 の 變 更 を 行 ったもの ファイル 名 を 變 更 し エンコーディングスキームを UTF-8(BOM 無 し)に 變 更 した <image type='block'.../> 形 式 のタグを<image>に 置 換 必 要 に 應 じ 手 動 で 改 69

行 を 插 入 した <image type='char'.../>のタグを" "に 置 換 した " "" "を 全 て 削 除 した 5. 水 滸 傳 ( 容 與 堂 本 )OCRテキストファイルの 整 理 底 本 は 明 容 與 堂 刻 水 滸 傳 一 ~ 四 ( 上 海 人 民 出 版 社 中 國 國 家 圖 書 館 ( 舊 北 京 圖 書 館 ) 藏 本 を 底 本 とする 影 印 本 )である 底 本 (のコピー)を 凱 希 メディアサービスを 通 じて 創 新 力 博 公 司 に OCR 外 注 し 納 品 されたテキストファイルを 整 理 公 開 した 槪 要 は 以 下 の 通 り 5-1.OCR 版 1: 創 新 力 博 公 司 より 納 品 されたテキストファイル 底 本 の 半 葉 を1ファイルとしたテキストファイル(Unicode UTF-16LE)の 集 合 文 中 の 改 行 箇 所 はそのまま 再 現 されているが 空 行 空 白 の 部 分 は 槪 ね 詰 めてある 影 印 本 底 本 ( 中 國 國 家 圖 書 館 藏 本 )の 刷 り 保 存 狀 態 は 大 變 よいが 一 部 缺 けてい る 箇 所 があり それは 影 印 本 にもそのまま 反 映 されている 11 このような 底 本 の 缺 損 に 由 來 する 不 明 字 は 槪 ね" "(U+25A1)で 表 されている( 一 部 のファイルでは 全 角 空 白 (U+3000)で 表 現 ) 前 半 ( 第 49 回 まで)において 底 本 で 缺 けてはいないが OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 については 槪 ね 畫 像 ファイルを 別 途 作 成 し テキストファイル 側 ではその 畫 像 の 埋 め 込 み 箇 所 にタグを 入 れ 關 連 づけしてある ( 一 部 のファイルでは 全 角 空 白 (U+3000)となっている) 底 本 にある 批 評 のうち 各 回 末 總 評 と 正 文 に 小 字 雙 行 で 入 っている 批 評 は OCR され ており 夾 批 と 眉 批 は 省 略 されている Unicode における 以 下 の 文 字 ブロックが 使 用 されている * CJK 統 合 漢 字 (U+4E00~U+9FFF) * CJK 統 合 漢 字 擴 張 A 集 合 (U+3400~U+4DBF) * CJK 統 合 漢 字 擴 張 B 集 合 (U+20000~U+2A6DF) * CJK 互 換 漢 字 (U+F900~U+FAFF):" 﨑 "" 﨣 "の 二 種 が 使 用 されている * 私 用 領 域 (U+E000~U+F8FF):U+E850 が 使 用 されている これは 電 子 版 四 部 叢 刊 四 庫 全 書 等 で 使 用 されている HT_CJK+フォントで 表 示 すれば 底 本 とほぼ 同 じグリフとなる(U+E850 であれば とほぼ 同 じグリフ) * その 他 :" "(U+25A1) 全 角 空 白 (U+3000) 改 行 コード 11 筆 者 ( 笠 井 )は 1995 年 に 北 京 圖 書 館 ( 當 時 現 在 の 中 國 國 家 圖 書 館 ) 善 本 閱 覽 室 で 目 睹 調 查 する 機 會 があり 上 海 人 民 出 版 社 影 印 本 を 持 參 して 對 照 した 原 本 は 刷 り 保 存 狀 態 とも 大 變 良 く また 影 印 本 は 所 藏 印 を 消 去 しているほかは 文 字 の 缺 損 板 框 の 缺 けなども 補 ったりしておらず 原 本 に 非 常 に 忠 實 な 影 印 本 である 70

5-2.OCR 版 2:OCR 版 1 に 以 下 の 變 更 を 行 ったもの エンコーディングスキームを UTF-8(BOM 無 し)に 變 更 した 1 回 1 ファイルになるようファイルを 結 合 ( 半 葉 每 に 空 行 を 挾 んである)した 卷 首 は 000.txt とし 第 一 回 が 001.txt 以 下 順 に 第 一 百 回 が 100.txt となる 畫 像 ファイルへのタグは 一 律 に" "(U+3013)に 置 換 した 全 角 空 白 46 箇 所 のうち 底 本 で 缺 けてはいないが OCR オペレーターがどの 文 字 と 同 定 すべきか 判 斷 できなかった 文 字 と 思 われる 箇 所 については 原 則 として" " (U+3013)に(ごく 簡 單 な 文 字 OCR 漏 れなど 3 箇 所 については 手 作 業 で 入 力 ) 底 本 の 缺 損 により 判 讀 不 能 な 箇 所 は" "(U+25A1)に 置 換 した 本 來 空 白 であるべき( 文 脈 上 の 必 要 から 空 白 となっている) 箇 所 はそのまま 殘 した 私 用 領 域 の 文 字 U+E850 を ほぼ 同 じグリフである" "(U+499F)に 置 換 した 5-3.OCR 版 2 利 用 上 の 留 意 點 未 校 訂 なので 字 形 の 近 似 に 起 因 する 誤 字 が 含 まれている 上 述 のように 異 體 字 ( 及 び 字 形 の 類 似 した 別 字 )を 相 當 含 むので 檢 索 を 行 う 場 合 に はその 點 を 考 慮 する 必 要 がある 例 えば " 參 "を 調 べたい 場 合 " 參 参 叅 𠫭 " 等 を 同 時 に 檢 索 する など 12 各 回 末 總 評 と 正 文 に 小 字 雙 行 で 入 っている 批 評 はそのまま 殘 してあるので その 部 分 は 容 與 堂 本 水 滸 傳 の 正 文 ではない 點 に 留 意 されたい 特 に 正 文 に 小 字 雙 行 で 入 って いる 批 評 は ()でくくるよう 依 賴 したが 實 際 にはそうなっていないので 本 文 に まぎれてしまっており 注 意 が 必 要 である 內 閣 文 庫 藏 天 理 圖 書 館 藏 容 與 堂 本 の 卷 首 にある 忠 義 水 滸 傳 敘 ( 李 卓 吾 序 )は 中 國 國 家 圖 書 館 藏 本 にはないため このテキストファイルには 含 まれていない( 上 海 人 民 出 版 社 影 印 本 では 缺 損 部 分 については 內 閣 文 庫 藏 本 に 基 づく 補 遺 を 付 しており この 序 も 排 印 で 補 っている) 6.OCR 外 注 テキストの 精 度 業 者 からの 當 初 の 見 積 もりでは 錯 誤 率 0.03% 以 下 という 數 字 が 示 されていたが いず れもそこまでは 達 成 されていないように 見 受 けられる 特 に 本 プロジェクト 初 期 にOCRを 依 賴 した 脈 望 館 鈔 校 本 は ファイルによってやや ばらつきがあり 最 もひどい 例 ( 黑 旋 風 雙 獻 功 )では 依 賴 した 底 本 からのOCRでは なく 元 曲 選 本 の 電 子 テキストに 打 字 の 方 式 で 加 工 した(が 元 曲 選 本 の 痕 跡 が 殘 っている)ことを 強 く 示 唆 する 仕 上 がりのものもあった 13 ただし これはやはり 極 端 12 例 えば EmEditor であれば "[ 參 参 叅 𠫭 叁 叄 ]" の 檢 索 式 となる 13 例 えば OCR 版 1 では 第 二 折 末 の 店 小 二 下 場 詩 は 脈 望 館 本 には 存 在 しない( 元 曲 選 本 にある) 惹 場 大 是 非 不 如 関 了 店 只 去 吊 水 雞 の 三 句 がある このほか 第 一 葉 表 では 長 街 尋 護 臂 神 州 去 焼 香 渾 家 身 無 事 還 家 謝 穹 蒼 ( 下 搽 旦 云 ) 孔 目 你 尋 了 護 臂 早 些 兒 來 とあるべきところ 長 街 尋 護 臂 早 些 兒 耒 となって 行 の 眞 ん 中 71

な 例 で 他 のファイルはまずまず 滿 足 なできであった 本 プロジェクト 進 行 中 に OCR システムも 更 に 開 發 が 進 み CJK 統 合 字 擴 張 B 集 合 のブロックの 文 字 が 扱 えるアプリケーション フォントも 普 及 してきた 本 プロジェ クト 後 半 に OCR 依 賴 をした 水 滸 傳 ( 容 與 堂 本 )では 底 本 の 文 字 が 鮮 明 で 見 やすいこ ともあり かなり 精 度 が 上 がっている 正 確 さや 底 本 の 特 定 の 字 形 に 對 してどの 文 字 ( 字 體 )が 選 擇 されるかは 恐 らくオ ペレーターの 力 量 や 志 向 に 起 因 すると 思 われるばらつきがある( 多 くの 異 體 字 字 形 の 近 似 した 字 が 候 補 となるので いずれを 選 擇 するかはある 程 度 オペレーターの 裁 量 にな るため) 今 回 は こちらからは 細 かい 指 示 をほとんどしなかったのだが 依 賴 の 際 に ある 程 度 細 かい 指 定 を 行 った 方 が 良 かったかもしれない 精 度 について サンプル 的 に 第 48 回 ( 約 5000 字 )をチェックしてみた 明 らかに 誤 りと 見 なせる 例 のみ 抽 出 した(どの 異 體 字 を 選 擇 するかの 問 題 或 いは 底 本 の 字 形 からは 正 しい 文 字 が 必 ずしも 明 らかではなく 文 章 を 理 解 して 初 めてどの 字 か 判 定 で きるようなもの 14 は 抽 出 しない)ところ 以 下 の 17 箇 所 が 見 つかった 葉 數 行 OCR 版 底 本 1 表 9 小 嘆 囉 小 嘍 囉 2 裏 14 將 今 將 令 3 裏 13 要 來 要 求 4 表 7 只 要 賢 防 只 要 緊 防 7 表 1 知 何 如 何 7 表 4 歐 鵩 歐 鵬 7 表 5 歐 鵩 歐 鵬 7 表 6 歐 鵩 歐 鵬 7 表 8 歐 鵩 歐 鵬 7 裏 20 歐 鵩 歐 鵬 8 表 1 欒 延 玉 欒 廷 玉 8 表 4 欒 延 玉 欒 廷 玉 8 表 6 欒 延 玉 欒 廷 玉 8 裏 14 欒 延 玉 欒 廷 玉 あたりから 約 一 行 分 脫 落 していたり 分 毫 也 那 不 爭 分 毫 也 拿 不 爭 のような 變 換 ミス(OCR ではなく 打 字 による 誤 りと 思 われる) 将 押 觧 人 打 死 将 觧 人 打 死 のような 拔 け ある 行 の 一 番 上 の 文 字 であるはずの 字 がその 前 の 行 の 一 番 下 になっている( 改 行 位 置 を 手 作 業 で 插 入 した 際 のミスと 思 われる) などの 況 から 推 して 元 曲 選 本 の 電 子 テキストに 打 字 の 方 式 で 加 工 した 可 能 性 が 高 い 14 例 えば 詩 曰 とすべきところが 詩 日 となっている など 72

8 裏 21 欒 延 玉 欒 廷 玉 11 表 4 無 面 日 無 面 目 11 裏 13 15 下 囘 分 解 すなわち 第 48 回 についていえば 明 らかな 誤 りと 見 なせるものは 0.3% 程 度 含 まれ ていたことになる 事 前 の 見 積 もりの 10 倍 あるということになるが 以 前 に 比 べれば 大 幅 に 向 上 していると 言 えよう これだけではサンプルとしても 量 が 足 りず この 數 字 がどの 程 度 代 表 性 があるか 心 許 ないが OCR 外 注 を 考 えている 方 の 參 考 に 記 してお くことにする なお 本 プロジェクトでも 講 演 を 依 賴 し 今 回 本 報 告 書 にご 寄 稿 頂 いた 首 都 師 範 大 學 の 周 文 業 教 授 が 容 與 堂 本 の OCR テキストファイルを 頒 布 している 周 教 授 によ れば 創 新 力 博 とは 異 なる 業 者 に 依 賴 したとのことである これとの 比 較 は 詳 しくは 行 っていないが ざっと 見 た 感 じでは 以 下 の 點 が 指 摘 できる (1) 異 體 字 を 底 本 に 忠 實 に 再 現 するという 點 では おおむね 周 氏 のテキストの 方 がま さる 本 プロジェクトのテキストで いわゆる 正 字 あるいは 良 く 使 用 される 文 字 (CJK 統 合 漢 字 の 文 字 など)を 使 っている 箇 所 で 周 氏 のテキストでは 擴 張 A 擴 張 B などのブロックの 字 も 積 極 的 に 利 用 して 異 體 字 を 表 現 している (2) 上 記 のような 明 らかな 誤 り に 關 しては どちらも 多 少 あり 兩 者 を 比 較 する ことで 校 訂 が 多 少 能 率 的 になると 思 われる 16 (3) 周 氏 のテキストでは U+2A700~のコードポイントが 使 用 されている 同 梱 のフ ォントを 利 用 して 表 示 するシステムで いわば 外 字 の 一 種 である (U+2A700 U+2B734 は CJK 統 合 漢 字 擴 張 C 集 合 のブロックとなる 予 定 であるが 同 梱 のフ ォントで 表 示 されるのは Unicode に 追 加 される 予 定 のものとは 全 く 異 なったグリ フである) 周 氏 提 供 のシステムで 使 用 するのみであれば 何 ら 問 題 はないが テキ ストデータを 別 のプログラムで 處 理 したり このブロック 內 の 文 字 を 引 用 した 論 文 を 電 子 ファイルで 他 者 に 送 ったりする 場 合 は 問 題 が 生 ずる 可 能 性 がある 將 來 的 に 擴 張 C が 實 裝 され 普 及 した 場 合 には この 部 分 の 對 應 を 考 える 必 要 がある だろう 本 プロジェクトでのテキストファイル 作 成 は 試 行 的 な 性 格 のもので 現 段 階 で 提 供 で きるテキストファイルはまだ 少 數 である( 整 理 中 校 訂 中 校 訂 依 賴 中 のものがあり 將 來 的 にはもう 少 し 增 える 予 定 であるが) 木 版 本 鈔 本 の OCR 外 注 によるテキストフ ァイル 作 成 は 注 意 すべき 點 も 多 々あるが 工 夫 をすればそれなりには 使 える 段 階 15 16 一 行 脫 落 上 述 の 第 48 回 のチェックでは 兩 者 の 比 較 にフリーのテキスト 比 較 アプリケーショ ン Rekisa( http://frozenlib.net/rekisa/ )を 利 用 した 73

になりつつあると 思 われる 異 體 字 を 多 く 含 むテキストファイルの 活 用 には 異 體 字 表 の 整 備 と 公 開 オープンでカスタマイズ 可 能 な 檢 索 システムの 開 發 が 必 須 であり これ も 今 後 の 課 題 となろう 74