SMART-GS プロジェクト 歴 史 的 文 献 研 究 のためのソフトウェアシステムの 開 発 久 木 田 水 生 名 古 屋 大 学 人 類 文 化 遺 産 テクスト 学 研 究 センター 公 開 セミナー 2014 年 9 月 15 日 1. 概 要 SMART-GS は 歴 史 的 史 料 の 研 究 を 支 援 するために 京 都 大 学 の 林 晋 教 授 ( 文 学 研 究 科 情 報 史 料 学 専 修 )を 中 心 に 開 発 されているソフトウェアです GS は Geschichte Studie (ドイツ 語 で 歴 史 研 究 の 意 味 )の 略 です SMART-GS は 画 像 ビューワーとテキストエディターが 統 合 されたもので 画 像 とテキストにマークアッ プをつけ それらの 間 にリンクをつけることができるのが 特 徴 です SMART-GS は GPL2 ライセンス 1 の 下 で 公 開 されており 誰 でも 自 由 に 利 用 配 布 でき またそのソースコー ドを 改 変 する 事 も 自 由 です SMART-GS は SourceForge.JP のサイトで 公 開 配 布 されています URL は 以 下 の 通 りです 2 http://sourceforge.jp/projects/smart-gs/ マニュアルは 以 下 で 読 むことができますので 使 い 方 について 詳 しくはこちらを 参 照 してください 日 本 語 :http://smart-gs.sourceforge.jp/manual/ja/index.html 英 語 :http://smart-gs.sourceforge.jp/manual/en/index.html 2. 機 能 2.1. 画 像 の 閲 覧 とテキストの 編 集 SMART-GS を 利 用 している 画 面 は Figure 1 ようになります この 図 のように 史 料 画 像 を 表 示 しながら テキス トを 編 集 することができます テキストにはそれぞれの 画 像 に 付 随 するものと 画 像 とは 独 立 したものがあります 例 えば 文 書 全 体 についてのデータや 翻 刻 プロジェクトの 紹 介 などは 画 像 とは 独 立 したテキストとして 記 してお くとよいでしょう この 資 料 は 2014 年 9 月 15 日 に 開 催 された 名 古 屋 大 学 大 学 院 文 学 研 究 科 付 属 人 類 文 化 遺 産 テクスト 学 研 究 センター 公 開 セミナーにおいて 配 布 した 資 料 を 若 干 修 正 したものです 名 古 屋 大 学 大 学 院 情 報 科 学 研 究 科 minao.kukita@is.nagoya-u.ac.jp 1 使 用 者 がソフトウェアを 自 由 に 使 用 改 変 複 製 ができることを 保 証 するライセンス フリーソフトウ ェアの 思 想 に 基 づく 2 現 在 のバージョンは 0.9.3 で これは 2013 年 7 月 12 日 にリリースされたものです 今 月 末 に 大 幅 に 機 能 を 拡 張 した 新 しいバージョンがリリースされる 予 定 です 本 日 の 説 明 とデモは 新 しいバージョンに 基 づ いています
Figure 1. SMART-GS の 利 用 画 面 2.2. マークアップ テキストと 画 像 にもマークアップをつけることができます 私 たちが 紙 に 書 かれた 文 書 に 対 して 行 うこと( 線 で 囲 む マーカーでハイライトする メモを 書 き 込 む しおりを 挟 むなど)を 電 子 テキストにもできるように 工 夫 されています 2.3. リンク マークアップの 間 にリンクをつけて リンクされたマークアップをすぐに 参 照 できるようになっています ウ ェブブラウザーでサイト 間 のリンクをたどるのと 同 様 と 考 えてください ただしウェブサイト 間 のリンクが 多 対 一 になっているのに 対 し SMART-GS のリンクは 多 対 多 になっています またウェブサイト 間 のリンクは リ ンク 元 からリンク 先 への 移 動 しかできませんが SMART-GS のリンクでは 両 方 向 の 移 動 が 可 能 です 2.4. 検 索 テキスト 内 の 検 索 だけではなく 画 像 上 の 文 字 列 を 形 の 類 似 性 に 基 づいて 検 索 ができます 形 の 類 似 性 によ っているのでどんな 言 語 でも 検 索 ができます 縦 書 きにも 対 応 しています 画 像 検 索 ができるためには 画 像 に 行 が 指 定 されていて さらにその 行 情 報 に 基 づく DSC ファイルというも のが 作 成 されている 必 要 があります この 説 明 はここでは 割 愛 します 詳 しくはオンラインマニュアルを 参 照 し てください
Figure 2. 手 書 き 文 字 の 検 索 2.5. ファイル SMART-GS では GSX ファイルという 形 式 のファイルを 使 っています 3 拡 張 子 は.gsx です このファイル は 実 際 には ZIP ファイルになっていて その 中 には XML ファイルが 含 まれています XML には 翻 刻 や 注 釈 等 のテキスト 情 報 マークアップやリンクの 情 報 などが 記 録 されています 史 料 画 像 そのものは 含 まれていません 画 像 ファイルは 別 のところに 保 存 されているという 前 提 です これは 歴 史 史 料 (の 画 像 ファイル)は 変 更 され ることがない という 考 えに 基 づいた 設 計 です また 画 像 検 索 をするために 必 要 な DSC ファイル(2.4 参 照 )も GSX ファイルとは 別 の 場 所 に 保 存 されていることになっています そのため GSX ファイル 自 体 のサイズは 小 さ くなっています 2.6. TEI 対 応 TEI は Text Encoding Initiative の 略 で 人 文 学 系 の 資 料 を 電 子 化 する 際 のマークアップ 方 式 を 標 準 化 するこ とを 推 進 している 非 営 利 団 体 またはそのマークアップ 方 式 のことです 従 来 の SMART-GS は 独 自 のマーク アップを 用 いてきましたが 今 後 は TEI に 対 応 したマークアップ 方 式 を 取 り 入 れることになっています 2.7. OCR SMART-GS は 手 書 きの 原 稿 の 翻 刻 を 主 眼 に 置 いていますが 古 いタイプ 原 稿 などを 対 象 とするときには OCR が 有 効 です 次 にリリースするバージョンでは Tesseract という Google が 開 発 している OCR ソフトを SMART- GS から 呼 び 出 して 文 字 認 識 をすることができるようになります(Tesseract のインストールはユーザーが 別 に 行 う 必 要 があります) OCR を 使 った 時 には 自 動 的 に 行 の 情 報 も 作 成 されます 3 以 前 のバージョンでは GS ファイルという 形 式 でした
Figure 3. OCR による 文 字 認 識 3. 使 用 例 私 たちが 把 握 している 限 り SMART-GS を 利 用 した 翻 刻 プロジェクトには 次 のようなものがあります 4 数 学 者 ダーフィト ヒルベルトの 手 稿 研 究 ( 京 都 大 学 林 教 授 ) 哲 学 者 田 邊 元 の 手 稿 研 究 ( 京 都 大 学 林 教 授 ) 倉 富 勇 三 郎 日 記 翻 刻 プロジェクト( 京 都 大 学 永 井 和 教 授 ) 内 海 忠 司 日 記 翻 刻 プロジェクト( 近 畿 大 学 近 藤 正 巳 教 授 ) テルグ 語 インド 古 典 文 献 研 究 ( 京 都 大 学 志 田 泰 盛 助 教 ) ガリレオ 手 稿 研 究 ( 京 都 大 学 伊 藤 和 行 教 授 ) 4. SMART-GS の 特 色 4.1. 文 献 研 究 を 専 門 にするプロの 人 文 学 者 のためのツール ソフトウェアには すぐに 使 えるようになるが 機 能 が 限 定 されているものと 十 分 に 使 いこなすには 習 熟 を 要 するが 高 機 能 なものとがあります 例 えばメモ 帳 とエクセルのようなソフトを 思 い 浮 かべていただけるとわかり やすいでしょう エクセルを 十 分 に 使 いこなすには 時 間 がかかりますが ひとたび 慣 れてしまうとそれなしで 作 業 をするのが 考 えられないようになります SMART-GS はそのようなソフトウェアであることを 意 図 して 作 ら れています もちろん 可 能 な 限 り 直 観 的 に 使 いやすいものであるように 心 がけてはいますが しかしやはりその 機 能 を 十 分 に 使 いこなすまでのハードルは 低 くありません それでもプロの 研 究 者 にとって 本 当 に 有 用 な 機 能 が 備 わっており 翻 刻 の 作 業 を 大 幅 に 効 率 化 できるものを 目 指 しています 4.2. 協 働 翻 刻 の 促 進 SMART-GS は 特 に 協 働 作 業 の 場 面 において 大 きな 力 を 発 揮 します 上 述 したように SMART-GS が 扱 う GSX ファイルは 基 本 的 に XML ファイル(を ZIP 化 したもの)ですので 比 較 的 サイズが 小 さくて 済 みます 各 自 が 画 像 と DSC ファイルを 別 に 持 っておけば GSX ファイルだけのやり 取 りで 簡 単 に 翻 刻 プロジェクトを 共 有 す ることができるのです また 画 像 につけられたマークアップにはユーザーの ID や 作 成 された 時 間 を 含 む 一 意 的 な 識 別 記 号 (URI)がつけられるため 誰 がどのような 編 集 をしたかを 知 ることができます また SMART-GS 4 橋 本 雄 太 集 合 知 で 読 む 歴 史 史 料 -SMART-GS が 実 現 するグループリーディング 人 文 情 報 学 月 報 37 号 ( 前 編 ) 2014 年 8 月 25 日 http://www.dhii.jp/dhm/dhm37_smartgs
の UI には 複 数 の 研 究 者 によるディスカッションを 効 率 化 するための 工 夫 が 色 々と 施 されています 画 像 とテ キストの 行 対 応 ルーペ 一 時 的 マークアップなどの 機 能 は 実 際 に 協 働 翻 刻 を 進 めていく 上 で こういう 機 能 があったら 便 利 だという 認 識 から 生 まれてきたものです 協 働 翻 刻 の 重 要 性 は 現 在 様 々な 翻 刻 プロジェクトの 中 で 認 識 されています 5 私 たちが 推 進 している 田 辺 元 の 手 稿 の 翻 刻 プロジェクトでも 協 働 翻 刻 は 大 きな 力 を 発 揮 しています 田 辺 の 手 稿 は 非 常 な 悪 筆 な 上 に 新 カン ト 派 ドイツ 観 念 論 現 象 学 数 学 物 理 学 の 専 門 用 語 日 本 語 (の 古 いくずし 字 ) ドイツ 語 フランス 語 古 代 ギリシャ 語 などが 混 ざるために 非 常 に 読 みにくく これまでは 日 本 哲 学 の 専 門 家 でも 匙 を 投 げてきました し かし 現 在 日 本 哲 学 を 専 門 家 としない 研 究 者 チームの 協 働 によってこのテキストの 翻 刻 が 進 められています Figure 4. 田 辺 元 の 手 稿 上 の 青 い 四 角 には 古 代 ギリシャ 語 下 の 四 角 には 日 本 語 の 古 いくずし 字 が 含 まれる 4.3. 開 発 のスタイル SMART-GS の 開 発 チームに 特 徴 的 な 点 の 一 つは リーダーの 林 先 生 をはじめとしてその 主 要 メンバーが 人 文 学 者 で かつ SMART-GS の 一 番 のユーザーであるという 点 です 開 発 チームは 週 に 一 度 開 発 ミーティングと SMART-GS を 使 った 田 辺 元 の 手 稿 の 研 究 会 を 行 い そして 次 の 週 のミーティングと 研 究 会 までに 各 自 がコード を 書 き 翻 刻 を 進 めるというやり 方 を 取 っています このようにして 協 働 翻 刻 の 現 場 で 何 があれば 便 利 かという ことが 認 識 されると 直 ちにソフトウェアの 機 能 にそれが 反 映 されます 人 文 情 報 学 の 一 プロジェクトとして 考 えた 時 に この SMART-GS の 開 発 のスタイルは 興 味 深 いものかもしれ ません というのも 人 文 情 報 学 ではツールの 開 発 実 践 方 法 論 の 開 発 という 三 つのフェイズがいかに 効 率 よく 影 響 しあうかということが 非 常 に 重 要 だからです 一 般 に 人 文 情 報 学 のプロジェクトにおいては ツールの 開 発 者 は 工 学 者 でユーザーは 人 文 学 者 という 組 み 合 わせが 多 いと 思 います そのため 実 践 と 開 発 の 間 にはどうしても ギャップが 出 てしまいます SMART-GS の 開 発 スタイルは 人 文 情 報 学 の 効 率 的 な 方 法 論 の 一 例 を 提 供 するか もしれません 5 例 えば University College London の Transcribe Bentham プロジェクト(http://www.transcribebentham.da.ulcc.ac.uk/td/Transcribe_Bentham)など