XML が開く学術出版の未来 2012. 9. 19 時実象一愛知大学 tokizane@aichi-u.ac..jp 学術情報 XML 推進協議会 学術情報の XML 製作 流通を推進するため結成 2012/6/28 学会 印刷会社 JST 学識者 会長 : 時実象一 XML 普及のための活動 XML 普及のための広報 宣伝 学会 印刷会社への情報提供 教育 JATS の改良のための研究 助言 2
自己紹介 有機化学出身 東レ ( 株 ) 基礎研究所 環境技術研究所 ( 社 ) 化学情報協会で CAS データベースの導入と展開 CAS (Columbus, Ohio) 科学技術振興機構 (JST) で J-STAGE の開発 愛知大学図書館情報学専攻 3 目次 XML, NLM DTD と JATS わが国の SGML/XML 出版 日本語処理のための NLM DTD の改良 JATS XML のタグ付けと組版 XML を使った電子出版の可能性 4
SGML, HTML SGML (Standard Generalized Markup Language) 元は IBM s Generalized Markup 政府文書の作成などで普及 学術雑誌の編集も HTML (HyperText Markup Language) SGML の Web 版とみなされる DTD が不要 5 XML extensible Markup Language 現在電子文書の中心 データ交換 メタデータ記述 (RDF) 電子ジャーナル 電子書籍 (XHTML, EPUB) Microsoft Office 6
DTD Document Type Definition SGML, XML において 文書構造 ( 文書型 ) を定義する 具体的には 要素 (element) 属性 (attribute) などを定義する 7 NLM DTD 学術雑誌における XML の DTD として開発 (2002) PubMed Central 改良計画 (NCBI) 学術雑誌の電子的アーカイブ プロジェクト ハーバード大学 メロン財団 メンバー NCBI ハーバード大学 メロン財団 Mulberry Technologies (NCBI コンサルタント ) Inera, Inc. ( ハーバード大学コンサルタント ) 8
JATS Journal Article Tag Suite (JATS) NLM DTD 3.1 (draft) が NISO に移行 JATS version 0.4 トライアルが 2011/9/30 で終了 version 1.0 は 2011/8/9 に ANSI 承認 公開 9 わが国での SGML/XML 出版 情報知識学会誌 (1990) 凸版印刷と協力 SGML 編集 学術情報センター ( 現国立情報学研究所 ) SGML 実験誌 (1991) 慶應義塾大学三田情報センター ( 図書館 ) 三田商学会の欧文誌と和文誌の SGML 試作 (1991) 10
わが国での SGML/XML 出版 情報知識学会 SGML フォーラム ( 後に SGML/XML フォーラム ) で SGML/XML の普及 11 わが国での SGML/XML 出版 日本化学会 Bulletin of the Chemical Society of Japan (BSCJ) 凸版印刷の協力 1993. 1 より SGML 作成 LaTeX 印刷 化学反応式の表現や元素記号の上付き 下付きなどにも対応 1998 より HTML 全文オンライン公開 2001 FrameMaker/SGML に移行 2003 SGML をやめ TeX/3B2 に移行 12
わが国での SGML/XML 出版 日本化学会 Bulletin of the Chemical Society of Japan (BSCJ) extyles (inera) を用いて Word XML これを 3B2 で組版 2009. 1 号より実施 epub 試験公開 (2010. 3 号 ) 13 わが国での SGML/XML 出版 情報管理 誌 1999. 4 より SGML 編集開始 オンライン版試験公開 JICST-DTD を開発 入稿データ ( 一太郎 ) をツール (JICST タガー ) を使ってタグ付けして SGML 化 Interleaf5 <SGML> で自動組版 2001. 4 まで 14
わが国での SGML/XML 出版 医療情報学連合大会論文集 1996-1997 の大会 著者に XML データ作成依頼 ツールでチェック FrameMaker+SGML 印刷用の Postscript データと CD-ROM 用の HTML データ (CSS 利用 ) を作成 15 わが国での SGML/XML 出版 J-STAGE J-STAGE 用の SGML DTD を開発 JICST-DTD を基礎 FrameMaker+SGML 工程 約 100 誌が書誌事項等作成 XML も検討 XML DTD 開発 3 誌が全文 HTML 公開 16
わが国での SGML/XML 出版 XML 出版の機運 J-STAGE 新バージョンでは JATS 0.4 を採用 PubMed Central 搭載希望学会の増加 17 J-STAGE J-STAGE 科学技術振興機構 (JST) が運営する電子ジャーナル プラットフォーム 2,387,426 記事 / 1,658 雑誌 新 J-STAGE は 2012 年 5 月に公開 JATS 0.4 すでに数誌が JATS XML を使って登載 18
PubMed Central 米国国立衛生研究所 (NIH) の電子ジャーナル アーカイブ オープンアクセス 一定の基準を満たせばどこの雑誌も受け入れ PubMed ( 医学データベース ) に索引されるので 世界中に流通促進 19 日本語処理と NLM DTD の問題 著者名に言語属性 (@xml:lang) を指定できない @name-style で代用 (Atypon) <contrib-group> <contrib contrib-type="author"> <name name-style="western"><surname>nihon</surname> <given-names>taro</given-names> </name> <name name-style="eastern"><surname> 日本 </surname> <given-names> 太郎 </given-names> </name> </contrib> 20
日本語処理と NLM DTD の問題 NLM DTD の問題点 多くの要素が繰り返しができないので 日英 2 種類の記述ができない <kwd-group>, <publisher-name>, etc. 複数記述のできる要素でも それらが同一の実体を別の書き方をしたということがわからない <name>, <aff> 21 SPJ ワーキング グループ Scholarly Publishing Japan 構成 印刷会社 ( 中西 小宮山 三美 ) サービス会社 ( アトラス アルテック 日本プリプレス ) 個人 ( 林 時実 ) JST ( 久保田 *) NII ( 大山 *) * オブザーバ 22
SPJ ワーキング グループ 目的 NLM DTD の多言語サポートのため提言 NLM DTD で定義が不足している部分の定義 ガイドライン作成 実績 2010/4 に NLM-DTD WG に提言 3.1 ドラフト作成に貢献 23 SPJ ワーキング グループ 回 日 主な成果 1 2010/3/1 多言語の XML を作成する上での問題点を議論 2 2010/4/5 著者名 本文 引用文献について多言語表記案を作成 提案 3 2010/5/13 多言語サンプルについて検討 4 2010/6/17 著者名 雑誌メタデータ 所属機関 xref の使い方 キーワードなどの多言語表記案を作成 提案 5 2010/12/6 id 属性について検討 提案 6 2011/1/13 7 2011/2/14 著者と所属機関の対応が 1 対 1 でない場合の表記について検討 提案 24
SPJ ワーキング グループ ボランティアの集まり 学術情報 XML 推進協議会の母体 SPJ の将来 学術情報 XML 推進協議会の研究会に移行を検討 25 NLM DTD Version 3.1 Draft 2010/9 多言語サポート アクセシビリティ サポート 2010/3 NISO JATS 0.4 となった 26
多言語サポート 日本の WG の意見を参考に 要点 @xml:lang による言語指定がほとんどの要素で可能 ほとんどの構造の繰り返し記述可能 同一のものが繰り返し記述されている場合に それがひとつのものの別言語での記述であることを示すためのラッパー 27 @xml:lang ほとんどの要素に指定可能となった 言語コードとスクリプト (IANA) xml:lang= en 英語 xml:lang= ja-jpan 漢字まじり xml:lang= ja-kana カタカナ xml:lang= ja-hira ひらかな 28
繰り返し記述 ほとんどの構造が繰り返し可能 <kwd-group xml:lang="en"> <kwd>heated air</kwd> </kwd-group> <kwd-group xml:lang="ja"> <kwd> 加温空気 </kwd> </kwd-group> 論文タイトルだけは繰り返しできない <trans-title> を使用 29 ラッパー 著者名の多言語表記 <name-alternatives> ラッパー 30
ラッパー 所属機関の多言語表記 <aff-alternatives> ラッパー 31 アクセシビリティ サポート XML テキストの機械読み上げを容易にする @alt を導入 <abbrev> で好ましい読み方を指示する DAISY などで使える <abbrev alt= W.H.O.">WHO</abbrev> 32
表と数式 表 <table> (XHTML) OASIS/CALS は JATS では非標準 数式 <mml:math> (MathML 2.0) <tex-math> (TeX, LaTeX) 33 JATS 1.0 に向けて 以下を提案 グループ著者の多言語化のための <collabalternatives> の導入 ( ) ふりがな記述を可能に ( ) 非グレゴリー暦 ( 和暦 イスラム暦など ) の記述方法の導入 ( ) 引用文献の多言語化のための <refalternatives> の導入 ( ) 34
JATS ワーキング グループ 共同議長 Jeff Beck (NLM), B. Tommie Usdin (Mulberry Technologies) メンバー Thomas Dowling (OhioLink), Beth Friedman (DCL), Kathryn Henniss (HighWire), Laura Kelly (NLM), Deborah A. Lapeyre (Mulberry Technologies), Nikos Markantonatos (Atypon), John Meyer (Portico), Evan Owens (AIP), Wendy Queen (Johns Hopkins University Press), Bruce Rosenblum (Inera), Nate Trail (Library of Congress), Alex Wade (Microsoft) 35 JATS ワーキング グループに参加 SPJ は JATS ワーキング グループにオブザーバとして参加することに内定 JATS 1.0 の討議にオフラインで参加 36
J-STAGE 新バージョン 2012/5 に公開 JATS 0.4 を正式サポート 37 J-STAGE 38
New J-STAGE 39 extyles XML タグ付け 米国 Inera 社の製品 MS Word の論文を解析して 文章クリーニングとともに 自動タグ付けをおこなう 引用文献もタグ付け可能 CrossRef Simple Text Query Editorial Manager 投稿システム 欧米主要出版社が導入 40
extyles 日本語論文は手作業で編集が必要な場合がある 雑誌ごとにカスタマイズ必要 日本語テキストの場合 困難または不要 41 extyles 国際文献印刷社 HP より 42
CrossRef Simple Text Query 引用文献を自動解析して DOI を取得 43 TeX to XML フリーソフト http://dlmf.nist.gov/latexml/ 自社開発もある模様 44
XML タグ付け オフショア インド フィリピンなど 海外出版社は多く利用 半自動 PDF からテキスト抽出 Word から解析 手作業で補正 45 XML 組版と校正 FrameMaker XyVision (AIP, APS など ) [#61] 3B2 ( 現在 Arbortext Advanced Print Publisher) InDesign/Typefi XML ToolWorks (Media Entities) XSL-FO 46
FrameMaker Text を FrameMaker に貼り付け FrameMaker SGML/XML 47 3B2 (APP) XML を読み込んで組版 XML を出力 PDF を出力 48
Typefi InDisign/Typefi InDesign のプラグイン XML データからテンプレートに従って InDesign レイアウトを自動生成 編集校正後 InDesign XML を出力可能 NLM DTD にはスタイル シートで変換 日本コンピュータ化学会が採用 49 InDesign/Typefi J. Comput. Chem. Jpn. 2011, 10(4), 141-146. 50
XML ToolWorks InDesign のプラグイン XML データからテンプレートに従って InDesign レイアウトを自動生成 編集校正後 InDesign から直接 NLM DTD XML を出力可能 Science Magazine が採用 51 XML ToolWorks http://www.atlas.jp/ejs/services_08.html 52
XSL-FO AH Formatter ( アンテナハウス ) XML (XSLT) XSL-FO XSL-FO (AH Formatter) PDF 53 XSL-FO アンテナハウス. http://www.antenna.co.jp/ahf/ahf_samples/20120612-jats.html 54
電子出版 XML XHTML HTML/EPUB PDF モバイル アプリ HTML5 EPUB MathJax 55 Article of the Future Elsevier の試み レイアウト 最初はタブ表示 最終版は 3 分割画面 各種のプレゼンテーション要求に応える 56
Article of the Future 57 Article of the Future 58
59 Project Prospect 英国王立化学会 (RSC) のプロジェクト セマンティック タグ 化合物 生医学用 ChemSpider と結合 60
Project Prospect 61 IOP Artilce Evolution 62
IOP Artilce Evolution 63 Annual Review HTML5 を利用 64
MathJax ブラウザ上で数式を表示するオープン ソース (APS, OSA, Springer などが利用 ) 65 EPUB 米国電子書籍では標準に XML から作成 日本でも EPUB3 を機に普及のきざし XHTML を直接作成 将来的には XML から XHTML と CSS を zip ファイルとしたもの Readium リーダー (Google Chrome) 66
おわりに JATS 1.0 によって 学術 XML の日本語対応にめどがついた 経済的な XML タグ付け 組版方法の開発と実施 多くの学会と印刷会社の参入を期待 XML を活用した より効果的な電子ジャーナルの公開と流通が必要 67 ご質問をどうぞ tokizane@aichi-u.ac.jp