学 術 情 報 流 通 のための 識 別 子 と メタデータDBを 対 象 とした 融 合 研 究 シーズ 探 索 超 高 層 物 理 学 分 野 における 観 測 データを 例 として 小 山 幸 伸 ( 京 都 大 地 磁 気 WDC) 蔵 川 圭 (NII) 佐 藤 由 佳 (NIPR) 田 中 良 昌 (NIPR)
データ 集 約 科 学 における 情 報 の 組 織 化 データ 集 約 科 学 のビジョン 第 4の 科 学 (Fourth Paradigm) [Hey, Tansley, Tolle (Eds.), 2009] 実 験 科 学 (Empirical Science) (1 st paradigm) 理 論 科 学 (Theoretical Science) (2 nd paradigm) 計 算 科 学 (Computational Science) (3 rd paradigm) データ 集 約 科 学 (Data-intensive Science) (4 th paradigm) e-science (UK) データ 集 約 科 学 の 基 盤 e-infrastructure (UK) Cyberinfrastructure (US) Cyber Science Infrastructure (JP) データ 集 約 科 学 では 研 究 成 果 ( 論 文 )に 至 る 一 次 データや 計 算 結 果 を 含 む 膨 大 なすべての 情 報 をオンライン 上 で 組 織 化 してアーカイブし 再 利 用 する 2
科 学 的 データの 階 層 3つの 階 層 Literature Derived and Recombined Data Raw Data 階 層 の 要 素 同 一 の 階 層 の 要 素 は 互 いに 関 係 を 持 つ 隣 り 合 う 階 層 を 構 成 する 要 素 が 互 い に 関 係 を 持 つ ネットが 分 野 をまたいだ 要 素 の 統 合 と 関 連 を 可 能 にする Tony Hey, Stewart Tansley, & Kristin Tolle (Eds.). (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research. Retrieved from http://research.microsoft.com/enus/collaboration/fourthparadigm/default.aspx 3
インターネット 上 の 学 術 情 報 流 通 の 飽 くなき 展 開 NIIのような 文 献 事 業 からの 展 開 ネット 上 の 技 術 トレンドの 上 に 繰 り 広 げられる 相 互 波 及 IUGONETのような データサイエンスからの 展 開 4
Web 上 の 学 術 情 報 の 識 別 子 オブジェクトの 識 別 子 DOI (Digital Object Identifier) CrossRef (1999 -, PILA) DataCite (2009 -, BL and library related) JaLC (Japan Link Center) 人 の 識 別 子 ORCID (Open Researcher and Contributor Identifier) (2010 -, ORCID. Inc.) 研 究 者 リゾルバーID( 科 研 費 研 究 者 番 号 ) NIIによるプロトタイプシステム(2008 -, NII) 5
DOI (Digital Object Identifier) インターネット 上 のオブジェクトへのアクセス 可 用 性 を 高 品 質 に 担 保 する 仕 組 みと 管 理 体 制 論 文 ごとにDOIを 付 与 するのが 基 本 CrossRefは ジャーナル 論 文 本 プロシーディングス 論 文 に DOIを 付 与 している 対 象 の 詳 細 化 論 文 内 の 図 表 にDOIを 付 与 する 論 文 内 の 章 節 にDOIを 付 与 する 本 の 章 にDOIを 付 与 する 対 象 の 拡 大 論 文 に 引 用 される 形 式 のデータセットにDOIを 付 与 する 6
ORCID (Open Researcher and Contributor ID) 論 文 著 者 の 名 寄 せを 解 決 したい 学 術 論 文 のデータベースでは 2つの 方 法 がとられてきた 計 算 機 による 名 寄 せ 例 Scopus Author Identifier (Elsevier 社 のScopusに 実 装 ) Distinct Author Identification System (Thomson Reuters 社 のWeb of Scienceに 実 装 ) 手 動 で 登 録 例 ResearcherID (Thomson Reuters 社 ) ORCIDは 学 術 コミュニケーションに 関 与 するすべてのステークホル ダーを 包 含 した 研 究 者 に 識 別 子 を 付 与 するコミュニティを 形 成 する 7
DOI, ORCIDとURI 学 術 情 報 の 識 別 子 DOI prefix / suffix ORCID 16 digit numbers インターネット 上 の 識 別 子 を URI(Uniform Resource Identifier)という HTTPでアクセスできるよう 学 術 情 報 の 識 別 子 をURIで 表 現 する 10.1007/s00163-004-0050-z 0000-0002-7031-1846 doi:10.1007/s00163-004-0050-z または http://dx.doi.org/10.1007/s00163-004-0050-z http://orcid.org/0000-0002-7031-1846 8
出 版 レイヤー サイテーションメカニズムを 構 成 する 世 界 論 文 引 用 する データ 書 く 研 究 者 作 成 する 9
サイテーションメカニズムを 利 用 した サービス 例 論 文 の 引 用 Citation Index Impact Factor H-index 論 文 引 用 サービス 例 Web of Science (TR) Scopus (Elsevier) CrossRef (PILA) Google Scholar (Google) データの 引 用 Data Citation Index (TR) データ 引 用 サービス 例 PANGAEA (Alfred Wegener Institute for Polar and Marine Research, Center for Marine Environmental Sciences, and etc.) DataCite (BL, and etc.) Dryad (National Evolutionary Synthesis Center and the University of North Carolina Metadata Research Center) 10
OAI-ORE (Open Archives Initiative Object Reuse and Exchange) Open Archives Initiativeが2008 年 に 公 開 あらゆる 学 術 情 報 リソースを URIで 表 現 する 雑 誌 や 論 文 論 文 本 体 の 包 含 関 係 を 記 述 する 雑 誌 における 論 文 の 引 用 関 係 を 記 述 する http://www.openarchives.org/ore/ URIで 表 現 された 学 術 コミュニケーション 上 の 概 念 に 対 して 最 低 限 の 関 連 性 を 規 定 する リソースには 以 下 の4つの 概 念 クラスが 用 意 されている Aggregation ( 集 合 体 ) AggragatedResources ( 被 集 合 リソース) ResourceMap (リソースマップ) Proxy (プロキシ) 4つの 概 念 クラスに 分 類 されたリソースに 付 随 して 用 意 された 語 彙 は 以 下 のとおりであ る ore:aggregates (~を 集 める) ore:isaggregatedby (~に 集 められる) ore:describes (~を 記 述 する) ore:isdescribedby (~に 記 述 される) ore:similarto (~に 類 似 である) ore:proxyfor (~のためのプロキシである) ore:proxyin (~にあるプロキシである) ore:lineage (~をひとつ 前 とする) 11
データレイヤーとの 相 互 展 開 出 版 レイヤー 中 間 データ データレイヤー 利 用 する 研 究 者 作 成 する 生 データ 12
インターネット 上 の 学 術 情 報 流 通 の 飽 くなき 展 開 NIIのような 文 献 事 業 からの 展 開 ネット 上 の 技 術 トレンドの 上 に 繰 り 広 げられる 相 互 波 及 IUGONETのような データサイエンスからの 展 開 13
IUGONET 2009 年 スタート 図 書 系 のDSpaceをカスタマイズ 解 析 ソフトはIDL (ドメイン 研 究 者 の 大 反 対 にあった が 当 初 はJython, Java, Java Web Startで 書 こうと 提 案 していた ) 2009 年 2 月 の 時 点 では 下 図 のよ うにぼんやりしていた 14
IUGONETのメタデータ Raw Dataファイルと1 対 1で 紐 づく 粒 度 で メタデータを 記 述 (Granuleリソースタイプ) 知 見 情 報 の 記 述 は 現 在 していない (Annotationリソース タイプで 記 述 可 能 ) Derived Dataに 紐 づくメタデータは 現 在 記 述 していない ( 例 外 : Dstインデックス 等 専 門 家 のコンセンサスが 得 られ ており もはや 一 次 データと 同 様 に 取 り 扱 われるもの) Raw Data -> Derived Dataの 変 換 過 程 (メタデータ)を データ 解 析 ソフトウェアが 自 動 生 成 する 必 要 あり!? 15
異 なる 視 点 からの Data Citation データ 提 供 者 の 視 点 1. データセット 単 位 の 粒 度 での 参 照 により 貢 献 度 が 明 示 され る 2. 実 際 に 使 用 したデータの 期 間 利 用 者 が 分 かる 研 究 者 の 視 点 データファイル 単 位 の 直 接 参 照 は 必 ずしも 便 利 では 無 いはず 中 間 層 である Derived Dataを 介 してRaw Dataへ 到 達 する 必 要 あり マシンリーダブルな 変 換 過 程 記 述 の 必 要 性 メタデータ 提 供 者 の 視 点 (IUGONET) メタデータ 整 備 に 尽 力 した 貢 献 を 明 示 する 必 要 あり 16
データ/メタデータ 作 成 者 の 収 益 構 造 DOI ORCID ORCID DOI 未 ORCID IDを 検 索 キーとした 論 文 と データ/メタデータ の 横 断 検 索 によるバランスシート 的 な 物 の 作 成 17
構 想 超 高 層 物 理 学 分 野 における 観 測 データのメタデータDBと 著 者 IDの 連 携 に 関 する 調 査 から 太 陽 地 球 系 物 理 学 分 野 におけるデータ 集 約 型 科 学 への 検 討 ( 仮 ) へ 展 開 予 定 (2013 年 度 ) ほぼドメイン 研 究 者 による 手 製 の 無 骨 な 仕 組 み(データベース 解 析 ソフトウェア)に 対 し 情 報 系 の 研 究 者 を 段 階 的 に 巻 き 込 み IUGONET2が 出 航 する 際 の 航 海 図 を 作 る 18
追 記 : 第 2 層 のイメージ Wiki Fork Branch Commit ID 第 1 2 層 の 仲 介 はJava Web Start!? Public/ Private Githubそのもの!? 19
謝 辞 超 高 層 物 理 学 分 野 における 観 測 データのメタデータDBと 著 者 IDの 連 携 に 関 する 調 査 は 情 報 システム 研 究 機 構 の 新 領 域 研 究 センターにおける 融 合 研 究 シーズ 探 索 提 案 のサポートを 受 けています ( 代 ) 佐 藤 由 佳 (NIPR) 田 中 良 昌 (NIPR) 蔵 川 圭 (NII) 小 山 幸 伸 ( 京 大 ) 20