ジャパンサーチ構想における 分野横断メタデータ 国立国会図書館電子情報部電子情報流通課標準化推進係奥田倫子
国立国会図書館について National Diet Library (NDL) 納本図書館 納本制度に基づく国内出版物の網羅的な収集 保存 全国書誌の作成 幅広いサービス対象 国会 ( 議会図書館 ) 行政 司法 国民 国の中央図書館 図書館へのサービス 図書館の図書館 2
NDL の電子図書館事業 電子図書館構想 (1998 年 ) 電子図書館中期計画 (2004 年 ) NDL-OPAC (2018 年 1 月 ~NDL オンライン +NDL-Bib) 電子展示会 インターネット資料収集保存事業 (WARP) 国立国会図書館デジタルコレクション 国立国会図書館サーチ (NDL サーチ )
DC-NDL 情報資源の組織化および利用提供のための国内メタデータ標準 2001 年 国立国会図書館メタデータ記述要素 ダブリンコアメタデータ基本記述要素集合 に基づく基本 15 要素 WARP で集めるインターネット上の情報資源を記述するため 内容 2007 年 国立国会図書館ダブリンコアメタデータ記述要素 2010 年 国立国会図書館ダブリンコアメタデータ記述 DCMI メタデータ語彙 55 要素 +NDL 独自定義語彙 語彙の記述方法や形式についてのルール 機械的な処理を可能にするセマンティックウェブ志向 国立国会図書館デジタルコレクション の情報資源を記述 NDL サーチ の収集 提供用標準フォーマットで使用 用途 2011 年 国立国会図書館ダブリンコアメタデータ記述 ( 現行版 )
メタデータ 草枕 対象 どのような属性を記述する? どんな言葉 ( 語彙 ) を使う? その定義は? 対象について書いた ( 記述した ) もの 属性と値の対 ( ペア ) の集合 属性 ( 記述要素 / 項目 ) 値 どのように値を記述する? よみがなは? 同姓同名の区別? 年 月 日 /YYYY-MM-DD? 任意のキーワード / 図書の分類記号? 目的に応じた 分野 機関 対象資料群ごとのルールができたりする DC-NDL は国内の ( インターネット上の ) 情報資源についての標準的なルールとなることを志向したもの
NDL の経験 1 様々なデジタル化情報資源の記述図書 ( 明治期以降 ) 雑誌古典籍 ( 江戸期以前の和書 漢籍 ) 博士論文官報近現代政治史料日本占領関係資料録音資料手稿譜脚本プランゲ文庫点字データ 歴史的音源科学映像愛 地球博 ( 動画 図書 ) 東京大学付属図書館デジタル化資料内務省検閲発禁図書石巻日日新聞
NDL の経験 2 他機関と連携 メタデータ授受様々な形態の情報資源のメタデータを横断的に検索 図書館 博物館 美術館 文書館 民間企業等 保有機関は問わない約 70( 数千 ) 機関 100 データベース 1 億件以上のメタデータが検索可能
国立国会図書館サーチと各アーカイブの連携状況 連携済み ( 例 ) e 国宝 国立博物館所蔵国宝 重要文化財 検索用 API 国立美術館所蔵作品総合目録検索システム 国立公文書館デジタルアーカイブ 人間文化研究機構統合検索システム 検索用 API 秋田県デジタルアーカイブ 新規連携 文化遺産オンライン ( 国指定文化財等データベースのみ ) 平成 29 年 3 月 29 日にファイル連携を実現 平成 29 年度は API 連携 (OAI-PMH) の実現を目指す 調整中 国立博物館所蔵品統合検索システム (ColBase) メディア芸術データベース マンガデータのAPI 実装協力 8
ジャパンサーチ ( 仮称 ) 構想
第四期国立国会図書館科学技術情報整備基本計画
ジャパンサーチ ( 仮称 ) 構築に向けて : 役割の整理 各アーカイブ機関 図書館 官公庁 企業 美術館 博物館 文書館 文化施設 地方公共団体等 メタデータの整備 デジタル化 ( コンテンツ拡充 ) ウェブでの公開 メタデータの流れデジタルコンテンツの流れ こちらは国立国会図書館サーチによる 赤枠が国立国会図書館の役割 書籍等分野 文化財分野 国の分野横断統合ポータルジャパンサーチ ( 仮称 ) 活用者層 国民 ( 地域住民 ビジネスマン 学生 研究者等 ) 日本に興味のある外国人 新規ビジネス サービスの創出 観光用 VR 地域創生へ メディア芸術分野 国立国会図書館 放送番組分野 利活用促進のための基盤整備 地域アーカイブ 恒久的保存のための基盤整備 我が国保有コンテンツのメタデータ集約 /API 提供 全体標準化 利活用の促進 教育の教材利用 日本文化発信 インバウンド効果 分野 地域コミュニティのつなぎ役 ( 分野ごとの ) メタデータ集約 API 提供 ( 分野ごとの ) ポータル提供 メタデータ等の標準化 長期アクセス保証 関係府省等 内閣府の会議体を通じた協力 ガイドラインの普及 デジタルアーカイブ推進のための法的整備 人材育成のための施策 アーカイブ活用促進策等 災害時の復興 ( 防災対策 ) 新しい知の創造経済的価値の創出 ジャパンサーチ ( 仮称 ) メタデータを集約し 活用しやすい形式で提供する デジタルアーカイブの利活用促研究活動の活性化進のための基盤 11
出典 : 内閣府知的財産戦略推進事務局 デジタルアーカイブに関する取り組みについて デジタルアーカイブジャパン推進委員会 ( 第 1 回 ) 資料 1( 平成 29 年 9 月 5 日 )http://www.kantei.go.jp/jp/singi/titeki2/digitalarchive_suisiniinkai/suisin/dai1/gijisidai.html
13 ジャパンサーチ ( 仮称 ) 公開までに必要な作業 システム構築 ( ハード面 ) 体制構築 ( ソフト面 ) 国立国会図書館の主な担当 2016 年度 2017 年度 ~ 機能要件の検討 プロトタイプの構築 基本設計 詳細設計 開発 ( 連携先機関 : ジャパンサーチ と連携するための一部システム改修 ) 文化遺産オンラインと国立国会図書館サーチとの一部連携の実現 文化庁と連携に関する文書の取り交わし ガイドラインの策定 様々な分野のつなぎ役との検討体制の構築 内閣府知財事務局との連携協力 分野を横断する標準的なメタデータ項目の検討 策定 普及 オープンデータの推進 各分野の主要アーカイブとNDLサーチとの連携 ジャパンサーチ 運用体制の構築 海外主要アーカイブ (Europeana: 欧州 DPLA: 米国 ) との連携 ジャパンサーチ ( 仮称 ) の公開へ
分野を横断する標準的なメタデータ
メタデータ?
メタデータ? 名称東大寺金堂 ( 大仏殿 ) ふりがなとうだいじこんどう ( だいぶつでん ) 員数 種別 時代 1 棟 近世以前 / 寺院 江戸中期 年代宝永 2 西暦 1705 構造及び形式等桁行五間 梁間五間 一重もこし付 寄棟造 本瓦葺 正面唐破風付 銅板葺 国宝 重文区分国宝 所在都道府県 奈良県
メタデータフォーマット : メタデータをシステム間で交換 共有するため 入出力する際の形式 MARC <?xml RDF/XML version="1.0" encoding="utf-8"?> FMT GE <rdf:rdf xmlns:dcndl="http://ndl.go.jp/dcndl/terms/" xmlns:rdf="http://www.w3.org/199 LDR 00000cam a22 zi 4500 xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" 001 028039653 xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:foaf="http://xmlns.com/foaf/0.1/" 003 JTNDL xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"> <dcndl_simple:dc xmlns:dcndl_sim 005 20170905114237.0 <dcndl:bibadminresource rdf:about="http://iss.ndl.go.jp/books/r100000002-i02803965 XML xmlns:dc="http://purl.or 007 ta <dcndl:catalogingstatus>c7</dcndl:catalogingstatus> xmlns:dcterms="http://p 008 170321s2017 ja g f jpn <dcndl:bibrecordcategory>r100000002</dcndl:bibrecordcategory> xmlns:dcndl="http://ndl 015 a 22873241 2 jnb <dcndl:record rdf:resource="http://iss.ndl.go.jp/books/r100000002-i028039653-00#ma xmlns:foaf="http://xmln 020 a 978-4-87582-797-9 </dcndl:bibadminresource> DC-NDL_Simple xmlns:owl="http://www 040 a JTNDL b jpn c JTNDL <dcndl:bibresource e ncr/1987 rdf:about="http://iss.ndl.go.jp/books/r100000002-i028039653-00#m xmlns:rdf="http://www. 084 a NC161 2 kktb <dcterms:identifier rdf:datatype="http://ndl.go.jp/dcndl/terms/jpno">22873241</dcte xmlns:rdfs="http://www 084 a 538.9 2 njb/10 <dcterms:identifier rdf:datatype="http://ndl.go.jp/dcndl/terms/isbn">978-4-87582-797 xmlns:xsi="http://www.w 090 a NC161-L150 <rdfs:seealso rdf:resource="http://id.ndl.go.jp/jpno/22873241"/> <dc:identifier xsi:type="dcterms 24500 6 880-01 a 宇宙政策の動向 <rdfs:seealso : b 科学技術に関する調査プロジェクト rdf:resource="http://iss.ndl.go.jp/isbn/9784875827979"/> 2016 報告書 http://iss.ndl.go.jp/books/r100 / c 国立国会図書館調査 260 6 880-02 a 東京 : b 国立国会図書館 <dcterms:title>, c 宇宙政策の動向 2017.3. : 科学技術に関する調査プロジェクト </dc:identifier> 2016 報告書 </ 300 a 6, 197p ; c 30cm. <dc:title> <dc:identifier xsi:type="dcndl:jp 4900 6 880-03 a 調査資料 ; v <rdf:description> 2016-5 <dc:identifier xsi:type="dcndl:isb 504 a 年表あり. <rdf:value> 宇宙政策の動向 : 科学技術に関する調査プロジェクト <dc:title> 宇宙政策の動向 2016 報告書 : 科学 </rd
魅力的表示例提供者活用ジャパンサーチ ( 仮称 ) におけるメタデータの集約と提供 ( 案 ) 検索結果 ( 仮称 ) 者ジャパンサーチ 分野を横断する標準的なメタデータ項目を活用しやすいフォーマットで出力 利活用フォーマット
提供者ジャパンサーチ ( 仮称 ) におけるメタデータの集約と提供 ( 案 ) 使っている項目そのままで OK データフォーマット : エクセル CSV 又は TSV JSON XML 等に対応 連携方法 : 1 管理画面でファイルのアップロード 2Web 上にファイル掲載 3OAI-PMH 等 ジャパンサーチ ( 仮称 ) ( データ登録 ) もらったメタデータ項目をそのまま取り込み ( 共通ラベルの付与 ) もらったメタデータ項目に 共通ラベル を付与 タイトル 年代 作者 提供者 URL 等の分野横断で共通となりうる項目のみ ( 詳細モデル化 )NDL が利活用のための分野横断メタデータモデルに変換 魅力的表示例 ( 電子展示会 キュレーションページなど ) 検索結果 ( 提供者のメタデータ項目でも検索が可能 ) 分野を横断する標準的なメタデータ項目を活用しやすいフォーマットで出力 利活用フォーマット : 提供者が者メタデータ項目活用
ジャパンサーチ ( 仮称 ) におけるデータ変遷 ( 案 ) オリジナル ( ソース ) データ 名称 : 刀 サイズ :68.1 弱 西暦 :1459 分野 : 工芸 作者名 : 長光 所蔵 :X 博物館 登録 1 次マッピング 共通ラベルの付与 共通ラベル名タイトル 年代 作者 リンク先 DB 単位の情報 名称 : 刀 サイズ :68.1 弱 西暦 :1459 分野 : 工芸 作者名 : 長光 所蔵 :X 博物館 データベース :Y DB タイプ : 文化財 ジャパンサーチ ( 仮称 ) 共通ラベルは自動で付与 データ提供館で確認 修正が可能 最小限度のマッピングのみ実施 魅力的表示 検索機能
ジャパンサーチ ( 仮称 ) におけるデータ変遷 ( 案 ) オリジナル ( ソースデータソース ) データ 名称 : 刀サイズ :68.1 弱西暦 :1459 分野 : 工芸作者名 : 長光所蔵 :X 博物館 登録 1 次マッピング 共通ラベルの付与 共通ラベル名タイトル 年代 作者 リンク先 DB 単位の情報 名称 : 刀 サイズ :68.1 弱 西暦 :1459 分野 : 工芸 作者名 : 長光 所蔵 :X 博物館 データベース :Y DB タイプ : 文化財 ジャパンサーチ ( 仮称 ) 二次マッピング 詳細モデル化 ラベル : 刀 資料体記述 :68.1 弱 時間 :1459 主題 : 工芸 作者 : 長光 提供者 :X 博物館 アグリゲーター :Y DB タイプ : 文化財 共通アーカイブ情報 名称 : 刀サイズ :68.1 弱西暦 :1459 分野 : 工芸作者名 : 長光所蔵 :X 博物館 ソースデータ 共通ラベルは自動で付与 データ提供館で確認 修正が可能 最小限度のマッピングのみ実施 魅力的表示 検索機能 NDL が一部項目を抽出 コピー / 変換 ( 正規化 ) ソースデータも保持 検索機能の精緻 高度化 利活用フォーマット で出力
ジャパンサーチ ( 仮称 ) におけるデータ変遷のイメージ オリジナル ( ソースデータソース ) データ 名称 : 刀サイズ :68.1 弱西暦 :1459 分野 : 工芸作者名 : 長光所蔵 :X 博物館 登録 1 次マッピング 共通ラベルの付与 共通ラベル名タイトル 年代 作者 リンク先 DB 単位の情報 名称 : 刀 サイズ :68.1 弱 西暦 :1459 分野 : 工芸 作者名 : 長光 所蔵 :X 博物館 データベース :Y DB タイプ : 文化財 ジャパンサーチ ( 仮称 ) 二次マッピング 詳細モデル化 ラベル : 刀 資料体記述 :68.1 弱 時間 :1459 主題 : 工芸 作者 : 長光 提供者 :X 博物館 アグリゲータ :Y DB タイプ : 文化財 共通アーカイブ情報 名称 : 刀サイズ :68.1 弱西暦 :1459 分野 : 工芸作者名 : 長光所蔵 :X 博物館 ソースデータ 共通ラベルは自動で付与 データ提供館で確認 修正が可能 最小限度のマッピングのみ実施 付加的サービス 検索機能 NDL が一部項目を抽出 コピー / 変換 ( 正規化 ) ソースデータも保持 検索機能の精緻 高度化 利活用フォーマット での出力
メタデータ 検討の進捗状況 草枕 対象 どのような属性を記述する? どんな言葉を使う? その定義は? 対象について書いた ( 記述した ) もの 属性と値の対 ( ペア ) の集合 属性 ( 記述要素 / 項目 ) 値 どのように値を記述する? よみがなは? 同姓同名の区別? 年 月 日 /YYYY-MM-DD? 任意のキーワード / 図書の分類記号? システム内部でのデータ形式? 利活用フォーマットのファイル形式?
詳細モデルの共通アーカイブ情報 ( 案 ) 項目 内容 発見 識別 選択 入手 タイプ 資料の基本区分 ラベル 資料を識別するための名前 一覧等に表示 名称 タイトル 別名 読みなど 寄与者 / 関係 資料に寄与した人や組織 / どのように寄与したか ( 寄与関係 ) 作者 寄与関係 [ 制作 ] 発行者 寄与関係 [ 出版 ] 相当 場所 / 関係 場所に関する情報 / 何をした された場所か ( 場所関係 ) 時間 / 関係 時間に関する情報 / 何をした された時間か ( 時間関係 ) 主題 主題および分類 区分 各分野で用いられている区分 ( 国宝 重文 など) 識別子 ISBNなど記録された媒体種別レベルのID( 個別アイテムID) 言語 資料の記述言語を表すURI 画像 サムネイル画像
項目 内容 発見 識別 選択 入手 資料体記述 資料の物理的特徴 記述 概要 要約 注記等物理的特徴以外の個別項目に入らない情報 上位資料 タイトル 別名 読みなど 提供情報 資料にアクセスするための情報 下記サブ項目からなる - - - - 提供者 資料についての情報 ( ソースデータ ) の作成者 保管者 URI リンク 資料の紹介ページやアクセス情報が記載されたページのURL オブジェクト 資料のデジタル画像や音声動画のURI 権利情報 資料利用のライセンスおよび権利 個別識別子 提供元が付与する識別子 ソース情報 ソースデータとその提供者に関する情報 - - - - 提供者 ソースデータの提供者 ( アグリゲータ ) データ ソースデータ リンク アグリゲータの目録におけるソースデータ掲載ページのURL 更新日 ソースデータの更新日
単純プロパティ と 構造化プロパティ 寄与関係 関係タイプ 関係タイプ 制作 作詞 作者 寄与者 作者 寄与関係 関係タイプ制作関係タイプ作曲寄与者 寄与関係情報の単位 島村抱月 相馬御風作詞 中山晋平作曲 カチューチャの唄 ( ビクター ) の場合
ジャパンサーチ ( 仮称 ) におけるデータ変遷のイメージ オリジナル ( ソースデータソース ) データ 名称 : 刀サイズ :68.1 弱西暦 :1459 分野 : 工芸作者名 : 長光所蔵 :X 博物館 登録 1 次マッピング 共通ラベルの付与 共通ラベル名タイトル 年代 作者 リンク先 DB 単位の情報 名称 : 刀 サイズ :68.1 弱 西暦 :1459 分野 : 工芸 作者名 : 長光 所蔵 :X 博物館 データベース :Y DB タイプ : 文化財 ジャパンサーチ ( 仮称 ) 二次マッピング 詳細モデル化 ラベル : 刀 資料体記述 :68.1 弱 時間 :1459 主題 : 工芸 作者 : 長光 提供者 :X 博物館 アグリゲーター :Y DB タイプ : 文化財 共通項目 名称 : 刀サイズ :68.1 弱西暦 :1459 分野 : 工芸作者名 : 長光所蔵 :X 博物館 ソースデータ 共通ラベルは自動で付与 データ提供館で確認 修正が可能 最小限度のマッピングのみ実施 付加的サービス 検索機能 NDL が一部項目を抽出 コピー / 変換 ( 正規化 ) ソースデータも保持 検索機能の精緻 高度化 利活用フォーマット での出力
デジタルアーカイブの構築 共有 活用ガイドライン 自らが保有するコンテンツのメタデータを整備して共有する方法には 自らが用意したシステムを用いるほか 分野や地域のコミュニティが提供する既存のプラットフォームを利用する方法がある また これらのシステム基盤を利用せずに 参考資料 活用できる表形式のデータとは? に示す要件を満たす形の CSV 等のデータを整備する方法もある < 中略 > メタデータの整備においては 次の 5 つの項目は共有や再利用のために特に重要であり 判明している場合には 必須の情報として記述することが求められる タイトル ( ラベル ) 作者 ( 人物 ) 日付 ( 時代 ) 場所 管理番号 ( 表内で重複しない恒久的な識別子 ) このほか デジタルアーカイブのデータ共有のためにはコンテンツの権利情報や二次利用条件といった情報もメタデータの整備において求められる デジタルアーカイブの構築 共有 活用ガイドライン ( デジタルアーカイブの連携に関する関係省庁等連絡会 実務者協議会作成 ) 平成 29 年 4 月
より 繋がる より 使える データへ
Europeana の Linked Open Data を利用 共通フィールド とソースデータ を一括ダウンロード可能
時空を超えてつながり ビジネスに寄与した ( メタ ) データ (180 年前の例 ) Enkele negentiende-eeuwse Japanse Botanische boeken in Leiden, De boekenwereld. 32. nr4. 2016.
データは組み合わさって 新たな知見 表現 行動へ 国会会議録 議員データ 選挙民データ ヒップホップの歌詞 犯罪件数 https://rrlstudentresearch.tumblr.com/ http://www.goodlylabs.org/ 市民が集めたデータ 気象データ 地理データ http://crowdandcloud.org/
丁寧に整備されたメタデータほど 利活用の可能性は拡がる ( 例 ) オランダ国立図書館の新聞のデジタル化プロジェクト 1618 年から 1995 年までに オランダ及びオランダ領で発行された新聞 (1100 万ページ分 ) 画像 + メタデータ + テキスト 1876 年まで PD, 研究利用自由 KB ラボで様々な活用例 メタデータ標準 type level comments Dublin Core iss./p./art. 記述メタデータ OCR article XML ALTO page mpeg21-didl issue 構造メタデータ
( ジャパンサーチ ) 詳細モデルへのマッピングとデータの正規化は段階的に 西暦都道府県氏名 ( 文字列 ) 識別子ラベル ID 名称言語主題 キーワード 西暦時代区分期間都道府県国地域氏名 ( 文字列 ) 識別子ラベル ID 名称言語主題 キーワード 西暦時代区分期間時間オントロジーの構築? 都道府県国地域氏名 ( 文字列 ) 識別子典拠データ (NDLA) ラベル ID 名称言語主題 キーワード典拠データ (NDLA) 上位資料 いつどこでだれがなにを
Linked Open Data Library of Congress Subject Headings Europeana JS data Web NDL Authoritie s VIAF: Virtual Internatio nal Authority File DBpedia
市民に届け GLAM データ 分野横断的なメタデータの検索 教育利用機会の拡大 民間のアイディアによるマーケットの創出 機械的利用 アプリ開発 機械学習用基礎データ ビッグデータとして 市民科学 (Citizen Science) との協働 ご清聴ありがとうございました t-okuda@ndl.go.jp