Microsoft Word - swo_ver10.docx

Similar documents
XPath式を用いたApplication Profileに基づくメタデータスキーマとインスタンスの関連付け

メタデータスキーマレジストリ MetaBridge の概要

国立国会図書館ダブリンコアメタデータ記述

活用が広がる 共通語彙基盤 (IMI) イベント 技術セッション 公園への応用 加藤文彦 国立情報学研究所 2016 年 6 月 3 日

IMI情報共有基盤 「表からデータモデル」 データ変換のみを行う方向け画面説明

第4回 国際的動向を踏まえたオープンサイエンスに関する検討会 参考資料5

試作ツールは MIT ライセンスによって提供いたします その他 内包された オープンソース ソフトウェアについてはそれぞれのライセンスに従ってご利用ください

WebAPI 及びデータフォーマット (DC-NDL) の概要 国立国会図書館電子情報部 電子情報サービス課 1

アジェンダ オープンデータについて オープンガバメント セマンティック Web 技術 (RDF,SPARQL) RDF とは RDF の表現形式 : タートル,RDFa, マイクロデータ RDF グラフへの問い合わせ :SPARQL 利用環境 (SPARQL Timeliner,SparqlEPCU

Basic descriptive statistics

UMLプロファイル 機能ガイド

IMI 共通語彙基盤ライブラリのご紹介 IPA 斉藤浩 / IPA 豊田耕司 2018 年 11 月 13 日 ( 火 ) 独立行政法人情報処理推進機構社会基盤センター産業プラットフォーム部データ活用推進グループ 1

平成17年度大学院 知識システム特論

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

DEIM Forum 2010 A Web Abstract Classification Method for Revie

ucR/XML: XML によるucR graph のシリアライズ

untitled

(Microsoft PowerPoint -

スライド 1

<4D F736F F F696E74202D208E9197BF B8BB38EF690E096BE8E9197BF2E707074>

Microsoft PowerPoint - 講義資料_九大片岡.pptx

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

橡sit nakai-ppt

ウェブサービスとは WWWを介してデータの取得 解析などをサー バ側で行うサービス 人が直接使うことは意図されていない プログラム等を使って大量に処理できる(単純) 作業を意図している SOAP, REST

サイボウズ Office 10「リンク集」

サイボウズ Office「リンク集」

LightSwitch で申請システム Windows ストアアプリで受付システムを構築してみた 情報政策グループ技術職員金森浩治 1. はじめに総合情報基盤センターでは 仮想サーバホスティングサービスや ソフトウェアライセンス貸与といった さまざまなエンドユーザ向けサービスを行っている 上記のよう

スーパー英語アカデミック版Ver.2

intra-mart Accel Platform — OData for SAP HANA セットアップガイド   初版  

Microsoft Word - NEWSマニュアル docx

書誌情報の将来像

大域照明計算手法開発のためのレンダリングフレームワーク Lightmetrica: 拡張 検証に特化した研究開発のためレンダラ 図 1: Lightmetrica を用いてレンダリングした画像例 シーンは拡散反射面 光沢面を含み 複数の面光 源を用いて ピンホールカメラを用いてレンダリングを行った

Microsoft Word - RefWorksコース( _.doc

Microsoft Word - ModelAnalys操作マニュアル_

Create!Form V11 - 機能リファレンス - テスト実行

Exfront4.1.0リリースノート

NLC配布用.ppt

第1部参考資料

Microsoft Word - EndNoteWeb( _.doc

PowerPoint Presentation

Microsoft Word - EDSマニュアル.doc

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

intra-mart Accel Platform — IM-Repository拡張プログラミングガイド   初版  

NFC ucode タグのメモリフォーマット規定

ServerView Resource Orchestrator V3.0 ネットワーク構成情報ファイルツール(Excel形式)の利用方法

Rational Roseモデルの移行 マニュアル

スーパー英語アカデミック版Ver.2

Web UX Web Web Web 1.2 Web GIF Kevin Burg Jamie Beck GIF GIF [2] Flixel Cinemagraph pro *1 Adobe Photoshop *2 GIMP *3 Web *1 Flixel Photos Inc. *2 *3

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

レイアウト 1

スライド 1

PowerPoint プレゼンテーション

スライド 1

2 : Open Clip Art Library [4] Microsoft Office PowerPoint Web PowerPoint 2 Yahoo! Web [5] SlideShare Yahoo! Web Yahoo! Web

CS_Manual_v2

分散情報システム構成法

Datalink_summary


Microsoft Word - 唐詩情報のLinked Data化の試み.docx

ワトソンで体感する人工知能 フォローアップ情報 株式会社リックテレコム / 書籍出版部 ( 最終情報更新日 :2018 年 4 月 5 日 ) [INDEX] 2018 年 4 月 1 日時点の IBM Watson 仕様変更について ( 著者 : 井上研一氏からのフォロー情報 ) [ 変更点 -1

Web [1] [2] [3] [4] [5] SupportVectorMachine SVM [6] [7] Google [11] Web

Copyright 2014 NTT DATA Corporation 2 INDEX 1. 一括請求 Assist とは 1-1. でんさいに係るサービスの関係性 1-2. 一括請求 Assist の必要性 1-3. 一括請求 Assist の特長 2. 機能紹介 2-1. 一括請求 Assist

Delphi/400を使用したWebサービスアプリケーション

Enterprise Architect 12.0 機能ガイド

SOC Report

(Microsoft PowerPoint - HP\227pWASABI\217\320\211\356\216\221\227\277.ppt)

Consuming a simple Web Service

Vol.55 No (Jan. 2014) saccess 6 saccess 7 saccess 2. [3] p.33 * B (A) (B) (C) (D) (E) (F) *1 [3], [4] Web PDF a m

2006年10月5日(木)実施

<4D F736F F F696E74202D208A778F708FEE95F197AC92CA82F08EC08CBB82B782E98B5A8F E97708B5A8F70816A5F94D196EC8D758E742E >

untitled

Microsoft Office Visioによる 施設管理について

編集する ファイルを開く マイクロデータの設定を行うファイルまたはファイルを開きます 開かれたファイルは編集画面に表示されて ブラウザ表示した時のプレビューも同時に表示されます HTML ファイルの選択 編集する ファイルを開くためにメインメニューから ファイル 開く を選びます ファイル選択ダイア

IPSJ SIG Technical Report PIN(Personal Identification Number) An Examination of Icon-based User Authentication Method for Mobile Terminals Fum

PowerPoint プレゼンテーション

pp R R Word R R R R Excel SPSS R Microsoft Word 2016 OS Windows7 Word2010 Microsoft Office2010 R Emacs ESS R R R R https:

スライド 1

intra-mart Accel Platform — TableMaintenance ユーザ操作ガイド   第7版   None

PowerPoint Presentation

intra-mart Accel Platform

J-STAGE 記事登載時の入力データのチェック強化について

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

intra-mart Accel Platform — TableMaintenance ユーザ操作ガイド   第8版  

機関リポジトリのメタデータ概論

データの作成方法のイメージ ( キーワードで結合の場合 ) 地図太郎 キーワードの値は文字列です キーワードの値は重複しないようにします 同じ値にする Excel データ (CSV) 注意キーワードの値は文字列です キーワードの値は重複しないようにします 1 ツールバーの 編集レイヤの選択 から 編

Microsoft Word - 操作マニュアル(PowerPoint2013)

Microsoft Word - 2._5)OLAPツール『Query & Analysis』の「データ転送」機能.docx

内容 Visual Studio サーバーエクスプローラで学ぶ SQL とデータベース操作... 1 サーバーエクスプローラ... 4 データ接続... 4 データベース操作のサブメニューコンテキスト... 5 データベースのプロパティ... 6 SQL Server... 6 Microsoft

平成22年度「技報」原稿の執筆について

intra-mart Accel Platform — IM-共通マスタ スマートフォン拡張プログラミングガイド   初版  

コンピュータ応用・演習 情報処理システム

intra-mart EX申請システム version.7.2 事前チェック

Prog1_12th

CASEC

テクニカルドキュメントのテンプレート

Microsoft Word - 参照データ使用方法.docx

UID S307-NDEF

PowerPoint プレゼンテーション

Transcription:

DCMI Description Set Profile に基づく RDF Refine を利用したメタデータ作成支援手法の提案 A Method for the Creation of RDF Metadata with RDF Refine Based on DCMI Description Set Profile 落合香織 1 三原鉄也 1 永森光晴 2 杉本重雄 Kaori Ochiai 1, Tetsuya Mihara 1, Mitsuharu Nagamori 2 and Shigeo Sugimoto 2 1 筑波大学大学院図書館情報メディア研究科 1 Graduate School of Library, Information and Media Studies, University of Tsukuba. 2 筑波大学図書館情報メディア系 2 Faculty of Library, Information and Media Science, University of Tsukuba. 2 Abstract: Web of data called Linked Data came to be published more and more. OpenRefine is a tool for working messy data, and RDF Refine is a OpenRefine extension for exporting RDF. So, we can transform data which is written in CSV file into RDF data easily with OpenRefine and RDF Refine. The other side, we have a problem that it s difficult to reuse metadata schema when we create new metadata. RDF Refine has a function to import another project of RDF Refine. In this paper, I propose the way to reuse a metadata schema with RDF Refine and Description Set Profile which is proposed by DCMI, when we want to transform metadata into RDF data. 1. はじめに 近年 データを共有し有効利用していくために Open Data[1] としてオープンライセンスのデータを提供することが増えている [17][18] Oepn Data では 望ましいデータの公開方法を 5 段階のランクで定めており Excel や CSV 形式のデータよりも RDF (Resource Description Framework) や Linked Open Data(LOD) [2] の形で提供することが望ましいとしている [3] RDF は Web 上のリソースに関する情報を表現するためのデータモデルであり 主語 述語 目的語から構成されるトリプルで表現する RDF はグラフ構造の表現であるため URI で表現されたリソース同士を結びつけていくことが出来る LOD [2] は Web 上に RDF で表現したオープンなメタデータを提供し それらをリンクさせ関連付ける取り組みである LOD としてデータを公開 連携させることで 今までにない新しい情報の共有方法やサービスが可能となることが期待されている LOD や RDF が望ましいデータの提供方法とされる一方で Open Data として Excel や CSV 形式で提供されているデータを RDF に変換することは LOD や RDF についての知識や経験を持たない人にとっては難しい 現在 Excel や CSV 形式のデータを RDF に 変換する為に RDF Refine[7] や LinkData[8] といったツールが公開されている これらのツールでは Excel や CSV 形式で用意されたデータの項目を RDF で用いる語彙としてマッピングを行う必要がある 本稿では データを RDF に変換するツールのひとつである RDF Refine 上で 語彙のマッピングを支援するための提案手法について述べる 具体的には Dublin Core Metadata Initiative(DCMI) が提案する Description Set Profile(DSP) という形式で メタデータをどのような語彙や構造を用いて記述するかを定義しておくことで RDF Refine 上でマッピングの設定を簡単に行うための方法を提案する 以降 本稿では RDF で記述されるメタデータを作成することを前提に話を進める 2. メタデータ作成の手順と問題点 メタデータを作成する際に メタデータ作成者は予めメタデータスキーマの作成を行う メタデータスキーマの作成では どのようなメタデータの項目を用意し その項目名に対し どのような語彙や構造で記述していくのかを決めていく [19] 本稿では このように利用する語彙やメタデータの構造を定義したものを記述規則定義と呼ぶ 03-01

メタデータの作成方法には様々な方法が挙げられる 一からデータを記述していく方法 リレーショナルデータベースや CSV として既に存在するデータを RDF に変換する方法 HTML や XML に埋め込まれたデータを抽出する方法 画像や動画にアノテーションを付けていく方法等である 本稿は この中でも既存のデータを RDF に変換する方法に着目して述べていく 既存のデータを RDF に変換していく具体的な方法には RDF Refine 等の変換のためのツールを用いる メタデータ作成者が独自でプログラムを記述するといった方法が考えられる このとき メタデータ作成者は 変換したいデータの項目を RDF としてどの様な語彙や構造でマッピングしていくのかを設定する 図 1 の場合 タイトルという項目名に対し dc:title という語彙を当てはめ 著者名 著者名 ( 姓 ) 著者名 ( 名 ) を foaf:name で一つのまとまりで記述している また マッピングを行う上で メタデータの記述内容が特別な型を必要とするときはデータタイプやクラスの指定を行う 例えば 記述内容が文字列で日付の場合は xsd:date というデータタイプを指定する しかしながら 既存データから RDF への変換において語彙をマッピングしていく作業を行う際に メタデータ作成者は RDF や LOD についての知識や 実際にメタデータが取り扱われる領域についての知識が求められる より多くの人々に公開したメタデータを利用してもらうには そのメタデータの利便性を高くし 他の機関と連携を取りやすくすることが必要である そのためメタデータ作成者は 他のメタデータで多く利用されている且つ 最もその項目に適した語彙を探す必要がある しかしながら 現実として必ずしもメタデータ作成者がこのような知識を持っているとは限らない この問題の解決策の一つに記述規則定義の再利用がある 例えば A 大学の図書館が書誌データを RDF にマッピングしたい ときに B 大学の図書館で使われている記述規則定義をそのまま流用するというものである これにより メタデータ作成者が語彙のマッピングを行う負担を軽減出来るのに加え メタデータの相互利用性を高めることも出来る 本稿では データを RDF に変換するツールである RDF Refine 上で このマッピング作業を支援するために メタデータスキーマを再利用する方法を提案する 3. RDF へのマッピング支援 本章では メタデータの変換のためのツールである RDF Refine と Description Set Profile について述べた上で それら 2 つを用いて データから RDF へ語彙をマッピングするための支援手法を提案する 3.1. RDF Refine OpenRefine[6] とは オープンソースとして提供されているデータクリーニングツールである 読み込んだデータの編集や XML などの別の形式への変換 他のデータとの統合等といったことが出来る OpenRefine は拡張機能である RDF Refine[7] を追加することで 読み込んだデータを RDF の記述形式である RDF/XML や Turtle に変換することが出来る また 既に公開されている LOD リソースと統合したり 作成したデータをそのまま LOD として公開することも出来る RDF への変換の際は RDF Skeleton という 読み込んだデータのどの項目名を何の語彙とマッピングし どんな構造の RDF に変換するかを定義するための設計図を設定していく 図 2 は RDF Skeleton の設定画面である 図 2 では CSV 上で 書誌 ID と 作品タイトル という項目で記述されているデータを dc:title という語彙で結び付けている この様に RDF Refine では変換したいデータを視覚的に RDF の構造にマッピングすることが出来る また この RDF 図 1 RDF への変換のための項目名のマッピング例 図 2 RDF Skeleton の設定画面 03-02

表 1 簡易 DSP の記述例 RDF に変換するためだけでなく 他の様々な用途でも利用され得る可能性を秘めている 3.3. RDF へのマッピング支援 Skeleton のデータは JSON 形式で出力することが出来 一度設定すれば RDF Refine 上で他のプロジェクトにも対応させることが出来る 3.2. Description Set Profile 記述規則定義を定義する方法の一つとして DCMI[10] が提案する Description Set Profile(DSP) [11] がある DSP では ある項目について 項目名 ( ラベル ) RDF で用いる語彙 項目の記述回数 日付の書き方などの実際に記述する内容への制約を XML で記述することが出来る メタデータ情報基盤構築事業 [20] は この DSP を OWL で表現した OWL-DSP[15] や 更なる記述の簡易化を目指して TSV 形式で記述可能にした簡易 DSP[14] を提案している 表 1 は図 2 の RDF Skeleton の図で表現されている記述規則を簡易 DSP で表現した例である 表 1 の様に 簡易 DSP では項目規則名に項目名を プロパティには RDF で用いる語彙を記述する また最小 最大では記述回数の最小値と最大値を 値制約には実際にメタデータを記述する際の制約を設定することが出来る また メタデータ情報基盤事業は メタデータスキーマを共有するためのメタデータレジストリである MetaBridge[9] を開発提供している MetaBridge では メタデータ作成者が作成した簡易 DSP または OWL-DSP を登録することで MetaBridge 上に DSP を公開 共有することが出来る 本研究では データを RDF に変換する際の語彙マッピングに対し この DSP を流用することでメタデータ作成者の負担を軽減させることを目指す DSP は項目名や語彙の指定 項目の記述回数といったメタデータの詳細な情報を定義出来ることに加え ツールや目的に左右されない標準的なフォーマットとなっている そのため RDF Skeleton 等とは異なり ツールに依存せず利用することが出来る また 文献 [12] では DSP がスキーマの標準フォーマットとしてだけではなく 文法チェックのためのツールやデータベースの設計 メタデータ編集ツールの設計のためにも用いることが出来ると述べている この様に DSP は 本稿で提案する様なデータを 2 章で述べたように データを RDF に変換するために語彙をマッピングしていく作業は専門知識が伴わないメタデータ作成者には難しい しかし 記述規則定義が再利用出来れば メタデータ作成者の負担を軽減することが出来る そこで本研究では DSP と RDF Refine を用いてデータを RDF にマッピングするための支援手法を提案する 図 3 は本研究が提案する CSV ファイルを RDF へ変換する手法の流れを示したものである OpenRefine には OpenRefine 上で作成したプロジェクトを再利用するために プロジェクトの設定を tar 形式で出力 読み込みを行う機能がある 本手法では 筆者が開発した提案プログラムを用いて OpenRefine 用の読み込みファイルを作成する 手順として まず作成者は作成したいメタデータのスキーマを DSP で定義したものを用意する 次に変換したい CSV ファイルを用意する このとき CSV ファイルのヘッダ行に記述する項目名と DSP で定義した項目名とを同じ名前にしておく必要がある ( 図 3(1)) 用意した DSP と CSV ファイルを本稿が提案するプログラムで読み込むと OpenRefine の読み込み用ファイルを作成する ( 図 3(2)) このプログラムの中では DSP から読み込んだスキーマを RDF Skeleton の形に変換し CSV ファイルに記述されいてるデータを読み込んでいる プログラムによって作成された読み込み用ファイルを OpenRefine で実際に読み込むと 作成したいメタデータを RDF/XML や Turtle の形式で出力することが出来る ( 図 3(3)) なお この提案プログラムは Ruby のライブラリとして開発した 現在 利用する際は プログラムをインストールし DSP と CSV ファイルの読み込み メタデータ作成者が実際の読み込みファイルの作成 図 3 提案プログラムを用いた RDF への変換作業の流れ 03-03

についてのプログラムを書き 実行する必要がある 表 2 DSP のサンプルの概要 3.4. 様々な形式の記述規則への対応 3.3 節で説明した提案プログラムは 表 2 表 3 に挙げた様な 構造やデータタイプの異なる様々な DSP のサンプルに対応して実行できるように作成した なお 今回用いた DSP のサンプルは OWL-DSP 簡易 DSP で作成した また DSP のサンプルを作成すると同時に それぞれの DSP に対応した CSV ファイルも用意した 表 2 のデータ構造は DSP のサンプルがそれぞれ図 4 に描かれている様な構造を持つことを示す 図 4 のパターン (1) は ある URI に対し複数の文字列を記述する項目が存在するという RDF で記述されるメタデータの基本的な構造である パターン (3) は パターン (1) に加えて URI を記述する項目を付け足した パターン (2),(4) はパターン (1) に対して URI や空白ノードを使い 更に構造的に項目を配置している また ここで取り扱われる文字列のデータタイプは 表 4 の RDF Refine で対応することができるデータタイプの種類をすべて満たすことを目指した しかしながら 現在 OWL-DSP 簡易 DSP では言語タグを指定することができないため 言語タグの指定は対応することができなかった 4. 青空文庫書誌データの変換実験 どこまで現実的な利用が可能かを確認するために 実在するデータに対して提案する手法を用いて RDF に変換する実験を行った 本実験では 著作権の消滅した作品等を公開している電子図書館 青空文庫 [13] にて CSV 形式で公開されている書誌データを用いた このデータには 約 12000 件の書誌レコードが含まれており タイトル名 タイトル ID 出版日を表す日付 分類番号を表す日本十進分類 (NDC) の表記 新字 旧字等を表す仮名遣い種別 青空文庫で公開されている URL 等といった多くの項目がある 本実験は 提案プログラムを用いて この CSV データを図 5 に表す DSP に習った RDF 形式のデータに変換を目指した また 今回用いた DSP は筆者が青空文庫のために作成したもので 詳細は MetaBridge 上に公開している 本実験は 本稿で提案する手法を実際に行う際に メタデータ作成者がどのような手順を踏む必要があるのか また実際に変換可能であるかの検証を目的とした 実験方法として 変換したいメタデータの http://www.metabridge.jp/infolib/metabridge/show/description/v iew/?lang=&descriptionuri=http%3a%2f%2fpurl.org%2fnet%2 Faozora%2Fdsp 表 3 DSP のサンプルの分類 表 4 RDF Refine で用意されているデータタイプの一覧 図 4 サンプル DSP のデータ構造のパターン 03-04

記述規則を定義した DSP と青空文庫の書誌データを記述した CSV ファイルを用意し 用意した CSV ファイルに対して提案手法を用いて RDF への変換を行うことを目指した 以下では 変換を行う上での作業の流れと変換結果について述べる まず 青空文庫から得られる CSV ファイルのヘッダ行の部分だけを DSP の項目に合わせた CSV ファイルを用意して提案手法を実行した 項目名が一致している部分のデータを変換することは出来た しかし 一部のデータはそもそも DSP の項目に合わせることが出来なかった なぜなら 用意した CSV ファイルと DSP のデータの構造が異なっていたからである 今回用いた CSV ファイルでは 1 つのレコードにおいて作品に対し一人の著者名が記述され 役割フラグという項目で著者 翻訳者 校訂者に分けていた 一方で 今回設定した DSP では 一つの作品に対して著者 翻訳者 校訂者全ての作家を記述していたため CSV ファイルのデータの構造を変更する必要があった そこで 実際にデータの構造も DSP に合わせて作成した CSV ファイルを用意しようと試みた しかし この CSV ファイルを作成することは出来なかった なぜなら提案手法では 複数回記述したい項目に対して 一度しか記述することが出来ないからである 青空文庫には底本という 作品を作る際に参照した図書を記述する項目がある 底本が複数ある場合 青空文庫の CSV ファイルには底本 1 底本 2 という項目で記述されているのに対し DSP 上では底本はすべて同じ扱いになっているため 項目名が底本となっている DSP にも底本 1 底本 2 という項目を加えれば もちろん変換は可能となるが それは DSP の記述規則定義としての役割を無視してしまうことになる それを踏まえて 複数回記述したい項目のデータだけを抽出して 複数の CSV ファイルに分けて提案手法を実行した このように DSP の一部分に対して 上手く変換が可能であれば 1 つの CSV ファイルで表現出来ないデータにも対応出来ると考えた 今回の場合は CSV ファイル上で底本 1 または底本 2 となっている項目を抜き出し 2 つの CSV ファイルに DSP に合わせた項目名でそれぞれ記述を行った 結果として RDF に変換することは出来た しかしながら 今回のケースでは DSP に空白ノードを用いていたため データが記述されていない部分に対 図 5 青空文庫書誌データのスキーマモデル ( 一部抜粋 ) 03-05

して余計な空白ノードを作成してしまっていた DSP に空白ノードがなければ データは問題なく RDF に変換されたと考えられる 実験全体の結果として 今回用いた青空文庫の DSP と CSV ファイルからは上手く RDF に変換することは出来なかった 5. 課題と考察 4 章で述べた実験の結果を通して 本研究の提案に以下の 2 つの問題点を挙げる 1). DSP に合わせた CSV ファイルの作成に手間がかかる場合がある 2). 繰り返し出現する項目に対応できない 1 について本実験では 図 5 に表す DSP に合わせるために CSV ファイルの項目名を変更するだけでなく CSV ファイルの構造を変更する必要があった 例えば 今回の場合では青空文庫の書誌データの全件レコードから著者 翻訳者 校訂者を抽出し 適切な作品に割り当てるという作業を行わなければならなかった DSP に合わせて新しくデータを作成する場合は この作業を行う必要はないだろう しかし今回の様に 既存のデータを RDF にする場合は この CSV ファイルの変更自体がメタデータ作成者の負担となることが考えられる 2 について 用意した DSP に合わせて CSV を作成する際に 項目の記述回数が 2 以上の場合 すなわち 1 対 N の構造でデータを記述する可能性がある場合に本稿の提案手法は対応出来ないことが分かった なぜなら 今回の提案プログラムの中では DSP 上の項目名と CSV ファイル上の項目名が同じものを適応させているため 同じ項目名が複数存在する場合に対応することが出来ない また そもそも OpenRefine 上では読み込む CSV ファイルに複数の同じ項目を存在させることは出来ない 対応策として メタデータ作成者は 項目名を DSP に合わせた状態で 複数の CSV ファイルに分けて変換を行うという方法が考えられる しかしながら 今回の青空文庫で設定した DSP の様に空白ノードを多用している場合だと 余計なデータを作成してしまう可能性がある この問題に対しては 今後 CSV ファイル上に同じ項目が複数存在する場合は 自動的に 項目名 1 項目名 2 といった項目の生成を行う DSP に対して CSV ファイルの項目名が少ない場合は DSP と項目名が一致する部分だけの RDF Skeleton を生成するといったプログラムの改善を行う必要がある また 本稿では青空文庫の書誌データ以外のデータに対して実験は行っていない 今後 他のデータについても提案手法が適応出来るか検証を行い ど の場合は成功し どの場合は失敗するのか また成功するケースはどのくらいの割合であるのかを調査する必要があるだろう 6. 関連研究 3 章でも紹介した MetaBridge では DSP を共有するだけでなく 本稿の提案手法と同様に DSP を基に CSV を変換するための機能が備わっている しかしながら MetaBridge では図 4 のパターン (2) パターン (4) の様なデータ構造への変換に対応出来ない 本稿の提案手法では これらの構造にも対応した また LinkData[8] は Web サービスとして提供されているメタデータ作成 変換ツールである メタデータ作成者は どのような項目をメタデータとして記述するかを決めたひな形を作成し それに沿ってメタデータを Excel 上で入力することが出来るように Excel 形式のファイルを受け取ることが出来る 作成したデータを LinkData にアップロードすると データは RDF に変換され 同時に LinkData 上で公開される サービス全体として LOD や RDF についてあまり詳しくないユーザへの使いやすさを重視しており 誰でも簡単にデータを変換することが可能となっている また すでに公開されているデータのひな形を基に新たにデータを作成することも出来る しかし メタデータの構造を自由にカスタマイズすることが出来ないという点で本研究とは異なる 今回の DSP へのマッピングと類似したものに R2RML(RDB to RDF Mapping Language)[16] が存在する R2RML は既存のデータベースのデータを RDF に変換するためのマッピングを記述するための言語である RDF の Turtle 形式で記述しており SQL で変換したい部分を指定していく このことから R2RML は RDF Refine で用いられる RDF Skeleton LinkData のひな形に一致する存在だと言える 本稿の提案手法とは CSV ファイルではなくリレーショナルデータベースを対象しているという点が異なる また スキーマを再利用するという目的に着目すると 個々のデータベースや CSV ファイル等に依存しない DSP の方が優れていると考えられる これは RDF Skeleton や LinkData のひな形にも同様に言うことが出来る 7. おわりに 本稿では メタデータの作成において CSV ファイルから RDF への変換という部分に着目し RDF Refine と DSP を用いて CSV ファイルから RDF へのマッピングを支援する方法を提案した この提案 03-06

手法では 実際に DSP と CSV ファイルを基に RDF Refine 用の読み込みファイルを作成するプログラムを開発した 今後の展望として まず 5 章で述べた問題を改善していきたい 加えて データを RDF へ変換する場合だけでなく メタデータを一から記述していく場合に対して支援を行うシステムを DSP を用いて開発していきたい 本稿で述べた提案手法は データが CSV ファイルに既に記述されていることが前提であり データの記述を支援することはできない しかしながら メタデータの作成における問題の一つに データの記述そのもののコストが高いという問題がある そのためデータの変換だけでなく データの記述に対しても支援を行っていく必要がある また 本研究は メタデータ作成の支援を目的としたものである しかしながら その一方で本研究で用いている DSP の様な機械処理が可能なスキーマはまだ多く公開されていない この研究を通して 機械処理が可能なスキーマを公開していくことで メタデータの利用や作成においてどのようなメリットを与えることが出来るのかを確認していきたい 謝辞 [11] DCMI Description Set Profile. http://dublincore.org/architecturewiki/descriptionsetprof ile ( 参照 :2012/03/14) [12] Mikael Nilsson, Alistair J. Miles, Pete Johnston, Fredrik Enoksson. Formalizing Dublin Core Application Profiles Description Set Profiles and Graph Constraints. Metadata and Semantics. 2009. pp101-111. [13] 青空文庫. http://www.aozora.gr.jp/ ( 参照 :2013/03/14) [14] Description Set Profile Definition Language. http://purl.org/metainfo/terms/dsp# ( 参照 :2013/03/14) [15] メタデータ スキーマ定義言語. http://www.meta-proj.jp/a04.pdf ( 参照 :2013/03/14) [16] R2RML: RDB to RDF Mapping http://www.w3.org/tr/r2rml/ ( 参照 :2013/03/14) [17] CKAN 日本語 みんなで作る日本のデータカタログサイト http://data.linkedopendata.jp/( 参照 :2013/03/14) [18] Open Knowledge Foundation Japan http://okfn.jp/( 参照 :2013/03/14) [19] メタデータ情報共有のためのガイドライン http://www.mi3.or.jp/item/a03.pdf ( 参照 :2013/03/14) [20] メタデータ情報基盤構築事業 http://meta-proj.jp/ ( 参照 :2013/03/14) 本研究の一部は平成 24 年度日本学術振興会科学研究費補助金 ( 課題番号 :23500295) による 参考文献 [1] The Open Data Handbook. http://opendatahandbook.org/ ( 参照 :2013/03/14) [2] Linked Data Design Issues. http://www.w3.org/designissues/linkeddata.html ( 参照 :2013/03/14) [3] 5 star Open Data. http://5stardata.info/ ( 参照 :2013/03/14) [4] 谷口祥一. メタデータの 現在, 初版. 勉誠出版. 2010. 154p. [5] 加藤文彦. Linked Data 作成支援ツールの現状と課題. 人工知能学会研究会資料, SIG-SWO-A1101-03. 2011. http://sigswo.org/papers/sig-swo-a1101/sig-swo-a 1101-03.pdf ( 参照 :2013/03/14) [6] OpenRefine. http://openrefine.org/ ( 参照 :2013/03/14) [7] RDF Refine. http://refine.deri.ie/ ( 参照 :2013/03/14) [8] Link Data. http://linkdata.org/ ( 参照 :2013/03/14) [9] メタデータ基盤システム MetaBridge. http://www.metabridge.jp/ ( 参照 :2013/03/14) [10] Dublin Core Metadata Initiative. http://dublincore.org/ ( 参照 :2013/03/14) 03-07