第 1 回 データWG 資 料 資 料 7 データ 形 式 構 造 データカタログ に 関 する 技 術 について 2012 年 12 月 26 日 データWG 主 査 代 理 小 池 博 0
目 次 1. オープンデータの 技 術 概 要 (1) 機 械 判 読 とは (2) 関 連 技 術 の 位 置 づけ 2. 関 連 技 術 の 概 要 (1) 機 械 判 読 可 能 なデータ 形 式 (2)データの 融 合 を 可 能 にするためのデータ 構 造 (3)データカタログ 1
1.オープンデータの 技 術 概 要 (1) 機 械 判 読 とは 機 械 判 読 とは コンピュータ プログラム( 以 降 単 にコンピュータと 呼 ぶ)がデー タを 読 み 取 る ということであるが オープンデータの 脈 においては コンピュータが 動 的 にデータを 再 利 ( 加 編 集 等 )できるということである をどれだけ 要 せずに コンピュータがデータを 再 利 できるかにより 機 械 判 読 の 容 易 さ には いくつかの 段 階 がある コンピュータが 動 的 にデータを 再 利 するためには コンピュータが 当 該 データの 論 理 的 な 構 造 を 識 別 ( 判 読 )でき 構 造 中 の 値 ( 表 の 中 に っている 数 値 やテキスト 等 )が 処 理 できるようになっている 必 要 がある 2
1.オープンデータの 技 術 概 要 (1) 機 械 判 読 とは 機 械 判 読 可 能 なデータとは データ 形 式 や 構 造 の 仕 様 が 公 開 され そのデータを 判 読 処 理 するプログラムを 第 3 者 が 作 成 できるデータである センサデータの 値 を 利 用 したい プログラム センサログ 形 式 を 処 理 できる プログラム センサ 情 報 等 の バイナリデータ テキスト 表 現 の 値 を 利 用 したい プログラム テキスト 構 造 (XML,CSV) 処 理 プログラム テキスト データ 機 械 判 読 不 可 なデータとは データを 利 用 したいプログラムが そのデータの 論 理 的 な 構 造 を 識 別 ( 判 読 )できない データ (データを 人 に 対 し 表 示 するプログラムが 存 在 しても 内 容 が 取 り 出 せない) 表 の 値 を 利 用 したい プログラム 画 像 表 示 プログラム ( 表 認 識 できず) 画 像 データ ( 画 像 中 に 表 が 存 在 する) 表 の 値 を 利 用 したい プログラム データ 形 式 や 中 身 の 構 造 が 不 明 確 なデータ 機 械 判 読 不 可 なデータも データビューア プログラムを 利 用 することで 人 は 判 読 可 能 表 を 理 解 し 人 手 で 利 用 データ 作 成 人 判 読 可 能 画 像 表 示 プログラム 編 集 エディタ プログラム 画 像 データ ( 画 像 中 に 表 が 存 在 する) 表 データ (データによっては 人 手 を 介 すことで 一 定 のプログラム 処 理 できるデータを 取 り 出 すことが 可 能 ) 利 用 側 で 再 利 用 可 能 なデータを 作 成 するコストが 高 い 3
1.オープンデータの 技 術 概 要 (2) 関 連 技 術 の 位 置 づけ 利 用 者 が 必 要 な データを 探 せる 文 書 分 類 キーワード 検 索 等 が 理 解 できる 書 (データ)の 形 式 見 やすさ 理 解 しやすい 文 書 データ 表 現 利 用 者 ( 人 ) 文 書 ビューアや 文 書 エディタ を 利 用 して 人 が 読 む ホームページ 情 報 ( 人 向 け) HP 作 成 人 が 理 解 する ための 公 開 文 書 加 作 成 ロウデータ ( 手 を 加 えてい ないデータ) 利 用 者 ( 機 械 ) プログラムが データを 読 み 二 次 利 用 する データカタログ ( 機 械 向 け) カタログ 作 成 再 加 機 械 判 読 可 能 な 公 開 データ その まま 公 開 処 理 等 素 材 データ 素 材 文 書 素 材 画 像 機 械 が 必 要 な データを 探 せる 3データカタログ ( 機 械 がデータを 横 断 検 索 でき 機 械 がデータにアクセスできる) 機 械 判 読 可 能 な データ 仕 様 に 沿 って 作 成 してある 1 機 械 判 読 可 能 なデータ 形 式 2データの 融 合 を 可 能 にする ためのデータ 構 造 4
2. 関 連 技 術 の 概 要 (1) 機 械 判 読 可 能 なデータ 形 式 1 オープンデータの5つの 段 階 ( 出 典 : ) と データ 形 式 段 階 公 開 の 状 態 データ 形 式 参 考 )Linked Open Data 5star 例 人 が 理 解 するための 1 段 階 オープンライセンスの 元 データを 公 開 PDF JPG OL Open License 公 開 文 書 ( 計 算 機 により 参 照 できる( 可 読 )) ( 編 集 不 可 ) 2 段 階 1 段 階 に 加 え コンピュータで 処 理 可 能 なデー タで 公 開 xls doc RE Readable (Human & Machine) (コンピュータでデータが 編 集 可 能 ) 公 開 文 書 ( 編 集 可 ) 3 段 階 2 段 階 に 加 え オープンに 利 できるフォーマッ トでデータ 公 開 XML CSV OF Open Format (アプリケーションに 依 存 しない 形 式 ) 4 段 階 Web 標 準 (RDF 等 )のフォーマットでデータ 公 開 RDF XML URI Universal Resource Identifier (リソースのユニーク 化 Webリンク) 機 械 判 読 可 能 な 公 開 データ 5 段 階 4 段 階 が 外 部 連 携 可 能 な 状 態 でデータを 公 開 LoD RDF スキーマ LD Linked Data (データ 間 の 融 合 情 報 が 規 定 検 索 可 能 ) オープンデータの5つの 段 階 出 典 : Open Dataのサイト(http://5stardata.info/)およびTim Berners-Lee のLinked Dataに 関 する 提 ページ (http://www.w3.org/designissues/linkeddata.html)を 参 考 に 作 成 5
2. 関 連 技 術 の 概 要 (1) 機 械 判 読 可 能 なデータ 形 式 2 オープンデータの5つの 段 階 別 の 利 用 可 能 なデータ 形 式 の 状 況 (1 次 集 計 結 果 ) 区 分 主 なデータ 形 式 特 徴 (ライセンス 関 係 は 詳 細 確 認 が 必 要 ) 1 段 階 (OL) 2 段 階 (RE) 3 段 階 (OF) 4 段 階 (URI) 字.TXT (ユニコード) オープンライセンス 数 値.XLS(エクセル) オープンライセンス(デファクト),XML 形 式 あり.CSV オープンライセンス 画 像.jp(e)g オープンライセンス(デジュール 標 準 ).gif オープンライセンス(デファクト) 映 像.m4v オープンライセンス(Web 標 準 ).flv オープンライセンス(デファクト) 声.mp3 オープンライセンス(Web 標 準 ).wav オープンライセンス(デファクト) 地 図.gml オープンライセンス(デファクト).shp オープンライセンス(デファクト) 複 合.XHTML オープンライセンス(Web 標 準 ) 書.XML オープンライセンス(Web 標 準 ).DOC(ワード) オープンライセンス(デファクト) XML 形 式 あり.ppt オープンライセンス(デファクト) XML 形 式 あり.JTD( 太 郎 ) 仕 様 は 個 別 公 開.PDF 現 在 は 仕 様 が 公 開.epub( 電 書 籍 ) オープンライセンス(Web 標 準 ).rdf オープンライセンス(Web 標 準 ) 圧 縮.zip オープンライセンス(デファクト): アーカイブや 圧 縮 形 式 - - - - - 機 械 判 読 可 能 な 公 開 データ のデータ 形 式 となる 3 段 階 以 降 に 該 当 しているデータ 形 式 5 段 階 (LD) 6
2. 関 連 技 術 の 概 要 (1) 機 械 判 読 可 能 なデータ 形 式 3 機 械 判 読 可 能 なデータ 形 式 にする 際 の 留 意 点 人 判 読 可 能 データから 機 械 判 読 可 能 データを 作 成 するイメージ( 農 林 水 産 省 の 情 報 引 用 ) 注 釈 : 元 のページには HTML/PDF/CSVが 掲 載 されているが あえてHTMLをより 機 械 判 読 にしようとしたとき 気 を 付 けるべき 事 項 としての 事 例 としている HTML CSV 表 現 例 セーブ & 編 集 機 械 判 読 可 能 な 公 開 データ XML 表 現 例 農 産 物 市 況 2012_10_26_ 盛 岡 _xml < 品 目 名 > 大 根 </ 品 目 名 > < 産 地 名 > 岩 手 </ 産 地 名 > < 数 量 単 位 = t >689.1</ 数 量 > 千 葉 のスペースの 削 除 1レコードとして 欠 損 する 値 の 設 定 複 数 の 表 の 分 割 不 必 要 な 行 削 除 人 が 理 解 する ための 公 開 文 書 ( 編 集 不 可 ) 手 作 業 で コピー& ペースト または HTML 素 材 の 利 用 EXCEL 人 が 理 解 する ための 公 開 文 書 ( 編 集 加 工 可 ) http://www.maff.go.jp/j/tokei/syohi/sikyou/index.html からリンクされている 市 況 情 報 外 部 リンク 利 用 7
2. 関 連 技 術 の 概 要 (2)データの 融 合 を 可 能 にするためのデータ 構 造 1 公 開 データのデータ 構 造 (データ 項 目 コードの 関 係 ) 予 算 情 報 項 目 名 意 味 属 性 コード 組 織 行 政 機 関 集 合 項 目 行 政 機 関 府 省 庁 名 コード 政 府 機 関 コード 部 局 部 局 名 文 字 列 予 算 予 算 の 総 額 数 値 ( 百 万 無 し 当 年 当 年 度 予 算 数 値 ( 百 万 無 し 前 年 前 年 度 予 算 数 値 ( 百 万 政 府 機 関 コード 値 意 味 01 内 閣 府 02 内 閣 官 房 下 記 のデータ 構 造 であることの 定 義 A < 組 織 >< 行 政 機 関 ></ 行 政 機 関 > < 部 局 ></ 部 局 ></ 組 織 > < 予 算 >< 当 年 ></ 当 年 > < 前 年 ></ 前 年 ></ 予 算 > < 組 織 >< 行 政 機 関 >02</ 行 政 機 関 > < 部 局 >IT 担 当 室 </ 部 局 ></ 組 織 > < 予 算 >< 当 年 >200</ 当 年 > < 前 年 >100</ 前 年 ></ 予 算 > 公 開 データの データ 構 造 ( 形 式 ) 例 ( 人 が 読 める 形 式 例 ) 公 開 データの データ 構 造 ( 形 式 ) 例 ( 機 械 が 読 める 形 式 XML 例 ) 機 械 判 読 可 能 な 公 開 データ の 例 利 しやすいように 公 開 データは データ 構 造 を 規 定 し 公 開 する 必 要 がある ( が 理 解 する 表 現 と 機 械 が 理 解 する 表 現 のバリエーションが 必 要 ) 府 省 治 体 等 で 独 で 決 めた 書 形 式 やデータ 形 式 が 存 在 する 場 合 その 仕 様 を 公 開 する 必 要 がある 既 に 業 界 で 様 々な 標 準 化 されたデータ 構 造 がある 適 宜 利 できるものは 利 する ことが 望 ましい 8
2. 関 連 技 術 の 概 要 (2)データの 融 合 を 可 能 にするためのデータ 構 造 2 公 開 データのデータ 形 式 の データ 構 造 データ 項 目 コードの 関 係 (イメージ) 予 算 情 報 項 目 名 意 味 属 性 コード 組 織 行 政 機 関 集 合 項 目 行 政 機 関 府 省 庁 名 コード 政 府 機 関 コード 部 局 部 局 名 文 字 列 予 算 予 算 の 総 額 数 値 ( 百 万 無 し 当 年 当 年 度 予 算 数 値 ( 百 万 無 し 前 年 前 年 度 予 算 数 値 ( 百 万 政 府 機 関 コード 値 意 味 01 内 閣 府 02 内 閣 官 房 データ 構 造 の 定 義 A( 機 械 判 読 可 能 な 形 式 ) 予 算 情 報.xml 定 義 Aに 従 って 作 成 したという 情 報 < 組 織 >< 行 政 機 関 >02</ 行 政 機 関 > < 部 局 >IT 担 当 室 </ 部 局 ></ 組 織 > < 予 算 > < 当 年 >200</ 当 年 > < 前 年 >100</ 前 年 ></ 予 算 > 公 開 データのデータ 構 造 ( 形 式 ) <データ 構 造 > データが 有 する 属 性 の 集 合 を 整 理 したもの <データ 項 > データの 個 々を 表 す 項 のこと 項 名 項 が 表 現 する 対 象 の 意 味 項 の 値 の 属 性 や コード 等 で 規 定 <コード> 機 械 が 処 理 しやすいように 項 値 の 取 りうる 表 現 を 符 号 化 したもの 機 械 判 読 可 能 な 公 開 データ < 機 械 判 読 可 能 なデータ 形 式 のデータ> 例 えば XML 形 式 だと XML 仕 様 に 従 い データ 構 造 等 の 規 定 に 従 いデータの 値 が セットされた 状 態 のもの 9
2. 関 連 技 術 の 概 要 (2)データの 融 合 を 可 能 にするためのデータ 構 造 3 公 開 データのデータ 横 断 利 用 と 融 合 型 利 用 の 考 え 方 公 開 データの 利 では 以 下 のような 利 が 想 定 される 利 例 1: 異 なる 組 織 や 年 度 別 に 公 開 されたデータをまとめて 処 理 ( 横 断 利 ) 利 例 2: 異 なるデータ 構 造 の 公 開 データ 間 を 融 合 キーで 融 合 しそれぞれのデータ 項 の 値 を 組 み 合 わせて 利 ( 融 合 利 ) 例 地 図 データの 位 置 情 報 に 農 産 物 出 荷 量 を 融 合 利 1( 横 断 利 ) < 組 織 >< 行 政 機 関 >02</ 行 政 機 関 > < 部 局 >IT 担 当 室 </ 部 局 ></ 組 織 > < 予 算 > < 当 年 >200</ 当 年 > < 前 年 >100</ 前 年 ></ 予 算 > < 組 織 >< 行 政 機 関 >10</ 行 政 機 関 > < 部 局 >ABC</ 部 局 ></ 組 織 > < 予 算 > < 当 年 >1500</ 当 年 > < 前 年 >1100</ 前 年 ></ 予 算 > 利 2( 融 合 利 ) 農 産 物 市 況 情 報 2012_10_26_ 盛 岡.csv 市 場 ( 位 置 ), 日 付, 品 目 名, 産 地 名, 数 量 (t) <X1,Y2> 20121026, 大 根, 岩 手, 689.1 農 産 物 市 況 情 報 2012_10_27_ 盛 岡.csv 市 場 ( 位 置 ), 日 付, 品 目 名, 産 地 名, 数 量 (t) <X1,Y2> 20121027, 大 根, 岩 手, 700.5 < 組 織 >< 行 政 機 関 >15</ 行 政 機 関 > < 部 局 >XYZ</ 部 局 ></ 組 織 > < 予 算 > < 当 年 >2000</ 当 年 > < 前 年 >2050</ 前 年 ></ 予 算 > 同 じ 構 造 のデータに 対 し 横 断 的 なデータ 処 理 を 実 施 前 年 度 より 予 算 アップの 行 政 機 関 と 部 局 を 出 す < 行 政 機 関 >10</ 行 政 機 関 > < 部 局 >ABC</ 部 局 ></ 組 織 > 地 図 の<X1,Y2> 地 点 20121026, 大 根, 岩 手, 689.1 20121027, 大 根, 岩 手, 700.5 10
2. 関 連 技 術 の 概 要 (2)データの 融 合 を 可 能 にするためのデータ 構 造 4データの 融 合 のために 必 要 な 事 項 データ 構 造 ( 項 )を 共 通 化 することで データを 融 合 することが 可 能 異 なるデータ 構 造 であっても 同 じデータ 項 があることが 分 かれば データの 融 合 は 可 能 特 にデータ 項 の 値 としてのコードについては 融 合 処 理 の 機 械 処 理 を 効 率 化 させるため に 重 要 な 要 素 である 海 外 のデータと 融 合 させるためには 国 際 標 準 データ 項 辞 書 ( 例 ISO 15022 等 ) のデータ 項 セットや 国 際 標 準 コード 体 系 のデータ 項 とコードを 利 すると データ の 融 合 が 広 範 囲 に 実 施 可 能 近 年 データ 項 の 概 念 (リソース)のユニーク 化 として RDFの 技 術 が 普 及 してきている 次 世 代 の 技 術 として 利 検 討 すべきである URI Universal Resource Identifier 異 なる 管 理 組 織 間 のデータも 融 合 キー 化 が 可 能 LOD Linked Open Data 異 なるデータ 項 間 の 関 連 情 報 が 規 定 でき 度 な 融 合 が 可 能 国 際 標 準 データ 構 造 の 例 国 内 標 準 データ 構 造 の 例 コード 標 準 の 例 データ 項 辞 書 (ISO 15022 等 ) 業 界 別 データ 構 造 表 現 流 通 業 界 のデータ 項 (GS1データ 辞 書 :GDD) 本 の 業 界 データ 辞 書 と データ 構 造 : 業 務 防 災 教 育 ( 治 体 APPLIC 地 域 情 報 プラットフォーム) 気 象 庁 防 災 情 報 XML (データ 構 造 定 義 ) 企 業 ( 統 )コード 商 品 コード ISBN( 国 際 標 準 と 書 番 号 標 準 地 域 コード ものや 場 所 ID (Ucode) 組 織 コード( 政 府 機 関 コード) 11
2. 関 連 技 術 の 概 要 (3)データカタログ 1( 機 械 向 け)データカタログとは? その 形 式 やアクセス 方 法 は? データカタログは 機 械 (コンピュータ プログラム)が 必 要 な 公 開 データを 探 すための 情 報 であり 公 開 データを 取 得 するための 情 報 である データカタログ 機 械 判 読 可 能 な 形 式 (XML 等 )で 記 述 されている 以 下 のデータカタログの 要 件 を 定 義 し 運 する 必 要 がある (a) データカタログ 形 式 として データカタログを 定 義 する 構 造 ( 項 )を 標 準 化 する (b) データカタログ 形 式 で された 形 式 で 各 公 開 データの データカタログ( 実 態 ) を 定 義 して 公 開 する データカタログの 情 報 として 公 開 データ 構 造 を 指 定 する (c) 機 械 判 読 可 能 な 形 式 で データカタログ を 作 成 して 公 開 する (d) 参 照 法 (API)を 提 供 する 利 用 者 1( 機 械 ) アプリケーション 利 用 者 2( 機 械 ) アプリケーション 参 照 方 法 (API) カタログ 検 索 カタログ 取 得 データ 取 得 データカタログ 形 式 A 用 データカタログ ( 機 械 向 け) B 用 データカタログ ( 機 械 向 け) C 用 データカタログ ( 機 械 向 け) A 公 開 データ 構 造 ( 形 式 ) B 公 開 データ 構 造 ( 形 式 ) C 公 開 データ 構 造 ( 形 式 ) Web-API(Web-アフ リケーションインタフェース) 公 開 データ A 機 械 判 読 可 能 な 公 開 データ 1 A 機 械 判 読 可 能 な 公 開 データ 2 B 機 械 判 読 可 能 な 公 開 データ 1 B 機 械 判 読 可 能 な 公 開 データ 2 C 機 械 判 読 可 能 な 公 開 データ 1 12
2. 関 連 技 術 の 概 要 (3)データカタログ 2( 機 械 向 け)データカタログに 記 載 する 内 容 ( 想 定 ) データカタログの 内 容 は 利 する 側 の 機 械 (プログラム)が 公 開 データとして 何 が あるか どのような 内 容 や 形 式 か どこにあるのか を 知 るための 情 報 となる データカタログの 構 成 は データカタログ 体 の 書 誌 情 報 公 開 データの 形 式 情 報 データ 特 性 情 報 等 である データカタログ 形 式 (XMLで 規 定 )(スタイルシートで 表 示 形 式 作 成 ) < 公 開 データの 書 誌 情 報 > ダブリンコア(Dublin Core) 基 本 要 素 等 < 公 開 データの 構 造 > データ 形 式 のURLの 指 定 独 のXMLやCSV 形 式 等 の 指 定 <データの 取 得 法 > データの 取 得 のURL 形 式 ( 連 続 取 得 ) < 融 合 キーとなる 項 > 他 の 情 報 と 融 合 できるデータ 項 <データ 特 性 > 鮮 度 粒 度 精 度 信 頼 度 等 <データ 固 有 の 特 性 > アンケートデータや 観 測 データ 特 性 等 Dublin Core : http://dublincore.org/ 公 開 データ 構 造 ( 形 式 ) (XML 表 現 等 ) <データ 構 造 ><データ 項 > 情 報 予 算 情 報 項 目 名 意 味 文 字 属 性 コード 組 織 行 政 機 関 集 合 項 目 行 政 機 関 府 省 庁 名 コード 政 府 機 関 コード 部 局 部 局 名 文 字 列 予 算 予 算 の 総 額 数 値 ( 百 万 無 し 当 年 当 年 度 予 算 数 値 ( 百 万 無 し 前 年 前 年 度 予 算 数 値 ( 百 万 政 府 機 関 コード 値 意 味 <コード> 情 報 01 内 閣 府 02 内 閣 官 房 13
2. 関 連 技 術 の 概 要 (3)データカタログ 3< 公 開 データの 書 誌 情 報 > データカタログを 検 索 する 上 で 必 要 となる 情 報 データカタログを 検 索 するための 書 誌 情 報 として 例 えば ダブリンコア(Dublin Core) がある 15の 基 本 要 素 ( 下 表 )と より 精 度 の い 情 報 を 提 供 するための 拡 張 語 彙 が 公 開 されている 書 や 書 籍 等 で 実 績 があり 国 国 会 図 書 館 で 採 されている 下 線 は ルールWGとデータWGが 連 携 し データカタログ 形 式 の 形 式 仕 様 として 規 定 していく 必 要 があるものである No 項 目 ( 日 本 語 表 記 ) 主 なもの 1 Title (タイトル) 通 常 はあるリソースが 公 式 に 知 られる 名 前 を 指 す 2 Creator( 制 作 者 ) リソースの 内 容 に 責 任 を 持 つもの 人 や 組 織 などがあげられ その 名 前 を 記 すことが 常 となっている 3 Subject (テーマ) リソースの 内 容 が 持 つトピック まとめられた 語 彙 の 中 から 使 うことが 望 ましい 4 Description( 詳 細 ) リソース 内 容 の 説 明 要 約 目 次 など 形 式 は 定 められていない 5 Publisher ( 提 供 者 ) リソースを 発 行 に 責 任 を 持 つもの Creatorに 同 じく 人 や 組 織 などがあげられ 名 前 を 記 すことが 常 である 6 Contributor ( 協 力 者 ) リソースの 内 容 に 協 力 するもの 人 や 組 織 などの 名 前 を 示 す 7 Date( 日 付 ) リソースに 関 する 主 要 な 出 来 事 が 起 こった 日 付 ( 更 新 日 作 成 日 など)を 記 述 する(ISO 8601 書 式 推 奨 ) 8 Type(タイプ) リソースの 内 容 が 持 つカテゴリ ジャンルなど まとめられた 語 彙 から 使 うことを 推 奨 9 Format (フォーマット) リソースが 持 つ 物 理 的 /デジタル 化 されている 性 質 メディアタイプなどがあげられ リソースを 処 理 するソフト ウェアやハードウェアを 知 るための 手 がかりとすることができる(MIME 等 のメディアフォーマットで 指 定 ) 10 Identifier ( 識 別 子 ) 曖 昧 さのないものが 必 要 とされる URIやISBNなどが 相 当 する 11 Source (ソース) リソースが 参 照 しているもの 公 式 な 識 別 システムに 従 っている 文 字 列 や 番 号 が 望 ましい 12 Language ( 言 語 ) リソースがどの 言 語 で 書 かれているのかを RFC 3066の 言 語 コード 書 式 で 書 くのが 望 ましい 13 Relation ( 関 連 ) 関 連 リソースを 公 式 な 識 別 システムに 従 っている 文 字 列 や 番 号 で 記 述 するのが 望 ましい 14 Coverage ( 範 囲 ) 地 名 や 緯 度 経 度 などで 表 記 されるものや 日 付 管 理 している 範 囲 など 地 名 や 時 代 の 名 前 が 緯 度 経 度 や 日 付 より 推 奨 される 15 Rights ( 権 利 ) 著 作 権 や 知 的 所 有 権 などの 権 利 に 関 する 情 報 を 記 述 する この 要 素 が 記 述 されていない 場 合 にリソースの 権 利 情 報 を 推 測 しても それは 何 も 意 味 しないことに 注 意 すること 引 用 :http://ja.wikipedia.org/wiki/dublin_core 14
4<データ 特 性 > 2. 関 連 技 術 の 概 要 (3)データカタログ データ 利 側 では データ 特 性 ( 鮮 度 粒 度 精 度 信 頼 度 等 )に 応 じて 利 法 やデータ 処 理 法 を 変 える 公 開 側 は 公 開 データのデータ 特 性 情 報 を データカタログ で 明 する 必 要 がある 公 開 データのデータ 特 性 に 合 わせて データカタログのポリシー を 作 成 することが 必 要 データ 特 性 特 性 の 説 明 データ 特 性 の 軸 データの 鮮 度 データの 粒 度 データの 精 度 データの 信 頼 度 データを 集 めたり 処 理 する 間 隔 ( 新 しさ) ロウデータか 集 計 や 分 類 をしたデータか データ 自 体 の 表 現 の 曖 昧 性 抜 けや 異 常 値 の 有 無 の 有 無 データの 信 頼 度 信 頼 した 機 関 が 作 成 したデータか 否 か(お 墨 付 き) 1 年 間 隔 1ヵ 月 間 隔 1 日 間 隔 1 時 間 間 隔 1 分 間 隔 1 秒 間 隔 ( 特 性 : 処 理 数 少 量 大 バッチ 安 価 処 理 数 多 量 少 リアルタイム 高 価 ) 全 てのロウデータ 必 要 な 個 別 ロウデータ ロウログの 集 計 値 や 傾 向 情 報 ( 特 性 : 細 かい 量 大 用 途 多 意 味 不 明 荒 い 量 少 用 途 限 定 意 味 を 持 つ) 精 度 が 低 い ( 抜 けあり 異 常 値 あり コードされていない 時 間 や 位 置 等 が 不 正 確 ) 精 度 が 高 い ( 抜 けがない 異 常 値 がない コード 利 用 正 確 な 時 間 や 位 置 ) 信 頼 度 が 低 い(インターネット 上 の 曖 昧 性 を 含 む 参 考 情 報 等 ) 信 頼 度 が 高 い ( 府 省 の 正 式 な 発 表 情 報 ) 15
2. 関 連 技 術 の 概 要 (3)データカタログ 5データカタログや 公 開 データを 検 索 取 得 できるためのインタフェース(Web-API) 機 械 (プログラム)が 検 索 取 得 できるためのインタフェース(Web-API)の 候 補 としては 以 下 のようなものがある それぞれ 特 徴 があるため 利 側 ユースケースを 考 慮 して 採 仕 様 を 決 定 する 必 要 がある No 主 なインタフェース 実 現 仕 様 ( 記 述 形 式 ) 1 SOAP (WSDL) 2 JSON (JSONスクリプト) 3 REST 形 式 (URL 表 現 +XML) 概 要 W3C SOAP 仕 様 に 基 づく コンピュータ 間 のデータ 交 換 構 造 化 された XMLデータの 交 換 を HTTP(S) 上 で 交 換 JavaScript Object Notation 例 えば 復 旧 復 興 支 援 制 度 DBのAPIとし て 利 用 されている オブジェクトの 表 記 法 をベースとした 軽 量 なデータ 記 述 言 語 Representational State Transfer 簡 易 な XML+HTTP インターフェイスを 採 用 したデータ 交 換 等 に 利 用 されている なお 機 械 が 公 開 データを 取 得 する 際 リソースを 指 し す 識 別 として URI(Uniform Resource Identifier)が 利 されることが 多 い カタログ 検 索 カタログ 取 得 データ 取 得 利 用 者 ( 機 械 ) アプリケーション データ カタログ ( 機 械 向 け) 機 械 判 読 可 能 な 公 開 データ Web-API 16