PowerPoint Presentation - PDF 無料ダウンロード

ProjectLA バックエンドの技術解説 RDF を使った三つ組みデータの格納 2013/03/14 クラウドテクノロジー研究部会リーダー荒本道隆 ( アドソル日進株式会社 )

何故 RDF か? 断片的なデータを相互につなぎたい RDFは主語述語目的語の三つ組構造で表現目的語と主語に同じ値を設定してそれぞれをつなぐ属性を事前に決定できない RDFはスキーマレスなので柔軟に対応できる RDFは多様な情報を関係性で表現できる大量のデータを蓄積分析したい RDF は構造が単純なのでコンピュータパワーが活きる

バックエンドの概要アプリに JSON+HTTPを使ったAPIを提供格納はRDF 形式検索はSPARQL(RDFクエリ言語 ) を使用

RDF とは RDF:Resource Description Framework 2008 年に W3C 勧告となった代表的な使用例 RSS(RDF site summary)0.9, RSS1.0 DBpedia 主語述語目的語の 3 つの要素で表現主語 (Subject):URI http://aitc.jp/project/2013/projectla/person/1 述語 (Predicate):URI http://aitc.jp/project/2013/projectla/person#name 目的語 (Object): 値先端太郎主語述語目的語

RDF で複雑なデータを表現目的語 (Object) と主語 (Subject) に同じ値を入れる主語述語目的語 / 目的語主語目的語主語目的語主語 The Linking Open Data cloud diagram http://richard.cyganiak.de/2007/10/lod/

モデルを RDF 化する上での注意この部分を RDF にする場合先端太郎住所東京都港区識別できるように ID を追加 1 氏名先端太郎住所東京都港区

ID を振っただけだとこれをそのまま RDF にすると問題がある 1 氏名先端太郎住所東京都港区 2 氏名先端太郎住所大阪市北区データがこうなる主語述語目的語 1 氏名先端太郎先端太郎住所東京都港区 2 氏名先端太郎先端太郎住所大阪市北区同姓同名が居ると区別がつかない

区別可能にするには元先端太郎住所東京都港区 ID を追加するパターン住所 1 東京都港区氏名先端太郎 ID と空白ノードを追加するパターン 1 blank b 住所東京都港区氏名先端太郎

ID を追加するパターンモデル住所 1 東京都港区データ氏名先端太郎主語述語目的語 1 氏名先端太郎 1 住所東京都港区 2 氏名先端太郎 2 住所大阪市北区

ID と空白ノードを追加するパターンモデル 1 blank b 住所東京都港区データ氏名先端太郎主語述語目的語 1 Node b1 b1 氏名先端太郎 b1 住所東京都港区 2 Node b2 b2 氏名先端太郎 b2 住所大阪市北区

RDF と NoSQL の比較 RDF と Cassandra の比較主語 (Subject) KEY 述語 (Predicate) Column どちらもスキーマレスどちらも主語 (Key)+ 述語 (Column) でユニーク目的語 (Object) Value 主語述語目的語主語の名前空間 Column Family 名前空間を変えることで異なるデータを混在 http://aitc.jp/project/2013/projectla/person/1 http://aitc.jp/project/2013/projectla/content/1

RDF の実装 :Jena Apache のプロジェクトの 1 つ http://jena.apache.org/ Java 製フレームワーク Semantic Web アプリケーションを構築 RDF データを読み書き処理するための API ファイルシステム RDB(Oracle, MS-SQLServer, DB2, PostgreSQL, MySQL, Derby, H2, HSQLDB) RDF と OWL を使ったルールベースの推論エンジン OWL:Web Ontology Language SPARQL のクエリーエンジン RDF データを公開するためのサーバ

ProjectLA の RDF モデル ( の一部 )

抽象化した API を作成やり取りするフォーマット JSON 形式 JSON RDFの変換ライブラリを作成この変換ライブラリの出来がキーになりそうインターフェイスは REST(HTTP) 細かい部分は Sencha のデフォをそのまま採用悩む手間が省ける APIの種類はそんなに多くないはず検索は様々なフィルタ条件が必要

データを格納する API-1 格納 JSON を POST する内部で JSON RDF に変換登録と更新の区別 Idが無い : 新規登録 Idがある : 更新

データを格納する API-2 JSON { } 新規追加後の RDF "person": { "username": "aitc", "gender": "male", "locale": "ja_jp", "checkined": [ {"id": "1"}, {"id": "2"}, ], }

データを格納する API-3 ユーザー情報は単なる更新ではない投稿した時点のユーザー状態を履歴として残す context を historycontext に書き換えるための SPARQL DELETE { <http://a/person/p00001> <http://a/person#context>?o } INSERT { <http://a/person/p00001> <http://a/person#contexthistory>?o } WHERE { <http://a/person/p00001> <http://a/person#context>?o }

データを格納する API-4 更新後の RDF

データを格納する API-5 コンテンツとの関連コンテンツコンテンツコンテンツ

データを取得する API-1 取得 GET すると JSON を返す SPARQL で XML を取得し JSON に変換する取得時には様々な付加情報を追加

データを取得する API-2 登録時取得時 { } { } "person": { "username": "aitc", "gender": "male", "locale": "ja_jp", "checkined": [ {"id": "1"}, {"id": "2"}, ], } "person": { "id": "p00001", "username": "aitc", "gender": "male", "locale": "ja_jp", "checkined": [ {"id": "1", "title": "3.11 首都圏帰宅する方法は何?"}, {"id": "2", "title": "3.11 災害状況 "}, ], }

システム構成

システム構成 - 初期ブラウザアプリ開発者が何でもできてしまうデータ構造を理解しないと使えないアプリケーションサーバ RDF SPARQL 低レベル API RDF

システム構成 - 現在開発中アクセスできる範囲を限定簡単に使えるように抽象化した API ブラウザ JSON+HTTP RDF SPARQL アプリケーションサーバ低レベル API RDF

システム構成 - 今後の予定アプリケーションサーバ JSON+HTTP 抽象化した API RDF SPARQL データ解析基盤データ分析基盤データ分析基盤低レベル API Hadoop を想定定期的にバッチ実行する結果も RDF で格納 RDF

まだ開発中ですがまとめ JSON RDF はある程度パターン化できそう O/R マッピングよりはかなり大変 RDF で格納する事で複雑な関連性を表現図化することで理解も容易集計が大変そうなのでクラウド技術が必須