スライド 1

Similar documents
メタデータスキーマレジストリ MetaBridge の概要

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

(Microsoft PowerPoint -

PowerPoint Presentation

図1 ネイルレシピ検索システム概要 ントを取得することによって ユーザの持っている服に似合う コーディネートを検索するシステムを構築することを目的とし ている [7] 本研究では ネイルレシピを対象としており 場 所に対応しているかだけでなく ユーザの好みや腕も考慮して いる 津田らは 爪の反射率の

PowerPoint プレゼンテーション

Web - DAML OIL DAML-S - 三菱電機情報技術総合研究所音声 言語処理技術部今村誠 1. Web 2. セマンティック Web とオントロジ 3. オントロジ記述言語 4. 関連ツールと実験システム 5. 従来技術との差異 6. 今後の課題 1

画像類似度測定の初歩的な手法の検証

データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0

研究レビューミーティング プレゼン資料 テンプレート

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

橡68-honbun.PDF

PowerPoint プレゼンテーション

橡会議録(第5回).doc

講演「母乳育児のうそほんと」

高橋 視覚リハ研究 6(1) 19 候補文字列の表示が小さく選択できないなどがあげられている ( 高橋,2015b) これらは 使用する日本語入力アプリの種類やその機能に問題があると考える 本研究では スマートフォンを利用する重度 LV 者にとって 推奨キーボードよりも使いやすい (VoiceOve

XML基礎

Exfront4.1.0リリースノート

Microsoft Word - CiNiiの使い方.doc

shippitsuyoko_


PowerPoint プレゼンテーション

いるが それら Wiki 上でのデータは構造化されておらず 上記で述べた複雑さによ る問題がある 本プロトタイプではこの問題を解決する いくつかの解を提示してい る 図 1 スナップショット : ニーズを満たす結果の推薦 サービス対象をモンスターハンターに絞ったことにより 各行動に対応する述語に対し

IMI情報共有基盤 「表からデータモデル」 データ変換のみを行う方向け画面説明

1. はじめに 2

2007.3„”76“ƒ



sayo pdf

月信11-12pdf用.indd

広報ちくしの_ indd


katagami No.65

レッツ中央205号.indd

えふ・サポート-113号-162.indd

untitled

2




d


レッツ中央210号.indd


レッツ中央212号.indd

0405宅建表01.indd

広報ちくしの_ indd

201_P1_P24(2)

indd

新善-1208

8_p01.indd

1_p01.indd


40_No43.indd

P01-14.indd

ORACLE Data Integrator

活用が広がる 共通語彙基盤 (IMI) イベント 技術セッション 公園への応用 加藤文彦 国立情報学研究所 2016 年 6 月 3 日

nlp1-12.key

【第一稿】論文執筆のためのワード活用術 (1).docx.docx

<4D F736F F F696E74202D A834C A AA89C889EF C835B B E B8CDD8AB B83685D>

次の病院 薬局欄は 氏名 欄に入力された値によって入力すべき値が変わります 太郎の行く病院と花子の行く病院が必ずしも同じではないからです このような違いを 設定 シートで定義しておきましょう 太郎の行く病院のリストを 太郎 花子の行く病院のリストを 花子 として 2 つのリストが定義されています こ


Microsoft PowerPoint - LDW.ppt [互換モード]

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

スライド 1

国立国会図書館ダブリンコアメタデータ記述

<918D8D878CA48B86358D862E696E6462>

スライド 1


<4D F736F F F696E74202D20352D D E83678FD089EE F815B B490858E81292E707074>

WebAPI 及びデータフォーマット (DC-NDL) の概要 国立国会図書館電子情報部 電子情報サービス課 1

untitled

<4D F736F F D2081A193B98BE EA97708CFB8DC08B4B92E D8D878CFB8DC0817A B4B816A81798A6D92E894C5817A2E646F63>


untitled

橡okamura-ppt.PDF

2


( )


1

夏目小兵衛直克

nenkin.PDF

-1-

<4D F736F F F696E74202D2093B CC8BE68AD B B82CC8AD AF95FB96405F88EA94CA ED28CFC82AF82C995D28F575F826C A6D94462E >

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

スキル領域 職種 : ソフトウェアデベロップメント スキル領域と SWD 経済産業省, 独立行政法人情報処理推進機構

Delphi/400を使用したWebサービスアプリケーション

15288解説_D.pptx

D5-2_S _003.pptx

- 1 -

%

2

ID010-2

第4回 国際的動向を踏まえたオープンサイエンスに関する検討会 参考資料5

リレーショナルデータベース入門 SRA OSS, Inc. 日本支社 Copyright 2008 SRA OSS, Inc. Japan All rights reserved. 1

大規模災害時における、DNSサービスの継続性確保のために

無料で多機能な OSS の ETL ツール Kettle を使ってみよう! 情報政策課技術職員金森浩治 1. はじめにデータ処理を行うにあたって非常に便利なツール ETL 本稿では OSS の ETL Kettle の機能とその使用方法を紹介します 2. 用語説明 2.1 OSS とは? OSS と

Oracle Business Intelligence Suite

Microsoft PowerPoint - EPCIS概要説明.pptx

Transcription:

NTT Information Sharing Platform Laboratories NTT 情報流通プラットフォーム研究所 セマンティック Web 技術を用いた社内情報の連携 森田大翼 飯塚京士 ( 日本電信電話株式会社 NTT 情報流通プラットフォーム研究所 ) セマンティック Web コンファレンス 2012 2012 年 3 月 8 日 ( 木 ) 2012 NTT Information Sharing Platform Laboratories RDF を用いた企業内情報活用 企業内に蓄積されている電子情報は増加の傾向にある 企業内情報を検索 分析し ナレッジとして再利用するニーズが高まっている しかし 多くの情報は企業ナレッジとして有効に活用できていない 企業内システムは各機能に個別最適なサイロ型であることが多い サイロ型の企業内情報システム リソース管理システム 成果管理システム 社員録 DB リレーショナルデータから RDF に変換 RDF でデータを連結し 企業内情報の様々な関連性を横断的に検索することを可能にする 2 2012 NTT Information Sharing Platform Laboratories - 49 -

企業内情報活用の実践 企業内情報を繋げると 有用なナレッジを得ることができる 技術キーワード情報 論文情報 文献 a 著者 鈴木一郎 セマンティック文献 b 佐藤次郎 Web XML キーワード高橋三郎 DWH A 製品 X B 製品プロダクト情報 Y 担当情報 社員録情報 企業内情報の連携により 効果的な情報の検索 意外な関係性の発見を可能にする KnowWho システム ( 人を起点にした情報発見 ) の実践 3 2012 NTT Information Sharing Platform Laboratories 企業内情報活用における問題 繋がっていないデータからはナレッジを抽出できない! 下図の場合 プロジェクトの関係は繋がっていない [ 観点 2] プロジェクトのリソース リソース プロジェクト A 資料 資料 リソースプロジェクトB プロジェクトの関係?? 著者 著者 企業内情報には 四半期 年度などのある一定期間毎に発行されるデータが多い その期間毎のデータ間のつながりが管理されてない場合が多いという 活用の障壁となる問題がある [ 観点 1] プロジェクトの関連資料を書いた人 4 2012 NTT Information Sharing Platform Laboratories - 50 -

関係を繋げることによるメリット例 関連する情報を一元的に集計 分析することを可能にする Z プロジェクト 合計で見る Z プロジェクト Y プロジェクト X プロジェクト 16 12 8 4 特許数 投資額 : 125 百万円 分析 0 06 07 08 09 10 計画 8 15 10 14 11 実績 6 15 13 12 14 数字は架空のものです Z プロジェクト (2010 年 ~) Y プロジェクト (2008 年 ~2009 年 ) X プロジェクト (2006 年 ~2007 年 ) このプロジェクトは投資に対して期待通り成果を出しているな 経営者 5 2012 NTT Information Sharing Platform Laboratories 本研究の課題 期間の移り変わりにより名称や ID などの属性が変化するデータが, 実態として同一である関係に基づくデータ統合に着目する 2010 2009 2008 2007 2006 Z プロジェクト Y プロジェクト (2008~2009 年 ) X プロジェクト (2006~2007 年 ) 名称は異なるが 実態として同一業務を行なっているプロジェクトのデータの統合 定義 変遷を伴う同義性 : 異なる時間軸上で, 実体として同一である関係 変遷を伴う同義性に基づく情報統合を本研究の課題とする 6 2012 NTT Information Sharing Platform Laboratories - 51 -

従来のデータ統合技術 目的 前提 アプローチ 現実世界で一つの存在であるものを データ上でも一つで表現したい データ間の同じ属性値の文字列は類似している 属性値間の文字列類似度を元に データの統合を行う 鈴木一郎 名前 住所武蔵野市緑町 3-9-11 person2 (0422)59-XXXX 電話番号 鈴木一郎 名前 person1 住所東京都武蔵野市緑町 59-XXXX 電話番号 判定ルールを人手で作成する手法 [Shen 2005], [Whang 2009] など 判定ルールを機械学習する手法 [Bilenko 2003], [Chaudhuri 2007] など 7 2012 NTT Information Sharing Platform Laboratories 変遷を伴う同義性によるデータ統合 前提 属性値が時間の経過に伴って 変更が生じる場合がある 2010 年度セマンティック project#z Web 技術プロジェクト名 問題 1 属性値の変更 情報流通技術 変遷を伴う同義性を判定したいデータ対 プロジェクト名業務のフェー 2009 ズの変更 project#y 年度 UGG 責任者 SGD 問題 2 プロパティ名の変更 データ管理手順 管理者の変更 従来手法とは異なるアプローチが必要である 8 2012 NTT Information Sharing Platform Laboratories - 52 -

本研究のアプローチ (1/2) アプローチ 1: 周辺情報を 変遷を伴う同義性を判定する情報として利用 周辺情報 : のリレーショナルデータの繋がりを利用して得られる関連情報 直接の属性値以外の情報を利用する RDF 論文 1 Yプロジェクトプロジェクト名 Xプロジェクトプロジェクト名 SOAP プロダクト1 論文高橋三郎 関連プロジェクト グループB 田中四郎 Yプロジェクト 責任者 社員録 Xプロジェクト 主管プロジェクト グループA プロダクト 高橋三郎 9 2012 NTT Information Sharing Platform Laboratories 本研究のアプローチ (2/2) アプローチ 2: 繋がりの意味論を考慮したリソース対の特徴抽出 ( 本研究における ) 意味論 2 つのデータ間を繋ぐアークのラベル ( プロパティ ) の繋がり 例 ) Y プロジェクト と 高橋三郎 は : というプロパティで繋がっている 繋がりは矢印の方向の順向き 逆向きの両方とも辿ることができる 機械的に解釈できる 人間が解釈すると上記例は 高橋三郎は Y プロジェクトの担当の人物である となる Y プロジェクト 高橋三郎グループB 田中四郎責任者 10 2012 NTT Information Sharing Platform Laboratories - 53 -

意味論に基づくリソース対の特徴抽出 (1/3) 共通の周辺情報に対して 共通の意味論を利用する ( 方式 1) 共通の周辺情報 : 高橋三郎 意味論 : 研究テーマ Y: : 研究テーマ X: : 両研究テーマに対して 担当に属している人が共通に 2 人いる RDF 論文 1 Yプロジェクトプロジェクト名 Xプロジェクトプロジェクト名 SOAP プロダクト1 関連プロジェクト Yプロジェクト Xプロジェクト主管プロジェクト 高橋三郎グループB 田中四郎責任者 グループA 高橋三郎 11 2012 NTT Information Sharing Platform Laboratories 意味論に基づくリソース対の特徴抽出 (2/3) 共通の周辺情報に対して 異なる意味論を利用する ( 方式 2) 共通の周辺情報 : セマンティック Web 意味論 : 研究テーマ Y: ( 論文の ) 関連研究テーマ : 研究テーマ X: ( プロダクトの ) 主管研究テーマ : 意味論は異なるが 共に関連する技術である RDF 論文 1 Yプロジェクトプロジェクト名 Xプロジェクトプロジェクト名 SOAP プロダクト1 関連プロジェクト Yプロジェクト Xプロジェクト主管プロジェクト 高橋三郎グループB 田中四郎責任者 グループA 高橋三郎 12 2012 NTT Information Sharing Platform Laboratories - 54 -

意味論に基づくリソース対の特徴抽出 (3/3) 共通の周辺情報に対して 複数の意味論を利用する ( 方式 3) 共通の周辺情報 : 意味論 : 研究テーマ Y: : 研究テーマ X: : 且つ 責任者 複数の意味論は 関連するデータとして強い繋がりを持つ RDF 論文 1 Yプロジェクトプロジェクト名 Xプロジェクトプロジェクト名 SOAP プロダクト1 関連プロジェクト Yプロジェクト Xプロジェクト主管プロジェクト 高橋三郎グループB 田中四郎責任者 グループA 高橋三郎 13 2012 NTT Information Sharing Platform Laboratories 機械学習フレームワーク 2 つのデータ間に共通する周辺情報の繋がり方 ( 意味論 ) の特徴を抽出した その特徴を用いて データ連携のためのルールを作成 先行研究 : 人手で作成 [Shen 2005], 教師あり学習で作成 [Chaudhuri 2007] 大規模 多様な企業内データに対して 高い精度を実現するルールを人手で作ることは現実的に困難 本研究では教師あり学習を検討する 教師データ データセット 前述の特徴抽出の 3 つの方式の実装 意味論に基づく特徴抽出エンジン 特徴ベクトル 特徴ベクトル 変遷を伴う同義性の関係の特徴を機械学習により取得 教師あり学習 (SVM) ルール 学習 推論 メタデータ 14 2012 NTT Information Sharing Platform Laboratories - 55 -

変遷を伴う同義性の判定手法の評価実験 研究所データの変遷を伴う同義性判定実験により アプローチの有効性を確認した F2 値 0.67 0.62 0.57 0.52 0.47 10 15 20 25 正例 負例数 ( 正例の数 = 負例の数 ) 1 1+2 1+3 1+2+3 Chaudhuri 方式 1 1+2 1+3 1+2+3 特徴ベクトルの次元 29 121 49 549 実験データ NTT 研究所の一部の 2003~2009 年のプロジェクト 581 対 ( 変遷を伴うデータは 33 対 ) 有効性の確認 方式 1+2 の場合 F2 値で 0.1~0.13 ポイントの精度改善 先行研究は正例 負例数が 18 辺りで精度改善が停止 発見した課題 方式 1+2+3 の次元数が大きすぎることによる精度低下 今後 ヒューリスティクス等を用いた次元削減を検討する 15 2012 NTT Information Sharing Platform Laboratories まとめ まとめ 企業内システムは各機能に個別最適なサイロ型であることが多く 蓄えられている情報を有効に活用できていない RDF 化して情報を連携した社内の実践により 様々な観点で情報を検索 分析できることの可能性を確認すると同時に 期間またがりの情報については繋がりが定義されてない場合が多く 情報活用の障壁となっていることを発見した 本研究では 変遷を伴う同義性 に基づく情報の統合を課題とした 様々なデータを繋げることによって得られる周辺情報と その意味的な繋がりの特徴を用いるアプローチを採用した 所内データを用いた実験により 変遷を伴う同義性判定という問題に対して周辺情報と意味論を用いたことが有効なアプローチであったことを明らかにした 今後の予定 所内の大規模データ 多様なデータへの適用の有効性確認 本技術の応用を調査し 有効な適用分野の検討 16 2012 NTT Information Sharing Platform Laboratories - 56 -