NTT Information Sharing Platform Laboratories NTT 情報流通プラットフォーム研究所 セマンティック Web 技術を用いた社内情報の連携 森田大翼 飯塚京士 ( 日本電信電話株式会社 NTT 情報流通プラットフォーム研究所 ) セマンティック Web コンファレンス 2012 2012 年 3 月 8 日 ( 木 ) 2012 NTT Information Sharing Platform Laboratories RDF を用いた企業内情報活用 企業内に蓄積されている電子情報は増加の傾向にある 企業内情報を検索 分析し ナレッジとして再利用するニーズが高まっている しかし 多くの情報は企業ナレッジとして有効に活用できていない 企業内システムは各機能に個別最適なサイロ型であることが多い サイロ型の企業内情報システム リソース管理システム 成果管理システム 社員録 DB リレーショナルデータから RDF に変換 RDF でデータを連結し 企業内情報の様々な関連性を横断的に検索することを可能にする 2 2012 NTT Information Sharing Platform Laboratories - 49 -
企業内情報活用の実践 企業内情報を繋げると 有用なナレッジを得ることができる 技術キーワード情報 論文情報 文献 a 著者 鈴木一郎 セマンティック文献 b 佐藤次郎 Web XML キーワード高橋三郎 DWH A 製品 X B 製品プロダクト情報 Y 担当情報 社員録情報 企業内情報の連携により 効果的な情報の検索 意外な関係性の発見を可能にする KnowWho システム ( 人を起点にした情報発見 ) の実践 3 2012 NTT Information Sharing Platform Laboratories 企業内情報活用における問題 繋がっていないデータからはナレッジを抽出できない! 下図の場合 プロジェクトの関係は繋がっていない [ 観点 2] プロジェクトのリソース リソース プロジェクト A 資料 資料 リソースプロジェクトB プロジェクトの関係?? 著者 著者 企業内情報には 四半期 年度などのある一定期間毎に発行されるデータが多い その期間毎のデータ間のつながりが管理されてない場合が多いという 活用の障壁となる問題がある [ 観点 1] プロジェクトの関連資料を書いた人 4 2012 NTT Information Sharing Platform Laboratories - 50 -
関係を繋げることによるメリット例 関連する情報を一元的に集計 分析することを可能にする Z プロジェクト 合計で見る Z プロジェクト Y プロジェクト X プロジェクト 16 12 8 4 特許数 投資額 : 125 百万円 分析 0 06 07 08 09 10 計画 8 15 10 14 11 実績 6 15 13 12 14 数字は架空のものです Z プロジェクト (2010 年 ~) Y プロジェクト (2008 年 ~2009 年 ) X プロジェクト (2006 年 ~2007 年 ) このプロジェクトは投資に対して期待通り成果を出しているな 経営者 5 2012 NTT Information Sharing Platform Laboratories 本研究の課題 期間の移り変わりにより名称や ID などの属性が変化するデータが, 実態として同一である関係に基づくデータ統合に着目する 2010 2009 2008 2007 2006 Z プロジェクト Y プロジェクト (2008~2009 年 ) X プロジェクト (2006~2007 年 ) 名称は異なるが 実態として同一業務を行なっているプロジェクトのデータの統合 定義 変遷を伴う同義性 : 異なる時間軸上で, 実体として同一である関係 変遷を伴う同義性に基づく情報統合を本研究の課題とする 6 2012 NTT Information Sharing Platform Laboratories - 51 -
従来のデータ統合技術 目的 前提 アプローチ 現実世界で一つの存在であるものを データ上でも一つで表現したい データ間の同じ属性値の文字列は類似している 属性値間の文字列類似度を元に データの統合を行う 鈴木一郎 名前 住所武蔵野市緑町 3-9-11 person2 (0422)59-XXXX 電話番号 鈴木一郎 名前 person1 住所東京都武蔵野市緑町 59-XXXX 電話番号 判定ルールを人手で作成する手法 [Shen 2005], [Whang 2009] など 判定ルールを機械学習する手法 [Bilenko 2003], [Chaudhuri 2007] など 7 2012 NTT Information Sharing Platform Laboratories 変遷を伴う同義性によるデータ統合 前提 属性値が時間の経過に伴って 変更が生じる場合がある 2010 年度セマンティック project#z Web 技術プロジェクト名 問題 1 属性値の変更 情報流通技術 変遷を伴う同義性を判定したいデータ対 プロジェクト名業務のフェー 2009 ズの変更 project#y 年度 UGG 責任者 SGD 問題 2 プロパティ名の変更 データ管理手順 管理者の変更 従来手法とは異なるアプローチが必要である 8 2012 NTT Information Sharing Platform Laboratories - 52 -
本研究のアプローチ (1/2) アプローチ 1: 周辺情報を 変遷を伴う同義性を判定する情報として利用 周辺情報 : のリレーショナルデータの繋がりを利用して得られる関連情報 直接の属性値以外の情報を利用する RDF 論文 1 Yプロジェクトプロジェクト名 Xプロジェクトプロジェクト名 SOAP プロダクト1 論文高橋三郎 関連プロジェクト グループB 田中四郎 Yプロジェクト 責任者 社員録 Xプロジェクト 主管プロジェクト グループA プロダクト 高橋三郎 9 2012 NTT Information Sharing Platform Laboratories 本研究のアプローチ (2/2) アプローチ 2: 繋がりの意味論を考慮したリソース対の特徴抽出 ( 本研究における ) 意味論 2 つのデータ間を繋ぐアークのラベル ( プロパティ ) の繋がり 例 ) Y プロジェクト と 高橋三郎 は : というプロパティで繋がっている 繋がりは矢印の方向の順向き 逆向きの両方とも辿ることができる 機械的に解釈できる 人間が解釈すると上記例は 高橋三郎は Y プロジェクトの担当の人物である となる Y プロジェクト 高橋三郎グループB 田中四郎責任者 10 2012 NTT Information Sharing Platform Laboratories - 53 -
意味論に基づくリソース対の特徴抽出 (1/3) 共通の周辺情報に対して 共通の意味論を利用する ( 方式 1) 共通の周辺情報 : 高橋三郎 意味論 : 研究テーマ Y: : 研究テーマ X: : 両研究テーマに対して 担当に属している人が共通に 2 人いる RDF 論文 1 Yプロジェクトプロジェクト名 Xプロジェクトプロジェクト名 SOAP プロダクト1 関連プロジェクト Yプロジェクト Xプロジェクト主管プロジェクト 高橋三郎グループB 田中四郎責任者 グループA 高橋三郎 11 2012 NTT Information Sharing Platform Laboratories 意味論に基づくリソース対の特徴抽出 (2/3) 共通の周辺情報に対して 異なる意味論を利用する ( 方式 2) 共通の周辺情報 : セマンティック Web 意味論 : 研究テーマ Y: ( 論文の ) 関連研究テーマ : 研究テーマ X: ( プロダクトの ) 主管研究テーマ : 意味論は異なるが 共に関連する技術である RDF 論文 1 Yプロジェクトプロジェクト名 Xプロジェクトプロジェクト名 SOAP プロダクト1 関連プロジェクト Yプロジェクト Xプロジェクト主管プロジェクト 高橋三郎グループB 田中四郎責任者 グループA 高橋三郎 12 2012 NTT Information Sharing Platform Laboratories - 54 -
意味論に基づくリソース対の特徴抽出 (3/3) 共通の周辺情報に対して 複数の意味論を利用する ( 方式 3) 共通の周辺情報 : 意味論 : 研究テーマ Y: : 研究テーマ X: : 且つ 責任者 複数の意味論は 関連するデータとして強い繋がりを持つ RDF 論文 1 Yプロジェクトプロジェクト名 Xプロジェクトプロジェクト名 SOAP プロダクト1 関連プロジェクト Yプロジェクト Xプロジェクト主管プロジェクト 高橋三郎グループB 田中四郎責任者 グループA 高橋三郎 13 2012 NTT Information Sharing Platform Laboratories 機械学習フレームワーク 2 つのデータ間に共通する周辺情報の繋がり方 ( 意味論 ) の特徴を抽出した その特徴を用いて データ連携のためのルールを作成 先行研究 : 人手で作成 [Shen 2005], 教師あり学習で作成 [Chaudhuri 2007] 大規模 多様な企業内データに対して 高い精度を実現するルールを人手で作ることは現実的に困難 本研究では教師あり学習を検討する 教師データ データセット 前述の特徴抽出の 3 つの方式の実装 意味論に基づく特徴抽出エンジン 特徴ベクトル 特徴ベクトル 変遷を伴う同義性の関係の特徴を機械学習により取得 教師あり学習 (SVM) ルール 学習 推論 メタデータ 14 2012 NTT Information Sharing Platform Laboratories - 55 -
変遷を伴う同義性の判定手法の評価実験 研究所データの変遷を伴う同義性判定実験により アプローチの有効性を確認した F2 値 0.67 0.62 0.57 0.52 0.47 10 15 20 25 正例 負例数 ( 正例の数 = 負例の数 ) 1 1+2 1+3 1+2+3 Chaudhuri 方式 1 1+2 1+3 1+2+3 特徴ベクトルの次元 29 121 49 549 実験データ NTT 研究所の一部の 2003~2009 年のプロジェクト 581 対 ( 変遷を伴うデータは 33 対 ) 有効性の確認 方式 1+2 の場合 F2 値で 0.1~0.13 ポイントの精度改善 先行研究は正例 負例数が 18 辺りで精度改善が停止 発見した課題 方式 1+2+3 の次元数が大きすぎることによる精度低下 今後 ヒューリスティクス等を用いた次元削減を検討する 15 2012 NTT Information Sharing Platform Laboratories まとめ まとめ 企業内システムは各機能に個別最適なサイロ型であることが多く 蓄えられている情報を有効に活用できていない RDF 化して情報を連携した社内の実践により 様々な観点で情報を検索 分析できることの可能性を確認すると同時に 期間またがりの情報については繋がりが定義されてない場合が多く 情報活用の障壁となっていることを発見した 本研究では 変遷を伴う同義性 に基づく情報の統合を課題とした 様々なデータを繋げることによって得られる周辺情報と その意味的な繋がりの特徴を用いるアプローチを採用した 所内データを用いた実験により 変遷を伴う同義性判定という問題に対して周辺情報と意味論を用いたことが有効なアプローチであったことを明らかにした 今後の予定 所内の大規模データ 多様なデータへの適用の有効性確認 本技術の応用を調査し 有効な適用分野の検討 16 2012 NTT Information Sharing Platform Laboratories - 56 -