J-GLOBAL knowledge 概要 & 使い方 平成 28 年 12 月 19 日 JST 情報企画部情報分析室知識インフラ担当 渡邊
JST の情報事業 提供中の主なサービス 文献 電子ジャーナル 研究者 求人情報 競争的資金情報 ライフサイエンス 2
J-GLBAL knowledge とは http://jglobal.jst.go.jp/ http://stirdf.jglobal.jst.go.jp/ J-GLOBAL の姉妹サービス J-GLOBAL の情報を RDF 化し提供するサービス J-GLOBAL とは 文献 ( 学術論文等 ) や 特許 研究者情報などを統合して検索できるサービス 3
収録情報 LOD チャレンジ 2016 公開範囲 元のデータソースとは情報が一部異なります 4
収録情報 基本情報 全体 LOD チャレンジで公開 レコード数トリプル数レコード数トリプル数研究者 25 万 1.3 億 - - 文献 4200 万 170 億 680 万 90 億 特許 1200 万 24 億 - - 研究課題 6 万 650 万 - - 機関 35 万 1200 万 - - 科学技術用語 33 万 800 万 24 万 630 万 化学物質 350 万 1.2 億 350 万 1.2 億 遺伝子 6 万 300 万 - - 資料 15 万 400 万 15 万 400 万 研究資源 5000 13 万 - - 5
収録情報 文献 JST が収集 整理している約 4200 万 文献 国内理系は ( ほぼ ) 網羅 学会論文誌 の類はだいたい見つかります 名寄せ が実施済み 同姓同名の著者がユニークな ID で区別できます LODチャレンジでご利用いただける範囲は 国内誌のみ 発行年 2006~2015 年の約 680 万文献のみになります 6
収録情報 文献の著者 機関名の同定 ( 名寄せ ) 処理 人名 機関名についてユニークな ID を付与 名称だけでなく 共著関係や研究テーマ等の類似性などから 独自のアルゴリズムでクラスタリング JST の精度評価では 人名 : 適合率 98.6% 再現率 90.8% 機関名 : 適合率 95.3% 再現率 95.0% を実現 7
収録情報 文献のデータ構造 jst:article 論文 A dcterms:creator foaf:person 著者 1 schema:affiliation foaf:organization 機関 1 rdfs:label rdfs:label dc:title 著者 1 機関 1 タイトル 著者 2 機関 2 prism:publicationdate 2015 dc:creator 著者 2 著者 3 凡例 機関 2 prism:publicationname 学会論文誌 著者 1 著者 2 著者 3 著者 3 クラス リソース プロパティ 文字列 8
収録情報 文献のデータ構造 2 名寄せ情報 タイトル切出し語 雑誌情報 jst:pubcollective jst:article 収録誌 dc:title 論文 A dcterms:creator jst:title-keyword owl:sameas _:blank foaf:person 著者 1 schema:affiliation rdfs:seealso 名寄せ著者 機関 1 rdfs:seealso 名寄せ機関 foaf:organization http://stirdf.jst.go.jp/cde/ collation/2009011003187 rdfs:seealso 46020 skos:concept JGPN JGONに対応タイトル切出し語 rdfs:label 凡例 収録誌 収録誌 jst:material 切出し語 クラス リソース プロパティ 文字列 9
収録情報 科学技術用語 索引付けのための用語辞書約 24 万概念 110 万語 分野を横断した収録範囲 文献情報に対応した分野 (= いわゆる理系全般 ) 別名 異表記等の情報も収録されている 表記ゆれを吸収させることができる 上位 下位 関連語等 用語同士の関係も整理 検索の範囲を拡張 索引すれば関係性の記述がついてくる 10
分野 収録情報 科学技術用語の分野 ( カテゴリ ) 数 土建分野 7679 管理 システム技術分野 8950 基礎化学分野 62265 工業化学分野 5890 電気分野 15547 金属分野 3607 鉱山分野 877 地球の科学分野 5044 共通分野 17153 環境公害分野 1766 ライフサイエンス分野 89617 機械分野 10152 原子力分野 1469 物理分野 19286 カテゴリなし 26877 化学電気ライフサイエンス物理 等 幅広い収録範囲になっている 11
収録情報 科学技術用語の外部リンク rdfs:seealso プロパティで有用な外部データセットへのリンクを作成しています MeSH( 米国立医学図書館が作成するシソーラス ) 1.6 万作成時に参照しているため MeSH のディスクリプタと対応関係が存在します DBpedia Japanese NDL 典拠データ 3.4 万 0.7 万 LOD チャレンジでの公開にあたり 参考情報としてラベルマッチングの結果を外部リンクとして登載しています 12
収録情報 科学技術用語のデータ構造 skos:concept 用語 xl:preflabel xl:altlabel _:blank _:blank xl:literalform 代表名 ( 日 ) ndl:transcription 代表名 ( 英 ) xl:literalform 別名 ( 日 ) jst:subject-category-1 rdfs:seealso 外部リンク 第 1 主題カテゴリ rdfs:label 第 1 主題カテゴリ skos:related skos:broader skos:narrower ndl:transcription skos:concept 関連語上位語 凡例クラス下位語リソース 別名 ( 英 ) プロパティ 文字列 13
収録情報 化学物質 低分子有機化合物の約 350 万化学物質の名称 ( 体系名 よく用いられる名称 ) 分子量 法規制番号 構造情報 (InChI, SMILES) 等 jst:article jst:chemical 論文 A jst:chemical _:blank rdfs:seealso 物質 文献にはこのように索引付けされている 資料 文献が収録されている学術誌等の情報タイトル ISSN 後継資料 編集団体 出版団体等 14
注意事項 ( 利用規約 ) 商用利用禁止 利用者本人以外のアカウント使用 API SPARQL エンドポイントを通じて得たデータの譲渡は禁止 アクセス制限一回の最大回答数 一日の検索回数上限 50,000 件 / 回 1,000 回 / 日 成果物 ( 応募作品 ) について以下の場合に限り 再配布を許可します 成果物から利益を得ないこと ( 商用利用禁止 ) JST が提供した情報そのものを成果物から切り離せないこと JST データの利用を明記すること ( 記載例 :J-GLOBAL knowledge by JST) 15
LOD チャレンジ関連の問い合わせは stirdf_lodc2016@mr.jst.go.jp 利用申請について データについて システムの利用方法など
おねがい J-GLOBAL knowledge LOD チャレンジ用アカウントを 申請していない方は 今 申請してください 17
J-GLBOAL knowledge 使い方 18
SPARQL で検索をする クリックすると prefix が挿入されます クリックするとサンプルクエリが入力されます 19
リソースの中身を閲覧する Web ブラウザでリソースの URI にアクセスすると リソースの中身を閲覧することができます プロパティが続いてるものは ブランクノードです 20
WebAPI を使う SPARQL クエリを書かなくても検索できる機能 例 ) 別名 同義語展開 https://stirdf.jglobal.jst.go.jp/rdfp/api/sparql/g000000 2knowledge/GetSynonyms?key1=fMRI ( パラメータ key1 に用語を指定して J-GLOBAL knowledge に情報があれば 別名 同義語を取得 ) 科学技術用語の API 別名 同義語展開 用語の下位語を全て取得 用語の上位語を全て取得 https://stirdf.jglobal.jst.go.jp/rdfp/api/sparql/g0000002knowledge/ GetSynonyms https://stirdf.jglobal.jst.go.jp/rdfp/api/sparql/g0000002knowledge/ GetNarrower_syn https://stirdf.jglobal.jst.go.jp/rdfp/api/sparql/g0000002knowledge/ GetBroader_syn 21
トークン ユーザーにユニークな値 http からのアクセスにはトークンによるユーザ認証が必須 https://stirdf.jglobal.jst.go.jp/sparql?lu=( トークン文字列 )&query=select+*+where{?s+?o+?p.}+limit+100 22
Tips キーワード検索は J-GLOBAL で J-GLOBAL ID と J-GLOBAL knowledge の URI は対応しています 人工知能 :http://stirdf.jst.go.jp/id/200906056208488114 J-GLOBAL の 人工知能 SPARQL は文字列検索が苦手なので J-GLOBAL で補います J-GLOBAL knowledge の 人工知能 23
Tips 機関 ID(JGON) を調べたい J-GLOBALの絞込み検索を上手く使ってください 名古屋大学 で文献を検索すると 絞込み JGON( 名寄せID) の上位に名古屋大学が表示されます ( 同様に 著者 ID:JGPNも調べることができます ) 注意 : 研究者 機関情報の JGLOBAL ID と JGPN JGON は一致しません 24