生命科学分野の研究用 DB の歴史と動向文献データは1960 年代より研究データは1970 年代より塩基配列データバンクは日米欧の3 極体制でタンパク質データバンクは日米欧の4センターで他のオミックスデータにも共有の枠組みが拡大トランスクリプトームプロテオームメタボロームフェノーム

2017 年 6 月 26 日研究データ利活用協議会公開シンポジウムデータ共有の先行事例の紹介生命科学におけるデータ共有の歴史現状課題東京大学大学院理学系研究科生物科学専攻科学技術振興機構 (JST) バイオサイエンスデータベースセンター (NBDC) 情報システム研究機構 (ROIS) 国立遺伝学研究所 (NIG) DDBJ センター (DDBJ) 高木利久

生命科学分野の研究用 DB の歴史と動向文献データは1960 年代より研究データは1970 年代より塩基配列データバンクは日米欧の3 極体制でタンパク質データバンクは日米欧の4センターで他のオミックスデータにも共有の枠組みが拡大トランスクリプトームプロテオームメタボロームフェノーム分野別目的別単位でのデータ共有の枠組みも微生物植物実験動物ヒト疾患脳

生命科学ではデータ共有がなぜ活発なのか? 少数の数式や法則で表現できない ( データが重要 ) 研究成果の再現や検証データ共有による研究の促進統計解析のパワーアップ他の観点からの新発見イノベーション促進重複の排除資金の効率化研究不正への対応資金提供機関からのデータ共有の要請論文投稿時における出版社からのDB 登録要請受け皿としてDBセンターやアーカイブの整備 DBは研究のインフラでありフロンティア

ゲノム関係の国内外の DB センター 1980 EMBL-Bank 1982 LANL GenBank 1987 NIG DDBJ 1988 NIH NLM NCBI 1992 EMBL EBI 2001 JST BIRD 2007 ROIS DBCLS 2011 JST NBDC

DDBJ センターが運営するデータベースアノテーション制限公開データベース JGA 個人レベルの遺伝型と表現型情報 DDBJ ヒトデータ審査委員会で提供と利用を審査アセンブリ BioProject BioSample アライメント DRA リード Quality value INSDC: オープンアクセスデータベース

情報の多様化と爆発データ爆発次世代ゲノムシークエンサーなどの計測技術の進歩ムーアの法則を凌駕 10 万を超えるゲノムプロジェクト進行中ゲノム以外の omics データや画像も急増知識爆発論文数 2,700 万件オープンアクセスの拡大データベース爆発世界 1 万から 2 万 ( 日本は千 ) 解析ツール数千内容も非常に多様化生命科学はビッグデータを扱う情報の学問にデータ駆動型科学生命科学は peta オーダーの時代に主要 DB センターは数十 PB のデータ保有

http://www.genome.gov/sequencingcosts/

様々な生物のゲノムプロジェクト https://gold.jgi.doe.gov/

http://www.ncbi.nlm.nih.gov/traces/sra/

生命科学におけるデータの利活用に関する障害自分の専門外の DB を使う必要性ありゲノムは生物横断的 DB や解析ツールの数が多すぎて使い方不明生体内相互作用 DB だけでも 500 以上の DB 注釈が信頼性のあるものとないものが混在フォーマットや用語がバラバラ遺伝子の概念さえ DB によって違う同じ遺伝子にも多数の名前ありデータの文脈依存性曖昧性冗長性複雑性単純にレポジトリするだけでは再利用性低い

10 年ほど前の我が国固有の事情資金提供機関からの共有の義務化ルールなしプロジェクト終了すると維持管理更新されないデータの囲い込みデータの権利関係不明小規模プロジェクト多いビッグデータ化必要バイオインフォマティシャン不足競争に負ける受け皿となる中核 DB センターがない ( 欧米は数百人規模のセンター )

我が国の生命科学 DB 統合推進事業データの共有公共財化を促進しその価値を最大化内閣府 CSTP 主導の統合データベースプロジェクト (2006 ) 文科省経産省農水省厚労省で実施 2011 年 12 月に四省連携のポータルサイト文科省の統合データベースプロジェクト (2006 ) 中核センターの設立 2007 情報システム研究機構ライフサイエンス統合 DB センター DBCLS 2011 科学技術振興機構バイオサイエンス DB センター NBDC クリエイティブコモンズ (CC) ライセンスによるデータの共有フォーマット辞書統合技術動画教材などの開発カタログ横断検索アーカイブの構築など種々のサービス提供研究分野ごとのデータベース統合化進行中 ( ファンディングによる ) ヒト由来データの共有セキュリティガイドラインの作成ヒト DB( オープン制限アクセス ) の構築受入れ (DDBJ と連携して )

公募要領にデータ提供協力依頼記載文科省ライフ課委託プロジェクト (H20 ) JST 戦略事業 (CREST さきがけ )(H23 ) 厚労科研費 (H24 ) 文科省科研費 (H25 ) AMED-CREST, PRIME(H27 ) 医療分野研究成果展開事業産学連携医療イノベーション創出プログラム (H27 ) ナショナルバイオリソースプロジェクトゲノム情報等整備プログラム (H27 )

生命科学 DB 統合推進事業の成果

http://dbarchive.biosciencedbc.jp/index.html

NBDC における分野別目的別のデータベース統合プロテオーム統合データベースの構築生命動態情報と細胞発生画像情報の統合データベースエピゲノミクス統合データベースの開発と機能拡充ゲノム疾患医薬品のネットワークデータベース糖鎖科学ポータルの構築蛋白質構造データバンクのデータ検証高度化と統合化データサイエンスを加速させる微生物統合データベースの高度実用化開発疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オーミクスデータの統合個体ゲノム時代に向けた植物ゲノム情報解析基盤の構築

NBDC ヒトデータベース / データの種類 NBDC ヒトデータベース非制限公開 ( オープン ) データ制限公開データ ( 標準レベル [Type Ⅰ] セキュリティ ) ( ハイレベル [Type Ⅱ] セキュリティ ) 公開待機データ匿名化匿名化前公開留保データ他ウェブサイト等から制限なく公開集団の統計値特定の個人由来では無い試料の解析結果ヒトデータ審査委員会 (NBDC) での審査に基づき利用可能個人ごとの情報一定期間の後制限公開データ等へ移動各プロジェクト実施機関

ヒトデータベース基本方針インフォームドコンセントで禁止してない限り民間企業も利用可能無料でデータ提供可データ利用可今後大規模データを受入れる際はデータ提供側に課金の可能性も米国 NCBIのdbGAPで導入欧州ではそのような動きないデータ公開時期は提供者の意向を基本的に尊重最長でも論文出版までが通常今後 NIHのガイドラインに準拠して変更する可能性も

アクセス制限 ( 制限公開 ) データベース JGA Japanese Genotype-phenotype Archive dbgap Database of Genotype and Phenotype EGA European Genome-phenome Archive JGA と EGA は SRA をベースにしたデータモデルを使用 dbgap と EGA は概要情報を交換 (JGA も参画予定 )

NBDC ヒトデータベースのセキュリティルールデータの種類によって実施すべきセキュリティ対策を共通化データの種類データ提供者データベースセンターデータ利用者 NBDC ヒトデータベースオープン制限公開 ( 標準レベル [Type Ⅰ] セキュリティ ) 制限公開 ( ハイレベル {Type Ⅱ] セキュリティ ) 公開待機提供申請が必要データ改ざん防止などの基本的対策も実施 TypeⅠ レベルセキュリティ TypeⅡ レベルセキュリティ TypeⅡ と同レベルのセキュリティを適用自由に利用できる ( ルール不要 ) 利用申請が必要利用できない匿名化前公開留保利用できない

NBDC ヒトデータベース大規模な国のプロジェクトと連携東北メディカルメガバンク機構次世代がん研究オーダーメイド医療プログラム公開中 52 件 ( 制限公開含む ) 提供申請 123 件 26 万検体

RDF によるデータと知識の統合 Resource Description Framework の略 ( 主語述語目的語 ) の 3 つ組 ( トリプル ) で主語述語目的語主語述語は URI(Uniform Resource Identifier) で Semantic Web LOD (Linked Open Data) Web of Data

NBDC RDF Portal DBCLS の RDF 化ガイドラインに沿う 17 DB を収録 SPARQL エンドポイントから利用可能

Databases in NBDC RDF Portal 現在 Open TG-GATEs が最大 (70 億トリプル ) 近々 DDBJ RDF の 200 億トリプルが公開される予定

Open TG-GATEs RDF (170 の化合物 ( 医薬品 ) の毒性検査に関する情報 ) 各 RDF データには詳細なメタデータや内部構造を示すスキーマ図が付与されている

これまでの 10 年を振り返って当時のもくろみ IT によるデータや知識の整理統合 & 推論による仮設生成質問応答データ駆動型科学ある程度できたこと FAIR 生命研究者のデータ共有 DB への理解増進データシェアリングポリシー DMP などの導入 ( まだ不十分 ) 中核センターの設置 ( ただしまだ問題残っている ) あまりできなかったことデータ駆動型科学の実践データ共有のインセンティブ付与人材育成もくろみが達成できなかった主な理由 IT による統合の前にデータ共有の大きな壁生命科学データの多様性文脈依存性複雑性曖昧性など

爆発するデータ知識への対応データ共有のコストは誰が負担? 何を DB として残すべきか? スパコン ( ストレージ計算パワー ) などの基盤整備様々な技術の開発

総コア数 20 万総メモリ 66TB ストレージ 13PB

国内 250 以上の大学研究機関,2500 名の研究者が利用

持続可能な体制や基盤の構築オープンサイエンスデータ共有の効能の評価プロジェクトと連動した予算の確保

https://beagrie.com/static/resource/ebi-impact-report.pdf

我が国における DB センターの連携一元化

( 国際的な ) ヒト由来データの共有マシンリーダブルコンセントフォーマット研究者認証アクセス権限セキュリティ ELSI( 個人情報保護法など ) マイクロアトリビューション

http://genomicsandhealth.org/about-global-alliance

GA4GH 加入組織 411 組織 (41 カ国 ) NIH, ELIXIR, Google, Amazon, Illumina など研究機関に限らず医療機関 IT 企業等も参加日本からは 12 組織がメンバーにライフサイエンス統合データベースセンター (DBCLS) エーザイ株式会社 Genomedia 株式会社日本医療政策機構 (HGPI) 科学技術振興機構バイオサイエンスデータベースセンター (NBDC) 日本人類遺伝学会 (JSHG) 国立がん研究センター (NCC) 国立遺伝学研究所 DDBJ センター大阪大学大学院医学系研究科医学部理化学研究所株式会社理研ジェネシス株式会社テンクー

GA4GH 運営体制運営委員会の下に 4 つのワーキンググループを設置 1. Clinical Working Group Phenotype データの統一フォーマットの開発 ( オントロジー ) やゲノムデータとのリンク付け方法の確立を目的としている 2. Data Working Group データ形式クラウド環境における安全な保管ゲノム情報を共有するためのアプリケーションプログラミングインターフェース (API) の開発データを使いやすくするためのアプリケーション開発といった技術開発を実施している 3. Regulatory and Ethics Working Group 国際ガイドラインや倫理的な枠組みを作成しゲノムデータ臨床情報の信頼のおける共有を世界規模で活性化させることを目的としている 4. Security Working Group データセキュリティアクセス制御監査機能プライバシー保護について検討している

実証プロジェクト Beacon Project 遺伝情報を国際的に共有するオープンウェブサービス分散しているゲノムデータを検索しやすくすることを目的としており現時点では指定した条件を満たすデータを含むデータベースを示す (2015/6 現在 252 Datasets が検索対象,) BRCA Challenge 乳ガンやその他のガンの遺伝要因の理解を深めるために世界中からガンに関与する遺伝子多型データを共有するための試みまずは乳ガンのデータ共有を進めている Matchmaker Exchange 類似の表現型情報や遺伝子型情報を共有することで希少疾患や診断未確定疾病の理解を深めるためのデータベース連邦型ネットワークシステム

Reference Graph Data Working Group の Reference Variation Task Team での活動リファレンス DNA 配列 GGCCAG https://genomicsandhealth.org/files/public/6-beacon-hausslerga4ghleiden.pdf DNA 配列をグラフ ( 各塩基を節隣接する塩基を枝で接続 ) で表現リファレンス DNA 配列を 1 本の経路で表現リファレンスに対する変異をリファレンス配列の経路から分岐した経路で表現多様性を持つゲノム配列の集合をグラフで表現することによりゲノム配列の既知のあらゆる変異を表現でき既存の文字列表現での不完全性矛盾を解消することを目指す

Beacon 検索対象 DB が条件 ( ゲノム上の特定の位置の塩基が指定した塩基か否か ) を満たすゲノムデータ ( 頻度だけでなく個人ゲノム ) を持っているかを yes/no で返す分散しているゲノムデータを検索しやすくする https://genomicsandhealth.org/files/public/6-beacon-hausslerga4ghleiden.pdf プログラムをダウンロードでき誰でも Beacon を公開できる

Matchmaker Exchange 分散する DB から類似の phenotype/genotype を持つ希少疾患者を探す仕組み https://genomicsandhealth.org/files/public/8plenary2presentation-matchmakerexchange-heidirehm.pdf

人材の育成発掘教育体制ポジションキャリアパス

なぜ人材育成はうまく行かなかった? 人材は育ってきたが需要の拡大の方が大きかった! なぜ需要を見越して対応できなかったのか? 教育体制の問題受け皿 ( 産業界研究機関大学 ) の問題制度面の問題データ囲い込み問題ポジションキャリアパスの問題評価の問題人材の分類とそれに合わせた対応策必要参入障壁の解消 ( 良いデータベースの開発 )