フォマティクス : 臨床検査技師が知っておき 準備をする必要がある事項 Gregory J. Tsongalis, Moderator 1,*, Elizabeth Chao, Expert 2, Jill M. Hagenkord, Expert 3, Tina Hambuch, Expert 4 and Jason H. Moore, Expert 5 多種多様なアプリケーションをカバーする 新しい分子診断法技術を臨床検査室に導入することが記録的なペースで進み この分野の革命的な変化につながりました 例えば マイクロアレイは通常 発達上の遅れと自閉症と関連した体質異常のための最初のテストとして臨床検査室で使われています 加えて 分析ごとに何百万ものプローブを使用するマイクロアレイは 大規模な遺伝子タイピングや 特定の臨床アルゴリズムに関連した遺伝子発現プロファイリングに使われています 次世代または超並列配列 (NGS) は 目標とされたすべての遺伝子 エキソームとゲノム配列のための臨床検査室のルーチンにもなっています これらの分析法によって発生するデータの量は 前例がなく データセットの適当な記憶装置や分析 発掘のためのバイオ情報科学についての洗練された知識を必要とします 臨床検査室がバイオインフォマティクスに関する経験をもち 多くの結果を扱っているものの これらのタスクのために使われるシステムは オーミクス研究からのデータを取り扱うには不十分です この において オーミクス研究のためにバイオインフォマティクスを日常的に使用する学界と工業界からの数人の主要な専門家が バイオインフォマティクスの重要性と 臨床研究者がこれらの研究を実施する上で 彼らの研究所で生じるデータ量の増加とデータの複雑さを どのようにして対処しているかを議論するために招待されました バイオインフォマティクスと生物統計学はかなり違いがあるにもかかわらず 互換的に使用されています これらの用語を定義し バイオインフォマティクスが臨床検査室にどのような影響を与えるか示すことはできますか? Elizabeth Chao: 生物統計学は 生物学に統計を適用したものです 大きな集団をの臨床研究を設計するため 統計分析を用いることに重点を置いています 生物統計学は統計的推定を介し有意な結果を強調するため ノイズから信号を区別します 一方 バイオインフォマティクスは生物学 コンピューター科学 応用数学 統計学を 1 つの領域に一体化した現代の学際的科学です バイオインフォマティクスの主な目的は 生物学的プロセスを研究するためのプログラムを開発し 利用することです 1
バイオインフォマティクスと生物統計学の両方は それらの違いにもかかわらず 膨大なデータセットの解析に必要不可欠です 臨床検査室では バイオインフォマティクスはハイスループット機器と ゲノムデータセットの入力するために必須です Jill M. Hagenkord: 私の意見ではバイオインフォマティクスは 膨大で複雑な生物学的データセットを研究するために計算ツールを利用することです バイオインフォマティクスは非常に学際的であり 生物学 化学 数学 コンピューターサイエンス 統計の要素を含んでいます 例えば 数百万の重複した断片読み取りから エキソームの DNA 配列決定のためのアルゴリズムや タンパク機能が変異している DNA 配列の生物学的インパクトの予測があります 私はバイオインフォマティクスを臨床試験の統計アプリケーションとして考えます- 例えば 試験の十分なパワーはどのくらいか どのくらい結果の統計学的有意がどのくらいかを示すためです 私たちは 超並列 な検査方法が ますます研究所から臨床検査室へ移行していくのを見ています サイトジェノミクスアレイは マイクロアレイの上で掛け合わされた分解された DNA から コンピューターの中で基本的に染色体を再構築するもので すでに多くの遺伝性疾患の第一選択の試験であり 癌への適用が増加しています NGS は全ゲノム- 生殖細胞系列 癌 微生物の全て または一部の配列決定に使われ始めています 実質的には 近い将来に NGS アッセイの影響を受けない病気はありません 臨床ゲノムアッセイの計画 検証 実行 解明は病理の範囲であり 各ステップは多くのバイオインフォマティクスを必要とします NGS からのデータ全ては- 私たちは基本的にベースをバイトに変換し コンピューターの中で再度 ベースとして視覚化しています 静的データと比較すると このデジタル情報は臨床検査技師が各患者に関する臨床上の質問について文章で説明する際に使用する 追加アルゴリズムまたはデータベースとすぐに連結します 責任がある病理医や研究者が 各アルゴリズムの背景にある前提や外部データベースの相対的強度や限界を理解することが重要です 各研究室が 1 人以上のバイオインフォマティシャンを雇う必要があるでしょう 2
Tina Hambuch: バイオインフォマティクスは生物学的データセットの処理過程であり ロジスティックだけでなく 分析プロセスも網羅しています 生物統計学は特に 統計ツールの利用を介して パターン / 傾向の特異的タイプを特定することに焦点を当てた分析過程のサブセットです データの範囲が大きくなるにつれ バイオインフォマティクスはより重要になります 判断する人と研究室間実績の両方の点において 臨床検査科学はより標準化し 定量的にもなります しかしいくつかの臨床検査室は 強度なバイオインフォマティクス構成を持っていますが これは短期間での重大な挑戦であり バイオインフォマティクスの誤用の危険性があるでしょう 例えば 遺伝的変異の様々なタイプを検出するために様々なプログラムが利用されており その性能は変化し得ます ; そのため どのようにデータが分析されるか そしてその解析に使われている様々なツールの前提や 最適化を理解することは適切なアプリケーションに重要です Jason H. Moore: 生物統計学は 生物学的および生物医学的問題に答えることを目標とし 推定や仮説検定を実行するために数学を用いた正式な分野です 点推定は平均や分散または他の回帰直線の傾きのような評価などの基準母集団パラメータの正確な推定に焦点を当てています 仮説検定は 1つ以上のパラメータに関する帰無仮説検定から 推論の正式なプロセスに焦点を当てています 生物統計学の基本的な概念と方法を理解することは 臨床検査技師や他の全ての生体医学にとって重要です バイオインフォマティクスは 複雑な生物医学問題に取り組むために 生物統計学とコンピューターサイエンスを結びつける比較的新しい領域です バイオインフォマティクスは DNA 配列データの保存 管理 分析の必要性が生じ 1970 年代に始まりました インターネットと手頃なコンピューターの普及により 1990 年代に軌道に乗りました バイオインフォマティクスの多くは DNA 配列決定や質量分析のような技術から得た高次元のデータ分析のための新たなデータベースと 計算アルゴリズムの開発 評価 応用に焦点を当てています コンピューターサイエンスや機械学習 可視化などの学問分野の下位区分への焦点は 生物統計学とバイオインフォマティクスを区別して設定したものである しかし良いバイオインフォマティクスは 正当な生物統計的方法を分析的戦略に統合することができます 生物統計学とバイオインフォマティクスの両方は 臨床検査室のセッティングのために重要です 例えばバイオインフォマティクスは 研究や臨床のデータベース生データの統合による生データを保存するために必要とされますが 臨床 DNA サンプルの配列決定は品質管理のために正式な生物統計学的方法を必要とするでしょう 臨床検査室ではマイクロアレイと NGS 技術は 大量のデータを作成することが知られている診断ツールの典型です データ分析 保管 検索のためのオプションは何ですか? 3
Elizabeth Chao: 臨床検査室は膨大な量のデータを読みとって送信するために 内部の IT コンピュータイン フラを保管しています 販売会社は検査室特有のニーズに対する高性能コンピューティングおよびストレ ージソリーションを幅広く提供することができます Jill M. Hagenkord: サイトジェノミックマイクロアレイは ギガバイト近いデータを作成し 全ゲノム配列決定はテラバイト近いデータを作成します しかし 私たちが今まで生データに戻る必要があることは稀であり 私の意見では処理されたデータを保管するのに十分です 全ヒトゲノムの処理されたデータは数ギガバイトだけであり それは最終的には保管するのに妥当となります 加えて 母なる自然はすでにゲノムを保管するのに最も安価な方法を考え出しました-それは DNA と呼ばれています そのため 臨床サンプルのために処理したデータファイルを保管することは 生データの保管や 稀に DNA を処理するよりも実際に安いので そうすることが必用です それは 私たちが臨床検査室で使っているものとは別のモデルだが それは 臨床サンプルのデータを保持するための要件の精神を維持しています 別の考慮事項は クラウド に ( 生もしくは 手を加えた ) ゲノムデータを保存することであり 必要であれば レポートを作成するためにリモートでアクセスすることです 最終報告書は 患者の医療記録になりますが ゲノムデータは 1996 年の医療保険の携行性と責任に関する法律に準拠したデータベースに存在します もし コストを最小限にしたいのであれば あなたの臨床用冷凍庫に DNA を保存し 低温貯蔵庫の加工したデータをクラウドに入れるべきです Tina Hambuch: 多くの利用可能なオプションがあり その課題はこれらのどれが最も適切であるかを特定することです これは どのように特定の検査室がデータを使用するかまたは どのような質問が求められるかに依存します いわば BAM( バイナリアライメント / マップ ) もしくは VCF( バリアントコール形式 ) などの特定の形式に付随する標準化により これらのことが大幅に改善します データの保存のために 私たちは アイシロン (EMC) を また データの解析のためにサングリッドエンジン ( コンピュータークラスター ) を使用します いくつかの市販のソフトウェアパッケージが利用可能になっていますが 私たちは 独自のプログラムやスクリプトを使用します Jason M. Moore:DNA 配列分析のために最も広く使用されているツールのふたつは ギャラクシーを CLC ゲノミクスワークベンチです ギャラクシーは 無料のウェブベースのソフトウェアパッケージであり DNA 配列操作や QC アライメント 変異検出 統計分析などの多くの解析ツールを含んでいます それはすぐに DNA 配列分析のための主要な教材となりました CLC ゲノミクスは 市販のソフトウェアパッケージであり はるかに直感的なグラフィックユーザーインターフェースと同等の機能を持っています 高価ではあるものの CLC ゲノミクスワークベンチは バイオインフォマティクスを重視しない人にとっても非常に使用しやすいものです 4
クラウド とは何ですか? このデータ保管オプションは財政的制約 HIPAA 他の規制問題のある検 査室に適していますか? Elizabeth Chao: クラウドによって データと処理能力に簡単にアクセスし分配することができます それは地理的に制限されておらず そのサービスをいつでも利用することができます さらに それは企業ニーズに応じて保管と処理能力を拡張することを目的とした 費用効率が高いビジネスソリューションです プライベートおよび公共のクラウドネットワーク機能を比較すると この考えはさらに広がります 主な違いは データの送信と処理をするホストインフラです 公共インフラは通信するためワールドワイドウェブを用いており 情報技術の観点から本質的にリスクがあります 一方 データ保護の責任がある社内の情報技術サポートチームは プライベートインフラをサポートしています 後者は厳格な情報セキュリティプログラムの導入が必用です Jill M. Hagenkord: クラウドを概念化する簡単な方法は Yahoo メールや Gメールを考えることです これらは リモートソフトウェアを用いているリモートサーバー上で実行される ウェブベースの電子メールサービスです エンドユーザーとして ハードウェアやソフトウェアのどちらも インストールや維持する必要はありません エンドユーザーは 共有ユーザー モデルによって提供されるスケールメリットを享受している間に クラウドによって エンドユーザーは必要な帯域幅だけを利用します ( 支払います ) ソフトウェア IT セキュリティ データセンター専門家がクラウド技術の管理をするので 病院の検査室の場合 エンドユーザーは患者のゲノム情報を用いることに焦点を当てることができます HIPAA 規制はクラウドコンピューティングに興味深い障害物を導入しますが それらを克服できないわけではありません 例えば HIPAA のコンプライアンスを維持するために データはアメリカから離れるべきではありません ; それは クラウドがいつでも与えられるところで 常にエンドユーザーに対し明白ではありません これはオーミクスを基にした検査が頭上にある 昨日のコンプライアンスポリシーを設定する多くの方法のうちの 1つです 準拠した臨床ゲノムファクトリーを操作するためのコンテキストで 88 年の CLIA の解釈をしてみてください! しかし クラウドソリューション実行する際 活用することができる多くのオプションがあります バーチャルプライベートクラウド 暗号化 アクセス制御などのサービスは HIPAA や他の規制準拠ソリューションを構築するために活用することができます 現在 それらの要件を満たし クラウド上で稼働している多くのサービスがあります ゲノミクスとクラウドコンピューティングは 成長し 支持され続け ゲノム医学の将来の展望の一部となるでしょう 私たちがゲノム検査のためにより適切になるかもしれないことをポリシー立案者に教育するとともに 検査室の専門家として私たちは現在の規制ポリシーを理解し 私たちのオーミクスソリューションがガイドラインに忠実であるということを確認する必要があります 5
Tina Hambuch: 私たちはこれを探索していますが HIPAA の周りには重大な懸念があります 作られた情 報の最終的な有用性について 探索と最適化は可能であろうと考えますが 短期的には データセキュリ ティとそれらを適切に共有する機能に関する多くの重要な課題があります Jason H. Moore: クラウドコンピューティングは インターネットを介して提供されるデータ保管と分析サービスです 公共またはプライベートの機関が 高性能コンピューティングとデータ保管ハードウェアへのアクセスを地理的にインターネットに分散しているユーザーへ売ります このモデルの利点は コンピューティングリソースを自分自身で維持する必要がなく 使ったサービスの分だけ支払うことです 臨床検査室では 必要とされる全てのデータ保管のためにクラウドを用いることを意味するかもしれません あなたが保管したいデータのギガバイトおよび時間の長さによって支払うでしょう ハードウェアの障害によるデータ損失から守るバックアップのある安価なデータ保管を得ます もちろん施設を離れたデータは プライバシーやセキュリティ基準を満たしていないかもしれないという欠点があります 一旦 データが他の人のサーバー上にあると あなたはもはやその保護を制御できません 臨床検査室の多くは現時点で そのようなリスクを取ることを望んでいません 2012 年 3 月 医学研究所 (IOM) は高複雑度検査やそれに続く分析 ( トランスレーショナルオーミクスの進化 ) によるデータセットの検証に関する報告を公表しました バイオインフォマティクス分析の再現性についてどう考え 臨床検査室は報告中に記載されている問題を回避することができると思いますか? Elizabeth Chao: バイオインフォマティクス分析の再現性は ゲノミクスの臨床への急速な導入とともに迫りくる問題です IOM とアメリカンカレッジオブメディカルジェネティクス (ACMG) の両方が これらの実施に対処することをとても早く選択したことは心強く感じます ACMA はポリシーステートメント出し 全エキソンと全遺伝子配列に対する明確なガイドラインに取り組んでいます この分野のリーダーと早期導入者として 私たちの会社は信頼性と再現性に対する内部基準に期待しており それは現在の IOM 報告よりも厳格です そうは言っても 私たちはこれらの裁定基準が将来的に より標準化することを確かになることを喜んでいるでしょう この段階に到達するために必要な投資は見落とされるべきではなく より価値のあるものです Jill M. Hagenkord: 異なる種類で 他よりも透過的なオーミクス分析があります 発現パターンはエンドユーザーにとって非常に不明瞭で 一定の結果を得るために 変数はしっかり制御されなければなりません さらに これらのタイプのアッセイは 慎重な臨床的妥当性と有用性に関する研究だけでなく 技術的な 6
検証も必要です 他のタイプのオーミクスアッセイは より使いやすい出力を有しています 例えば カリオグラムを作成するサイトジェノミクスアレイは 慢性リンパ性白血病を有する患者の腫瘍細胞から DNA の染色体 13q14 の検出を示します 破壊された DNA をコンピューター内のカリオグラムに変換する複雑なアルゴリズムがありますが データは使いやすく ( 染色体 ) 慢性リンパ性白血病の腫瘍生物学に関する私たちの理解と一致し 少しのサニティーチェックを提供します この方法で用いられたサイトジェノミックアレイは 確率された臨床的意義 技術的検証かつ / または研究が十分になされている診断率の変化を検出するための単なる代替手段です 臨床病理医や研究者は臨床利用のための検証試験のために 数年の訓練を受けます 私たちはこの点において とても高い基準をそれぞれに持っています バイオインフォマティクスは将来的には 研究室が開発した検査の設計 検証 実施 解釈の一部となるでしょう ゲノムテストを実施している臨床検査室は その過程に密接に含まれている臨床バイオインフォマティクスと 研究検査担当者や医療ディレクターとの密接でコンスタントな意思疎通を有する必要があります アルゴリズムと出力は検証され 検査室が開発したテストの一部として制御されたバージョンである必要があります Tina Hambuch: 再現性は データの精度にとって重要であり 私たちはバイオインフォマティックソフトウェアの技術的検証の再現性を評価します これは達成することは可能ですが 仮定することはできません Jason H. Moore: 臨床検査室は測定誤差を避けるために非常に慎重に設計されています 患者のケアは臨床データの信頼性や精度に依存するため それを確認するために多くの安全対策 抑制と均衡が設定されています オーミクスデータは DNA 配列決定のような ハイスループット技術の性質のため本質的に信頼性が低いです さらに大規模なオーミクスデータは 有用な情報を作成するために多くの処理期間を必要とします 有用な情報は様々なバイオインフォマティクスアプリケーションや バイオインフォマティクス解析方法を介して知識に変換されます 品質管理から最終的な分析と解釈までの分析パイプラインの各ステップにおいて 意図しないエラーが生じる可能性があります 例えば 多くの機械学習方法には それぞれが結果に大きく影響する多数のセッティングがあります 結果が正しくないおよび / または それに続き複製が可能でないようなセッティングを誤って設定し 誤って報告しやすいです バイオインフォマティクス 特にコンピューターサイエンスの分野に公表された結果を作成するために 特定のデータセットと一緒に使われるソフトウェアと正確なセッティングを提供する動きがあります 誰でもデータとソフトウェアダウンロードし 簡単に見知を再現することが可能であるべきです データや方法論の共有文化の変化は遅いですが もし私たちが公表された結果を信じるのであれば必要です これ 7
は 何故 臨床検査技師がバイオインフォマティクスと生物統計学の両方の実用的な知識を持つことが重要であるかの もう 1つのよい理由です もしバイオインフォマティクスについて あなた自身を教育することができるたった 1 つのリソースを持っていたら それは何ですか? また 何故ですか? Elizabeth Chao: バイオインフォマティクスの分野は 現在の教育リソースよりも速く進化します そのため データ分析のための新たな方法に言及しているその分野の研究者やリーダーが 主な教育リソースになっています これは 地域や国家の会議に出席し 様々な大学の講演者を結びつけるだけでなく この分野の専門家との個人的な関係を持つことにより 直接変わります Jill M. Hagenkord: それは難しい質問です 彼らが 1つのリソースによって 臨床ゲノミクスのために知る必要があることを学ぶことができると思いません しかし 最も良い学び方は実行することであると思います 専門学会は興味を持っている会員に対し 実践的なワークショップを実施し 研修生は定期的に症例検討会で公に入手できるゲノム例を提示すべきです もしあなたの施設がまだゲノムアッセイを提供していない場合 多くのゲノム企業やソフトウェアベンダーは 教育目的のために公的に利用可能なデータセットを持っています 私は データ表現に関するアルゴリズムや 明らかな矛盾に関する疑問を明らかにすることを手助けてくれる とても多くの賢いバイオインフォマティシャンの近くに自分自身の身を置くことができ 幸運でした 臨床検査技師は教育を受け バイオインフォマティシャンと繋がるために努力をする必要があります-そして医師やバイオインフォマティシャンがお互いに意思疎通をする方法を学ぶ間に 患者となってユーモアの感覚を維持する必要があります 医師やバイオインフォマティシャンと意思疎通することが どれほどむずかしいかを示す無数の面白い話があります Tina Hambuch: 本当に 1つの良いリソースはありません-その分野は恐らく 変化に幅があり タイミングでもあります 1つの本やウェブサイトによって行われる 総合的な訓練を必要とすることは複雑でもあります また リソースと計算インフラはこの分野を学ぶために必要です Jason H. Moore: R 統計プログラミングソフトウェアパッケージは バイオインフォマティクスの学習にとって理想的な焦点です Rはオープンソースで 自由に利用可能であり Linux Mac Windows で実行されます Rの利点は主なバイオインフォマティクス分析ソフトウェアパッケージにすぐになることです 無料ということも理由ですが 拡張可能であることも理由です 多くのバイオインフォマティクスは 誰でもダウンロードし すぐに使うことが出来る R 内のパッケージとして 新たな方法を出しています バイオコンダクターと呼ばれるパッケージに 大規模なオンラインドキュメンテーションとバイオインフォ 8
マティクスツールのコレクションがあります R の最初の学習曲線は少しシャープです しかし投資した 時間は R の理解へのドアを開く価値があります R は今や バイオインフォマティクスや生物統計学か ら あなたが得たいと思うものに対するパッケージを含んでいます ( 訳者 : 間下有子 ) Footnotes 6 Nonstandard abbreviations: NGS, next generation sequencing; HIPAA, Health Insurance Portability and Accountability Act of 1996; IOM, Institute of Medicine; ACMG, American Colege of Medical Genetics. Author Contributions: Al authors confirmed they have contributed to the intelectual content of this paper and have met the folowing 3 requirements: (a) significant contributions to the conception and design, acquisition of data, or analysis and interpretation of data; (b) drafting or revising the article for intellectual content; and (c) final approval of the published article. Authors' Disclosures or Potential Conflicts of Interest: Upon manuscript submission, al authors completed the author disclosure form. Disclosures and/or potential conflicts of interest: Employment or Leadership: E. Chao, Ambry Genetics; J.M. Hagenkord, InVitae Corporation; T. Hambuch, Ilumina. Consultant or Advisory Role: None declared. Stock Ownership: T. Hambuch, Illumina. Honoraria: None declared. Research Funding: None declared. Expert Testimony: None declared. Patents: None declared. Received for publication May 1, 2013. 9
Accepted for publication May 9, 2013. 2013 The American Association for Clinical Chemistry 10