Workflow Variant Calling 03
長崎は遺伝研 大量遺伝情報研究室の所属です 国立遺伝学研究所 生命情報研究センター 3F 2F 欧州EBIと米国NCBIと密接に協力しながら DDBJ/EMBL/GenBank国際塩基配列データ ベースを構築しています 私たちは 塩基配列登録を支援するシステムづくり 登録データを活用するシステムづくり 高速シーケンス配列の情報解析 を行なっています
http://p.ddbj.nig.ac.jp
de novo de novo
de novo
HLAとは HLA (Human Leukocyte Antigen=ヒト白血球抗原) -1954年 白血球の血液型として発見 ヒト6番染色体の3.6Mbの高度な多型性を示す領域(HLA領域)にコードされて いる この領域は100以上の疾患および薬剤副作用と関連してゲノム医学的にも重要
HLA遺伝子は抗原を提示する膜貫通タンパクを コードし その働きからクラスIとIIに大別される HLAクラスI HLAクラスII α鎖とβ鎖からなるヘテロダイマー
HLA遺伝子の抗原を提示するグローブ構造を コードするエクソンに高度な多型が認められる Peptide HLAクラスI 日本人で頻度が高いHLA-B遺伝子のアレル5種間 /HIJ6-/H5J07 * /8/3I8 2 1 3 2# % * * アミノ酸配列での類似性: 88.9% 塩基配列での類似性: 93.9% **
Paired-read fastq hg19 reference Alignment Alignment to HLA gene sequence of hg19 reference Detect SNVs and Indels Yes No Complete haplotype sequence Heterozygous? Phase haplotype using heterozygous SNVs on PE reads Divide alignment into two phased one as haplotype Phased completely? No Unphased heterozygous SNVs? Yes No Yes Create alignment for only homozygous region Merge two alignments Cleaning of phased alignment Complete haplotype sequence Partial haplotype sequence
Sequence reads Alignment SNVs HLA-B Diplotype sequence ATG TAC 250bp 600bp CAA CAA TTG TTG 800bp TAC TAC AGG AGG 1000bp T C
Sequence reads Alignment SNVs HLA-B Haplotype sequences ATG TAC CAA TTG TAC AGG T C 250bp 600bp 800bp 1000bp
K,</2H$L-1Y$'/7'WQ'65'/) K,</2H$L-1Y$'/7'WQ'65'/ ]'WQ'65'/P'H07 PATU5K851 <LJX6'0/7'WQ'65' ]DS7 ATG TAC CAA TTG CAA TTG TAC AGG TAC AGG T C 74561L0V35U /?268I2ATU5K8516
Paired-read fastq hg19 reference Alignment Alignment to HLA gene sequence of hg19 reference Detect SNVs and Indels Yes No Complete haplotype sequence Heterozygous? Phase haplotype using heterozygous SNVs on PE reads Divide alignment into two phased one as haplotype Phased completely? No Unphased heterozygous SNVs? Yes No Yes Create alignment for only homozygous region Merge two alignments Cleaning of phased alignment Complete haplotype sequence Partial haplotype sequence
決定したHLA遺伝子完全配列のHLAアレル決定 K,</2H$L-1Y$'/7'WQ'65'/) K,</2H$L-1Y$'/7'WQ'65'/ #$%#&%#' データベース中配列から既知のHLAアレルと比較するととも にHLA遺伝子の配列を完全に決定し直すことができる
Sample forward Sample reverse HLA Type Data Trim by quality Trim by quality Picks up fine pairs from paired read set (fastq) Mapping to HLA gene by BWA Remove chimeric reads samtools view/sort/index Picard add
samtools index GATK UnifiedGenotyper rewrite VCF awk sam 500 filter hetelo reads GrepVariant Haplo samtools merge/sort/index samtools merge/sort/index
remove minor reads remove minor reads picard add picard add GATK UnifiedGenotyper GATK UnifiedGenotyper rewrite VCF rewrite VCF GATK FastaAlternateReferenceMaker GATK FastaAlternateReferenceMaker BAMtoCDS BAMtoCDS BLATforHaplo BLATforHaplo cds perfect cds closest cds perfect cds closest
HLA-B*57:01 positive HLA-B*57:01 negative ADR negative 25 794 ADR positive 23 0 ADR Positive % 48% 0% Mallal S et al. N Engl J Med. 2008
HLA-B*57:01 positive HLA-B*57:01 negative ADR negative 25 794 ADR positive 23 0 ADR Positive % 48% 0% Mallal S et al. N Engl J Med. 2008
http://sc.ddbj.nig.ac.jp/index.php
参考文献 HLA解析 Hosomichi et al., BMC Genomics 2013, 14:355 Hosomichi et al., BMC Genomics 2014, 15:645 実験医学別冊 次世代シークエンス解析スタンダード pp85-94 DDBJパイプライン Nagasaki et al., DNA Res. 2013;20(4):383-90. 実験医学別冊 次世代シークエンス解析スタンダード pp352-60 謝辞 大量遺伝情報研究室の方々 富士ソフト株式会社 森崎彰太 金沢大学 細道一善