外显子组测序课件_第1页
外显子组测序课件_第2页
外显子组测序课件_第3页
外显子组测序课件_第4页
外显子组测序课件_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

外显子组测序1外显子组测序1目录一、外显子测序简介二、测序深度三、测序平台四、数据分析流程五、数据分析内容六、后期验证2目录一、外显子测序简介二、测序深度三、测序平台四、数据分外显子测序(也称目标外显子组捕获)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。是一种选择基因组的编码序列的高效策略,外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势。在人类基因中大约有180,000外显子,占人类基因组的1%,约30MB。NgSB,TurnerEH,RobertsonPD,etal.Targetedcaptureandmassivelyparallelsequencingof12humanexomes[J].Nature,2009,461(7261):272-276.

人类基因组的蛋白编码区域大约包含85%的致病突变。-ChoiM,SchollUI,JiW,etal.GeneticdiagnosisbywholeexomecaptureandmassivelyparallelDNAsequencing[J].ProceedingsoftheNationalAcademyofSciences,2009,106(45):19096-19101.一、外显子测序简介3外显子测序(也称目标外显子组捕获)是指利用序列捕获技Thesensitivitytodetectheterozygousvariantswith10readsis78.6%,butincreasesto95.2%at20xandapproximately100%at30xandgreater.[1]Theaveragecover­ageofeachbaseinthetargetedregionswas100-fold,and95.3%ofthesebaseswerecoveredsufficientlydeeplyforvariantcalling(≥10×cover­age)[2]Exomesequencingproducedahigherlevelofcoverageforthetargetedsequences(mean,167.50×),slightlyincreasingourabilitytodetectmutationswithVAFsoflessthan10%.[3]ChoiM,SchollUI,JiW,etal.GeneticdiagnosisbywholeexomecaptureandmassivelyparallelDNAsequencing[J].ProceedingsoftheNationalAcademyofSciences,2009,106(45):19096-19101.YanXJ,XuJ,GuZH,etal.ExomesequencingidentifiessomaticmutationsofDNAmethyltransferasegeneDNMT3Ainacutemonocyticleukemia[J].Naturegenetics,2011,43(4):309-315.PlatformsA.GenomicandEpigenomicLandscapesofAdultDeNovoAcuteMyeloidLeukemia[J].NEnglJMed,2013,2013(368):2059-2074.二、测序深度4ThesensitivitytodetectheteCoveragerateSequencingdepthandcoverageoftheninepairedinitialsequencingsamples.5CoveragerateSequencingdepth三、测序平台IonProton™IlluminaHiSeq6三、测序平台IonProton™IlluminaHiSe基于IonProton™的外显子测序流程7基于IonProton™的外显子测序流程7TheboundDNAisisolatedusingstreptavidin-coatedDynabeads®paramagneticbeads,andthenamplifiedandpurified.Thepurified,target-enrichedsampleisthenreturnedtotheIonTorrentsystemworkflowforemulsionPCR,enrichment,andsequencing.ExomesequencingresultsontheIonProton™SystemusingtheIonPI™ChipandtheIonTargetSeq™ExomeKit8TheboundDNAisisolatedusinRawreadsReadsmappedPercentreadsmappedReadsontargetPercentreadsontarget89,782,71987,156,36497.1%68,899,95779.1%MeandepthofcoverageTargetbasesat1xTargetbasesat10xTargetbasesat20x119x98.5%95.3%92.5%TypeNumberofvariantsConcordancewithdbSNP135SNVs30,09598.0%HeterozygousSNVs18,03197.1%HomozygousSNVs12,04699.4%基于IonProton™的外显子测序结果9RawreadsReadsmappedPercent基于IlluminaHiSeq的外显子测序流程10基于IlluminaHiSeq的外显子测序流程10DNA样本要求(单次):总量:≥6µgDNA;浓度:≥

37.5ng/µL;纯度:OD260/280=1.8-2.0。(来自华大基因)DNA样本要求(单次):总量:200-300bp小片段PE文库≥5µg;浓度:≥50ng/µL;纯度:OD260/280=1.8-2.0。(来自美吉生物)DNA样本要求(单次):总量:≥50µg;浓度:≥100ng/µL;纯度:OD260/280=1.8-2.0。(来自派森诺生物)基因组DNA样本要求11DNA样本要求(单次):基因组DNA样本要求11外显子捕获平台12外显子捕获平台12Highlyuniformcoverageacross62Mbofexomicsequence,including5’UTR,3’UTR,microRNA,andothernon-codingRNA.Streamlinedprotocolforpre-enrichmentpoolingofuptosixsamplesdramaticallyreduceshands-ontimeandcost.OptimizedforusewiththeTruSeqDNASamplePreparationKit,providingagel-freeprotocolthatrequiresthelowestDNAinput.Automation-friendlywithmaster-mixedreagentsandplate-basedprocessingforupto96reactions.TruSeqExomeEnrichmentKit13HighlyuniformcoverageacrossTruSeqExomeEnrichmentWorkflow14TruSeqExomeEnrichmentWorkfl烈冰生物外显子测序数据分析思路15烈冰生物外显子测序数据分析思路15四、数据分析流程16四、数据分析流程161.数据下机文件:*.fastq2.序列QC去除低质量reads,和连续的低质量片段,去掉接头序列。QC统计reads数量及测序质量。3.Mapping由于bwa能准确、快速的将短序列比对到基因组上,而且软件持续更新和说明文档完备,是外显子捕获测序的首选。4.Sam到bam转换:

Samtools的多种工具可以将sam文件转换为bam文件,rmdup工具能去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。Flagstat统计reads的mapping情况以及比较去除duplicate前后reads数目的反映样品建库的冗余情况。

Picard提供的多个工具,修改bam文件,使之适合于后续的GATK软件包中的工具的处理。171.数据下机文件:*.fastq175.Indel区域的reads重新做局部多序列比对:

在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假阳性SNP。

6.碱基质量重新打分:

测序仪给reads中的碱基的qual值存在一定的偏差,通过经验的错误模型来重新计算的碱基的qual值,重新给reads的各个碱基的qual打分。

7.Callsnv和indel:

对处理好的多样品bam文件同时运行UnifiedGenotyper,大大提高callSNP的灵敏度和准确性,多样品同时比较的结果,方便了后续的样品间差异的筛选。

8.突变位点的重新打分:

通过hapmap,omni,dbsnp数据库中已知的突变位点建模优化,对各个突变位点重新打分,筛选。大大降低了假阳性率。

9.注释:

通过ANNOVAR软件对vcf结果注释,关联到多个数据库。185.Indel区域的reads重新做局部多序列比对:

在i1.Mapping统计:

统计总reads数,mappedreads及uniquemappedreads数目及百分比。

2.捕获效率统计:

统计来自捕获区域的Fragment比例:五、数据分析内容191.Mapping统计:

统计总reads数,mappe统计target区域所有的碱基覆盖次数分布:对每个target区域的覆盖和深度统计:

如果客户对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖情况,可以提供每个target或者特定target区域的覆盖情况和测序深度统计。20统计target区域所有的碱基覆盖次数分布:对每个targe3.Snv和indel关联数据库:

Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分:

*_target.snv:突变处于捕获的靶区域(targetregion)内。

*_off_target.snv或者*_target.indel:突变在捕获的靶区域之外。

Snv和indel结果与以下的数据库关联,为突变的筛选提供大量的信息。213.Snv和indel关联数据库:

211)基因注释:

通过基因注释可以达到以下的目的:突变的功能定位(在外显子,内含子,剪接位点还是基因间区);突变所在的基因名称或者临近的基因;突变如果在编码区域,是否引起氨基酸的改变(同义突变,非同义突变的呢过);如果引起氨基酸的改变,按照HGVS命名规则表示--改变的基因ID,转录本ID,外显子编号,以及氨基酸改变,如OD2:NM_022162:exon8:c.G2722C:p.G908R。

默认使用refSeq完成基因注释,如果有特殊的要求,可以使用UCSCknowngene,Ensembl,GENCODE,CCDS等基因注释系统。221)基因注释:

通过基因注释可以达到以下的目的:22232324242)1000G注释:

检测突变位点是否在1000GenomesProjects(2012release)数据库中检测到,如果检测到,显示等位基因频率(allelefrequency)。默认是使用所有人种的数据库,如果有特定要求,可以按照要求展示不同人种(比如AMR,AFR,ASN,EUR,中国人,日本人)等位基因频率。

3)dbSNP注释:

检测突变是否在dbSNP数据库中,如果在,显示rsID。

默认使用dbSNP135数据库,如果有特定的要求,可以使用dbSNP129,dbSNP130,dbSNP131,dbSNP132数据库。4)AVSIFT:

SIFT是一款很受欢迎的检测非同义突变位点重要性的软件,对应非同义突变位点,会给定一个打分,若打分低于0.05,则表明突变很可能会影响到蛋白质的功能。

252)1000G注释:

检测突变位点是否在1000Gen5)与UCSC的数据库的关联:

/goldenPath/hg19/database/.txt.gz,提供了大量的基因组注释信息,目前关联的数据库有:

tfbsConsSites:在人/小鼠/大鼠中保守的转录因子结合位点,以transfacMatrixDatabase(v7.0)为基础。

wgRna:snoRNAandmiRNA注释。

targetScanS:TargetScan预测的miRNA把区域。

gwasCatalog:已经发表的各种疾病的GWAS结果。

genomicSuperDups:基因组中的重复片段。

phastConsElements46way:通过phastCons对脊椎动物的全基因组比对生成的保守区域,根据用于比对的物种数目,分为17way,28way,30way,44way等。默认使用46way。

如果客户需要关联UCSC中其它的数据库,也可以定制。

6)cosmic63:

已观察到的癌症相关突变,显示在COSMIC中的ID(identifiers),观察到的次数,以及观察到的癌组织。265)与UCSC的数据库的关联:

ftp://hgdown4.CNV:

XHMM是一款外显子捕获拷贝数变异检测的优秀软件包,使用GATK和XHMM能够得到较好的外显子捕获的CNV结果。

5.其它:

Polyphen-2(PolymorphismPhenotypingv2)也是一款基于多序列比对和蛋白质3D结构,预测氨基酸替换(从一种氨基酸改变为另一种氨基酸)对蛋白质结构和功能影响的软件,如果客户有要求,可以提供Polyphen-2对snv结果的进一步分析服务。274.CNV:

XHMM是一款外显子捕获拷贝数变异检测的优28282929可以通过GT(genotype)直接比较样品间的差异(GT简介:0表示与Ref相同,1表示与ALTS第1个碱基相同,2表示如ALTS第2个碱基相同)。通过和多个数据库的提供关联精细筛选条件:30可以通过GT(genotype)直接比较样品间的差异(GT简六、后续验证Sanger测序验证根据目的基因设计个性化验证方案(后续验证由老师自己完成)31六、后续验证Sanger测序验证31外显子组测序32外显子组测序1目录一、外显子测序简介二、测序深度三、测序平台四、数据分析流程五、数据分析内容六、后期验证33目录一、外显子测序简介二、测序深度三、测序平台四、数据分外显子测序(也称目标外显子组捕获)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。是一种选择基因组的编码序列的高效策略,外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势。在人类基因中大约有180,000外显子,占人类基因组的1%,约30MB。NgSB,TurnerEH,RobertsonPD,etal.Targetedcaptureandmassivelyparallelsequencingof12humanexomes[J].Nature,2009,461(7261):272-276.

人类基因组的蛋白编码区域大约包含85%的致病突变。-ChoiM,SchollUI,JiW,etal.GeneticdiagnosisbywholeexomecaptureandmassivelyparallelDNAsequencing[J].ProceedingsoftheNationalAcademyofSciences,2009,106(45):19096-19101.一、外显子测序简介34外显子测序(也称目标外显子组捕获)是指利用序列捕获技Thesensitivitytodetectheterozygousvariantswith10readsis78.6%,butincreasesto95.2%at20xandapproximately100%at30xandgreater.[1]Theaveragecover­ageofeachbaseinthetargetedregionswas100-fold,and95.3%ofthesebaseswerecoveredsufficientlydeeplyforvariantcalling(≥10×cover­age)[2]Exomesequencingproducedahigherlevelofcoverageforthetargetedsequences(mean,167.50×),slightlyincreasingourabilitytodetectmutationswithVAFsoflessthan10%.[3]ChoiM,SchollUI,JiW,etal.GeneticdiagnosisbywholeexomecaptureandmassivelyparallelDNAsequencing[J].ProceedingsoftheNationalAcademyofSciences,2009,106(45):19096-19101.YanXJ,XuJ,GuZH,etal.ExomesequencingidentifiessomaticmutationsofDNAmethyltransferasegeneDNMT3Ainacutemonocyticleukemia[J].Naturegenetics,2011,43(4):309-315.PlatformsA.GenomicandEpigenomicLandscapesofAdultDeNovoAcuteMyeloidLeukemia[J].NEnglJMed,2013,2013(368):2059-2074.二、测序深度35ThesensitivitytodetectheteCoveragerateSequencingdepthandcoverageoftheninepairedinitialsequencingsamples.36CoveragerateSequencingdepth三、测序平台IonProton™IlluminaHiSeq37三、测序平台IonProton™IlluminaHiSe基于IonProton™的外显子测序流程38基于IonProton™的外显子测序流程7TheboundDNAisisolatedusingstreptavidin-coatedDynabeads®paramagneticbeads,andthenamplifiedandpurified.Thepurified,target-enrichedsampleisthenreturnedtotheIonTorrentsystemworkflowforemulsionPCR,enrichment,andsequencing.ExomesequencingresultsontheIonProton™SystemusingtheIonPI™ChipandtheIonTargetSeq™ExomeKit39TheboundDNAisisolatedusinRawreadsReadsmappedPercentreadsmappedReadsontargetPercentreadsontarget89,782,71987,156,36497.1%68,899,95779.1%MeandepthofcoverageTargetbasesat1xTargetbasesat10xTargetbasesat20x119x98.5%95.3%92.5%TypeNumberofvariantsConcordancewithdbSNP135SNVs30,09598.0%HeterozygousSNVs18,03197.1%HomozygousSNVs12,04699.4%基于IonProton™的外显子测序结果40RawreadsReadsmappedPercent基于IlluminaHiSeq的外显子测序流程41基于IlluminaHiSeq的外显子测序流程10DNA样本要求(单次):总量:≥6µgDNA;浓度:≥

37.5ng/µL;纯度:OD260/280=1.8-2.0。(来自华大基因)DNA样本要求(单次):总量:200-300bp小片段PE文库≥5µg;浓度:≥50ng/µL;纯度:OD260/280=1.8-2.0。(来自美吉生物)DNA样本要求(单次):总量:≥50µg;浓度:≥100ng/µL;纯度:OD260/280=1.8-2.0。(来自派森诺生物)基因组DNA样本要求42DNA样本要求(单次):基因组DNA样本要求11外显子捕获平台43外显子捕获平台12Highlyuniformcoverageacross62Mbofexomicsequence,including5’UTR,3’UTR,microRNA,andothernon-codingRNA.Streamlinedprotocolforpre-enrichmentpoolingofuptosixsamplesdramaticallyreduceshands-ontimeandcost.OptimizedforusewiththeTruSeqDNASamplePreparationKit,providingagel-freeprotocolthatrequiresthelowestDNAinput.Automation-friendlywithmaster-mixedreagentsandplate-basedprocessingforupto96reactions.TruSeqExomeEnrichmentKit44HighlyuniformcoverageacrossTruSeqExomeEnrichmentWorkflow45TruSeqExomeEnrichmentWorkfl烈冰生物外显子测序数据分析思路46烈冰生物外显子测序数据分析思路15四、数据分析流程47四、数据分析流程161.数据下机文件:*.fastq2.序列QC去除低质量reads,和连续的低质量片段,去掉接头序列。QC统计reads数量及测序质量。3.Mapping由于bwa能准确、快速的将短序列比对到基因组上,而且软件持续更新和说明文档完备,是外显子捕获测序的首选。4.Sam到bam转换:

Samtools的多种工具可以将sam文件转换为bam文件,rmdup工具能去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。Flagstat统计reads的mapping情况以及比较去除duplicate前后reads数目的反映样品建库的冗余情况。

Picard提供的多个工具,修改bam文件,使之适合于后续的GATK软件包中的工具的处理。481.数据下机文件:*.fastq175.Indel区域的reads重新做局部多序列比对:

在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假阳性SNP。

6.碱基质量重新打分:

测序仪给reads中的碱基的qual值存在一定的偏差,通过经验的错误模型来重新计算的碱基的qual值,重新给reads的各个碱基的qual打分。

7.Callsnv和indel:

对处理好的多样品bam文件同时运行UnifiedGenotyper,大大提高callSNP的灵敏度和准确性,多样品同时比较的结果,方便了后续的样品间差异的筛选。

8.突变位点的重新打分:

通过hapmap,omni,dbsnp数据库中已知的突变位点建模优化,对各个突变位点重新打分,筛选。大大降低了假阳性率。

9.注释:

通过ANNOVAR软件对vcf结果注释,关联到多个数据库。495.Indel区域的reads重新做局部多序列比对:

在i1.Mapping统计:

统计总reads数,mappedreads及uniquemappedreads数目及百分比。

2.捕获效率统计:

统计来自捕获区域的Fragment比例:五、数据分析内容501.Mapping统计:

统计总reads数,mappe统计target区域所有的碱基覆盖次数分布:对每个target区域的覆盖和深度统计:

如果客户对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖情况,可以提供每个target或者特定target区域的覆盖情况和测序深度统计。51统计target区域所有的碱基覆盖次数分布:对每个targe3.Snv和indel关联数据库:

Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分:

*_target.snv:突变处于捕获的靶区域(targetregion)内。

*_off_target.snv或者*_target.indel:突变在捕获的靶区域之外。

Snv和indel结果与以下的数据库关联,为突变的筛选提供大量的信息。523.Snv和indel关联数据库:

211)基因注释:

通过基因注释可以达到以下的目的:突变的功能定位(在外显子,内含子,剪接位点还是基因间区);突变所在的基因名称或者临近的基因;突变如果在编码区域,是否引起氨基酸的改变(同义突变,非同义突变的呢过);如果引起氨基酸的改变,按照HGVS命名规则表示--改变的基因ID,转录本ID,外显子编号,以及氨基酸改变,如OD2:NM_022162:exon8:c.G2722C:p.G908R。

默认使用refSeq完成基因注释,如果有特殊的要求,可以使用UCSCknowngene,Ensembl,GENCODE,CCDS等基因注释系统。531)基因注释:

通过基因注释可以达到以下的目的:22542355242)1000G注释:

检测突变位点是否在1000GenomesProjects(2012release)数据库中检测到,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论