BCC精品培训关联分析课件_第1页
BCC精品培训关联分析课件_第2页
BCC精品培训关联分析课件_第3页
BCC精品培训关联分析课件_第4页
BCC精品培训关联分析课件_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

全基因组关联分析周家蓬博士zhoujp@QQ群:2598041811全基因组关联分析周家蓬博士1基本概念历史、现状和趋势一般流程研究策略应用价值2基本概念历史、现状和趋势一般流程研究策略应用价值2全基因组关联研究Genome-wideassociationstudy(GWAS)检测全基因组范围的遗传变异与可观测性状间的遗传关联3全基因组关联研究Genome-wideassociatio遗传变异的检测SNP芯片

Affymetrix:500Kchip(Randomlydistributed)

Illumina:550Kchip(gene-based)高通量测序

Illumina/Solexa:DNA-seq,RNA-seq4遗传变异的检测SNP芯片4遗传变异的数量“单倍型图谱计划1”(Nature2005)SNP:1M“单倍型图谱计划2”(Nature2007)SNP:4M“单倍型图谱计划3”(Nature2010)SNP:10M

5遗传变异的数量“单倍型图谱计划1”(Nature2005SNP和SNP基因型TTCAGTCAGATTCCAGCCCTTCAGTCAGATTCCAGCCC样本1样本2TTCAGTCAGATTCCAGCCCTTCAGTCAGAGTCCAGCCC6SNP和SNP基因型TTCAGTCAGATTCCAGCCCT表型&模型和算法表型:质量性状和数量性状表型校正:去除outliers,取特征值,取剩余值模型:混合线性模型方程组算法:SNP,单倍型,CNV,Gene-set(SNPs)Add.,Dom.,Rec.,Int.Frequentist,Bayesian方差/秩和,均值/中位数打分值,似然比

Bonferroni,FDR,Permutation,Bootstrap7表型&模型和算法表型:质量性状和数量性状7编码基因型Foronemarkerwithtwoalleles,therecanbethreepossiblegenotypes:GenotypeCodingAA2Aa1aa08编码基因型Foronemarkerwithtwoa病例/对照设计的数据结构individualaffectiongenderSNP1SNP2…SNPn11F21…221M22…130F12…241F11…250M0-9…1sampleidcase/controlgenotypes9病例/对照设计的数据结构individualaffectio遗传假设和遗传模型GenotypicmodelHypothesis:all3differentgenotypeshavedifferenteffectsGenotypeGenotypicValueAAμAAAaμAaaaμaaAAvs.Aavs.aa10遗传假设和遗传模型GenotypicmodelGenotyDominantmodelHypothesis:thegeneticeffectsofAAandAaarethesameGenotypeGenotypicValueAAμA-AaμA-aaμaaAAandAavs.aa遗传假设和遗传模型(续)11DominantmodelGenotypeGenotypiRecessivemodelHypothesis:thegeneticeffectsofAaandaaarethesameGenotypeGenotypicValueAAμA-Aaμa-aaμaaAAvs.Aaandaa12遗传假设和遗传模型(续)RecessivemodelGenotypeGenotypAllelicmodelHypothesis:thegeneticeffectsofalleleAandalleleaaredifferentGenotypeGenotypicValueAA2μAAaμA+μaaa2μaAvs.a13遗传假设和遗传模型(续)AllelicmodelGenotypeGenotypic卡方检验GenotypicmodelNullhypothesis:Independence

AAAaaacasesnAAnAanaacontrolsmAAmAamaadf=214卡方检验GenotypicmodelAAAaaacasesChi-squaredteststatistic:OistheobservedcellcountsEistheexpectedcellcounts,undernullhypothesisofindependence

统计量15Chi-squaredteststatistic:统计量Rcode>Statistics<-rchisq(1000,df=5)>hist(Statistics,prob=T)>curve(dchisq(x,df=5),col='blue',add=TRUE)>curve(dchisq(x,df=2),col='red',add=TRUE)>P<-1-pchisq(10,df=2);P[1]0.006737947

统计量P值16Rcode统计量P值16GWAS的历史2005年,Science杂志报道了第一篇GWAS研究:年龄相关性黄斑变性之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症以及相关表型的报道17GWAS的历史2005年,Science杂志报道了第一篇GWGWAS的现状18GWAS的现状18GWAS的趋势19GWAS的趋势19探求因果关系逻辑推理:归纳法(从特殊到一般)、演绎法(从一般到特殊)“穆勒五法”:求同法、求异法、求同求异法、共变法、排除法全基因组关联研究主要基于共变法思想科学技术史之父萨顿认为科学是人类唯一具有累积性和继承性的活动20探求因果关系逻辑推理:归纳法(从特殊到一般)、演绎法(从一般一般流程使用SNP分型芯片获得高通量的基因型对基因型进行质量评估和控制若为质量性状,需进行群体分层检测;如为数量性状,则对表型进行协变量校正采用若干遗传模型进行全基因组关联分析增加额外的数据进行结果验证21一般流程使用SNP分型芯片获得高通量的基因型21AHMU案例IlluminaHuman610Quad

BeadChipCallrate<90%,MAF

<1%,HWE

P

<10-71139病例vs.1132对照,PCA分析Cochran-Armitage趋势检验5182病例vs.6516对照,539病例vs.824对照NatGenet.2009Feb;41(2):205-210.22AHMU案例IlluminaHuman610QuadB计算过程PLINK

/~purcell/plink/plink–fileAHMU–mind0.05–maf0.01–hwe0.000001–model–outAHMU23计算过程PLINK23输入输出AHMU.pedAHMU.mapAHMU.model24输入输出AHMU.ped24GWAS主要策略Meta分析缺失填充通路分析互作分析25GWAS主要策略Meta分析缺失填充通路分析互作分析25Meta分析定义合并多个研究数据,增加样本量,提高检测效力,发现新易感位点成功案例

Ⅱ型糖尿病、克隆病、多发性硬化、类风湿性关节炎、直结肠癌等26Meta分析定义26Meta分析分析步骤检测研究异质性选择模型固定效应模型,随机误差(弱)随机效应模型,群体分层(强)单因素分析合并各研究检验统计量、标准误或p值常用软件

METAL、Comprehensive

Meta-analysis等27Meta分析分析步骤27缺失填充定义缺失基因型填充(Imputation)主要是为了解决致病变异或其紧密连锁标签分型遗漏的问题成功案例约1/3-1/2的GWAS文章使用该技术28缺失填充定义28缺失填充分析步骤对自产数据进行基因型质量控制选择合适的参考数据库,对高质量的基因型数据进行缺失填充根据计算得出的准确率(info>0.8)对填充基因型进行筛选过滤进行关联分析常用软件

BEAGLE、IMPUTE、MACH和PLINK等29缺失填充分析步骤29通路分析定义将SNPs按照生物学通路分组,比较各通路在病例/对照或连续性状数量上的差异成功案例克隆病、I型糖尿病、类风湿性关节炎、精神分裂症、乳腺癌等30通路分析定义30通路分析分析步骤选择生物通路(KEGG)选择Tag

SNPs(HapMap)多因素分析显著SNPs结果综合常用软件

GSEA、IPA等31通路分析分析步骤31互作分析定义研究基因-基因、基因-环境间交互作用成功案例老年黄斑变性、帕金森病、直肠癌、膀胱癌,哮喘等32互作分析定义32互作分析分析步骤选择显著及近似显著SNPs选择风险环境因素构建互作模型多因素分析常用软件

PLINK、Random

Jungle、BEAM等33互作分析分析步骤33其他策略两阶段法精细定位/目标测序表型/性状联合单倍型分析34其他策略两阶段法34遗传变异的检测SNP芯片

Affymetrix:500Kchip(Randomlydistributed)

Illumina:550Kchip(gene-based)高通量测序

Illumina/Solexa:DNA-seq,RNA-seq35遗传变异的检测SNP芯片35高通量测序Next-generationsequencing(NGS)平行测序36高通量测序Next-generationsequencinSNP分型:

coverage&variantfrequency37参考基因组序列个体正向序列个体反向序列SNP分型:

coverage&variantfreq遗传变异的种类占总变异的90%单核苷酸多态性SinglenucleotidepolymorphismSNP1-50bp

DNA片段插入缺失Insertion-deletionInDel>50bpDNA片段结构变异Structural

variationSV38遗传变异的种类占总变异的90%单核苷酸多态性Singlen遗传变异的数量“千人基因组计划”(Nature2012)SNP:38MInDel:1.4MSV:14K39遗传变异的数量“千人基因组计划”(Nature2012)3效应大小vs.变异频率4040效应大小vs.变异频率4040家系病例或极端性状个体

NatRevGenet.2010Jun;11(6):415-25.41家系病例或极端性状个体NatRevGenet.2010外显子突变是孟德尔疾病主要病因;多向性效应影响复杂疾病价格相对低廉目前主要用于检测孟德尔疾病新的策略或方法:Lasso,折叠法,聚合法外显子组测序42外显子突变是孟德尔疾病主要病因;多向性效应影响复杂疾病外显子Lasso岭回归:|beta|2<tLasso回归:|beta|<t贝叶斯:全概率&损失函数机器学习:SVM43Lasso岭回归:|beta|2<tLa低覆盖度测序+缺失基因型填充44Pasaniucet.al.,2012低覆盖度测序+缺失基因型填充44Pasaniucet.a策略评估Pasaniuc等证实覆盖度低至0.1-0.5X依然可以通过后续的填充方法获得高密度芯片的效果45策略评估Pasaniuc等证实覆盖度低至0.1-0.5X依然策略评估(续)Howie等发明了一种pre-phasing的填充方法,该方法通过对GWAS样本个体进行连锁相构建,进而利用参考库的单倍型进行缺失基因型填充46策略评估(续)Howie等发明了一种pre-phasing的NGS-GWAS水稻农艺性状14种运用重测序技术对517个中国水稻地方品系进行进化及GWAS分析~1X重测序KNN基因型填充算法MLM遗传模型

NatGenet.2010Oct;42:961–967.47NGS-GWAS水稻农艺性状14种47高密度芯片低覆盖度测序基本特点芯片基于正常人群中的高频SNP标记设计,没有与疾病相关的突变信息可以同时检测到人群中的高频SNP和未被发现的低频突变最高分辨率根据不同的芯片型号,一般在30-100bp精确到单个碱基覆盖范围只能局限于芯片内容,无法获得全部基因组信息仅受到能够定位到基因组的reads数据量影响,可获得全基因组的信息技术原理杂交原理,实验环境和样本对实验重复有很大影响合成测序,重复性好动态量程弱信号被舍弃,强信号会饱和没有局限数据产出选择不可以可以背景噪音高低数据延展性随着人类基因组的进一步完善,测序数据可以进一步深挖高密度芯片vs.低覆盖度测序48高密度芯片低覆盖度测序基本特点芯片基于正常人群中的高频SNP测序成本49测序成本49GWAS:Array-basedvs.NGS-based50GWAS:Array-basedvs.NGS-base基本流程高通量测序基因分型:

CLCGenomicsWorkbench&ServerBWA/Bowtie+SAMtools/GATK+IGV全基因组关联分析:

PLINK,TASSEL,QTDT/FBATBEAGLE/IMPUTE+SNPTEST可视化和注释:

IGV/gPlink+ANNOVAR/Annotation.pl51基本流程高通量测序基因分型:51GWAS模块52植物育种动物育种人类疾病TASSELQTDTFBATPBATPLINKSNPTESTMENDELBEAMIMPUTEBEAGLEMETALHAPLOVIEWFASTSNPLinuxC/C++RPerlPythonMySQLGWAS模块52植物育种动物育种人类疾病TASSELQTDT应用药物治疗抗抑郁药、精神疾病药物、丙型肝炎治疗,肝损害等副作用,为个体化医疗奠定理论基础意义中国每年因药物不良反应住院治疗的病人已逾250万人,其中约20万人因此死亡,个体化医疗势在必行53应用药物治疗53丙型肝炎治疗丙肝全球1.7亿人感染的病毒性疾病,无根治办法,治疗效果因人而异IL28B基因

TT基因型携带者痊愈率约1/4;CC基因型携带者痊愈率达4/5

09年GWAS最具价值成果正在美国申请专利54丙型肝炎治疗丙肝54应用动植物育种在牛猪鸡、玉米小麦等方面,欧美农业部等国家机构和Euribrid、Hubbard、MetaMoprhix等公司都已开展全基因组选择意义在提高动植物产品的产量和质量的同时,还可以有效管理生物多样性,使得遗传增益不会破坏某些未来可能需要的性状55应用动植物育种55全基因组选择GenomicSelection,GS

利用整个基因组的标记信息和各性状值来估计每个标记或染色体片段的效应值,然后将效应值加和即得到基因组育种值丹麦案例

2012年人均GDP达$59928,农业大国

2008年GS用于牛育种;2010年引入猪育种56全基因组选择GenomicSelection,GS56演讲完毕,谢谢观看!演讲完毕,谢谢观看!全基因组关联分析周家蓬博士zhoujp@QQ群:25980418158全基因组关联分析周家蓬博士1基本概念历史、现状和趋势一般流程研究策略应用价值59基本概念历史、现状和趋势一般流程研究策略应用价值2全基因组关联研究Genome-wideassociationstudy(GWAS)检测全基因组范围的遗传变异与可观测性状间的遗传关联60全基因组关联研究Genome-wideassociatio遗传变异的检测SNP芯片

Affymetrix:500Kchip(Randomlydistributed)

Illumina:550Kchip(gene-based)高通量测序

Illumina/Solexa:DNA-seq,RNA-seq61遗传变异的检测SNP芯片4遗传变异的数量“单倍型图谱计划1”(Nature2005)SNP:1M“单倍型图谱计划2”(Nature2007)SNP:4M“单倍型图谱计划3”(Nature2010)SNP:10M

62遗传变异的数量“单倍型图谱计划1”(Nature2005SNP和SNP基因型TTCAGTCAGATTCCAGCCCTTCAGTCAGATTCCAGCCC样本1样本2TTCAGTCAGATTCCAGCCCTTCAGTCAGAGTCCAGCCC63SNP和SNP基因型TTCAGTCAGATTCCAGCCCT表型&模型和算法表型:质量性状和数量性状表型校正:去除outliers,取特征值,取剩余值模型:混合线性模型方程组算法:SNP,单倍型,CNV,Gene-set(SNPs)Add.,Dom.,Rec.,Int.Frequentist,Bayesian方差/秩和,均值/中位数打分值,似然比

Bonferroni,FDR,Permutation,Bootstrap64表型&模型和算法表型:质量性状和数量性状7编码基因型Foronemarkerwithtwoalleles,therecanbethreepossiblegenotypes:GenotypeCodingAA2Aa1aa065编码基因型Foronemarkerwithtwoa病例/对照设计的数据结构individualaffectiongenderSNP1SNP2…SNPn11F21…221M22…130F12…241F11…250M0-9…1sampleidcase/controlgenotypes66病例/对照设计的数据结构individualaffectio遗传假设和遗传模型GenotypicmodelHypothesis:all3differentgenotypeshavedifferenteffectsGenotypeGenotypicValueAAμAAAaμAaaaμaaAAvs.Aavs.aa67遗传假设和遗传模型GenotypicmodelGenotyDominantmodelHypothesis:thegeneticeffectsofAAandAaarethesameGenotypeGenotypicValueAAμA-AaμA-aaμaaAAandAavs.aa遗传假设和遗传模型(续)68DominantmodelGenotypeGenotypiRecessivemodelHypothesis:thegeneticeffectsofAaandaaarethesameGenotypeGenotypicValueAAμA-Aaμa-aaμaaAAvs.Aaandaa69遗传假设和遗传模型(续)RecessivemodelGenotypeGenotypAllelicmodelHypothesis:thegeneticeffectsofalleleAandalleleaaredifferentGenotypeGenotypicValueAA2μAAaμA+μaaa2μaAvs.a70遗传假设和遗传模型(续)AllelicmodelGenotypeGenotypic卡方检验GenotypicmodelNullhypothesis:Independence

AAAaaacasesnAAnAanaacontrolsmAAmAamaadf=271卡方检验GenotypicmodelAAAaaacasesChi-squaredteststatistic:OistheobservedcellcountsEistheexpectedcellcounts,undernullhypothesisofindependence

统计量72Chi-squaredteststatistic:统计量Rcode>Statistics<-rchisq(1000,df=5)>hist(Statistics,prob=T)>curve(dchisq(x,df=5),col='blue',add=TRUE)>curve(dchisq(x,df=2),col='red',add=TRUE)>P<-1-pchisq(10,df=2);P[1]0.006737947

统计量P值73Rcode统计量P值16GWAS的历史2005年,Science杂志报道了第一篇GWAS研究:年龄相关性黄斑变性之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症以及相关表型的报道74GWAS的历史2005年,Science杂志报道了第一篇GWGWAS的现状75GWAS的现状18GWAS的趋势76GWAS的趋势19探求因果关系逻辑推理:归纳法(从特殊到一般)、演绎法(从一般到特殊)“穆勒五法”:求同法、求异法、求同求异法、共变法、排除法全基因组关联研究主要基于共变法思想科学技术史之父萨顿认为科学是人类唯一具有累积性和继承性的活动77探求因果关系逻辑推理:归纳法(从特殊到一般)、演绎法(从一般一般流程使用SNP分型芯片获得高通量的基因型对基因型进行质量评估和控制若为质量性状,需进行群体分层检测;如为数量性状,则对表型进行协变量校正采用若干遗传模型进行全基因组关联分析增加额外的数据进行结果验证78一般流程使用SNP分型芯片获得高通量的基因型21AHMU案例IlluminaHuman610Quad

BeadChipCallrate<90%,MAF

<1%,HWE

P

<10-71139病例vs.1132对照,PCA分析Cochran-Armitage趋势检验5182病例vs.6516对照,539病例vs.824对照NatGenet.2009Feb;41(2):205-210.79AHMU案例IlluminaHuman610QuadB计算过程PLINK

/~purcell/plink/plink–fileAHMU–mind0.05–maf0.01–hwe0.000001–model–outAHMU80计算过程PLINK23输入输出AHMU.pedAHMU.mapAHMU.model81输入输出AHMU.ped24GWAS主要策略Meta分析缺失填充通路分析互作分析82GWAS主要策略Meta分析缺失填充通路分析互作分析25Meta分析定义合并多个研究数据,增加样本量,提高检测效力,发现新易感位点成功案例

Ⅱ型糖尿病、克隆病、多发性硬化、类风湿性关节炎、直结肠癌等83Meta分析定义26Meta分析分析步骤检测研究异质性选择模型固定效应模型,随机误差(弱)随机效应模型,群体分层(强)单因素分析合并各研究检验统计量、标准误或p值常用软件

METAL、Comprehensive

Meta-analysis等84Meta分析分析步骤27缺失填充定义缺失基因型填充(Imputation)主要是为了解决致病变异或其紧密连锁标签分型遗漏的问题成功案例约1/3-1/2的GWAS文章使用该技术85缺失填充定义28缺失填充分析步骤对自产数据进行基因型质量控制选择合适的参考数据库,对高质量的基因型数据进行缺失填充根据计算得出的准确率(info>0.8)对填充基因型进行筛选过滤进行关联分析常用软件

BEAGLE、IMPUTE、MACH和PLINK等86缺失填充分析步骤29通路分析定义将SNPs按照生物学通路分组,比较各通路在病例/对照或连续性状数量上的差异成功案例克隆病、I型糖尿病、类风湿性关节炎、精神分裂症、乳腺癌等87通路分析定义30通路分析分析步骤选择生物通路(KEGG)选择Tag

SNPs(HapMap)多因素分析显著SNPs结果综合常用软件

GSEA、IPA等88通路分析分析步骤31互作分析定义研究基因-基因、基因-环境间交互作用成功案例老年黄斑变性、帕金森病、直肠癌、膀胱癌,哮喘等89互作分析定义32互作分析分析步骤选择显著及近似显著SNPs选择风险环境因素构建互作模型多因素分析常用软件

PLINK、Random

Jungle、BEAM等90互作分析分析步骤33其他策略两阶段法精细定位/目标测序表型/性状联合单倍型分析91其他策略两阶段法34遗传变异的检测SNP芯片

Affymetrix:500Kchip(Randomlydistributed)

Illumina:550Kchip(gene-based)高通量测序

Illumina/Solexa:DNA-seq,RNA-seq92遗传变异的检测SNP芯片35高通量测序Next-generationsequencing(NGS)平行测序93高通量测序Next-generationsequencinSNP分型:

coverage&variantfrequency94参考基因组序列个体正向序列个体反向序列SNP分型:

coverage&variantfreq遗传变异的种类占总变异的90%单核苷酸多态性SinglenucleotidepolymorphismSNP1-50bp

DNA片段插入缺失Insertion-deletionInDel>50bpDNA片段结构变异Structural

variationSV95遗传变异的种类占总变异的90%单核苷酸多态性Singlen遗传变异的数量“千人基因组计划”(Nature2012)SNP:38MInDel:1.4MSV:14K96遗传变异的数量“千人基因组计划”(Nature2012)3效应大小vs.变异频率9797效应大小vs.变异频率4040家系病例或极端性状个体

NatRevGenet.2010Jun;11(6):415-25.98家系病例或极端性状个体NatRevGenet.2010外显子突变是孟德尔疾病主要病因;多向性效应影响复杂疾病价格相对低廉目前主要用于检测孟德尔疾病新的策略或方法:Lasso,折叠法,聚合法外显子组测序99外显子突变是孟德尔疾病主要病因;多向性效应影响复杂疾病外显子Lasso岭回归:|beta|2<tLasso回归:|beta|<t贝叶斯:全概率&损失函数机器学习:SVM100Lasso岭回归:|beta|2<tLa低覆盖度测序+缺失基因型填充101Pasaniucet.al.,2012低覆盖度测序+缺失基因型填充44Pasaniucet.a策略评估Pasaniuc等证实覆盖度低至0.1-0.5X依然可以通过后续的填充方法获得高密度芯片的效果102策略评估Pasaniuc等证实覆盖度低至0.1-0.5X依然策略评估(续)Howie等发明了一种pre-phasing的填充方法,该方法通过对GWAS样本个体进行连锁相构建,进而利用参考库的单倍型进行缺失基因型填充103策略评估(续)Howie等发明了一种pre-phasing的NGS-GWAS水稻农艺性状14种运用重测序技术对517个中国水稻地方品系进行进化及GWAS分析~1X重测序KNN基因型填充算法MLM遗传模型

NatGenet.2010Oct;42:961–967.10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论