版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、【生物大数据】统计方法在生物信息学“精细定位”(fine-mapping)中的应用之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下:我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为一些基因发生了改变。目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。携带某种基因易感位点的人,就会有很大概率换上某种疾病。我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP或说variant),GWAS分析的思想如下:原文请戳这里:【数
2、说·大数据圈】机器学习在生物大数据应用的一个例子到这里,其实并没有结束,最终找出来的若干基因易感位点(我们不妨称为易感SNP集合,每一个位点,简单理解为一个SNP吧),是一个集合,里面包含了可能不止一个易感位点。它们都是在统计意义上的显著,是有一定犯错概率的,也没有经过生物学的证实。本文要说的精细定位,就是要进一步缩减候选的基因易感位点,排除掉一些“假”的位点。精细定位,叫做fine-mapping。必备前提在做fine-mapping之前,有三个前提一定要具备:第一,区域中所有的common SNP都已经被genotyped或者imputed。这个前提是为了确保真正致病的那个SNP
3、已经包含在这“若干基因易感位点”之中了。第二,已经做过严格的quality control。第三,大样本,确保提供足够的power。满 足必备前提之后,我们进行fine-mapping,分成两部分,statistical fine-mapping和functional fine-mapping。本文的重点是statistical fine-mapping,简单介绍一下统计方法在fine-mapping中的应用。statistical fine-mapping这一部分是本文的重点。在此步骤中,我们对GWAS中选出来的易感SNP集合进行统计分析,比较、排序其中SNP的重要次序,甚至删除掉一些不重要
4、的SNP,缩小易感SNP集合的范围。大概有三种方法,一一列举如下:方法1:conditional regression我们在回归模型中,将最显著的那个SNP作为协变量进行控制,看其他SNP对疾病的影响是否还显著。选出P值最显著的几个易感SNP(P值通常要小于10的-8次方,因为要校正,所以视SNP的数量决定,参考浅议P值校正),缩小范围,精细定位。我们可以在plink中利用命令:plink -bfile mydata -linear -condition covariateSNP来实现。下面是一个例子, "Fine mapping analysis of HLADP/DQ gene
5、clusters on chromosome 6 reveals multiple susceptibility loci for HBV infection"这篇文献中,作者想要看一下前人发现的,HLA-DP/DQ这两个基因簇与乙型肝炎(HBV)的显著关系,是否可以再具体定位到某个SNP或者block中。注:染色体、基因、block和SNP这四者大致是什么关系?(不专业的比喻,帮助理解一下,勿喷哈)如果把SNP看做是一个具体的房子或者建筑物,那么block就是一片小区,基因大概就是一个城市,染色体差不多是一个省了。其中就使用到了conditional regression的方法垂直
6、轴代表作为协变量的基因簇,水平轴代表需要detected的基因簇。白色代表显著,灰色代表不显著:HBV = HLA-DP + (HLA-DQ + other covariates)HBV = HLA-DQ + (HLA-DP + other covariates)从两个白色区域可以看出,HLA-DP和HLA-DQ都是显著的,因此,作者的第一个结论是:之前发现的HLA-DP和HLA-DQ两个基因簇对乙型肝炎的显著影响,是相互独立的。此外,作者又对HLA-DP上的三个block做了conditional regression:block 3位于HLA-DPA1,block 5位于HLA-DPB1,
7、block 4位于HLA-DPA1和HLA-DPB1的overlap 区域。blocklocationblock 3in HLA-DPA1block 4in HLA-DPA1/B1 overlapping regionblock 5in HLA-DPB1首先以block 3作为covariate,看其他两个是否显著:HBV = block 4 + ( block 3 + other covariates)HBV = block 5 + ( block 3 + other covariates)发现都是显著的;其次以block 4作为covariate,HBV = block 3 + ( blo
8、ck 4 + other covariates)HBV = block 5 + ( block 4 + other covariates)发现block 5是显著的;最后以block 5作为covariate,HBV = block 3 + ( block 3 + other covariates)HBV = block 4 + ( block 3 + other covariates)发现都不显著。因此,作者的第二个结论:HLA-DPB1上的block 5,是该区域中对HBV作用最显著的易感位点。方法2: Bayesian posterior probabilityP 值判断的方法有几个缺点
9、,因为每一个P值的计算都受到样本量、MAF(Minor Allele Frequency)等因素的影响,每个研究的样本量不一样,不同研究的P值之间不好直接比较,而Bayesian posterior probability可以很好的回避这些问题。对某区域上的每个SNP,计算一个pp(posterior probability)。选出的易感SNP集合,其所有的pp之和等于99%,也即丢弃掉的SNP,其PP之和为1%。该方法可以使用一个叫BIMBAM的程序来实现。比如,"Bayesian refinement of association signals for 14 loci in 3
10、 common diseases"这篇文献就使用该方法对三种疾病进行fine-mapping。感兴趣的可以自己看一下,这里只展示一张图:图中黄色和紫色的点点,就是99%的易感SNP集合,它们的PP加起来为99%。其中,黄色的点点,是95%集合,它们加起来为95%。方法3:High LD with lead SNP这个方法很简单,就是选出GWAS中,与最最显著的SNP高LD的SNP,作为缩小的易感SNP集合。以上三种方法的适用情形,是我们有原始的genotype 数据,如果没有呢?我们可以尝试只用summary association statistical信息。方法4:Summary
11、 association statistics没有原始的genotype数据,我们可以利用一些summary的信息,典型的方法有CAVIAR、PAINTOR等。CAVIAR方法的流程如下图所示:PAINTOR方法也是只利用summary的统计量和成对的相关系数矩阵来完成。functional fine-mappingfunctional的fine-mapping主要是对SNP做一些功能阐述。用到的数据库有ANNOVAR、VEP、HaploReg等,不多说了。Summary最后总结一下整个流程:参考资料:Strategies for fine-mapping complex traits,Sarah L.,2015Fine mapping analysis of HLADP/DQ gene clusters on chromoso
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国挂呔架市场调查研究报告
- 小班观察绿植的课程设计
- 2024年秋季小学数学北京课改版五年级【数学(北京版)】可能性-4课后练习
- 早教扎染课程设计
- 幼儿园良好品格课程设计
- 专业教学改革创新中的挑战与解决方案
- 数位板画画系统课程设计
- 数值分析课程设计95分
- 心衰能量代谢治疗进展
- 早教户外课堂课程设计
- 职业院校“金课”建设方案
- 为思维而教心得体会.文档
- CJT 394-2018 电磁式燃气紧急切断阀
- 中央2024年应急管理部宣传教育中心招聘笔试历年典型考题及考点附答案解析
- 学前教育普及普惠督导评估内容和标准量化评分表
- 江苏省南通市海安市2023-2024学年六年级下学期期末综合试卷
- 2024-2034年中国飞机拆解行业市场现状分析及竞争格局与投资发展研究报告
- 手术物品准备完善率
- 2024年西藏自治区中考地理真题(原卷版)
- 电力安全工器具预防性试验规程2023版
- 2024年度-民办学校年检自查报告
评论
0/150
提交评论