一讲人类基因组数据库及关联分析_第1页
一讲人类基因组数据库及关联分析_第2页
一讲人类基因组数据库及关联分析_第3页
一讲人类基因组数据库及关联分析_第4页
一讲人类基因组数据库及关联分析_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物医学大数据挖掘及生物信息学案例分析系列课程第一讲人类基因组数据库及SNP关联与互作分析第二讲基因表达数据分析第三讲表观遗传学数据分析第四讲非编码RNA数据分析第五讲生物医学数据挖掘案例分析与探讨第一讲人类基因组数据库及SNP关联与互作分析PartI风险SNP识别与候选疾病基因验证PartIIGWAS关联分析资源与拓展应用PartIIISNP关联分析与互作分析的软件实现PartIVSNP功能分析的生物信息学方法PartI风险SNP识别与候选疾病基因验证以SNP为起点的疾病基因识别流程SNP作为人类可遗传变异中最常见的一种,占所有已知多态性的90%以上,不仅可以作为遗传标记,还可以通过连锁分析定位疾病基因。因此,SNP在疾病的早期风险性评估,早期诊断,预防和治疗等方面具有重要功能和应用价值。SNP基因芯片采用多色荧光探针杂交技术可以大大提高芯片的准确性、定量及检测范围,应用高密度基因芯片检测单碱基多态性,为分析SNP提供了便捷的方法。SNP数据类型利用dbSNP筛选功能性SNP

SNP数据库SNP相关的重要数据库SingleSNPassociationanalysis−

Chi-squaretest1Allelictest(2×2table)2Genotypetest(2×3table)3Trendtest(2×2table)4Dominant(2×2table)5Recessive(2×2table)

病例与对照的等位基因分布组别等位基因合计AT病例412320732对照499281780Allelictest(2×2table)病例与对照的基因型分布组别基因型合计AAATTT病例10719861366对enotypetest(2×3table)采用plink软件来实现-我们后面会进行介绍为了探讨一个SNP是否与糖尿病相关联,采用病例-对照研究,收集了366个病例与390个对照的基因型数据,见下面两个表。组别等位基因合计AT病例412320732对照499281780组别基因型合计AAATTT病例10719861366对用卡方检验:allele-based:=9.325,P=0.002,认为两组的等位基因频率分布有差别,此位点与糖尿病有关联。genotype-based:=12.267,P=0.004,认为病例组和对照组的基因型频率分布有差异,此位点与糖尿病有关联。

ExfoliationsyndromerelatedSNPanalysis

50casesvs125controls3SNPSingleSNPassociationanalysis

在选择国内外研究较多的SNP位点时可以进行多数据层面的meta分析,从而发现高显著的疾病位点。多数据层面的meta分析Meta分析的基本流程常用软件:R,ReviewManager,Stata等。Stratifiedmeta-analysisforCAD-relatedgenesMTHFRC677TStratifiedmeta-analysisforCAD-relatedgenesReference:Linhuaetal.Combininggeogrophicregionwithmeta-analysistomapthepotentialassocationbetweeenthreegeneticpolymorphismsandcoronaryarterydisease.JMedBiochem.20131-19

SNP-SNP互作分析研究SNP互作的分析方法:1logisticregression2MultifactorDimensionalityReduction

(MDR)3PolymorphismInteractionAnalysis(PIA)algorithm4Bayesnetworkanalysis5Decisiontree......可联合使用多种方法,从而发现与复杂疾病相关的重要基因及基因间的交互作用.

COPDrelatedSNP-SNPandSNP-environmentanalysis301casesvs203controls

44SNP

Bayesiannetworksconstructedwithdifferentnodescombinations,alongwiththeircorrespondingprobabilitytables

Bayesiannetworkanalysis表型Bayesiannetworksconstructedwithdifferentnodescombinations,alongwiththeircorrespondingprobabilitytables

Bayesiannetworkanalysis数量性状ROCcurvesobtainedusingfourlogisticregressionmodelsfordetectingCOPD,whicharecoloredwithdifferentlinesrespectively. ROCcurvescomparisonReference:Linhuaetal.AbioinformaticsstrategyfordetectingthecomplexityofChronicObstructivePulmonaryDiseaseinNorthernChineseHanPopulation.GenesGenet.Syst.2012ApplyPIAmethodtoconstructRArelatedSNP-SNPnetworkReference:Linhuaetal.MiningfunctionalgenemoduleslinkedwithrheumatoidarthritisusingaSNP-SNPnetwork.Genomics,proteomics&bioinformatics2012(IF=6.615)SNP-SNP互作网络与COPD数量性状相关的SNP-SNP互作与COPD数量性状关联的SNP-SNP互作Reference:LiAn,Linhuaetal.ExploringtheinteractionamongEPHX1,GSTP1,SERPINE2,andTGFB1contributingtothequantitativetraitsofchronicobstructivepulmonarydiseaseinChineseHanpopulatioin.HuamnGenomics.2016应用GeneMANIA网络工具查询四个基因的互作关系PartIIGWAS关联分析资源与拓展应用

ThecharacteristicofGWASAlargeamountofSNPsAlargesamplesizeAhighsignificantlevel(p<10-7)tosurvivethemultipletestingcorrectionAhighcostbutlowefficiencyThecurrentGWAS

高通量SNP分析的难度多重检验造成假阳性错误增加;数据的高维性变量的多重共线性遗传异质性冠心病GWAS数据分析600casevs600control500,000SNPGWAS的多层面数据研究SNPGeneProteinnetworkFurtherfunctionalanalysis-疾病子网提取Reference:Linhuaetal.MiningsusceptibilitygenemodulesanddiseaseriskgenesfromSNPdatabycombiningnetworktopologicalpropertieswithsupportvectorregression.JournalofTheoreticalBiology2011225-236PartIIISNP关联分析及互作分析的软件实现1SNP关联分析常用软件-plink软件Plink软件是命令行执行工具,将plink.exe直接存在某目录下(如d盘)即可执行,如下图。1)ped文件(家系文件)Plink软件格式首先需要将数据整理成plink所需要的格式。plink软件所需要的数据文件包括:家系文件包括六列数据,分别为家庭编号(FamilyID)、个体编号(IndividualID)、父亲编号(PaternalID)、母亲编号(MaternalID)、性别(Sex,1=男性;2=女性)和表型Phenotype。其中这里的表型(Phenotype)列可以为数量性状或疾病状态。对于疾病状态,一般1表示无病(unaffected),2表示有病(affected)。如果数据属于病例对照数据,则家庭编号和个体编号、父亲编号和母亲编号可以是相同的。家系文件FamilyID

IndividualID

PID

MID

sexPhenotype2)map文件(位置文件)其中第1列表示染色体编号,第2列表示dbSNP数据库中的SNP名称,最后1列表示在染色体上的距离。3)phenotype文件(表型文件)

也可以预先准备好一个表型文件pheno.txt。注意表型文件要包括下面3列,每一个个体占一行。

Hardy-WeinbergEquilibrium检验

SNP数据分析此时会在d盘下输出一个文件名为:plink.hwe其中A1表示最小等位基因,A2表示另一个等位基因,GENO表示基因型频数,P表示哈代-温伯格定律检验的p值。P>0.05表示满足哈代-温伯格定律。注意对于病例-对照样本,每个SNP都有3个哈代-温伯格定律p值,其中all表示对全部样本,aff表示仅对病例样本,unaff表示仅对对照样本。我们用excel将其打开:最小等位基因P-value单个SNP的关联分析此时在d盘下输出了plink.assoc文件,用excel打开如下:--ci0.95表示计算95%置信区间。其中A1表示最小等位基因,A2表示另一个等位基因,F_A表示A1在疾病中的频率,F_U表示A1在对照中的频率。P<0.05表示等位基因与疾病相关。OR为优势比,L95和U95分别表示OR置信区间的上限和下限。此外,Plink软件还提供了下面单个SNP关联分析的模型,假设一个SNP的最小等位基因为D,另一个等位基因为d,则四个模型分别为:等位基因模型(Allelic),显性模型(Dominant),隐性模型(Recessive)和基因型模型(Genotypic).具体编码如下:此时在d盘下输出了plink.assoc文件,用excel打开单变量logistic回归默认为是加性模型MultiplecomparisoncorrectionThestandardforevidenceofsignificanceinGWAStoidentifyagenotype-phenotypeassociationisgenerallyconsideredtobep<5×10-8orp<1×10-8,fora=0.05and0.01,respectively.ThisstandardisbasedonaBonferronicorrectionforanassumedmillionindependentvariantsinthehumangenome.关于多重校正的问题Severalcorrectionmethodsprovidedbyplinkareasfollowing:打开存于c盘下的plink.assoc.adjusted文件

SNP-SNP互作分析plink-Traditionallogisticregressionplink--filemydata--epistasisExample:rs6734100×rs7583463

Logisticregression

SNP(gene)×SNP(gene)interactionSet0.1ascutoff:打开存于c盘下的plink.epi.cc文件datamining-MultifactorDimensionalityReduction

-MDR(多因子降维方法)MDRisanonparametricandgeneticmodel-freedataminingalternativetologisticregressionfordetectingandcharacterizingnonlinearinteractionsamongdiscretegeneticandenvironmentalattributes.

其他SNP-SNP互作分析方法(1)采用10倍交叉验证法将数据分为10个集合,其中9个子集作为训练集,1个子集作为测试集(2)根据总的因子数量确定组合因子数n(3)对每个训练集和测试集,筛选最好的n因子组合(筛选的标准根据训练集最低的分类错误率)(4)此过程重复10次,最后根据平均最小预测错误率和最大的交叉验证一致性筛选出最好的n因子组合(5)对每个n因子组合计算病例数与对照数之比。如果比值等于或超过域值,则此基因型组合确定为疾病的高风险组合,反之,则为疾病的低风险组合。(6)对于不同n值,得到最好的n因子组合。不同的n因子组合可能有的具有最小预测错误率,而有的具有最大交叉验证一致性,一般取n值较小的模型。多因子降维方法的主要步骤:ApplyMDRpackageofRsoftware数据格式按照加性模型,0表示两个等位基因均为非风险allele,1表示有1个等位基因为风险allele,2表示有两个等位基因均为风险allele.library(MDR)read.table("c:\\mdrexample.csv",header=TRUE,sep=",")->datafit<-mdr.cv(data,K=2,cv=10)fitSNP1和SNP6的互作是最优的模型,预测准确率为51.88%。交叉验证一致性为70%。采用R软件的MDR软件包plot(fit,data)除了SNP1=2andSNP6=0是低风险,其余都是高风险。2)datamining-DecisionTree(rpartpackageofRsoftware)Thedevelopmentofclassificationandregressiontrees-Randomforest决策树模型基于数量性状的SNP互作分析在遗传关联研究中,有时常常需要计算基因的协同效应对数量性状的影响。近年来新开发了一款基于多因子降维方法的数量性状多因子降维法(QuantitativeMultifactorDimensionalityReduction,QMDR),可用于探查SNP的上位显性交互作用。QMDR方法是在MDR算法的基础上分析数量性状。不同于MDR方法比较每种基因型组合的频数,QMDR是比较每种基因型组合的均数。与数量性状相关的SNP-SNP互作对于每种基因型组合,计算它们的平均数并与总均数进行比较。如果基因型组合的平均数超过总均数,此时该基因型组合就被认为是高水平的。否则,该基因型组合就被认为为低水平的。当所有的基因型组合都被标记为“高水平”或“低水平”,构建一个二分类变量,采用T检验法对高水平组和低水平组进行比较。将T统计量作为训练分数选择出最好的模型。假设无效分布是均数为0的正态分布,采用经验分布方法估计模型的p值。QMDR方法QMDR软件是基于Java系统进行操作,可以从上直接下载。下载完成后界面如下图,点击“LoadDatafile”加载数据文件。假定数据集中有10个SNP,450个样本,一个数量性状FEV1。将该数据文件另存为qmdr10-FEV1.txt。数据格式如下图:数据文件进行加载后,点击“ViewDatafile”,即可以看到相应的数据文件,如下图按照默认的参数设置,点击“RunAnalysis”,则可以输出下面的结果,如下图:对于单个SNP,SNP3获得了最好的模型。其中训练集和测试集T统计量分别为2.8556和1.7585。交叉验证一致性是50.0%。点击“GraphicalModel”,可以获得相应的条图。其中条的宽度表示数据的频数,条的高度表示该基因型的FEV1平均数与总平均数的差异。点击菜单中的“Topmodel”,则输出每个模型交叉验证过程中的T统计量,如下图。将红色椭圆标记的下拉菜单打开,还可以输出T统计量的线图和直方图对于SNP的二阶交互,SNP4和SNP6获得了最好的模型,训练集和测试集的T统计量分别为3.7399和0.0328。对于SNP三阶交互,SNP5、SNP9和SNP10获得了最好的交互模型,训练集和测试集T统计量分别为5.5261和1.1015。对于二阶交互模型和三阶交互模型,交叉验证一致性均为40.0%。和单个SNP分析相同,选中交互模型,点击图中的各个选项,即可描述计算过程和绘制相应图形。例如对于SNP三阶交互模型,点击“GraphicalModel”,即可绘制出三个SNP互作条图,如下图所示:SNP5,SNP9和SNP10的三阶互作点击“Configuration”可以对参数进行设置,如下图:点击“Network”可以通过调整阈值构建相应的网络(基于熵的计算方法)并计算网络的拓扑性质(如度、介数和簇类系数)等

PartIVSNP功能分析的生物信息学方法

SNP功能分析研究表明,SNP可以在DNA、RNA和蛋白质水平上影响基因的功能。SNP功能分析可以帮助阐明SNP对基因功能的影响及导致疾病发生的分子机制。对基因功能有影响的SNP是研究复杂疾

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论