生物信息学考点整理_第1页
生物信息学考点整理_第2页
生物信息学考点整理_第3页
生物信息学考点整理_第4页
生物信息学考点整理_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学考点整理目录生物分子数据的收集和管理(1)数据库搜索及序列比较(2)基因组序列分析(3) ( 4)基因表达数据的分析与处理(7)蛋白质结构预测(5) ( 6) ( 8)PART1生物信息学:是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行收集、加工、存储、检索、分析和解释的科学。生物信息学的发展历程:一、萌芽期(20 世纪 50-70年代)1、 50 年代:生物信息学开始孕育1953 Watson和Crick提出了 DNA双螺旋2构。1955 F. Sange发表了胰岛素的蛋 白质序列。1

2、956 美国田纳西州首次召开了“生物学中的理论研讨会”。2、 60 年代:生物分子信息在概念上将计算生物学和计算机科学联系起来1962 L. Paulin眦出来分子进化理论。1967 Dayhoff构建了蛋白质序列数据库。3、 70 年代:生物信息学的真正开端(序列比对算法)1970 Needleman 和 Wunsch 提出了著名的序列比对算法。1971 美国纽约Brookhaven国家实验室创建了蛋白质结构数据库(Protein data bank, PDB。1974 欧洲分子生物学实验室( European molecular biology laboratory, EMB)L 建立19

3、77 Maxam和Gilbert发表了化学降解法,Sanger和Coulson发表双脱氧终止DNA 测序法。1978 Gingeras等人研制了核酸序列中酶切位点识别程序。二、形成期(80 年代)生物信息服务机构和数据库1982建立GenBank数据库。1984 日本国立遗传学研究所 NIG (National institute of genetics)开始信息服务。1986创立SwissProt蛋白序列数据库;美国能源部 正式提出实施测定人类基因组全序列的计划。1987 NIG发行日本DNA数据库DDBJ(DNA Data Bank of Japan ;1988 Person和 Lipma

4、n 发表了著名的序列比较 算法FASTA;美国国家生物技术信息中心 NCBI (National Center for Biotechnology Information )诞生;成立欧洲分子生物学网络(EMBNet) , EMBL 核酸序列数据库诞生。1989 林华安首先采用“ bioinformatics” 一词。三、高速发展期(90年代至今)HGP促进生物信息学的迅速发展1990 人类基因组计划(Human Genome Project, HGP正式启动。Altschul发表 Blast (The Basic Local Alignment Search To。l 算法。1991 Ven

5、ter在科学杂 志上描述表达序列标签( Expressed Sequence Tag, EST的建立和使用。1992 Venter 在美国马里成立基因组研究所(the institute of genome research, TIGR) 。1994 欧洲生物信息学研究所( European Bioinformatics Institute, EB)I 成立。 1995科学杂志刊登全基因组鸟枪法( Whole genome shotgun, WGS)完成的流感嗜血杆菌全基因组测序的论文。标志着基因组时代的真正开始。PART21、 序列比对与比对搜索基本概念在越来越多的基因组测序完成以后,寻找物

6、种和物种间蛋白质的相关性对于理解生命来说变得越来越重要。目前,序列比对(sequence alignment)已经成为生物信 息处理的基本工具。任何一条由字母组合形成的DNA 或蛋白质序列都会与其他类似构成的序列有相似性。有方法可以对这样的相似性进行量化评价,然而要把 “偶然性”的相似与真实进化和(或)功能关系意义上的相似区分开来,还需要考虑更多的因素。2、 比对序列的选择:核酸序列还是蛋白质序列氨基酸序列氨基酸序列比对通常具有更丰富的信息,例如, 许多氨基酸具有相似的理化性质,在进行氨基酸序列比对时可以用一打分系统来描述这些相关的氨基酸之间的重 要相关性。核苷酸序列 确定给定DNA序列和DN

7、A数据库中一致性搜索多态性分析所克隆的cDNA片段的一致性等3、同源性、相似性和一致性同源性(homology):(1)如果两个序列有一个共同的进化祖先,那么它们是同源的。同源性是一种 论断,不存在同源性的程度问题,两条序列之间要么是同源的,要么是不同源的。(简单地说,同源序列是指从某一共同祖先经趋异进化而形成的不同序列)(2)两条蛋白质序列即使没有统计上显著的一致性(identity),它们也可能是 同源的。(3)同源蛋白在三维结构上常具有显著的相似性(similarity)o(4)两蛋白质之间三维结构的趋异比氨基酸序列一致性的趋异要慢直系同源(orthology):不同物种的同源序列,它们

8、来自于物种形成时的共同祖先基因。在进化上起源于一个始祖基因井垂直传递(vertical descent 的同源基因;分布于两种或两种以上物种的基因组:(3)功能高度保守乃至于近乎相同,甚至于其在近缘 物种可以相互替换;(4)结构相似鼻(5)组织特异性与亚细胞分布相似.旁系同源(paralogy):是指同一基因组(或同一物种的基因组)中,由于始祖基因的加倍而横向/水平方向(horizontal)产生的几个同源基因即:旁系同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的。这样的基因就被称为旁系同源基因。直系同源与旁系同源的共性:它们是同源的,都源于各自的始祖基因直系同源与旁系同源的区别

9、:旁系同源则是在同在进化起源上,直系同源是强调在不同基因组中的垂直传递, 一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格 要求,可能相似,但也可能并不相似(尽管在结构上具有一定程度的相似),甚还进一步考虑了相似的氨基酸至于没有功能(如基因家族中的假基因)一致性(identity ):两氨基酸(核甘酸) 序列相同的程度。11/44=25%相似性(similarity):除了一致的氨基酸,1444=32%相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近,甚至于 结构与功能有什么联系。当相似程度高于50%寸,比较容易推测检测序列和目标序列可

10、能是同源序列;而当相似性程度低于20%寸,就难以确定或者根本无法确定其是否具有同源性。4、多序列对比多序列比对,实质上是一组蛋白质之间的一系列的双序列比对。与双序列比对相比,多序列比对更能发现进化保守关系信息。 在双序列比对中出 现的相同氨基酸残基,虽然在两条序列上是保守的,但是这一事件的发生可能是 偶然的。而如果在多序列比对中都出现相同的氨基酸残基, 则说明该残基是进化 保守的可能性更大。多序列比对可用于分析基因的起源问题。5、打分矩阵(Scoring Matrices)看书5.1、 Dayhoff 模型可接受点突变(accepted point mutation, PAM) :在蛋白质中被

11、自然选择接受的单个氨基酸替换Dayhoff, 71 组紧密相关的蛋白质中的1572个变化表3.2可接受点突变数目表3.3氨基酸相对突变可能性表3.4每种氨基酸出现的频率5.2、 PAM1 矩阵表3.5突变概率矩阵(进化时期为一个PAM)此处PAM定义为进化趋异(mutation probability matrix)的单位,即两个蛋白1% 氨基酸发生变化的时间PAM1 矩阵基于紧密相关蛋白质序列的比对,一致性>85%5.3、 PAM250和其它矩阵表3.6 PAM250突变概率矩阵(进化时期为一个 250个PAM)反映远源相关蛋白中氨基酸的替换频率极端情况:PAM0, PA25.4、 突

12、变概率矩阵对数比值打分矩阵S(a, b)=10*lg(Mab/Pb), Mab的值为氨基酸残基a突变到b的突变概率,归一化频 率Pb代表随机情况下残基b出现的概率。利用对数比值矩阵使得我们在获得两序列的比对结果时,可以直接把比对残基的分值相加而非相乘,从而简化了计算。表3.7 PAM250对数比值矩阵(远源蛋白)表3.8 PAM10对数比值矩阵 (保守蛋白)分值的意义?不同的打分矩阵对不同相关程度的蛋白质序列的敏感性不同PAM矩阵的重要替代者:BLOSUM打分矩阵Henikoff 等1992,区块替换矩阵(blocks substitution matrix, BLOSUM)集中关注远相关蛋白

13、的保守区块BLOSUM矩阵后面的数值表示了矩阵可评价的蛋白质间的一致性程度,如, BLOSUM62巨阵可用于评价一致性62%勺蛋白质。高值BLOSUM矩阵和低值PAM矩阵最适合研究高度保守的蛋白,低值 BLOSUM 矩阵和高值PAM矩阵最适合检测远源相关蛋白。打分处际的他用的序列相似性: 工PAM 120: -40%的序列相似性: 3. PAM盼 50% 4. PAM60: 、如何选择最合适的屈阵? 遍历堂试6、序列比对的数学模型:全局和局部序列比对的数学模型大体可以分为两类,一是从全长序列出发,考虑序列的整体 相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。| 对序列从头到尾

14、讲行比就试图尽可能多的字符在同一列中匹配全局比x寸T 适用于相似性较高且长度相近的序列 I 加工 Neodloman-Wmsch算法,r 寻找序:中相咀,最高的区域,也就是匹配密度最高的部分 局部比对I 适用于在某些部分就次度较高而其他部位差异较大的序列一 如:SmitlvW虱erman算法6.1、 局部相似性比对法 局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其它部位可能有插入、 删除或突变。此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物学意义。数据库常用的搜索程序BLAS邙均采用局部相似性比对的方

15、法,具有较快的运行 速度,而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机 才能实现。6.2、 比对算法:全局和局部打分矩阵计算量巨大,目前已有快速完成比对的算法: 全局比对算法(Needleman-Wunsch算法):查找的是序列的全局相似性,试图尽 可能地覆盖整条序列,从某条序列的最左端开始到最右端结束。局部比对算法(Smith-Waterman算法):查找的是序列的局部相似性,得到的比 对结果可能只覆盖了每条序列的一小部分。局部比对算法使用更为广泛,许多数据库搜索算法(如BLAST使用局部比对算法7、局部比对基本搜索工具BLAST(重点考点)BLAST勺广?t: 1, 2

16、, 3, 4, 5, 6, 7. (P77)BLAST5索序列数据库的步骤:选择Blast程序限定搜索围选择和指定算法参数(1) BLASTS序家族:表 1. SLASTTO :於先在克啻茴逑bh 5tp totestnbiastxKHutnibiastx注三度核酝里乙质说二二济注楼戴!翻i祠宏三送侬台医程酝明深争三商"丽可域SS空曝有口思迸比左里在1K驻序列适宜蜕我给式钻二巴虱.不谙:近5矢案注色端口 N息声列和EJ厚更的分中运合寻或做免三中在未酝1壬的第相国通的产iSTW列(2)限定搜索围表t LJ:,T的母口邮闾年:瞬库筒送nr集 rsw SS-PRDT.PR,PRFi/y,G

17、en05nkji 串户区士花第臼iTKunth里三房和P口舛花存息子里际由星E夫.开工除了礴0序列&wlssprotrr二过去3 二天沟的会犷哥!.pdhP7)起国史密宜中笆武三总字列Leal品寻基回蛆槽 阿!T全味蕾二所心M大吃汗匐基因用中能钙的全部查三防Ru心g能免我游关宇自成序列由旺不工寮中妁闻LI豆豆字司科厚无毛用?活玄吉布哆河*网市售R国表三一y 的槛理里居毋:致君律局正nr3E7L.4;&G*nBdk-EMBL-DOBJi-FDDJ , ITEST. STS.nmonth-ES宅0 1,沪猊的11一行与审到dbe5tn 中过去30天隹:聂笥弓我曲山二工死生的6祈池次

18、-EMESL + DDBJ + Pt>E)的匚!iT印外htgi非 7 的 G+nb*iR - EM BL / DDBJ + PDB 的 5T5坪分yeastD 12阶活力高与里基国诅寺制号如匿老业的HTC .字利在m=当Excll的省西量组二两pdbT厮阡¥E勺至草迪里库列kabat由三钊4二左幸力发造 小UvectorQgi的电交学恒工0制互miteGcnbd n k叫景像工行aly法日佳挂阵.序列乎匕RHPAAE中A u生豆F制岳I * 11中! -J中起徽三直字到虫正£广段星固力KT: T川国1皿。Survey SOQURic前(3)选择和指定算法参数通用参数

19、(general parameter专打分参数 (scoring parameters)过滤和屏蔽(filters and masking)8、两条序列比对方法采用Blast进行序列两两对齐分析采用本地化软件进行两条序列比对8.1、双序列比对的显著性:一致性百分比核酸和蛋白质序列进行对库检索的结果中是否具 有生物学意义是一个很重要的问题,蛋白质序列 对齐分析得到的结论是:对于有70个氨基酸残基 的比对, 40%的氨基酸一致性(identities)是一 个认为两个蛋白同源的合理阈值,即它们一般具 有相类似的生物学性质;在此标准之下,两条蛋 白质序列可能具有相似的功能,也可能是性质上 完全不同的

20、蛋白质。对于DNA将列需要具有75%以上的同源性才可能 具有潜在的生物学意义.两序列比对做多重比对分析的本地软件也可以做两两比对分析,如8.2、 双序列比对和检测 限度序列比对应该存在一检 测限度,低于这一限度, 两个同源蛋白的差异程 度较大使得它们的比对结果没有显著性8.3、 采用本地化软件进行ClustalX软件等。其基本思想就是基于相Clustal是一个单机版的基于渐进比对的多序列比对工具。 似序列通常具有进化相关性的这一假设。DNAStar, DNAMan, MEGA等软件也可以进行序列比对。8.3.1、Clustal比对后的结果的编辑 BioEdit (详细见第二讲PPTClusta

21、l比对后的结果的编辑在线着色软件Boxshade9、寻找远缘相关的蛋白质:PSI-BLAST从一个已知的蛋白质序列开蜡搜索 个DNA激据困10、模式识另1J BLAST:PHI-BLAST11、用BLAS怵发现新基因比对结果很可能出境3种情况(1)相松性显著,但已经被注释(2)相联性显著,未粳注雅(新)(3)相暇性不明显.愠阳性匹配采用多种措施对亚配结果遂行瞬证. 比如.用新发信画的DNA或常白质 理索蛋白雷敷据座来查实读基四 输支尚未诚注释本章考点:同源性、相似性、一致性、直系同源、旁系同源、全局比对、局部比对、双序列比对的显著性熟悉BLASTS比对及对结果的解读熟悉ClustalX的使用及

22、结果的编辑熟悉BioEdit等软件PART31、基因及其结构基因:生命体执行复杂功能的基本元件,对基因结构的注释即是确定基因在基因 组中的外显子一含子结构。基因分类:蛋白质编码基因、RNA基因和假基因。经过剪接、拼接等生物过程之 后,最终翻译成蛋白质序列。基因结构复杂: ( 1)外显子不连续,被含子间隔,含子长度和数目差别大。( 2)基因存在复杂的选择性剪接现象。( 3)存在基因交叠和融合等复杂生物学现象。蛋白质编码基因存在多种功能位点信号:转录起始位点(Transcription strart site, TSS)翻译起始位点(Translation strart site, TIS)剪接位

23、点(splice site)翻译终止位点 (Translation termination site, TTS) , Poly(A涧点调控元件:转录因子结合位点(transcription factor binding site, TFBS), 增强子(enhancer刖衰减子(sliencer)2、基因结构预测概述现有的基因预测方法大致可分为两类:基于表达数据的基因预测基于机器学习方法的基因预测3、基于表达数据的基因预测方法利用基因产物(包括cDNA、EST以及蛋白质等)反推基因结构受公共数据可中是否存在待分析基因产物的影响,但对于基因组序列刚测序完成的物种,可采用这种方法完成该物种中基因的

24、初步确定。cDNA和蛋白质序列可直接用于确定基因完整的蛋白质编码区域,而EST仅为基因的部分转录片段、序列测序质量较低且存在多种污染物,常需要经过一系列复杂的处理才能实现基因的识别。4、Genscan基因预测在线软件应用GENSCAN一个什么样的软件? (t¥细如何操作见第三讲PPT)GENSCAN美国麻省理工大学的Chris Burge于1997年开发成功的人类(或脊椎动物) 基因预测软件,它根据基因的整体结构进行基因预测,不依赖于已有的蛋白库,是一种“从头预测”软件。目前Chris Burge还开发了适用于果蝇、拟南芥菜、 玉米的专用版本。对于非版本专用的物种,其预测准确率会下降

25、。PART4引物的设计1、引物设计是PCR支术中至关重要的一环使用不合适的PCR引物容易导致实验失败:非特异性扩增扩增产物量较少无扩增产物2、引物设计的原则:非特异性扩增-引物与模板的序列要紧密互补扩增产物量较少-引物与引物之间避免形成稳定的二聚体或发夹结构无扩增产物-引物不能在模板的非目的位点引发DNA聚合反应(即错配)3、引物设计时考虑的因素引物长度碱基分布的均衡性(GC含量) Tm 值引物二级结构引物3端和引物5端引物的保守性与特异性引物长度引物长度一般为15-30bp常用的是18-27bp,太短则特异性降低容易引起错配,太长则结合能量过高, 导致其延伸温度大于74°,不易结合

26、两条引物的长度差不超过4bp碱基分布的均衡性(GC含量)GC含量一般为 40-60% (45-55%)GC含量太低导致因为Tm值较低,使用较低的退火温度不利于提高 PCR 的特异性GC含量太高也易于引发非特异扩增避免多个重复碱基,尤其是4个或超过4个的G上下游GC含量需要相接近(5%)Tm值Tm值在 58-60 C (55-70C)之间(软件计算差异大,需要实验人员摸索)两条引物的Tm值尽量接近,相差最好不超过 2 C引物的二级结构1引两无回文时称件构,否用套彩成发夬结构rTGGJLCCCGTGLggjmilcGTGA 3, HaiDin 白 王姑";2引辆自身不能上对,否则易步成引

27、物二聚体工H| Cross dimer3,slL乩id沁HGGAClc讨GGCE 5, 引物二聚体引物的3,端和5,端引物的3,端引物的3,端末尾不能使用碱基 A。因为3,端的末位碱基对Taq酶的DNA 合成效率有较大的影响,末位碱基为 A的错配效率明显高于其他3个碱基。引物3,端不要出现3个以上的连续相同碱基,如GGG或CCC也会使错误 引发几率增加引物的延伸从3,端开始,因此3,端的几个碱基与模板DNA均需严格配对, 不能进行任何修饰,否则不能进行有效的延伸,甚至导致PCRT增完全失败。引物的5,端引物5'端可以有与模板DNA不配对碱基,在5'端引入一段非模板依赖性 序列,

28、如增加酶切位点等。引物的保守性与特异性保守性:通用引物一一检测到尽可能多的类型特异性:避免非特异性扩增4、引物设计的软件和工具Primer 3 (在线)Primer premier 5Primer expressOligo 6NCBI blast4.1、Primer Premier 5.0 简介主要功能1、即引物设计2、限制性切酶位点分析3、DNA基元(motif)查找4、同源性分析PART5 SN版测序数据分析基因组序列差异包括:核甘酸变异(单个碱基的替换+小片段的插入缺失),结构 变异(长度超过1k的序列变异)结构变异(Structure Variation, SV :大片段插入缺失,倒位

29、(inversion),平衡易 位(balanced translocation),拷贝数变异(copy number variation)1、什么是SNP?SNP(Single Nucleotide Polymorphism)称为单核甘酸多态性,是 DNA序列单个核 苷酸上发生的一种变异。单个核甘酸在特定种群中发生变异的概率超过1%时,它称为SNP,否则称为单核酸突变(Single Nucleotide Variation, SNV) 。广义SNP包含单个碱基的替换和小片段的插入缺失,狭义SNP单指单个碱基的替换。Allele:同一个位点上由SNP位点造成的两种或多种等位基因形式,如A/G或

30、C/T 是两个等位基因。2 、 SNP的类型:转换( transitions) :嘌呤和嘌呤之间或嘧啶和嘧啶之间的替换。A/G, C/T颠换(transversions) :嘌呤和嘧啶之间的替换。A/C, A/T, G/C, G/T转换的发生率总是明显高于其它几种变异,转换和颠换之比为2:1。转换的几率之所以高,可能是因为 CG序列上的C经常甲基化并自发地脱去氨基而形成 胸腺嘧啶。3、SNP的特点SNP广泛地分布于基因组中,是大多数群体中最丰富的一种遗传变异类型。 它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。平均每5001000个碱基对中就有1个,估计其总数可达300万个

31、甚至更多。SNP的遗传稳定性、遗传分析重现性和准确性都较以前的标记好。SNP具有二态性的特点。理论上讲,SNP既可能是二等位多态性,也可能是3 个或 4 个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的SNP都是二等位多态性的。SNP的独特之处还在于,不同于仅仅只能作为标记起到指示路标作用的其他 分子标记,它本身,特别是基因编码区SNPs(cSNPS更有可能与基因的功能相关, 或是由于与目标基因位点连锁而产生的间接相关,或是导致基因功能变化的直接相关(即某功能基因的某一 SNPs可能是该基因产生作用的关键所在)。4、SNP在基因组上的分布在DNA任何位置,DNA都有可能发

32、生,根据SNP在基因中的位置,可分为:基因编码区SNPs(Coding-region SNP, scSNPs,)基因周边SNPs(Perigenic SNPs, pSNPs)基因间SNPs (Intergenic SNPs, iSNPs)在外显子,其变异率仅为周围序列的 1/5, cSNP可进一步分为:同义SNP(synonymous cSNP:碱基被替换之后,产生了新的密码子,但由于生 物的遗传密码子存在简并现象,新旧密码子仍是同义密码子,所编码的氨基酸种 类保持不变,因此同义突变并不产生突变效应。非同义SNP (non-synonymous cSNP:导致氨基酸改变的核甘酸变异。5、常用于

33、衡量序列核甘酸多态性的两个指标平均杂含度日(Watterson, 1975)指群体内斫有同源口岫序列上每个位点的平均杂含南(或称为平均多样 性).其计算公式如下:SV'"-11"f其中1=V£表示的数目L表示测序的长度n是指测序材料的跛目“桂甘酸后样性Jt (Tajima, 1983平均誓一个粮昔窿位点上随机选取两条序列它id是不同的概率、也称鼾体 期望聚合度I吁£2礼叫if止用于法州的呼列班口、网招个眸瓢目p是耳本中第条序列的比例四是样本中第j条洋列打比例莉示第&第J条件列的*It差异度6、DNA序列多态性分析软件DNASP的应用1、首

34、先将database表中的数据转化为Fasta格式2、将Fasta文件导入 DNAspPART6分子系统发生分析1、系统发生关系是表示物种进化关系的参考依据。从传统意义上来说,物种的系统发生关系是通 过比较大量不同的生物体形态学特征的差异来估计的。 但是,分子水平的序列数 据也能(能更好)被用于物种系统发生分析的研究中。2、系统发生树的意义:研究物种进化历史 有助于基因功能的研究有助于了解病毒传播的方式有些序列比对算法要依赖于进化树的构建3、系统发生树的基本概念:系统发生树是由一系列节点(node)和边(branch)组成的无环连通图 节点:描述分类节点。部节点(internal node)(

35、分支点):代表进化事件发生的位置或代表分类单元进化历程中的 祖先;外部节点(terminal node)(叶节点),部节点外部节点代表实际观察到的分类单元,又称卜进化分支,D'快小单7LE 分支长度操作单元(operational taxonomic unit)。分支:代表物种间的进化关 系进化分支有根树和无根树4、直系同源和旁系同源分子系统发生分析的对象往往是一组同源序列。直系同源(ortholog):由物种的分化而形成,且通常具有同样的功能。旁系同源(paralog):由基因复制而产生,往往在行驶的功能上有所差异。构建物种数,当使用直系同源序列,而非旁系同源序列5、选择可供分析的序

36、列(串联前面的知识点)一般情况下,蛋白质进化缓慢,因而适于研究远缘种间的系统关系,而DNA 的分子钟速度快,适宜分析近缘种间的进化(例如,同义突变可以从核酸序列上 反应出来,其次还可以研究基因组中一些非编码蛋白质区域的分子进化,如UTR和含子序列) 多序列比对多序列比对的结果是后续构建系统发生树的基础,是系统发生分析中较为关键的一步,需保证所分析的序列是同源的。虽然通过对含有非同源序列的数据集进行多序列比对, 仍能构建出一棵系统 发生树,然而这样建立出的系统发生树没有任何生物学意义, 因为非同源序列的 进化过程不能代表生物体的进化过程。多序列比对软件,ClustalXDatabase中的SNP

37、数据不需要进行比对6、构建系统发生树系统发生树的构建方法可分为两类基于距离的方法(distance-based method):根据进化距离模型推导出分类单元 之间的进化距离,然后依据一定的算法和规则构建系统发生树。主要包括非加权 组平均法(UPGMA)和邻接法(NJ)基于字母特征的方法(distance-based method):通过分析字符间的进化关系(如 核甘酸序列的变化)来构建系统发生树。这类方法主要包括最大简约法(MP)和最大似然法(ML)等构建系统发生树系统发生树的构建方法可分为两类5;大简的法基十字母特征最大假瓶法IL加权型平均 去(UPGMA)基于距离法是最常用的构建系统发生树的方法。 在这种方法中,首先需要根据某 种进化距离模型计算出所有分类单元间的进化距离(距离矩阵) ,然后根据不同 的算法,比如依次聚类进化距离最短的类(UPGMA),或一定的规则,比如使得 分支长度之和最小(NJ),构建获得“最优”的系统发生树。计算核甘酸序列距禽的方法: 差异位点数目nP距离:两序列间差异位点数回占全序列长度的比率.对于序列长度为 N,差异位点数目为n的比对,p=n/N Ju皿s-CarMcirJ莫型: D = - ln(1:2) Ki”】ua 双参数模型:。=:tnl 2P - (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论