生物信息处理-总复习_第1页
生物信息处理-总复习_第2页
生物信息处理-总复习_第3页
生物信息处理-总复习_第4页
生物信息处理-总复习_第5页
已阅读5页,还剩127页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息处理

总复习研究对象基因:具有遗传效应的DNA片段蛋白质:调控和实现几乎所有生物功能的分子机器研究对象教学内容

第一章分子生物学和生物化学第二章数据库搜索与两两比对第三章替换模式第四章基于距离的系统发生分析第五章基于特征的系统发生分析第六章基因组学与基因识别第七章蛋白质和RNA结构预测第八章蛋白质组学基因蛋白质第一章分子生物学和生物化学第一节遗传物质DNA(脱氧核糖核酸)是遗传物质,存储在DNA中的信息,使无活力的分子组织成为有功能的活细胞,进而构成能够进行新陈代谢、生长繁殖的生物体基因(Genes)是具有遗传效应的DNA片段是DNA的载体——染色体(chromosome)、叶绿体、线粒体核苷酸是构成核酸分子(DNA和RNA)的基本单位

磷酸基团核苷酸核糖

戊糖脱氧核糖

碱基(A、G、T、C)

1.1核苷酸(nucleotide)

腺嘌呤鸟嘌呤胸腺嘧啶胞嘧啶DNA的连接及取向取向——核苷酸只能结合在生长中的DNA或RNA分子的3’上,

5’端的序列为上游,3’端的序列为下游连接——两个核苷酸之间通常是通过3’,5’-磷酸二酯键连接的有机化学家用数字1’~5’标明脱氧核糖的5个碳原子54321碱基配对

DNA分子的两条链是反向互补的互补配对:G—CA—TG与C,A与T的配对是特异的、稳定的DNARNA新生肽DNACDNA蛋白质转录翻译RNA聚合酶核糖体复制逆转录折叠生物学中心法则:信息从基因的核苷酸序列中被提取出,以用来指导蛋白质合成的过程,这个过程对地球上所有生物都是相同的A、G、T、CA、G、U、C氨基酸链互补DNA中心法则原核生物中,基因的转录和翻译同时进行;真核生物中,基因表达的两个步骤被核膜在空间上隔开.中心法则基因(Gene)是产生一条多肽链或功能RNA所必需的全部核苷酸序列。它是一种DNA序列,在有些病毒中则是一种RNA序列。基因表达(Geneexpression)利用存储在DNA中的信息合成RNA分子,然后再合成相应蛋白质的过程所有细胞将调控的重点放在基因表达的最开始,必须具有两种辨别能力:必须正确区别生物体基因组中与基因起点相关的部分和不相关的部分必须能确定那些基因编码在特定的时空下所必需的蛋白质RNA聚合酶在基因表达起始阶段负责合成基因的RNA拷贝,因此由它们负责以上两个辨别任务基因及基因表达由调控基因编码的蛋白质结合在DNA上靠近其所控制的基因的启动子区域附近,由此来控制这些基因在一定条件下的表达。这些调控蛋白感知细胞的化学环境,并决定是否结合在特定的核苷酸序列上,正是这种能力使生物体能恰当地对外界环境做出反应若这些调控蛋白的结合使RNA聚合酶更容易启动转录,则发生正调控若这些调控蛋白的结合阻碍RNA聚合酶启动转录,则发生负调控基因调控原核生物的RNA聚合酶扫描整个DNA,寻找标记基因起点的约为13个核苷酸长度的特定核苷酸序列。这些核苷酸作为一个整体,称为启动子序列。相应的,真核生物的RNA聚合酶要识别更为复杂和更长的启动子序列基因结构——启动子序列

翻译从mRNA的翻译起始位点开始,遇到终止密码子(stopcodon)结束开放阅读框:一长串未被终止密码子打断的密码子串,它是许多原核生物和真核生物的明显特征核糖体只有在正确的相位或阅读框中阅读才能准确的翻译,而阅读框是由起始密码子决定的,基因阅读框的变化会产生提前的终止密码子基因结构——开放阅读框真核生物转录的mRNA在接触到核糖体之前需要被修饰最重要的修饰作用——剪接剪接:将mRNA中内含子的内部序列精确剪切掉并将其两侧的外显子重新连接基因结构——剪切、内含子、外显子不正确的剪切内含子将导致移码突变或提前产生终止密码子,翻译出无用的蛋白质可变剪接(alternativesplicing):不同类型的细胞中,剪切结果有所不同。由识别内含子/外显子边界的剪接体及附属蛋白的精巧机制实现的。它大大增强了真核生物体蛋白质的多样性。基因结构——剪切、内含子、外显子蛋白质在改变细胞化学环境方面起主要的作用,而氨基酸是构成蛋白质的基本单位。蛋白质的功能取决于翻译过程中核糖体装配的氨基酸序列,而该序列取决于翻译RNA聚合酶转录成RNA分子中的编码指令只有4种不同的核苷酸构成RNA和DNA分子,而蛋白质构造中却有20种不同的氨基酸mRNA上每三个连续核苷酸对应一个氨基酸,这三个核苷酸就称为一个密码子,或三联体密码(tripletcode)核糖体利用三联密码将DNA和RNA的信息翻译成蛋白质中的氨基酸序列遗传密码1.连续性。mRNA的读码方向从5‘端至3’端方向,两个密码子之间无任何核苷酸隔开。2.简并性。指一个氨基酸具有两个或两个以上的密码子。密码子的第三位碱基改变往往不影响氨基酸翻译。3.通用性。蛋白质生物合成的整套密码,从原核生物到人类都通用。但已发现少数例外,如动物细胞的线粒体、植物细胞的叶绿体。遗传密码的特点蛋白质(protein)是信息转化成生物结构和功能的表达者,是调控和实现所有生物功能的分子机器。人体的所有组织器官都会有蛋白质,蛋白质是生命的物质基础。一般说,蛋白质约占人体全部质量的18%,最重要的还是其与生命现象有关。蛋白质和核酸是生命存在的主要形式。蛋白质的功能蛋白质是线性的氨基酸合成的结果,但在生物体内会迅速折叠成一个紧密的球状结构。大多数蛋白质只有在折叠成天然球状结构的时候才能具有完全的生物活性。去折叠(变性)蛋白质在允许重新折叠的实验条件下可以折叠到原来的结构。

氨基羧基侧链蛋白质组成——氨基酸20种标准氨基酸具有相似的化学结构,其特征为:氨基酸分子中的α碳(分子中第2个碳)结合着一个碱性的氨基和一个酸性的羧基,此外Cα还结合着一个H原子和一个侧链基团(用R表示)。每一种氨基酸的R都是不同的,侧链上的碳依次是第3、4、5和6位碳。每个氨基酸都相同的区域叫做骨架,而可变的R基团叫做侧链氨基酸几个氨基酸组成的氨基酸链称作肽,一条较长的氨基酸链通常称为多肽(>10个)或者蛋白质(>50个)。当两个氨基酸实现共价结合的时候,一个氨基酸的氨基丢失一个氢,同时另一个氨基酸丢失一个氧和一个氢,脱水生成肽键。

多肽

一级结构(primarystructure)不同氨基酸装配形成蛋白质的次序称为蛋白质的序列,也叫蛋白质的一级结构多肽链中氨基酸残基的排列序列,开始于氨基端(aminoterminus),结束于羧基端(carboxyterminus)。氨基酸的顺序很大程度上决定了蛋白质的折叠方式。蛋白质骨架的化学特性使骨架的大多数保持平面状态。蛋白质骨架中唯一可转动的部位是α碳与氮原子之间的键α碳与羰基碳(与氧原子以双键相连的碳)之间的键蛋白质——一级结构仔细观察结构已知的蛋白质,可以发现在局部结构中只有很少的几种共同模式,这种由规则的分子内氢键形成的结构,几乎在已知的蛋白质中都可以发现。这些规则结构的位置和方向形成蛋白质的二级结构两种最常见种类为α-螺旋和β-折叠

α-螺旋:肽链主链骨架围绕中心轴盘旋成螺旋状的结构。

β-折叠:在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构。包括平行折叠和反

平行折叠蛋白质——二级结构

三级结构(tertiarystructure)

蛋白质二级结构聚集在一起并与蛋白质骨架中别的非规则结构区域结合形成整体的三维形状(球状结构)四级结构(quaternarystructure)

活性酶通常是由2个或更多个蛋白质链组合在一起而形成的一种复合体,这种由相互作用的蛋白质形成的整体结构被称为酶的四级结构两条以上多肽链聚集化学键本质原子结构电子排布化合价电负性极性非极性亲水性疏水性氢键原子最外层轨道中未成对电子的数目,称做该原子的化合价原子的化学性质依赖于其最外层电子。由于原子内部大部分空间是空的,在正常的化学反应中原子核永远不会相遇。质子数是不变的,但电子的位置(有时甚至是数量)会有所改变虽然保持电荷平衡在自然界具有最高优先权,但也存在着一种要保持原子最外层轨道全满或全空的强烈趋势。这些潜在的对立趋势可以通过允许电子轨道相互重叠而得到解决。由于电子轨道重叠而导致共用电子的出现,是使两个原子长期结合的典型情况,也是形成共价键的基础化合价与共价键元素原子核在分子中对成键电子的吸引能力,称为电负性;不同原子核对电子的亲和力不同原子相对电负性是指为了填满或清空最外层轨道所需要或提供的电子数目键的极性与元素的电负性有关,通过元素的相对

电负性,可以大致判断两种原子生成化合物分子时,

形成的电子对的偏移程度。电负性极性电负性值较大的元素在形成化合物时,由于对成键电子吸引较强,往往带有负电;而电负性值较小者带有正电。在形成共价键时,共用电子对偏移向电负性较强的原子而使键带有极性。例如:H和C最外层电子都是半充满的,电负性本

质上相同;而O必须获得2个电子或失去6个电子,

电负性相对较高。因而CH4和H2O原子键的极性不

同氢键(hydrogenbonding)极性共价键导致电荷的轻微分离有助于形成一种重要的分子间相互作用,即氢键。由于水分子中氢原子轻微的正电荷与相邻水分子中氧原子轻微的负电荷的相互吸引作用,使每一个水分子都处于水分子网络中并与别的水分子以较弱的力相联系。氢键的键能一般在42kJ·mol-1以下,比共价键的键能(一般在200kJ·mol-1以上)小得多,而与分子间力更为接近些,但这是维持蛋白质二级结构重要的化学键。打破氢键所需要的能量比打破共价键要低得多,这是因为氢键中没有共用电子化学家发现,多数化学物质可以轻易地分成两类:极性分子:具有极性键的分子,表

面具有能与水形成氢键的带电荷区

域,因而具有亲水性(hydrophilic)非极性分子:原子间仅以非极性共价

键相连的分子,妨碍水分子间相互

作用且阻碍它们抵消部分电荷,因而具有疏水性(hydrophobic)疏水作用及疏水和亲水的平衡在蛋白质结构与功能的方方面面都起着重要的作用。乙醇甲烷亲水性与疏水性分子生物学家通过利用很少几种常用工具产生所要分析的原始数据,一套大约6种不同的实验室技术组合代表了分子生物学目前的全部内容。限制性酶消化凝胶电泳印迹和杂交克隆聚合酶链式反应DNA测序分子生物学工具作用方法20世纪60年代末,在大肠杆菌中首先发现了一种酶(EcoRⅠ),它能准确识别外来的DNA,并且在遇到特定核苷酸片段时,就将其打断。EcoRⅠ

是应用最广泛的限制性内切酶,酶切位点和切割位点如下:

限制性内切酶DNA序列分析,将庞大的DNA分子切割成小片段便于序列分析;DNA重组;建立DNA的物理图谱等。酶切分析应用对于几百万个碱基对(如大肠杆菌基因组)甚至几十亿个碱基对(如人类基因组)的基因组,即使用特定的限制酶完全消化,也将产生成千上万条DNA片段。通常采用分子生物学的另一种工具——凝胶电泳方法来将这些片段分开

凝胶电泳凝胶电泳通常用于分离不同物理性质(如大小、形状、等电点等)的分子,既可用做分析用途,但也可以作为制备技术。原理:迁移速率与分子量对数、凝胶浓度成反比,分子越大则所受阻力越大,也越难于在凝胶孔隙中蠕行,因而迁移得越慢。操作:DNA(或RNA、蛋白质)片段被加到多孔凝胶一端的加样孔中,多孔凝胶通常由琼脂糖或丙酰胺制成。当在凝胶加上电场时,带电荷分子自然向电场两极之一移动。小分子比大分子更容易通过凝胶,因而可以根据分子大小而分离分子。凝胶电泳目的:在成百上千个DNA片段中寻找含有某一特定基因的片段无异于大海捞针,即使这些DNA片段已按大小分开。分子生物学家通常运用另一种技术——印迹和杂交来寻找他们所要研究的目的片段印迹:将多核苷酸从脆弱的分离胶中转移到更为结实的支持物(如硝酸纤维素膜或尼龙膜)上。印迹的机制很简单,先使膜与胶接触,然后通过毛细作用将胶上的的DNA牵拉到膜上,并保持电泳过程中所形成的相对位置不变。再用紫外光照射或简单火烤,就可永久地将DNA片段结合在膜上。印记与杂交杂交:经过标记的单链DNA片段称为探针(probe),当探针与转移到膜上的核苷酸配对时,杂交开始。探针长度通常为20多个核苷酸,它们是能与膜上的目的DNA片段唯一互补的序列。探针可以通过化学合成而得到,或者来自别的实验中分离出的DNA片段,甚至来自不同生物体的相关基因。许多方法可用来标记探针,从放射性标记到荧光标记,甚至催化特定反应的酶都可用来标记探针可以包括盐、pH缓冲液和去污剂的探针溶液在膜上冲洗(经常是几个小时甚至过夜)。可以通过控制反应条件尤其是盐浓度来控制杂交最后再冲洗去未结合的探针,检测膜上哪些序列与探针形成了结合印记与杂交目的:细胞是按次序从单个DNA分子中提取并处理信息。而分子生物学家通常需要大量的裸眼可见的研究材料(几百万个分子)。DNA测序反应,需要比来自与基因组DNA的限制酶消化和凝胶电泳更高纯度的和更大量的DNA片段解决此类问题的简单方法是通过细胞的帮助产生足够数量和质量的特定DNA分子。本质上,克隆涉及将特定DNA片段插入类似于染色体的载体(vector)中,载体使它们能在活细胞内进行复制(并分离出)。由于所有片段的拷贝都是相同的,所以也叫分子克隆。分子克隆三要素:目的基因、载体(vector)、宿主细胞一旦用以上方法产生包含目的序列的限制性片段,其粘性末端可用于连接到用限制性内切酶切割后具有互补粘性末端的载体载体的共同特征允许自身在活细胞内复制有利于证明它们存在在宿主细胞的特征序列有益于将它们从宿主细胞的DNA分子分离出来的明显物理特征分子克隆目的基因获得基因文库:所有克隆到载体上的基因集合形成基因文库。一个理想的基因文库应包括一个生物体DNA中每个片段的拷贝。cDNA文库:是建立基因组文库的另一个选择。对基因组最感兴趣的部分往往是与蛋白质编码区相关的部分。所有蛋白质编码区共有的特征是它们被核糖体翻译之前全转化为mRNA。逆转录酶可将这些mRNA与细胞内其他多核苷酸分开,并将它们转化为互补DNA(cDNA),然后克隆成为文库的一部分cDNA文库优点在于抓住了基因组的关键部分cDNA文库缺点是忽视了重要的调控序列和内含子,而它们是与基因密切相关的

分子克隆1985年由K.Mullis创建,代替克隆的一种方法。该方法依赖于DNA聚合酶的两种特性,方向性:所有DNA聚合酶在DNA合成时都将新的核苷酸加到DNA的3’端互补性:DNA聚合酶的工作是利用单链DNA分子的固有信息合成双链DNA分子,并且DNA聚合酶只能通过将核苷酸添加到已存在的DNA链末端来开始DNA合成要素:少量DNA模板、引物、DNA聚合酶理论上经n次循环后,DNA链可达2n聚合酶链式反应PCR步骤由于扩增开始时加到反应混合物中特定引物只结合到特定位点,所以DNA的合成只发生在基因组特定片段如同杂交试验中的探针,PCR引物的长度通常为20或更多个核苷酸,以保证每一条引物都能唯一与基因组的目标序列结合最初合成引物的特定序列通常来自对亲缘关系较近生物体的相似区域的DNA分析,有时需要经过克隆和筛选这样繁琐的过程虽然扩增与克隆的用途相似,但是,扩增产生DNA分子的速度和效率比克隆方法更快、更有效。PCR扩增的一个突出优点是只需要使用少量的样品就可以开始扩增,而克隆需要更多的样品量聚合酶链式反应所有DNA测序策略都包括相同的3步:产生一整套相应于待研究区域只相差一个核苷酸的小片段用4种不同的标签标记每一个片段,标签取决于片段末端的核苷酸利用片段间的大小差别分离那些片段(凝胶电泳),通过检测不同标签出现的顺序读出核苷酸的排列顺序DNA测序F.Sanger末端终止法模板链引物双脱氧核苷酸放射自显影凝胶电泳互补链序列基因组

(Genome):一个生物体、细胞器或病毒的整套基因;如何在获得其核苷酸序列之前就能对基因组信息的数量和复杂度有所了解?C值悖论复性动力学

基因组信息一个生物体的任何一个细胞中的DNA数量相同,这种细胞DNA总数量的量度称为C值C值悖论:物种的C值与其进化复杂性之间无严格对应关系相似物种间DNA总含量的差别经常高达100倍或更多,这清楚的表明,在某些生物体中大部分DNA是可以忽略的,它们对生物体的复杂度并不起重要作用在比较简单的生物中,C值大体与物种在形态学上的复杂度相一致在更为复杂的生物中,C值相差很大。例如:人类的C值为3.3×109bp,而最大的两栖动物C值达1011bp。难道两栖动物的结构和功能会比哺乳动物更为复杂?C值悖论在一定意义上说,生物类群中C值变化范围宽就意味着在某些生物中有些DNA是冗余的,对生物体的复杂度不起重要作用。DNA总量变化范围的产生至少有一个原因,即在染色体上存在着不同数目的重复序列,这些重复序列是不表达的。

C值悖论变性——双链DNA的互补链经过加热或碱处理而分开(变性),复性——当条件适宜(恢复到细胞内的条件)时,分开的双链很容易重新缔合(复性,也叫退火)通过检测变性DNA的复性过程可获得很多关于基因组结构的信息。简而言之,基因组中的序列越特异,每一条链找到它的互补链的时间就越长,因此与其互补链杂交所需的时间也越长复性动力学第二章数据搜索与两两比对点阵图评估两条序列相似度最简单的方法之一是利用点阵图。第一条被比较的序列排列在点阵图空间的横轴,第二条序列则排列在纵轴。点阵空间中两条序列中的残基相同时,在对应的位点上画上圆点,两条序列间连续相同的区域在图中会形成由圆点组成的上斜线。AGTCCTGACTGAAGTC相同区域点阵图滑动窗口技术当对长且相似的序列进行比较时,这样的点阵图很快就会变得非常复杂和拥挤。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记为圆点基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。简单比对比对就是两条序列字符间简单的两两匹配。比对可以反映出两条或多条同源序列间的进化关系。两条序列的相似度可以用一个数值来衡量序列给定位置可能发生的3种变异:插入删除替换由于在被比较的序列中没有与被插入或删除核苷酸序列同源的序列,因此通常在比对时加入空位来反映此类变化最简单的情况下即不考虑空位,当两条序列对比时,要做的仅是为较短的序列选择比对的起始点。不考虑空位的简单比对,它的打分函数是由对比奖励和罚分的和来决定匹配得分:1失配得分:0简单比对——不考虑空位简单比对——简单空位罚分对含有空位的比对打分时,空位罚分就必须包含到打分函数中,空位比对的简单打分公式如下:例如:假设匹配得分为1,失配得分为0,空位罚分为-1使用简单空位罚分对两条序列进行比对时,经常能找到若干同是最优的比对。进一步区分这些比对的方法是找出哪些比对包含较多的不连续空位,哪些包含数量较少而长度较长的空位片段。考虑到竞争假说,那些不可能事件出现较少的比对就最可能是正确的比对。空位罚分(由两部分相加组成)起始罚分:由序列中产生的新空位串引起长度罚分:根据缺少的字符数而定的。预设长度罚分小于起始罚分,以此建立的打分函数便能奖励空位连在一起的比对。简单比对——起始罚分、长度罚分打分矩阵正如空位罚分可以奖励与进化相关的的比对,失配罚分也可以用来进一步区分相似比对。统计结果表明,两条同源的序列比对时,某些替换比其他替换常见的多。核苷酸打分矩阵a.单位矩阵b.BLAST矩阵c.转换-颠换矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)ATCGA1000T0100C0010G0001ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51单位矩阵转换-颠换矩阵BLAST矩阵为了得到打分矩阵,更常用的方法是统计自然界各种氨基酸参加的相互替换率。如果两者特定的氨基酸间替换发生的比较频繁,那么对这两种残基比对位点的打分会比较优待;反之就要被罚分了常用氨基酸打分矩阵点接受突变(PAM)矩阵:(PointAcceptedMutation)一种基于统计替换率的常用打分矩阵BLOSUM矩阵:通过统计聚类技术来对相关蛋白质的无空位比对进行分类常用打分矩阵PAM矩阵:针对不同的进化距离选择PAM矩阵序列相似度=40%50%60%

|||打分矩阵=PAM120PAM80PAM60BLOSUM矩阵另一种常用打分矩阵,通过统计聚类技术来对相关蛋白质的无空位比对进行分类与PAM矩阵类似,可以根据亲缘关系的不同来选择不同的BLOSUM矩阵进行序列比较。然而,BLOSUM矩阵的意义与PAM矩阵正好相反:低阶BLOSUM矩阵更多是用来比较亲缘较远的序列。动态规划:Needleman和Wunsch算法一旦选定了序列比对打分的方法,就可以为寻找最佳比对设计算法了。最显而易见的方法就是对每个可能的比对进行穷举搜索,但这一般是不可行的。比对的目的:在给定打分矩阵的情况下,仅仅获取最佳比对值仅仅获取与最佳比对值相对应的序列我们可以用动态规划解决这个问题,即把一个问题分解成计算量合理的子问题,并使用这些子问题的结果来计算最终答案。动态规划步骤:初始化填充表格计算路径0-1-2-3-4-5-1-2-3-4-5-6-7ACTCGACAGTAG用空位罚分的倍数对表格第一行与第一列进行初始化每一个格子保存子序列最优比对值准全部比对在若干种两序列比对中,我们需要的是区别对待末端空位与序列内部空位,这种比对称为准全局比对(semiglobalalignment)(1)通过初始化部分打分表,表格第一行与第一列为零;(2)允许表格最后一行与一列横向与纵向的移动不被罚分;Needleman和Wunsch算法的改进(准全局比对)局部比对——Smith-Waterman算法局部比对1981年,由F.Smith和M.Waterman首次提出;动态规划方法通过较少的改动便可以用来识别匹配的子序列,并且忽略匹配区域之前或之后的失配和空位;局部比对时,表中小于零的位置用零代替;得到的局部比对代表了被比两条序列间的最佳的匹配子序列;局部比对方法可以识别子序列的匹配,而这是全局与准全局比对不可能做到的。

AACCTATAGCT数据库搜索尽管序列比对是比较两条已知序列的极为重要的工具,然而序列比对的更为常见的用途是用来搜索大量序列的数据库,以找到与特定序列相似的那些序列。在数据库搜索过程中,由于被搜索序列很长,而且数量巨大,用简单而直接的方法将数据库中的每条序列与查询序列进行比对并返回得分最高的序列难以奏效。作为替代方法,各种索引方法与启发方式被用来加快搜索的过程,虽然不能保证与查询序列比对的最好的,但是能返回大部分与查询序列比对较好的,而且这些方法的效率很高。BLAST及其家族序列数据库搜索最著名且常用的工具之一是BLAST算法,原始的BLAST算法是通过搜索序列数据库来找出最优的无空位局部比对。BLASTP是BLAST算法的一种变种为了有效地搜索大型数据库,BLASTP首先将查询序列打碎成一个个单词,通过查询序列上滑动与单词等长的窗口,来获取查询序列中所有可能的单词。那些由最常见氨基酸组成的单词会被弃之一边,然后从数据库中搜索余下单词出现的情况每当从数据库中找到一个单词的匹配,就从单词两端延伸该匹配,直到比对得分低于给定的阈值为止BLAST算法例子FASTA及其相关算法FASTA算法及家族成员能够进行序列间含空位的局部比对。FASTA搜索非常细致,需要时间也长的多。FASTA搜索也是将搜索序列打碎成单词。对于基因组序列,单词一般只4至6个核苷酸,而对于多肽,单词长度一般为1至2个残基。下一步为查询序列建立一个表格,表格中记录了各个单词在序列中出现的位置对于氨基酸序列FAMLGFIKYLPGCM,假设单词长度为1,那么:为了与目标序列比较,我们建立了第二个表格,该表格用来比较目标序列与查询序列中氨基酸的相对位置目标序列TGFIKYLPGACT,那么123456789101112TGFIKYLPGACT3-2333-33-4-8210333单词ACDEFGHIKLMNPQRSTVWY位置2131578431196121014对照表格发现,甘氨酸(G)在第一个表中位置为5、12,在第二个表中为-4、3,再观察其它出现了很多距离为3的情况,这一现象暗示了一个可能的合理比对。通过两条序列的偏移表,即可发现相同的区域。然后利用Smith-Waterman算法对它们进行比对。因为这是对相似序列的已知区域进行比对,所以比起完全使用动态规划算法来进行查询序列与所有可能目标序列直接的比对,FASTA要快很多123456789101112TGFIKYLPGACT3-2333-33-4-8210333数据库搜索的比对得分与统计显著性数据库搜索总会产生一个结果的,如果没有更多的信息,被找出的序列不能认为与搜索序列有关假设某个数据库搜索结果的比对得分为S,那么可以问这样一个合理的问题:“假如有一组与查询序列不相关的序列(甚至是随机序列),那么在这些序列中随机找到一个得分同为S的比对的概率有大的?”为了回答这个问题,数据库搜索引擎一般都为每个搜索结果提供P得分和E得分E得分指的就是随机找出的序列的期望数目,这些序列与查询序列比对得分能大于等于SP得分指的是对于随机找出的一条或多条序列,其比对得分大于等于S的可能性P与E的值比较低说明该结果与查询序列具有进化上的关系第三章替换模式已经发生的替换数目和性质基因突变基因突变:一种核苷酸替换成另一种,以及插入/删除事件有利的中性的不利的有利的变化实际上只占少数核苷酸序列的某些变化对一个生物体的影响比其他因素更大

突变:是指DNA的复制和修复过程中出现错误而导致的核苷酸序列的改变

替换:是指了某个层次上经过自然选择过滤后的突变突变率r=K/(2T)r:替换速率(突变率)K:来源于同一祖先的两个序列之间的替换数量T:分叉时间K1K2TK=K1+K2功能约束自然选择能够杜绝导致生物体生存和繁衍能力下降的基因变化那些能够引起蛋白质催化性能及结构特征变化的基因变化,会更加受制于自然选择。十分重要的基因部分被认为受功能约束控制,它们在进化过程中趋向于非常缓慢的变化另外一些不会对氨基酸序列或表达方式造成影响的基因变化,很少受到自然选择的纠正,因此这种类型的变化速度相对较快大量分析证实,基因不同部分的变化速度确实千差万别,而这些速度正反映了不同部分受功能约束的程度同义和异义替换

同义替换:改变核苷酸编码序列,但不影响蛋白质的氨基酸序列的替换甘氨酸(GGG,GGA,GGU,GGC)

异义替换:改变核苷酸编码序列,同时影响蛋白质的氨基酸序列的替换甘氨酸(GGG)->丙氨酸(GCG)经过详细分析可以发现,基因的编码序列发生同义替换的概率几乎是异义替换的3倍

非简并位点:该位点的变异都是导致替换

双重简并位点:该位点有两种不同的核苷酸翻译成同一种氨基酸,另外两种不同的核苷酸则翻译成不同的氨基酸

四重简并位点:这一位点上无论是什么,都不会影响该密码子的翻译如果自然选择在出现改变蛋白质功能的变异的时候就起作用,那么很显然,处于四重简并位点的核苷酸替换的积累最为迅速,而处于非简并位点的替换积累最为缓慢例:分类例子非简并位点苯丙氨酸(UUU)

亮氨酸(CUU)

异亮氨酸(AUU)

缬氨酸(GUU)双重简并位点天冬氨酸(GAU,GAC)

谷氨酸(GAA,GAG)四重简并位点甘氨酸(GGG,GGA,GGU,GGC)插入删除和伪基因

在有转录活性的基因中,插入删除很难发生。原因在于插入删除会改变阅读框。DNA和修复酶经过亿万年的进化,已形成合理的机制,一般会使插入删除比简单的碱基替换发生的概率小10倍伪基因:更多时候复制出来的基因会成为伪基因,因为变异使得这样的基因丧失了功能,失去了转录的活性。这些基因序列的替换积累速率相当高,略高于同一物种的基因的3’端侧翼序列等位基因及固定绝大多数自然界现存的生物种群包含着大量的基因变异。举个例子,人平均每200个碱基对中就有一个不同于其他人。一个物种某个基因的不同版本被称之为等位基因。等位基因的差异变化很广,从不会产生影响到产生严重后果。各种等位基因相对频率的改变就是进化的基础新的等位基因以非常低的频率出现:q=1/2N

N是这个种群中具有繁殖活性的二倍体的数量

危及生物体生存和繁殖的突变,会在自然选择中,从基因库里扫地出门,这种突变频率最终降为0

如果等位基因优势突出,其频率就渐渐接近于1,即该等位基因被固定

个体之间发现的许多变异的优势或劣势都不明显,在本质上是选择中性的。

基因任何中性变异被固定的概率是q

这里q为该等位基因的相对频率基因任何中性变异最终从种群中消失的可能性为1-q,尽管基因新变异的固定概率可能很小,中性突变却能在种群中维持很长的时间,固定新的中性突变的平均时间实际上相当于繁衍4N代所经历的时间估算替换数目一般来讲,从两个序列的比对中观察到的替换数目(K)是任何分子进化分析中最重要的一个变量。如果一种最优的比对表明两个序列之间只有相对较少的替换,那么只有简单地数一下替换个数就可以确定K值。然而,在核苷酸序列被用来做分析研究之前,T.Jukes和C.Cantor就认识到如果序列之间的差异很大,那么用序列比对,就可能会严重地低估序列在最近的共同祖先之后发生的替换数目K1K2TK=K1+K2K>>ppJukes-Cantor模型估计替换数目的公式为:K=-3/4ln[1-(4/3(p))]Kimura的双参数模型该模型考虑了转换和颠换的不同速率。转换:嘌呤嘌呤或嘧啶嘧啶颠换:嘌呤嘧啶或嘧啶嘌呤估计替换数目的公式为:K=1/2ln[1/(1-2P-Q)]+1/4ln[1/(1-2Q)]基因间进化率的变化基因内不同部分的进化率有着很明显的差异,同样,我们发现基因间的进化率也是各不相同的。如果排除统计因素,进化率的差别应归咎于两个因素突变频率的差异自然选择对位置的影响程度同义替换率的差异远远不及异义替换率的差异尽管基因内某些部位比其他区域更容易发生偶然的突变,但同义替换率的差别很少超过两倍,而异义替换率却有将近200倍的差异。和基因内替换率的差别类似,基因间替换率的差别也主要由自然选择在不同的位置的差异产生分子时钟在长期的进化过程中,有着相似的功能约束的位点的分子进化速率几乎完全一致。20世纪60年代最早由EmileZuckerkandl和LinusPauling所做的蛋白质序列比较研究表明,蛋白质同系物的替换率就算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比作分子钟的滴答声分子时钟在不同的蛋白质中运行的速率是不同的,但是两个蛋白质同系物的差异始终和它们独立分化的时间成正比两序列稳定的变异速率,不仅有助于确定物种间系统发生关系,而且能够像利用放射性衰变考察地质年代那样,准确测定序列分化发展的时间存在争议:经典进化学家们认为形态的进化不够稳定,这与分子以稳定的速度变异不一致;关于分化时间也有不同意见,这些意见对这个假说的核心(即进化率是稳定的)表示质疑细胞器的进化研究对象哺乳动物线粒体DNA(mtDNA):平均长度16000bp植物叶绿体DNA(cpDNA):平均长度120000~220000bp形态较小和异常的遗传模式(哺乳动物中,线粒体是由母亲提供)令人们对它如何积累替换这一问题产生了兴趣线粒体生物的新陈代谢使得线粒体中出现的高浓度诱变剂(尤其是自由氧基),它能使mtDNA发生突变的速度比在细胞核中的DNA高出10倍。因此,对mtDNA的比较研究常用来探索紧密关联的生物体种群间的关系(但对于那些分化已有千万年之久的物种,由于每个位点都有可能发生多重替换,此方法用处不大)叶绿体叶绿体的替换速率远小于mtDNA,它的Ks和Ka只有同物种细胞核基因的1/4到1/5第四章基于距离的系统发生分析系统发生学系统发生学是研究物种之间的进化关系的,是进化生物学的一个重要研究领域,系统发生分析在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类。表型分析的局限性趋同进化——有时候关系很远的生物体也能进化出相似的表型例如,如果一个生物学家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同一个进化组中许多生物没有可用来进行比较的易于研究的表型特征例如,研究细菌之间的关系总是困难重重。即使用显微镜检查,细菌几乎没有明显特征当比较关系较远的生物的时候,第三个问题出现了,即什么样的表型特征能用来比较呢?基于DNA和蛋白质序列的分析一般不会存在这样的问题,因为很多同源分子对所有生物都是很基本的分子系统发生分析优点概念

系统发生树:三个或者更多基因或生物体之间进化关系的典型图示;

大部分系统发生研究都是围绕系统发生树的概念进行的,它表示了数据之间的关系分歧时间共同祖先的特征

系统发生树系统发生树有时也称为系统树图,它是由一系列的节点和分支组成的,其中每个节点代表一个分类单元。分支末端的节点(外部节点)对应一个基因或生物体;内部节点代表一个推断的共同祖先,它在过去的某个时候分歧出两个独立的分支。ABCDⅠⅡⅢⅣⅤ外部节点内部节点根节点Newick格式Newick格式——系统发生树结构的基本信息在计算机程序中常用一组嵌套的圆括号表示,称为Newick格式,用该格式来表示上图中的树,可写成(((Ⅰ,Ⅱ)

,(Ⅲ,Ⅳ)),Ⅴ)ABCDⅠⅡⅢⅣⅤ一棵系统发生树的分支模式能表达关于进化事件发生顺序的信息;一棵系统发生树的分支长度有时用来表示不同数据集分歧的程度。标度树:是指分支长度与相邻节点对的差异程度成正比的树。在最好的情况下,标度树是可加的,即连接两个节点的分支的长度准确地表示了它们之间的差异非标度树:只是将所有外部节点排成行,表示他们之间的亲缘有根树,单一的节点指派为共同的祖先,从祖先节点只有唯一的路径进化到达其他任何节点。无根树只表明了节点之间的关系,而没有关于进化发生方向的信息;但是通过引入外群或外部参考物种,可以在无根树中指派根节点基因树为基于单个同源基因差异构建的系统发生树;物种树一般从多个基因数据中分析得出。只考虑一个基因的时候,个体有可能表现出与其他物种的成员关系更近的情况。(下图)基因分化的发生通常先于产生新物种的种群分离基因分化事件常常在物种形成前或后都有发生。特征和距离数据用于构建系统发生树的分子数据分成两类:(1)

距离(distances)数据,常用距离矩阵描述,表示两个数据集之间所有两两差异;(2)

特征(characters)数据,存在有限不同状态的特征。

DNA和蛋白质序列数据描述离散的特征;其他特征数据集的例子包括基于解剖学或行为学的分类法中较常见的特征,如生物体颜色、生物体对某种刺激的反应时间等。一旦建立了确定所有可能状态之间相似性的标准,特征数据就很容易转化成距离数据;例如,来自两个物种的两个基因之间的距离值(D)可以简单地用序列的最优比对来确定,计算匹配的核苷酸数目(m),将它除以总的位点数目(t):D=m/t许多生物学家用“每100个核苷酸改变数”来归一化距离值。非加权组平均法(UPGMA)4.4.1非加权组平均法(UPGMA)

非加权组平均法

(UPGMA)一般来说,UPGMA方法需要建立一个距离矩阵。步骤:构建距离矩阵聚类——选择最小距离更新距离矩阵再聚类如此反复 数目ABCBdABCdACdBCDdADdBDdCD距离变换法除UPGMA法外,其他的一些基于距离矩阵的方法考虑了不同的家系有不同的进化速率,其中最简单的最早的算法是距离变换法。这种方法充分利用了外群或外部参考物种——先于其他所有被考虑的物种[内群或内部物种]

从它们的共同祖先中分化出来的那些物种。UPGMA距离矩阵系统发生树外部种群距离变换距离变换假定D为外部参考物种,变换式如下:d’ij=(dij-diD-djD)/2+dDd’ij是物种i和j之间变换后的距离,dD是外部参考物种与全体内部物种之间的平均距离。dD=ΣdiD/(n-1)距离变化法的优势体现在那些很简单却容易被忽略的方面内部物种只是在分化发生后进化分离出来的,所以它们积累的替换数目一定是从那以后才有了差异外部参考物种为比较它们替换速率提供了客观参考的框架---1近邻关系法近邻关系法是由UPGMA法演变出的另一种常用的方法,强调配对物种,由此构造一棵分支长度总和最小的树(针对4个物种,无根树)。近邻:任意一棵无根树中,仅被一个内部节点分隔的一对物种称为近邻。DABCabcde四个物种(A,B,C,D)之间进化关系的通用系统发生树上图中的系统发生树的拓扑结构给出了一些近邻间有用的代数关系,由于树是正确的且可加和,则下面的等式成立:

dAC+dBD=

dAD+dBC=

a+b+c+d+2e=dAB+

dCD+

2e下面的不等式也是成立的(四点条件):

a+b+c+d=dAB+

dCD

dAC+dBD

=

a+b+c+d+2ea+b+c+d=dAB+

dCD

dAD+dBC

=a+b+c+d+2e考虑4个物种间所有可能物种对的排列(3对),然后确定哪一个满足四点不等式。四点不等式的一个重要假设是,系统发生树的分支长度是可加的。由于它对不符合假设的情况不敏感,所以不可加的数据集会导致这种算法产生错误拓扑结构的树邻近归并法邻近归并法是对上面的方法做了一些改动。这类算法首先是由一棵星状树开始,不管数目多少,所有的物种都从一个中心节点出发,然后通过最小化树的分支长度和,相继找到近邻。计算分支长度和公式:

1987年N.Saitou和M.Nei提出

树的1和2的位置可以使其中任何一对物种, N是距离矩阵中物种的数目

k是引入外部参考物种, dij是物种i和j之间的距离;

最大似然法最大似然法是另外一类完全基于统计的系统发生树重建方法的代表。该法在每组序列比对中考虑了每个核苷酸替换的概率。例如,在第3章中我们已经知道,转换出现的概率大约是颠换的3倍。在一个三序列的比对中,发现其中有一列为一个C、一个T和一个G,有理由认为,C和T所在的序列之间的关系有可能更接近。多重序列比对由于相似序列比对比较容易,而且置信度较大,在进行多重序列比对的时候应考虑被研究序列的分化顺序。如果序列的系统发生关系在比对之前是已知的,那么多重序列比对时将序列逐条加入,关系近的序列先加入。例如:一些流行的多重序列比对算法的常用策略是:⑴对于被研究的序列,产生所有可能的两两序列比对的距离矩阵;⑵用一种基于统计的方法,如UPGMA,构造一棵初始的树;⑶依据推断出的树,按照序列之间的关系重新比对;⑷从新的多重序列比对得到的两两距离构造新的树;⑸如果新的树和前面的不一样,则重复上过程。比对系统发生树相同的树?初始比对初始系统发生树N结束第五章基于特征的系统发生分析分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析;(2)系统发生树的构造;(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据。

数据系统发生树检验生物体信息位点简约法树的置信度简约法简约法的概念是所有基于特征的系统发生树重建方法的核心在生物学中,描述按照进化途径中突变事件最少的标准来优先选择一个进化途径的过程。两个简单假设:(1)突变是罕见事件;(2)一个模型引发了越不合理的事件,这个模型就越不可能是正确的。

因此,突变最少的进化关系就越有可能是物种之间真实的进化关系。信息位点和非信息位点根据信息的信息内容可以两类:信息位点

(informative):含有信息的位点 信息位点就是指能由位点产生的突变数目把一棵树与其它树区分开来的位点;非信息位点

(uninformative):不含有信息的位点不变位点

(invariant):属于非信息位点,比较的所有序列都有同样的核苷酸。即每一棵描述所有序列间进化关系的树都有相同的突变数目(0)。信息位点的共同特征——识别:

(1)至少有两种不同的核苷酸,并且 (2)这些核苷酸至少出现两次。无权简约法最简约树:考虑每个信息位点所有可能的树,分别给每棵树进行打分,统计每个位点的核苷酸最小替换数目。所有简约信息位点最小核苷酸替换数的总和最小的树记为最简约树。信息位点1信息位点2信息位点3信息位点4信息位点5信息位点6…信息位点N总和树15158346…1099树2932687…5134…………………………树N1266928…81874条序列比对的例子可能是最简单的例子:在只包含4条序列的分析中,每个信息位点只能支持

3棵可能的树中的1棵,含有最多信息位点的树就是最简约树。信息位点1信息位点2信息位点3信息位点4信息位点5信息位点6…信息位点N总和树1√XXXXX…X99树2X√XX√X…√34树3XX√XX√…X87最小替换数推断(祖先序列推断)T512346789GGAAGA(GA)(GAT)(a)A123456789GGTAGA(GT)

(GTA)(b)123456789GTGAAGGA(GA)(c)计算祖先核苷酸位置的算法:如果一个内部节点的两个直接后代节点上的核苷酸的交集非空,那么这个节点的最可能的候选核苷酸集就是这个交集;否则为它的两个后代节点上的核苷酸集的并集。加权简约法赋值的必要性:“突变是罕见事件”将所有突变看成是等价的,但之前的学习已经告诉我们

插入和删除比替换可能性小;

长插入和长删除比短插入和短删除少见;

转换概率大于颠换;

功能相关的突变比无关的突变发生的概率小 ……因此,我们给各种突变赋予相对概率值,在简约算法中可将这些值转化为权值。推断出的祖先序列简约法最值得注意的副产品是分析过程中产生的推断出的祖先序列,即使这些祖先可能在数亿年前就已经灭绝。哪怕图5.1中序列1和序列2的共同祖先可能在数亿年以前就已经灭绝,简约法也能够相当准确地推断出其序列第5个位置上的核苷酸是‘G’对于单个核苷酸,这可能是微不足道的,但是对于整个基因或基因组来说,它对了解进化过程的作用是不可替代的推断出的树中的内部分支的信息位点称作共源性状(synapomorphies,几个物种共有的遗传状态)。其他信息位点称作同形性状(homoplasies,),它是通过趋同进化、平行进化和逆转进化,由物种独立发展出来的特征,而不是从共同祖先遗传得到的。快速搜索策略即使信息位点的数目较少,用未改进的简约法对较多序列的比对进行手工计算也是不现实。分析10条序列需要考虑200万棵树。由于数据集十分庞大,计算困难,因此研究出一些改进的算法,不用考虑所有可能的树就能够方便可靠地确定最简约树。分支约束法启发式搜索分支约束法分支约束法(BranchandBoundMethod)Hardy和Penny于1982年提出。Branch——分支Bound——边界、约束步骤:⑴为最简约树的长度确定一个上限

L。

L的值可以是随机选择的任何一棵描述被研究物种之间关系的树的长度。但是如果用近似最简约的树(例如UPGMA产生的树)来建立上限更有效。⑵树的生长过程,即在描述部分序列之间关系的树中每次增加一个分支。这个方法的原理是:由数据子集得到的任何一棵树,如果它的替换数大于L,那么当剩下的序列加入后,总的分支长度必定变得更大,那么原先的长度为L的树为最简约树。换而言之,最简约树不可能是包含上述特定分支模式的树如果在分析过程中,如果发现比初始建立的上限为L的树替换数更少的树,那么L的值将随之修正,这样余下的数据集的分析将更为有效。启发式搜索对大于20条序列的多序列进行比对必须采用近似的更为有效的算法。它并不一定总能找到最简约的树。启发式(heuristic)方法的假设:各个可能的树并不总是相互独立的。最简约数和次简约数拓扑结构相似,因此首先构建一棵初始树,从它开始寻找更短的树。因此启发式搜索通过子树分支交换,把它们嫁接到该步分析中找到的最好的那棵树的其他位置上,从而产生一棵拓扑结构和初始树相似的树。同分支约束法一样,如果初始树很接近于最简约树(例如UPGMA产生的树),启发式搜索会更有效。大量序列比对的可能的无根树的数目是一个天文数字,这种比对深度对计算造成了很大困难,把多个序列比对分成几个较少序列的比对可以较好的解决这一问题。例如:同源哺乳动物序列灵长类序列啮齿类序列部分偶蹄、兔类、灵长、啮齿探知树中灵长类所在树干的末段之间的关系确定树中啮齿类所在树干的末段之间的关系检验更早的分支、更具体的灵长类树干和啮齿类树干的最后位置一致树简约法产生多棵等价的简约数是很常见的。此时最简单的方法是用一个一致树(consensustree)作为代表来概括所有等价的简约树。方法如下:(1)在所有树中都一致的分支点在一致树中表示成二叉分支点。(2)不一致的分支

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论