




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分子进化和系统发育第1页,共91页。Darwin, Charles(1809-1882) The Origin of Species(1859)共同祖先第2页,共91页。化石证据最理想的方法经典的进化研究方法然而零散、不完整第3页,共91页。形态学证据确定大致的进化框架经典的进化研究方法第4页,共91页。分子进化研究分子进化理论由莱纳斯.鲍林(Linus Pauling)于 1964年提出。该理论基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。ACTCGACTTACTCGGCTTACTTGGCTTGCTTGGCTTGCTTGTCTTGATTGTCTCCATTGTCACCACTATCA
2、CCACTATGAC第5页,共91页。系统发育分析:研究物种进化和系统分类的一种方法,常用一种类似树状分支的图形来概括各物种/类群生物之间的亲缘关系,这种树状分支的图形称为系统发育树。系统发育(phylogeny)相关概念第6页,共91页。Tree of Life:重建所有生物的进化历史并以系统树的形式加以描述。第7页,共91页。分子进化研究系统进化树16S rDNA第8页,共91页。分子进化研究物种分类第9页,共91页。分子进化研究人类起源(Out of Africa)线粒体基因组(16,587bp)人类迁移的路线当前人类线粒体基因组最大的差异存在于非洲和非非洲人之间。第10页,共91页。分
3、子钟理论在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系。第11页,共91页。从一个分歧数据可以推测其他序 列 分 歧 度分歧时间xy分子钟理论第12页,共91页。系统发育分析的基本步骤第13页,共91页。序列有指定的来源并且正确无误。序列是同源的,即所有的序列都起源于同一祖先序列(ortholog)。样本序列之间的差异包含了足以解决感兴趣的问题的信息位点。样本序列随机进化。序列中的每一个位点的进化都是独立的。选择生物学数据时的注意事项第14页,共91页。Orthol
4、og (直系同源基因):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。Paralog (旁系同源基因):两个基因在同一物种中,通过至少一次基因复制(重复)的事件而产生,常常具有不同的功能。第15页,共91页。paralogsorthologs直系同源基因 vs. 旁系同源基因第16页,共91页。祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点 ABCDE代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等系统发育树的基本特征第17页,共91页。通过外类群来确定树根根bacteria o
5、utgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea有根树外类群无根树,有根树,外类群通过外类群来确定树根有根树外类群通过外类群来确定树根有根树外类群通过外类群来确定树根有根树eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea无根树第18页,共91页。树根确定最常用的确定树根的方法是使用一个或多个无可争议的同源物种作为外群(outgroup),这个外群要足够近,以提供足够的信息,但又不能太近以至于和树中的种类相混。外群(outgroup)第19页,共91页
6、。abcabc不同数目的分类群可能的有根树和无根树考虑3个分类群时,共有3种可能的有根树,1种无根树acbcba第20页,共91页。abcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考虑4个分类群时,共有15种可能的有根树第21页,共91页。abcdacbdadbc考虑4个分类群时,共有3种可能的无根树第22页,共91页。无根树和有根树:潜在的拓扑结构数目无根树有根树分类群数树分枝/树树分枝/树31334435156515710586105994510102,027,0251734,459,42518308.69 10365
7、74.95 103858N(2N - 5)!2N - 3 (N - 3)!2N - 3(2N - 3)!2N - 2 (N - 2)!2N - 2第23页,共91页。真实树(true tree)物种分化事件的顺序在历史上是唯一的,所以在用给定物种建立的所有可能的树中只有一种能代表真实的进化历史,这样一种系统树称为真实树。推测树(inferred tree)用某一组数据和某种构树法得到的树称推测树,推测树可能与真实树等同也可能与真实树不同。分类数目增大,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解第24页,共91页。DNA序列的替换模型第25页,共91页。祖先基因XYt2t时间XY
8、第26页,共91页。AAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTTAGCCCATAGACTTAGCACAAAGGGCATAGGGCATTAGCCCTAGCACTTAAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTAGCGCTTAGCACAATAGACTTTAGCCCAAGGGCATDNA 序列进化演变321当前百万年第27页,共91页。DNA序列间的差异DNA序列间核苷酸的差异越少,分化时间越短;同一祖先序列衍生的两条后裔序列间分化的简单测度就是两条后裔序列不同核苷
9、酸位点的比例。第28页,共91页。对于两条长度为N的序列,差异位点数为n,则两条DNA序列的替换率P(也可以称两条序列之间的距离或差异):DNA序列的替换率估计P=n/N第29页,共91页。14个碱基长度,其中有3个位点发生了改变,那么这两条序列的替换率(距离) P=3/14DNA序列的替换率估计大多数替换估计会显著低估真正替换的数目。如在序列的同一个位点可能发生不止一次的变化。如在第7个位置观测到G,而在另一条序列为A, 有多种可能 G AG C A第30页,共91页。DNA序列替换模式第31页,共91页。必须准确和无偏见地估计替换率;数学模型可以考虑回复和平行突变等情况,尤其是在P值较大时
10、。DNA序列的替换模型替换模型的必要性:第32页,共91页。Jukes - Cantor 单参数模型最简单的DNA序列进化模型:假设每个核苷酸有同样的机会突变为任一其它核苷酸, 突变几率为;那么每一个核苷酸总的替换几率为3。ATCGK=真正的替换率P=观测到的替换率可以概括出大部分突变的发生情况第33页,共91页。Jukes-Cantor单参数模型修正替换率为: K = (- ) ln (1 *0.21) = 0.253443如观测到的替换率 7/14 =0.5, 那么单参数模型修正后的替换率更为可信: K = (- ) ln (1 *0.5) = 0.823443Jukes - Cantor
11、 单参数模型观测到的替换率3/14 = 0.21第34页,共91页。Kimura双参数模型转换: 嘌呤 嘌呤;嘧啶 嘧啶颠换: 嘌呤 嘧啶;嘧啶 嘌呤两类核苷酸: 嘌呤(A,G);嘧啶:(C,T和U)同类型核苷酸间相互替换和不同类型核苷间互替换的几率不同。这促使了Kiumra两参数模型的产生。转换发生的几率是颠换的三倍。第35页,共91页。Kimura双参数模型ATCG转换发生的几率是颠换发生的几率是K=真正的替换率P=观测到的转换率Q=观测到的颠换率第36页,共91页。Kimura双参数模型修正替换率为: K = ln ( ) +12 1 0 1-2*0.07-0.14观测到的替换率3/14
12、 = 0.21观测到的转换率1/14 = 0.07观测到的颠换率2/14 = 0.12Kimura双参数模型14 1 0 1-2*0.14ln ( )=0.164+0.082=0.246K = (- ) ln (1 *0.21) = 0.2463443单参数模型修正:第37页,共91页。单参数和双参数模型的比较序列分化(序列差异)较小时, 两个模型的结果基本相同;序列分化(序列差异)较大时,双参数模型更为准确, 特别是转换率明显高于颠换率。第38页,共91页。氨基酸序列的替换模型第39页,共91页。氨基酸序列的进化演变氨基酸序列较核苷酸序列更为保守,对年代跨度大的进化分析大多采用氨基酸序列数据
13、;对于编码蛋白质的基因序列对齐排列时可能需要借助氨基酸序列的校正;氨基酸置换模型比核苷酸置换模型简单。为什么研究氨基酸?第40页,共91页。氨基酸序列替换率估计两条氨基酸序列的替换率(P距离)为:两条序列间差异氨基酸的数目(n)占氨基酸序列长度(N)的比例:P距离P=n/N进化时间越长,P值越大第41页,共91页。氨基酸序列替换率估计不同物种间血红蛋白链氨基酸差异数及比例不同物种血红蛋白链氨基酸序列的对齐(140个aa的前60个)第42页,共91页。进化时间氨基酸序列替换率期望值 (实际值)观测值P不是很严格地与时间成比例进化时间较短时,回复突变较少,两者大致成线性关系;当进化时间较大时,回复
14、突变增多,二者成非线性关系。第43页,共91页。泊松校正(Poisson Correction)泊松校正d=-ln(1-p),即泊松距离。TIYAPPPWSTIYTPPPWSTIYGPPPWSTIYAPPPWS例如该位点的丙氨酸虽然发生了3次变化,但我们并没有观察到这些变化由于氨基酸存在回复突变,大多数替换估计会显著低估真正替换率。第44页,共91页。泊松校正0.129 0.129 0.206 0.573 0.6660.129 0.232 0.637 0.6520.197 0.598 0.6240.573 0.7070.753泊松校正距离P距离第45页,共91页。P-距离与泊松距离比较进化时间
15、氨基酸序列替换率期望值 (实际值)P距离(观测值)泊松距离第46页,共91页。1. 最大简约法 (maximum parsimony, MP)适用序列有很高相似性2. 距离法 (distance)适用序列有较高相似性3. 最大似然法 (maximum likelihood, ML)可用于任何相关序列集合计算速度:距离法 最大简约法 最大似然法系统发育树重建基本方法第47页,共91页。1. 最大简约法根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数树的方法。理论基础为奥卡姆剃刀(Ockham)原则:计算所需替换数最小的那个拓扑结构,作为最优树。在分析的序列位点上没有回复突变
16、或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。第48页,共91页。优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设 (替代模型)缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树。第49页,共91页。最大简约法(Maximum Parsimony Method)以下3个序列:1. ACG2. ACA3. GGA它们如何从一个共同祖先(GGG)进化而来?ACGACAGGAGGGACGACGACAGGAGGGGGGACGACAGGAGGGGGA121312212最大简约法基本原则:计算一
17、个有最小化突变事件的进化路径,作为最优树。第50页,共91页。简约信息位点:位点上至少有两种不同的核苷酸或氨基酸,且每种至少出现两次。 不变位点:在所有分类群中相同核苷酸或氨基酸的位点。 不变位点不提供任何信息。信息位点 (informative site)第51页,共91页。哪一个树是正确的?第52页,共91页。信息位点第53页,共91页。第54页,共91页。第55页,共91页。第56页,共91页。Tree 1突变位点4Tree 2突变位点5Tree 3突变位点6用最大简约法构树, 选择最小变化的拓扑树第57页,共91页。Tree 1突变位点4MP tree最优结果为Tree 1Tree 2
18、突变位点5Tree 3突变位点6第58页,共91页。根据最大简约法构建的最优树第59页,共91页。2. 距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。再依据进化距离,分别依次将序列合并聚类,构建进化树。第60页,共91页。一种简单的距离矩阵距离数据(distance data) : 涉及成对基因、个体、群体或物种信息,常用距离矩阵描述,表示两个数据集之间的关系。 第61页,共91页。构树方法: UPGMA非加权分组平均法 (UPGMA, Unweighted Pair Group Method with Ar
19、ithmetic mean)最近分类群分类群聚类计算平均距离第62页,共91页。构树方法: UPGMA新的距离矩阵计算:如分类单元i和j,所形成的新的聚类群(ij),新聚类群到其他分类单元k的距离计算如下:其中ni,nj,(ni+nj)分别为分类单元i、j和(ij)类的元素个数。第63页,共91页。ABCDEB2C44D666E6664F888881)通过两两比较,获得一个距离矩阵 构树方法: UPGMAABECDF第64页,共91页。2) 找到距离矩阵中最小的距离,在这个例子中最小距离是A 和 BABCDEB2C44D666E6664F88888构树方法: UPGMA第65页,共91页。将
20、A 与 B 相连并给每一个分支赋予一半的距离。构树方法: UPGMAABECDF第66页,共91页。ABCDEB2C44D666E6664F888882) 将(AB) 作为一个单元考虑,根据聚类结果来重新计算距离d(AB),C=d(AC)/2+d(BC)/2=4d(AB),D=(dAD)/2+d(BD)/2=6d(AB),E=(dAE)/2+d(BE)/2=6d(AB),F=(dAF)/2+d(BF)/2=8构树方法: UPGMAABECDF第67页,共91页。ABCDEB2C44D666E6664F888882) (AB) 作为一个新的聚类单元,依次计算所有影响到的距离构树方法: UPGMA
21、ABCDEC4D66E664F8888第68页,共91页。ABCDEC4D66E664F88883) 找到下一个最小的距离(D与E)构树方法: UPGMA第69页,共91页。将 D 与 E 相连并给每一个分支赋予一半的距离。构树方法: UPGMAABECDF第70页,共91页。ABCDEC4D66E664F88883) 将(DE) 作为一个单元考虑,根据聚类结果来重新计算距离例如, (DE) 与 (AB)的距离等同于(dAD+dAE+dBD+dBE)/4=(6+6+6+6)/4=6构树方法: UPGMAECDFAB第71页,共91页。ABCDEC4D66E664F88883) 依次计算所有影响
22、到的距离构树方法: UPGMAABCDEC4DE66F888第72页,共91页。ABCDEC4DE66F8884) 继续找到下一个最小的距离(C与 (AB))构树方法: UPGMA第73页,共91页。将 C 与 (AB) 相连并给每一个分支赋予一半的距离。构树方法: UPGMADECFAB第74页,共91页。ABCDEC4DE66F8884) 将(AB)C) 作为一个单元考虑,根据聚类结果来重新计算距离例如, (AB)C) 和(DE)的距离等同于(dAD+dAE+dBD+dBE+dCD+dCE)/6=6构树方法: UPGMADECFAB第75页,共91页。ABCDEC4DE66F8884) (
23、AB)C) 作为一个新的聚类单元,依次计算所有影响到的距离构树方法: UPGMAABCDEDE6F88第76页,共91页。ABCDEDE6F885)继续找到下一个最小的距离在这个例子中 是(DE)和 (AB)C)之间的距离构树方法: UPGMA第77页,共91页。构树方法: UPGMADEFABC将 (DE)与 (AB)C) 相连并给每一个分支赋予一半的距离。第78页,共91页。ABCDEDE6F885)(AB)C)(DE) 作为一个新的聚类单元,根据聚类结果来重新计算距离构树方法: UPGMADEFABC第79页,共91页。ABCDEF86) 最后一步,生成UPGMA树构树方法: UPGMA
24、第80页,共91页。如进化速率在不同分类群间近似恒定,以至进化距离与分化时间之间存在近似线性关系,则可用该方法来构建系统树。UPGMA构树方法特点UPGMA 是一种构树的简单方法,应用范围:第81页,共91页。如变化速率在各分类群间不同,则UPGMA法可能会给出错误的拓扑结构。UPGMA构树方法特点真实树的拓扑结构UPGMA构建的错误拓扑结构第82页,共91页。邻位相连法(Neighbor Joining)邻位相连法:根据距离矩阵,在所有可能的拓扑结构中,选择分支长度和最小作为最优树。通过对整个树的长度进行最小化,从而对树的拓扑结构进行了限制。CDXYUVABEF(h)(i)(d)(g)(c)(f)(b)(e)(a)S:所有分支长度总和S=a+b+g+c+h+d+i+e+f最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新素养视角下高中数学高效课堂的构建
- 中学教育基础知到课后答案智慧树章节测试答案2025年春白城师范学院
- 三级人力资源管理师-《企业人力资源管理师(理论知识)》考前强化模拟卷1
- 高考物理课标版一轮复习考点规范练19动量动量定理动量守恒定律的理解
- 重庆市复旦中学2024-2025学年高一下学期开学考试生物试题(原卷版)
- 揭阳中式花园施工方案
- 湖南省衡阳县三中2017-2018学年高二上学期期中考试历史试卷
- 广东省惠州市惠东中学2017-2018学年高三5月热身综合练习生物(二)答案
- 浙江省宁波市2024-2025学年高三上学期期末模拟检测语文试题(原卷版+解析版)
- 河南省南阳市镇平县2024-2025学年七年级上学期期末语文试题(原卷版+解析版)
- GB/T 19923-2024城市污水再生利用工业用水水质
- 冷库使用安全知识培训
- 2023信息系统密码应用高风险判定指引
- 2023年12月全国大学外语等级考试考务工作手册
- 第三单元《 There is a cake on the table 》大单元教案 四年级英语下册(重大版)
- 普通高中语文课程标准课件
- 你是独一无二的自己主题班会课件
- 交通运输行业驾驶员违规处理规范培训
- 智联招聘测评的题库
- 华为企业数据架构、应用架构及技术架构设计方法
- 《空调工作原理》课件
评论
0/150
提交评论