版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章序列同源比较与系统发育学分析
1主要内容§5.1概述§5.2序列比对§5.3系统发育分析
2§5.1引言3一、序列比对的概念序列比对(align):是指通过将两个或多个核酸序列或蛋白质序列进行比较,找出其中相似的结构区域。两个序列的比对是指这两个序列中各个字符的一一对应关系,或字符的对比排列。4二、序列比对的生物学意义1通过比较未知序列与已知序列之间的同源性,往往可以很容易地预测未知序列的功能。(功能预测)2通过分析多个基因或蛋白质序列之间的同源性确定它们在进化上的关系。(确定进化关系)3通过多序列比对,帮助判断残基如何发挥作用以维持蛋白质或DNA序列的功能。同时,通过多序列比对可以获得重要残基周围的三级结构。(判断残基作用)4通过蛋白质多序列比对,也有助于蛋白结构的预测。
(蛋白质结构预测)5三、序列比对基本原理1记分矩阵(Scoringmatrix)DNA记分矩阵在进行序列比对过程中,有两方面的问题直接影响相似性分值:记分矩阵和空位罚分。6蛋白质记分矩阵PAM矩阵7BLOSUM6282空位罚分(gappenalty)空位罚分是为了补偿插入或缺失对序列相似性的影响。但由于没有合适的理论模型能很好地描述空位问题,因此空位罚分缺乏理论依据而更多的带有主观特点。空位罚分处理方法:1)对第一个空位罚分,如10-152)对空位的延伸罚分,如1-29搜索比对结果不同的比对程序所采用的记分矩阵和罚分规则不同,因而对同一组数据比对的结果也会有很大差异。10§5.2序列同源比较11序列比对类型1)双序列比对(pairsequencealignment)。2)序列对数据库的比对3)多序列比对(Multiple
sequencealignment)12一、双序列比对(pairsequencealignment)序列两两比对方面有两个著名的算法:Needleman-Wunsch算法,从全局角度计算两条序列之间的相似性,其中包括了所有短片段的比对序列——全局比对。Smith-Waterman算法,从局部出发获得两条比对序列的最大相似性的局部片段——局部比对。两种算法均可用于核酸序列和蛋白质序列。13常用比对软件:名称网址说明ALIGNhttp://genome.eerie.fr/fasta/align-query.html对用户所提交的两条序列进行优化比对,允许选择不同的记分矩阵,但中允许空位罚分。Alignhttp://www.mips.biochem.mpg.de/只允许对数据库中的已有记录进行两两比对,不接受用户所提交的序列。Bl2Seq/gorf/bl2.html允许对任意两条序列进行两两比对,具有Blast软件的所有功能。14NCBI的Bl2seq15比对参数16Blastn参数17Blastx
参数18二、序列对数据库的比对序列对库的比对就是数据库的搜索,也就是两两序列比对重复成千上万次。然而由于这种简单的重复分析非常耗时,所以需要一些近似的算法以提高效率。目前在单条序列对库搜索中使用最广泛的程序是Blast和Fasta。19三、多重序列比对(multiplesequencealignment)从公共数据库获得与新序列相关的一组序列之后,我们可以从这些序列获得哪些有用的信息呢?或者说如何开发这些相关序列?多序列比对找出相关位点发现保守区域,推测未知序列功能,根据同源性推断它们之间的进化关系。20蛋白质序列多重比对21反转录转座子的反转录酶序列片段黑色区域即表示保守区域22多序列比对主要软件:ClustalW/X,使用最广泛的多序列比对程序。BioEdit,是一个免费的,序列比对、编辑与分析程序。它集成了Blast和ClustalW两个程序。MultAlin,从两两比对开始的多序列比对程序。23ClustalW:是目前公认的最好的进行Multiplesequencealignment的程序之一Internet上的许多网站提供ClustalW分析软件分析序列的输入格式必须是FASTA(Pearson)格式>sequence1ATTGCAGTTCGCA……>sequence2ATAGCACATCGCA……目前EBI提供的版本是ClustalW224可进一步对排列好的序列进行修饰在EBI的ClustalW2分析网页(http://www.ebi.ac.uk/Tools/clustalw2/index.html)输入序列“ClustalWResults”网页显示多序列比对排列结果点击“ShowColors”用不同颜色的字母显示颜色修饰功能,突出相同或相似位点25添加序列多序列粘贴或文件上传26ClustalW比对结果之一27ClustalW比对结果之二(得分表)28ClustalW比对结果之三(序列比对彩色显示)29ClustalW比对结果之四(进化树-Guidetree)说明:虽然ClustalW/X自带了一个NJ/UPGMA的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建进化树。30本地运行ClastalXClustalX是基于Windows的本地运行的多序列比对程序,该程序很小。输入序列可以是以下6种格式之一:NBRF/PIR,EMBL/SWISS-PROT,Pearson/Fasta,GDE,Clustal,GCG/MSF。也可以是TXT文件(保存有Fasta
格式的序列)程序下载网址:http://www.ebi.ac.uk/Tools/clustalw2/31Clustalx窗口32点击File下拉菜单中Loadsequences选项,打开序列文件17-RNASE1.fasta.txt(该文件一定要与ClustalX.exe在同一目录下,格式可以是*.fasta
或*.txt)**路径必须是英文路径。33如果路径中含有中文,则会显示文件无法打开(Cann’topenfile)的信息.34序列文件打开后的界面35点击进行多序列比对保存比对结果,生成×.aln文件36比对结果‘*’‘:’和空格依次代表该点的序列一致性由高到低37§5.3
系统发育分析
38一、系统发育分析系统发育分析(Phylogeny):就是根据同源性状的分歧来评估物种或分子之间的进化关系。表示方法:常用分支图(即系统树或称进化树)来描述。进化论表明:任何物种之间都存在一定的亲缘关系,亲缘关系可以用进化分支树表示。在分支树上距离越远的物种,它们在进化中的亲缘关系也就越远。39系统树genealogicaltree,phylogenetictree,(也称进化树,演化树,谱系树)认为生物各种族的系统关系有如树状,可用图来表示其状态,此称为系统树。由海克尔(E.H.Haeckel)1872年提出。他制成了动物界和植物界全部的系统树,给予生物学以很大的推动。也有学者认为生物的系统关系不一定是树状的,把系统的图解(diagram)称作系统树也是不恰当的。但是,时至今日系统树仍广泛受到认可。两种观点:40(1)化石证据(最理想的方法:化石!——然而…零散、不完整)(Fossil)(2)比较形态学证据(Comparativemorphology)/比较生理学证据(Comparativephysiology)经典的进化研究方法系统学(Systematics)分类学(Taxonomy)三种研究方法41比较形态学和比较生理学:确定大致的进化框架。——然而,细节存在巨多的争议42(3)第三种方案:分子进化1964年,Linus
Pauling提出分子进化理论;DNA&RNA:4种碱基;蛋白质分子:20种氨基酸;发生在分子层面的进化过程:DNA,RNA和蛋白质分子;基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息;现代的进化研究方法43相比那些基于传统的解剖学或形态学字符的系统发育研究,分子系统发育所含的信息非常丰富。这是因为它们范围更广(例如,可以用蛋白质序列比较开花植物和哺乳动物,但不能用形态学字符来比较它们),可以选择的序列种类也很多(即多种字符),数据处理是一致且客观的。分子系统发育分析的优点44比起许多其它学科而言,用计算的方法进行系统发育分析很容易得到错误的结果,而且出错的危险几乎是不可避免的;其它学科一般都会有实验基础,而系统发育分析不太可能会拥有实验基础,至多也就是一些模拟实验或者病毒实验(Hillisetal.,1994);实际上,系统发育的发生过程都是已经完成的历史,只能去推断或者评估,而无法再现。分子系统发育分析的缺点45怎样的图才是系统树:1)系统树由节点、树叶和树枝构成。2)没有回路。46系统树分两类:有根树(rootedtree)无根树(unrootedtree)47有根树48无根树49系统树的构成要素5051关于“有根树与无根树”:1由于生物都存在共同的祖先,所以进化树应该有根的。但由序列数据产生的进化树既可以有根,也可以无根。2分析有根树和树枝的长度,可以了解不同的物种或基因是以什么方式和速率进化的。52在于找出分类单元中哪一分类单元是其他序列的共同祖先,或哪一对分类单元最早从共同祖先中分离出来。系统树分析的困难:系统树分析的目标:对于给定的分类单元数,有很多棵可能的系统树,但是只有一个是正确的,系统树分析的目标就是要寻找这棵正确的树。53二、系统发育分析基本步骤1分子序列或特征数据分析,产生距离或特征数据,为构建系统树提供依据2系统树的构建3系统树的评估54三、系统树构建方法1距离法(distancemethod)
是一种纯数学算法,该法首先将数据转变为距离数据。又包括平均距离法(UPGMA法)、NJ(Neighbor-Joining,邻接法)、ME法(MinimumEvolution,最小进化法)。
2最简约法(Maximumparsimony,MP)
寻找具有最短树长的树,即进化步数最少的树,应用最广泛的系统树构建方法。(主要用于近缘序列)3最大似然法(maximumlikelihood,ML)
基于基因频率的系统树。(对于远缘序列,一般用NJ或ML
)55建树方法选择56哪一种方法构建的系统树更可靠?1)相同的序列采用不同的方法可能产生不同的系统树,不同的方法具有不同的特点和适用度。对于一组序列最好采用不同的方法进行分析,如果不同的方法获得的结果相同或近似,则获得的系统树比较可靠;如果不同的方法获得的结果差异较大,则要作更深入的分析,判断哪一种结果更可靠。2)通常采用数值重复抽样(bootstrap)对构建的系统树进行验证。所谓重复抽样就是通过随机选择垂直列,从而获得不同的样本,根据不同的取样进行系统发育分析,比较生成的系统树结构的相似度,确定最佳树结构。57获得一组相关序列多序列比对结果最大简约法距离法分析数据对预测的支持度最大似然法相似度是否高?是否有清晰可辨的相似性?是是否否系统发育分析方法的选择58四、常用的系统树构建程序常用程序:59http://taxonomy.zoology.gla.ac.uk/rod/treeview.html进化树的显示软件:Treeview60MEGA4
(http:///)MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便。该软件是初学者的首选。基本步骤:1)多序列比对2)比对结果输出为.MEG文件3)根据.MEG文件数据绘制系统树。61一个关于序列分析及比较统计的工具包包含距离建树,MP等建
树法自动或手动进行序列比对;推断进化树;估算分子进化率,进行进化假设测验;联机进行数据库搜索;…62MEGA4可以识别fasta格式文件将17-RNASE1.fasta.txt重命名为17-RNASE1.fasta可利用Clustal
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44896-2024新闻出版知识服务知识体系建设与应用
- 2024年度不锈钢扶手定制设计与制造合同
- 2024年度绿化与清洁服务合同
- 2024年度企业销售团队劳动合同范本(2024版)
- 子夜课件教学
- 2024年度经销合同模板
- 2024年度艺术品买卖与展览合同协议
- 2024年度粮食仓储物流市场开发与合作合同
- 2024年度环保工程沉降观测合同
- 购车决策洞察报告之动力篇(2024版)-新动力诉求强劲 建议降低汽车消费税
- 郭小川·望星空
- 医疗器械培训试题及答案
- 【海信家居筹资问题与优化策略(开题报告文献综述)5700字】
- 学前教育专业生涯发展报告
- 高效执行力通用课件
- 公司货物采购招标文件(范本)
- 海洋生物资源开发与利用
- 自来水公司中层竞聘题库
- 嵌入式职业规划
- 不良品分析步骤
- 【曾国藩家庭教育思想对现代家庭教育的启示6900字(论文)】
评论
0/150
提交评论