![两序列比对算法_第1页](http://file4.renrendoc.com/view/9b4e29ba9e14702a1f2b1e775dceefe1/9b4e29ba9e14702a1f2b1e775dceefe11.gif)
![两序列比对算法_第2页](http://file4.renrendoc.com/view/9b4e29ba9e14702a1f2b1e775dceefe1/9b4e29ba9e14702a1f2b1e775dceefe12.gif)
![两序列比对算法_第3页](http://file4.renrendoc.com/view/9b4e29ba9e14702a1f2b1e775dceefe1/9b4e29ba9e14702a1f2b1e775dceefe13.gif)
![两序列比对算法_第4页](http://file4.renrendoc.com/view/9b4e29ba9e14702a1f2b1e775dceefe1/9b4e29ba9e14702a1f2b1e775dceefe14.gif)
![两序列比对算法_第5页](http://file4.renrendoc.com/view/9b4e29ba9e14702a1f2b1e775dceefe1/9b4e29ba9e14702a1f2b1e775dceefe15.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
两序列比对算法摘要:序列比对是生物信息学讨论的一个基本方法,对于发觉生物序列中的功能、结构和进化信息具有重要的意义。两序列比对中,典型的全局比对算法是Needleman一Wunsch算法;局部比对算法的基础是Smitll—Waterman算法,本文对典型的双序列比对算法进行描述。关键词:生物信息学;两序列比对;算法引言:为了满意基因组中获得更多更有价值的信息,生物信息学快速进展起来,生物信息学是一门多门科学交叉的学科,将数学、计算机科学应用于生物大分子信息的猎取、加工、存储、分类、检索和分析等,以达到阐明和理解大量数据所蕴含的生物学意义的目的。通过对DNA和蛋白质序列进行相像性比较,指明序列间的保守区域和不同之处,为进一步讨论它们在结构、功能以及进化上的联系供应了重要的参考依据。而序列比对就是运用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基数,比对的结果反映了算法在多大程度上反映了序列之间的相像性关系以及它们的生物学特征。双序列比对算法双序列比对分为全局比对和局部比对,全局比对是考察两个序列之间的全局相像性,局部比对贝此较序列片段之间的相像性。Needleman—Wunsch算法是典型的全局比对算法,适用于全局水平上相像性程度较高的两个序列;Smitll—Waterman算法适用于查找局部相像序列对,该算法是目前被使用最广泛的序列相像性比较算法之一,由所熟识的Needleman—Wunsch算法演化而来。Needleman-Wunsch算法使用迭代方法计算出两个序列的相像分值,存于一个得分矩阵中,然后依据这个得分矩阵,通过动态规划的方法回溯查找最优的比对序列。具有很高的灵敏度使用二维表格,一个序列沿顶部绽开,一个序列沿左侧绽开。而且也能通过以下三个途径到达每个单元格:1.来自上面的单元格,代表将左侧的字符与空格比对。2.来自左侧的单元格,代表将上面的字符与空格比对。3.来自左上侧的单元格,代表与左侧和上面的字符比对(可能匹配也可能不匹配\该单元格的值来自于一下3个中的最大值:(1)上方的值-2(2)左边的值-2(3)假如该单元格所在的行于所在的列对应的字符相等,则为左上值加1,否则为左上值-1。SmitH—Waterman算法Smitll—Waterman算法主要分两步,计算得分矩阵和查找最佳相像片段对。对于两个序列S和T,令/S/和/t/分别为序列S和T的长度,S[i]和T[j](其中正整数ij满意0<3/S/,0<j小于等于/T/)都属于某个字符集。,对。中的任何元素和空符号,他们两两之间都有一个记分值,用记分函数6(x,y)表示。F(i,j)表示序列S的前缀S⑴S[2]……S[i-l]S[i]和序列T[1]T[2]……T[j-l]T[j]"的前缀之间的最佳相像性比较的得分。那么就有以下公式:Ff,;)=max{F£-1,;-1)+(r6|/|,7]/|),F£-1,j)+(r3j),F£,;-!)+(r(,-),())其中:/0,())=F£,())=F0,y)=0(iMi|,7]/|)=2,当S|i|=7l/|(r6]小71/|)二一1,当5“,71/|(r(",,)=(『£,一)二2通过公式,可得到得分矩阵,得到得分矩阵以后,用动态规划回溯的方法找到局部最大相像片段对。先找到得分矩阵中最大的元素,然后依据该元素原计算路径一步一步往前回溯,直到回溯到"时停止。从得到的回溯路径可以得到其正向路径,就是两序列的最佳相像片段对。到目前为止,两序列比对问题已基本解决,标准方法是采纳可以保证得到一个数学优化的比对结果的动态规划比对算法。两序列的动态规划比对算法是多序列比对的重要理论基础。两序列比对的一个主要目的是进行数据库相像性搜寻,FASTA和BLAST是最常用的数据库搜寻程序,均采纳局域比对方法。FASTA:第一个广泛使用的数据库相像性搜寻程序,其基本思想是:一个能够揭示出真实的序列关系的比对至少包含一个两个序列都拥有的字(由连续字符组成的子序列),把查询序列中的全部字编成索引,然后在数据库中查询这些索引字。FASTA程序并不讨论每一个选中的字,而是查找包含若干个相邻的选中片段,将这些片段组合起来予以评价;然后,那些最有可能的匹配序列将会通过局域比对而被进一步评分,并对每一个检索到的比对供应一个统计学显著性的评估。算法过程简洁描述为:1依据点阵图规律,从比对的全部结构中计算出最佳的对角线。2使用字符方法查找查询字符和测试序列之间的精确匹配。3当全部的对角线发觉之后,通过增加空位来连接对角线。4在最佳对角线区域中计算出比对结果。BLAST:是目前使用最广泛的数据库搜寻算法,其基本思想是:通过产生数量较少,但质量更好的匹配片段来提高搜寻速度,并把数据库搜寻建立在严格的统计学基础之上。其算法描述如下:首先是在数据库中找出与查询序列相同的匹配字串(hit),且这一局部字串中不含空位;一个匹配字串选中后,以此作为内核向两端延长,以找出尽可能长的相像序列片段,也即高分片段对HSP(highsequencepairs);设定一个统计显著性阀值E,统计显著性大于E的HSP将被舍弃,剩下的HSP即为高质量的匹配片段对,由此在数据库中搜寻出具有肯定可信度的同源序列。算法过程简洁描述如下:1先将多个序列两两比对构建距离矩阵,反映序列之间两两关系;2然后依据距离矩阵计算产生系统进化指导树,3对关系亲密的序列进行加权;然后从最紧密的两条序列开头,逐步引入接近的序列并不断重新构建比对,直到全部序列都被加入为止。现状与前景展望:序列比对是生物信息学的一个基础而又重要的问题,也是生物信息学中的一大难题。虽然人们已提出大量的比对方法,但是对于分歧较大的序列,比对的精确率以及算法的时间简单度都有待于提高。目前,序列比对中存在的主要问题在于:如何给出一个合理的优化的相像性度量准则以及如何提高分歧多序列比对的精确率。序列比对问题将来的进展方向是基因组比较。参考文献lWison.Ondistributionofthepotentialdiferencesproduetedbytheheartbeatwithinthebodyandatitssurface[J].Ain.HeartJ,1930;5(3):599-6022MaizelJV,FitchWM.Testingehtcovalonhypothesisofwvolution[J].Mol.Biol.Evol.1995(12):503—513.3TKAttwod,DJParry-Smith著.罗静初等译.生物信息学概论【M].北京:北京高校出版社,2ool:141-1454蒋文蓉,王少华,赵文耘.计算机帮助考试系统数据结构的开发f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 短期挖机租赁合同书
- 校企合作艺术培训合同书范本
- 上证所固定收益证券综合电子平台交易员培训课件
- 可再生能源项目开发融资合同
- 行业劳动合同劳动保
- 全款仓储抵押借款合同模板
- 教育机构合作培训合同
- 《CB的设计与制作》课件
- 户外广告位租赁合同官方范本
- 江西省万载县高中生物 第6章 生态环境的保护 6.1 人口增长对生态环境的影响说课稿 新人教版必修3
- 《经典常谈》课件
- 视频会议室改造方案
- 2024年新人教版七年级上册历史全册课件 第1课 远古时期的人类活动
- 四川省2024年中考数学试卷十七套合卷【附答案】
- 北师大版二年级数学下册全册10套试卷(附答案)
- 数字出版概论 课件 第六章 数字内容加工、管理技术
- 【中考真题】广东省2024年中考语文真题试卷
- 糖尿病并发症的早期筛查
- 2025年湖南省长沙市中考数学模拟试卷(附答案解析)
- 五级人工智能训练师(初级)职业技能等级认定考试题库(含答案)
- 2022年内蒙古呼和浩特市中考化学真题(解析版)
评论
0/150
提交评论