《生物信息学》学习报告.doc_第1页
《生物信息学》学习报告.doc_第2页
《生物信息学》学习报告.doc_第3页
《生物信息学》学习报告.doc_第4页
《生物信息学》学习报告.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实 验 报 告题 目 基于最大权值路径算法的 DNA 多序列比对方法学习报告学 院: 软件学院 系 计算机 专业班级: 软件工程 学生姓名: 何宇凡 学号: 406629515011 2016年 6月 1 日摘要在对基于最大权值路径算法的 DNA 多序列比对方法的分析学习中,文中提出针对生物序列分析中的多序列比对问题,当输入数据量比较大时,人们提出了很多启发式的算法来改善计算速度和比对结果。提出了用于进行全局DNA 多序列比对的一种方法:MWPAlign(maximum weighted pathalignment)。该算法把序列信息用 de Bruijn 图的形式表示,并将输入序列的信息记录在图的边上,这样,就将求调和序列的问题转化为求图的最大权值路径问题,使多序列比对问题的时间复杂度降低到几乎线性。基础知识多序列比对是生物信息学中挑战性的问题之一,并在序列装配、序列注释、基因和蛋白质的结构和功能预测以及系统发育和进化分析等方面应用广泛。它是SPS(sum-of-pairs scoring)意义下的 NP 完全问题。现阶段常用的比对方法分类:精确比对方法、渐进比对方法、迭代比对方法、基于图论的比对方法。具体介绍如下:精确比对方法精确比对方法完全基于动态规划算法,最为经典的是多维 Needlman-Wunsch 算法,但其可行的计算维数为 3。渐进比对方法迭代地利用两序列动态规划算法,先由两条序列的比对开始,逐渐添加新序列,直到所有序列都加入为止。但是,不同的添加顺序会产生不同的比对结果,所以,确定合适的比对顺序是渐进比对方法的一个关键问题。而两个序列越相似,人们对它们的比对就越有信心,因此,整个序列的比对应该从最相似的两个序列开始,由近至远逐步完成。迭代比对方法基于一个能产生比对的算法,并通过一系列的迭代方式改进多序列比对,直到比对结果不再改善为止。基于这种思想的方法很多,例如模拟退火、遗传算法、隐马尔可夫模型等。其中,最有影响的多序列比对软件包 SAGA(sequence alignment by genetic algorithm)基于遗传算法构建,共设计了 22 种不同的遗传算子,采用动态调度的策略控制 22 种遗传算子的使用。基于图论的比对方法一种以有向无环图(directed acyclic graph,简称 DAG)的表示方式取代行列表示的全新多序列比对方法。上述方法各有其不同的优点,但它们中的大多数对于大量输入序列,其时空复杂度依然是实际应用的一个瓶颈,至少都O(N2L2)其中 N 是序列条数,L 是序列平均长度。针对这个问题,本文提出了一种基于图模型的新方法,将 de Bruijn graph 方法应用到 DNA 全局多序列比对中,使多序列比对的时空复杂度降低到线性 O(NL)。基于最大权值路径算法的 DNA 多序列比对方法本算法用 de Bruijn graph19的形式表示输入序列,将输入序列的信息记录在图的边上,定义边的权值为经过该边的序列的条数,则边的权值越大,说明此边越有可能代表输入序列的保守区域。将图中最大权值的边连接起来的最大权值路径,正好对应输入序列中保守区域的归并,也就是所求调和序列对应的路径。设想所有输入序列都是从一个祖先序列进化而来,我们要找的就是这个祖先序列。此过程不需要进行多序列比对,并且使寻找调和序列问题的时间复杂度大为降低,几乎是线性的。最后,利用得到的调和序列和每条输入序列进行两两比对得到比对结果。我们已经使用模拟数据对本算法进行了测试,并且和现有方法进行了比较,结果表明:MWPAlign(maximum weighted path alignment)是可行的 DNA 多序列比对方法,其时间复杂度优于现有的方法,并且在序列变异率较低时,比对结果优于 CLUSTALW,T-Coffee 和 HMMT(hidden Markov model training)。问题描述多序列比对的目标是使得参与比对的序列中有尽可能多的列具有相同的字符,即,使得相同残基的位点位于同一列,这样以便于发现不同的序列之间的相似部分,从而推断它们在结构和功能上的相似关系,主要用于分子进化关系,预测蛋白质1 的二级结构和三级结构、估计蛋白质折叠类型的总数,基因组序列分析等。假设一条长度为 m 的生物序列是由 m 个字符组成的字符串,字符串中的字符取自于一个有限的字母表,对于DNA序列,包含 A、T、C、G 四个字母,分别代表 4 种不同的核苷酸,将其统称为碱基。对于蛋白质序列,包含 20 个不同的字母,分别代表 20 种不同的氨基酸,将其统称为残基。给定 N 条序列组成的序列组 S=(s1,s2,。,sN),其中:,为第 i 条序列的长度,则关于 S 的一个多序列比对可定义为一个矩阵。该矩阵有如下特性:1)2) 如果删除空位“”,则 的每一行 与对应序列 相同;3) S中不存在只由空位“”组成的列。多序列比对结果的评判标准目标函数用来评判序列比对结果的优劣。在多序列比对中,最常用的目标函数是 Sum-of-Pairs(SP)20。根据SP 目标函数,在比对结果的每一列中,将每对碱基给定一个分值 (例如:, 和。其中:“”代表空位:x 和 y 代表两个不同的碱基),然后将这些分值 累加起来,得到每列的分值,最后将每列的分值累加,即可得到 SP-Score。假定比对结果为 S=( sij ),1iN,1jL,则SP-Score 计算公式如下:如果输入数据是标准比对库(例如 BALIBASE(benchmark alignment database)中的序列,即有一个标准的比对结果,我们就可以计算一个相对的 SP-Score,定义为 SPS。假定对于标准库的输入序列,标准库中比对结果为S*,某方法比对结果为 S,则 SPS 定义如下:SPS=SP-Score(S)/SP-Score(S*)如果没有标准比对库,SPS 定义如下:SPS=SP-Score(S)/(LN(N1)/2)显然,SPS 值反映了碱基对准确对齐的比率。为了反映所有序列准确对齐的比率,通常使用 CS(columnscore)值来计算。CS 值计算策略为:如果一列上的所有碱基都相等,则 ci=1;否则 ci=0。同样,对于比对结果 S,CS值计算公式为基本上,SPS 值和 CS 值越高,说明比对结果越准确,越能反映序列的生物特性。在下面的实验中,将采用 SPS和 CS 这两个值来评估本算法的比对结果。算法描述MWPAlign 算法解决多序列比对问题的主要思想是:先求调和序列,然后用调和序列和每条输入序列进行两两比对,得到最终比对结果。所得调和序列是输入序列中保守区域的拼接,通过得到的调和序列和每条输入序列的两两比对,就很容易分辨输入序列中保守的碱基和变异的碱基,从而构造多序列比对结果。总结本文提出了一种新的算法 MWPAlign,用图结构解决 DNA 多序列比对问题,其最大的特色有两点: 不需要进行多序列比对就可以得到包含了所有输入序列中保守区域的调和序列; 对于大量数据有较好的比对结果和较优的时间复杂度。此算法相对于其他方法可以明显降低时间复杂度,并且在序列变异率较低时取得了很好的比对结果。但是,此算法也有一些不足之处有待改进:当序列之间变异率较大时,比对结果较差;并且,算法本。参考文献1 Batzoglou S. The many faces of sequence alignment. Briefings in Bioinformatics, 2005,6(1):622.2 Needlman SB, Wunsch CD. A general method application to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology, 1970,48(3):443453.3 Thompson JD, Higgins DG, Gibson TJ. CLUSTAL W. Improving the sensitivity of progressive multiple sequence alignmentthrough sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Research, 1994,22(22): 46734680.4 Notredame C, Higgins DG, Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论