【生物信息学二版】序列比对PPT课件_第1页
【生物信息学二版】序列比对PPT课件_第2页
【生物信息学二版】序列比对PPT课件_第3页
【生物信息学二版】序列比对PPT课件_第4页
【生物信息学二版】序列比对PPT课件_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学,第二章序列比较,南方医科大学珠海吉林大学李英,生物信息学,3,1节简介,第1节introduction,4,(1)同源,两个序列享有一种共同进化,对于这两个序列,他们不能说动员或其他来源的70%或80%的动员。同源,相似性和距离,5、同源是垂直同源和水平同源,垂直同源和水平同源。6,(2)相似性和距离,相似性和距离可分为相似性:匹配序列之间的相似性。距离:对应序列之间的差异程度。相似性可以用于全局匹配和局部匹配,但距离通常仅用于全局匹配。这是因为它反映了将一个序列转换为另一个序列所需的字符替换成本。7,2,相似性和距离的定量描述,相似性可以量化为两个序列的函数。也就是说,它可以有多

2、个值。值的大小取决于两个序列中相应位置的相同字符数。值越大,表示两个序列越相似。“编辑距离”(edit distance)可以定量定义为两个序列的函数,其值取决于两个序列中相应位置的差异字符数,或者值越小,表示两个序列越相似。8,无论在匹配,分数上使用什么计分函数,相似性都定义为总等效最大分数。对于k序列,如果对每列中的所有替换操作使用一个函数cost()进行计分,则多个序列之间的距离等于最小分数。9,11,3,算法实现比较,用计算机科学术语比较两个序列是查找两个序列的最长公共子序列(longest common subsequence,LCS),反映了两个序列的最高相似性。12,动态规划法示

3、意图,(a)使用动态规划法查找两个序列最长的公共部分。(b)创建动态计划表单。13,4,序列排序的作用,共同序列排序突变分析系统分析保守段分析基因和蛋白质功能分析,14,2节比较算法摘要,第2节Alignment Algorithms,15,(16,b .两个序列有一个公共子序列。17,c .两个序列反向匹配,18,d。两个序列有两个不连续的子序列。19,(2) DNA序列匹配的替换分数矩阵,相应的矩阵。20,核苷酸转换矩阵,21,(3)蛋白质序列匹配的替换分数矩阵,等效矩阵遗传密码矩阵(GCM)疏水矩阵(hydrophobic matrix) PAM矩阵BLOSUM矩阵,2,PAM/BLOS

4、UM矩阵数与序列亲缘关系的比较,23、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2 M=a.I和b1.j的最大相似度分数。24,w(c,D)是字母C和D根据替换分数矩阵计算的分数。您可以按照以下规则建立分数矩阵:S (I,0)=0,0i m s (0,j)=0,0j n,s (I-1,j-1) w (ai,bj)。W(a,-)=w(-,b)=w(不一致)=-1,26,分数矩阵、28、4、多序列全局比较、多序列匹配主要包含四个元素。选择一组可匹配的序列(要求是源序列)。选择实现比较和分数的算法和软件。确定软件的参数。合理解释比较结果。与双序列排序类似,多序列排序

5、也具有全局和局部匹配。29,(a)多序列匹配的动态编程方法,(a)计算三个序列之间的比较单位(I,j,k)取决于七个前置项。(b) u=atgtat,v=ATCGTAC,w=ATGC计算三阶对应三维分数矩阵。计算三个序列匹配,30,(2)渐进式多序列匹配,三个序列的匹配匹配不一定合并为一个多序列匹配.对于接近或超过31、100个序列的多序列匹配,增量多序列匹配更有效。最流行的渐进多序列比较软件是Clustal家族。32、ClustalW具有以下特征:首先,在匹配中为每个序列指定特殊权重,以减少高近似序列的影响,并增加远处序列的影响(参见下图)。ClustalW如何将权限授予序列,33,二,根据

6、序列间进化距离的离婚,在徐璐不同阶段徐璐使用不同的氨基酸替代矩阵。第三,使用与特定氨基酸相关的空缺(gap)罚分函数,对亲水氨基酸区域的空缺进行了低罚。第四,在早期配对比较中,对出现空缺的位置的处罚较少,对引入空缺和扩大空缺的惩罚也不同。34,迭代方法基于一致性的方法遗传算法,其他多序列全局匹配方法,35,5,多序列局部匹配,全局匹配,公共特征假定序列中的所有相应字符都可以匹配,所有字符都具有相同的重要性,插入空格以匹配整个序列,包括两端对齐。局部匹配不假定整个序列可以匹配。关注考虑序列中可高度匹配的一个部分将赋予该部分较大的分数权重,插入空格以更好地匹配高度匹配的段。36、2个序列的全局和局

7、部比较可以得到完全不同的结果。37,基于隐藏Markov模型的多序列比较方法,隐藏Markov模型和3个蛋白质序列PHSFTYVMT,PGSFTYW,RFTGFW的最小公共超图,38;2.将序列与随机生成的序列集进行比较,然后将比分与对应的分数进行比较。3.随机重组两个序列中的任意一个。例如,重组100次,与其他序列相比,获得一组对应分数。39,3节数据库搜索,3节数据库搜索,40,1,经典BLAST,基本BLAST算法本身很简单。重点是“段对”(segment pair)。41、BLAST的查询序列和数据库类型,42,BLAST算法图,43,2,衍生的BLAST,(1) PSI-BLAST主

8、要用来搜索感兴趣的蛋白质和较远的蛋白质。(b) PHI-BLAST有助于判断这种蛋白质属于哪个家族。(c) BLASTZ BLASTZ是在人类和老鼠的基因组中开发的,适合比较非常长的序列。44,3,Blat,Blat(BLAST-Like Alignment Tool)与BLAST搜索原理类似,但开发了用于全基因组分析的技术。BLAT的优点是速度快。比BLAST快几百倍。根本原因是: BLAST索引查询序列,而BLAT索引搜索数据库。BLAT将相关的线性比较结果链接为较大的比较结果。45、4、RNA序列搜索、RNA序列匹配/搜索算法可分为两大类:查询序列(查询序列)的结构未知,需要查找与数据库

9、结构相似的同源序列。,46,利用查询序列的结构信息,建立描述RNA序列的公共结构的概率模型,可以细分为数据库搜索。根据索引(index)或motif(motif)中介绍的方法,定义RNA结构或公共结构并执行数据库搜索。47,5,数据库搜索的统计重要性,典型BLAST搜索的输出包括E值和分数,分为原始分数和位分数。P=1-e-E,P和E值是使用E值而不是P值定义搜索的统计重要性的两种不同方法。48、第iv节比较软件、参数和数据资源、第4节alignment software、Parameter and Resource、49.49,1,参数选择的一般原则,空白罚分存在一些问题,对于大小不同的空缺

10、,罚分空白的引入和扩大是否徐璐给予其他罚分。50,如果数据库搜索产生太多返回结果,则可以采取以下措施:使用参照序列(带有“refseq”)的数据库可以减少大量重复结果。通过确保祖怀顺序仅包含一个域,减少多域导致的多个匹配。根据查询序列和数据库序列之间的关系,使用更合适的替代分数矩阵。减小e值。51,如果数据库搜索返回的结果太少,可以采取以下措施:增加e值。使用较大的PAM矩阵或较小的BLOSUM矩阵。缩短字符长度,减小阈值。52,2,主要比较软件,53,3,EBI的序列匹配工具,54、4、UCSC中的BLAT匹配工具、BLAT联机工具输入界面、55,Bl。57、1、glocal比较、两个序列的本地、全局和glocal匹配路径、58,2,全基因组比较,59,UCSC基因组浏览器中使用的多序列比较在很多方面有所改善。首先,使用“参照序列”(reference sequence),使用BLASTZ将每个序列与参照序列进行局部匹配,将参照序列的一个碱基与另一序列的多个碱基进行比较。其次,根据分数矩阵和两个序列的系谱关系,匹配的结果被称为“连接”和“网络”。然后,U

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论