第三章序列比对ppt课件_第1页
第三章序列比对ppt课件_第2页
第三章序列比对ppt课件_第3页
第三章序列比对ppt课件_第4页
第三章序列比对ppt课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章第三章 序列比对序列比对第一节第一节 引言引言 双序列比对的目的:双序列比对的目的:同源物鉴定,功能预测同源物鉴定,功能预测根本假设:根本假设:1一切的生物都来源于同一个祖先一切的生物都来源于同一个祖先 物种间序物种间序列存在同列存在同 源关系,同源序列功能往往是类源关系,同源序列功能往往是类似的似的2序列不是随机产生,而是在进化上不断发生着序列不是随机产生,而是在进化上不断发生着演化同源的序列存在高度类似性演化同源的序列存在高度类似性3序列的类似性可以判别序列的类似性可以判别 序列的同源性,进而序列的同源性,进而可以利用可以利用 同源物功能的类似性同源物功能的类似性 来进展推断来进展推

2、断序列比对的分类:双序列比对,多序列比对序列比对的分类:双序列比对,多序列比对多序列的目的:用于比较基因组研讨1 用于描画一组序列基因家族之间的 类似性关系, 以便了解一个基因家族的根本特征,寻觅motif,保守区域等。2 可构建HMM模型,搜索更多的同源序列,Pfam,prints,prosite,interPro等3 分析构造用于构建进化树 假设两个序列有一个共同的进化祖先,那么它们假设两个序列有一个共同的进化祖先,那么它们是同源的。这里不存在同源性的程度问题。这两是同源的。这里不存在同源性的程度问题。这两条序列之间要么是同源的,要么是不同源的条序列之间要么是同源的,要么是不同源的同源性同

3、源性homology第二节第二节 序列比对的根本概念序列比对的根本概念类似性类似性 similarity 类似性是指序列比对过程中用来描画检测序列和目的类似性是指序列比对过程中用来描画检测序列和目的序列之间一样序列之间一样DNA碱基或氨基酸残基顺序所占比例的碱基或氨基酸残基顺序所占比例的高低。高低。 当类似程度高于当类似程度高于50%时,比较容易推测检测序列和目时,比较容易推测检测序列和目的序列能够是同源序列;而当类似性程度低于的序列能够是同源序列;而当类似性程度低于20%时,时,就难以确定能否具有同源性。就难以确定能否具有同源性。直系同源和旁系同源直系同源和旁系同源 直系同源直系同源orth

4、ology是指不同物种内的同源序列,是指不同物种内的同源序列,它们来源于物种构成时的共同祖先基因。它们来源于物种构成时的共同祖先基因。 旁系同源旁系同源paralogy是指同一物种中,由于基因的是指同一物种中,由于基因的复制而产生的几个同源基因。复制而产生的几个同源基因。 直系同源和旁系同源的图示:直系同源和旁系同源的图示:1编辑间隔:两条序列对应位置上不同字符的个数编辑间隔:两条序列对应位置上不同字符的个数2类似性得分:两条序列对应位置上一样字符的个数类似性得分:两条序列对应位置上一样字符的个数类似分数越高,序列越类似,编辑间隔越小,序列越类似类似分数越高,序列越类似,编辑间隔越小,序列越类

5、似两条序列长度不一致时:空格两条序列长度不一致时:空格Gap 类似性分数的计算类似性分数的计算编辑间隔编辑间隔edit distance)类似性得分 打分规那么就是后面的打分矩阵打分规那么就是后面的打分矩阵第三节第三节 打分矩阵交换记分矩阵打分矩阵交换记分矩阵 插入和缺失突变:序列比对采用空格Gap来处置 交换突变:交换计分矩阵即打分矩阵 1核酸打分矩阵设DNA序列所用的字母表为 = A,C,G,T a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵transition-transversion matrix 嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,

6、胸腺嘧啶T 表3.1 等价矩阵表表3.3 转移矩阵表3.2 BLAST矩阵2蛋白质打分矩阵 i等价矩阵 ii 遗传密码矩阵genetic code matrix,GCM ) iii疏水性矩阵 hydrophobic matrix) ivPAM矩阵point accepted matrix,PAM v BLOSUM矩阵 BLOck SUbstitution Matrix,BLOSUMjijiRij01其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。 遗传密码矩阵遗传密码矩阵 遗传密码矩阵经过计算一个氨基酸变成另遗传密码矩阵经过计算一个氨基酸变成另一个氨基酸所需的密码子变化的数目而

7、得一个氨基酸所需的密码子变化的数目而得到。通常为到。通常为1 或或 2,只需,只需Met到到Tyr为为 3。 遗传密码矩阵遗传密码矩阵 GCM矩阵矩阵 疏水矩阵疏水矩阵R K D E B Z S N Q G X T H A C M P V L I Y F W R 1010998866655555433333210K 1010998866655555433333210D 9910108876665555544433321E 9910108876665555544433321B 8888101088887777666555443Z 8888101088887777666555443S 667788

8、101010109999887777664N 666688101010109999888777664Q 666688101010109999888777664G 556688101010109999888877665X 555577999910101010998888775T 555577999910101010998888775H 555577999910101010999888775A 555577999910101010999888775C 4455668888999910109999885M 334466888899991010101099887P 334466788888999101

9、01099987V 3344557778888891010101010987L 33335577778888999101010998I 33335577778888999101010998Y 2233446666777788999910108F 1122446666777788889910109W 001133444555556777888910PAM & BLOSOM 这类矩阵列出同源蛋白质在进化过程中氨基酸变化的能够性统计学inference是基于进化原理的根据,更科学PAM矩阵矩阵 point accepted mutaion 基于氨基酸进化的点突变模型基于氨基酸进化的点突变模型

10、 假设两种氨基酸交换频繁,阐明自然界接受这假设两种氨基酸交换频繁,阐明自然界接受这种交换,那么这对氨基酸交换得分就高种交换,那么这对氨基酸交换得分就高PAM矩阵的制造步骤矩阵的制造步骤构建序列类似大于构建序列类似大于85的比对的比对计算氨基酸计算氨基酸 j 的相对突变率的相对突变率mjj被其他氨基酸被其他氨基酸交换的次数交换的次数针对每个氨基酸对针对每个氨基酸对 i 和和 j , 计算计算 j 被被 i 交换次数交换次数交换次数除以相对突变率交换次数除以相对突变率mj利用每个氨基酸出现的频度对利用每个氨基酸出现的频度对j 进展规范化进展规范化取常用对数,得到取常用对数,得到PAM-1(i, j

11、)将将PAM-1自乘自乘N次,可以得到次,可以得到PAM-nPAM矩阵与BLOSUM矩阵的选择第四节 序列比对的算法双序列比对的三种算法:双序列比对的三种算法:点阵分析法点阵分析法动态规划法动态规划法:Needleman-Wunsch、Smith-Waterman词或词或K串法串法(BLAST or FASTA中运用,后面会提到中运用,后面会提到) 对序列从头到尾进展比较,试图使尽能对序列从头到尾进展比较,试图使尽能够多的字符在同一列中匹配。够多的字符在同一列中匹配。 适用于类似度较高且长度相近的序列适用于类似度较高且长度相近的序列 如:如:Needleman-Wunsch算法算法全局比对全局

12、比对部分比对部分比对 寻觅序列中类似度最高的区域,也就是寻觅序列中类似度最高的区域,也就是匹配密度最高的部分。匹配密度最高的部分。 适用于在某些部分类似度较高,而其他适用于在某些部分类似度较高,而其他部位差别较大的序列。部位差别较大的序列。 如:如:Smith-Waterman算法算法多序列比对的算法:多序列比对的算法:1动态规划算法动态规划算法2渐进多序列比对渐进多序列比对3迭代法迭代法多序列比对基于双序列比对,存在两种比对方式:多序列比对基于双序列比对,存在两种比对方式:1部分比对部分比对 local alignment2整体比对整体比对global alignment普通选择部分比对和蛋

13、白质序列比对普通选择部分比对和蛋白质序列比对1蛋白质功能位点往往是由较短的序列片段组成的,虽蛋白质功能位点往往是由较短的序列片段组成的,虽然在序列的其它部位能够有插入、删除等突变,但这些然在序列的其它部位能够有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。而部关键的功能部位的序列往往具有相当大的保守性。而部分比对往往比整体比对对这些功能区段具有更高的灵敏分比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。度,因此其结果更具生物学意义。2蛋白质比对通常比蛋白质比对通常比DNA比对具有更丰富的信息比对具有更丰富的信息 i) DNA序列的许多改动特别是

14、密码子的第三位不会序列的许多改动特别是密码子的第三位不会改动对应的氨基酸改动对应的氨基酸 ii许多氨基酸具有类似的生物化学性质亲疏水,酸许多氨基酸具有类似的生物化学性质亲疏水,酸碱等,在打分系统中会以为是类似的碱等,在打分系统中会以为是类似的positive,而不是不同而不是不同第五节 双序列比对的常用工具数据库搜索:在分子生物学研讨中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需求经过数据库搜索,找出具有一定类似性的同源序列,以推测该未知序列能够属于哪个基因家族,具有哪些生物学功能。数据库搜索的根底是序列的类似性比对,即双序列比对,因此,数据库搜索是双序列比对的特例BLAST, F

15、ASTA等常用的数据库搜索程序均采用部分类似性比对的方法,具有较快的运转速度BLAST: basic local alignment search toolBLAST子程序阐明gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus HemagglutininGLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVGKEFNNLERRIENLNKKVDDGF

16、LDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGNGCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR多构造域蛋白 (H1N1) 的BLAST检索BLAST结果综述BLAST结果表述Bl2Seq双序列比对举例特殊特殊BLAST蛋白质序列比对用蛋白质序列比对用blastp,DNA序列比对用序列比对用blastn例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对粘贴粘贴sequence1粘贴粘贴sequence2竖线:一致性竖线:一致性(identities)缺口缺口(gap):不同之处:不同之处Cluster家族ClusterW第六节 多序列比对的常用工具 将要比对的多个序列以将要比对的多个序列以Fasta格式保管格式保管以多个物种的抗坏血酸过氧化物酶的的蛋以多个物种的抗坏血酸过氧化物酶的的蛋白质序列进展比对为例白质序列进展比对为例载入多个序列后,选择输出选项,选择输出格式。或载入多个序列后,选择输出选项,选择输出格式。或者在比对完成之后,在者在比对完成之后,在“文件中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论