多序列比对的定义与操作(共46页).ppt_第1页
多序列比对的定义与操作(共46页).ppt_第2页
多序列比对的定义与操作(共46页).ppt_第3页
多序列比对的定义与操作(共46页).ppt_第4页
多序列比对的定义与操作(共46页).ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本资料来源多序列比对多序列比对主要内容主要内容 多序列比对的定义 介绍多序列比对数据库 介绍如何手动方式输入一组蛋白或核酸序列进行多重比对多序列比对的目的和定义 多序列比对的目的;通过序列的相似性检索得到许多相关的 相似序列,将这些序列做一个总体的比对,以观察它们在序 列结构上的异同,以回答相关的生物学问题。多序列比对就是将2条以上可能有系统进化关系的序列进行 比对。一个多重比对就是一组可以部分或整体对齐的蛋白质或核酸 序列(3个或以上)。相同或相似的氨基酸残基排在同一列上, 这些对齐的残基在进化意义上是同源的:来自共同的祖先。在 三维结构中,对齐的残基也倾向于占据对应的位置。可以根据下面特征

2、来确定是否对齐某些氨基酸可以根据下面特征来确定是否对齐某些氨基酸残基残基 一些高度保守的残基(如参与形成二硫键的半胱氨酸) 形成保守膜体(motif),如跨膜结构域和免疫蛋白结构域 蛋白质二级结构的保守特征,如参与形成alpha螺旋、beta 片层和可变区的残基。 显示出一致插入或缺失模式的区域。多序列比对的典型应用多序列比对的典型应用 大多数蛋白质家族中有远源的成员,与两两比对相比, 多序列比对能够更敏感地发现同源关系。 在检查某次数据库搜索结果时(如BLAST),多重比对形式 的结果能更容易显示保守残基和模体。 构建系统进化树的一个最关键的步骤就是多序列比对。 当一个物种的基因组被完整测序

3、,数据分析的一个主要部分是 注释所有基因产物所归属的蛋白家族。数据库搜索进行高效的 多重比对,将每一个新蛋白(或基因)与其它所有家族的蛋白质 进行比较 很多基因的调节区含有转录因子结合的共有序列。多序列比对方法多序列比对方法Exact methodsProgressive (ClustalW)Iterative (MUSCLE)Consistency (ProbCons)Structure-based (Expresso)多序列比对方法多序列比对方法Exact methods: dynamic programmingInstead of the 2-D dynamic programming

4、matrix in theNeedleman-Wunsch technique, think about a 3-D,4-D or higher order matrix.Exact methods give optimal alignments but are not feasible in time or space for more than 10 sequences.Still an extremely active field.多序列比对的渐近比对方法多序列比对的渐近比对方法在目前发展的众多多序列比对方法中,最常用的是来自Feng and Doolittle (1987)的渐近比对。

5、之所以称为渐近比对,是因为这种方法需要先对所有的序列计算两两比对的分值,然后从关系最近的一对序列开始,逐步加入其它序列。 Examples: CLUSTALW, MUSCLEMultiple sequence alignment: methodsExample of MSA using ClustalW: two data setsFive distantly related lipocalins (human to E. coli)Five closely related RBPsWhen you do this, obtain the sequences of interest in th

6、e FASTA format! (You can save them in a Word document)Page 321The input for ClustalW: a group of sequences(DNA or protein) in the FASTA formatGet sequences from Entrez Protein (or HomoloGene)You can display sequences from Entrez Protein in the fasta formatUse ClustalW to do a progressive MSA.2.ebi.a

7、c.uk/clustalw/Fig. 10.1Page 321Feng-Doolittle MSA occurs in 3 stages1 利用 Needleman and Wunschs 的动态规划算法对所有 序列进行两两比对。 2 计算距离矩阵,建立辅助导向树3 根据导向树中的位置关系建立多重比对。Page 321Progressive MSA stage 1 of 3:generate global pairwise alignmentsFig. 10.2Page 323five distantly related lipocalinsbest scoreProgressive MSA

8、stage 1 of 3:generate global pairwise alignmentsStart of Pairwise alignmentsAligning.Sequences (1:2) Aligned. Score: 84Sequences (1:3) Aligned. Score: 84Sequences (1:4) Aligned. Score: 91Sequences (1:5) Aligned. Score: 92Sequences (2:3) Aligned. Score: 99Sequences (2:4) Aligned. Score: 86Sequences (

9、2:5) Aligned. Score: 85Sequences (3:4) Aligned. Score: 85Sequences (3:5) Aligned. Score: 84Sequences (4:5) Aligned. Score: 96Fig. 10.4Page 325five closely related lipocalinsbest scoreNumber of pairwise alignments needed For n sequences, (n-1)(n) / 2For 5 sequences, (4)(5) / 2 = 10Page 322Feng-Doolit

10、tle stage 2: guide tree将相似分数转化为距离分数用树来表示序列之间的距离使用 UPGMA (defined in the phylogeny lecture)ClustalW 给出了关于导向树描述的句法导向树不是系统进化树Page 323Progressive MSA stage 2 of 3:generate a guide tree calculated fromthe distance matrixFig. 10.2Page 32312354Progressive MSA stage 2 of 3:generate guide tree(gi|5803139|ref

11、|NP_006735.1|:0.04284,(gi|6174963|sp|Q00724|RETB_MOUS:0.00075,gi|132407|sp|P04916|RETB_RAT:0.00423):0.10542):0.01900,gi|89271|pir|A39486:0.01924,gi|132403|sp|P18902|RETB_BOVIN:0.01902);Fig. 10.4Page 325five closely related lipocalinsFeng-Doolittle stage 3: progressive alignment根据导向树中的位置关系建立多重比对先选择距离

12、最近的一个两两比对,接着在此基础上加入下一个 最近序列形成三重比对或加入下一个最近的两两比对重复此过程直到用完所有序列规则: “一旦是空白, 永远是空白.”Page 324Progressive MSA stage 3 of 3:progressively align the sequencesfollowing the branch order of the treeFig. 10.3Page 324Progressive MSA stage 3 of 3:CLUSTALX outputNote that you can download CLUSTALX locally, rather t

13、han using a web-based program!Clustal W alignment of 5 closely related lipocalinsCLUSTAL W (1.82) multiple sequence alignmentgi|89271|pir|A39486 MEWVWALVLLAALGSAQAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 50gi|132403|sp|P18902|RETB_BOVIN -ERDCRVSSFRVKENFDKARFAGTWYAMAKKDP 32gi|5803139|ref|NP_006735.1| MKWVWAL

14、LLLAAW-AAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48gi|6174963|sp|Q00724|RETB_MOUS MEWVWALVLLAALGGGSAERDCRVSSFRVKENFDKARFSGLWYAIAKKDP 50gi|132407|sp|P04916|RETB_RAT MEWVWALVLLAALGGGSAERDCRVSSFRVKENFDKARFSGLWYAIAKKDP 50 *:* *:*gi|89271|pir|A39486 EGLFLQDNIVAEFSVDENGHMSATAKGRVRLLNNWDVCADMVGTFTDTED 100gi|1324

15、03|sp|P18902|RETB_BOVIN EGLFLQDNIVAEFSVDENGHMSATAKGRVRLLNNWDVCADMVGTFTDTED 82gi|5803139|ref|NP_006735.1| EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98gi|6174963|sp|Q00724|RETB_MOUS EGLFLQDNIIAEFSVDEKGHMSATAKGRVRLLSNWEVCADMVGTFTDTED 100gi|132407|sp|P04916|RETB_RAT EGLFLQDNIIAEFSVDEKGHMSATAKGR

16、VRLLSNWEVCADMVGTFTDTED 100 *:*.*:*.*:*gi|89271|pir|A39486 PAKFKMKYWGVASFLQKGNDDHWIIDTDYDTYAAQYSCRLQNLDGTCADS 150gi|132403|sp|P18902|RETB_BOVIN PAKFKMKYWGVASFLQKGNDDHWIIDTDYETFAVQYSCRLLNLDGTCADS 132gi|5803139|ref|NP_006735.1| PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148gi|6174963|sp|Q00724|

17、RETB_MOUS PAKFKMKYWGVASFLQRGNDDHWIIDTDYDTFALQYSCRLQNLDGTCADS 150gi|132407|sp|P04916|RETB_RAT PAKFKMKYWGVASFLQRGNDDHWIIDTDYDTFALQYSCRLQNLDGTCADS 150 *:*:*:*:* * *Fig. 10.5Page 326* asterisks indicate identity in a columnProgressive MSA stage 3 of 3:progressively align the sequencesfollowing the branc

18、h order of the tree:Order mattersTHE LAST FAT CAT THE FAST CAT THE VERY FAST CAT THE FAT CATTHE LAST FAT CATTHE FAST CAT -THE LAST FA-T CATTHE FAST CA-T -THE VERY FAST CATTHE LAST FA-T CATTHE FAST CA-T -THE VERY FAST CATTHE - FA-T CATAdapted from C. Notredame, Pharmacogenomics 2002Progressive MSA st

19、age 3 of 3:progressively align the sequencesfollowing the branch order of the tree:Order mattersTHE FAT CAT THE FAST CAT THE VERY FAST CAT THE LAST FAT CATTHE FA-T CATTHE FAST CATTHE - FA-T CATTHE - FAST CATTHE VERY FAST CATTHE - FA-T CATTHE - FAST CATTHE VERY FAST CATTHE LAST FA-T CATAdapted from C

20、. Notredame, Pharmacogenomics 2002两种多序列比对的程序两种多序列比对的程序Text-based or query-based searches:CDD, Pfam (profile HMMs), PROSITE2 还还可以用手动方式对输入的一组蛋白质或核酸序列产生可以用手动方式对输入的一组蛋白质或核酸序列产生 多重比对。多重比对。Muscle, ClustalW, ClustalX1 多序列比对数据库,可以用文本或者任意序列进行搜索多序列比对数据库,可以用文本或者任意序列进行搜索Page 329BLOCKSCDD Pfam SMARTDOMO (Gapped

21、MSA)INTERPROiProClassMetaFAMPRINTSPRODOM (PSI-BLAST)PROSITE多序列比对数据库TheseUseHMMsPfam是综合的蛋白质家族数据库之一,可以用文本(关键字,蛋白质名等)或序列数据进行搜索。Pfam由两个数据库组成。Pfam-A是手工编辑、多重比对形式的蛋白质家族集合。对于每一个家族,Pfam提供了4种特征:注释、种子比对、profile HMM、完全比对。完全比对可能很大,Pfam前20个家族的完全比对都含有超过2500个序列。种子比对含有较少数量的代表序列。除了由专家手工编辑的Pfam-A外,Pfam-B是从ProDom数据库自动产生的。Pfam-B的数据质量、注释的完全程度都不如Pfam-A,但是Pfam-B可以作为一个有用的补充。Pfam:基于:基于profile HMM的蛋白质家族数据库的蛋白质家族数据库PFAM (protein family) database:Fig. 10.11Page 331PFAM (protein family) text search resultFig. 10.12Page 334PFAM GCG MSF formatFig. 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论