版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
序列比对与算法和软件使用序列比对与算法和软件使用2第一节双序列比对第二节多序列比对第三节常用序列比对软件的使用2第一节双序列比对第一节双序列比对第一节双序列比对41.序列比对基本概念2.空位罚分3.双序列比对方法点阵序列比较(DotMatrixSequenceComparison)动态规划算法(DynamicProgrammingAlgorithm)4.记分矩阵41.序列比对基本概念51.什么是序列比对?
序列比对(SequenceAlignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法。按比对序列条数分类双序列比对:两条序列的比对多序列比对:三条或以上序列的比对51.什么是序列比对?
序列比对(SequenceAli61.我们为什么关注序列比对?相似的序列可能具有相似的功能与结构;发现一个基因或蛋白哪些区域容易发生突变,哪些位点突变后对功能没有影响;发现生物进化方面的信息。61.我们为什么关注序列比对?相似的序列可能具有相似的功能71.序列比对两种类型全局序列比对定义:在全局范围内对两条序列进行比对打分的方法。适合于非常相似且长度近似相等的序列。局部序列比对定义:一种寻找匹配子序列的序列比对方法。适合于一些片段相似而另一些片段相异的序列。71.序列比对两种类型全局序列比对81.序列比对两种类型81.序列比对两种类型92.空位罚分(GapPenalties)空位为了获得两个序列最佳比对,必须使用空位和空位罚分。空位罚分分类:空位开放罚分(Gapopeningpenalty)空位扩展罚分(Gapextensionpenalty)最优的序列比对通常具有以下两下特征:尽可能多的匹配尽可能少的空位插入任意多的空位会产生较高的分数,但找到的并不一定是真正相似序列。92.空位罚分(GapPenalties)空位为了获得两101GTGATAGACAC|||1GTGCATAGACAC
2.空位罚分允许空位但不罚分
不允许有空位
match=5mismatch=-41GTG-ATAGACAC|||||||||||1GTGCATAGACAC
1GTG--ATAGACAC|||||||||||1GTGC-ATAGACAC
?Score:-21Score:55101GTGATAGACAC2.空位罚分允许空位但不罚分112.空位罚分公式
ATGTTATACTATGTGCGTATA
Score=4参数:匹配=1非匹配=0g=3 r=0.1 x=3
score:8-3.2=4.8
Wx=g+r(x-1)Wx: 空位总记分g: 空位开放罚分r: 空位扩展罚分x: 空位长度TATGTGCGTATA
insertion/deletionATGT---TATACWx=3+0.1*(3-1)=3.2112.空位罚分公式ATGTTATAC123.双序列比对方法点阵序列比较(DotMatrixSequenceComparison)动态规划算法(DynamicProgrammingAlgorithm)词或K串方法(WordorK-tupleMethods)123.双序列比对方法点阵序列比较(DotMatrix133.1点阵序列比较点阵(DotMatrix)分析是一种简单的图形显示序列相似性的方法。沿X轴上序列1中的每一个单元(核苷酸或氨基酸)与沿Y轴的第二个序列中的每一个单元进行比较,相同的区域在点阵图中显示为由点组成的对角线,对角线之外零散的点为背景噪音。133.1点阵序列比较点阵(DotMatrix)分析是一IONIZATIONIONIZATIONIONIZATIONIONIZATION15点阵分析的应用自身比对寻找序列中的正向或反向重复序列蛋白质的重复结构域(domain)相同残基重复出现的低复杂区(LowComplexity)RNA二级结构中的互补区域等对两条序列的相似性作整体的估计15点阵分析的应用自身比对点阵分析中的插入或删除TACTGTCAT
TACTGTTCATSequence1Sequence2TACTG
-
TCAT|||||||||TACTGTTCAT插入空位点阵分析中的插入或删除TSequence1Sequence17点阵分析的应用人类低脂受体(humanlow-densitylipoproteinreceptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复17点阵分析的应用人类低脂受体(humanlow-dens18点阵分析实例编码噬菌体λcⅠ(水平轴)和噬菌体P22c2(垂直轴)的氨基酸序列间的点阵分析相同的点全部打印,很难找到有用的信息18点阵分析实例编码噬菌体λcⅠ(水平轴)和噬菌体P22c19使用滑动窗口技术降低噪声TACGGTATGACAGTATCTACGGTATG
ACAGTATCTACGGTATG
ACAGTATCTACGGTATG
ACAGTATCC
T
A
T
G
A
C
A
T A C G G T A T GWindow=3WordSize=319使用滑动窗口技术降低噪声TACGGTAT20ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=020ATACTACAAGACACGTACCGGC21ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=021ATACTACAAGACACGTACCGGC22ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=022ATACTACAAGACACGTACCGGC23GCGATGCATTGAGTATCATAATACTACAAGACACGTACCGWindowsize=5Stringency=3Match=1Mismatch=023GCGATGC24GCGATGCATTGAGTATCATAATACTACAAGACACGTACCG24GCGATGC25GCGATGCATTGAGTATCATAATACTACAAGACACGTACCG25GCGATGC使用滑动窗口技术降低噪声(a)对人类(Homosapiens)与黑猩猩(Pongopygmaeus)的β球蛋白基因序列进行比较的完整点阵图(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8,即10个核苷酸中有8个相同时就打一个点ab使用滑动窗口技术降低噪声(a)对人类(Homosapien27点阵分析的优缺点优点直观性,整体性;点阵分析不依赖空位(gap)参数,可寻找两序列间所有可能的残基匹配;不依赖任何先决条件,是一种可用于初步分析的理想工具;点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分信号和背景标准的严格程度。27点阵分析的优缺点优点28点阵分析的优缺点缺点不能很好地兼容打分矩阵;滑动窗口和域值的选择过于经验化;信噪比低;不适合进行高通量的数据分析。28点阵分析的优缺点缺点29点阵分析程序DNAStrider(Macintosh)http://
Dotter(Unix/Linux,X-Windows)COMPARE,DOTPLOT(GCG软件)PLALIGN(FASTA)Dotlet29点阵分析程序DNAStrider(Macintosh303.2动态规划算法动态规划算法(DynamicProgrammingAlgorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决。在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)。303.2动态规划算法动态规划算法(DynamicPro31序列比对中某一位点匹配的三种可能性Eg.匹配=1,非匹配=0,空位罚分=-1Sequence1:CACGASequence2:CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC--1ACGACGA31序列比对中某一位点匹配的三种可能性Eg.匹配=1,非匹32动态规划算法的数学形式Sij=max{Si-1,j-1,+s(aibj),
max
x≥1(Si-x,j-wx),
max
y≥1(Si,j-y-wy)
}Sij=max{Si-1,j-1,+s(aibj),
max
x≥1(Si-1,j-wx),max
y≥1(Si,j-1-wy)
}公式一的简化公式一公式二说明:Sij是序列a在位置i和序列b在位置j的分值,s(aibj)是位置i和j上比对分值,wx是在序列a中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分32动态规划算法的数学形式Sij=max{Si-1,j-1,33动态规划算法实例ACTTCGACTAG匹配=3错配=-1空位=-233动态规划算法实例ACTTCGACTAG匹配=334ACTTCG0ACTAG动态规划算法实例匹配=3错配=-1空位=-234ACTTCG0ACTAG动态规划算法实例匹配=335ACTTCG0-2ACTAG动态规划算法实例匹配=3错配=-1空位=-235ACTTCG0-2ACTAG动态规划算法实例匹配=336ACTTCG0-2-4-6-8-10-12ACTAG动态规划算法实例匹配=3错配=-1空位=-236ACTTCG0-2-4-6-8-10-12ACTAG动态37ACTTCG0-2-4-6-8-10-12A-2CTAG动态规划算法实例匹配=3错配=-1空位=-237ACTTCG0-2-4-6-8-10-12A-2CTAG38ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10动态规划算法实例?S(2,2)-2+(-2)-2+(-2)0+3匹配=3错配=-1空位=-238ACTTCG0-2-4-6-8-10-12A-2C-4T39ACTTCG0-2-4-6-8-10-12A-23C-4T-6A-8G-10动态规划算法实例?S(2,3)-4+(-2)3+(-2)-2+(-1)匹配=3错配=-1空位=-239ACTTCG0-2-4-6-8-10-12A-23C-440动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配=3错配=-1空位=-240动态规划算法实例ACTTCG0-2-4-6-8-10-141动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-14?A-8-32G-10-50S(4,4)4+(-2)4+(-2)6+3匹配=3错配=-1空位=-241动态规划算法实例ACTTCG0-2-4-6-8-10-142动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-32G-10-50匹配=3错配=-1空位=-242动态规划算法实例ACTTCG0-2-4-6-8-10-1ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGT-CATTCCAA回溯ACTTCG0-2-4-6-8-10-12A-231-1-3ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGT-CATTCCAAACTTCG0-2-4-6-8-10-12A-231-1-3ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGTAC-TTCCAAACTTCG0-2-4-6-8-10-12A-231-1-346比对结果1. ACTTCG AC-TAG2. ACTTCG ACT-AG3. ACTTCG ACTA-G哪一个是最优比对(optimalalignment)呢?记分矩阵46比对结果1. ACTTCG哪一个是最优比对(optim47记分矩阵与空位罚分DNA计分矩阵蛋白质计分矩阵广泛使用的两种矩阵
PAMBLOSUM空位罚分47记分矩阵与空位罚分DNA计分矩阵48DNA计分矩阵actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagactSequence1Sequence2
A G C TA
1 0 0 0G 0 1 0 0C 0 0 1 0T 0 0 0 1匹配:1错配:0分值:548DNA计分矩阵actaccagttcatttgatact49转换和颠换CTAG嘧啶嘌呤表示转换(transition),表示颠换(transversions)转换比颠换更容易发生49转换和颠换CTAG嘧啶嘌呤表示转换(tr转换和颠换AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换3倍时的模型转换和颠换AGTCA0.99G0.0060.99T0.002蛋白质计分矩阵PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence1Sequence2记分矩阵T:G =-2T:T =5Score =48 C S T P A G N D
. .C 9 S -1 4T -1 1 5P -3 -1 -1 7A 0 1 0 -1 4G -3 0 -2 -2 0 6N -3 1 0 -2 -2 0 5D -3 0 -1 -1 -2 -1 1 6.. C S T P A G N D
. .C 9 S -1 4T -1 1 5P -3 -1 -1 7A 0 1 0 -1 4G -3 0 -2 -2 0 6N -3 1 0 -2 -2 0 5D -3 0 -1 -1 -2 -1 1 6..蛋白质计分矩阵PTHPLASKTQILPEDLASEDLTI52PAM(PercentAcceptedMutation)矩阵氨基酸容易被其它生化、物理特性相似的氨基酸替换。PAM1(1个PAM单位)被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)。PAMn是PAM1自乘n次。PAM250、PAM120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对。52PAM(PercentAcceptedMutati
ARNDCQEGHILKMFPSTWYVBZA2-200-2001-1-1-2-1-1-3111-6-3021R-260-1-41-1-32-2-330-400-12-4-212N0022-41102-2-31-2-3010-4-2-243D0-124-52311-2-40-3-6-100-7-4-254C-2-4-4-512-5-5-3-3-2-6-5-5-4-30-2-80-2-3-4Q0112-542-13-2-21-1-50-1-1-5-4-235E0-113-52401-2-30-2-5-100-7-4-245G1-301-3-105-2-3-4-2-3-5010-7-5-121H-1221-331-26-2-20-2-20-1-1-30-233I-1-2-2-2-2-2-2-3-252-221-2-10-5-14-1-1L-2-3-3-4-6-2-3-4-226-342-3-3-2-2-12-2-1K-1310-510-20-2-350-5-100-3-4-222M-10-2-3-5-1-2-3-224060-2-2-1-4-22-10F-3-4-3-6-4-5-5-5-212-509-5-3-307-1-3-4P100-1-30-100-2-3-1-2-5610-6-5-111S10100-101-1-1-30-2-3121-2-3-121T1-100-2-100-10-20-1-3013-5-3021W-62-4-7-8-5-7-7-3-5-2-3-40-6-2-5170-6-4-4Y-3-4-2-40-4-4-50-1-1-4-27-5-3-3010-2-2-3V0-2-2-2-2-2-2-1-242-22-1-1-10-6-2400B2145-33423-1-22-1-3122-4-2065Z1234-45513-1-120-4111-4-3056
PAM250PAM250
模块替换矩阵BLOSUM以序列片段为基础,它是基于蛋白质模块(Block)数据库而建立起来的
在模块比对的每一列中,分别计算两两氨基酸的变化情况,来自所有模块的数值被用来计算BLOSUM矩阵矩阵后面的数字表示构建此矩阵所用的序列的相似程度,如BLOSUM62表示由相似度为62%的序列构建AACECA-C=0A-E=-1C-E=-4A-A=4C-C=9AACECBLOSUM矩阵
(BlocksSubstitutionMatrix)
模块替换矩阵BLOSUM以序列片段为基础,它是基于55BLOSUM62
55BLOSUM62
56如何选择合适的评分矩阵?
一般来说,在局部相似性搜索上,BLOSUM矩阵较PAM要好当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵。对于数据库搜索来说一般选择BLOSUM62矩阵PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域56如何选择合适的评分矩阵?一般来说,在局部相似性搜索上,574.相似性与同源性同源性(HomologousGenes):序列来自共同的祖先,相似的序列往往具有同源性。相似性(Similarity):两序列根据某种参数设定而表现出来的相近性。574.相似性与同源性同源性(HomologousGen58相似性与同源性的区别相似的序列并不一定同源;相似性是可以被量化的“计分表”,它是匹配的数量除以比对的长度,通常以百分比%表示;同源性一定是指序列来自共同的祖先;同源性是一个定性的概念,不能使用序列间具有百分之多少同源性来定义。58相似性与同源性的区别相似的序列并不一定同源;59同源性分类直系同源(Orthologs):具有共同祖先与相似功能的同源基因(无基因复制事件)。旁系同源(Paralogs):两个物种A和B的同源基因,分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代。59同源性分类直系同源(Orthologs):具有共同祖先与60Sothismeans…60Sothismeans…第二节多序列比对
(MultipleAlignments)第二节多序列比对
(Multiple寻找蛋白质家族,识别多个序列的保守区域;相似的蛋白质序列往往具有相似的结构与功能;辅助预测新序列的二级或三级结构;可以直观地看到基因的哪些区域对突变敏感;PCR引物设计;我们为什么做多序列比对?寻找蛋白质家族,识别多个序列的保守区域;我们为什么做多序列比分析多个序列的一致序列;用于进化分析,是用系统发育方法构建进化树的初使步骤;寻找个体之间单核苷酸多态性(SNPs);通过序列比对发现直系同源(Orthologs)与旁系同源(Paralogs)基因;寻找同源基因(相似的序列往往具有同源性)。我们为什么做多序列比对?分析多个序列的一致序列;我们为什么做多序列比对?多序列比对与进化研究例子图中NYLS为树根多序列比对与进化研究例子图中NYLS为树根一个多序列比对例子VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--一个多序列比对例子VTISCTGSSSNIGAG-NHVKW多序列比对方法全局序列比对动态规划算法
(DynamicProgrammingAlgorithm)分而治之方法
(DivideandConquerMethods)SP方法
(SumofPairsMethods)
累进方法
(ProgressiveMethods)迭代方法
(IterativeMethods)局部序列比对概形分析
(Pro)区块分析
(BlockAnalysis)统计学方法
(StatisticalMethods)多序列比对方法全局序列比对在多序列比对前要考虑的问题比对的优劣与序列条数正相关每个亚群应分别先比对,然后再整体比对在多序列比对前要考虑的问题比对的优劣与序列条数正相关一、全局序列比对
动态规划算法
(DynamicProgrammingAlgorithm)分而治之方法
(DivideandConquerMethods)SP方法
(SumofPairsMethods)
累进方法
(ProgressiveMethods)迭代方法
(IterativeMethods)遗传算法
(GeneticAlgorithms)一、全局序列比对
动态规划算法(DynamicProgr序列长度为n
的双序列比对n2
比对比对数目成指数增长例如:序列长度为n,序列数为N
的多序列比对数目是nN对于数目较少且较短的序列来说都不切实际1.动态规划算法(DynamicProgramming)1.动态规划算法(DynamicProgramming)Sequence1Sequence2Sequence3多维的动态规划算法Sequence1Sequence2Sequence3分而治之
(DivideandConquer,DCA)方法将MSA(MeasurementSystemAnalysis)的空间复杂度减小DCA在线MSA
2.分而治之方法分而治之(DivideandConquer,DCA)Soineffect…Sequence1Sequence2Sequence3Soineffect…Sequence1Sequen3.SP(SumofPairs)方法为了找到最佳比对,并解决动态规则算法的计算复杂问题,Carrillo&Lipman(1988)发明了SP(SumofPairs)方法SP方法通过对一个随机数据矩阵中氨基酸对的所有可能组合的记分求和来获得矩阵记分3.SP(SumofPairs)方法为了找到最佳比对,4.累进算法(ProgressiveMethods)针对基于动态规划算法的MSA程序比对序列数目有限,Feng&Doolittle(1987)发明了累进算法CLUSTAL和PILEUP是目前常用的基于累进算法的比对软件CLUSTAL是免费软件,目前应用非常广泛
igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html4.累进算法(ProgressiveMethods)针对1对所有序列做双序列比对,构建距离矩阵计算相似性分数值2基于双序列距离矩阵,构建一个进化树
Scer
Cele
Dmel
Mouse
Human3依据进化树进行渐进比对
•依据进化树,开始对关系较近的序列进行两两比对
•逐渐加入关系较远的序列进行比对
•构建多序列比对MultiplealignmentScerevisiae[1]Celegans[2]0.640Drosophia[3]0.6340.327Human[4]0.6300.4080.420Mouse[5]0.6190.4050.4690.289累进算法原理1对所有序列做双序列比对,构建距离矩阵计算相似性分数值2一般累进比对方法132513131325254droot一般累进比对方法132513131325254droot果仁糖累进方法
(Pralineprogressivestrategy)13213131325254d4果仁糖累进方法
(Pralineprogressives累进算法的一些问题比对的准确性高度依赖于开始选择的双序列比对序列关系越远发生的错误可能越高选择合适的打分矩阵和罚分准则较困难累进算法的一些问题比对的准确性高度依赖于开始选择的双序列比对ClLUSTALW/X简介ClLUSTAL最初初由Higgins等于1988年创立并不断完善用来多序列比对、概形(Profile)分析和创建进化树ClLUSTAL分为ClLUSTALW和CLUSTALX两种类型ClLUSTAL有用于WINDOWS和UNIX/LINUX的各种版本ClLUSTALW/X简介ClLUSTAL最初初由HiggiCLUSTAL方法进行所有序列间的双序列比对基于双序列比对分数产生一个相邻连接进化树(neighbor-jointree)根据进化树提供的序列间关系按顺序对序列进行比对比对可以用以下两种方法:-slow/accurate-fast/approximateCLUSTAL方法进行所有序列间的双序列比对********CLUSTALW(1.8)MultipleSequenceAlignments********
1.SequenceInputFromDisc2.MultipleAlignments3.Profile/StructureAlignments
4.PhylogenetictreesS.ExecuteasystemcommandH.HELPX.EXIT(leaveprogram)Yourchoice:1<rtn>CLUSTALW********CLUSTALW(1.8)MultiSequencesshouldallbein1file.7formatsaccepted:NBRF/PIR,EMBL/SwissProt,Pearson(Fasta),GDE,Clustal,GCG/MSF,RSF.Enterthenameofthesequencefile:anti.fasta<rtn>SequenceformatisPearsonSequencesassumedtobePROTEINSequence1:ANP4_PSEAM 85aaSequence2:ANP_LIMFE 97aaSequence3:ANPA_PSEAM 82aaSequence4:ANPX_PSEAM 91aaSequence5:ANPY_PSEAM 91aa
CLUSTALWSequencesshouldallbein1f********CLUSTALW(1.8)MultipleSequenceAlignments********1.SequenceInputFromDisc2.MultipleAlignments3.Profile/StructureAlignments4.PhylogenetictreesS.ExecuteasystemcommandH.HELPX.EXIT(leaveprogram)Yourchoice:2<rtn>
CLUSTALW********CLUSTALW(1.8)MultiClustal
W*********************MULTIPLEALIGNMENTMENU******
***************1.Docompletemultiplealignmentnow(Slow/Accurate)2.Produceguidetree3.Doalignmentusingoldguidetreefile4.ToggleSlow/Fastpairwisealignments=SLOW5.Pairwisealignmentparameters6.Multiplealignmentparameters7.Resetgapsbetweenalignments?=OFF8.Togglescreendisplay=ON9.OutputformatoptionsS.ExecuteasystemcommandH.HELPorpress[RETURN]togobacktomainmenuYourchoice:1<rtn>ClustalWEnteranamefortheCLUSTALoutputfile[anti.aln]:<rtn>
EnternamefornewGUIDETREEfile[anti.dnd]:<rtn>StartofPairwisealignmentsAligning...Sequences(1:2)Aligned.Score:62Sequences(1:3)Aligned.Score:59Sequences(1:4)Aligned.Score:84Sequences(1:5)Aligned.Score:83Sequences(2:3)Aligned.Score:68Sequences(2:4)Aligned.Score:80Sequences(2:5)Aligned.Score:79Sequences(3:4)Aligned.Score:81Sequences(3:5)Aligned.Score:80Sequences(4:5)Aligned.Score:98Guidetree:[anti.dnd]StartofMultipleAlignmentThereare4groupsAligning...Group1:Sequences:2Score:1476Group2:Sequences:3Score:1499Group3:Sequences:4Score:1190Group4:Sequences:5Score:1404AlignmentScore3470Consensuslength=102CLUSTAL-Alignment[anti.aln]
EnteranamefortheCLUSTALoMacVector界面的ClustalWMacVector界面的ClustalWClustal
X介绍ClustalX介绍ClustalX介绍ClustalX介绍ClustalX介绍ClustalX介绍ClustalX介绍ClustalX介绍ClustalX介绍ClustalX介绍ExampleMultiplesequencealignmentof7neuroglobinsusingclustalxExampleMultiplesequencealignPILEUPPILEUP是GCG(GeneticsComputerGroup)软件包中的MSA分析工具;与CLUSTAL一样使用累进式整体比对方法(ProgressiveGlobalAlignment);PILEUP开始的双序列比对使用Needleman-Wunsch动态规划算法,所以是全局序列比对,善于比较相似度较高的序列。PILEUPPILEUP是GCG(GeneticsCompOutputofPileup
401
OATNFA1TTCAG......ACACTCAGGTCATCTTCTCAAGCOATNFARTTCAG......ACACTCAGGTCATCTTCTCAAGCBSPTNFATTCAA......ACACTCAGGTCCTCTTCTCAAGCCEU14683TTCAG......ACCCTCAGGTCATCTTCTCAAGCHSTNFRCCCAG......GCAGTCAGATCATCTTCTCGAACSYNTNFTRPCCCAG......GCAGTCAGATCATCTTCTCGAACCATTNFAACCCAG......ACACTCAGATCATCTTCTCGAACCFTNFATCCAG......ACAGTCAAATCATCTTCTCGAACRABTNFMCCCAGATGGTCACCCTCAGATCAGCTTCTCGGGCRNTNFAACCCAGACCCTCACACTCAGATCATCTTCTCAAAAOutputofPileup401OutputofPileupOutputofPileupClUSTAL和PILEUP存在的问题最终的比对结果取决于最初的双序列比对,起初的序列相似度越高比对越准确;如果比对序列间长度差异较大则会生成异常的引导树(guidetrees)从而严重影响多序列比对;所选的记分与罚分标准并不一定适合一组序列中的所有序列。ClUSTAL和PILEUP存在的问题最终的比对结果取决于最对累进比对方法的改进迭代方法策略在比对过程中不断重新比对各亚组序列把亚组序列再排成包括所有序列在内的整体比对获得最优的总比对分数(由成对比对分数相加而成)5.迭代方法
(IterativeMethods)对累进比对方法的改进5.迭代方法(IterativeM二、局部序列比对局部比对(LocalAlignment)方法能够确定序列中高度保守的区域。概形分析(Pro)区块分析(BlockAnalysis)二、局部序列比对局部比对(LocalAlignment)方1.概形分析
(Pro)通过对一组序列进行整体MSA分析,把其中高度保守的区域提出分成小的MSA。这些小的MSA根据其序列与结构的比对得到一个记分矩阵。根据这个矩阵列出每个位置上的残基分数,称为位置特异记分表(PositionSpecificScoringTable)或概形(Profile)。概形(Profile)类似于一个小的MSA,包括匹配、错配、插入和缺失。1.概形分析(Pro)通过对一组序列进行整体MSA分析,概形分析
(Pro)优势:用来寻找一个可能与之匹配的目标序列;用来在一个数据库中搜索一个可能的新的蛋白(pfsearch);通过搜索一个profile数据库来找到提交的序列属于哪一家族(pfscan);比对两个MSA(profiletoprofile)。缺点:所产生的概形仅仅代表MSA本身的序列族变异,如果MSA中的几个序列相似,则衍生的概形将偏向于这些序列。
概形分析(Pro)优势:不同物种HSP70蛋白的profile图左边第一列为一致序列(consensussequence),其余的行的数值表示一致序列中每一个氨基酸出现的频率的对数与随机频率对数的比值,如出现空位,则必须减去空位行在相应位置上的数值。如用其寻找一个长度为100aa的序列,则检查的串为1~10,2~11,…,最高记分区段将是概形最相似部分。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑施工企业法律风险防范培训
- 安检违禁品培训
- 北京市延庆区2024-2025学年九年级上学期期末历史试题(含答案)
- 二零二五年度智能交通系统设计人员劳动合同解除合同
- 二零二五年度私人车辆抵押汽车分期付款合同
- 二零二五年度文化创意产品货款结算与知识产权保护合同
- 幼儿园幼儿舞蹈专业培训
- MTT6701997煤矿井下牵引网络杂散电流防治技术规范
- 合同管理案例分析
- CRM管理系统方案
- 浙江宁波鄞州区市级名校2025届中考生物全真模拟试卷含解析
- 电子招投标平台搭建与运维服务合同
- IATF16949基础知识培训教材
- 食品研发调研报告范文
- 2024-2030年国家甲级资质:中国干热岩型地热资源融资商业计划书
- 2024-2030年中国MVR蒸汽机械行业竞争格局及投资发展前景分析报告
- 食材配送服务方案投标文件(技术方案)
- 中国慢性阻塞性肺疾病基层诊疗指南(2024年)解读
- 二零二四年度赠与合同:关于艺术品捐赠的赠与合同
- 2023年高考真题-化学(福建卷) 含解析
- 缠绕膜项目实施方案
评论
0/150
提交评论