




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
序列比对序列比对1生物序列的同源性指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。同源性生物序列的同源性指从一些数据中推断出的两个基因或蛋白2同源性直系同源旁系同源?同源性直系同源旁系同源?3Beta-球蛋白alpha-球蛋白共同祖先-未知球蛋白Beta-球蛋白alpha-球蛋白共同祖先-未知球蛋白4TheConceptsofOrthologyandParalogyOrthologsandParalogsaretwotypesofhomologoussequences.Orthologydescribesgenesindifferentspeciesthatderivefromacommonancestor.Orthologousgenesmayormaynothavethesamefunction.Paralogydescribeshomologousgeneswithinasinglespeciesthatdivergedbygeneduplication.TheConceptsofOrthologyand5相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一6lipocalinRBP4Lipocalin和RBP4基因在序列上几乎没有相似性,却在结构和功能上有非常高的相似性,被认为是同源基因?是否有问题?lipocalinRBP4Lipocalin和RBP4基因7序列相似性的概念序列比对(aligment)是序列分析的基础,其他一切都建立在序列排比的基础上。ACGCTAGCGCTAGCTGCTAGCTAGACGCTAGCGCTAGCTGCTAGCTAGACGCTAGCGCAAGCTGCTAGCTAG
________________________________序列相似性的概念序列比对(aligment)是序列分析的基础8序列相似性的概念序列比对的目的序列排比是推导蛋白质二级结构的基础是初步蛋白质功能推断的基础可用于蛋白质三级结构的推导可用于推导进化树和解释种间亲缘关系用于分析分子水平的选择压力探测序列之间的相互作用探测启动子单元等序列相似性的概念序列比对的目的序列排比是推导蛋白质二级结构的9最新-生物信息学序列比对-课件10在对一个新测定的蛋白序列进行分析时,比如分析的结果是:这个序列与某种细菌的ATPase相似。这是否意味着这个未知序列就是一个ATPase?答案是不能确定的。在对一个新测定的蛋白序列进行分析时,比如分析的结果是:这个序11MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG-------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND匹配率(identity)两个蛋白质有一定数量的氨基酸在排比的位点上是相同的,即如果38个氨基酸的蛋白质中15个位点相同,我们说它们39.4%相同(39.4%)MSDTPSTGFSIIHPTSSEGQVPPPRHLSLT12相似性(similarity)通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。将保守突变的因素考虑在内,就可以定义各种打分方案(scoringschemes)对两序列的相似程度打分,所得分值即代表其相似的程度。相似性(similarity)通常在某些位点上有一些氨基酸13同源性(homology)只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的。Beta-球蛋白alpha-球蛋白共同祖先-未知球蛋白同源性(homology)只有当两个蛋白质在进化关系上具14序列比较是如何进行的?要分析两个序列是否相似,必须首先作比对分析(alignment)。如何作排比分析?最基本的条件是对序列的相似性做定量分析,然后将序列进行排比,在排比中要用到gaps,insertions,substitutions。对gaps和insertions打分可用较简单的扣分方案,而substitutions的打分则比较复杂,必须先构建出一个计算机的算法矩阵(Matrix),再根据此方案对序列中氨基酸残基之间的差异或相似进行打分。序列比较是如何进行的?要分析两个序列是否相似,必须首先作比对15序列比较是如何进行的?要对两个序列进行排比,必须首先打出其相似性的定量分值,于是需要一个打分矩阵。打分矩阵(ScoringMatrices):给不同的氨基酸配对定义的一系列相似性分值。而一个突变打分方案(mutationdatamatrix)则是根据排比时序列中点突变的情况设计出的打分方案。对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。序列比较是如何进行的?要对两个序列进行排16序列比较是如何进行的?打分矩阵(ScoringMatrices)对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。因此,设计一个打分矩阵,首先必须确定用什么算法模型。在序列排比分析中,打分矩阵只是某个算法模型的量化表现,比对的结果只在该算法模型所划定的范围内有意义。序列比较是如何进行的?打分矩阵(ScoringMatric17生物信息学发展的3个主要阶段萌芽期(60-70年代)形成期(80-90年代):高速发展期(2000-至今)以Dayhoff的替换矩阵和Neelleman-Wunsch算法为代表,它们实际组成了生物信息学的一个最基本的内容和思路:序列比较。它们的出现,代表了生物信息学的诞生(虽然“生物信息学”一词很晚才出现),以后的发展基本是在这2项内容上不断改善。以分子数据库和BLAST等相似性搜索程序为代表。1982年三大分子数据库的国际合作使数据共享成为可能,同时为了有效管理与日俱增的数据,以BLAST、FASTA等为代表工具软件和相应的新算法大量被提出和研制,极大地改善了人类管理和利用分子数据的能力。在这一阶段,生物信息学作为一个新兴学科已经形成,并确立了自身学科的特征和地位以基因组测序与分析为代表。基因组计划,特别是人类基因组计划的实施,分子数据以亿计;基因组水平上的分析使生物信息学的优势得以充分表现,基因组信息学成为生物信息学中发展最快的学科前沿。生物信息学发展的3个主要阶段萌芽期(60-70年代)形成期(18Dayhoff矩阵Neelleman-Wunsch算法Fasta算法blast算法基因组分析计算生物学生物信息学过渡时期生物信息学发展的3个主要阶段萌芽期(60-70年代)过渡期(80-90年代)高速发展时期2000年-至今Dayhoff矩阵Neelleman-Wunsch算法Fas19序列比对的过程建立评分矩阵执行比对(动态规划算法)确定最佳途径Pam250blosum62fastablast序列比对的过程建立评分矩阵执行比对确定最佳途径Pam250b20Dr.MargaretOakleyDayhoff,creditedasthefounderofBio-Informatics,ca.1980历史寻踪最大的成绩或许就是得分矩阵的出现,Dayhoff被称作生物信息学之父或许更合适。
简单了解Dayhoff矩阵Dr.MargaretOakleyDayhoff,c21PhDinChemistry,ColumbiaUniversity,1947WatsonComputingLaboratoryFellow1947-48AtlasofProteinSequenceandStructure1965-1978ProteinSequenceDatabasePhDinChemistry,ColumbiaUni22PAMScoreMatrix(1978)Log-oddsmatrixforPAM250PAMScoreMatrix(1978)Log-o23PAM系列矩阵1.MargaretDayhoff,1978;2.Acceptedpointmutation(PAM):可接受的点突变,氨基酸的改变不显著影响蛋白质的功能;3.进化模型:中性进化,Kimura,1968;PAM系列矩阵1.MargaretDayhoff,1924使用数据1.34个蛋白质超家族;2.72个蛋白质组;3.1572个突变;4.序列相似性>85%功能同源的蛋白质->通过中性进化,引入可接受的点突变;使用数据1.34个蛋白质超家族;功能同源的蛋白质->通25统计氨基酸的替代1.对于同一个group内的蛋白质序列,统计氨基酸可能出现的频率,以及替换的个数;2.注意:不考虑空位;该例中:fFF=13fFY=6fFH=1fYY=6fYF=9统计氨基酸的替代1.对于同一个group内的蛋白质序列,统26对20种氨基酸做相同统计注意:fab不一定等于fba对20种氨基酸做相同统计注意:fab不一定等于fba27PAM1矩阵的构建1.两个蛋白质序列的~1%氨基酸发生变化的时间;2.定义进化时间以氨基酸的变异比例为准,而不是时间;因为各个蛋白质家族进化的速度并不相等;3.PAM2=PAM1*PAM1PAM3=(PAM1)3PAM250=(PAM1)250PAM1矩阵的构建1.两个蛋白质序列的~1%氨基酸发生变化2820种氨基酸的相对突变能力Ala:主观的设定为10020种氨基酸的相对突变能力Ala:主观的设定为10029PAM1的数值氨基酸改变概率值PAM1的数值氨基酸改变概率值30最新-生物信息学序列比对-课件31PAM2矩阵1.基本假设:每个氨基酸的突变的概率独立于前次突变。因此,PAM2=PAM1*PAM1PAM2矩阵1.基本假设:每个氨基酸的突变的概率独立于前次32PAM250矩阵1.PAM250:250%的期望的突变;2.蛋白质序列仍然有15-30%左右的相似性,例如:F->F:32%A->A:13%PAM250矩阵1.PAM250:250%的期望的突变;33PAM250矩阵,乘以100PAM250矩阵,乘以10034打分矩阵的使用1.PAM250:~15-30%的序列相似性;2.PAM120:~40%的序列相似性;3.PAM80:~50%4.PAM60:~60%5.如何选择最合适的矩阵?遍历尝试…打分矩阵的使用1.PAM250:~15-30%的序列相似35PAM矩阵的问题及改进1.PAM系列矩阵存在的问题:A.氨基酸的打分矩阵,不关心核酸;B.进化模型的构建需要系统发育树的分析,因此,成为一个循环论证的问题:序列比对->矩阵构建->打分,进行新的序列比对;C.数据集很小;2.打分矩阵的改进BLOSUM系列矩阵PAM矩阵的问题及改进1.PAM系列矩阵存在的问题:362.BLOSUM矩阵1.BLOCK:蛋白质家族保守的一段氨基酸,无gap,一般几个-上百个氨基酸;2.Prosite家族:至少有一个BLOCK存在于该家族的所有蛋白质序列中;3.分析>500个Prosite家族;4.BLOSUM62:序列的平均相似性为62%的BLOCK构建的打分矩阵;5.最被广泛使用的氨基酸打分矩阵2.BLOSUM矩阵1.BLOCK:蛋白质家族保守的一37序列比较是如何进行的?
----打分矩阵的原理(PrinciplesofScoringMatrices)Blosum矩阵(TheBlosummatrices)Dayhoff模型假设,蛋白质序列各部位进化的速率是均等的。但事实很可能并非如此,因为保守区的进化速率显然低于非保守区。序列比较是如何进行的?
----打分矩阵的原理(Princi38Blosum矩阵(TheBlosummatrices)(blockssubstitutionmatrix)
Henikoff&Henikoff用以下方法解决这一问题。他们采用不同种类蛋白质序列片段的区间(blocks)作排比研究,排比时不加入gaps。这些序列区间对应于高度保守的区域。氨基酸匹配率可通过简单将各区间可能的匹配率加权。再将这些匹配率写如匹配率表。其进化相关机率的计算方法与Dayhoffmatrix相似。Blosum矩阵(TheBlosummatrices)39序列比较是如何进行的?
----打分矩阵的原理(PrinciplesofScoringMatrices)Blosum矩阵(TheBlosummatrices)再以簇群方式将不同进化距离整合进方案内:当两个序列排比的匹配率高于某个阈值时便归为一个簇群。不断将匹配率高于阈值的序列加入簇群内。然后将簇群内所有序列平均。通过簇群方式使得关系紧密的序列在匹配率表中的权重减少,而且随着阈值的减小而减小,从而也象PAM矩阵系列一样产生一系列的矩阵。这个矩阵称为Blosum矩阵。用一个指数来指示簇群的阈值水平,即Blosum80指将序列区间归为簇群时以80%匹配率为阈值。Blosum62最接近于PAM250。序列比较是如何进行的?
----打分矩阵的原理(Princi40最新-生物信息学序列比对-课件41序列比较是如何进行的?
----打分矩阵的原理(PrinciplesofScoringMatrices)Blosum矩阵(TheBlosummatrices)矩阵的使用效果(MatrixPerformance)通过一些测试显示,Blosum矩阵用于在数据库中查找同源性序列时,效果比PAM矩阵好。如上述,矩阵从1到250PAM两极距离太远,可能引起不准确;而Blosum直接从最同源的序列的区间排比获取匹配率,不考虑进化距离。Blosum矩阵的突变数据来源于未加gaps的序列区间排比,相当于蛋白序列的保守区。序列比较是如何进行的?
----打分矩阵的原理(Princi42Relationshipbetweenscoringmatrices.TheBLOSUM62hasbecomeadefactostandardscoringmatrixforawiderangeofalignmentprograms.ItisthedefaultmatrixinBLASTPAM模型可用于寻找蛋白质的进化起源BLOSUM模型则用于发现蛋白质的保守域Relationshipbetweenscoringm43最新-生物信息学序列比对-课件44打分矩阵1.Dayhoff:PAM系列矩阵;2.Henikoff:BLOSUM系列矩阵;3.常用氨基酸打分矩阵:BLOSUM62;!!!!打分矩阵1.Dayhoff:PAM系列矩阵;!!!!45比对算法递归关系(recurrencerelation)列表式运算(tabularcomputation)路径回溯(traceback)动态规画算法比对算法递归关系(recurrencerelation)动46费氏数(Fibonaccinumber)费氏数(Fibonaccinumber)可用下列的递归关系(recurrence)来描述:费氏数(Fibonaccinumber)费氏数(Fibon47F10F9F8F8F7F7F6F0F1F2F3F4F5F6F7F8F9F10011235813213455F10F9F8F8F7F7F6F0F1F2F3F4F5F6F48最新-生物信息学序列比对-课件49Globalalignment
Needleman-WunschalgorithmLocalalignment
Smith-WatermanalgorithmGlobalalignment50在1970年代,分子生物学家Needleman及Wunsch以动态程序设计技巧(dynamicprogramming)分析了氨基酸序列的相似程度;有趣的是,在同一时期,计算科学家Wagner及Fisher也以极相似的方式来计算两序列间的编辑距离(editdistance),而这两个重要创作当初是在互不知情下独立完成的。虽然分子生物学家看的是两序列的相似程度,而计算器科学家看的是两序列的差异,但这两个问题已被证明是对偶问题(dualproblem),它们的值是可藉由公式相互转换的。全局比对在1970年代,分子生物学家Needleman及Wunsc51TheNeedleman-WunschalgorithmLet'sdoasimpleexample,adaptedfromNeedleman&Wunsch'soriginalpaper.First,placethesequencesonamatrixofcells.Ateachcellwheretheaminoacidsareidentical,enteravalueof1.Alltheothercellsareimplicitlygivenascoreof0(zero).TheNeedleman-Wunschalgorithm52Now,startingattheC-terminalendsofthesequencesandworkingtowardtheorigins,addtoeachcellthemaximumvaluefromamongallthecellsdownstreamfromit(notincludingcellsdirectlybelowordirectlytotheright.Let'sdoafewcyclesofthisandseehowthematrixdevelops.Startwiththelastcolumnandlastrow,addinginthezerosNow,startingattheC-termina53Continuewiththenextcolumnandrow.Notethat,onthenext-to-lastrow,thecellsupstreamfromthePxPmatcheachnowgetavalueof1;thecellwiththeDxDmatchgetsavalueof1+1=2,sincethesequencescouldbealignedbeginningwithDtogiveaD....Pmatch(withagap,ofcourse).Aswegoalong,thenumberineachcellwillbethelargestnumberofpairmatchesthatcanbefoundifthatcellistheorigin.Continuewiththenextcolumn54Let'scontinuewiththenextrowandcolumn.AllthreeoftheRxRmatchesgetincrementedby1becauseyoucouldnowgetaR...Palignment,startingatanRxRcell
Let'scontinuewiththenextr55Wewillworkonemorerow&column.Nowthereare5cellscontainingthenumber3.YoucouldstartatANYofthese5cellsand,movingdown&totheright,matchupthesequenceC...R...P!(Remember,aswegoalong,thenumberineachcellwillbethelargestnumberofpairmatchesthatcanbefoundifthatcellistheorigin.)
Wewillworkonemorerow&co56I'vefilledintherestofthetable.Youarewelcometodoitbyhandtocheckmeandtobesureyouunderstandtheprocess
I'vefilledintherestofthe57Inthissimpleexample,therearetwooptimalpathsthroughthematrix:
Inthissimpleexample,there58Herearethetwooptimalalignments
Herearethetwooptimalalign59局部比对TheSmith-Watermanalgorithmisadynamicprogrammingmethodfordeterminingsimilaritybetweennucleotideorproteinsequences.Thealgorithmwasfirstproposedin1981bySmithandWaterma局部比对TheSmith-Watermanalgorit60AnexampleTheSmith-Watermanalgorithmcanbeexemplifiedbythe
comparisonoftwosequences:
SequenceA:CAGCCUCGCUUAGSequenceB:AAUGCCAUUGACGGParametersforthescoringmatrixbeing:,Anexample,61最新-生物信息学序列比对-课件62SequenceB:GCCAUUGSequenceA:GCC-UCGSequenceB:GCCAUUG63Smith
Smith64fasta在分析两个序列时,Smith-Waterman的方法也许勉强可以接受,但如果以它做为数据库搜寻的引擎,那就有些慢了,因为这将会耗费不少宝贵的时光。使用者选定参数ktup(k-tuple,在DNA序列分析时这个值通常设成6到8;蛋白质序列则常使用1到2的值),FASTA只考虑那些长度至少为ktup的那些相似子序列,试着藉由它们找出一些可能有相似性的对角区域(diagonalband),然后再将Smith-Waterman的方法套用在这些小区域上。在BLAST横扫千军前,FASTA曾是最常被用来分析序列的工具。在FASTA中,因为它试着去串联那些ktup序列,所以耗费了不少时间
fasta在分析两个序列时,Smith-Waterman的方65BLAST初版的BLAST则以长度至少为w的相似区段着眼,只往对角线(diagonal)方向试着去延伸,直到分数的降低程度超过使用者所给定的范围为止,因为它完全不考虑间隔(gap),所以非常地有效率,但缺点是有时不够敏锐(sensitive)。不过在第二版的BLAST中,已针对这样的缺点加以修正,它在延伸对角线时采用的策略是跳着延伸(注:延伸对角线耗去了大部份初版BLAST执行的时间),这个立论基础是如果它真是分数很高的相似区段,跳着延伸也不会错过。BLAST初版的BLAST则以长度至少为w的相似区段着眼66blastblast67blastfastablastfasta68blastfastablastfasta69最新-生物信息学序列比对-课件70blastblast71blastblast72知识点总结Pam250blosum62Fasta算法Blast算法DayhoffNeelleman-Wunsch算法Henikoff
Smith-Waterman算法得分矩阵比对算法Pam矩阵blosum矩阵全局比对局部比对知识点总结Pam250blosum62Fasta算法Blas73序列比对序列比对74生物序列的同源性指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。同源性生物序列的同源性指从一些数据中推断出的两个基因或蛋白75同源性直系同源旁系同源?同源性直系同源旁系同源?76Beta-球蛋白alpha-球蛋白共同祖先-未知球蛋白Beta-球蛋白alpha-球蛋白共同祖先-未知球蛋白77TheConceptsofOrthologyandParalogyOrthologsandParalogsaretwotypesofhomologoussequences.Orthologydescribesgenesindifferentspeciesthatderivefromacommonancestor.Orthologousgenesmayormaynothavethesamefunction.Paralogydescribeshomologousgeneswithinasinglespeciesthatdivergedbygeneduplication.TheConceptsofOrthologyand78相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一79lipocalinRBP4Lipocalin和RBP4基因在序列上几乎没有相似性,却在结构和功能上有非常高的相似性,被认为是同源基因?是否有问题?lipocalinRBP4Lipocalin和RBP4基因80序列相似性的概念序列比对(aligment)是序列分析的基础,其他一切都建立在序列排比的基础上。ACGCTAGCGCTAGCTGCTAGCTAGACGCTAGCGCTAGCTGCTAGCTAGACGCTAGCGCAAGCTGCTAGCTAG
________________________________序列相似性的概念序列比对(aligment)是序列分析的基础81序列相似性的概念序列比对的目的序列排比是推导蛋白质二级结构的基础是初步蛋白质功能推断的基础可用于蛋白质三级结构的推导可用于推导进化树和解释种间亲缘关系用于分析分子水平的选择压力探测序列之间的相互作用探测启动子单元等序列相似性的概念序列比对的目的序列排比是推导蛋白质二级结构的82最新-生物信息学序列比对-课件83在对一个新测定的蛋白序列进行分析时,比如分析的结果是:这个序列与某种细菌的ATPase相似。这是否意味着这个未知序列就是一个ATPase?答案是不能确定的。在对一个新测定的蛋白序列进行分析时,比如分析的结果是:这个序84MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG-------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND匹配率(identity)两个蛋白质有一定数量的氨基酸在排比的位点上是相同的,即如果38个氨基酸的蛋白质中15个位点相同,我们说它们39.4%相同(39.4%)MSDTPSTGFSIIHPTSSEGQVPPPRHLSLT85相似性(similarity)通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。将保守突变的因素考虑在内,就可以定义各种打分方案(scoringschemes)对两序列的相似程度打分,所得分值即代表其相似的程度。相似性(similarity)通常在某些位点上有一些氨基酸86同源性(homology)只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的。Beta-球蛋白alpha-球蛋白共同祖先-未知球蛋白同源性(homology)只有当两个蛋白质在进化关系上具87序列比较是如何进行的?要分析两个序列是否相似,必须首先作比对分析(alignment)。如何作排比分析?最基本的条件是对序列的相似性做定量分析,然后将序列进行排比,在排比中要用到gaps,insertions,substitutions。对gaps和insertions打分可用较简单的扣分方案,而substitutions的打分则比较复杂,必须先构建出一个计算机的算法矩阵(Matrix),再根据此方案对序列中氨基酸残基之间的差异或相似进行打分。序列比较是如何进行的?要分析两个序列是否相似,必须首先作比对88序列比较是如何进行的?要对两个序列进行排比,必须首先打出其相似性的定量分值,于是需要一个打分矩阵。打分矩阵(ScoringMatrices):给不同的氨基酸配对定义的一系列相似性分值。而一个突变打分方案(mutationdatamatrix)则是根据排比时序列中点突变的情况设计出的打分方案。对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。序列比较是如何进行的?要对两个序列进行排89序列比较是如何进行的?打分矩阵(ScoringMatrices)对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。因此,设计一个打分矩阵,首先必须确定用什么算法模型。在序列排比分析中,打分矩阵只是某个算法模型的量化表现,比对的结果只在该算法模型所划定的范围内有意义。序列比较是如何进行的?打分矩阵(ScoringMatric90生物信息学发展的3个主要阶段萌芽期(60-70年代)形成期(80-90年代):高速发展期(2000-至今)以Dayhoff的替换矩阵和Neelleman-Wunsch算法为代表,它们实际组成了生物信息学的一个最基本的内容和思路:序列比较。它们的出现,代表了生物信息学的诞生(虽然“生物信息学”一词很晚才出现),以后的发展基本是在这2项内容上不断改善。以分子数据库和BLAST等相似性搜索程序为代表。1982年三大分子数据库的国际合作使数据共享成为可能,同时为了有效管理与日俱增的数据,以BLAST、FASTA等为代表工具软件和相应的新算法大量被提出和研制,极大地改善了人类管理和利用分子数据的能力。在这一阶段,生物信息学作为一个新兴学科已经形成,并确立了自身学科的特征和地位以基因组测序与分析为代表。基因组计划,特别是人类基因组计划的实施,分子数据以亿计;基因组水平上的分析使生物信息学的优势得以充分表现,基因组信息学成为生物信息学中发展最快的学科前沿。生物信息学发展的3个主要阶段萌芽期(60-70年代)形成期(91Dayhoff矩阵Neelleman-Wunsch算法Fasta算法blast算法基因组分析计算生物学生物信息学过渡时期生物信息学发展的3个主要阶段萌芽期(60-70年代)过渡期(80-90年代)高速发展时期2000年-至今Dayhoff矩阵Neelleman-Wunsch算法Fas92序列比对的过程建立评分矩阵执行比对(动态规划算法)确定最佳途径Pam250blosum62fastablast序列比对的过程建立评分矩阵执行比对确定最佳途径Pam250b93Dr.MargaretOakleyDayhoff,creditedasthefounderofBio-Informatics,ca.1980历史寻踪最大的成绩或许就是得分矩阵的出现,Dayhoff被称作生物信息学之父或许更合适。
简单了解Dayhoff矩阵Dr.MargaretOakleyDayhoff,c94PhDinChemistry,ColumbiaUniversity,1947WatsonComputingLaboratoryFellow1947-48AtlasofProteinSequenceandStructure1965-1978ProteinSequenceDatabasePhDinChemistry,ColumbiaUni95PAMScoreMatrix(1978)Log-oddsmatrixforPAM250PAMScoreMatrix(1978)Log-o96PAM系列矩阵1.MargaretDayhoff,1978;2.Acceptedpointmutation(PAM):可接受的点突变,氨基酸的改变不显著影响蛋白质的功能;3.进化模型:中性进化,Kimura,1968;PAM系列矩阵1.MargaretDayhoff,1997使用数据1.34个蛋白质超家族;2.72个蛋白质组;3.1572个突变;4.序列相似性>85%功能同源的蛋白质->通过中性进化,引入可接受的点突变;使用数据1.34个蛋白质超家族;功能同源的蛋白质->通98统计氨基酸的替代1.对于同一个group内的蛋白质序列,统计氨基酸可能出现的频率,以及替换的个数;2.注意:不考虑空位;该例中:fFF=13fFY=6fFH=1fYY=6fYF=9统计氨基酸的替代1.对于同一个group内的蛋白质序列,统99对20种氨基酸做相同统计注意:fab不一定等于fba对20种氨基酸做相同统计注意:fab不一定等于fba100PAM1矩阵的构建1.两个蛋白质序列的~1%氨基酸发生变化的时间;2.定义进化时间以氨基酸的变异比例为准,而不是时间;因为各个蛋白质家族进化的速度并不相等;3.PAM2=PAM1*PAM1PAM3=(PAM1)3PAM250=(PAM1)250PAM1矩阵的构建1.两个蛋白质序列的~1%氨基酸发生变化10120种氨基酸的相对突变能力Ala:主观的设定为10020种氨基酸的相对突变能力Ala:主观的设定为100102PAM1的数值氨基酸改变概率值PAM1的数值氨基酸改变概率值103最新-生物信息学序列比对-课件104PAM2矩阵1.基本假设:每个氨基酸的突变的概率独立于前次突变。因此,PAM2=PAM1*PAM1PAM2矩阵1.基本假设:每个氨基酸的突变的概率独立于前次105PAM250矩阵1.PAM250:250%的期望的突变;2.蛋白质序列仍然有15-30%左右的相似性,例如:F->F:32%A->A:13%PAM250矩阵1.PAM250:250%的期望的突变;106PAM250矩阵,乘以100PAM250矩阵,乘以100107打分矩阵的使用1.PAM250:~15-30%的序列相似性;2.PAM120:~40%的序列相似性;3.PAM80:~50%4.PAM60:~60%5.如何选择最合适的矩阵?遍历尝试…打分矩阵的使用1.PAM250:~15-30%的序列相似108PAM矩阵的问题及改进1.PAM系列矩阵存在的问题:A.氨基酸的打分矩阵,不关心核酸;B.进化模型的构建需要系统发育树的分析,因此,成为一个循环论证的问题:序列比对->矩阵构建->打分,进行新的序列比对;C.数据集很小;2.打分矩阵的改进BLOSUM系列矩阵PAM矩阵的问题及改进1.PAM系列矩阵存在的问题:1092.BLOSUM矩阵1.BLOCK:蛋白质家族保守的一段氨基酸,无gap,一般几个-上百个氨基酸;2.Prosite家族:至少有一个BLOCK存在于该家族的所有蛋白质序列中;3.分析>500个Prosite家族;4.BLOSUM62:序列的平均相似性为62%的BLOCK构建的打分矩阵;5.最被广泛使用的氨基酸打分矩阵2.BLOSUM矩阵1.BLOCK:蛋白质家族保守的一110序列比较是如何进行的?
----打分矩阵的原理(PrinciplesofScoringMatrices)Blosum矩阵(TheBlosummatrices)Dayhoff模型假设,蛋白质序列各部位进化的速率是均等的。但事实很可能并非如此,因为保守区的进化速率显然低于非保守区。序列比较是如何进行的?
----打分矩阵的原理(Princi111Blosum矩阵(TheBlosummatrices)(blockssubstitutionmatrix)
Henikoff&Henikoff用以下方法解决这一问题。他们采用不同种类蛋白质序列片段的区间(blocks)作排比研究,排比时不加入gaps。这些序列区间对应于高度保守的区域。氨基酸匹配率可通过简单将各区间可能的匹配率加权。再将这些匹配率写如匹配率表。其进化相关机率的计算方法与Dayhoffmatrix相似。Blosum矩阵(TheBlosummatrices)112序列比较是如何进行的?
----打分矩阵的原理(PrinciplesofScoringMatrices)Blosum矩阵(TheBlosummatrices)再以簇群方式将不同进化距离整合进方案内:当两个序列排比的匹配率高于某个阈值时便归为一个簇群。不断将匹配率高于阈值的序列加入簇群内。然后将簇群内所有序列平均。通过簇群方式使得关系紧密的序列在匹配率表中的权重减少,而且随着阈值的减小而减小,从而也象PAM矩阵系列一样产生一系列的矩阵。这个矩阵称为Blosum矩阵。用一个指数来指示簇群的阈值水平,即Blosum80指将序列区间归为簇群时以80%匹配率为阈值。Blosum62最接近于PAM250。序列比较是如何进行的?
----打分矩阵的原理(Princi113最新-生物信息学序列比对-课件114序列比较是如何进行的?
----打分矩阵的原理(PrinciplesofScoringMatrices)Blosum矩阵(TheBlosummatrices)矩阵的使用效果(MatrixPerformance)通过一些测试显示,Blosum矩阵用于在数据库中查找同源性序列时,效果比PAM矩阵好。如上述,矩阵从1到250PAM两极距离太远,可能引起不准确;而Blosum直接从最同源的序列的区间排比获取匹配率,不考虑进化距离。Blosum矩阵的突变数据来源于未加gaps的序列区间排比,相当于蛋白序列的保守区。序列比较是如何进行的?
----打分矩阵的原理(Princi115Relationshipbetweenscoringmatrices.TheBLOSUM62hasbecomeadefactostandardscoringmatrixforawiderangeofalignmentprograms.ItisthedefaultmatrixinBLASTPAM模型可用于寻找蛋白质的进化起源BLOSUM模型则用于发现蛋白质的保守域Relationshipbetweenscoringm116最新-生物信息学序列比对-课件117打分矩阵1.Dayhoff:PAM系列矩阵;2.Henikoff:BLOSUM系列矩阵;3.常用氨基酸打分矩阵:BLOSUM62;!!!!打分矩阵1.Dayhoff:PAM系列矩阵;!!!!118比对算法递归关系(recurrencerelation)列表式运算(tabularcomputation)路径回溯(traceback)动态规画算法比对算法递归关系(recurrencerelation)动119费氏数(Fibonaccinumber)费氏数(Fibonaccinumber)可用下列的递归关系(recurrence)来描述:费氏数(Fibonaccinumber)费氏数(Fibon120F10F9F8F8F7F7F6F0F1F2F3F4F5F6F7F8F9F10011235813213455F10F9F8F8F7F7F6F0F1F2F3F4F5F6F121最新-生物信息学序列比对-课件122Globalalignment
Needleman-WunschalgorithmLocalalignment
Smith-WatermanalgorithmGlobalalignment123在1970年代,分子生物学家Needleman及Wunsch以动态程序设计技巧(dynamicprogramming)分析了氨基酸序列的相似程度;有趣的是,在同一时期,计算科学家Wagner及Fisher也以极相似的方式来计算两序列间的编辑距离(editdistance),而这两个重要创作当初是在互不知情下独立完成的。虽然分子生物学家看的是两序列的相似程度,而计算器科学家看的是两序列的差异,但这两个问题已被证明是对偶问题(dualproblem),它们的值是可藉由公式相互转换的。全局比对在1970年代,分子生物学家Needleman及Wunsc124TheNeedleman-WunschalgorithmLet'sdoasimpleexample,adaptedfromNeedleman&Wunsch'soriginalpaper.First,placethesequencesonamatrixofcells.Ateachcellwheretheaminoacidsareidentical,enteravalueof1.Alltheothercellsareimplicitlygivenascoreof0(zero).TheNeedleman-Wunschalgorithm125Now,startingattheC-terminalendsofthesequencesandworkingtowardtheorigins,addtoeachcellthemaximumvaluefromamongallthecellsdownstreamfromit(notincludingcellsdirectlybelowordirectlytotheright.Let'sdoafewcyclesofthisandseehowthematrixdevelops.Startwiththelastcolumnandlastrow,addinginthezerosNow,startingattheC-termina126Continuewiththenextcolumnandrow.Notethat,onthenext-to-lastrow,thecellsupstreamfromthePxPmatcheachnowgetavalueof1;thecellwiththeDxDmatchgetsavalueof1+1=2,sincethesequencescouldbealignedbeginningwithDtogiveaD....Pmatch(withagap,ofcourse).Aswegoalong,thenumberineachcellwillbethelargestnumberofpairmatchesthatcanbefoundifthatcellistheorigin.Continuewiththenextcolumn127Let'scontinuewiththenextrowandcolumn.AllthreeoftheRxRmatchesgetincrementedby1becauseyoucouldnowgetaR...Palignment,sta
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业污染场地修复2025年技术方案成本效益分析及环境保护产业政策优化报告
- 自己的商铺租赁合同范本
- 美术合作办学合同协议书
- 社会人员招聘劳动协议书
- 风能叶模板维修合同范本
- 汽修维保合同协议书模板
- 自助美甲店转让合同范本
- 网络通讯协议书结构模板
- 第三方检测合同检测协议
- 砂场工人安全合同协议书
- 2025至2030风力发电用高强度螺栓行业发展趋势分析与未来投资战略咨询研究报告
- 校园绿化具体管理办法
- 重庆市主城区七校联考2024-2025学年高一下学期期末考试生物学试题
- 关于环境安全的论文
- 智慧教育基于大数据的个性化教学研究与实践
- 2025年中国铁路集团招聘笔试备考题库(带答案详解)
- 用工风险培训课件
- 海外现场安全健康环境管理(HSE)
- 无损检测超声波技术应用与原理
- 班主任与科任老师的协调教育
- 2025年广东省中考历史试题卷(含答案详解)
评论
0/150
提交评论