蛋白质结构和功能预测学习资料_第1页
蛋白质结构和功能预测学习资料_第2页
蛋白质结构和功能预测学习资料_第3页
蛋白质结构和功能预测学习资料_第4页
蛋白质结构和功能预测学习资料_第5页
已阅读5页,还剩157页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质结构和功能预测Structureandfunctionpredictionofproteins李琬生物物理教研室分子生物学馆212liwan@教学大纲掌握:DSSP编号,Chou-Fasman方法,GOR方法,基于已有知识的预测方法了解:机器学习方法结构预测功能预测△※※结构预测二级结构预测三级结构预测△※△※△※蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步。二级结构预测(Secondarystructureprediction)α-螺旋β-折叠转角无规则卷曲蛋白质中约85%的氨基酸残基处于3种基本二级结构状态(α螺旋、β折叠和转角)二级结构预测的目标是判断每一个氨基酸残基是否处于α螺旋、β折叠和转角(或其它状态)。最新方法的预测准确性达到80%。(1)DSSP编号(2)CF方法(3)GOV方法(4)机器学习方法(5)基于已有知识的预测方法(6)多序列比对预测(7)二级结构预测相关软件(1)DSSP(DefineSecondaryStructureofProteins)编号G:3转角螺旋,最短长度为3个残基。H:α螺旋,最短长度为4个残基。I:5转角螺旋,最短长度为5个残基。E:平行的β折叠,最短长度为2个残基。B:一对β折叠氢键。T:氢键转角(3、4或5个转角)。S:弯曲(唯一非氢键的指定)。C:卷曲。空格:其他。H:H,GandI,螺旋E:BandE,折叠C:allotherstates,卷曲(2)Chou-Fasman(CF)方法每种氨基酸出现在各种二级结构中倾向或者频率是不同的谷氨酸Glu主要出现在α螺旋中天冬氨酸Asp和甘氨酸Gly主要分布在转角中脯氨酸Pro也常出现在转角中,但是绝不会出现在α螺旋中基于单个氨基酸残基的经验预测方法。通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,预测蛋白质的二级结构。预测成功率并不高,仅有50%左右。倾向性因子

表示二级结构状态

是所有被统计残基处于二级结构的比例

是第A种残基处于结构的比例

大于1.0表示该残基倾向于形成二级结构参数在α螺旋、β折叠和转角中出现频率的大小转角参数每种残基出现在转角第一~四位的频率基本思想在序列中寻找规则二级结构的成核位点和终止位点。延伸延伸成核区终止位点终止位点步骤α螺旋α螺旋核:相邻的6个残基中有至少4个残基对应的Pα>100。D

L

G

D

K

F

RL

VI

APα101121

57

101

114

113

98

121106

108

142Pβ54

130

7554

74

16083终止位点:四肽α片段Pα的平均值小于100。D

L

G

D

K

F

RL

VI

APα101121

57

101

114

113

98

121106

108

142Pβ54

130

7554

74

16083片段长度大于5,且Pα的平均值大于Pβ的平均值。D

L

G

D

K

F

RL

VI

APα101121

57

101

114

113

98

121106

108

142Pβ54

130

7554

74

16083107.5105.5β折叠β折叠核:相邻5个残基中有至少3个残基对应的Pβ>100。D

L

G

D

K

F

RL

VI

APβ54

130

7554

74

16083Pα101121

57

101

114

113

98

121106

108

142D

L

G

D

K

F

RL

VI

APβ54

130

7554

74

16083Pα101121

57

101

114

113

98

121106

108

142终止位点:4个残基Pβ的平均值小于100。片段的Pβ的平均值大于105,且Pβ的平均值大于Pα的平均值。114.6121.1D

L

G

D

K

F

RL

VI

APβ54

130

7554

74

16083Pα101121

57

101

114

113

98

121106

108

142重叠若重叠区域Pα的均值大于Pβ的均值,则预测为螺旋;反之,预测为折叠。

D

L

G

D

K

F

RL

VI

APα101121

57

101

114

113

98

121106

108

142Pβ

54

130

7554

74

16083如果折叠区域重新分配后,剩下的螺旋或者折叠的长度小于5,则取消其分配的二级结果。

D

L

G

D

K

F

RL

VI

APα101121

57

101

114

113

98

121106

108

142Pβ

54

130

7554

74

16083转角从第j个残基开始的连续4个残基片段 p(t)=f(j)f(j+1)f(j+2)f(j+3)p(t)>0.000075;0.000088LGDKf0.0610.0850.1790.095Pt59156146101Pα12157101114Pβ130755474四肽片段Pt的平均值大于100;且Pt的均值同时大于Pα的均值以及Pβ的均值。LGDKf0.0610.0850.1790.095Pt59156146101Pα12157101114Pβ130755474115.598.383.3

A

S

T

L

Y

E

DGT

Lα螺旋:Pα(4/相邻6个残基)>100。Pα(4)<100。长度>5,Pα>Pβ。β折叠:Pβ(3/相邻5个残基)>100。Pβ(4)<100。Pβ>105,Pβ>Pα。重叠:Pα?Pβ。长度>5。转角:p(t)=f(j)f(j+1)f(j+2)f(j+3)>0.000075。Pt(4)>100,Pt>Pα,Pt>Pβ。/gor/(3)GOR方法基于信息论和贝叶斯统计学的方法。将蛋白质序列当作一连串的信息值来处理预测成功率65%。不仅考虑了被预测位置本身氨基酸残基种类的影响,而且考虑了相邻残基种类对该位置构象的影响。序列窗口中心残基分析已知二级结构的蛋白样本,计算出中心残基的二级结构分别为螺旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率。表示α螺旋、β折叠或转角表示一种氨基酸残基

信息若和无关,即,则若的发生有利于的发生,即,则若的发生不利于的发生,则,。产生17×20的得分矩阵利用矩阵中的值计算待预测序列中每个残基形成螺旋、折叠或转角的概率。α螺旋β折叠转角位置氨基酸处于二级结构类型的信息值中心残基r的二级结构预测为最大的二级结构类型。GORV加入进化信息PSI-BLAST准确率73.5%(4)机器学习(Machinelearning)方法最邻近(nearestneighbor)方法将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分,构建出待预测片段的二级结构。相似性大于30%的序列,预测准确率高。神经网络(Neuralnetwork)方法使用已知结构作为训练集,根据输入的一级结构和二级结构的关系信息不断调整各单元之间的权重,最终目标是找到一种好的输入与输出的映象,并对未知二级结构的蛋白进行预测。准确率约70%。ADeepLearningNetworkApproachtoabinitioProteinSecondaryStructurePrediction深度学习的概念源于人工神经网络的研究含多隐层的多层感知器就是一种深度学习结构。支持向量机(Supportvectormachines,SVM)可以很好地预测转角所需训练集较小SecondaryStructurePredictionbyChou-Fasman,GORandNeuralNetworkhttp://cib.cf.ocha.ac.jp/bitool/MIX/2F3IXXXXXXEEEEEEEEEEXXXXSSTTEEEEEEEESSSXXEEEEEEEXTTSSSTTXXXEEEEXSXXXXSSSSSTTTXSSSTTSTTSXTTTTSEEEXEEEEXXSSXXSSSSXXSSEEEEEEETTEEEEEEEXHHHHTXXSTTSTTSEEEEEXXXCFCEEHHHHHCCCCCCCCCHHHHEEEEHHHHHHCHHHHHHHEEEEEEEEEEEHHHHHEEEEEEEECCCEECCCCCCCCCCCCCCHHHHHCCEECEEEEECCCCCEEHHHHHCCEEEEECEEHHHHHHHCCCCCCCCCCEEEEEHHHHHHCCCGORHHHHHHHHHHHHHCCCHTTHHHHHHHTTHHHHHHHHHHHHHHHCCEECCCCCTCHHEEEEETEEETTTCCCTTTCCCCCCCTCTTTHHHHEHTTCEEEETTCTHHHHHHHHEEEEEETTCEEEEEHTTTTTTTTEEHHHHHHHHHHHHHHNNCCCCCCCCCCCCCCCCCCCCCCCCHHHHCCCCCCHHHHHHHHCCCCCCCCCCCCCCEEEEECCCCCCCCCCCCCCCCCCCCCCCCCHHHHHHHCCCEEEECCCCCCHHHHHHHEEHHCCCCEEHHCCCCCCCCCCHHHHHHHHHHHHHHH29%30%31%根据氨基酸残基的物理化学性质:疏水性、亲水性、带电性以及体积大小等,考虑残基之间的相互作用。对于小于50个氨基酸残基的肽链,预测准确率可以达到73%。(5)基于已有知识(knowledge)的预测方法Lim方法疏水氨基酸丙氨酸(A)缬氨酸(V)亮氨酸(L)异亮氨酸(I)脯氨酸(P)苯丙氨酸(F)色氨酸(W)甲硫氨酸(M)亲水氨基酸甘氨酸(G)丝氨酸(S)苏氨酸(T)半胱氨酸(C)酪氨酸(Y)天冬酰胺(N)谷氨酰胺(Q)赖氨酸(K)精氨酸(R)组氨酸(H)天冬氨酸(D)谷氨酸(E)α螺旋序列第i、i+3、i+4位(如1、4、5)是疏水残基;第i、i+1、i+4位(如7,8,11)为疏水残基。

D

L

G

D

K

F

R

L

VI

A疏水¤¤¤¤¤¤亲水◎◎◎◎◎β折叠埋藏的β折叠通常由连续的疏水残基组成一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式

D

L

G

D

K

F

R

L

VI

A疏水¤¤¤¤¤¤亲水◎◎◎◎◎点模式(bitpattern)方法八残基片段以一个二进制位代表一个残基,疏水为1,亲水为0,共八位。八残基片段的亲疏水模式可用0

255的数值表示预测准确率为55%左右当序列长度小于50时,准确率较高。

D

L

G

D

K

F

R

L

VI

A疏水¤¤¤¤¤¤亲水◎◎◎◎◎

D

L

G

D

K

F

R

L

VI

A疏水111111亲水0

0

0

0

0α螺旋的特征模式对应的值:9,12,13,17,18,19,25,27,29,31,34,36,38,44,45,46,47,50,51,54,55,59,61,62,77,201,205,217,219,237β折叠的特征模式:由连续的1或交替的01构成无规则卷曲其他

D

L

G

D

K

F

R

L

VI

A疏水

¤¤¤¤¤¤亲水◎◎◎◎◎

D

L

G

D

K

F

R

L

VI

A疏水

0

100010111120212223242526271248163264128162209232244A

S

T

L

Y

E

DGT

L¤◎◎¤◎◎◎◎◎¤1001000001教学大纲掌握:二级结构预测软件,比较建模法,折叠识别法,从头预测法,基于相似性的方法,基于三维基序的方法了解:多序列比对预测,CASP和CAFASP实验及其发现,蛋白质功能预测的意义,基于表面的方法,基于机器学习的方法(6)多序列比对(multiplesequencealignment)预测假设序列家族中的同源区有同样的二级结构。对序列进行多序列比对,找到和未知序列相似的序列家族,其构象由多个同源序列对应位置的构象决定取出现次数最多的构象,或对各种可能的构象给出得分值。结合神经网络、机器学习等方法准确性80%单序列预测所提供的信息只是残基的顺序而没有其空间分布的信息预测准确率不高多序列比对预测提高了二级结构预测的准确度(7)二级结构预测相关软件NameMethoddescriptionLinkSPIDER2ThemostcomprehensiveandaccuratepredictionbyiterativeDeepNeuralNetwork(DNN)forproteinstructuralpropertiesincludingsecondarystructure,localbackboneangles,andaccessiblesurfacearea(ASA)serverRaptorX-SS8predictboth3-stateand8-statesecondarystructureusingconditionalneuralfieldsfrom

PSI-BLASTprofilesserverNetSurfPProfile-basedneuralnetworkserverGORInformationtheory/BayesianinferenceGORVJpredNeuralnetwork

assignmentserverMeta-PPConsensuspredictionofotherserversserverPREDATORKnowledge-baseddatabasecomparisonserverPredictProteinProfile-basedneuralnetworkserverPSIPREDtwofeed-forward

neuralnetworks

whichperformananalysisonoutputobtainedfrom

PSI-BLASTserverPSSpredMultiple

backpropagation

neuralnetwork

predictorsfrom

PSI-BLAST

profilesserverFrag1DPredictionofbothsecondarystructureandShapeStrings(discretestatesofdihedralangles)usingprofilebasedfragmentmatchingmainpageJpredpbio.dundee.ac.uk/jpred4/index.html基本原理通过DSC、PHD、NNSSP、PREDATOR、ZPRED和MULPRED六种预测方法进行预测,它们都采用了多重序列的进化信息。NNSSP依据最大同源性PDH采用神经网络DSC根据线性识别MULPRED联合不同的单一序列预测方法PREDATOR考虑氢键倾向性ZPRED加权预测最后将六个结果总结为一个简单的文件格式。PREDATORhttp://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::predator基于知识的数据库比较2F3IXXXXXXEEEEEEEEEEXXXXSSTTEEEEEEEESSSXXEEEEEEEXTTSSSTTXXXEEEEXSXXXXSSSSSTTTXSSSTTSTTSXTTTTSEEEXEEEEXXSSXXSSSSXXSSEEEEEEETTEEEEEEEXHHHHTXXSTTSTTSEEEEEXXXJpredXXXXEEEEEEEEEEXXXXXXEEEEEEEEEEEEXXXXEEEEEEEXXXXEXXXXXXEEEEEEEXXXXXXXXXXXXXXXXXXXXXXXXXXXXEEEEEEEEEEEEXXXXXXXXEEEEEEEEEXXXEEEEEXXXXXXXXXXXXXXEEEEEEXXXXPREDATORXXXXXXXXEEEEEEXXXXXXXXXXXXXXXXXXHHHHHHHHHHHHEEEEEXXXXXXEEEEEEXXXXXXXXXXXXXXXXXXXXXXXHHHHHHHXXXEEEEEEXXXHHHHHHHHHHHHHXXXXXEEEXXXXXXXXXXXXXXXXHHHHHHHXXX50%30%三级结构预测(1)比较模建法(2)折叠识别法(3)从头预测法(4)CASP、CAFASP实验及其发现△※(1)比较建模(comparativemodeling)

(同源建模)目前预测结构最成功的方法主要思想对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。序列相似性越高,结构正确性、可信度就越高。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。序列A150个氨基酸序列B300个氨基酸相似度50%若目标蛋白质分子所属的系统中有一个以上的分子有已知结构,并且和参考分子的序列相似程度在25%以上时,一般而言可用同源建模方法得到目标分子的合理模型。若没有精确结构的蛋白质分子可供参考,或序列相似程度低于25%,以比较建模方法来建立蛋白质分子模型成功的机会就不高,此时需利用其它实验数据的协助。步骤模板识别和初始比对比对校正主链生成环区建模侧链建模模型优化模型确证模板识别和初始比对BLAST与PDB中所有已知结构序列比较比对校正采用更精致的方法以取得更优的比对。多序列比对CLUSTALW一致性比较高的蛋白质结构;高分辨率和低R值的结构;结构越完整越好。主链生成拷贝在与模型序列的比对结果中出现的模板残基的坐标。残基不同,只拷贝主链原子的坐标。残基相同,拷贝侧链坐标。环区建模环区:预测序列未能与模板结构比对上的区域序列的缺失:略去模板中的残基;模板的缺失:将模板的主链截断,插入缺少的残基。主链产生构象变化。预测环区构象。基于知识:从PDB中搜索与将被插入的环区两端能够匹配的已知环区,复制其构象。基于能量:用能量函数判别环区的质量,最小化该函数,获得最好的环区构象。侧链建模从高分辨率晶体结构中提取的常见构象体库,各个构象体被依次尝试并由不同能量函数打分。模型优化预测侧链构象体

引起主链移动

新的主链下的侧链构象体…

过程收敛。对模型进行分子动力学模拟。模拟蛋白质的运动,仿真其实际折叠过程。模型确证质量验证。NameDescriptionLinkRaptorXremotehomologydetection,protein3Dmodeling,bindingsitepredictionserverCPHModelFragmentassemblyserverESyPred3DTemplatedetection,alignment,3DmodelingserverGeno3DSatisfactionofspatialrestraintsserverHHpredTemplatedetection,alignment,3DmodelingServerLOMETSLocalMetathreadingserverServerMODELLERSatisfactionofspatialrestraintsServerPhyreandPhyre2Remotetemplatedetection,alignment,3Dmodeling,multi-templates,abinitioserverBHAGEERATH-HCombinationofabinitiofoldingandhomologymethodsserverSTRUCTUROPEDIAWebInterfacetoMODELLERserverSWISS-MODELLocalsimilarity/fragmentassemblyserverSWISS-MODEL/自动蛋白质同源建模服务器。先在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。(2)折叠识别法(Threading)远程同源蛋白质的氨基酸序列大不相同,但是却拥有极为相似的折叠类型。折叠识别(foldrecognition)建立序列到结构的线索的过程折叠(fold)无论有无共同的进化起源,只要具有相同排列和拓扑结构的主要二级结构,即将蛋白质分类为具有相同的折叠。具有相同折叠的不同蛋白质具有不同大小和构象的二级结构和转角区的外围元件。主要思想利用氨基酸的结构倾向(如二级结构、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。假定被预测蛋白质序列的折叠类型与某一已知结构的蛋白质的折叠类型相同。与已知空间结构的蛋白质比对组成已知三维折叠结构的数据库一种适合于进行序列-结构比对的三维折叠信息的表示方法一个序列-结构匹配函数对匹配程度进行打分建立最优线索的策略,或是进行序列-结构比对的策略一种评价序列-结构比对显著性的方法实现过程给定一个结构未知的序列及一些蛋白质的结构,目标序列与已知折叠结构进行比较。使用评价序列与结构匹配优劣的函数作为判别标准,找到目标序列最佳的折叠结构。以此预测目标蛋白结构。NameDescriptionLinkRaptorXRemotetemplatedetection,single-templateandmulti-templatethreading,totallydifferentfromandmuchbetterthantheoldprogramRAPTORdesignedbythesamegroupserverHHpredTemplatedetection,alignment,3DmodelingserverI-TASSERCombinationofabinitiofoldingandthreadingmethodsServermGenTHREADER/GenTHREADERSequenceprofileandpredictedsecondarystructuremainpageMUSTERprofile-profilealignmentServerPhyreandPhyre2Remotetemplatedetection,alignment,3Dmodeling,multi-templates,abinitioServerSUPERFAMILYHiddenMarkovmodelingmainpageSPARKS-X3DstructuremodelingbyFoldrecognitionaccordingtoSequenceprofilesandstructuralprofilesServerBBSP-BuildingBlocksStructurePredictorHybridtemplate-basedmainpagePhyre2http://www.sbg.bio.ic.ac.uk/~phyre2/html/page.cgi?id=index基于每个蛋白特异的位点打分矩阵进行profile-profile比对。Template-basemodeling

TBM(3)从头预测(Ab

initio)法没有已知结构的同源蛋白质没有已知结构的远程同源蛋白质组成一种蛋白质的几何表示方法对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基一种能量函数及其参数,或者一个合理的构象得分函数计算各种构象的能量通过对已知结构的蛋白质进行统计分析,可以确定蛋白质构象能量函数中的各个参数或者得分函数一种构象空间搜索技术选择一个优化方法,以便对构象空间进行快速搜索,迅速找到与某一全局最小能量相对应的构象关键构象空间搜索能量函数的建立NameDescriptionLinkEVfoldEvolutionarycouplingscalculatedfromcorrelatedmutationsinaproteinfamily,usedtopredict3Dstructurefromsequencesaloneandtopredictfunctionalresiduesfromcouplingstrengths.PredictsbothglobularandtransmembraneproteinsServerQUARKMonteCarlofragmentassemblyServerI-TASSERThreadingfragmentstructurereassemblyServerCABS-FOLDServerfordenovomodeling,canalsousealternativetemplates(consensusmodeling)serverBhageerathAcomputationalprotocolformodelingandpredictingproteinstructuresattheatomiclevelServerPEP-FOLDDenovoapproach,basedonaHMMstructuralalphabetServerEVfold/evfold-web/evfold.do(4)CASP、CAFASP实验及其发现CASP:结构预测评估,CriticalAssessmentofStructurePredictionCAFASP:全自动结构预测评估,CriticalAssessmentofFullyAutomatedStructurePrediction由一个或多个结构域组成的,已测定但尚未发表、或有望得到NMR或X射线蛋白质结构的序列提供给CASP和CAFASP的研究组各研究组对序列的三维结构进行预测,将结果提交服务器进行独立的评价。以定量方式衡量多个研究组在预测结构中取得的成功。/TemplateBasedProteinStructureModelingbyGlobalOptimizationinCASP11CRFalign折叠识别能量折叠数据库CD-HIT质量评价过程QA1排秩模板模板分组ModCSA,生成8个模板列表用MSACSA对每个模板列表中的15个模板进行多序列比对功能预测意义方法※蛋白质是调控和实现所有生物功能的分子机器。结构蛋白-胶原酶-维持和增强结缔组织机械酶-肌浆球蛋白-实现宏观和微观上的运动各种酶-参与生理功能某些蛋白质与DNA或RNA相互作用产生新的蛋白质意义深入理解生命运动规律更好地理解疾病发生机制,用于治疗和药物设计GeneOntology(GO)方法实验方法计算方法※(1)基于结构相似性的方法(2)基于三维基序的方法(3)基于表面的方法(4)基于机器学习的方法(1)基于结构相似性(similarity)的方法在进化中保守的蛋白质高级结构通常对应某

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论