蛋白质的序列分析及结构预测

上传人：1*** IP属地：广东上传时间：2023-06-06 格式：PPT 页数：139 大小：25.21MB 积分：15 举报 版权申诉

已阅读5页，还剩134页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

蛋白质的序列分析及结构预测当前第1页\共有139页\编于星期六\10点DNAsequenceProteinsequenceProteinstructureProteinfunction当前第2页\共有139页\编于星期六\10点一、蛋白质数据库介绍二、蛋白质序列分析三、蛋白质结构预测四、应用分子设计当前第3页\共有139页\编于星期六\10点一、蛋白质数据库介绍蛋白质的结构主要分为四级,一级结构、二级结构、三级结构以及四级结构。依据这种结构层次,将蛋白质数据库分为:1.蛋白质序列数据库：如PIR、SWISS-PROT、NCBI,这些数据库的数据主要以蛋白质的序列为主,并赋予相应的注释;2.蛋白质模体及结构域数据库：如PROSITE、Pfam,这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列;3.蛋白质结构数据库：如PDB等,这些数据库主要以蛋白质的结构测量数据为主;4.蛋白质分类数据库：如SCOP、CATH、FSSP等,这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。当前第4页\共有139页\编于星期六\10点蛋白质数据库特征:

这些数据库种类有差别,但内部是相互联系的.

每个数据库都有指针指向其他数据库,而且数据库之间的序列以及相应的结构是共享的,同一种蛋白质依次会出现在不同的数据库.这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息,这些数据库是融序列信息的索取、处理、存储、输出于一身的。当前第5页\共有139页\编于星期六\10点1.蛋白质序列数据库（1）PIR(proteininformationresource,PIR)和PSD(proteinsequencedatabase,PSD)

PIR-PSD是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD的序列来自于将GenBank/EMBL/DDBJ三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。（2）SWISS-PROT/TrEMBL数据库

数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。当前第6页\共有139页\编于星期六\10点2.模体以及结构域数据库模体数据库（1）PROSITE蛋白质家族及结构域数据库(/)PROSITE数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,即使在蛋白质序列相似性很低的情况下,也可以通过搜索隐含的功能结构模体(motif)来鉴定,因此是有效的序列分析数据库。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等,此外PROSITE还包括由多序列比对构建的序列表谱(profile),能更敏感地发现序列中的信息。当前第7页\共有139页\编于星期六\10点PROSITE同时数据库提供了序列分析工具:①ScanProsite

是用于搜索所提交的序列数据是否包含PROSITE数据库中的序列模式或者SWISS-PROT数据库中已提交的序列模式;②MotifScan

用于查找未知序列中所有可能的已知结构组件,数据库包括PROSITE序列表谱、PROSITE模式、Pfam收集的隐马尔可夫模式(HMM)。当前第8页\共有139页\编于星期六\10点(2)PRINTSFingerprintDatabase

这个数据库包含1500个蛋白质指纹图谱,编码9136个单一模体。(3)BLOCKS(

)BLOCKS是通过一些高度保守的蛋白质区域比对出来的无空位的片段。模体数据库当前第9页\共有139页\编于星期六\10点蛋白质结构域数据库

(1)蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam(proteinfamiliesdatabaseofalignmentsandHMMs)Pfam是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是:。(2)蛋白质结构域数据库ProDom

http://(3)SMARTSMART是一个简单的结构研究工具,可对可转移的遗传因子进行鉴定和注解,以及分析结构域结构,可以检测出500多个参与信号传导、胞外和染色体相关蛋白质的结构域家族,对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。

/当前第10页\共有139页\编于星期六\10点3.蛋白质结构数据库PDB(proteindatabank,PDB)

PDB包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据,这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构,并由RCSB维护和注释。当前第11页\共有139页\编于星期六\10点4.蛋白质结构分类数据库(1)CATH数据库

(2)SCOP蛋白质结构分类数据库(structuralclassificationofproteindatabase,SCOP)

当前第12页\共有139页\编于星期六\10点二、蛋白质的序列分析1.蛋白质序列信息的获取

2.蛋白质序列分析

当前第13页\共有139页\编于星期六\10点1.蛋白质序列信息的获取（1）直接测序（2）翻译编码的DNA序列ORFFinder（3）在数据库中搜索运用ID号、入口号、条目号等搜索。运用关键词搜索其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。当前第14页\共有139页\编于星期六\10点（1）直接测序e.g.ProteinSequencingandIdentificationbyTandem

MassSpectrometry，即用串联质谱仪测序1.蛋白质序列信息的获取当前第15页\共有139页\编于星期六\10点串联质谱及其作用两个或更多的质谱连接在一起，称为串联质谱。最简单的串联质谱（MS|MS）由两个质谱串联而成，其中第一个质量分析器（MS1）将离子预分离或加能量修饰，由第二级质量分析器（MS2）分析结果。

当前第16页\共有139页\编于星期六\10点

串联质谱仪的组合方式：(1)磁分析器-静电分析器-磁分析器

(2)静电分析器-磁分析器-静电分析器

(3)三重四极滤质器质谱仪

(4)混合式串联质谱仪，如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。

当前第17页\共有139页\编于星期六\10点

优点：可以避免底物分子产生的干扰，大大降低背景噪音。其次，可使分子离子通过与反应气的碰撞来产生断裂。因此能提供更多的结构信息，所以串联质谱特别适合于复杂组分体系且干扰严重的样品中低含量组分分析测定，具有比GC-MS和LC-MS等一级质谱更高的选择性和灵敏度。当前第18页\共有139页\编于星期六\10点MassesofAminoAcidResidues当前第19页\共有139页\编于星期六\10点ProteinbackboneH...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OHRi-1RiRi+1AAresiduei-1AAresidueiAAresiduei+1N-terminusC-terminus当前第20页\共有139页\编于星期六\10点BreakingProteinintoPeptidesandPeptidesintoFragmentIonsProteases,e.g.trypsin（胰蛋白酶）,breakproteinintopeptides.ATandemMassSpectrometer（串联式质谱仪）furtherbreaksthepeptidesdownintofragmentionsandmeasuresthemassofeachpiece.Generalforsequencing当前第21页\共有139页\编于星期六\10点BreakingProteinintoPeptidesandPeptidesintoFragmentIonsMassSpectrometeracceleratesthefragmentedions;heavierionsaccelerateslowerthanlighterones.MassSpectrometermeasuremass/chargeratioofanion.Generalforsequencing当前第22页\共有139页\编于星期六\10点PeptideFragmentationPeptidestendtofragmentalongthebackbone.FragmentscanalsolooseneutralchemicalgroupslikeNH3andH2O.H...-HN-CH-CO

...

NH-CH-CO-NH-CH-CO-…OHRi-1RiRi+1H+PrefixFragmentSuffixFragmentCollisionInducedDissociation当前第23页\共有139页\编于星期六\10点N-andC-terminalPeptidesN-terminalpeptidesC-terminalpeptides当前第24页\共有139页\编于星期六\10点TerminalpeptidesandiontypesPeptideMass(D)57+97+147+114=415H2OPeptideMass(D)57+97+147+114–18=397H2Owithout当前第25页\共有139页\编于星期六\10点N-andC-terminalPeptidesN-terminalpeptidesC-terminalpeptides415

486

30115457

71185332429当前第26页\共有139页\编于星期六\10点N-andC-terminalPeptidesN-terminalpeptidesC-terminalpeptides415

486

30115457

71185332429当前第27页\共有139页\编于星期六\10点PeptideFragmentationy3b2y2y1b3a2a3

HONH3+||

R1OR2OR3

OR4||||||||||H--NCCNCCNCCNC--COOH|||||||HHHHHHHb2-H2Oy3-H2Ob3-NH3y2-NH3当前第28页\共有139页\编于星期六\10点MassSpectraGVDLKmass057Da=‘G’

99Da=‘V’LK

DVGThepeaksinthemassspectrum:Prefix

Fragmentswithneutrallosses(-H2O,-NH3)Noiseandmissingpeaks.andSuffixFragments.DH2O当前第29页\共有139页\编于星期六\10点ProteinIdentificationwithMS/MSGVDLKmass0Intensitymass0MS/MSPeptideIdentification:当前第30页\共有139页\编于星期六\10点TandemMass-Spectrometry当前第31页\共有139页\编于星期六\10点BreakingProteinsintoPeptidespeptidesMPSER……GTDIMRPAKID……HPLCToMS/MSMPSERGTDIMRPAKIDprotein当前第32页\共有139页\编于星期六\10点MassSpectrometryMatrix-AssistedLaserDesorption/Ionization(MALDI)基质辅助激光解吸质谱

当前第33页\共有139页\编于星期六\10点基质辅助激光解吸飞行时间质谱仪

MALDI-TOF-MSMALDI-TOF-MS是近年来发展起来的一种软电离新型有机质谱。近年来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、糖蛋白、高聚物以及多种合成聚合物的强有力工具。原理：当用一定强度的激光照射样品与基质形成的共结晶薄膜，基质从激光中吸收能量，基质-样品之间发生电荷转移使得样品分子电离，电离的样品在电场作用下加速飞过飞行管道，根据到达检测器的飞行时间不同而被检测，即测定离子的质量电荷之比与离子的飞行时间成正比来检测离子。MALDI-TOF-MS的中心技术就是依据样品的质荷比（m/z）的不同来进行检测，并测得样品分子的分子量。当前第34页\共有139页\编于星期六\10点TandemMassSpectrometryScan1708LCScan1707MSMS/MSIonSourceMS-1collisioncellMS-2当前第35页\共有139页\编于星期六\10点多肽片段指纹图谱（PFF）

步骤：用酶专一性酶解蛋白质，经过分离，得到的肽段在质谱中被选择和破碎后得到MS/MS谱图，与数据库中的谱图比较进行鉴定

代表方法：

LC-ESI-MS/MS2D-LC-MS/MS（shotgun）当前第36页\共有139页\编于星期六\10点1.蛋白质序列信息的获取（2）翻译编码的DNA序列

e.g.用“ORFFinder”程序找到DNA的开放阅读框。网址：当前第37页\共有139页\编于星期六\10点当前第38页\共有139页\编于星期六\10点当前第39页\共有139页\编于星期六\10点1.蛋白质序列信息的获取（3）在数据库中搜索e.g.PIR-PSDdatabase:

SWISS-PROT/TrEMBLdatabase

当前第40页\共有139页\编于星期六\10点目前大部分蛋白质序列是通过DNA人工翻译过来的,实际上很少有人能获得真正的蛋白质,因而实验证据就很难直接获得,因此对蛋白质序列初始分析是很有价值的。比如，通过一些序列分析工具进行蛋白质理化特性的预测、修饰位点的预测等。2.蛋白质序列分析当前第41页\共有139页\编于星期六\10点1.蛋白质序列的基本性质分析理化性质分析，疏水性分析，跨膜区分析，信号肽预测，Coil区分析，亚细胞定位2.序列数据库搜索

相似性搜索，模体的搜索3.结构域定位4.空间结构预测二级结构及三级结构预测，结构预测方法评价

蛋白质序列分析主要内容：当前第42页\共有139页\编于星期六\10点1.蛋白质序列的基本性质分析（1）理化性质分析分子质量、分子式、理论等电点、氨基酸组成、消光系数、稳定性等理化特性。例，利用ProtParam工具

当前第43页\共有139页\编于星期六\10点理化指标CLCLAP分子式C1615H2420N428O535S16C1211H1951N319O364S3分子量36904.426899.9理论等电点pI4.476.20总原子数50143848消光系数（280nm）754555960半衰期（小时）哺乳动物，体外3030酵母，体内>20>20大肠杆菌，体内>10>10不稳定性指数31.7229.59脂肪族指数63.73105.18总体亲水性-0.5420.109CL和CLAP的理化性质预测结果

CL：组织蛋白酶L

CLAP：组织蛋白酶L相关蛋白

当前第44页\共有139页\编于星期六\10点（2）疏水性分析

氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示，蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用。e.g.利用ProtScale工具利用BioEdit软件分析当前第45页\共有139页\编于星期六\10点海参溶菌酶亲水性/疏水性分析Score>0，表示疏水性；Score<0，表示亲水性当前第46页\共有139页\编于星期六\10点（3）跨膜区分析

蛋白质含有跨膜区提示它可能作为膜受体起作用，也可能是定位在膜上的锚定蛋白或离子通道蛋白。例，使用在线分析当前第47页\共有139页\编于星期六\10点铝激活苹果酸的转运蛋白(TaALMT1)跨膜结构分析当前第48页\共有139页\编于星期六\10点（4）信号肽预测信号肽：指分泌蛋白表达时氨基端的20余个氨基酸，将引导该蛋白质最终分泌至细胞外，但这段信号肽会被信号肽酶切掉，所以成熟的分泌蛋白是不含这段信号肽的。用于指导蛋白质的跨膜转移（定位）的N末端的氨基酸序列，一般由15-30个氨基酸组成。使用SignalP在线分析http:///当前第49页\共有139页\编于星期六\10点海参溶菌酶信号肽预测Conclusion：cleavagesitebetweenpos.20and21:ASG-QV当前第50页\共有139页\编于星期六\10点（5）Coil区分析蛋白质中由2-7条α螺旋链相互缠绕形成类似麻花状结构的总称；主要存在形式是2-5条相互缠绕形成的平行或反平行同寡聚体或异寡聚体；是控制蛋白质寡聚化的元件，转录因子、骨架蛋白、动力蛋白、膜蛋白、酶等；七肽重复区。e.g.使用COILS服务器分析http://当前第51页\共有139页\编于星期六\10点（6）亚细胞定位根据氨基酸组成可以进行亚细胞定位不同细胞器多具不同的理化环境，它会根据蛋白质的结构及表面理化特征选择性容纳蛋白质；蛋白质表面直接暴露于细胞器环境中，它由序列折叠过程决定，而后者取决于氨基酸组成。亚细胞定位的步骤在线分析工具e.g.使用TargetPhttp:///当前第52页\共有139页\编于星期六\10点组织蛋白酶CL和相关蛋白CLAP的亚细胞定位蛋白质各亚细胞位点出现可能性（%）细胞质内质网线粒体细胞核空泡分泌性小囊泡高尔基体质膜细胞支架CL34.8--CLAP26.14.313.013.04.317.44.313.04.3结果证明，CL和CLAP出现几率最高的位点都为胞质，说明它们都为胞浆内蛋白，这也为今年来在溶酶体内外都发现组织蛋白酶活性提供了证据。当前第53页\共有139页\编于星期六\10点(1)相似性搜索（或同源搜索）①一个新序列与序列数据库中的序列比对，从而找到同源或者相似序列。②常用程序是BLASTp。2.序列数据库搜索当前第54页\共有139页\编于星期六\10点当前第55页\共有139页\编于星期六\10点(2)模体（motif）的搜索这是另一种序列搜索方法,其目的是寻找蛋白质中结构域或者功能域。这个方法不是给每个位置的氨基酸打分,然后得到一个相似程度,而是直接描述关键的几个保守残基,同时忽略其他位置的氨基酸多态性,这些保守的序列有时会称为“标志”(signature),就是所谓的模式序列(pattern)。当前第56页\共有139页\编于星期六\10点Motif搜索即模体搜索，是序列中局部的保守区域，或是一组序列中共有的一小段序列模式。使用PROSITE数据库进行motif搜索

模式序列常表示为：

[AG]-x-V-x(2)-x-{YW}

[

]showseitheraminoacid

isanyaminoacid

x(2)anyaminoacidinthenext2positions

{

}showsanyaminoacidexceptthese当前第57页\共有139页\编于星期六\10点模体的搜索举例：有序列表示为：H-[FW]-x-[LIVM]-x-G-x(5)-[LV]-H-x(3)-[DE]这是描述一个DNA结合蛋白质家族的,可以理解为组氨酸,接着是苯丙氨酸或者色氨酸,紧接一个氨基酸x,然后可以是亮氨酸、异亮氨酸、缬氨酸、或者甲硫氨酸⋯⋯,这样一段序列由于处于活性区域或者蛋白质的重要结构区,所以特别保守,因此也是序列搜索的目标之一。当前第58页\共有139页\编于星期六\10点3.结构域定位通过将序列在数据库中搜索，可以了解到序列的一些信息，接下来就可以进行结构域的定位，这样就对以后的结构预测有了一个比较清醒的认识。如果蛋白质序列的长度大于500个氨基酸，就可以根据搜索的情况（比如按相似性高低或者结构域多少等）将蛋白质分割成多个不连续的区域，最好将这一段一段的序列分别鉴别。

当前第59页\共有139页\编于星期六\10点什么是结构域？结构域是在二级结构或超二级结构的基础上形成三级结构的局部折叠区，一条多肽链在这个域范围内来回折叠，但相邻的域常被一个或两个多肽片段连结。通常由50-300个氨基酸残基组成，其特点是在三维空间可以明显区分和相对独立，并且具有一定的生物功能如结合小分子。模体（motif）是结构域的亚单位，通常由2～3二级结构单位组成，一般为α螺旋、β折叠和环（loop）。结构域定位当前第60页\共有139页\编于星期六\10点二聚体蛋白结构域当前第61页\共有139页\编于星期六\10点结构域和功能域对那些较小的球状蛋白质分子或亚基来说,结构域和三级结构是一个意思,也就是说这些蛋白质或亚基是单结构域的，如红氧还蛋白等；较大的蛋白质分子或亚基其三级结构一般含有两个以上的结构域，即多结构域的,其间以柔性的铰链（hinge）相连，以便相对运动。结构域有时也指功能域。功能域是蛋白质分子中能独立存在的功能单位,它可以是一个结构域，也可以是由两个或两个以上结构域组成。结构域定位当前第62页\共有139页\编于星期六\10点结构域定位结构域是蛋白序列的功能、结构和进化单元分析方法：序列比对单条蛋白质序列可以包含一个或多个结构域当前第63页\共有139页\编于星期六\10点基本类型：

64α-螺旋型

全β-折叠型

α/β型α+β型当前第64页\共有139页\编于星期六\10点结构域定位分析一般流程：(1)探测序列与其他全序列之间有无同源性.如果有，那么这是该段序列为结构域的很好证据，然后进行结构数据库的搜索，也可以搜索注释好的数据库，从而得到一些有关结构域的说明。

(2)分析低复杂度的区域。在多结构域的蛋白质中，这些低复杂度序列常常间隔结构域，长的重复序列特别是pro、glu、ser、thr等常常是连接序列，也是很好的结构域剪接位置。

结构域定位当前第65页\共有139页\编于星期六\10点结构域定位分析一般流程：(3)跨膜区域。由于跨膜结构是一个非常典型的结构，这种结构连续性较强，而且预测容易，准确性也比较高，因此也是一个分割的区域，这样就很容易区分胞外和胞内区域。(4)卷曲螺旋结构(coiled-coil)。这个结构有时也可能是蛋白质结构域之间的间隔区，可以在COIL网站上预测coiled-coil结构。

结构域定位当前第66页\共有139页\编于星期六\10点结构域定位分析一般流程：(5)二级结构预测。这个方法常常用来预测一个结构中包含的不同折叠子。例如，一个序列中的一部分可能会被预测成只有α-螺旋，而另一个部分可能会被预测成只含有β-折叠，这些都可能预示有域的结构存在。(6)如果序列已被成功地分解成成形的结构域，那么重复进行数据库搜索并且进行独立比对是很重要的.结构域定位当前第67页\共有139页\编于星期六\10点结构域定位当前第68页\共有139页\编于星期六\10点结构域分析工具介于二级和三级结构之间可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。通常由25-300个氨基酸残基组成；全平行结构域、反平行结构域、α+β结构域、α/β结构域及其他折叠类型。利用SMART服务器进行结构与分析当前第69页\共有139页\编于星期六\10点结构域定位分析举例实例分析：海参溶菌酶序列和其它i型溶菌酶保守区域的比对结果：高度保守的2个活性位点（E34和S50）和特有的氨基酸保守序列MDVGSLSCG(P\Y)(Y\F)QIK当前第70页\共有139页\编于星期六\10点i-型溶菌酶含有两个结构域当前第71页\共有139页\编于星期六\10点模体搜索和结构域定位举例实例分析：海参i-型溶菌酶3D结构模式图当前第72页\共有139页\编于星期六\10点4.蛋白质空间结构预测（1）蛋白质二级结构预测

蛋白质二级结构是蛋白质分子中重要的组成“部件”，是研究蛋白质氨基酸序列和三级结构之间的桥梁。

基本的二级结构：α螺旋，β折叠，β转角，无规则卷曲（coils）以及模体（motif）等蛋白质局部结构组件当前第73页\共有139页\编于星期六\10点

蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题。二级结构预测的目标：判断每一段中心的残基是否处于螺旋、折叠、转角（或其它状态）之一的二级结构态，即三态。蛋白质二级结构预测当前第74页\共有139页\编于星期六\10点二级结构的预测方法：基于统计和机器学习方法进行预测Chou-Fasman算法GOR算法多序列列线预测基于神经网络的序列预测基于已有知识的预测方法（knowledgebasedmethod）混合方法（hybridsystemmethod）蛋白质二级结构预测当前第75页\共有139页\编于星期六\10点二级结构中氨基酸出现频率的影响：

氨基酸残基在二级结构元件中出现频率的研究揭示，某些残基如Glu、Met、Ala和Leu在α螺旋中出现的频率比在其他二级结构元件中高。相反，Gly和Pro在α螺旋中频率很低。但它们在β转角中很高。另一些残基包括Val、Ile和芳香族氨基酸在β折叠片中频率很高，而Asp、Glu和Pro在β折叠片中则很低。这表明各种残基形成各种二级结构的倾向性是不同的。蛋白质二级结构预测当前第76页\共有139页\编于星期六\10点工具网站备注BCMSearchLauncher/包括了常见的蛋白质结构分析程序入口，一般分析可以以此服务器作为起点HNNhttp://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html基于神经网络的分析工具，含序列到结构过程和结构到结构处理Jpredpbio.dundee.ac.uk/~www-jpred/submit.html基于Jnet神经网络的分析程序，并采用PSI-BLAST来构建序列Profile进行预测，对于序列较短、结构单一的蛋白预测较好nnPredict/~nomi/nnpredict.html预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋NNSSPhttp://bioweb.pasteur.fr/seqanal/interfaces/nnssp-simple.html基于双层前反馈神经网络为算法，还考虑到蛋白质结构分类信息PREDATORhttp://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html预测时考虑了氨基酸残基间的氢键蛋白质二级结构分析工具当前第77页\共有139页\编于星期六\10点工具网站备注PredictProtein/提供多项蛋白质性质分析，并有较好准确性Profhttp://www.aber.ac.uk/~phiwww/prof/基于多重序列比对预测工具PSIpredhttp://bioinf.cs.ucl.ac.uk/psipred/psiform.html提供跨膜蛋白拓扑结构预测和蛋白profile折叠结构识别工具SOPMAhttp://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html可以比较各种分析方法得到的结果，也可输出“一致性结果”SSPREDhttp://coot.embl.de/~fmilpetz/SSPRED/sspred.html基于数据库搜索相似蛋白并构建多重序列比对蛋白质二级结构分析工具（续）当前第78页\共有139页\编于星期六\10点PredictProtein可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息该方法的平均准确率超过72%，最佳残基预测准确率达90%以上。因此，被视为蛋白质二级结构预测的标准需要注册帐号用于学术研究蛋白质二级结构预测当前第79页\共有139页\编于星期六\10点PredictProtein提交界面详解提交邮件地址（必填）蛋白名称（可选）分析方法当前第80页\共有139页\编于星期六\10点1D序列预测PROFsec（默认）基于轮廓（profile）神经网络预测蛋白质二级结构PROFacc（默认）基于轮廓（profile）神经网络预测残基溶剂可及性PHDhtm（默认）基于多序列比对中预测跨膜区位置和拓扑结构ASP（默认）识别二级结构中构型变化的氨基酸COILS（默认）识别卷曲螺旋PROFtmb识别细菌中Beta桶结构序列基序识别ProSite（默认）搜索序列中保守基序SEG（默认）过滤序列中低复杂区域PredictNLS（默认）基于实验数据预测序列核定位区域二硫键识别DISULFIND（默认）识别序列中二硫键位置无序结构识别PROFbval识别序列标准骨架的B-value值UCON预测蛋白质中非3D结构区域折叠子识别AGAPE基于折叠结构识别远源蛋白序列残基接触预测PROFcon预测单链中原子残基接触性结构域预测ProDom（默认）基于序列同源性来预测蛋白质结构域CHOP(comingsoon)预测蛋白质结构域结构表面识别ConSeq(comingsoon)预测蛋白质结构表面结构功能关键残基分析方法程序详解当前第81页\共有139页\编于星期六\10点跨膜螺旋预测（PHDhtm）专家选项Ambivalent序列识别（ASP）专家选项CHOP结构域分析工具专家选项当前第82页\共有139页\编于星期六\10点比对内容从SWISS-PROT数据库返回BLAST搜索结果MaxHom参数选项最低序列比对一致性空位间隔罚分空位延伸罚分比对矩阵最大击中值当前第83页\共有139页\编于星期六\10点选择保存分析结果是否返回多序列比对结果HTML结果形式AGAPE结果PROF/PHD结果形式以下拉框中所指定的输入格式将待测序列粘贴此提交栏当前第84页\共有139页\编于星期六\10点服务器运行程序信息ProSite模体搜索结果低复杂区域过滤程序ProDom结构域搜索结果二硫键识别结果PHD程序信息PHD预测结果PROF预测结果球状蛋白预测结果Ambivalent序列识别结果PredictProtein分析结果当前第85页\共有139页\编于星期六\10点PredictProtein分析结果跨膜区非跨膜区LoopHelixSheet当前第86页\共有139页\编于星期六\10点(2)蛋白质三维结构预测方法特点工具同源建模法(Homology/Comparativemodelling)基于序列同源比对，对于序列相似度>30％的序列模拟比较有效，最常用的方法SWISS-MODEL，CPHmodels

串线法/折叠识别法

(Threading/Foldrecognition)“穿”入已知的各种蛋白质折叠骨架内，适于对蛋白质核心结构进行预测，计算量大THREADER，3D-PSSM从头预测法(Abinitio/Denovomethods)基于分子动力学，寻找能量最低的构象，计算量大，只能做小分子预测HMMSTR/ROSSETA当前第87页\共有139页\编于星期六\10点方法一：同源模建comparativemodeling

1.同源模建的基础蛋白质的三级结构比一级结构更保守。研究表明如果两个蛋白质的同源性达到50%，二者90%的Ca的RMS

小于1埃。

2.原理：序列高度相似的蛋白质具有相似的三维结构。同源蛋白质之间具有保守的结构内核，差异仅存在分子表面的回折区。当一个蛋白质的序列与一个已知结构的蛋白质序列相似的时候，该蛋白质的结构可以被模建。当前第88页\共有139页\编于星期六\10点

3.同源模建的前提和条件：要模建的目标蛋白必须有一个或多个已知结构的与之同源（同源性不低于25％）的蛋白。数据库：蛋白质结构、序列数据计算机：工作站分子模拟系统：软件系统4.同源模建的发展历史

1969年，Browne利用溶菌酶的结构手工模建了牛乳白蛋白的结构。八十年代，Blundel发展了利用多种同源蛋白质进行结构预测的方法。随着计算机技术的发展、结构测定数据的增加，同源模建技术也在快速发展。当前第89页\共有139页\编于星期六\10点5.同源模建的主要算法刚体装配模建（modelingbyrigidbodyassembly）片段匹配模建（modelingbysegmentmatching）空间制约模建（modelingbysatisfactionofspatialrestraints）当前第90页\共有139页\编于星期六\10点（1）刚体装配模建从一些刚体包括核心区、环区和侧链来构造模型，这些刚体都来自分解的相关结构（参考蛋白）。模型的装配涉及计算一个框架，这个框架定义为折叠模式的保守区域的模板原子的平均，并把刚体装进框架。（2）片段匹配模建依赖于从模板蛋白的保守原子的相近位置来计算其它原子的坐标。它可以通过使用蛋白质结构的短片数据库、能量或几何规则、以及这些标准的某些联合来完成。（3）空间制约满足：首先从参考蛋白结构中抽取出一些空间制约条件，将这些制约条件用几率密度函数来表示，然后根据氨基酸类型、等位残基的主链构象和序列之间局部的相似程度而对空间制约条件施加以不同的权重因子。模建时将几率密度函数应用到未知结构蛋白质序列上，通过优化分子的几率密度函数使制约条件有最小的冲突而得到目标蛋白的三维结构，整个优化过程通过分子力学和分子动力学模拟来实现。

当前第91页\共有139页\编于星期六\10点6.同源建模法分析步骤：多序列比对与已有晶体结构的蛋白质序列比对确定是否有可以使用的模板序列相似度>30%序列相似度<30%，结合功能，蛋白质一级序列、二级结构或结构域信息构建三维模型三维模型准确性检验Whatcheck程序Ramachandranplot计算检验手工调整多序列比对，重新拟和，构建新的模型当前第92页\共有139页\编于星期六\10点当前第93页\共有139页\编于星期六\10点常用数据库数据库网站备注PDB/pdb/home/home.do主要的蛋白质三维结构数据库MMDB/Structure/MMDB/mmdb.shtmlNCBI维护的蛋白质结构数据库Psdb/~deerfiel/PSdb/从PDB和NRL-3D数据库中衍生出的数据库，含二级结构和三维结构信息3DinSighthttp://gibk26.bse.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html整合了结构、性质（氨基酸组成、热力学参数等）、生物学功能（突变点，相互作用等）的综合数据库，FSSPhttp://www.ebi.ac.uk/dali//fssp/根据结构比对的蛋白质结构分类数据库SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/蛋白质结构分类数据库，将已知结构蛋白进行有层次地分类CATH/latest/index.html另一个有名的蛋白质结构和结构域主要结构分类库MODBASE/modbase-cgi/index.cgi用同源比对法生成的模型结构数据库EnzymeStructurehttp://www.ebi.ac.uk/thornton-srv/databases/enzymes/从PDB数据库中整理已知结构的酶蛋白数据库HSSPhttp://www.sander.ebi.ac.uk/hssp/根据同源性到处的蛋白质结构数据库当前第94页\共有139页\编于星期六\10点模板搜索与比对工具网站备注PSI-BLAST/BLAST/位置特异性叠代BLAST，可用来搜索远源家族序列FASTA3http://www.ebi.ac.uk/fasta33/位于EBI的序列比对工具SSEARCHrs.fr/bin/ssearch-guess.cgi采用Smith/Waterman法来进行序列比对ClustalWhttp://www.ebi.ac.uk/Tools/clustalw/index.html多序列比对工具，位于EBIT-Coffeehttp://www.ebi.ac.uk/t-coffee/用多种方法（如ClustalW、DIalign等）来构建多序列比对Multalinhttp://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html一个老牌的多序列比对工具Dalihttp://www.ebi.ac.uk/dali/三维结构比对网络服务器VAST/Structure/VAST/vast.shtml基于向量并列分析算法的三维结构比对工具SAM-T99/research/compbio/sam.html用HMM法搜索蛋白质远源同源序列当前第95页\共有139页\编于星期六\10点同源建模法工具网站备注SWISS-MODEL/完整建模程序，采用同源性鉴定来确定模板蛋白，用户也可以自定义模板进行分析CPHmodelshttp://www.cbs.dtu.dk/services/CPHmodels/基于神经网络的同源建模工具，用户只需提交序列，无高级选项EsyPred3Dhttp://www.fundp.ac.be/urbm/bioinfo/esypred/采用神经网络来提高同源建模准确性的预测工具3Djigsawhttp://www.bmm.icnet.uk/servers/3djigsaw/根据同源已知结构蛋白来建模的预测工具MODELLER/modeller/一个广泛使用的同源建模软件，需要用户对脚本有一定的了解当前第96页\共有139页\编于星期六\10点串线法工具网站备注3D-PSSMhttp://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html第一个运用1D-3D序列profile来预测蛋白质折叠结构的网络服务器Fuguehttp://www-cryst.bioc.cam.ac.uk/~fugue/以序列—结构比对搜索数据库来预测蛋白质折叠HHpredhttp://toolkit.tuebingen.mpg.de/hhpred基于HMM-HMM比对搜索多个数据库来预测给定序列的的折叠结构LOOPP/loopp.aspx学习、观察和输出蛋白质模式和结构工具THREADERhttp://bioinf.cs.ucl.ac.uk/threader/一个老牌的线索分析软件，对搜索远源蛋白序列较敏感PROSPECT/structure/prospect/index.html蛋白质结构预测和评价工具包，能以一种非常简单的方式运行，对于高级用户，也提供了很多的可选项123D+http://123/123D+.html结合了序列概形，二级结构信息和接触势能来将待测蛋白“穿入”一系列结构来预测结构SAM-T02/research/compbio/HMM-apps/T02-query.html基于HMM方法的蛋白质结构预测GenThreaderhttp://bioinf.cs.ucl.ac.uk/psipred/psiform.html使用结构评分和基于神经网络序列比对来也测蛋白折叠结构当前第97页\共有139页\编于星期六\10点蛋白质三维结构预测SWISS-MODEL工具同源建模方法与PDB数据库已知结构的蛋白质序列比对进行预测当前第98页\共有139页\编于星期六\10点主要参数/选项粘贴protein.txt中一条蛋白质序列输入用户Email（选填）比对e值参照模板序列数目当前第99页\共有139页\编于星期六\10点输出结果下载pdb格式文件当前第100页\共有139页\编于星期六\10点与模板序列比对结果，并显示二级结构区域当前第101页\共有139页\编于星期六\10点方法二：折叠识别/穿线方法对蛋白质结构的预测背景：序列比对后所击中的相似序列不是完整的而是一段一段的结构域，也可以通过二级结构预测和折叠识别（foldrecognition)找到合适的折叠子，再以这些已知结构的折叠子为模板来构建模型。当前第102页\共有139页\编于星期六\10点折叠识别/穿线方法

观察：有限的蛋白质折叠种类（~1,000?）与“从头开始”来预测蛋白质结构不同，我们可以从有限的蛋白质折叠条目中得到正确的结果。基于序列技巧可以做到这一点，或者通过穿线法将序列按顺序投到模板上，并评价每一个匹配好坏程度当前第103页\共有139页\编于星期六\10点折叠识别/穿线方法原理：将序列“穿”入已知的各种蛋白质折叠子骨架内，通过目的蛋白序列与已知折叠子的逐一比对，计算出未知结构序列折叠成各种已知折叠子的可能性；折叠子一般包括一个或多个蛋白质超家族；每个折叠子的结构内核有确定的结构特征；基于序列同源性很低的蛋白质都可能存在结构相同的折叠子进行预测。例如，通过PHYRE系统进行折叠识别预测http://www.sbg.bio.ic.ac.uk/~phyre/index.cgi当前第104页\共有139页\编于星期六\10点折叠识别或穿线法目标序列＝SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ…可能折叠的库（哪些具有已知序列和结构）：当前第105页\共有139页\编于星期六\10点序列－结构比对目标序列＝SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ…＝t1t2t3t4t5…tn已知折叠结构的序列＝s1s2s3s4s5…sn已知折叠结构的位置＝p1p2p3p4p5…pn怎样将目标序列与结构进行比对？当前第106页\共有139页\编于星期六\10点同源模建与结构类型识别方法的比较蛋白质家族与蛋白质结构类型

Family蛋白质家族依据序列同源性将蛋白质分为不同的家族：一般将序列同源性大于30%的蛋白质归属为一个家族。一个蛋白质家族的成员可能由一个共同的祖先进化而来。自然界存在的可能蛋白质家族数目大约为23100种。同一个家族的蛋白质一般具有相近的功能和相同的结构类型（折叠模式）。当前第107页\共有139页\编于星期六\10点3D-PSSM工具http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html由英国伦敦帝国理工学院维护，其数据库中含有9864个蛋白折叠结构3D-PSSM先用PSI-BLAST标准方法通过多序列比对得到轮廓（profile），然后对家族中的一系列成员进行结构比对得出该家族的结构轮廓，接着用线串法将模板结构轮廓和待测蛋白的序列轮廓进行1D-3D轮廓之间的比对，此外也考虑了溶剂可及性和二级结构信息当前第108页\共有139页\编于星期六\10点输入用户Email（学术邮箱，必需）蛋白质描述（选填）序列提交框（氨基酸单字母）当前第109页\共有139页\编于星期六\10点输入用户Email（必需）蛋白质描述（选填）序列提交框（氨基酸单字母）Phyre

-http://www.sbg.bio.ic.ac.uk/~phyre/3d-PSSM的升级版，增加了fold数据，并且性能上提高10％-15％，采用了新的分析界面当前第110页\共有139页\编于星期六\10点二级结构预测当前第111页\共有139页\编于星期六\10点序列比对结果序列比对一致性模板长度靶标蛋白模型模板蛋白结构分类信息折叠子描述当前第112页\共有139页\编于星期六\10点当前第113页\共有139页\编于星期六\10点当前第114页\共有139页\编于星期六\10点工具网站备注Swiss-PdbViewer/spdbv/一个界面非常友好的工具，可以分析蛋白质的结构性质，比较活性位点或突变点Jmol/一个基于Java语言开发的三维观察工具，大多是作为一个内嵌式网页工具快速游览结构数据库数据MolMolhttp://www.mol.biol.ethz.ch/wuthrich/software/molmol/免费的PDB三维分子观察软件，可以通过处理生成很漂亮的图形文件PyMol/一个基于开源的三维观察工具，有很多额外的插件来提升功能Rasmol/software/rasmol/很有名的三维观察软件，操作界面简介，用命令行实现多种功能VMD/Research/vmd/用内建的脚本来浏览、分析三维结构，还可以以动画的形式模拟蛋白质结构Chime/products/framework/chime/index.jsp网络游览器插件，可以在网页中直接观察PDB格式的文件Chimera/chimera/index.html免费分子模拟显示程序，还包括结构比对、药物筛选等功能ICM-Browser/icm_browser.html三维分子游览工具，有序列比对显示功能，由MolSodt公司免费推出常用蛋白质三维结构观察和修改工具当前第115页\共有139页\编于星期六\10点Chime网络游览器插件基于游览器的三维结构观察工具安装后在InternetExplorer下的PLUGINS文件夹中会有：npchime.dll(pluginsfolder)npchime.zip(pluginsfolder,usedforLiveConnect)NOTE:Donotunzipthisfilechimepro.html(pluginsfolder,thereleasenotesforChime)chime26.isu(pluginsfolder,usedtouninstallChime)sculptapi.dll(WindowsSystemfolder,usedforSculpt)ChimeShim.dll(pluginsfolder,InternetExploreronly)当前第116页\共有139页\编于星期六\10点当前第117页\共有139页\编于星期六\10点SWISS-PdbView观察三维模型SWISS-PdbView工具观察和修改分子的三维结构当前第118页\共有139页\编于星期六\10点菜单栏/工具栏图层窗口主窗口序列联配窗口控制面板当前第119页\共有139页\编于星期六\10点Ramachandran图结构叠加当前第120页\共有139页\编于星期六\10点蛋白质序列分析蛋白质一级序列蛋白质基本理化性质分析蛋白质亲疏水性分析跨膜区结构预测卷曲螺旋预测翻译后修饰位点预测蛋白质二级结构蛋白质二级结构预测蛋白质序列信号位点分析蛋白质超二级结构蛋白质结构域分析蛋白质三级结构蛋白质三维结构模拟蛋白质分类蛋白质家族分析蛋白质序列分析汇总表课程总结当前第121页\共有139页\编于星期六\10点课程总结当前第122页\共有139页\编于星期六\10点四、蛋白质结构预测的应用蛋白质的分子设计当前第123页\共有139页\编于星期六\10点

蛋白质分子设计与基因工程技术、多肽合成技术和化学合成技术一起开创了新药设计和开发研究的新局面。这个领域的研究方向主要包括蛋白三维结构预测、蛋白质结构功能关系研究、蛋白相互作用、蛋白与DNA相互作用、蛋白质突变体的分子设计、全新蛋白质设计等。当前第124页\共有139页\编于星期六\10点1.分子设计的意义

分子生物学最激动人心的进展之一是能够设计和生产新的蛋白质分子。重组DNA技术使人们能够定向改变蛋白质中的氨基酸序列，包括氨基酸的取代、插入或缺失，甚至包括蛋白质的融合等。

蛋白质工程则是在深入了解蛋白质结构与功能关系的基础上，利用分子生物学方法和手段有目的地改造蛋白质，使之性能得到改善。作为蛋白质工程的组成部分，蛋白质分子设计在其中起着十分重要的作用。

当前第125页\共有139页\编于星期六\10点当前第126页\共有139页\编于星期六\10点从预期的蛋白质功能出发→设计预期的蛋白质结构→推测应有的氨基酸序列→找到相对应的脱氧核苷酸（基因）当前第127页\共有139页\编于星期六\10点

2.分子设计的种类小改：少数残基的替换，突变或修饰中改：分子拼接，肽段或结构域的替换大改：从头设计，全新蛋白质的设计3.分子设计与蛋白质结构

蛋白质分子内部的电荷分布、相互作用有其特定的结构特征，随意选择突变位点在蛋白质分子中改变氨基酸，不仅达不到预期目的，反而可能影响蛋白质分子的活性中心，使蛋白质的活性降低或丧失。当前第128页\共有139页\编于星期六\10点

4.蛋白质分子设计的应用

应用1：酶稳定性的改善酶的稳定性

在蛋白质工程的实践中，一般可以通过在酶分子内增加二硫键或静电作用来提高酶分子的稳定性。例1：核糖核酸酶的稳定性的提高（1）已知条件：核糖核酸酶三维结构已由晶体衍射方法测定。

分子内有两对二硫键：Tyr24与Asn84正对，二者的Ca之间的距离为6.0A，满足二硫键的特征（二硫键的Ca的平均距离：4.5-6.8Å），可能形成一个潜在的二硫键；二者附近没有干扰形成二硫键的基团；二者离催化活性中心较远，突变后不会影响活性。（2）设计方案：

将Tyr24与Asn84突变为Cys

实验结果：突变体的稳定性大大提高

当前第129页\共有139页\编于星期六\10点例2.葡萄糖异构酶（GI）在工业上应用广泛，为提高其热稳定性，朱国萍等人在确定第138位甘氨酸(Gly138)为目标氨基酸后，用双引物法对GI基因进行体外定点诱变，以脯氨酸（Pro138）替代Gly138，含突变体的重组质粒在大肠杆菌中表达，结果突变型GI比野生型的热半衰期长一倍；最适反应温度提高10～12℃；酶比活相同。据分析，Pro替代Gly138后，可能由于引入了一个吡咯环，该侧链刚好能够填充于Gly138附近的空洞，使蛋白质空间结构更具刚性，

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

蛋白质的序列分析及结构预测

文档简介

温馨提示

最新文档

评论

蛋白质的序列分析及结构预测

文档简介

温馨提示

最新文档

评论

相关文档