蛋白质组与蛋白质结构分析_第1页
蛋白质组与蛋白质结构分析_第2页
蛋白质组与蛋白质结构分析_第3页
蛋白质组与蛋白质结构分析_第4页
蛋白质组与蛋白质结构分析_第5页
已阅读5页,还剩142页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学习提纲

重点

蛋白质的分离与鉴定方法、蛋白质芯片分析技术以及酵母双杂交技术。蛋白质二级结构预测方法及其软件、蛋白质三维结构预测方法及其软件。当前第1页\共有147页\编于星期六\11点

难点

蛋白质二级结构和三维结构算法以及软件的使用。蛋白质功能预测方法及其软件的使用。蛋白质与疾病发生。常用的蛋白质组学数据库。

熟悉当前第2页\共有147页\编于星期六\11点第一节引言Section1Introduction当前第3页\共有147页\编于星期六\11点随着人类基因组及诸多物种基因组计划的完成,生命科学研究已经进入以基因组学、蛋白质组学、代谢组学等“组学”为研究标志的后基因组时代(post-genomicera)。在后基因组时代,蛋白质组学研究越来越受到关注和重视。当前第4页\共有147页\编于星期六\11点蛋白质组(proteome):指由一个基因组(genome),或一个细胞、组织表达的所有蛋白质(protein)。蛋白质组学(proteomics):蛋白质组学是采用大规模、高通量、系统化的方法,研究某一类型细胞、组织或体液中的所有蛋白质组成、功能及其蛋白之间相互作用的学科。根据不同研究目的和手段,蛋白质组学分为表达蛋白质组学、结构蛋白质组学和功能蛋白质组学。当前第5页\共有147页\编于星期六\11点①表达蛋白质组学:主要采用经典蛋白质组学技术如双向凝胶电泳和图像分析技术,开展细胞内蛋白样品表达的定量研究;②结构蛋白质组学:以绘制出蛋白复合物结构或存在于一个特殊的细胞器中的蛋白为研究目标的蛋白质组学,主要用于建立细胞内信号转导网络图谱并解释某些特定蛋白表达对细胞产生的特定作用;当前第6页\共有147页\编于星期六\11点③功能蛋白质组学:以细胞在某一特定时间所表达或与某个功能相关的蛋白质集合为研究对象进行研究和描述,能够提供有关蛋白糖基化、磷酸化,蛋白信号转导通路,疾病机制或蛋白-药物之间相互作用的重要信息。当前第7页\共有147页\编于星期六\11点第二节蛋白质组数据的获取与分析Section2ProteomicsDataAcquisitionandAnalysis当前第8页\共有147页\编于星期六\11点一、二维凝胶电泳分析技术2-DE:是将样品进行电泳后在它的直角方向再进行一次电泳,又称双向电泳。第一向:等电聚焦(isoelectricfocusing,IEF),蛋白质沿pH梯度分离至各自的等电点。第二向:是十二磺酸钠-聚丙烯酰胺凝胶电泳(SDS),蛋白质进行分子量的分离。(一)定义及特点当前第9页\共有147页\编于星期六\11点样品经过电荷和质量两次分离后,可获得样品分子等电点(isoelectricpoint,pI)和分子量(molecularweight,MW)等信息。分离的结果不是获得蛋白条带,而是蛋白斑点。这是迄今分辨率最高、信息最多的蛋白电泳技术。目前使用广泛的2-DE蛋白分离的方法为固相pH梯度-SDS双向凝胶电泳。当前第10页\共有147页\编于星期六\11点1.样品制备目的是从成分复杂的细胞、组织等材料中取得纯度高的完整蛋白质组分。(二)固相pH梯度-SDS双向凝胶电泳

(IPG-DALT电泳)操作原理及技术流程当前第11页\共有147页\编于星期六\11点2.蛋白质定量BCA法、Bradford法及UV280法等,但由于这些定量方法都基于吸光度测定,而样品溶液中往往含有高浓度尿素等溶剂可能影响吸光度的准确测定,故推荐使用双向电泳蛋白质定量专用试剂盒进行检测。当前第12页\共有147页\编于星期六\11点3.一向电泳一向电泳等电聚焦(isoelectricfocusing,IEF),是根据蛋白质pI值不同,在电场力的作用下将其分离。当前第13页\共有147页\编于星期六\11点4.一向胶条的平衡进行第二向电泳前,需要对IPG胶条进行平衡(equilibration),平衡过程是将IPG胶条浸没在第二向电泳所必需的SDS缓冲体系中,以便被分离蛋白质与SDS完全结合并顺利转移入二向电泳的凝胶中。平衡后应立即进行第二向电泳。当前第14页\共有147页\编于星期六\11点5.二向电泳即十二烷基磺酸钠-聚丙烯酰胺凝胶电泳,是根据分子量大小各异的蛋白质在电场中的泳动速率不同的原理而分离蛋白质的方法。当前第15页\共有147页\编于星期六\11点6.凝胶检测适用于SDS凝胶中蛋白质检测的方法都可用于双向电泳凝胶检测。银染和考马斯亮蓝(R250、G250)染色,是蛋白质组研究中最为广泛使用的两种染色方法。当前第16页\共有147页\编于星期六\11点质谱(massspectrometry,MS)是按照物质的质量与电荷的比值(质荷比,mass-to-chargeratio,m/z)顺序排列成的图谱。质谱分析法是按照离子的质荷比大小对离子进行分离和测定,从而对样品进行定性和定量分析的一种方法。二、蛋白质组质谱分析技术当前第17页\共有147页\编于星期六\11点质谱仪(massspectrometer)是利用电磁学原理使离子按照质荷比进行分离,从而测定物质的质量与含量的科学实验仪器。(一)质谱仪当前第18页\共有147页\编于星期六\11点1.基质辅助激光解吸/电离(matrixassistedlaserdesorption/ionization,MALDI)利用激光脉冲将与基质结晶混合的蛋白质样品升华并电离出来。2.电喷雾(electrpsprayionization,ESI)将分析物从溶液中电离出来,可以方便地与液相色谱(liquid-chromatography,LC)联用。当前第19页\共有147页\编于星期六\11点1.分子量测定2.肽谱测定生物质谱通过与特异性蛋白酶解相结合,可测定肽质量指纹图(peptidemassfingerprint,PMF),并获得全部肽段的准确分子量,结合蛋白质数据库检索就可实现蛋白质的快速鉴别和高通量筛选。(二)质谱的应用当前第20页\共有147页\编于星期六\11点3.肽序列测定串联质谱技术可直接用于肽段的测序,从一级质谱产生的肽段中选择母离子进入二级质谱,经惰性气体碰撞后,肽段沿肽链断裂,由所得各肽段质量数差值推定肽段序列,并用于数据库查寻,称为肽序列标签技术(peptidesequencetag,PST),目前广泛应用于蛋白质组大规模筛选。当前第21页\共有147页\编于星期六\11点4.巯基和二硫键定位利用生物质谱的准确分子量测定特性,同时结合碘乙酰胺、4-乙烯吡啶等化学试剂对蛋白质进行烷基化和还原烷基化以及蛋白质酶切、肽谱技术等,可实现对二硫键和自由巯基的快速定位。当前第22页\共有147页\编于星期六\11点5.蛋白质翻译后修饰如用MALDI-TOF-MS对双向电泳分离蛋白质磷酸化位点进行定位、MALDI-TOF-MS结合不同酶解方式确定糖基化位点等。当前第23页\共有147页\编于星期六\11点1.MALDI-TOF质谱测定肽质量指纹图将质谱分析获得的肽段分子质量与蛋白质数据库中理论肽段的分子质量进行比较,通过软件分析可获得蛋白质信息,根据匹配情况判断出所鉴定分析的蛋白质是已知的还是未知的。(三)基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MS)分析技术当前第24页\共有147页\编于星期六\11点2.MALDI-TOF质谱技术用于蛋白质C-端序列分析在质谱仪内,应用源后衰变(post-sourcedecay,PSD)和碰撞诱导解离(collision-induceddissociation,CID)可产生包含有仅异于一个氨基酸残基质量的一系列肽峰质谱。此外,用酶或化学方法从N-或C-末端按顺序除去不同数目氨基酸,亦可形成大小不同的一系列梯形肽片段,所得的一定数目肽质量由MALDI-TOF-MS测量。当前第25页\共有147页\编于星期六\11点1.电喷雾电离质谱测定蛋白质和多肽分子质量蛋白质和多肽分子经电喷雾电离时,会吸附一个或多个质子,形成一系列带电荷状态不同的分子离子,在质谱中形成荷质比不同的谱峰。一般可根据谱峰的同位素离子峰分布情况以及利用相邻两峰的荷质比和电荷数关系计算求得离子分子质量。(四)电喷雾质谱分析当前第26页\共有147页\编于星期六\11点2.液相色谱-电喷雾质谱法鉴定双向凝胶电泳蛋白质对双向凝胶电泳分离的蛋白质点经酶解后的多肽混合物进行液相色谱-电喷雾质谱联用(LC-ESIMS)鉴定分析,同样可以得到PMF。当前第27页\共有147页\编于星期六\11点串联质谱的使用能够对基于PMF的结果进行再分析或对未赋值的质谱峰信号进行研究。对于初始用PMF法鉴定的蛋白,可选择其中部分肽段峰进行MS/MS分析,得到肽段的序列。(五)串联质谱(MS/MS)当前第28页\共有147页\编于星期六\11点三、蛋白质芯片分析技术蛋白质芯片(proteinchips)技术又称蛋白质微阵列(proteinmicroarrays),是一种高通量的、小型化的、平行性的生物检测技术。当前第29页\共有147页\编于星期六\11点原理蛋白质芯片是将已知蛋白点印在固定于不同种类支持介质上,制成由高密度蛋白质或多肽分子微阵列组成的蛋白微阵列,阵列中固定分子的位置及组成已知,未经标记或标记(荧光物质、酶或化学发光物质)的生物分子与芯片上探针反应,通过扫描装置如激光扫描系统(laserscannerbasessystem)或电荷偶联照像系统(chargecoupleddevice-camera,CCD-camera)检测信号强度,量化分析杂交结果,检测蛋白质。当前第30页\共有147页\编于星期六\11点蛋白质芯片具有以下特点①特异性强;②敏感性高;③高通量;④重复性好;⑤应用性强;⑥适用范围广。当前第31页\共有147页\编于星期六\11点分类根据功能:功能研究型芯片(functionalproteinmicroarrays)和分析检测型芯片(analyticalproteinmicroarrays)。当前第32页\共有147页\编于星期六\11点根据蛋白质种类:抗体芯片和抗原芯片。根据芯片表面化学成分:化学表面芯片和生物表面芯片。根据点样蛋白质活性功能:无活性芯片和有活性芯片。当前第33页\共有147页\编于星期六\11点根据载体:普通玻璃载体芯片(plain-glassslide)、多孔凝胶覆盖芯片(porousgelpadchip)及微孔芯片(microwellchip)等。当前第34页\共有147页\编于星期六\11点待测样品准备反应过程:待蛋白质芯片与被测样品溶液在适宜温度下孵育一定时间后用PBST洗去未反应分子,再根据不同标记物直接检测(如荧光标记)或显色后检测(如酶标记)。蛋白质芯片检测及分析当前第35页\共有147页\编于星期六\11点芯片检测:对于荧光标记芯片,用荧光扫描仪或激光共聚焦显微镜扫描,利用计算机分析各点平均荧光密度;对于酶标记芯片,显色后可用CCD照相机拍摄,利用计算机处理信号得到各点灰度。当前第36页\共有147页\编于星期六\11点结果分析:设计对照反应,或设定阴阳性结果阈值。排除各点荧光密度或灰度背景干扰后与阈值比较并定量分析。当前第37页\共有147页\编于星期六\11点应用领域基因表达筛选特异性抗原抗体检测蛋白质组学研究蛋白质相互作用研究当前第38页\共有147页\编于星期六\11点四、酵母双杂交系统酵母双杂交系统(yeasttwo-hybridsystem)是一种直接于酵母细胞内检测蛋白质-蛋白质相互作用且灵敏度很高的分子生物学方法。当前第39页\共有147页\编于星期六\11点酵母中转录活化因子GAL4蛋白能激活转录主要因为其二个结构可分功能相互独立的结构域,即位于氨基(N)端的DNA-BD及位于羧基(C)端的AD。根据GAL4特性,可构建两种重组质粒载体,分别表达GAL4蛋白的DNA-BD(N端1~147个氨基酸)和AD(羧基端768~881个氨基酸)。若在DNA-BD上连接“诱饵”蛋白X基因,在AD上连接“猎物”蛋白Y基因,再将这两个质粒共同转入酵母体内表达。当前第40页\共有147页\编于星期六\11点如果酵母体内表达的蛋白X和Y在酵母核内发生交互作用,可使得DNA-BD和AD在空间上接近,从而激活UAS下游启动子调节的酵母特定报告基因的表达,使转化子由于报告基因的表达而可以在特定的营养缺陷培养基上生长,同时因激活转录下游GAL1-LacZ和/或MEL1基因的表达,从而在X-β-Gal和/或X-α-Gal存在下显蓝色,可用于排除筛选假阳性克隆。这样可根据报告基因是否转录表达判断“诱饵”蛋白X与“猎物”蛋白Y之间相互作用。当前第41页\共有147页\编于星期六\11点(二)酵母双杂交系统特点与应用1.特点不仅可以精确测定蛋白质间微弱相互作用,且在DNA水平操作,不需要在体外进行大量表达和纯化蛋白质。当前第42页\共有147页\编于星期六\11点2.应用分析已知蛋白质间相互作用;可筛选cDNA文库,分离与已知蛋白作用的新配体及其基因序列。发现新基因的主要途径,是研究蛋白间交互作用最有力的工具之一。当前第43页\共有147页\编于星期六\11点3.局限性转化效率低;适用范围有限;存在假阳性及假阴性;外源蛋白毒性及翻译后修饰。当前第44页\共有147页\编于星期六\11点五、RosettaStone方法某物种中基因C的两个片段分别与同一物种或另一物种中基因A及基因B同源,既可认为基因A与基因B存在功能相关性,借助于基因C能找到无同源性的基因A及基因B之间关联。基因C称为罗塞塔石碑基因(RosettaStonegene),其表达蛋白称为罗塞塔石碑蛋白。(一)RosettaStone方法来源当前第45页\共有147页\编于星期六\11点根据罗塞塔石碑蛋白C可预测蛋白质A与蛋白质B之间存在相互作用。该方法理论基础是基于功能相关蛋白常常共进化的性质。当前第46页\共有147页\编于星期六\11点利用RosettaStone方法,检索大肠杆菌基因组中4290种编码蛋白基因在其他生物细胞基因组的融合情况,共发现6809对蛋白能构成RosettaStone序列,其中3950对蛋白能在SWISS-PROT数据库检索到注释功能,有2682对蛋白共享至少同一个关键词,说明蛋白对功能相关。应用此法检索酵母菌基因组,发现45502对相关蛋白的基因序列。(二)RosettaStone方法的应用当前第47页\共有147页\编于星期六\11点RosettaStone方法预测得到的蛋白互作网络,必须进一步通过实验分析以提高其准确性。可利用噬菌体展示技术、酵母双杂交系统、免疫共沉淀法、X射线结晶学以及表面等离子共振技术等有效检测蛋白质相互作用高通量实验技术,为蛋白质组学发展奠定坚实的基础。当前第48页\共有147页\编于星期六\11点六、蛋白质组学分析软件与数据库1.蛋白质表达分布图数据库日内瓦大学的xPASy系统。2.蛋白质组图谱自动识别软件包肽图(peptidemapping)包含一个蛋白质全部质谱(MS)信息,肽段(peptidefragment)包含蛋白质多个片段质谱信息(类似于EST)。(一)常用蛋白质组分析工具当前第49页\共有147页\编于星期六\11点(二)蛋白质组分析软件1.图像分析2.微量测序(microsequencing)N-末端Edman降解技术当前第50页\共有147页\编于星期六\11点3.质谱数据质谱鉴定主要包括数据的计算机处理和蛋白质的数据库搜寻鉴定。质谱数据经计算机处理后,可使用三种数据库搜寻方式“鉴定”蛋白质:①利用MS数据搜寻,即PMF法;②利用“原始”MS/MS数据搜寻法;③先对串联质谱数据进行解析,获得部分多肽片段氨基酸序列后对蛋白质进行序列查询法鉴定。当前第51页\共有147页\编于星期六\11点4.肽质谱指纹图(PMF)与肽序列测定由于氨基酸序列不同,蛋白质酶(如胰酶)酶解后产生的酶切肽片段序列也不同,其肽混合物质量数具一定特征,称为肽质谱指纹图(PMF)。当前第52页\共有147页\编于星期六\11点5.氨基酸组分利用氨基酸组分异质性,基于双向凝胶电泳图谱鉴定蛋白质。多种工具可用于氨基酸组分分析,如AACompIdent、ASA、FINDER、AAC-PI及PROP-SEARCH等。当前第53页\共有147页\编于星期六\11点(三)蛋白质组数据库1.综合性蛋白质2DE数据库具有数据直观性,以蛋白质双向电泳图片为基础,并整合其他数据库中信息,如蛋白质序列、结构及功能等。数据库包括:SWISS2D数据库、Argonne2D数据库、MaxPlanck感染生物学研究所(MPIB)创建的蛋白质2D数据库等。当前第54页\共有147页\编于星期六\11点2.哺乳类2DE数据库丹麦Aarhus大学人类基因组研究中心的2D数据库、英国心脏科学中心Harefield医院维护的心脏内皮细胞HSC2D数据库、德国柏林心脏研究所的人类心肌2D数据库等。当前第55页\共有147页\编于星期六\11点3.微生物类和植物类2DE数据库微生物类2DE数据库主要包括细菌、真菌和寄生虫三类。植物类2DE数据库包括:澳大利亚国立大学ANU2D、法国INRACestas的树木2D等。当前第56页\共有147页\编于星期六\11点(四)质谱数据库查询和蛋白质鉴定常用软件1.PepSea检索前必须先获得肽序列标签(PST)。在检索较大蛋白时积分较高,随机匹配的可能性也较大。2.SEQUEST可使用多个肽片段序列信息进行查询,无需人工干预,但查询相当费时。3.PeptIdent/MultiIdent基于遗传算法。当前第57页\共有147页\编于星期六\11点4.ProbID基于概率模型。5.MOWSE(molecularweightsearch)基于概率算法的数据库查询软件。6.ProFound基于Bayesian算法,综合考虑每个蛋白质序列详细信息,同时考虑了酶解产生肽片段的蛋白质序列信息,大大提高算法的灵敏度和选择性。当前第58页\共有147页\编于星期六\11点(五)PMF质谱分析基本步骤1.核对谱图,扣除本底等因素引起的失真,进行峰值校正,选择分析范围。(1)相对丰度:以质谱中最强峰为100%(称基峰),其他碎片峰与之相比的百分数。(2)总离子流(TIC):即一次扫描得到的所有离子强度之和。当前第59页\共有147页\编于星期六\11点(3)动态范围:即最强峰与最弱峰高之比。(4)本底:未进样时,扫描得到的质谱图,空气成分、仪器泵油、底物、缓冲液及吸附在离子源中其他样品等所导致的背景峰。当前第60页\共有147页\编于星期六\11点以牛血清白蛋白(bovineserumalbumin,BSA)PMF图谱为例(图6-1)。右上角显示质谱分析数据。第一列表示实验肽段质量数,第二列表示理论酶切后肽段质量数,第三列表示BSA酶切后各肽段序列。质谱图中各肽段峰上数字表示各峰相对应的质荷比(m/z)值,(+)表示该实验峰质荷比值与理论酶切后肽段峰质荷比值相比配。当前第61页\共有147页\编于星期六\11点图6-1BSA的MALDI-TOF质谱图谱当前第62页\共有147页\编于星期六\11点各标记肽段峰上,(+)表示BSA酶切后肽段峰,(M)表示基质峰。图6-2BSA的MALDI-TOF质谱图谱500~900区域放大图当前第63页\共有147页\编于星期六\11点2.确定肽指纹谱峰值数据集,剔除与所鉴定蛋白无关的质量峰经剔除基质峰、酶自解峰等信号,图6-1中BSA的肽指纹质量数数据集为,721.355、927.490、1163.654、1249.633、1305.694、1439.850、1479.815、1567.733、1639.953、1871.888、2044.991。当前第64页\共有147页\编于星期六\11点3.数据库搜索及参数设置(1)选择允许的化学修饰(2)确定可耐受的质量数精确度(masstolerance)(3)确定酶切所用蛋白酶(4)确定允许漏切的酶切位点个数(5)确定肽段质量数值(massvalues)及计算模式(6)根据搜索蛋白的匹配对象选择合适的数据库及物种(taxonomy)限定(7)确定估计等电点(pI)及分子量数值当前第65页\共有147页\编于星期六\11点现以牛血清白蛋白(bovineserumalbumin,BSA)为例,采用MASCOT搜索工具进行PMF分析鉴定(图6-3、图6-4、图6-5、图6-6)。当前第66页\共有147页\编于星期六\11点图6-3MASCOT搜索主界面当前第67页\共有147页\编于星期六\11点图6-4选择MASCOTPeptideMassFingerprint程序当前第68页\共有147页\编于星期六\11点图6-5MASCOTPMF搜索结果界面当前第69页\共有147页\编于星期六\11点图6-6搜索结果蛋白详细信息当前第70页\共有147页\编于星期六\11点第三节蛋白质结构的预测Section3PredictionofProteinStructure当前第71页\共有147页\编于星期六\11点一、蛋白质结构预测概述1961年提出的Anfinsen原理为从氨基酸序列预测蛋白质空间结构奠定了理论基础,即蛋白质分子的一级序列决定其空间结构,而蛋白质天然构象是能量最低的构象。Li和Scheraga等曾用随机搜索方法确定多肽构象,但单纯构象搜索对于结构和自由度复杂得多的蛋白质无能为力。当前第72页\共有147页\编于星期六\11点目前蛋白质三维结构预测方法主要发展自两个方向:1.物化理论分析:从头预测2.统计学方法:同源建模,折叠识别当前第73页\共有147页\编于星期六\11点二、蛋白质二级结构预测方法及软件蛋白质中约85%的残基处于三种稳定二级结构,α螺旋、β折叠和β转角。二级结构预测的目标是根据一级结构判断残基是否处于特定二级结构。其基本依据是:每段相邻的氨基酸残基具有形成一定二级结构的倾向,通过统计和分析发现这些倾向或者规律,二级结构预测问题可转化为模式分类和识别问题。当前第74页\共有147页\编于星期六\11点(一)蛋白质二级结构预测方法1.DPM(双重预测方法)先预测蛋白质的结构分类再预测序列的二级结构。2.DSC算法首先预测基本概念,然后利用简单线性统计方法结合概念预测二级结构,其准确率较高。当前第75页\共有147页\编于星期六\11点3.PHDsec基于神经网络系统,被认为是二级结构预测的标准。4.SOPMA它用五种相互独立方法预测,并汇集整理“一致预测结果”,准确率达69.5%。当前第76页\共有147页\编于星期六\11点5.MLRC算法集GOR4、SIMPA96和SOPMA为一体,处理蛋白质二级结构预测结果,并估计分类的后验概率。6.Jpred1998年由BartonGroup创建,运用Jnet神经网络算法,准确率可达到76.4%。当前第77页\共有147页\编于星期六\11点(二)蛋白质结构域识别方法目前结构域识别方法主要包括根据蛋白质空间结构信息利用机器学习方法获取结构域信息的方法、通过对具有代表性三级结构的蛋白质建立隐马尔可夫模型方法、分析蛋白质序列构象熵值判定结构域边界的方法、运用神经网络从蛋白质序列获取结构域边界方法和基于经验的人工划分方法等。当前第78页\共有147页\编于星期六\11点(三)蛋白质二级结构预测软件以人基质金属蛋白酶(matrixmetalloproteinase14,MMP14,NCBI蛋白质数据库编号NP_004986)为例,介绍Jpred、SOPMA及PredictProtein等预测软件。当前第79页\共有147页\编于星期六\11点1.Jpred(pbio.dundee.ac.uk/~www-jpred/)Jpred首页及部分分析结果见图6-7,预测得到MMP14有8个α-螺旋区(H)和21个β-折叠区(E),其他区域均为无规则卷曲区(-)。当前第80页\共有147页\编于星期六\11点Jpred预测二级结构当前第81页\共有147页\编于星期六\11点2.SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html)SOPMA主页及预测结果如图6-8所示,MMP14含有螺旋(h)27.66%、延伸链(e)19.24%、转角(t)11.34%和无轨卷曲(c)41.75%。当前第82页\共有147页\编于星期六\11点SOPMA预测二级结构当前第83页\共有147页\编于星期六\11点3.PredictProtein(/)二级结构预测和溶剂可及性分析如图6-9,目标蛋白序列中的Helix(红)和Strand(蓝)被RePROF(上)和PROFsec(下)两种方法预测出来,同时溶剂可及(Exposed,蓝)与不可及(Buried,黄)的残基也被PROFacc方法计算出来。各特征残基的比例以饼状图显示。当前第84页\共有147页\编于星期六\11点PredictProtein预测当前第85页\共有147页\编于星期六\11点三、蛋白质三维结构预测方法及软件目前,蛋白质三维结构预测方法有三类:①比较建模(comparativemodeling,CM)需要与目标序列的相似度较高(>30%)的已知结构模板;②当缺乏同源性较高的模板时,就需用复杂方法获得合适的模板并产生更确切的比对,这种过程被称为远程同源建模(distanthomologymodeling)、折叠识别(foldrecognition)或穿线法(threading);③不直接用已知模板的方法称为自由建模(freemodeling)或从头预测(abinitio)法。当前第86页\共有147页\编于星期六\11点(一)比较建模法原理比较建模又称同源建模(homologymodeling),原理较简单,基于进化相关的序列具有相似的三维结构且进化过程中三维结构比序列保守的原理,利用进化相关模板结构信息建模。当前第87页\共有147页\编于星期六\11点基本步骤①将目标序列作为查询序列来搜索PDB和SWISS-PROT等已知蛋白质结构数据库,确定和识别一个同源模板,或选择已知结构的同源序列作为建模的模板;②将目标序列和模板序列进行比对,利用多种比对方法或手工校正以改进和优化靶序列和模板结构的比对,比对中可以加入空格;当前第88页\共有147页\编于星期六\11点③以模板结构骨架作为模型,建立目标蛋白质骨架模型;④构建环区(loops)和侧链,优化侧链位置;⑤优化和评估产生的模型,使用能量最小化或其他方法优化结构,如利用分子动力学、模拟退火等优化结构。当前第89页\共有147页\编于星期六\11点比较建模法的局限性最大的挑战是对模板链进行空隙和插入的建模。目标蛋白与模板结构保守性的程度及序列比对的正确性严重影响预测模型的准确性。因此,比较建模主要在序列一致性大于30%的序列间进行。当前第90页\共有147页\编于星期六\11点(1)SWISS-MODEL服务器是目前最广泛使用的基于网络的免费蛋白质3D自动建模服务器。它与ExPASy网站和DeepView程序紧密相联。常用比较建模服务器和软件当前第91页\共有147页\编于星期六\11点(2)MODELLER软件需要用户提供目标序列与其模板的比对结果,能够自动计算由非氢原子组成的模型,并通过搜索序列数据库、多序列比对、聚类、对高柔性环区进行从头建模和多模型优化等方法,进一步修正模型。当前第92页\共有147页\编于星期六\11点(3)HHpred服务器和软件既可使用交互式服务器也可使用下载的软件进行模板的搜索、序列比对、二级结构预测等同源建模准备,并利用MODELLER构建三维模型。当前第93页\共有147页\编于星期六\11点(4)AccelrysDiscoveryStudio软件是一个综合生物大分子结构分析和计算机辅助药物设计等多种功能的软件。整合MODELLER用于同源建模,和后续模型评价。并可进行相关结构域和活性位点分析。当前第94页\共有147页\编于星期六\11点(5)MOE(molecularoperatingenvironment)软件综合生物大分子结构分析和计算机辅助药物设计等多种功能的商业软件。其优势在于可视化工具非常方便,便于对分子局部操作,对所建模型进一步局部优化和修正。当前第95页\共有147页\编于星期六\11点(二)折叠识别法结构在进化上的保守性要高于序列。尤其在只能找到同源性小于30%的模板时比较适用。此方法包括两步:①将目标蛋白序列和已知的折叠进行匹配,根据比对的进化信息在已知的结构中找到一个或几个匹配最好的折叠结构,作为建模的模板。②将目标序列的:线“穿”到模板的折叠结构上,拼装出最好的匹配模型。当前第96页\共有147页\编于星期六\11点这种方法局限性在于已有的蛋白质折叠类型还是有限的,序列相似的蛋白也可能具有明显不同的折叠模式等等。当前第97页\共有147页\编于星期六\11点(三)蛋白质三维结构的从头预测方法如果目标蛋白序列缺乏已知结构的同源蛋白质,则可采用从头预测方法(abinitio)或称自由建模法。从头预测法的理论依据是Anfinsen假说,即在给定条件下蛋白质的天然结构对应其自由能最低的状态。当前第98页\共有147页\编于星期六\11点成功的从头预测依赖于以下因素的有效性:①通过能量优化找到的蛋白质结构具有充分的结构可靠性和计算可控性;②符合实际的力场或其他作用力描述方法;③高效而准确的搜索构象空间重要区域的算法;④对获得结构进行准确评估的方法。当前第99页\共有147页\编于星期六\11点四、对结构预测结果的评价1.LiveBench(LB)实验方法LB不断地对各自动服务器进行能力评估,约半年评估这些预测方法一次。2.CASP和CAFASP实验方法用于检测现行建模方法的能力和局限、确定研发的进展并阐明问题的瓶颈,是蛋白质结构预测领域的一个重要里程碑。当前第100页\共有147页\编于星期六\11点3.EVA实验方法主要用于二级结构预测、接触预测、比较蛋白质结构建模和穿线法/折叠识别。当前第101页\共有147页\编于星期六\11点第四节蛋白质结构数据库Section4ProteinStructureDatabases当前第102页\共有147页\编于星期六\11点PDB:包含了通过X射线单晶衍射、磁共振和电子衍射等实验手段确定的蛋白质、多糖和核酸等生物大分子的三维结构数据。截止到2014年9月16日,PDB总共收录了103354条结构数据,其中,收录包括95633个蛋白质结构、2726个核酸结构、4969个蛋白/核酸复合物和26个其他结构。一、蛋白质三维结构数据库(PDB)当前第103页\共有147页\编于星期六\11点PDB数据库网站主页如图6-10,在新一代的交互式界面的支持下,其大多数页面可由用户自行定义不同的显示面板。当前第104页\共有147页\编于星期六\11点图6-10PDB数据库及其快速增长的数据量当前第105页\共有147页\编于星期六\11点PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件,都有唯一的PDB-ID。它包含4个字符,由大写字母和数字组成(如血红蛋白的PDB-ID为4HHB)。文件中除了原子坐标外,还包括物种来源、化合物名称、结构以及有关文献等基本注释信息。此外,还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。当前第106页\共有147页\编于星期六\11点PDB格式的文件可以用于一些图形软件直观观察蛋白质的三维结构,例如VMD、Jmol、Swiss-PDBviewer及RasMol等。当前第107页\共有147页\编于星期六\11点PDB数据库允许用户用各种关键字进行检索,如功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献和生物来源等项。用户不仅可以得到生物大分子的各种注释、原子空间坐标和三维图形,并能链接到一系列与PDB相关的数据库,包括SCOP、CATH、Medline、ENZYME和SWISS-3DIMAGE等。除了使用关键字搜索,用户也可以按照分类查看PDB数据库。当前第108页\共有147页\编于星期六\11点二、蛋白质结构分类数据库(一)SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)蛋白质结构分类数据库SCOP,是对已知蛋白质结构进行分类的数据库,根据不同蛋白质的氨基酸组成及三级结构的相似性,描述已知结构蛋白的功能及进化关系。SCOP数据库的构建除了使用计算机程序外,主要依赖于人工验证。当前第109页\共有147页\编于星期六\11点SCOP提供一个非冗余的ASTRAIL序列库,通常被用来评估各种序列比对算法;一个PDB-ISL中介序列库,用于比对搜索与未知结构序列远源的已知结构序列;还可以链接到PDB等外部数据库来检索更多信息。当前第110页\共有147页\编于星期六\11点在SCOP数据库中对蛋白质的分类基于树状层级,从根到叶依次为类(class)、折叠类型(fold)、超家族(superfamily)、家族(family)、蛋白质结构域(proteindomain)、来源物种(species)、单个PDB蛋白质结构记录。家族用来描述相近的蛋白质进化关系。超家族用来描述远源的进化关系,如果序列相似性较低,但其结构和功能特性表明有共同的进化起源,则将其视作超家族。当前第111页\共有147页\编于星期六\11点折叠类型用来描述空间的几何关系,无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即归入相同的折叠方式。顶级的种类class则依据二级结构组成分为:全螺旋,全折叠,螺旋和折叠,螺旋+折叠以及其他特殊种类。这样的树状层次,便于对目标蛋白的结构功能特征进行定位。当前第112页\共有147页\编于星期六\11点(二)CATH(/)四种分类层次:蛋白质的种类(class,C)、二级结构的构架(architecture,A)、拓扑结构(topology,T)和蛋白质同源超家族(homologoussuperfamily,H)。当前第113页\共有147页\编于星期六\11点CATH的蛋白质种类为全α、全β、α-β(α/β型和α+β型)和低二级结构四类,其中低二级结构类是指二级结构成分含量很低的蛋白质分子。第二个层次是蛋白质分子的构架,主要考虑α螺旋和β折叠形成超二级结构的排列方式,而不考虑其连接关系。这一层次的分类主要依靠人工方法。当前第114页\共有147页\编于星期六\11点第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系,与SCOP中的折叠模式fold相当。第四个层次为结构的同源性,是先通过序列比对再用结构比较来确定的。当前第115页\共有147页\编于星期六\11点CATH的主页、分类层级和代表性类别当前第116页\共有147页\编于星期六\11点三、其他常用蛋白质结构数据库1.SWISS-MODEL数据库(/)收录的蛋白质结构都是使用SWISS-MODEL对蛋白质序列进行自动同源建模所得到的结构数据。直接从PDB中获得最新的实测三维结构,存于其模板数据库(SMTL)。可提供蛋白质四级结构和必要的配体和辅助因子的注释,以方便构建完整的结构模型,包括寡聚体结构。当前第117页\共有147页\编于星期六\11点新版的SWISS-MODEL允许用户以交互方式搜索模板,根据序列相似性对其聚类,从结构上比较不同模板,最后选择适当的模板用于建立模型,并且还允许用户对数据库中的模型质量进行评价。当前第118页\共有147页\编于星期六\11点2.生物磁共振数据库(BMRB,/)由美国威斯康星大学麦迪逊分校组织构建的专门用于存放蛋白质、多肽、核酸等物质磁共振NMR波谱数据,以及对应的分子研究的源数据、研究所使用的实验条件和设备、与研究相关的重要出版物等信息。当前第119页\共有147页\编于星期六\11点第五节蛋白质功能分析Section5AnalysisofProteinFunction当前第120页\共有147页\编于星期六\11点一、蛋白质功能分析概述蛋白质在进化中保守的结构通常对应某些保守的生物化学功能。对蛋白质功能进行分类和预测的方法主要还是依赖于结构比对,如DaliLite、SSM、STRUCTAL、MultiProt和3DCoffee等。还有一些方法试图将结构相似性方法与其他方法相结合进行功能预测。例如,考虑一个系统发育上下文中的结构相似性,会增加功能注释精确性。(一)基于结构分类的蛋白质功能预测当前第121页\共有147页\编于星期六\11点(二)基于结构预测蛋白质间相互作用1.基于结构的物理对接主要用于预测两个蛋白质间的相互作用位点,但对体积很大的蛋白质分子,相互作用的可能界面太多而计算工作量很大。当前第122页\共有147页\编于星期六\11点2.基于相互作用界面序列特征模式的预测利用统计分析发掘蛋白质相互作用界面的序列特征信息。主要分为几类:(1)关联性突变法不需要目标蛋白的高级结构而只需要序列信息,且计算量比基于结构的物理对接小得多。(2)联用方法联用高级结构和序列信息。当前第123页\共有147页\编于星期六\11点(3)人工神经网络学习法利用高级结构信息和序列特征进行训练,可建立蛋白质间相互作用界面的预测方法。预测准确度可达到70%。当前第124页\共有147页\编于星期六\11点二、蛋白质功能预测方法(一)基于基序的方法基于基序的方法(motif-basedapproaches)通过识别功能相关的蛋白质中保守的三维基序,并建立这些保守的基序和保守的蛋白质功能间的映射关系用于预测目标蛋白质的某些生物化学功能。当前第125页\共有147页\编于星期六\11点1.SITE程序和数据库储存了酶活性位点保守基序信息用位点匹配程序寻找关键的功能位点残基作为保守残基。2.TESS程序采用了几何散列算法,通过模板研究和重叠,从蛋白质的高级结构中寻找保守的必须残基。当前第126页\共有147页\编于星期六\11点3.模糊功能形态(FFF)从三维信息角度认证与生物学功能相关位点的保守性。4.SPASM同时用主链α碳原子和侧链基团作为分析对象,并列寻找保守残基,并用于搜寻结构数据库中能匹配的已知功能蛋白。当前第127页\共有147页\编于星期六\11点5.分子识别策略分析是基于已知功能域四周原子的叠合认证保守性预测蛋白质功能。6.蛋白质侧链的保守模式分析分析重复出现的氨基酸侧链的保守性。当前第128页\共有147页\编于星期六\11点(二)基于表面的方法基于表面的方法(surface-basedapproaches)对给定蛋白质进行表面模型化,利用与结构相关联的蛋白质表面模型,识别蛋白质表面上的结构特征(如空间特征、裂隙等),进而利用这些特征来推断蛋白质功能。SURFACE数据库提供对输入蛋白质局部表面特征模式的识别,以据此对蛋白质功能进行预测。这种匹配算法精确性一般能达到90%左右,但计算量很大。当前第129页\共有147页\编于星期六\11点(三)基于学习的方法基于学习的方法(learning-basedapproaches)是利用有效的分类方法,从最相关的结构特征中识别最合适的功能类别,如SVM和KNN等分类方法。基于学习的方法以蛋白质结构特征作为分类依据,功能分类作为样本标签,通过数据对象之间的相似性矩阵对训练集中的蛋白质进行结构与功能关系的评估。当前第130页\共有147页\编于星期六\11点三、蛋白质结构与功能关系数据库(一)Pfam蛋白质结构域家族数据库Pfam收集了大量使用多重序列比对和隐马尔科夫模型对UniProtKB的蛋白质序列数据进行结构域归类形成的蛋白质家族,广泛用于通过序列比对推测蛋白质的结构域排布形式及功能。当前第131页\共有147页\编于星期六\11点Pfam包括高质量、手工确定的Pfam-A,和用ADDA算法自动分类的低质量、未注释的Pfam-B数据库。Pfam数据库可使用蛋白质或DNA序列搜索蛋白所属家族,查看该家族的功能注释和多序列比对,扩展至属于同一群落的多个家族,查看一个目标序列的结构域组成,链接到该序列在PDB数据库中的结构,或直接使用关键字搜索。当前第132页\共有147页\编于星期

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论