![第五章蛋白质分析及预测方法(新)_第1页](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a1/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a11.gif)
![第五章蛋白质分析及预测方法(新)_第2页](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a1/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a12.gif)
![第五章蛋白质分析及预测方法(新)_第3页](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a1/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a13.gif)
![第五章蛋白质分析及预测方法(新)_第4页](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a1/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a14.gif)
![第五章蛋白质分析及预测方法(新)_第5页](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a1/ddbe59fe-8477-4abd-bc7d-64e0ed5d89a15.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章 蛋白质分析及预测方法 一、分子量及等电点一、分子量及等电点n蛋白质的一些基本性质可直接分析其一级序列而获得,如蛋白质的氨基酸组成、分子质量、等电点(pI)、亲水性和疏水性、信号肽、跨膜区等。n蛋白质的分子量和等电点可用一些本地化的软件如MacVector、OMIGA、DNAMAN、BioEdit等分析计算n在线可通过ExPASy的Compute pI/Mw(/tools/pi_tool.html)或ProtParam(/tools/ protparam.html)计算。Temperature 22 30IPTG
2、(mM) 0.001 0.1 0.001 0.01 M S P S P S P S PnCompute pI/Mw对pI的确定基于早期Bjellqvist等的实验,该实验根据多肽在含高浓度(9.29.8mol/L)尿素缓冲液中,酸性pH梯度(pH4.5至pH7.5)电泳中的迁移率来计算其pK值和pI值,然后根据氨基酸序列和pI关系来预测,因此在计算碱性蛋白质的理论pI值时可能不准确。nProtParam可计算蛋白质分子量、理论等电点、氨基酸组成、各原子组成、在280nm附近的吸光系数、估计半衰期、稳定指数等,但如蛋白质中含翻译后修饰过的氨基酸残基,则不计算在内。 二、蛋白质辨识二、蛋白质辨识(
3、一)、基于组成的蛋白质辨识(一)、基于组成的蛋白质辨识可利用可利用ExPASy的的AA CompIdent(/tools/aacomp/)去检索)去检索具有相同组成的已知蛋白。具有相同组成的已知蛋白。 (二)、二维凝胶电泳(二)、二维凝胶电泳n在严格的标准化状况下,双向凝胶上的某些蛋白质图谱,可结合SWISS-2DPAGE(/ch2d/)数据库而得到鉴定。 (三)、质谱分析(三)、质谱分析n 应用质谱分析可进行蛋白质鉴定和序列测定,其基本原理是将样品分子离子化后,根据不同离子之间的质荷比的差异来分离并确定相对分子质量。
4、 n 应用蛋白酶将胶上或膜上分离出的蛋白断裂成肽片段,通过MALDI-MS或ESI-MS得到肽质指纹图谱,搜索数据库,可对蛋白质进行鉴定。常用的在 线 肽 质 指 纹 图 谱 分 析 工 具 有 E x P A S y 的PeptIdent(/tools/peptident.html)三、酶切及断裂位点 nExPASy的PeptideCutter(/tools/peptidecutter/)工具可预测蛋白质序列在特定蛋白酶或化学试剂作用下的断裂位点 nPeptideMass(/to
5、ols/peptide-mass.html)是ExPASy中另一个分析内切产物的工具,它可计算蛋白质经特定酶水解得到的肽片段的分子量、理论等电点等。 四、疏水性四、疏水性n在线可用ExPASy的ProtScale(/cgi-bin/protscale.pl )程序。疏水性预测的方法依赖于疏水性的衡量尺度,这里每个氨基酸根据其一系列的物理特性(例如,溶解性、跨越水汽相时产生的自由能等),被赋予一个数值以代表其疏水性。 n用用ProtScale中中Kyte & Doolittle 算法分析人算法分析人NPD1蛋白结果示例蛋白结果示例nProtScale除能分
6、析蛋白质的亲/疏水性外,还能计算蛋白质的分子量、极性,预测二级结构等,共包括了50余种不同的算法。n除ProtScale外,蛋白质序列统计分析(Statistical Analysis of Protein Sequences,SAPS)是另一个计算蛋白质序列性质的在线工具(http:/www.isrec.isb-sib.ch/software/SAPS_form.html),它可给出查询序列的氨基酸组成、电荷分布(包括正/负电荷聚集区的位置,强带电或不带电区段,电荷分布连续性和模式等)、高疏水性和跨膜区段、重复结构及周期性分析等属性。 第二节 蛋白质二级结构预测 预测方法可以分为三类:n统计
7、/经验算法,其中最为著名的有基于经验统计规则的Chou-Fasman方法及基于信息论算法的GOR方法;n物理化学方法,基于对于蛋白质结构的物理及化学原理的预测,如Lim方法;n机器学习方法,致力于将前两种方法的优点结合起来。 一、二级结构预测方法:(一)、Chou-Fasman方法nChou-Fasman方法曾经是现在仍然是最为普遍应用的方法。n其基本出发点在于对于蛋白质20种不同的氨基酸残基在不同的二级结构中出现的几率进行统计分析得出在不同二级结构中出现的倾向性。利用这种倾向性,加之周围残基的信息,在一定规则的指导下就可以进行预测了。预测规则简述如下:n 螺旋规则: 沿着蛋白质序列寻找螺旋核
8、,相邻6个残基中若有至少4个残基倾向于形成螺旋,则认为是螺旋核。然后螺旋核向两端延伸,直至四肽片断的螺旋倾向性因子的平均值P1.0为止。此外,Pro不容许在螺旋内部出现,但可出现于C末端以及N端的前三位,这也用于终止螺旋的延伸。最后,将螺旋两端各去掉3个残基,剩余部分若长于6个残基,而且P103,则预测为螺旋。n折叠规则 相邻5个残基中若有3个倾向于形成折叠,则认为是折叠核,折叠核向两端延伸直至4个残基的平均折叠倾向性因子P1.0。若延伸后的片断P1.05,则预测为折叠。n 转角规则 四肽片断,若位置专一性转角形成几率f i+1f i+2f i+3f i+4 0.7510-4 ,Pt 1.0,
9、并大于P和P,则预测为转角。n 重叠规则 螺旋和折叠的重叠区域,按和P的相对大小进行预测,如若P大于,则预测为螺旋,反之,则预测为折叠。(二)、GOR方法n GOR(Gamier-Osguthorpe-Robson)方法基于信息论算法,是所有统计算法中理论基础最好的。其基本原理是将一级结构与二级结构看成是由一个转化过程相联系的两个信息。n结构预测依赖于每个氨基酸残基及其周围的残基所携带的二级结构信息。n为了避免需要大量的实验数据,GOR方法将信息函数分为多项加和形式,并且只考虑双残基及单残基所携带的信息:一个残基携带其自身的二级结构信息,同时携带有另一个残基的二级结构信息,包含不依赖于另一残基
10、类型的和依赖于另一残基类型的信息。(三)、神经网络方法n神经网络学习系统是一组有相互联系强度的非线性的单元。用于二级结构预测的神经网络多为误差回传式反馈网络。用于二级结构预测的神经网络方法有许多种,其中代表性的为最早发表的Qian和Sejnowski方法以及广泛应用的PHD方法。相对而言神经网络方法便于应用,有较高的预测准确度。最大的缺点是没有明确的物理化学意义。(四)、基于多重序列比对的二级结构预测n基于单个序列的二级结构预测方法经过近三十年的发展,虽然可以利用的实验数据有了数十倍的增长,但预测准确度提高得不明显。在单个残基基础上的预测准确度在58左右。n近年来将同源序列的信息引入二级结构预
11、测中,可以将二级结构预测的准确度提高到70左右。基于同源序列对比的二级结构预测方法有两类:一类是自动程序算法,如改进的GOR方法及PHD;另一类是专家参与的多重序列对比,然后进行二级结构预测。随着多重序列搜寻方法PSI-BLAST的发展,基于PSI-BLAST多重序列比对的二级结构预测方法PSIPRED也见诸报道。PSIPRED利用PHD的算法,将PSI-BLAST产生的多重序列比对用于训练及预测,使预测准确度从70提高到77。二、二级结构在线预测1PSIPRED:基于多重序列比对算法,服务器网址为http:/bioinf.cs.ucl.ac.uk/psipred/。2PredictProte
12、in:基于PHD算法,网址:/predictprotein北京大学生物信息中心有该网站的镜像:http:/ 。4、综合分析:、综合分析:位于法国里昂的CNRS(Centre National de la Recherche Scientifique)提供NPSn(http:/npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_seccons.html)服务,其二级结构预测可由用户从SOPM、HNN、DPM、DSC、GOR、PHD、PREDATOR、SIMPA96等12种方法
13、中任选几种进行预测,然后根据预测结果汇集整理成一个“一致的结果” 三、二级结构预测的准确度三、二级结构预测的准确度 总的来讲,单序列的预测准确度在60左右,应用多重序列对比信息的二级结构预测准确度在6585之间。 从1994年起每两年国际上都要举行一届关于蛋白质结构预测进展方面的评估(critical assessment of protein structure prediction, CASP) n常采用参数Q3:Q3=(P+P+Pcoil)/T,其中P、P、Pcoil分别代表预测螺旋、折叠和无规则卷曲正确的氨基酸残基数,T为总氨基酸残基数。 n亦有人建议用不同二级结构预测的相关系数Ci来
14、评估。如C表示螺旋预测相关系数:其中,P为预测是螺旋且预测正确的残基数(positive),N为非螺旋预测正确残基数(negative),O为非螺旋却被错误预测为螺旋的残基数(false positives),U为是螺旋却未预测出的残基数(miss)。)()()()(OPUPONUNOUNPC算法 作者 准确性 GOR1 Garnier J, Osguthorpe DJ, Robson B (1978) 作者评测:Q3=57% CASP2:Q3=55.4%(41.9-62.5) GOR3 Gibrat JF, Robson B, Garnier J (1987) 作者评测:Q3=63% DSC
15、 King RD, Sternberg MJE (1996) 作者评测:Q3=70.1% CASP2:Q3=69.5% 57.3-87.2 PREDATOR Frishman D, Argos P (1996) 作者评测:Q3=75% Yi & Lander Yi TM, and Lander S (1993) 作者评测:Q3=68% NNSSP Salamov AA, Solovyev VV (1995) 作者评测:Q3=72.2% CASP2:Q3=67.7% 40.8-82.4 PHD Rost B, Sander C (1993) 作者评测:Q3=72.2% CASP1:Q3=71.6
16、% 46.3-94.1 CASP2:Q3=74% 53.1-92.9 SIMPA Levin JM, Garnier J (1988) 作者评测:Q3=63% SSPRED Mehta PK, Heringa J, Argos P (1995) 作者评测:Q3=70.9% CASP2:Q3=57.8% 43.6-67.1 NNPREDICT Kneller DG, Cohen FE, Langridge R (1990) 作者评测:Q3=64% CASP2:Q3=61.1% 51.5-69.7 JNET Cuff J. A. and Barton G.(1999) 作者评测:Q3=76.4%
17、PSIPRED Jones, D. T. (1999) 作者评测:Q3=76.5%-78.3% CASP3:Q3=75.7% 55.3-96.8 第三节 特殊结构或结构特征分析 一、跨膜区一、跨膜区n在目前的基因组数据中,有大约2030的基因产物被预测为膜蛋白。n它在生物体中担负着多种多样的功能,其中包括把营养物质和一些无机电解质输人细胞,将有毒的或无用的代谢产物排出细胞,以及细胞膜内外信号的传递等作用。n它也是重要的药物标靶。n由于跨膜蛋白具有强硫水性,难于形成x射线衍射所需要的晶体,因此目前已知跨膜蛋白三维结构的只有少数几种,如细菌视紫视质,光合反应中心,细胞色素C氧化酶等。n需要有效的、
18、准确度高的算法来预测跨膜区域和跨膜方向以指导跨膜蛋白的研究;n通过对预测,能够揭示出其隐含的生物学意义,从而指导跨膜蛋白生物学实验。 n1982年,Kyte 和Doolittle根据各个氨基酸在有机溶剂和水中的分布系数以及在蛋白质结构中的分布,给出它们各自的疏水标度值,然后根据硫水标度值,把氨基酸序列通过滑动的矩形窗转换成疏水图谱,设定合适的阈值,来判定可能的跨膜区。n然而,水溶性球状蛋白的内埋区也基本上是疏水性的,因此仅根据疏水特性可能会给出错误的结果。n1986年Von Heijine通过对各种跨膜蛋白的统计分析发现,带正电荷的氨基酸主要分布在紧靠膜内连接跨膜区的环上,这就是所谓的“正电荷
19、居内规则”(Positive-inside rule)。n如1992年的TOPPRED,对可能的跨膜区通过将它们进行组合,选取使得紧靠膜内环上正电荷最多的组合来进行进一步判断。二、网络资源资源名称 网址 TMHMM http:/genome.cbs.dtu.dk/services/TMHMM-2.0/ TMPRED /software/TMPRED_form.html PHDhtm http:/npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_htm.html TMAP http:/
20、bioweb.pasteur.fr/seqanal/interfaces/tmap.html MAMSAT http:/www.cs.ucl.ac.uk/staff/d.jones/memsat.html 三、算法准确度n评估算法准确度应包括预测区准确度及拓扑结构准确度两个方面,可采用Tusnady GE等使用的两个值:1)、跨膜螺旋预测准确度QP ,其中MNcorNobs,(Ncor表示预测正确的跨膜区个数,Nobs表示总共观测到的跨膜区个数),M可看作跨度区敏感性的度量指标;CNcor/Nprd(Nprd表示总共预测到的跨膜区个数),C可看作跨膜区特异性的度量指标,而Qp为这两个指标的综合
21、值。2)、整个拓扑结构(包括跨膜区和跨膜方向)预测准确度QTNTTNTOT,其中NTT为整个拓扑结构预测正确的跨膜蛋白个数,NTOT为测试集中总共的跨度蛋白个数。 CM跨膜区 跨膜蛋白 数据集 方法 Nobs Nprd Ncor QP M C NTOT NTT QT TMHMM 115 109 93.2% 91.6% 94.8% 23 62.2% HMMTOP 125 115 94.3% 96.7% 92.0% 24 64.9% MEMSAT 116 111 94.5% 93.3% 95.7% 21 56.8% TMAP 119 114 95.8% 95.8% 95.8% 21 56.8% A
22、 PHDhtm 119 119 116 97.5% 97.5% 97.5% 37 28 75.7% TMHMM 148 140 92.7% 90.9% 94.6% 12 52.2% HMMTOP 162 146 92.4% 94.8% 90.1% 14 60.9% MEMSAT 164 145 91.2% 94.2% 88.4% 11 47.8% TMAP 153 136 88.6% 88.3% 88.8% 9 39.1% B PHDhtm 154 158 142 91% 92.2% 89.8% 23 9 39.1% TMHMM 263 249 92.9% 91.2% 94.7% 35 58.
23、3% HMMTOP 287 261 93.2% 95.6% 90.9% 38 63.3% MEMSAT 280 256 92.6% 93.8% 91.4% 32 53.3% TMAP 272 250 91.7% 91.6% 91.9% 30 50% Total PHDhtm 273 277 258 93.8% 94.5% 93.1% 60 37 61.6% 二、信号肽和蛋白质定位二、信号肽和蛋白质定位 在核糖体上新合成的多肽被送往细胞的各个部分,如溶酶体、线粒体、叶绿体、细胞核等细胞器中,或运送到细胞外,以行使各自的生物功能。n对于需要被转运的蛋白质,其前体中含有特征氨基酸序列,信号肽一般由2
24、040个氨基酸残基组成,在一级结构上有以下特点:、信号肽N末端有13个带正电荷的氨基酸残基;、接着是1420个中性氨基酸残基组成的疏水区(疏水核)。这个疏水区极重要,其中某一个氨基酸被非极性氨基酸置换时,信号肽即失去功能;、在信号肽C-端有一个可被信号肽酶识别的位点,此位点上游常有一段疏水较强的5肽。三、卷曲螺旋分析三、卷曲螺旋分析n另一个能够直接从序列中预测的功能模体(motif)是-螺旋的卷曲螺旋(coiled-coils)排列方式。在这种结构中,两个螺旋通过其疏水性界面相互缠绕在一起形成一个十分稳定的结构。卷曲螺旋在很多蛋白质中存在,例如转录因子的亮氨酸拉链结构中以及肌球蛋白中。 资源
25、网址 描述 COILS /software/COILS_form.html 将查询序列与已知卷曲螺旋结构数据库搜索比较,在线预测 Multicoil /cgi-bin/multicoil/multicoil.pl 可预测双-螺旋或三条-螺旋缠绕结构 Marcoil .au/folders/mauro/Marcoil/ 居于隐马尔可夫模型的预测方法, 运行于 UNIX 或 LINUX 平台 Coiled-coil http:/www.york.ac.uk/depts/
26、biol/units/coils/coilcoil.html 运行于 Macintosh 平台的卷曲螺旋预测程序 第四节第四节 蛋白质三级结构预测蛋白质三级结构预测 一、同源模建(一、同源模建(homologous modeling)n同源模建也称比较模建(Comparative modeling),所以利用结构已知的同源蛋白质可以建立目标蛋白质的结构模型,然后用理论计算方法进行优化。 n同源模建的基本过程包括六部分:寻找一个或一组与待测蛋白质同源的由实验测定的蛋白质结构,进行结构叠合;建立未知蛋白质与已知结构蛋白质的序列比对;找出结构保守性的主链结构片段;模建结构变化的区域,一般为连接二级结
27、构片段间的区域;侧链建模;利用能量计算的方法进行结构优化。一般地,序列一致性越差,匹配的准确程度越低,建立的模型精度也越差,序列一致性低于30的蛋白质难以得到理想的结构模型。 n同源蛋白质结构预测的方法有多种,大体上可分为片段组装法和距离几何法。片段组装法如COMPOSER、SWISS-MODEL,距离几何法如MODELLER等。 二、折叠模式识别二、折叠模式识别 某些蛋白质在结构已知的数据库中找不到序列相似性大于30的同源蛋白质,但有许多序列相似性很差(小于25%)的蛋白质却存在相同的框架结构折叠子(folds)。在1987年,Finkelstein和Ptitsyn就指出,由于各种立体化学的
28、限制,蛋白质折叠子的数目是有限的。后来许多学者对自然界中可能存在的折叠子数目作了估计。1992年Chothia估计自然界中折叠子不会超过1000个。1998年我国科学家王志新院士作了更精确的估计,认为仅有654种折叠子存在。以结构已知的蛋白质的折叠子为模板,寻找给定氨基酸序列可能采取的折叠类型,即折叠识别。 目前利用折叠识别预测蛋白质结构的主要方法大多是从1991年Bowie等提出的一维-三维剖面法(1D-3D profile)和1992年Jones等提出的Threading方法上发展而来的。n一维-三维剖面法利用每一个残基在蛋白质结构中所处的环境描述蛋白质的折叠类型,根据侧链的埋藏程度、侧链被极性原子或水分子覆盖的分数以及局部二级结构,Bowie等将蛋白质结构环境分成18类,然后统计出20种氨基酸在18种环境中的出现概率,得到一个表示不同氨基酸对各种环境偏好程度的评估矩阵,称为3D-1D记分表。对于结构已知的蛋白质X,每一个氨基酸残基都可以分配一类环境,从而将3D结构转换为1D序列(称环境链)。n利用3D-1D记分表生成蛋白质X的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 艺术展览设计师的空间布局与艺术呈现
- 年产100万套转椅配件及15万套成品生产线项目可行性研究报告模板-立项拿地
- 2025年全球及中国自锁平头螺母行业头部企业市场占有率及排名调研报告
- 2025-2030全球自由式风帆板行业调研及趋势分析报告
- 2025-2030全球钙钛矿太阳光模拟器行业调研及趋势分析报告
- 2025-2030全球生命科学服务行业调研及趋势分析报告
- 2025-2030全球无人机测绘系统行业调研及趋势分析报告
- 2025年全球及中国碳捕获与利用技术行业头部企业市场占有率及排名调研报告
- 2025-2030全球汽车空调电机行业调研及趋势分析报告
- 2025年全球及中国家用前置过滤器行业头部企业市场占有率及排名调研报告
- 二零二五版电力设施维修保养合同协议3篇
- 最经典净水厂施工组织设计
- VDA6.3过程审核报告
- 2024-2030年中国并购基金行业发展前景预测及投资策略研究报告
- 2024年湖南商务职业技术学院单招职业适应性测试题库带答案
- 骨科手术中常被忽略的操作课件
- 《湖南师范大学》课件
- 2024年全国各地中考试题分类汇编:作文题目
- 2024年高压电工操作证考试复习题库及答案(共三套)
- 《糖拌西红柿 》 教案()
- 弹性力学数值方法:解析法:弹性力学中的变分原理
评论
0/150
提交评论