蛋白质折叠模型和算法_第1页
蛋白质折叠模型和算法_第2页
蛋白质折叠模型和算法_第3页
蛋白质折叠模型和算法_第4页
蛋白质折叠模型和算法_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质折叠模型和算法中山大学生科院阿牛哥2013.4.15文献整理目录01理论进展03折叠模拟02折叠模型04折叠算法05数据库一、理论进展[1]20世纪30年代,吴宪提出了蛋白质的变性。英国剑桥大学的Bemal发现蛋白质折叠是一个物理过程,而且能在试管中进行。

1973年,Anfisen观察到完全还原的核糖核酸酶A可以在体外自发折叠成具有完全活性的天然构象,蛋白质的一级结构包含有指导其形成天然构象的全部信息。天然结构可能处于总体自由能的最低点。

Levinthal的悖论(paradox)。Levinthal和wetlaufer提出蛋白质的折叠过程是有动力学控制的。首先,经典的“折叠途径”模型为主,,变性蛋白质经过确定途径按折叠中间体的顺序到达天然态。随后,“能量地形面”的概念来研究蛋白质折叠,“折叠漏斗(foldingfmmel)”模型。

折叠过程的模型包括:框架模型、成核增长机制、扩散-碰撞模型、疏水核折叠模型、等级制度模型。常用的技术包括:可以追踪三级结构形成和解体的吸光度(Abs)和荧光度(FL)分析。最新,蛋白质天然结构的拓扑结构决定了蛋白质折叠机制,蛋白质的折叠速率和机制主要决定于蛋白质的拓扑结构,而不是原子间的相互作用。

一、理论进展[1]直接从氨基酸序列出发预测蛋白质分子的折叠构象在理论和操作上都存在很大的困难.其主要困难来自两个方面:(1)对构象稳定的自由能情况了解得很少,难以给出明确判定蛋白质活性的构象能指标;

(2)可能的构象空间非常大且很复杂,如二维模型,长度为L的氨基酸序列可有Aμ^LL^γ种可能的构象,其中μ≈2.63,

γ≈0.333,A为一常数.因此,这是典型的NP难题.

第一个问题需要参照理化实验所获得的信息,归结出模拟蛋白质折叠的可行的数理模型。

第二个问题则要釆用新的优化算法,使之在有限的时间内找到最优的稳定构象。[2]一、理论进展[1]蛋白质折叠机理研究热点[1]:

一是蛋白质理论模型的。主要是简单的格点模型,主要内容有3个方面:(1)水分子影响;⑵侧链的影响;(3)拓扑结构的研究。

二是蛋白质折叠机理的研究。(1)热力学性质分析;(2)动力学过程的研究;(3)折叠初期研究。研究的进展趋势一方面是蛋白质折叠研究下一步会更需要实验研究的深人,特别是蛋白质折叠初期快速过程的研究;另一方面是蛋白质折叠过程的长时间计算机动态模拟,这包括全原子模型和简化的非格点模型。另外,水分子如何与大分子相互作用,

疏水相互作用的本质等也是研究内容。二、折叠模型1、格点HP模型将20类氨基酸分为疏水性的氨基酸和极性的氨基酸,分别用两个有效氨基酸H和P来表示,一般称为HP模型。产生了有关二维和三维格点的模型研究等。[1]二、折叠模型2、HZ疏水拉链模型

蛋白质链通过疏水性接触作用,形成链的局部疏水接触作用,再将其近邻的氨基酸对拉近,从而带动他们的近邻两残基b-b‘靠近并形成接触对,然后,c-c’残基对等等,这样完成一个p-片或a螺旋的折叠[1]。

基本假设是多肽链中必须有一定数量和规则(不规则)排列的H型残基并且有较强的相互作用。这样一对对地形成接触,就象拉链一样完成它们的折叠过程。这样形成的H型接触在链的组态空间中的搜索是十分有限的,因此能够完成快速的折叠[1]。二、折叠模型3、Go模型在有关蛋白质的早期格点模拟中首次引入了只考虑在其折叠自然态结构中的相互作用,即自然相互作用(Nativeinteraction),而假设非自然的相互作用对球蛋白质的折叠能量无贡献。Go模型是有关能量地形理论的重要部分(即具有指向自然态的折叠漏斗形状)的一个简单刻画:一个蛋白质链具有自然相互作用的接触越多,蛋白质处在能量地形中的状态就越接近自然折叠态,也就是越接近漏斗的底部。Go模型没有考虑能量面的粗糙特性,只能描述折叠漏斗的漏斗形态的大致特性,二、折叠模型4、β-发卡模型β-发卡模型把统计物理引用到蛋白质折叠机制中。对G蛋白中只有16个氨基酸的一段小β-发卡的研究很成功。通过讨论各个组态并求出系统的配分函数,最后确定其系统的自由能,有人采用动力学网络模型运用REMD模拟研究了G蛋白的折叠路径。[1]三、折叠模拟蛋白质折叠的模拟分三个层次:全原子模型,简略模型和简单晶格模型。

全原子模型可分为两种:包括水的和不包括水的。

在简略模型中,用球或球棒简化表示支链,对势能也相应简化处理。简单晶格模型常在热力学、动力学、二级结构的形式等地方有独特之处。HMM(即profile-HMM)是一种概率模型,将多序列比对转化为二十种氨基酸的位点特异分布概形,各种氨基酸在每个位点的概率取值不同,HMM根据此特异性在大型数据库中搜寻与模型匹配的蛋白质序列,是目前最成功的蛋白质识别方法之一[7]。四、折叠算法(l)MetropolisMonteCario模拟(MC);MC模拟的主要目的在于在特定温度下对构象空间作统计分析。可用于结构的优化。涉及的构象范围较大。[1]基本步骤[2]:第一步从一个随机的构象S1出发,并计算其E1能量值第二步对S1的某个残基定向进行随机改变,形成新构象S2,并计算其能量值E2;第三步如果E1<E2,接受构象S2,使之成为当前构象;否则,如果满足仍然接受S2,其中Ran为(0,1)之间的随机数,Ck为一递减序列.如果不接受S2,则仍使S1为当前构象;第四步如果不满足停止准则,则重复第二步到第四步.理论上,该算法能保证收敛到全局最小.但是,实际上即使利用尽可能多的计算机资源,也很难得能量最小的构象。四、折叠算法(2)分子动力学(MolecularDynamics)模拟(MD);

MD通过牛顿第二方程模拟真实的动力学过程,能够对肽链折叠的动力学行为作较准确的描述,如表示折叠过程自组织特征的f分子一噪声。用于结构的优化。一般用于在总体构象基本确定时,消除不合理的局部结构。[1]四、折叠算法(3)ESMC(熵取样MonteCario),也称之为GeneralizedEnsemble

创造性的将“熵”即某能量或区间的构象数目的对数作为描述对象,以负熵代替-E/T的取样,此法能够对小熵区域作比较多的取样,由于低能区域都是小区域熵,故通过这个方法可以对低能构象区域作较好的统计分析。熵取样MC能一次性地给出构象数目随能量的分布,非常适合作蛋白质折叠的热力学的研究。[1]四、折叠算法⑷遗传算法(GeneticAlgorithm)(GA);GA模拟蛋白质折叠的关键问题是解决杂交时肽链的自规避。[1]首先要选择一种合适的编码方法,要确定算法的参数,要考虑具体的遗传操作方法算法的基本步骤可描述如下[2]:第一步随机产生N个构象作为初始集团,并确定参数;第二步计算每个构象Si被选择进行遗传操作的概率:其中Ei为Si的能量值,并约定依据概率p(Si)进行随机选择;第三步利用交叉算子和变异算子对选定的构象(即染色体)施行交叉和变异操作,并产生新的集团。第四步若不满足停止准则,则重复第二步到第三步.否则,输出集团中能量值最小的构象.在交叉操作中,随机选择一对构象作为父代染色体,并将序列中随机选定的一个点作为交叉点.将每条序列的交叉点前的部分与另一序列交叉点后的部分连接起来.在二维晶格模型中有三种连接方式:0°连接,90°连接和270°连接.随机选择一种连接方式连接两部分,并寻找一条有效的序列作为子代染色体.如果三种连接方式所得序列均无效,则重新选择一对父变异操作类似于MC方法:随机选择序列中一点并改变原先的连接方式.四、折叠算法⑷遗传算法(GeneticAlgorithm)(GA);GA模拟得到的结构,能量值为-19。[2]在GA基础上又演化出混合遗传算法HGA[2].四、折叠算法(5)增删方法PERM基本思想也类似生存竞

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论