蛋白质折叠模型及算法_第1页
蛋白质折叠模型及算法_第2页
蛋白质折叠模型及算法_第3页
蛋白质折叠模型及算法_第4页
蛋白质折叠模型及算法_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蛋白质折叠模型和算法中山大学 生科院阿牛哥2013.4.15文献整理目录01 理论进展03 折叠模拟02 折叠模型04 折叠算法05 数据库一、理论进展1 20世纪30年代,吴宪提出了蛋白质的变性。英国剑桥大学的Bemal发现蛋白质折叠是一个物理过程,而且能在试管中进行。 1973年,Anfisen观察到完全还原的核糖核酸酶A可以在体外自发折叠成具有完全活性的天然构象,蛋白质的一级结构包含有指导其形成天然构象的全部信息。天然结构可能处于总体自由能的最低点。 Levinthal的悖论(paradox)。 Levinthal和wetlaufer提出蛋白质的折叠过程是有动力学控制的。 首先,经典的“

2、折叠途径”模型为主, ,变性蛋白质经过确定途径按折叠中间体的顺序到达天然态。 随后,“能量地形面”的概念来研究蛋白质折叠, “折叠漏斗(folding fmmel)”模型。 折叠过程的模型包括:框架模型、成核增长机制、扩散-碰撞模型、疏水核折叠模型、等级制度模型。 常用的技术包括:可以追踪三级结 构形成和解体的吸光度(Abs)和荧光度(FL)分析。 最新,蛋白质天然 结构的拓扑结构决定了蛋白质折叠机制,蛋白质的折叠速率和 机制主要决定于蛋白质的拓扑结构,而不是原子间的相互作 用。 一、理论进展1 直接从氨基酸序列出发预测蛋白质分子的折叠 构象在理论和操作上都存在很大的困难.其主要困难来自两个方

3、面: (1)对构象稳定的自由能情况了解 得很少,难以给出明确判定蛋白质活性的构象能指 标; (2)可能的构象空间非常大且很复杂,如二维 模型,长度为L的氨基酸序列可有 AL L 种可 能的构象,其中 2.63, 0.333,A为一常数.因 此,这是典型的NP难题. 第一个问题需要参照理 化实验所获得的信息,归结出模拟蛋白质折叠的可 行的数理模型。 第二个问题则要釆用新的优化算法, 使之在有限的时间内找到最优的稳定构象。2一、理论进展1 蛋白质折叠机理研究热点1: 一 是蛋白质理论模型的。主要是简单的格点模型,主要 内容有3个方面:(1)水分子影响;侧链的影响;(3)拓扑 结构的研究。 二是蛋白

4、质折叠机理的研究。(1) 热力学性质分析;(2)动力学过程的研究;(3) 折叠初期研究。 研究的进展趋势一方面是蛋白质折叠研究下一步会更需要 实验研究的深人,特别是蛋白质折叠初期快速过程的研究; 另一方面是蛋白质折叠过程的长时间计算机动态模拟,这包 括全原子模型和简化的非格点模型。另外,水分子如何与大分子相互作用, 疏水相互作用的本质等也是研究内容。二、折叠模型1、格点HP模型 将20类氨基酸分为疏水性的氨基酸和极性的 氨基酸,分别用两个有效氨基酸H和P来表示,一般称为 HP模型。产生了有关二维和三维格点的模型研究等。1二、折叠模型2、HZ疏水拉链模型 蛋白质链通过疏水性接触作用,形成链的局部

5、疏水接触作用,再将其 近邻的氨基酸对拉近,从而带动他们的近邻两残基b- b靠 近并形成接触对,然后,c - c残基对等等,这样完成一个p - 片或a螺旋的折叠1。 基本假设是多肽链中必须有一定数量 和规则(不规则)排列的H型残基并且有较强的相互作用。 这样一对对地形成接触,就象拉链一样完成它们的折叠过 程。这样形成的H型接触在链的组态空间中的搜索是十分有限的,因此能够完成快速的折叠1。二、折叠模型3、 Go模型 在有关蛋白质的早期格点 模拟中首次引入了只考虑在其折叠自然态结构中的相互作 用,即自然相互作用(Native interaction),而假设非自然的相互 作用对球蛋白质的折叠能量无贡

6、献。Go模型是有关能量地 形理论的重要部分(即具有指向自然态的折叠漏斗形状)的 一个简单刻画:一个蛋白质链具有自然相互作用的接触越 多,蛋白质处在能量地形中的状态就越接近自然折叠态,也 就是越接近漏斗的底部。Go模型没有考虑能量面 的粗糙特性,只能描述折叠漏斗的漏斗形态的大 致特性,二、折叠模型4、 -发卡模型 -发卡模型把统计物理引用到蛋白质折 叠机制中。对G蛋白中只有16个氨基酸的一段小-发卡的研究很成功。通过讨论各个 组态并求出系统的配分函数,最后确定其系统的自由能,有人采用动力学网络模型运用REMD模拟研究了 G蛋 白的折叠路径。1三、折叠模拟 蛋白质折叠的模拟分三个层次:全原子模 型

7、,简略模型和简单晶格模型。 全原子模型可分为两种:包 括水的和不包括水的。 在简略模型中,用球或球棒简化表示支链,对势能也相 应简化处理。 简单晶格模型常在热力学、动力学、二级结构的形式等地方有独特之处。 HMM(即profile-HMM)是一种概率模型, 将多序列比对转化为二十种氨基酸的位点特异分布概形, 各种氨基酸在每个位点的概率取值不同, HMM根据此特异性在大型数据库中搜寻与模型匹配的蛋白质序列, 是目前最成功的蛋白质识别方法之一7。四、折叠算法(l)Metropolis Monte Cario模拟(MC); MC模拟的主要目的在于在特定温度下对构象空间作统 计分析。可用于结构的优化。

8、涉及的构象范围较大。1基本步骤2:第一步从一个随机的构象S1出发,并计算其E1 能量值第二步对S1的某个残基定向进行随机改变, 形成新构象S2,并计算其能量值E2;第三步如果E1E2,接受构象S2,使之成为 当前构象;否则,如果满足仍然接受S2,其中Ran为(0,1)之间的随机数,Ck为一递减序列.如果不接受S2,则仍使S1为当前构象;第四步如果不满足停止准则,则重复第二步到第四步.理论上,该算法能保证收敛到全局最小.但是, 实际上即使利用尽可能多的计算机资源,也很难得能量最小的构象。四、折叠算法(2)分子动力学(Molecular Dynamics)模拟 (MD); MD通过牛顿第二方程模拟

9、真实的动力学过程,能 够对肽链折叠的动力学行为作较准确的描述,如表示折叠过 程自组织特征的f分子一噪声。用于结构的优化。一般用于在总体构象基本 确定时,消除不合理的局部结构。1四、折叠算法(3)ESMC(熵取样 Monte Cario),也称之为 Generalized Ensemble 创造性的将“熵”即某能量或区间的构象数目的对数作为描述对象,以负熵代替-E/T的取样,此法能 够对小熵区域作比较多的取样,由于低能区域都是小区域 熵,故通过这个方法可以对低能构象区域作较好的统计分 析。熵取样MC能一次性地给出构象数目随能量的分 布,非常适合作蛋白质折叠的热力学的研究。1四、折叠算法遗传算法(

10、Genetic Algorithm)(GA);GA模拟蛋白质折叠的关键问题 是解决杂交时肽链的自规避。1首先要选择一种合适的编码方法,要确定算法的参数,要考虑具体的遗传操作方法算法的基本步骤可描述如下2:第一步随机产生N个构象作为初始集团,并确定参数;第二步计算每个构象Si被选择进行遗传操作的概率: 其中Ei为Si的能量值,并约定依据概率p(Si)进行 随机选择; 第三步利用交叉算子和变异算子对选定的构象(即染色体)施行交叉和变异操作,并产生新的集团。 第四步若不满足停止准则,则重复第二步到 第三步.否则,输出集团中能量值最小的构象. 在交叉操作中,随机选择一对构象作为父代染 色体,并将序列中

11、随机选定的一个点作为交叉点.将 每条序列的交叉点前的部分与另一序列交叉点后的 部分连接起来.在二维晶格模型中有三种连接方式: 0连接,90连接和270连接.随机选择一种连接方 式连接两部分,并寻找一条有效的序列作为子代染 色体.如果三种连接方式所得序列均无效,则重新选 择一对父变异操作类似于MC方法:随机 选择序列中一点并改变原先的连接方式.四、折叠算法遗传算法(Genetic Algorithm)(GA);GA模拟得到的结构,能量值为-19。2在GA基础上又演化出混合遗传算法HGA2.四、折叠算法(5)增删方法PERM 基本思想也类似生存竞争的内核,髙适应度的个体大规模复制,而低适应度的个体

12、消亡,这种方案效率比常规MC髙, PERM是依格点模型求解蛋白质折叠问题的最髙效算法。 基本算法流程5:四、折叠算法(5)增删方法PERM 在求解PERM的过程中,因为温度T和人口控制系数C0是对计算影响极大的一个因素MJ,计算中尝试了许多不同T和C0组合,得到了较好的改进效果四、折叠算法(6)扩散方程 将构象能量比作粒子数密度,而低能量构象对应髙密度区域。利用 扩散可使粒子数分布均匀化,高密度区域粒子数减少,而低 密度区域粒子数增加。对应于能貌上的操作就是,能谷上 升,能垒下降,由此可将局域势阱的数目减少或深度变浅,将 能貌变得平滑。这种能貌平滑化操作满足不改变能貌大致 形状的前提。扩散方程

13、的主要步骤是先将能貌平滑化,再对 折叠进行模拟,是肽链构象在最低能谷内或附近,然后在复原能貌,再进行真实模拟。四、折叠算法(7)簇MC算法(Cluster MC Algorithm) 自旋体系最好的算法之一,它的移动集合很具特色,具体操作上的困难,少有引入。1四、折叠算法(8)人口控制算法 一种改进的PERM算法,它给出了 PERM 算法的一种拟人解释,对算法中的权重及预测值进行了拟人化 的改进,并对选择动作时不同情况下的权重计算公式进行了统 一,算法在计算效率上有了明显的提高。1 拟物算法具体步骤如下6: a)在3n 维欧氏空间中随机生成一个点,并计算当前构型下的U 值; b)当前构型下的U

14、 值记为U0; C)按梯度下降法作一次优化并计算当前U 值,记做Ul; d)计算U0 - Ul的值,若该值小于0. 000 00l 则结束;否则转至b 拟人策略6: 当拟物计算落入某一局部极小值“陷阱”时,可获得与该值相对应的格局以及该格局的中心位置;将此格局中距离该中心最远的黑球( 象征着上面例子中那个非常痛苦的人)取出来放到这个中心点上,并以此时的格局作为新的初始格局进行新一轮的拟物计算。四、折叠算法(9)免疫算法(Immune algorithm) 在遗传算法基础上发展起来的,它模拟生物免疫系统对外来抗原排除,最大的特点是免疫记忆特性,抗体的自我识别能力和强大 的信息处理能力。作为一种集

15、免疫机制与进化机制于 一体的全新的演化算法,较遗传算法较好的解决了已有算法中 出现的退化现象,且使收敛速度有了显著提高。同时,在非格模 型的优化问题上,较遗传算法和模拟退火算法,有更强的全局搜 索能力和更高的稳定性。1(10)其他新算法: 基于重要性抽样的SISPER算法; 基于Monte Carlo的 MSOE算法; 在生物计算Web Service领域有着重要的应 用价值的网格计算(Grid Computation) 。四、折叠算法(10)其他新算法: 粒子群优化算法(PsO)是一种新的群体智能算法,源于对鸟群群体捕食行为的研究3 右图由RasMol绘制而成图(a)是从数据库文件中读取了2

16、sN3的所有C原子坐标数据得到的结构图,图(b)是计算得到的C原子坐标数据的结构图两种结构的C-RMSD值为612A。五、折叠分类数据库41、LIFCA数据库 LIFCA数据库包括、/类2406个蛋白质结构域,选自ASTRAL一165数据库中序列间同一性小于25、分辨率小于257的非冗余子集。利用基于折叠核心的蛋白质折叠类型分类方法,确定每一个样本的折叠类型,建立蛋白质折叠信息标注文件,形成了蛋白核心折叠注释数据库LIFCA,相关信息可以通过访问http:/ SCOP基于进化相关给出了蛋白质折叠类型的分类,被大家广泛采用,LIFCA是基于折叠核心的二级结构组成及分布的蛋白质结构分类数据库在折叠识别中作用显著参考文献1.欧阳芳平,徐慧,郭爱敏,李燕峰 ;蛋白质折叠机理的理论研究; China Journal of Bioinformatics; 2007,5;2. 解伟、王翼飞;蛋白质折叠的计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论