已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东理工大学硕士学位论文摘要 摘要 蛋白质是一类最重要的生物大分子,在生物体内占有特殊的地位。蛋白质 折叠是蛋白分子从它的变性状态到达其具有生物活性的天然构象的过程,在这 一过程中,不同的蛋白质其折叠速率有着很大的差异。 为了揭示蛋白质折叠速率的决定因素,许多工作者开展了大量的研究工 作。迄今已提出许多基于结构的经验参数,接触序、长程序、二级结构含量、 有效长度等,基于这些参数的各种预测方法所得到的预测结果也与实验数据有 着较好的吻合 然而上述许多方法都需要预先知道蛋白质的结构特性,或预测出其结构特 征,再进行折叠速率预测。为了避免这些因素产生的影响,我们提出了一个直 接从蛋白质的氨基酸序列出发,不需要任何结构信息,用人工神经网络方法预 测其折叠速率的模型。首先将收集到的蛋白质氨基酸序列按其生物学特征数字 化,如按氨基酸在螺旋构象中的平均自由能、氨基酸的出现频率等特征对氨基 酸赋值,获得与一级序列相应的数字化序列;其次利用现代数字信号处理方法 中的小波分析技术进行数据边界处理,如对称延拓、零延拓、平滑延拓等方法, 然后用高斯函数根据滑动窗口法对数字化序列进行压缩以满足模型的需要;最 后利用m a t l a b 中的神经网络工具箱建立一个三层b p 网络模型进行折叠速率预 测。用j a c k k n i f e 方法进行检验,相关系数可达0 6 3 5 ,与以前方法的结果相 吻合。该模型的建立为本领域的发展开辟了一个新的研究思路。 关键词:蛋白质折叠;折叠速率;预测方法;人工神经网络 a b s t r a c t t h ep r o t e i ni sbt y p eo fm a c r o m o l e o n l e st h a t o c c u p i e s as p e c i a lp o s i t i o ni nt h e l i v i n g - b e i n g s p r o t e i nf o l d i n gi st h ep r o c e s sb yw h i c hap r o t e i np r o g r e s sf r o mi t sd e n a t u r e d s t a t et oi t ss p e c i f i cb i o l o g i c a l l yn a t i v ec o n f o r m a t i o n i nt h i sp r o c e s s ,t h ef o l d i n gr a t e so f d i f f e r e n tp r o t e i n sa r ed i f f e r e n tl a r g e l y i no r d e rt or e v e a lt h ed e t e r m i n a n tf a c t o r so ff o l d i n gr a t e ,m a n yr e s e a r c h e r sm a d ea g r e a td e a lo fr e s e a r c hw o r k b yf a r , m a n ye m p i r i c a lp a r a m e t e r sb a s e do nn a t i v e s t r u c t u r a li n f o r m a t i o nh a v eb e e np r o p o s e ds u c c e s s i v e l y , s u c ha sc o n t a c to r d e r , l o n g - r a n g eo r d e r , s e c o n d a r ys t r u c t u r ec o n t e n t ,e f f e c t i v el e n g t h ,e t c t h ep r e d i c t e d r e s u l t sb yt h em e t h o d sb a s e do nt h e s ep a r a m e t e r sf i tw e l lw i t ht h ee x p e r i m e n t a l f o l d i n gr a t e s h o w e v e r , m a n yo ft h ea b o v e - m e n t i o n e dm e t h o d sn e e dt ok n o wp r o t e i n s t r u c t u r ei n f o r m a t i o n ,o rt op r e d i c tt h e mi na d v a n c e ,f o rt h ep u r p o s eo fp r e d i c t i n g a p r o t e i n sf o l d i n gr a t e i nt h ep r e s e n tw o r k ,w ep r o p o s e dam o d e lu s i n ga r t i f i c i a l n e u r a ln e t w o r kt op r e d i c tp r o t e i nf o l d i n gr a t ed i r e c t l yf r o ma m i n oa c i ds e q u e n c e w i t h o u ta n ys t r u c t u r ei n f o r m a t i o nn e e d e d f i r s t l y , c o n v e r tt h ea m i n oa c i ds e q u e n c e t on u m e r i cs e q u e n c ea c c o r d i n gt oi t sb i o l o g i c a lc h a r a c t e r i s t i c s ,s u c ha si t sa v e r a g e f r e ee n e r g yi nh e l i c a lc o n f o r m a t i o no ri t sf r e q u e n c yi n s e q u e n c e ;s e c o n d l y , u s e w a v e l e ta n a l y s i sm e t h o dw h i c hi sw i d e l ya d o p t e di nm o d e md i g i t a ls i g n a l p r o c e s s i n gt op r o c e s st h eb o u n d a r yo fn u m e r i c a ls e q u e n c e ,s u c ha ss y m m e t r y e x t e n s i o n ,z e r o p a d d i n ge x t e n s i o na n ds m o o t he x t e n s i o n ,t h e n u s es l i d i n gw i n d o w t e c h n i q u eb a s e do i lg a u s sf u n c t i o n st oc o m p r e s st h ed a t a ;f i n a l l ye s t a b l i s ha t h r e e - l a y e rb pm o d e lu s i n ga r t i f i c i a ln e u r a ln e t w o r kt o o l b o xo fm a t l a bt op r e d i c t p r o t e i n f o l d i n gr a t e t h ec o r r e l a t i o nc o e f f i c i e n t i so 6 3 5i nj a c k k n i f ec r o s s v a l i d a t i o nt e s t s ,w h i c hi sc o m p a r a b l ew i t ht h er e s u l t so ft h ep a s tm e t h o d s t h e e s t a b l i s h m e n to ft h i sm o d e lo p e n san e ww a yf o rp r o t e i nf o l d i n gr a t e k e yw o r d s :p r o t e i nf o l d i n g ;f o l d i n gr a t e ;p r e d i c t i o nm e t h o d s ;a r t i f i c i a ln e u r a l n e t w o r k s n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得山东理工大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名: 许醴秀 时间:司年f 月日 关于论文使用授权的说明 本人完全了解山东理工大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件和磁盘,允许论文被查阅和借阅;学校可以用不同方式在 不同媒体上发表、传播学位论文的全部或部分内容,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名: 导师签名: 襁磐 孙锄 时间:柚年( 月f r 日 时间:z p 。 年6 月;- 日 第一章引言 五十年代初运用x 射线衍射技术解出了生命遗传物质脱氧核糖核酸( d n a ) 分子的三维空间结构,阐明了生物遗传的分子基础,揭示了这个最主要的生命 活动的本质,从而开创了在分子水平上认识生命现象的新学科一一分子生物 学分子生物学的出现是经典生物学转变成近代生物学的里程碑【l 】。尽管自然 界的生物物种千千万万,生命现象纷繁复杂,在分子水平研究生命,使我们认 识到各种生命现象的基本原理却是高度致的! 从最简单的单细胞生物到最高 等的人类,它们最基本最重要的组成物质都是蛋白质和核酸。核酸是生物体遗 传信息的携带者,所有生物体能世代相传,就是依靠核酸分予可以精确复制的 性质蛋白质则是生命活动的主要承担者所有的生命活动,呼吸、运动、消 化,甚至感知、思维和学习,无一例外是依靠蛋白质来完成的蛋白质是一类 最重要的生物大分子,在生物体内占有特殊的地位,蛋白质的折叠就是指一个 蛋白质从它的变性状态转变到它的特定的生物学天然构象的过程。在这一过程 中,除了共价二硫键之外,主要是氢键、范德华力和盐键等一些非共价键的断 裂和形成【2 】。蛋白的折叠过程遵循自由能减小规律,即蛋白质在一定时间内沿 着某些特定的路径( 过渡态系综) 达到其自由能最小( 极小) 的天然构象。一 个给定的蛋白质理论上可以采取多种构象,但在生理条件下,只有一种或很少 几种在能量上是有利的。般认为,驱动蛋白质折叠的主要动力是熵效应,折 叠的结果是熵和焓达到平衡。 蛋白质的生物活性不仅决定于蛋白质分子的一级结构,而且与其特定的空 间结构密切相关。异常的蛋白质空间结构很可能导致其生物活性的降低、丧失, 甚至会导致疾病,疯牛病,a l z h e i m e r s 症等都是由于蛋白质折叠异常引起的 疾病l ,】。蛋白质如何在细胞内正确地折叠? 为什么这个过程有时会失败2 在功能 和结构细节上阐明关于蛋白质折叠的过程将对相关疾病的预防和治疗有重要 意义1 5 1 。近年来,许多实验手段被用来研究蛋白质的折叠过程,比如,各种 光谱技术、质谱和核磁共振等。迄今,已积累了相当可观的动力学数据并出现 了相应的蛋白质折叠数据库【6 】。这为我们系统地研究蛋白质的折叠规律提供了 前所未有的机遇。 近年来,随着科学技术日新月异的发展和人类基因组计划的实施,人们越 来越关心生命科学,越来越多的科学研究者进入生命科学或与生命科学相关的 研究领域。特别是一些数理、计算机科学工作者的介入,使得生物信息学得以 不断的发展。现今,人类基因组计划已经接近完成,人们的注意力已经从基因 山东理工大学硕士学位论文 第一章引言 组测序转向对基因组表达的分析,对蛋白质结构与功能的预测方面。而蛋白质 折叠问题被列为“2 l 世纪的生物物理学”的重要课题,它是分子生物学中心法 则尚未解决的一个重大生物学问题。从一级序列预测蛋白质分子的三级结构并 进一步预测其功能,是极富挑战性的工作。研究蛋白质折叠,是全面的最终阐 明中心法则的一个根本问题,其中重要任务之一便是确定蛋白质折叠速率的决 定因素,从而理解蛋白质的折叠机理。 1 1 蛋白质通论 1 1 1 蛋白质的分子结构 蛋白质基本上是由2 0 种氨基酸以肽键连接成的共价多肽链。但天然的蛋 白质分子并不是走向随机的松散多肽链,每一种天然蛋白质都有自己特定的三 维空问结构,这种三维空间结构被称为蛋白质的构象,包括二级结构和三级结 构二个主要层次【7 l 。为了表示蛋白质结构的不同组织层次,通常把蛋白质的结 构分成四个层次:一级结构、二级结构、三级结构和四级结构。 一级结构是指多肽链上的氨基酸残基的掉列顺序,它们之间通过肽键相 连,肽键中六个原子共平面,对于多肽链,习惯上把含有口氨基的一端称为n 端,而把含有口- 羧基的一端称为c 端。氨基酸从多肽链一端到另一端的出现 顺序就叫做蛋白的一级结构 二级结构是指多肽链骨架上局部肽段借助氢键排列成的有规则或无规则 的构象,包括有口螺旋、卢折叠,部分规则的卢转角和q 形无序结构。二级结 构是多肽链在空间的三维排列中的一个高级组织层次l l 】。蛋白质二级结构辞 典”( d s s p ) 是目前应用最广泛的一种蛋白质二级结构定义方式【9 】,它定义了 8 种类型的二级结构,分别为h ( 口h e l i x 或4 h e l i x ) 、b ( 卢b r i d g e ) 、e ( 卢s t r a n d ) 、 g ( 3 1 0 h e l i x ) 、i ( 石h e l i x 或5 - h e l i x ) 、t ( 口- t u r n ) 、s ( b e n d ) 、c 或( c o i l ) 其中,i 极少出现。在蛋白质二级结构预测中,通常将上述8 种类型归并为3 种e 、h 、c 常用的归并方法有两种:( 1 ) e 和b 归为e ,g 和h 归为h ,其余归 为c ;( 2 ) e 归为e ,h 归为h ,其余归为c 。而这两种方法中。又以第一种方法 最为常用 1 0 l 。 三级结构是指多肽链上相距较远的侧链借助各种非共价键( 或非共价力) 弯曲,折叠成具有特定走向的紧密球状构象。三级结构是多肽链在三维捧列中 的另一个高级组织层次,部分蛋白质只有三级结构,而无四级结构。四级结构 是指寡聚蛋白质中各亚基,借助于非共价键的次级键,在空间上相互作用组合 成的一定空间捧列的聚合体,其中各个亚基都有自己特定的三级结构,该聚合 2 山东理工大学硕士学位论文 第一章引言 体具有特定的生物学功能。 为了研究方便,可以根据蛋白不同层次的结构特征对其进行分类目前, 常用的蛋白质结构分类体系主要有两个:s c o p 和c a - t h s c o p ( s t r u c t u r a l c l a s s i f i c a t i o no fp r o t e i n ) 的基本分类单位是蛋白质的结构域 1 i 】蛋白质结构 域按层次被分成:种、蛋白、家族、超家族、折叠、和类;其中,类是蛋白质 分类体系的最高层次,常见的有四种:全口,全卢,口+ 卢和口卢,此外。还 有多结构域蛋白、膜蛋白和小蛋白等类别。s c o p 采用的是人工分类的手段。 c a t h ( c l a s s ,a r c h i t e c t u r e ,t o p o l o g y ,h o m o l o g o u ss u p e r f a m i l y ) 对应另一套 蛋白质结构分类体系的四个分类层次。c a t h 采用的是半人工半自动的分类手 段i l 副;其中,c l a s s 和h o m o l o g o u ss u p e r f a m i l y 这一层次是用计算机的结构和序 列的统计与比对算法自动聚类生成的, a r c h i t e c t u r e 和t o p o l o g y 这两层是人工 检视赋予的分类。 1 1 2 蛋白质折叠类型 蛋白质折叠的研究,比较狭义的定义就是研究蛋白质特定三维空间结构形 成的规律、稳定性和与其生物活性的关系。在概念上有热力学的问题和动力学 的问题;蛋白质在体外折叠和在细胞内折叠的问题;有理论研究和实验研究的 问题:由a n f i n s e n 等u 叫根据对r n a s e 复性研究的实验提出来的经典“热力学 假说”,认为天然蛋白质多肽链采取的构象是在一定环境条件下热力学上最稳 定的结果,采取天然构象的多肽链和它所处的一定环境条件( 如溶液组分、p h 、 温度、离子强度等) 整个系统的总自由能最低,所以处于变性状态的多肽链在 一定的环境条件下能够自发折叠成天然构象。许多蛋白( 特别是一些小蛋白) 在体外可以可逆的进行变性、复性,使“热力学假说”得到了广泛的支持。但 是随着研究的深入,人们发现许多多肽链的体外复性效率较低,而且其复性速 度大大低于其在体内的折叠速度。有人提出若某一多肽链具有两种低能量状 态:一种是天然构象,一种是非天然构象,而且处于这两种低能量状态的多肤 链的相互转变由于要克服较高的能垒而难以实现,那么在蛋白质折叠过程中会 有两种途径相互竞争,一种是正确折叠成天然构象的途径,另一种是错误折叠 成稳定的非天然构象的途径研究表明多肽链在折叠过程中实际上受到许多因 素的限制作用,可见蛋白质多肽链的正确折叠是由于一些因素在蛋白质折叠的 动力学过程中起到控制作用l “1 5 】。体内折叠侧重于研究分子伴侣体系在蛋白 折叠过程中的作用,而体外折叠则侧重于研究蛋白分子折叠的物理与化学机 制。目前认为,体内折叠是在一个拥挤的大分子环境中完成的f 1 61 7 】,存在着 正确方向与错误方向之间的竞争,而分子伴侣在蛋白折叠的过程中对于确保折 3 山东理工大学硕士学位论文第一章引言 叠沿着正确的方向进行起到了重要的保驾护航的作用。蛋白质的体外折叠研究 主要集中在一些小的行为良好的蛋白分子上蛋白质体外折叠研究采用先变性 后复性的手段,蛋白质变性是在变性剂的作用下,蛋白质从具有生物功能的天 然构象状态,到一条伸展的多肽链的过程。在这一过程中,肽键并不断裂,从 而保持了残基之间的连接顺序,即氨基酸序列。常用的变性剂有温度、尿素和 胍盐等目前蛋白质数据库中已经存有大量的蛋白结构数据,但已知其折叠速 率的蛋白数却微乎其微,随着人类基因组计划的胜利完成,蛋自质结构的数据 增长必定会出现爆炸的态势,而折叠速率测定的速度远远滞后,因此二者之间 还会形成更大的距离,这就更需要进行理论预测研究 现在,我们对于蛋白折叠机理的认识主要来自体外折叠的实验和理论的结 果。据实验观察,蛋白折叠的动力学行为可以粗略地分成两类:两态折叠和多 态折叠。有些蛋白,特别是一些较小的蛋白,可能采用两态折叠过程,即蛋白 直接由其变性状态,经过过渡态而到达其天然构象,中间没有可观测的中间体 生成( 因为中间体的自由能高于或接近于天然态) ,遵循“全或无”( a 1 1 o r - n o n e ) 过程【l8 】,这类蛋白被称之为“两态”蛋白。有些蛋白则采用多态折叠过程, 在折叠过程前期,先局部地形成二级结构,而在折叠过程后期,由这些预先形 成的二级结构片断排列成特定的天然构象,即在蛋白的变性态与其天然构象之 间存在一个亚稳态的被称为“熔球体”的折叠中间体1 1 9 - 2 0 ,这类蛋白被称之 为“三态”蛋白。两态蛋白折叠与多态蛋白折叠的区别就在于是否存在稳定的、 可观测的折叠中间体。折叠中问体既可能在重折叠( r e f o l d i n g ) 的过程中被观 测到,也可能在去折叠过程中被观测到。 1 2 折叠速率预测研究进展 蛋白质折叠问题被列为“2 l 世纪的生物物理学”的重要课题,它是分子 生物学中心法则尚未解决的一个重大生物学问题。从一级序列预测蛋白质分子 的三级结构并进一步预测其功能,是极富挑战性的工作,其重要任务之一便是 确定蛋白质折叠速率的决定因素,从而理解蛋白质的折叠机理。大量的科学研 究工作者为此一直在这一领域做着不懈的努力,近年来,许多实验手段被用来 研究蛋白质的折叠过程,比如,各种光谱技术、质谱和核磁共振等。这些手段 为研究蛋白质折叠速率预测提供了足够的实验数据 蛋白质的折叠是指一个蛋白质从它的变性状态转变到它的特定的生物学 天然构象的过程。这一过程遵循自由能减小规律,即蛋白质在一定时间内沿着 某一或某些特定的路径( 过渡态系综) 达到其自由能最小( 极小) 的天然构象。 据实验观察,在这一过程中,有些蛋白质被称作两态蛋臼。而有些蛋白 山东理工大学硕士学位论文第一章引言 质被称为三态蛋白【l ”在这些蛋白质中,它们的折叠速率又有着很大的 差异,有些蛋白质在几微秒内就能完成其折叠过程,而有些则需要几个小时。 为了解释这一差异,真实地模拟蛋白质的折叠过程,并计算出它的折叠速率, 理论工作者开展了大量的研究工作。扩散碰撞模型【2 1 2 2 1 、核缩聚模型2 3 1 等理 论模型的提出,增进了人们对蛋白质( 两态蛋白、弱型三态蛋白以及一些小肽) 折叠机理的理解。 自1 9 9 1 年j a c k s i n & f e r s h t l 2 4 j 发现在胰凝乳蛋白酶抑制剂u 的快速折叠过 程中不存在固定的中间体之后,许多对小的两态蛋白质的理论研究表明蛋白质 的大小、状态以及结构特征都对其折叠速率产生影响,但在揭示它们间的相互 关系过程中受到种种的限制,直到1 9 9 8 年p l a x c 0 1 2 钉等发现两态蛋白质的折叠 速率主要由它的天然态的拓扑结构所决定之后,才进一步促进了该领域的快速 发展。随后,各种与折叠速率相关的经验参数被相继提出。现在,已经产生许 多较好的方法,能够比较精确地预测出一些小型蛋白质的折叠速率【2 6 1 1 2 1 基于三级结构的预测方法 1 9 9 8 年,p i d x c o 和b a k e r l 2 7 考察了蛋白质三级结构的拓扑复杂性和蛋白 质折叠速率之间的关系,发现蛋白质的折叠速率( t n ( k ,) ) 和接触序( c o n t a c t o r d 磅? c d :) 有着反比关系,提出了一个基于参数c o 的预测方法,公式如下: c o :击壹哦 ( 1 ) 佴一 ” 其中,露,为蛋白质的氨基酸残基数( 即蛋白序列长度,不包括无规则区域) , 一。为非局部( 两原子间的空间距离不大于矗。,序列距离不小于f 。个的残基间 隔,r x t = 4 - 6a ,l c 。= l 一2 ) 残基阕的接触数,a s t j 为接触痨町间的残基数。随 后p l a x c o 2 3 l 等人发现,接触序c o 和蛋白质折叠速率的自然对数t n ( k ,) 之间存在 很好的线性负相关关系。他们用一元线性回归方法对1 2 个蛋白进行预测,相 关系数达0 8 l 。但该参数仅仅考虑到两态蛋白,完全没有涉及三态蛋白,且预 测精度对数据集有着很大的依赖性( 对1 2 个蛋白,相关系数可高达0 8 1 ,对 1 8 个蛋白,相关系数仅为0 6 4 ) 。 c o 模型的提出表明蛋白质的折叠速率主要由它的天然态结构所决定,从 而把人们的注意力引向了从蛋白质天然结构出发预测其折叠速率的动力学理 论研究。 a i m 和b a k e r 2 9 1 提出了一种利用蛋白质折叠自由能能量曲面( f r e e e n e r g y l a n d s c a p e s ,a g ) 预测蛋白质折叠速率的方法从动力学角度来看,因蛋白质 状态的变化伴随能量的改变,可先根据两态蛋白的三级结构信息。计算出某一 山东理工大学硕士学位论文 第一章引言 构象在最低能量路径上的最大自由能,再由不同能量点间能量的变化,利用二 元连续碰撞模型和动态规划方法进行折叠速率预测,相关系数可达o 7 9 但该 方法仅对5 个蛋白进行了预测,缺乏普及性,预测精度可信度不高。m o u n o z 和 e a t o n 3 0 】在a i m 和b a k e r 提出的模型的基础上,考虑了接触残基问的分布密度 对自由能的影响后,提出了一种基于自由能阻碍及结构构象熵的统计力学模型 来预测蛋白质的折叠速率,其中蛋白的拓扑结构由西值表示,西值由突变体平 衡态的能量g 和状态改变的激发能a a g 共同决定( m = a a g + ,a a g ) ,垂为 0 时表示蛋白质处于变性态,为l 时表示处于自然稳定态,不同西值包含不同 能量,用该方法对1 8 个两态蛋白进行了折叠速率预测,相关系数为0 8 3 。d e b e 和g o d d a r d 根据蛋白质核缩聚折叠机制,提出一种基于三级拓扑结构预测蛋白 质折叠速率的方法【3 t ,该方法认为蛋白质的折叠速率不仅依赖于从构造态到 自然态的缩聚速率,还依赖于蛋白对缩聚路径选择的速率,在计算出蛋白质随 机选择某一折叠路径( 构象) 的概率( 速度) 之后,结合此路径上的拓扑结构 信息。利用第一原理方法预测折叠速率,相关系数为0 7 8 ,但该方法对含有口 螺旋结构的蛋白质,预测精度较低。以上这几种方法都只能对两态蛋白进行预 测。而后d i n n e r 和k a r p l u s 把c o 和a g 结合共同作为输入向量。利用神经网络 方法进行预测的模型既可以用于两态蛋白,又可以用于兰态蛋白,选2 3 个作 为训练集,l o 个为检验集时,相关系数可达0 7 6 ”1 。针对c o 无法解释折叠机 制( 即折叠路径) 等问题,w e i k l 和d i l l 在环化之瓷换及交联等突变实验方法 的启发下,提出了一新的参数一有效接触序( e f f e c t i v ec o n t a c to r d e r ,e c o ) , 在链熵而非自由能折叠机制的基础上,用基于该参数的多支持链模型( m u l t i p l e s u p p l yl i n e ,m s l ) ,按多元回归方法不仅能够预测蛋白质的折叠速率( 相关系 数为0 8 0 ) ,还能计算出折叠路径【冽。 对于内部残基间的相互作用对蛋白质折叠速率的影响,以上各种方法仅仅 考虑了短距离或中等距离的残基间的接触,忽略了残基间长程接触的影响为 了比较长程接触与短程接触对蛋白折叠速率的影响,o r o m b i h a 和s e l v a r a j 考 虑了在空间上相距较近,但在序列上相距较远的残基间接触的影响,提出了一 个新的参数一长程序( 1 0 n g r a n g eo r d e r ,l r o ) 【3 4 1 ,该参数与折叠速率有着 较强的反比关系,公式如下: r r 1 l r o :n q ,: 1 卜卅 1 2( 2 ) 【o 其他 此时,对全口、口+ 、全卢等不同类型的蛋白质,口碳原子残基间的截距分别 为j 。= 2 7 、l o 、4 4 ,r 。= 8 a 。根据该参数利用简单的统计模型对2 3 个蛋白进 行折叠速率预测,相关系数达o 8 3 。若对已知的蛋白质先进行分类,再进行预 测,相关性系数分别可达0 7 2 ( 口) 、0 8 6 ( 口+ 卢) 和0 9 2 ( ,) ,相对于用c o 6 山东理工大学硕士学位论文第一章引言 方法预测的相关系数o 5 6 、0 8 2 和0 4 6 有了很大的提高。 7 上述方法的预测结果表明,无论是c d 还是l r o 都对蛋白质的折叠速率产 生一定的影响,且二者之间有着强相关性( 系数为0 7 7 ) ,也就是说长短区域 残基问的相互接触存在一平衡,共同影响着蛋白质的折叠速率。z h o u 和z h o u 在综合上述两个参数的基础上,提出一个新的参数一总接触距离( t o t a lc o n t a c t d i s t a n c e ,t c d ) 来预测蛋白质的折叠速率【3 卯。这一参数既包含每个接触间的 序列距离,又包含所有接触的数耳,公式如下: t c d = 了1 艺卜卅 ( 3 ) t 越 p 叫卜。 从公式可以看出,t c d 与c o 的差别仅在于分母的不同,但不同的分母代表不 同的物理意义,c o 表示每个残基每个接触的数量( 丛序列上看) ,而t c d 表示 每个残基间所有接触的总和( 对接触的数量进行归一化) ,当c o 和l r o 所选的 l o u t 相同时,t c d 可简单地表示威二者乘积的形式,叱d = c d 三r d 。用兀d 按 线性回归方法预测2 8 个蛋白质的折叠速率,相关系数可达0 8 9 ,相比之下,此 时c o 、l r o 的相关系数分别为0 7 1 和0 8 0 。但对于某些特殊的蛋白如口淀粉酶 抑制剂来说,该方法会产生较大的偏差。随后,z h a n g 等把c o 、l e o 和t c d 进 行结合,用前向人工神经网络( b p 网络) 方法对2 8 个蛋白质进行预测,随机 选择蚧进行检验,相关系数也能达到0 8 9 3 6 】。同样的数据,相比用z h o u 的t c d 方法预测的精度0 7 0 提高了很多。 另外,n 6 i t i n g 等也从对蛋白质分子的拓扑结构的复杂性的描述中提取了一 个新参数一链拓扑参数( c h a i n t o p o l o g yp a r a m e t e r ,c t p ) 来预测蛋白质的折 叠速率【3 7 1 ,其计算公式如下: 一i o g k f 凹,卿= 寺峨 ( 4 ) 其中各符号的代表意义等同于c o 的描述。用该方法不需要从预测集中剔除出 任何子集( 例如,c o 要剔出口螺旋) ,只需蛋白质的折叠速率在 1 0 1 s - 1 七,s 1 0 s - 1 范围内,用该参数按线性回归方法对2 2 个蛋白进行预测,相 关系数可达0 8 6 1 2 2 基于二级结构的预测方法 c o 作为一个基于3 d 结构的经验参数,虽然和折叠速率之间有着很好的相 关性,但其物理含义并不明确。g o n g 等认为可能仅是其它一些潜在的物理 7 山东理工大学硕士学位论文第一章引言 i i 变量的代理,而那些潜在的物理变量才是决定折叠速率的真正因素。他们认为, c o 是一个复合变量,其表征的真正含义是蛋白质的二级结构含量( s e c o n d a r y s t r u c t u r ec o n t a c t ,豁c ) 。基于此想法,他们提出了根据s s c 来预测蛋白质折叠 速率的方法d s ,公式如下: 呱七) = a t + b h + c b + d l - 1 一e( 5 ) 其中,f 为转角含量,日为螺旋含量,b 为发卡结构含量,上为残基数( 序列 长度) ,a 、b 、c 、d 、e 为回归系数( 可用多元线性回归方法确定) 。用该方法 对2 4 个两态蛋白进行预测,相关系数可高达0 9 1 。由于该方法中只用到了二 级结构的含量,也可以利用从氨基酸序列预测得到的二级结构来计算折叠速 率,从而为直接从蛋白质的一级序列预瓤其折叠速率铺垫了道路。但该方法只 适用于两态蛋白,不能很好地预测多态蛋白及小肽的折叠速率。 随着蛋白质研究的不断深入,逐渐总结出以下规律,一般来说,口螺旋蛋 白要比卢、口,声蛋白折叠得快。用c o 的理论解释,是因为口螺旋蛋白中含有 大量的局部接触,所以有较低的c o 值,较高的折叠速率,而卢、口卢蛋白含 有大量的远程接触,所以有较高的c o 值,较低的折叠速率。若反问这样一个 问题:对于c o 和蛋白质折叠速率之间的相关性,是否仅由螺旋含量就可以决 定昵? 换言之,螺旋结构之外的其他的结构特征对这一相关性的贡献是否显著 呢? 为了回答这一问题,m i r n y & s h a k h n o v i c h 在对c o 作了详细研究后,提出 了一个新的参数一局部接触比率( f r a c t i o no fl o c a lc o n t a c t s ,e m f ,) ,既回答 了这一问题,又能很好地预测出蛋白质的折叠速率i 3 ”,公式如下: = 等= i t j 其中,j ,为局部接触数,为全部接触数,当残基f 和,相互接触时,占( ,) 为 l ,否则为0 。用该参数进行折叠速率预测,相关系数高达o 9 0 以上,比用c o 方 法的预测精度高出许多。由此可得出结论,c o 与折叠速率的相关性是由蛋白 质中氨基酸局部接触的含量决定的。但该方法也只能用于两态蛋白的预测 考虑到蛋白质折叠过程中预先折叠形成的折叠区域( p r e f o r m e db l o c k s ) 对后续折叠过程的影响,l v a n k o v 和f i n k e l s t e i n 提出的有效折叠链长度 ( e f f e c t i v e l e n g t h ,o ) 的概念【帅】,因在折叠过程中口螺旋会首先快速折叠形 成为折叠区域,故有效长度。的计算公式如下: 工驴= 三一如+ 0 ,l o g ( k ) c o n s t 一( 上够) 9 ( 7 ) 其中上为螺旋构象中的残基数, 0 为螺旋数,l 意味着把一个螺旋看作是,t 个主链残基。该方法可以通过两种方式进行预测:其一是根据蛋白质的三级结 加万翌聃 山东理工大学硕士学位论文第一章引言 构信息确定二级结构,由二级结构计算出三、三日和n n ,再进行预测。另一种方 式是从氨基酸序列预测出蛋白质的二级结构,再根据二级结构计算出三、三| | 5 r 和,进而预测折叠速率。根据公式( 7 ) ,用线性回归方法进行预测,在 0 p 弘的范围内,效果最佳,相关系数可达o 8 2 。这种基于二级结构的折 ,j 叠速率预测方法,既可用于两态蛋白,又可用于三态蛋白。但该方法也有它的 不足之处,例如,它不能有效地预测卢结构的精度( 因没有二级结构预测方法 能稳定地预测口发卡的折叠) 1 2 3 基于一级结构的预测方法 蛋白质的折叠速率与其结构有着很强的相关性已成为一个不争的事实,而 结构可由氨基酸序列预测,因而可以推测。从氨基酸序列直接预测蛋白质的折 叠速率是可能的,许多科学家沿着这一方向做出了努力。 s h a o 等根据螺旋结构中相邻残基间的影响提出了一个由序列决定的新参 数一螺旋参数( h e l i xp a r a m e t e r ,h p ) ,可在不知道蛋白质的具体结构信息( 3 d 原子坐标) ,但已知蛋白质结构类型的情况下,预测蛋白质的折叠速率l ,公 式如下: - p = “m + c 如+ 氩) 2 】 ( 8 ) 其中,n n 为疏水残基数,为位置f 处的氨基酸残基( 若该位置的残基为疏水残 基,贝峨= 一l ,否贝岍;t ) ,为总残基数,对于f n ,五= 0 。通过线 性拟合对5 个蛋白进行预测,相关系数可达0 9 2 7 。但该方法仅适用于两态口螺 旋蛋白,使用范围较窄。 p u n t a 和r o s t 提出了一种先从氨基酸序列预测出蛋白质3 d 结构中残基间 的长程接触序( l r o ) ,再进行折叠速率预测的方法【4 2 1 。它是在预测得到的l r o 的基础上,再利用l r o 和折叠速率之间的相关性对折叠速率进行的预测这样, 可以在既不知道蛋白质的具体结构信息,也不知道其结构类的情况下,从氨基 酸序列经由l r d 预测来估算蛋白质的折叠速率该方法首先利用一个神经网 络模型从氨基酸序列预测出残基间的接触数孵,再由长度工对其进行标准化得 到l r o 的预测值工置d 。耐,公式如下; 朋q “= 联,p( 9 ) 其a o s y g 残基扎,问的序列间距( 选为,。1 4 ) ,r 为二者问存在接触的概率( 选 为o 4 5 ) ,通过线性拟合对3 7 个蛋白进行预测,相关系数可达0 6 8 。但该方法 9 山东理工大学硕士学位论文第一章引言 - i i 一 仅可以对两态蛋白进行预测,不能用于三态蛋白 g r o m i h a 也认为蛋白质的折叠速率是由残基问的相互作用决定的【4 ”,而相 互作用又受氨基酸的物理、化学、能量以及构象等属性的影响,继而提出了一 个简单的统计模型,根据蛋白质的氨基酸属性来预测其折叠速率氨基酸f 的 平均属性p 。( d 的计算公式如下: 卫 = 艺p ( j ) h v ( 1 0 ) 川 其中,u ) 是第,个残基的属性( 包括口螺旋碳端强度、可压缩性、片趋势、 溶剂接触面积等) ,n 为残基的总个数。利用该参数按线性回归方法对1 7 个蛋 白质进行预测,相关系数为0 9 3 。若先把所选的蛋白质分成不同的结构类,再 进行预测,对全口、全卢、及混合蛋白,相关系数分别为0 9 9 、0 9 6 和0 9 5 。 该方法也是在不知道蛋白质的具体结构信息( 3 d 原子坐标) ,但已知蛋白质结 构类型的情况下进行的预测,它既可以用于两态蛋白,又可以用于三态蛋白。 各种预测参数的提出不断推动着蛋白质折叠速率预测方法的发展,但综观 以上所有方法,便发现一共同的弱点,它们要么需要预先知道蛋白质的二级或 三级结构( 至少是结构类型) ,要么需要从序列出发,先预测出结构再进行折 叠速率预测,这样不仅增加了工作量,而且受限于蛋自质结构预测的准确率, 折叠速率的预测精度也大为降低。为了克服这一不足,许多研究工作者正在寻 找一种不涉及任何结构信息,直接从蛋白质的氨基酸序列预测其折叠速率的方 法。 考虑到在蛋白质的折叠过程中,两态蛋白和三态蛋白的折叠行为有着很大 的差异,其折叠速率的决定因素也有差别。对于三态蛋白,g a l z i t s k a y a 等提 出链的长度( 三) 是决定其折叠速率的主要因素【4 4 i ,公式如下: l l l ( 七) p0 s p l( 1 1 ) 其中代表线性关系,该方法表明三态蛋白的折叠速率与主链的长度成反 比关系,用一元线性回归方法进行预测,相关系数为o 8 0 。但该参数方法不能 用于预测两态蛋白的折叠速率( 若用于两态蛋白,相关系数仅为0 0 7 ) 。 对于两态蛋白,h u a n g 等提出了一种根据蛋白质的氨基酸属性从一级序列 预测其折叠速率的方法1 4 ”。氨基酸属性可由其残基的q 值来决定,公式如下: o = r 4 - d = ( 1 一f ) + 嘶( 1 一,“) + 吃( 1 一,4 ) + 吩( 1 一p )( 1 2 ) 其中,f 为氨基酸韧度,户4 、p ”分别为氨基酸在口螺旋、卢折叠片及 反向转角中出现的次数,系数吼、对所有氨基酸有相同的值。利用该 参数按线性回归方法对4 0 个蛋白进行预测,相关系数为o 8 2 。但该方法只能 用于两态蛋白的预测( 对于三态蛋白,相关系数仅为o 5 3 ) 。 1 2 4 综合方法 随着研究的不断深入,各种不同的参数被相继提出来,这些参数各自与折 叠速率之间有着很好的相关性。在这种情况下,把不同的参数进行组合,共同 预测蛋白质的折叠速率也不失为一种不错的方法。 i v a n k o v 等把c o 和上两者进行结合m 】,得到一新的参数一绝对接触序 ( a b s o l u t ec o n t a c to r d e r ,爿幻c o ) ,它能够同时预测两态、三态蛋白甚至小 肽的折叠速率1 2 引,公式如下: absco=cox工03) 根据该参数用线性回归方法进行预测,相关系数为0 7 6 ,此时的预测精度可与 用衄i ) f ( p = 0 7 0 士0 0 7 ) 方法的预测范围相一致。 z h a n g 等把c o ,l r o t c d ,上。f f ,c t p 这些均与折叠速率相关的参数作了 统一i ”j ,提出一个新的参数一押阶接触距离( 以o r d e r c o n t a c t d i s t a n c e ,n o c d ) , 来预测蛋白质的折叠速率,公式如下: 坼 n o c d :l 罗口。口,i ,一4 “ ( 1 4 ) 一,i :商。一” 其中,当残基i 处于螺旋构象中时,口。= 口;否则认为盯螺旋对该参数没有影响, = l ;当残基i 、,均处在口螺旋中时,q 口,= 口2 ,当只有其中一个在a 螺旋 中时,叩,= 口,当二者均不在其中时,喁口,= 1 ;此时要求屯= o 8 0 ,乙= 2 。 用该方法分别对3 0 个两态蛋白和2 4 个三态蛋白进行预测,当n = 1 2 ,盯= 0 6 时, 对两态蛋白预测的相关系数为0 8 0 9 ;当n = 2 8 ,口= 1 5 时,对三态蛋白预测的 相关系数为0 8 1 6 。 上述基于一级结构的方法要么仅适用于两态蛋白,要么仅适用于三态蛋 白,推广能力和泛化能力较差为此,我们想找出一个对所有蛋白都适用的指 标,实现真正意义上的从蛋白质的一级结构出发,预测其折叠速率的方法。 首先我们实验室对两态和三态蛋白的折叠速率与它们的氨基酸组成之间 的关系进行了系统的分析【4 引,发现不同的氨基酸对蛋白质的折叠过程起着不 同的作用鉴于此,我们提出了一个不涉及任何结构因素,仅由蛋白质序列的 氨基酸组成所决定的新参数一组成指标( c o m p o s i t i o ni n d e x ,c 1 ) ,对3 7 个两 态蛋白和2 5 个三态蛋白进行折叠速率预测,相关系数超过了0 7 。 另外,人工神经网络方法已发展成一种比较成熟的技术,因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024担保合同范本样本
- 2024天津市小型建设工程施工合同(空白)
- 广告代理服务合同
- 写字间租赁协议
- 建筑施工承包合同范本
- 个人期货市场贷款合同
- 人才互助发展协议书
- 新版股权协议书样本
- 搅拌机租赁合同样式
- 技术服务合同样本地址
- 2023年新华社招聘122人笔试参考题库(共500题)答案详解版
- 2023游戏行业人才报告
- 流行病学的误差和偏倚
- 2023年中级经济师考试真题及答案完整版
- 二年级上册道德与法治10《我们不乱扔》说课稿
- 2023-2024学年高一上学期选科指导主题班会 课件
- Unit4ExploringpoetryExtendedReading公开课课件高中英语牛津译林版(2020)选择性
- 天线技术在智能电网通信系统中的关键技术研究-第2篇
- 急诊科护士培训计划(6篇)
- 中国公路学会高德地图-2023年高速公路服务区出行热度分析报告:1月-6月
- 安装发光字验收单
评论
0/150
提交评论