（光学专业论文）二维hp模型蛋白质折叠性质的改进遗传算法研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：81 大小：2.87MB 积分：0 举报 版权申诉

已阅读5页，还剩76页未读，继续免费阅读

（光学专业论文）二维hp模型蛋白质折叠性质的改进遗传算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

i i 华南师范大学硕士学位论文关键词：蛋白质折叠；h p 模型；二级结构；遗传算法华南师范大学硕士学位论文 i i i a b s t r a c t p r o t e i ns t r u c t u r ep r e d i c t i o ni so n eo ft h er e s e a r c hh o t s p o tp r o b l e mo fb i o i n f o r m a t i c s ， i t i so n eo ft h ep r o b l e ma b o u th o wt op r e d i c tt h es t r u c t u r e ，f o l d i n ga n df u n c t i o nf r o m i t sa m i n oa c i ds e q u e n c e i nt h i sd i s s e r t a t i o n ，w ec o m p u t e dn i n ed i f f e r e n th ps e q u e n c e s b a s e do nt h et w od i m e n s i o n a lh y d r o p h o b i c h y d r o p h i l i cl a t t i c em o d e l ，c o m b i n i n gt h r e e b a s i cs t r u c t u r e so fp r o t e i ns e c o n d a r ys t r u c t u r ea n di m p r o v e dg e n e t i ca l g o r i t h mt os e a r c h t h eg r o u n ds t a t ec o n f o r m a t i o na n da n a l y z ei t sc h a r a c t e r i s t i c f i r s t l y , w es t u d yt h es t r u c t u r em o d e lo fp r o t e i na n dt h ec o r r e l a t i v ee n e r g yf u n c t i o n h o wt op r o b ei n t ot h ee n e r g yf u n c t i o no ft h ep r o t e i nf o l d i n gs o l v i n gp r o c e s sb e c o m e st h e k e yp r o b l e m c o m b i n i n gc u r r e n ti n t e r n a la n di n t e r n a t i o n a ls t u d yh o t s p o t ，c o n s i d e r i n g t h ep r o t e i nf o l d i n gp r o c e s si st h es y n t h e s i so ft h et h e r m o d y n a m i c sa n dd y n a m i c s ，i t s r a n d o m i c i t yo ff o l d i n ga n dc o m p l e x i t yo fp r o c e s s ，w ec o m b i n et h ee n e r g yf u n c t i o ne x i s t e d a n dh pl a t t i c em o d e l b u i l do n es i m p l ee n e r g yf u n c t i o na n dp r o p o s eb a s i cc o n f o r m a t i o n o fs e c o n d a r ys t r u c t u r eb a s e do nt w od i m e n s i o n a lh pl a t t i c em o d e l s e c o n d l y , w es t u d yt h e 印p l i e a t i o no fg e n e t i ca l g o r i t h mi np r o t e i nf o l d i n gp r o c e s s s i m p l eg e n e t i ca l g o r i t h mi si n c a p a b l eo fc o n v e r g i n ga tt h eb e s tp o i n ti na l lp r o b a b i l i t y , a t t h es a m et i m e ，t h ec r o s s o v e ra n dm u t a t i o np r o b a b i l i t ya r ed e c i d e ds u b j e c t i v e l yg oa g a i n s t t h eo p t i m a lp r o b l e ms o l v i n g s ot h ei m p r o v e da d a p t i v eg e n e t i ca l g o r i t h mi si n t r o d u c e d a tt h eb a s eo fs i m p l eg e n e t i ca l g o r i t h m i ta v a i l a b l yc o n q u e r st h es h o r t a g eo fs i m p l e g e n e t i ca l g o r i t h m ，i m p r o v e st h es t r a t e g yo fg e n e t i ca l g o r i t h mb l i n ds e a r c h ，c h a n g e st h e p r i m a r yr a n d o mc o d i n gm e t h o da n di n t r o d u c e so n es p e c i f i cc o d i n gm e t h o da tt h eb a s eo f c o n s e c u t i v eh y d r o p h o b i cr e s i d u e s o n em o r en e g o t i a t i o no p e r a t o ri sa d d e d t h ec r o s s o v e r a n dm u t a t i o no p e r a t o r s & r em o d i f i e d o n ea l g o r i t h mw i t hb e t t e ra d a p t a t i o ni sf o r m e dt o s p e e du pt h ec o n v e r g e n c ew i t ht h eo p t i m a ls o l u t i o n f i n a l l y , w es i m u l a t en i c es t a n d a r dp r o t e i nh ps e q u e n c e sw i t hd i f f e r e n tl e n g t h t h e r e s u l ts h o w st h a to u ra l g o r i t h mc a ns e a r c ho u tl o w e re n e r g yv a l u et h e nt h eo t h e rb l i n d s e a r c hm e t h o d s ，f o re x a m p l e ，t h el o w e s te n e r g yo fs e q u e n c el e n g t h2 0 ，2 4 ，2 5 ，3 6 ，4 8 ， 5 0a n d6 0a r et h es a m ew i t hp r e v i o u so n e f l ，f o rs e q u e n c e6 4 ，t h ep r e v i o u sr e s u l ti s - 3 9 ， b u to u rr e s u l ti sm u c hb e t t e rw i t h 4 2 a tt h es a m et i m e w ea l s ol i n ds o m ei n t e r e s t i n g p r o p e r t i e ss u c ha s ：t h ed i v e r s i t yo ft h eg r o u n ds t a t ec o n f o r m a t i o n ( f o rs e q u e n c e2 4 ，5 0 ， 6 4 ，8 5 ) ，t h ec o m p a r a b i l i t yo ft h eg r o u n ds t a t ec o n f o r m a t i o na n dt h eb a s i cc o n f o r m a t i o n w i t hs e c o n d a r ys t r u c t u r ea n ds y m m e t r yo fs o m es t r u c t u r e s t h er e s u l ts h o w st h a to u r 华南师范大学硬士学位论文 i m p r o v e dg e n e t i ca l g o r i t h mw i t ho p t i m a ls e c o n d a r ys t r u c t u r ea r er e a s o n a b l e ，a v a i l a b l ef o r t h ep r o t e i ns t r u c t u r ep r e d i c t i o n k e y w o r d s ：p r o t e i nf o l d i n g ；h pm o d e l ；g e n e t i ca l g o r i t h m ；s e c o n d a r ys t r u c t u r e 中文摘要英文摘要第一章绪论 1 1 生物信息学概述 1 2 蛋白质结构的预 1 2 1 实验测定 1 2 2 理论预测 1 3 课题的研究内容 1 3 1 研究内容8 1 3 2 研究意义 9 第二章蛋白质结构预测模型 1 0 2 1 蛋白质分子的结构1 0 2 1 1 蛋白质的级结构1 0 2 1 2 蛋白质的二级结构1 l 2 1 3 蛋白质的三级结构和四级结构1 3 2 2 二维h p 格点模型1 4 2 2 1h p 格点模型及研究状况1 4 2 2 2h p 网格模型的近似算法1 8 2 2 3 用于h p 模型测序算法的性能分析与评价2 l 第三章改进遗传算法的蛋白质结构预测 2 2 3 1 引言2 2 华南师范大学硕士学位论文 3 2 遗传算法的基本描述2 4 3 3 遗传算法的编码方法与遗传操作2 6 3 3 1 编码、解码方案2 6 3 3 2 个体适应度评价2 7 3 3 3 遗传算法的基本操作2 8 3 3 4 运行参数3 2 3 4 改进遗传算法3 3 3 4 1 基于h p 模型的优化二级结构构型3 3 3 4 2 编码方法3 4 3 4 3 识别算子3 5 3 4 4 交叉算子3 6 3 4 5 变异算子3 6 3 4 6 算法的实现3 6 3 5 试验结果4 0 第四章全文总结参考文献攻读硕士学位期间发表及完成的论文致谢 4 7 4 9 5 7 5 8 第一章绪论 1 1 生物信息学概述自1 9 9 0 年美国启动人类基因组计划以来，人与其它生物基因组的测序工作进展极为迅速迄今已完成了约4 0 多种生物的全基因组测序工作，人基因组约3 1 0 9 碱基对的测序工作也基本完成2 0 0 0 年6 月2 6 日，被誉为生命“阿波罗计划”的人类基因组计划，经过美、英、日、法、德和中国科学家的艰苦努力，终于完成了工作草图，这是人类科学世上又一个里程碑式的事件2 0 0 3 年4 月1 4 日，中、美、日、德、法、英等6 国科学家宣布人类基因组序列图绘制成功，人类基因组计划的所有目标全部实现截止目前为止，人类x 染色体测序工作也基本完成在人类基因组计划进行过程中所积累起来的技术和经验，使得其它生物基因组测序工作可以完成得更快捷可以预计，今后d n a 序列数据的增长将更为惊人生物学数据的积累并不仅仅表现在d n a 序列方面，与其同步的还有蛋白质的一级结构，即氨基酸序列的增长此外，迄今为止，已有一万多种蛋白质的空间结构以不同的分辨率被测定基于d n a 序列测序所建立起来的e s t 数据库其纪录已达数百万条在这些数据基础上派生、整理出来的数据库已达5 0 0 余个这一切构成了一个生物学数据的海洋可以打一个比方来说明这些数据的规模如今生物学数据信息总量已接近甚至超过此数量级这种科学数据的急速和海量积累，在人类的科学研究历史中是空前的f 1 1 因而催生了- f 新兴的交叉科学，这就是生物信息学美国人类基因组计划实施五年后的总结报告中，对生物信息学作了以下定义：生物信息学是一门交叉科学，它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义生物信息学这一名词的出现仅仅是几年前的事情，但是计算生物学这一名词的出现要早的多鉴于这两门学科之间并没有或难以界定严格的分界线，在这里统称为生物信息学( b i o i n f o r m a t i c s ) 【2 ，3 】生物信息学主要包括以下几个主要研究领域，但是限于篇幅，这里仅列出其名称并只做简单介绍 4 】 1 、序列比对( a l i g n m e n t ) 基本问题是比较两个或两个以上符号序列的相似性或不相似性序列比对是生物信息学的基础，非常重要两个序列的比对有较成熟的动态规划算法，以及在此基础上编写的比对软件包- - b a l s t 和f a s t a ，可以免费下载使用这些软件在数据库查询和搜索中有重要的应用有时两个序列总体并 2 华南师范大学硕士学位论文不很相似，但某些局部片断相似性很高s m i t h - w a t e r m a n 算法是解决局部比对的好算法，缺点是速度较慢两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法 2 、结构比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性已有一些算法 3 、蛋白质结构预测，包括2 级和3 级结构预测，是最重要的课题之一从方法上来看有演绎法和归纳法两种途径前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程分子力学和分子动力学属这一范畴后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构同源模建和指认( t h r e a d i n g ) 方法属于这一范畴虽然经过3 0 余年的努力，蛋白结构预测研究现状远远不能满足实际需要 4 、计算机辅助基因识别( 仅指蛋白质编码基因) 基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置这是最重要的课题之一，而且越来越重要经过2 0 余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务原核生物计算机辅助基因识别相对容易些，结果好一些从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做 5 、非编码区分析和d n a 语言研究，是最重要的课题之一在人类基因组中，编码部分进展总序列的3 5 ，其它通常称为。垃圾”d n a ，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能分析非编码区d n a 序列需要大胆的想象和崭新的研究思路和方法d n a 序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中 6 、分子进化和比较基因组学，是最重要的课题之一早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化，构建进化树既可以用d n a 序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化以上研究已经积累了大量的工作近年来由于较多模式生物基因组测序任务的完成，为从整个基因组的角度来研究分子进化提供了条件可以设想，比较两个或多个完整基因组这一工作需要新的思路和方法，当然也渴望得到更丰硕的成果这方面可做的工作是很多的 7 、基于结构的药物设计人类基因组计划的目的之一在于阐明人的约1 0 万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系，寻求各种治疗和预防方重要的可以利药物的 8 、分析等 4 华南师范大学硕士学位论文 1 2 蛋白质结构的预测方法预测蛋白质结构的方法可以分为两种，即实验测定和理论预测利用实验来测定蛋白质结构的方法主要有x 射线晶体衍射法【5 ( x - r a yd i f f r a c t i o nm e t h o d ) 和核磁共振波谱法【6 ( n u c l e a rm a g n e t i cr e s o n a n c es p e c t r o s c o p y ) x 射线衍射法是目前最有效的蛋白质结构测定方法，核磁共振波谱法则具有可直接测定蛋白质在溶液中的构型的优点目前，理论预测的方法主要有三种，即同源建模法( h o m o l o g o u sm o d e l i n g ) 、折叠识别法( f o l d sr e c o g n i t i o n ) 和从头预测法( a bi n i t i op r e d i c t i o n ) 【7 - 1 1 随着生物技术和计算机技术的进步，理论预测方法逐渐发展成为蛋白质结构预测的理想选择 1 2 1 实验测定从1 9 5 9 年第个肌红蛋白晶体结构的测定开始到1 9 9 6 年底，用x 射线衍射和核磁共振方法确定了空间结构并存入数据库的蛋白质己接近5 0 0 0 个但用x 射线衍射的方法测定蛋白质结构存在蛋白质晶体的形成和培养没有普遍适用的规律、晶体结构测定的周期较长、有些蛋白质很难形成结晶等缺点，从而使得x 射线衍射法的应用受到一定的限制近二十年来发展起来的二维和多维核磁共振方法己显示出它在蛋白质空间结构研究上的优势由于不需要结晶，核磁共振方法可以直接测定蛋白质在溶液中的构型，在样品制备上比x 射线衍射方法更有优越性但这一方法目前还只限于较小的蛋白质的结构测定，并且要求蛋白质中不含有大量重复结构该方法对样品纯度的要求较高，而且样品的需求量也较大 1 9 5 7 年，s a n g e r 测定了含有5 1 个氨基酸残基的胰岛素分子的氨基酸序列并阐明了其二硫键的连接方式，这是蛋白质一级结构测定的开端随着分子生物学技术的飞速发展，蛋白质氨基酸序列( 即一级结构) 的测定速度大大加快了现在氨基酸序列的测定方法在灵敏度及自动化两方面都有了很大进展，个蛋白质的全序列测定所需样品在皮克( 1 0 _ 1 2 克) 范围与此同时，核苷酸序列测定技术的进展更加迅速，测定的灵敏度及自动化程度更高，它已成为当前测定氨基酸序列的主要方法与蛋白质序列数据库的序列数据的极快增长形成鲜明对比的是，蛋白质空间结构的测定速度大大落后2 0 0 6 年2 月报道已测得的蛋白质序列条目超过2 0 万，而已测定空间结构的蛋白质数目却只有3 万多个近年来，空间结构测定的速度虽有大幅度提高，但仍然满足不了对日益增加的蛋白质序列进行测定的需求华南师范大学硕士学位论文为了缩小已知一级结构的蛋白质数量和已测定结构的蛋白质数量二者之间的差距，除了改善实验测定方法之外，急需建立和完善理论分析方法，这也是结构生物学的重要目标之一 1 2 2 理论预测 1 9 6 1 年，a n f i n s e n 等【1 2 】通过实验发现，变性的核糖核酸酶在合适环境条件下可以重新折叠并恢复生物活性这一发现表明：在给定的环境中，蛋白质的二维空间结构是由其蛋白质序列决定的，这就是一级结构决定高级结构原理也就是说，决定蛋白质特定二维结构的信息存在于氨基酸序列中，可以通过分析蛋白质一级结构特性，来预测其二维空间结构，这为蛋白质结构预测提供了理论依据由蛋白质的氨基酸序列预测蛋白质结构的方法可以分为两类 1 3 】：一类是基于知识的蛋白质结构预测，也称为启发式的预测方法；另一类是基于模拟的蛋白质结构预测第一类方法比较简单，速度较快，但是需要找到符合同源性要求的模板第二类方法的运算量大而复杂，但在第一类方法无法搜索到合适的模板时，它是唯一的选择在蛋白质结构预测过程中，这两类方法通常配合使用，以突破各自的局限性而达到更高的准确度解决蛋白质结构预测问题需要从两方面入手，其一是，找到求解已知能量模型的好方法，其二是，给定一些方法，然后利用他们来确定已知氨基酸序列的最优或接近最优的结构前者主要由对蛋白质折叠过程进行研究和建模的生物学家们来解决后者则是个在局部或全局最优化方面具有意义和挑战的计算问题现已有大量用来解决这个问题的算法，然而到目前尚无令人满意的方法由于若给定一个多肽链和正确的分子势能，如何找到对应蛋白质的热力学稳定状态现已被看作一个 n p 难问题【1 4 ，1 5 】( n o n - d e t e r n i m i s t i cp o l y n o m i a l ) 这意味着，对于任何一个最优算法，蛋白质折叠问题在多项式时间内是不可解的这个困难主要是由于系统存在大量的由高能屏障产生的局部极小能状态在低气温状态下，传统的m o n t ec a r l o 和分子动力学模拟容易陷于局部极小能状态因此仅仅个小片段被取样，所以不能产生天然结构且不能准确地评估热力学量目前，有两个办法可以用来解决这个难题，一个是利用有效的优化技巧( 如：m o n t ec a r l o ，模拟退火，遗传算法等) 搜索最小能构象u n g e r 和w i l s o 等人利用一些蛋白质和网格模型证明了这些方法的有效性缺点之一是这些方法忽略了构象的嫡且不能估计出有意义的热力学量另一个是在状态空间中取样，例如e n t r o p i es a m p l i n 【1 6 】，p a r a l l e lt e m p e r i n g 【1 t ，s i m u l a t e d t e m p e r i n g 1 8 】，1 k - e n s e m b l es a m p l i n g 【1 9 】，c h a i ng r o u t ha l g o r i t h m 2 0 - 冽和m e t r o p o l i s a l g o r i t h m sf 2 3 ，2 4 等 6 华南师范大学硕士学位论文 ( 1 ) 同源建模法( h o m o l o g o u sm o d e l i n g ) 同源建模法也称为比较建模法，是基于已知蛋白质结构的预测方法它是在目标蛋白质有同源结构可以参考的情况下应用的一种技术这种预测方法的依据除了一级结构决定二级结构这个蛋白质结构预测方法的共同基础之外，还有一个重要的事实，即在蛋白质的进化过程中，二维结构比对应的一级结构更稳定，变化也要缓慢得多【2 5 ，2 6 】 ( 2 ) 折叠识别法( f o l d sr e c o g n i t i o n ) 折叠识别法也称为反向折叠法，该方法是基于有大量的明显不相关的蛋白质具有相似的折叠结构这一事实在找不到同源蛋白质结构作为模板的情况下，反向折叠法将已知的独立的蛋白质结构模式作为对未知结构进行匹配的模板通过把未知结构的蛋白质的序列与已知的模板进行匹配，找出几种匹配最好的结构作为未知蛋白质的预测结构，然后按照一个向数据库学习而得到的经验势函数进行判别，从中选择最佳的个 ( 3 ) 从头计算法( a bi n i t i op r e d i c t i o n ) 从头计算法的理论基础是a n f i n s e n 的经典。热力学理论”该理论认为天然蛋白质多肽链的空间结构是在一定环境条件下热力学上最稳定、能量最低的状态，采取天然结构的多肽链和它所处的特定环境条件满足整个系统的自由能最低如果能够找到个表征蛋白质结构与能量关系的势能函数，那么利用数学工具寻找势能函数的全局极小点就可以解决问题从头预测方法不需要序列以外的其它更多信息，从一条蛋白质序列出发，就可得到蛋白质的空间结构，在理论上这是一种最为理想的方法 2 7 】然而，从头计算法在实践中一直受到两方面的困扰：首先，难以找到一个能严格区分蛋白质的天然构型和非天然构型的能量函数，使能量函数的全局极小点对应蛋白质天然结构其次，在势能函数确定之后，从头预测方法便归结为求解一个优化问题而每一种蛋白质存在一种稳态结构和大量的亚稳态结构，尽管几十年来从头预测方法也取得了大量的研究成果，但是由于受到以上两方面的制约，仍然处在研究阶段蛋白质结构的这种复杂性阻碍着从头预测方法的实现如何找到全局极小点是从头预测方法的个关键但受理论工作者关注的还是可以产生全新结构的从头预测法，它建立在蛋白质的天然构象即热力学最稳定构象，也是能量最低构象的理论基础之上根据这一优化思想抽象的数学模型主要集中于两个方向，一是从连续角度出发的分子动力学模拟方法主要思想是通过分子力学模型找到描述蛋白质能量的平均势能函数，然后利用全局优化算法找到能量最低结构由于需要搜索的华南师范大学硕士学位论文 7 构象空间非常巨大，普遍采用的全局搜索方法有m o n t ec a r l o 方法、模拟退火算法、遗传算法等，存在的问题是无法保证在有效的计算时间内找到全局极小点另一个重要的也是我们比较关心的方向是从离散角度来研究这个问题主要想法是抓住蛋白质折叠过程中的主要因素，将问题抽象为一个组合优化问题，然后构造有效的近似算法来求解h p 格点模型就是这样一个简化的精确模型( s i m p l ee x a c tm o d e l ) ，这个模型是蛋白质折叠的最简单的模型之一，也是蛋白质折叠的最流行的生物物理模型 8 - 华南师范大学硕士学位论文 1 3 课题的研究内容及意义本研究课题的部分内容来自于由杨湘波负责的国家自然科学基金项目( 项目编号：n o 1 0 9 7 4 0 6 1 ) 和广东省高校创新团队项目( 项目编号：0 6 c x t d 0 0 5 ) 1 3 1 研究内容本文对蛋白质结构预测的研究内容属于从头计算法的范畴从头计算法涉及建立合适的数学模型以及高效优化算法设计两方面的工作对于真实的蛋白质结构预测问题，即全原子的能量模型，目前的计算能力和研究水平还无力求解于是理论界提出了多个简化的数学模型，通过对这些简化模型的研究，可以增加对蛋白质结构预测问题本质的理解本文对两种典型的基于简化模型的蛋白质折叠问题进行了深入分析和研究，主要是以h p 模型为代表的格点模型 ( 1 ) 蛋白质折叠问题中的h p 模型研究工作的总结 d i l l 等人 2 8 】在1 9 8 5 年提出了一种疏水亲水模型( h y d r o p h i l i c - h y d r o p h o b i cm o d e l ) h p 模型已经被化学家们用来评估蛋白质结构预测方面的新假说，并且用它来检验一个新的折叠算法的有效性实际上这个模型已成为测试折叠算法的一个标准本文介绍了h p 模型的理论，蛋白质链与h p 序列的转化，基于h p 模型的各种算法研究状况 ( 2 ) 对基于二维h p 模型的蛋白质折叠问题提出了一种局部二级结构h p 模型基于二维h p 模型的蛋白质折叠问题是一个具有n p 难度的离散优化问题，随着蛋白质链链长的增加，搜索空间以指数级增长通过一定的评价标准，把部分局部序列限定成特定的二级结构h p 结构，从而减小搜索空间，提高搜索效率 ( 3 ) 遗传算法的工作总结及改进 1 9 7 5 年h o l l a n d 出版了他的著名专著强自然系统和人工系统的自适应) ) ( a d a p t a t i o n i nn a t u r a la n da r t i f i c i a ls y s t e m s ) ，这是第一本系统论述遗传算法的专著，标志着遗传算法思想的建立遗传算法通过寻找与生物进化有关的问题，从中得到启发并逐步形式化为求解问题的算法【2 9 】本文对遗传算法方法的背景、涵义、来源进行了详细介绍，阐述了应用遗传算法求解问题的工作流程，并详细介绍了各个遗传算子的原理本文指出了影响遗传算法计算效率的关键因素，把固定的遗传参数转化成能够根据新生成的种群而改变的自适应参数，并从蛋白质的二级结构的角度去结合遗传算法，提出更为合理的评判准则，重新制定了编码及遗传操作的策略，从而得华南师范大学硕士学位论文到了个新的高效的预测二级结构的算法一基于蛋白质二级结构h p 模型的改进遗传算法( g a o s s ) 对算例的测试表明，g a o s s 算法具有很高的效率 ( 4 ) 利用改进遗传对9 种h p 标准测试序列进行数值模拟采用标准9 种标准测试序列能有效地检验我们算法的是否有效计算结构表明，算法g a o s s 不仅能够对9 个序列搜索到能量最低值，而且能够搜索出部分序列的几种不同基态构型 1 3 2 研究意义随着人类基因组计划的完成，生命科学已经全面进入了后基因时代基因组学的研究的中心已经由测序转向基因功能的研究在生命体中，基因编码形成氨基酸序列，氨基酸序列进一步折叠产生丰富的空间结构进而合成具有生物活性的蛋白质基因所携带的功能信息通过其编码的蛋白质的生物活性体现蛋白质的功能与其空间结构有着密切的关系，只有处在一定的空间结构中蛋白质分子才能够发挥其特定的功能，也就是说蛋白质结构是其行使生物功能的基础因而，了解和掌握蛋白质的结构对于探索其功能有着重要的意义由于蛋白质就是一条由氨基酸组成的序列在适当的环境条件下，这个序列展示了折叠本身的非凡特性，即快速到达一种唯一的低能状态实验表明，蛋白质的生物功能和特性主要由蛋白质的结构来确定由此看来，通过氨基酸序列确定蛋白质的天然构象的重要性是显而易见的( 例如：对设计新药品有很大的作用) 并且快速且有效地预测蛋白质结构的能力将很大程度上有助于理解人类基因组计划中的海量数据有助于理解遗传疾病和传染疾病的机制；有助于设计有特效治疗功能的药品；有助于产生具有特效材质特性的生物聚合物目前蛋白质结构主要由两种技术来确定：磁共振成像( m 磁) 和x 射线结晶学这两个方法不仅计算量大而且计算时间都很长，并且它们的设备也很昂贵因此蛋白质结构预测的计算方法现在备受各界科学家们和学者们的关注蛋白质结构预测问题的主要目的是根据蛋白质的氨基酸序列确定其三维结构这个问题自2 0 世纪5 0 年代早期起就被关注随着人类步入以基因组的诊释评估与功能解析的后基因组时代，这个问题逐步成为计算生物学的最重要且最具有挑战性的问题之一有的蛋白质则由两个或者更多相同或不同的肽链组成肽链平均含有3 0 0 , , 一5 0 0 个氨基酸残基蛋白质肽链一级结构是氨基酸缩合的产物，氨基酸残基序列的顺序不是任意的，它们由基因的d n a 编码例如胰岛素由两条链通过二硫键连接，如图2 1 所示，而血红蛋白由四条链通过共价作用结合在一起每种蛋白质具有唯一而确切的氨基酸序列，氨基酸的序列是由遗传决定的，氨基酸中的排列顺序由基因编码决定，从序列决定构象的角度看，这是序列蕴藏信息所在，是功能的基础髫7 罄鬻譬繁髫喾髫譬雾， 4 徽孽滞需孥嚣：嘲黛避。磷镬t 黔簿缈燃翩n 镌簟静麓搿图2 1 ：胰岛素的级结构图阻心_ 她荔蛰黔瓣藏。糁锄瓣鼯簸磊氍瓣鬻鼹懈蛋白质分子在形成疏水核心时有一部分主链埋在内部，而主链是高度亲水的，埋在内部的主链极性基团( c = o ，n - h ) 只有被氢键中和才能稳定由于氢键的维持，蛋白质主链折叠成局部肽段的构象，这就是二级结构，常见的有q 螺旋( a - h e l i x ) 、卢折叠( f l - s h e e t ) 、p 转角( 卢- t u r n ) 、无规卷曲等【5 ，3 0 各部分的结构如图2 2 所示一、n 螺旋它是蛋白质分子中最常见、最典型，含量最多的很规则的二级结构螺旋中每个瓯的和砂分别为一5 7 0 和一4 7 0 ，第t 个羰基上的氧原子和第i + 4 个亚胺基上的氢原子之间形成氢键每圈螺旋3 6 个氨基酸残基，沿螺旋轴方向上升0 5 4 n m 也就是每个残基绕轴旋转1 0 0 。，沿轴上升o 1 5 n m ，螺旋的直径约0 5 n m 脯氨酸参与肽键时，必受到限制，不利于q 螺旋的形成，妒不受限制，故脯氨酸还是经常出现在螺旋的第一圈中甘氨酸因活动性大，影响q 螺旋的稳定，故甘氨酸极少出现在n 螺旋结构中 n 螺旋中所有氢键都是同样的取向，形成了一个偶极，螺旋的n 端为正极、c 端为负极在q 螺旋n 端附近存在带负电的酸性残基( 如天冬氨酸、谷氨酸) ，c 端附近存在带正电的碱性残基( 如赖氨酸、精氨酸) ，相反电荷的作用对螺旋的稳定起到重要作用图2 2 ：三种基本基本二级结构在真实蛋白质中的三维结构图其它不常见的螺旋还有3 1 0 螺旋，每圈残基3 个，每个肽基的c = o 与前面的第3 个肽基的n h 形成氢键，每个残基轴向高度0 2 n m ，螺距0 6 n m 螺旋直径约 0 4 r i m ，西和砂分别在一4 9 0 和一2 6 。附近丌螺旋每圈4 4 个残基，残基轴向长度 o 1 2 n m ，螺距0 5 2 n m ，直径约0 6 r i m ，每个肽基的c = o 与前面第5 个肽基的n - h 形成氢键二、口折叠它好比由折叠的条状纸片侧向并排而成，主链形成锯齿状，侧链交替从平面上下伸出有两种形式的折叠，平行式折叠的相邻主链同向，反平行式折叠则相反 p 折叠中每片称为p 折叠股或p 股( p - s t r a n d ) ，股间形成氢键反平行折叠中重复周期为0 7 n m ，而平行折叠中为0 6 5 n m 平行式中妒和妒值分别为一1 1 9 0 和1 1 3 0 左右，而反平行式中的妒和妒值分别为一1 3 9 0 和1 3 5 0 左右平行折叠一般是大结构，少于5 个p 股的少见，而反平行折叠可以少到仅由两个p 股组成平行p 折叠中疏水侧链分布在折叠平面的两侧。而反平行的通常所有的疏水侧链都排列在折叠片的一侧，这就要求参与反平行折叠的序列中亲水残基和疏水残基交替排列在纤维状蛋白质中p 折叠主要是反平行的，片内氢键主要是在不同肽链间形成，而球状蛋白质中反平行和平行两种方式同样的频繁出现，片内氢键可以在不同肽链或不同分子间形成，也可在同一肽链上形成华南师范大学硬士学位论文 1 3 三，p 转角要使蛋白质分子呈球状，肽链必须能弯曲球状蛋白质中( 自然中多数蛋白质就是球状蛋白质) 能看到一种简单的二级结构，卢转角( j 3 - t u r n ) ，或p 弯曲( 伊b e n d ) 或发夹结构( h a i r p i ns t r u c t u r e ) p 转角的第t 个残基的c = o 与第i + 3 个残基的n h 间以氢键结合，成为比较稳定的结构转角看起来类似最小的反平行卢片层( 即p 折叠) 蛋白质结构信息表明，p 转角对蛋白质的结构、功能、进化都有重要意义脯氨酸和甘氨酸经常在p 转角序列中存在另外，还有6 转角、，y 转角、q 转角和7 r 转角6 转角的肽段中第t 个残基和第i + 1 个残基间形成氢键，y 转角的肽段中第t 个残基和第i + 2 个残基间形成氢键q 转角的肽段中第i 个残基和第i + 4 个残基间形成氢键7 f 转角的肽段中第i 个残基和第i + 5 个残基间形成氢键四、无规卷曲有些局部结构具有明确而稳定的结构( 约占l o ) ，它们受侧链间相互作用的影响很大，不能归入以上的规则二级结构，在这里统称它们为无规卷曲( r a n d o m c o i l ) 或卷曲( n ) 2 1 3蛋白质的三级结构和四级结构蛋白质肽链中主链以及所有残基侧链问的相对位置就是蛋白质的三级结构由于共价键键长基本上是不变的，肽键的二面角就决定了主链的走向稳定蛋白质三级结构的是非共价键和疏水作用，二硫键对蛋白质结构的稳定也极为重要绝大多数的蛋白质最终折叠成球状的结构，内部很紧密，7 5 的空间充满了原子，这远超过在液体中的小分子，类似晶体【3 l 】纤维状蛋白的结构比球蛋白质简单，很少转角、无规卷曲等二级结构它们在生物体内起结构和支撑作用，水溶性很差穿膜蛋白结构比较特殊，亲水的部分般分布在内部圆桶的内侧，疏水的部分在靠近膜脂侧蛋白质的四级结构( q u a t e r n a r ys t r u c t u r e ) 可以看成是一级结构、二级结构和三级结构的延伸，是具有二级结构的球状蛋白质通过非共价键作用而形成的聚集体其中，组成二级结构的蛋白质称为亚基或亚单位无四级结构的蛋白质如血红蛋白质称为单体蛋白质，有四级结构的蛋白质如血红蛋白又称寡聚蛋白质寡聚蛋白质各亚基之间靠非共价键( 氢键、盐键、疏水作用) 维系 1 4 华南师范大学硕士学位论文 2 2 二维h p 格点模型 2 0 世纪6 0 年代，a n f i n s e n 的著名折叠实验变性的核糖核酸( r i b o n u c l e a s e ) 可以重新折叠并恢复生物活性阵这说明蛋白质一级结构中隐含了编码蛋白质三级结构的所有信息这一发现为蛋白质结构预测提供了理论依据这意味着在完全掌握了蛋白质序列和结构之间的关系后，就可以通过分析一级结构序列特性，预测其三维空间结构同影响蛋白质自由能的主要因素有：氢键、范德华力、静电力、疏水效应和化学键等，但最为关键的是疏水效应回由于蛋白质天然构象的实验确定比较困难且很费时间，于是目前大家主要利用数值计算来预测蛋白质的天然构象 2 2 1h p 格点模型及研究状况氨基酸序列中相邻氨基酸通过个肽键来连接，这个键具有一定的刚性，因此大量旋转能取代别的酸链比较理想的蛋白质折叠过程应该考虑影响旋转的各种物理和化学因素，但这样的话，计算量和计算时间都很大鉴于蛋白质结构预测实际问题的这些原因，科学家将目光转向一些简单模型上d i l l 等人在1 9 8 5 年【2 8 ，3 3 】提出了一种疏水亲水模型( h y d r o p h i l i c - h y d r o p h o b i cm o d e l ) h p 模型已经被化学家们用来评估蛋白质结构预测方面的新假说，并且用它来检验一个新的折叠算法的有效性实际上这个模型已成为测试折叠算法的一个标准图2 3 给出蛋白质折叠的h p 格点模型示意图 h p 模型主要是从蛋白质的几何结构、氨基酸字母表和氨基酸相互作用三个角度进行了一定程度上的简化从几何角度来看，简化模型仅考虑倪原子的骨架结构一个有趣的事实是包含在生命体中的氨基酸仅有2 0 种，于是蛋白质序列可以被看作是一条由2 0 个字母组成的链，一个字母代表一种氨基酸在h p 模型中，这 2

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（光学专业论文）二维hp模型蛋白质折叠性质的改进遗传算法研究.pdf

文档简介

温馨提示

最新文档

评论

（光学专业论文）二维hp模型蛋白质折叠性质的改进遗传算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档