已阅读5页,还剩76页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i i 华南师范大学硕士学位论文 关键词:蛋白质折叠;h p 模型;二级结构;遗传算法 华南师范大学硕士学位论文 i i i a b s t r a c t p r o t e i ns t r u c t u r ep r e d i c t i o ni so n eo ft h er e s e a r c hh o t s p o tp r o b l e mo fb i o i n f o r m a t i c s , i t i so n eo ft h ep r o b l e ma b o u th o wt op r e d i c tt h es t r u c t u r e ,f o l d i n ga n df u n c t i o nf r o m i t sa m i n oa c i ds e q u e n c e i nt h i sd i s s e r t a t i o n ,w ec o m p u t e dn i n ed i f f e r e n th ps e q u e n c e s b a s e do nt h et w od i m e n s i o n a lh y d r o p h o b i c h y d r o p h i l i cl a t t i c em o d e l ,c o m b i n i n gt h r e e b a s i cs t r u c t u r e so fp r o t e i ns e c o n d a r ys t r u c t u r ea n di m p r o v e dg e n e t i ca l g o r i t h mt os e a r c h t h eg r o u n ds t a t ec o n f o r m a t i o na n da n a l y z ei t sc h a r a c t e r i s t i c f i r s t l y , w es t u d yt h es t r u c t u r em o d e lo fp r o t e i na n dt h ec o r r e l a t i v ee n e r g yf u n c t i o n h o wt op r o b ei n t ot h ee n e r g yf u n c t i o no ft h ep r o t e i nf o l d i n gs o l v i n gp r o c e s sb e c o m e st h e k e yp r o b l e m c o m b i n i n gc u r r e n ti n t e r n a la n di n t e r n a t i o n a ls t u d yh o t s p o t ,c o n s i d e r i n g t h ep r o t e i nf o l d i n gp r o c e s si st h es y n t h e s i so ft h et h e r m o d y n a m i c sa n dd y n a m i c s ,i t s r a n d o m i c i t yo ff o l d i n ga n dc o m p l e x i t yo fp r o c e s s ,w ec o m b i n et h ee n e r g yf u n c t i o ne x i s t e d a n dh pl a t t i c em o d e l b u i l do n es i m p l ee n e r g yf u n c t i o na n dp r o p o s eb a s i cc o n f o r m a t i o n o fs e c o n d a r ys t r u c t u r eb a s e do nt w od i m e n s i o n a lh pl a t t i c em o d e l s e c o n d l y , w es t u d yt h e 印p l i e a t i o no fg e n e t i ca l g o r i t h mi np r o t e i nf o l d i n gp r o c e s s s i m p l eg e n e t i ca l g o r i t h mi si n c a p a b l eo fc o n v e r g i n ga tt h eb e s tp o i n ti na l lp r o b a b i l i t y , a t t h es a m et i m e ,t h ec r o s s o v e ra n dm u t a t i o np r o b a b i l i t ya r ed e c i d e ds u b j e c t i v e l yg oa g a i n s t t h eo p t i m a lp r o b l e ms o l v i n g s ot h ei m p r o v e da d a p t i v eg e n e t i ca l g o r i t h mi si n t r o d u c e d a tt h eb a s eo fs i m p l eg e n e t i ca l g o r i t h m i ta v a i l a b l yc o n q u e r st h es h o r t a g eo fs i m p l e g e n e t i ca l g o r i t h m ,i m p r o v e st h es t r a t e g yo fg e n e t i ca l g o r i t h mb l i n ds e a r c h ,c h a n g e st h e p r i m a r yr a n d o mc o d i n gm e t h o da n di n t r o d u c e so n es p e c i f i cc o d i n gm e t h o da tt h eb a s eo f c o n s e c u t i v eh y d r o p h o b i cr e s i d u e s o n em o r en e g o t i a t i o no p e r a t o ri sa d d e d t h ec r o s s o v e r a n dm u t a t i o no p e r a t o r s & r em o d i f i e d o n ea l g o r i t h mw i t hb e t t e ra d a p t a t i o ni sf o r m e dt o s p e e du pt h ec o n v e r g e n c ew i t ht h eo p t i m a ls o l u t i o n f i n a l l y , w es i m u l a t en i c es t a n d a r dp r o t e i nh ps e q u e n c e sw i t hd i f f e r e n tl e n g t h t h e r e s u l ts h o w st h a to u ra l g o r i t h mc a ns e a r c ho u tl o w e re n e r g yv a l u et h e nt h eo t h e rb l i n d s e a r c hm e t h o d s ,f o re x a m p l e ,t h el o w e s te n e r g yo fs e q u e n c el e n g t h2 0 ,2 4 ,2 5 ,3 6 ,4 8 , 5 0a n d6 0a r et h es a m ew i t hp r e v i o u so n e f l ,f o rs e q u e n c e6 4 ,t h ep r e v i o u sr e s u l ti s - 3 9 , b u to u rr e s u l ti sm u c hb e t t e rw i t h 4 2 a tt h es a m et i m e w ea l s ol i n ds o m ei n t e r e s t i n g p r o p e r t i e ss u c ha s :t h ed i v e r s i t yo ft h eg r o u n ds t a t ec o n f o r m a t i o n ( f o rs e q u e n c e2 4 ,5 0 , 6 4 ,8 5 ) ,t h ec o m p a r a b i l i t yo ft h eg r o u n ds t a t ec o n f o r m a t i o na n dt h eb a s i cc o n f o r m a t i o n w i t hs e c o n d a r ys t r u c t u r ea n ds y m m e t r yo fs o m es t r u c t u r e s t h er e s u l ts h o w st h a to u r 华南师范大学硬士学位论文 i m p r o v e dg e n e t i ca l g o r i t h mw i t ho p t i m a ls e c o n d a r ys t r u c t u r ea r er e a s o n a b l e ,a v a i l a b l ef o r t h ep r o t e i ns t r u c t u r ep r e d i c t i o n k e y w o r d s :p r o t e i nf o l d i n g ;h pm o d e l ;g e n e t i ca l g o r i t h m ;s e c o n d a r ys t r u c t u r e 中文摘要 英文摘要 第一章绪论 1 1 生物信息学概述 1 2 蛋白质结构的预 1 2 1 实验测定 1 2 2 理论预测 1 3 课题的研究内容 1 3 1 研究内容8 1 3 2 研究意义 9 第二章蛋白质结构预测模型 1 0 2 1 蛋白质分子的结构1 0 2 1 1 蛋白质的级结构1 0 2 1 2 蛋白质的二级结构1 l 2 1 3 蛋白质的三级结构和四级结构1 3 2 2 二维h p 格点模型1 4 2 2 1h p 格点模型及研究状况1 4 2 2 2h p 网格模型的近似算法1 8 2 2 3 用于h p 模型测序算法的性能分析与评价2 l 第三章改进遗传算法的蛋白质结构预测 2 2 3 1 引言2 2 华南师范大学硕士学位论文 3 2 遗传算法的基本描述2 4 3 3 遗传算法的编码方法与遗传操作2 6 3 3 1 编码、解码方案2 6 3 3 2 个体适应度评价2 7 3 3 3 遗传算法的基本操作2 8 3 3 4 运行参数3 2 3 4 改进遗传算法3 3 3 4 1 基于h p 模型的优化二级结构构型3 3 3 4 2 编码方法3 4 3 4 3 识别算子3 5 3 4 4 交叉算子3 6 3 4 5 变异算子3 6 3 4 6 算法的实现3 6 3 5 试验结果4 0 第四章全文总结 参考文献 攻读硕士学位期间发表及完成的论文 致谢 4 7 4 9 5 7 5 8 第一章绪论 1 1 生物信息学概述 自1 9 9 0 年美国启动人类基因组计划以来,人与其它生物基因组的测序工作进 展极为迅速迄今已完成了约4 0 多种生物的全基因组测序工作,人基因组约3 1 0 9 碱基对的测序工作也基本完成2 0 0 0 年6 月2 6 日,被誉为生命“阿波罗计划”的人 类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作 草图,这是人类科学世上又一个里程碑式的事件2 0 0 3 年4 月1 4 日,中、美、日、 德、法、英等6 国科学家宣布人类基因组序列图绘制成功,人类基因组计划的所有 目标全部实现截止目前为止,人类x 染色体测序工作也基本完成在人类基因组 计划进行过程中所积累起来的技术和经验,使得其它生物基因组测序工作可以完成 得更快捷可以预计,今后d n a 序列数据的增长将更为惊人生物学数据的积累 并不仅仅表现在d n a 序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序 列的增长此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测 定基于d n a 序列测序所建立起来的e s t 数据库其纪录已达数百万条在这些数 据基础上派生、整理出来的数据库已达5 0 0 余个这一切构成了一个生物学数据的 海洋可以打一个比方来说明这些数据的规模如今生物学数据信息总量已接近甚 至超过此数量级这种科学数据的急速和海量积累,在人类的科学研究历史中是空 前的f 1 1 因而催生了- f 新兴的交叉科学,这就是生物信息学美国人类基因组计 划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉 科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方 面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所 包含的生物学意义生物信息学这一名词的出现仅仅是几年前的事情,但是计算生 物学这一名词的出现要早的多鉴于这两门学科之间并没有或难以界定严格的分界 线,在这里统称为生物信息学( b i o i n f o r m a t i c s ) 【2 ,3 】 生物信息学主要包括以下几个主要研究领域,但是限于篇幅,这里仅列出其名 称并只做简单介绍 4 】 1 、序列比对( a l i g n m e n t ) 基本问题是比较两个或两个以上符号序列的相似性 或不相似性序列比对是生物信息学的基础,非常重要两个序列的比对有较成熟 的动态规划算法,以及在此基础上编写的比对软件包- - b a l s t 和f a s t a ,可以免 费下载使用这些软件在数据库查询和搜索中有重要的应用有时两个序列总体并 2 华南师范大学硕士学位论文 不很相似,但某些局部片断相似性很高s m i t h - w a t e r m a n 算法是解决局部比对的好 算法,缺点是速度较慢两个以上序列的多重序列比对目前还缺乏快速而又十分有 效的算法 2 、结构比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性 或不相似性已有一些算法 3 、蛋白质结构预测,包括2 级和3 级结构预测,是最重要的课题之一从方法 上来看有演绎法和归纳法两种途径前者主要是从一些基本原理或假设出发来预测 和研究蛋白质的结构和折叠过程分子力学和分子动力学属这一范畴后者主要是 从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构同源模建 和指认( t h r e a d i n g ) 方法属于这一范畴虽然经过3 0 余年的努力,蛋白结构预测研 究现状远远不能满足实际需要 4 、计算机辅助基因识别( 仅指蛋白质编码基因) 基本问题是给定基因组序列 后,正确识别基因的范围和在基因组序列中的精确位置这是最重要的课题之一, 而且越来越重要经过2 0 余年的努力,提出了数十种算法,有十种左右重要的算法 和相应软件上网提供免费服务原核生物计算机辅助基因识别相对容易些,结果好 一些从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位 点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作 要做 5 、非编码区分析和d n a 语言研究,是最重要的课题之一在人类基因组中, 编码部分进展总序列的3 5 ,其它通常称为。垃圾”d n a ,其实一点也不是垃圾, 只是我们暂时还不知道其重要的功能分析非编码区d n a 序列需要大胆的想象和 崭新的研究思路和方法d n a 序列作为一种遗传语言,不仅体现在编码序列之中, 而且隐含在非编码序列之中 6 、分子进化和比较基因组学,是最重要的课题之一早期的工作主要是利用不 同物种中同一种基因序列的异同来研究生物的进化,构建进化树既可以用d n a 序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研 究分子进化以上研究已经积累了大量的工作近年来由于较多模式生物基因组测 序任务的完成,为从整个基因组的角度来研究分子进化提供了条件可以设想,比 较两个或多个完整基因组这一工作需要新的思路和方法,当然也渴望得到更丰硕的 成果这方面可做的工作是很多的 7 、基于结构的药物设计人类基因组计划的目的之一在于阐明人的约1 0 万种 蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和 预防方 重要的 可以利 药物的 8 、 分析等 4 华南师范大学硕士学位论文 1 2 蛋白质结构的预测方法 预测蛋白质结构的方法可以分为两种,即实验测定和理论预测利用实验来测 定蛋白质结构的方法主要有x 射线晶体衍射法【5 ( x - r a yd i f f r a c t i o nm e t h o d ) 和核磁 共振波谱法【6 ( n u c l e a rm a g n e t i cr e s o n a n c es p e c t r o s c o p y ) x 射线衍射法是目前最有效 的蛋白质结构测定方法,核磁共振波谱法则具有可直接测定蛋白质在溶液中的构型 的优点目前,理论预测的方法主要有三种,即同源建模法( h o m o l o g o u sm o d e l i n g ) 、 折叠识别法( f o l d sr e c o g n i t i o n ) 和从头预测法( a bi n i t i op r e d i c t i o n ) 【7 - 1 1 随着生 物技术和计算机技术的进步,理论预测方法逐渐发展成为蛋白质结构预测的理想选 择 1 2 1 实验测定 从1 9 5 9 年第个肌红蛋白晶体结构的测定开始到1 9 9 6 年底,用x 射线衍射和 核磁共振方法确定了空间结构并存入数据库的蛋白质己接近5 0 0 0 个但用x 射线 衍射的方法测定蛋白质结构存在蛋白质晶体的形成和培养没有普遍适用的规律、晶 体结构测定的周期较长、有些蛋白质很难形成结晶等缺点,从而使得x 射线衍射法 的应用受到一定的限制 近二十年来发展起来的二维和多维核磁共振方法己显示出它在蛋白质空间结构 研究上的优势由于不需要结晶,核磁共振方法可以直接测定蛋白质在溶液中的构 型,在样品制备上比x 射线衍射方法更有优越性但这一方法目前还只限于较小的 蛋白质的结构测定,并且要求蛋白质中不含有大量重复结构该方法对样品纯度的 要求较高,而且样品的需求量也较大 1 9 5 7 年,s a n g e r 测定了含有5 1 个氨基酸残基的胰岛素分子的氨基酸序列并阐 明了其二硫键的连接方式,这是蛋白质一级结构测定的开端随着分子生物学技术 的飞速发展,蛋白质氨基酸序列( 即一级结构) 的测定速度大大加快了现在氨基酸 序列的测定方法在灵敏度及自动化两方面都有了很大进展,个蛋白质的全序列测 定所需样品在皮克( 1 0 _ 1 2 克) 范围与此同时,核苷酸序列测定技术的进展更加迅 速,测定的灵敏度及自动化程度更高,它已成为当前测定氨基酸序列的主要方法 与蛋白质序列数据库的序列数据的极快增长形成鲜明对比的是,蛋白质空间结 构的测定速度大大落后2 0 0 6 年2 月报道已测得的蛋白质序列条目超过2 0 万,而 已测定空间结构的蛋白质数目却只有3 万多个近年来,空间结构测定的速度虽有 大幅度提高,但仍然满足不了对日益增加的蛋白质序列进行测定的需求 华南师范大学硕士学位论文 为了缩小已知一级结构的蛋白质数量和已测定结构的蛋白质数量二者之间的差 距,除了改善实验测定方法之外,急需建立和完善理论分析方法,这也是结构生物 学的重要目标之一 1 2 2 理论预测 1 9 6 1 年,a n f i n s e n 等【1 2 】通过实验发现,变性的核糖核酸酶在合适环境条件下 可以重新折叠并恢复生物活性这一发现表明:在给定的环境中,蛋白质的二维空 间结构是由其蛋白质序列决定的,这就是一级结构决定高级结构原理也就是说, 决定蛋白质特定二维结构的信息存在于氨基酸序列中,可以通过分析蛋白质一级结 构特性,来预测其二维空间结构,这为蛋白质结构预测提供了理论依据 由蛋白质的氨基酸序列预测蛋白质结构的方法可以分为两类 1 3 】:一类是基于 知识的蛋白质结构预测,也称为启发式的预测方法;另一类是基于模拟的蛋白质结 构预测第一类方法比较简单,速度较快,但是需要找到符合同源性要求的模板第 二类方法的运算量大而复杂,但在第一类方法无法搜索到合适的模板时,它是唯一 的选择在蛋白质结构预测过程中,这两类方法通常配合使用,以突破各自的局限 性而达到更高的准确度 解决蛋白质结构预测问题需要从两方面入手,其一是,找到求解已知能量模型 的好方法,其二是,给定一些方法,然后利用他们来确定已知氨基酸序列的最优或 接近最优的结构前者主要由对蛋白质折叠过程进行研究和建模的生物学家们来 解决后者则是个在局部或全局最优化方面具有意义和挑战的计算问题现已有 大量用来解决这个问题的算法,然而到目前尚无令人满意的方法由于若给定一个 多肽链和正确的分子势能,如何找到对应蛋白质的热力学稳定状态现已被看作一个 n p 难问题【1 4 ,1 5 】( n o n - d e t e r n i m i s t i cp o l y n o m i a l ) 这意味着,对于任何一个最优算 法,蛋白质折叠问题在多项式时间内是不可解的这个困难主要是由于系统存在大 量的由高能屏障产生的局部极小能状态在低气温状态下,传统的m o n t ec a r l o 和 分子动力学模拟容易陷于局部极小能状态因此仅仅个小片段被取样,所以不能 产生天然结构且不能准确地评估热力学量目前,有两个办法可以用来解决这个难 题,一个是利用有效的优化技巧( 如:m o n t ec a r l o ,模拟退火,遗传算法等) 搜索最 小能构象u n g e r 和w i l s o 等人利用一些蛋白质和网格模型证明了这些方法的有效 性缺点之一是这些方法忽略了构象的嫡且不能估计出有意义的热力学量另一个 是在状态空间中取样,例如e n t r o p i es a m p l i n 【1 6 】,p a r a l l e lt e m p e r i n g 【1 t ,s i m u l a t e d t e m p e r i n g 1 8 】,1 k - e n s e m b l es a m p l i n g 【1 9 】,c h a i ng r o u t ha l g o r i t h m 2 0 - 冽和m e t r o p o l i s a l g o r i t h m sf 2 3 ,2 4 等 6 华南师范大学硕士学位论文 ( 1 ) 同源建模法( h o m o l o g o u sm o d e l i n g ) 同源建模法也称为比较建模法,是基于已知蛋白质结构的预测方法它是在目 标蛋白质有同源结构可以参考的情况下应用的一种技术这种预测方法的依据除了 一级结构决定二级结构这个蛋白质结构预测方法的共同基础之外,还有一个重要的 事实,即在蛋白质的进化过程中,二维结构比对应的一级结构更稳定,变化也要缓 慢得多【2 5 ,2 6 】 ( 2 ) 折叠识别法( f o l d sr e c o g n i t i o n ) 折叠识别法也称为反向折叠法,该方法是基于有大量的明显不相关的蛋白质具 有相似的折叠结构这一事实在找不到同源蛋白质结构作为模板的情况下,反向折 叠法将已知的独立的蛋白质结构模式作为对未知结构进行匹配的模板通过把未知 结构的蛋白质的序列与已知的模板进行匹配,找出几种匹配最好的结构作为未知蛋 白质的预测结构,然后按照一个向数据库学习而得到的经验势函数进行判别,从中 选择最佳的个 ( 3 ) 从头计算法( a bi n i t i op r e d i c t i o n ) 从头计算法的理论基础是a n f i n s e n 的经典。热力学理论”该理论认为天然蛋 白质多肽链的空间结构是在一定环境条件下热力学上最稳定、能量最低的状态,采 取天然结构的多肽链和它所处的特定环境条件满足整个系统的自由能最低如果能 够找到个表征蛋白质结构与能量关系的势能函数,那么利用数学工具寻找势能函 数的全局极小点就可以解决问题从头预测方法不需要序列以外的其它更多信息, 从一条蛋白质序列出发,就可得到蛋白质的空间结构,在理论上这是一种最为理想 的方法 2 7 】 然而,从头计算法在实践中一直受到两方面的困扰:首先,难以找到一个能严格 区分蛋白质的天然构型和非天然构型的能量函数,使能量函数的全局极小点对应蛋 白质天然结构其次,在势能函数确定之后,从头预测方法便归结为求解一个优化 问题而每一种蛋白质存在一种稳态结构和大量的亚稳态结构,尽管几十年来从头 预测方法也取得了大量的研究成果,但是由于受到以上两方面的制约,仍然处在研 究阶段蛋白质结构的这种复杂性阻碍着从头预测方法的实现如何找到全局极小 点是从头预测方法的个关键但受理论工作者关注的还是可以产生全新结构的从 头预测法,它建立在蛋白质的天然构象即热力学最稳定构象,也是能量最低构象的 理论基础之上根据这一优化思想抽象的数学模型主要集中于两个方向,一是从连 续角度出发的分子动力学模拟方法主要思想是通过分子力学模型找到描述蛋白质 能量的平均势能函数,然后利用全局优化算法找到能量最低结构由于需要搜索的 华南师范大学硕士学位论文 7 构象空间非常巨大,普遍采用的全局搜索方法有m o n t ec a r l o 方法、模拟退火算法、 遗传算法等,存在的问题是无法保证在有效的计算时间内找到全局极小点另一个 重要的也是我们比较关心的方向是从离散角度来研究这个问题主要想法是抓住蛋 白质折叠过程中的主要因素,将问题抽象为一个组合优化问题,然后构造有效的近 似算法来求解h p 格点模型就是这样一个简化的精确模型( s i m p l ee x a c tm o d e l ) ,这 个模型是蛋白质折叠的最简单的模型之一,也是蛋白质折叠的最流行的生物物理模 型 8 - 华南师范大学硕士学位论文 1 3 课题的研究内容及意义 本研究课题的部分内容来自于由杨湘波负责的国家自然科学基金项目( 项目编 号:n o 1 0 9 7 4 0 6 1 ) 和广东省高校创新团队项目( 项目编号:0 6 c x t d 0 0 5 ) 1 3 1 研究内容 本文对蛋白质结构预测的研究内容属于从头计算法的范畴从头计算法涉及建 立合适的数学模型以及高效优化算法设计两方面的工作对于真实的蛋白质结构预 测问题,即全原子的能量模型,目前的计算能力和研究水平还无力求解于是理论 界提出了多个简化的数学模型,通过对这些简化模型的研究,可以增加对蛋白质结 构预测问题本质的理解本文对两种典型的基于简化模型的蛋白质折叠问题进行了 深入分析和研究,主要是以h p 模型为代表的格点模型 ( 1 ) 蛋白质折叠问题中的h p 模型研究工作的总结 d i l l 等人 2 8 】在1 9 8 5 年提出了一种疏水亲水模型( h y d r o p h i l i c - h y d r o p h o b i cm o d e l ) h p 模型已经被化学家们用来评估蛋白质结构预测方面的新假说,并且用它来检验一个 新的折叠算法的有效性实际上这个模型已成为测试折叠算法的一个标准本文介 绍了h p 模型的理论,蛋白质链与h p 序列的转化,基于h p 模型的各种算法研究 状况 ( 2 ) 对基于二维h p 模型的蛋白质折叠问题提出了一种局部二级结构h p 模型 基于二维h p 模型的蛋白质折叠问题是一个具有n p 难度的离散优化问题,随 着蛋白质链链长的增加,搜索空间以指数级增长通过一定的评价标准,把部分局 部序列限定成特定的二级结构h p 结构,从而减小搜索空间,提高搜索效率 ( 3 ) 遗传算法的工作总结及改进 1 9 7 5 年h o l l a n d 出版了他的著名专著强自然系统和人工系统的自适应) ) ( a d a p t a t i o n i nn a t u r a la n da r t i f i c i a ls y s t e m s ) ,这是第一本系统论述遗传算法的专著,标志着遗 传算法思想的建立遗传算法通过寻找与生物进化有关的问题,从中得到启发并逐 步形式化为求解问题的算法【2 9 】本文对遗传算法方法的背景、涵义、来源进行了 详细介绍,阐述了应用遗传算法求解问题的工作流程,并详细介绍了各个遗传算子 的原理本文指出了影响遗传算法计算效率的关键因素,把固定的遗传参数转化成 能够根据新生成的种群而改变的自适应参数,并从蛋白质的二级结构的角度去结合 遗传算法,提出更为合理的评判准则,重新制定了编码及遗传操作的策略,从而得 华南师范大学硕士学位论文 到了个新的高效的预测二级结构的算法一基于蛋白质二级结构h p 模型的改进遗 传算法( g a o s s ) 对算例的测试表明,g a o s s 算法具有很高的效率 ( 4 ) 利用改进遗传对9 种h p 标准测试序列进行数值模拟 采用标准9 种标准测试序列能有效地检验我们算法的是否有效计算结构表 明,算法g a o s s 不仅能够对9 个序列搜索到能量最低值,而且能够搜索出部分序 列的几种不同基态构型 1 3 2 研究意义 随着人类基因组计划的完成,生命科学已经全面进入了后基因时代基因组学 的研究的中心已经由测序转向基因功能的研究在生命体中,基因编码形成氨基酸 序列,氨基酸序列进一步折叠产生丰富的空间结构进而合成具有生物活性的蛋白质 基因所携带的功能信息通过其编码的蛋白质的生物活性体现蛋白质的功能与其空 间结构有着密切的关系,只有处在一定的空间结构中蛋白质分子才能够发挥其特定 的功能,也就是说蛋白质结构是其行使生物功能的基础因而,了解和掌握蛋白质 的结构对于探索其功能有着重要的意义 由于蛋白质就是一条由氨基酸组成的序列在适当的环境条件下,这个序列展 示了折叠本身的非凡特性,即快速到达一种唯一的低能状态实验表明,蛋白质的 生物功能和特性主要由蛋白质的结构来确定由此看来,通过氨基酸序列确定蛋白 质的天然构象的重要性是显而易见的( 例如:对设计新药品有很大的作用) 并且快 速且有效地预测蛋白质结构的能力将很大程度上有助于理解人类基因组计划中的海 量数据有助于理解遗传疾病和传染疾病的机制;有助于设计有特效治疗功能的药 品;有助于产生具有特效材质特性的生物聚合物目前蛋白质结构主要由两种技术 来确定:磁共振成像( m 磁) 和x 射线结晶学这两个方法不仅计算量大而且计算时 间都很长,并且它们的设备也很昂贵因此蛋白质结构预测的计算方法现在备受各 界科学家们和学者们的关注蛋白质结构预测问题的主要目的是根据蛋白质的氨基 酸序列确定其三维结构这个问题自2 0 世纪5 0 年代早期起就被关注随着人类步 入以基因组的诊释评估与功能解析的后基因组时代,这个问题逐步成为计算生物学 的最重要且最具有挑战性的问题之一 有的蛋白质则由两个或者更多相同或不同的肽链组成肽链平均含有3 0 0 , , 一5 0 0 个氨 基酸残基蛋白质肽链一级结构是氨基酸缩合的产物,氨基酸残基序列的顺序不是 任意的,它们由基因的d n a 编码例如胰岛素由两条链通过二硫键连接,如图2 1 所示,而血红蛋白由四条链通过共价作用结合在一起每种蛋白质具有唯一而确切 的氨基酸序列,氨基酸的序列是由遗传决定的,氨基酸中的排列顺序由基因编码决 定,从序列决定构象的角度看,这是序列蕴藏信息所在,是功能的基础 髫7 罄鬻譬繁髫喾髫譬 雾 , 4 徽孽滞需孥嚣: 嘲黛 避。磷镬t 黔簿缈燃翩n 镌簟静麓搿 图2 1 :胰岛素的级结构图 阻心_ 她荔蛰黔瓣藏。糁锄瓣鼯簸磊氍瓣鬻鼹 懈 蛋白质分子在形成疏水核心时有一部分主链埋在内部,而主链是高度亲水的, 埋在内部的主链极性基团( c = o ,n - h ) 只有被氢键中和才能稳定由于氢键的维持, 蛋白质主链折叠成局部肽段的构象,这就是二级结构,常见的有q 螺旋( a - h e l i x ) 、卢 折叠( f l - s h e e t ) 、p 转角( 卢- t u r n ) 、无规卷曲等【5 ,3 0 各部分的结构如图2 2 所示 一、n 螺旋 它是蛋白质分子中最常见、最典型,含量最多的很规则的二级结构螺旋中每 个瓯的和砂分别为一5 7 0 和一4 7 0 ,第t 个羰基上的氧原子和第i + 4 个亚胺基上 的氢原子之间形成氢键每圈螺旋3 6 个氨基酸残基,沿螺旋轴方向上升0 5 4 n m 也就是每个残基绕轴旋转1 0 0 。,沿轴上升o 1 5 n m ,螺旋的直径约0 5 n m 脯氨酸参与肽键时,必受到限制,不利于q 螺旋的形成,妒不受限制,故脯氨 酸还是经常出现在螺旋的第一圈中甘氨酸因活动性大,影响q 螺旋的稳定,故甘 氨酸极少出现在n 螺旋结构中 n 螺旋中所有氢键都是同样的取向,形成了一个偶极,螺旋的n 端为正极、c 端为负极在q 螺旋n 端附近存在带负电的酸性残基( 如天冬氨酸、谷氨酸) ,c 端 附近存在带正电的碱性残基( 如赖氨酸、精氨酸) ,相反电荷的作用对螺旋的稳定起 到重要作用 图2 2 :三种基本基本二级结构在真实蛋白质中的三维结构图 其它不常见的螺旋还有3 1 0 螺旋,每圈残基3 个,每个肽基的c = o 与前面的 第3 个肽基的n h 形成氢键,每个残基轴向高度0 2 n m ,螺距0 6 n m 螺旋直径约 0 4 r i m ,西和砂分别在一4 9 0 和一2 6 。附近丌螺旋每圈4 4 个残基,残基轴向长度 o 1 2 n m ,螺距0 5 2 n m ,直径约0 6 r i m ,每个肽基的c = o 与前面第5 个肽基的n - h 形 成氢键 二、口折叠 它好比由折叠的条状纸片侧向并排而成,主链形成锯齿状,侧链交替从平面上 下伸出有两种形式的折叠,平行式折叠的相邻主链同向,反平行式折叠则相反 p 折叠中每片称为p 折叠股或p 股( p - s t r a n d ) ,股间形成氢键反平行折叠中重 复周期为0 7 n m ,而平行折叠中为0 6 5 n m 平行式中妒和妒值分别为一1 1 9 0 和1 1 3 0 左右,而反平行式中的妒和妒值分别为一1 3 9 0 和1 3 5 0 左右平行折叠一般是大结 构,少于5 个p 股的少见,而反平行折叠可以少到仅由两个p 股组成平行p 折叠 中疏水侧链分布在折叠平面的两侧。而反平行的通常所有的疏水侧链都排列在折叠 片的一侧,这就要求参与反平行折叠的序列中亲水残基和疏水残基交替排列在纤 维状蛋白质中p 折叠主要是反平行的,片内氢键主要是在不同肽链间形成,而球状 蛋白质中反平行和平行两种方式同样的频繁出现,片内氢键可以在不同肽链或不同 分子间形成,也可在同一肽链上形成 华南师范大学硬士学位论文 1 3 三,p 转角 要使蛋白质分子呈球状,肽链必须能弯曲球状蛋白质中( 自然中多数蛋白质 就是球状蛋白质) 能看到一种简单的二级结构,卢转角( j 3 - t u r n ) ,或p 弯曲( 伊b e n d ) 或发夹结构( h a i r p i ns t r u c t u r e ) p 转角的第t 个残基的c = o 与第i + 3 个残基的n h 间以氢键结合,成为比较稳定的结构转角看起来类似最小的反平行卢片层( 即p 折叠) 蛋白质结构信息表明,p 转角对蛋白质的结构、功能、进化都有重要意义脯 氨酸和甘氨酸经常在p 转角序列中存在另外,还有6 转角、,y 转角、q 转角和7 r 转 角6 转角的肽段中第t 个残基和第i + 1 个残基间形成氢键,y 转角的肽段中第t 个 残基和第i + 2 个残基间形成氢键q 转角的肽段中第i 个残基和第i + 4 个残基间形 成氢键7 f 转角的肽段中第i 个残基和第i + 5 个残基间形成氢键 四、无规卷曲 有些局部结构具有明确而稳定的结构( 约占l o ) ,它们受侧链间相互作用的影 响很大,不能归入以上的规则二级结构,在这里统称它们为无规卷曲( r a n d o m c o i l ) 或卷曲( n ) 2 1 3蛋白质的三级结构和四级结构 蛋白质肽链中主链以及所有残基侧链问的相对位置就是蛋白质的三级结构由 于共价键键长基本上是不变的,肽键的二面角就决定了主链的走向稳定蛋白质三 级结构的是非共价键和疏水作用,二硫键对蛋白质结构的稳定也极为重要绝大多 数的蛋白质最终折叠成球状的结构,内部很紧密,7 5 的空间充满了原子,这远超 过在液体中的小分子,类似晶体【3 l 】 纤维状蛋白的结构比球蛋白质简单,很少转角、无规卷曲等二级结构它们在 生物体内起结构和支撑作用,水溶性很差 穿膜蛋白结构比较特殊,亲水的部分般分布在内部圆桶的内侧,疏水的部分 在靠近膜脂侧 蛋白质的四级结构( q u a t e r n a r ys t r u c t u r e ) 可以看成是一级结构、二级结构和三 级结构的延伸,是具有二级结构的球状蛋白质通过非共价键作用而形成的聚集体 其中,组成二级结构的蛋白质称为亚基或亚单位无四级结构的蛋白质如血红蛋白 质称为单体蛋白质,有四级结构的蛋白质如血红蛋白又称寡聚蛋白质寡聚蛋白质 各亚基之间靠非共价键( 氢键、盐键、疏水作用) 维系 1 4 华南师范大学硕士学位论文 2 2 二维h p 格点模型 2 0 世纪6 0 年代,a n f i n s e n 的著名折叠实验变性的核糖核酸( r i b o n u c l e a s e ) 可以 重新折叠并恢复生物活性阵这说明蛋白质一级结构中隐含了编码蛋白质三级结构 的所有信息这一发现为蛋白质结构预测提供了理论依据这意味着在完全掌握了 蛋白质序列和结构之间的关系后,就可以通过分析一级结构序列特性,预测其三维 空间结构同影响蛋白质自由能的主要因素有:氢键、范德华力、静电力、疏水效应 和化学键等,但最为关键的是疏水效应回由于蛋白质天然构象的实验确定比较困 难且很费时间,于是目前大家主要利用数值计算来预测蛋白质的天然构象 2 2 1h p 格点模型及研究状况 氨基酸序列中相邻氨基酸通过个肽键来连接,这个键具有一定的刚性,因此 大量旋转能取代别的酸链比较理想的蛋白质折叠过程应该考虑影响旋转的各种物 理和化学因素,但这样的话,计算量和计算时间都很大鉴于蛋白质结构预测实际 问题的这些原因,科学家将目光转向一些简单模型上d i l l 等人在1 9 8 5 年【2 8 ,3 3 】提 出了一种疏水亲水模型( h y d r o p h i l i c - h y d r o p h o b i cm o d e l ) h p 模型已经被化学家们 用来评估蛋白质结构预测方面的新假说,并且用它来检验一个新的折叠算法的有效 性实际上这个模型已成为测试折叠算法的一个标准图2 3 给出蛋白质折叠的h p 格点模型示意图 h p 模型主要是从蛋白质的几何结构、氨基酸字母表和氨基酸相互作用三个角 度进行了一定程度上的简化从几何角度来看,简化模型仅考虑倪原子的骨架结 构一个有趣的事实是包含在生命体中的氨基酸仅有2 0 种,于是蛋白质序列可以 被看作是一条由2 0 个字母组成的链,一个字母代表一种氨基酸在h p 模型中,这 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- pcr技术课件简短
- 教案对数函数及其性质
- 玉溪师范学院《通信原理》2022-2023学年第一学期期末试卷
- 玉溪师范学院《数学课件设计与制作》2021-2022学年第一学期期末试卷
- 五下语文第1课教学课件教学课件教学
- 儿童画课件教学
- 2024年苯甲醇项目成效分析报告
- 《说说委屈的事》心理健康教学设计
- 仓库主管协议书
- 采购谈判记录 合同条款范本
- 期中考试班会PPT
- (完整word版)小学开展仪式教育的策略研究.
- 送货单EXCEL模板
- 步兵班战术教案(全)
- 推荐塞上风情笛子简谱
- 布鲁纳《教育过程》
- 样品承认书标准版
- 田间生产管理记录档案
- 智慧城市建设论文5篇
- 人教版八年级地理(上册)期中试卷及答案(完整)
- 重症动脉瘤性蛛网膜下腔出血管理专家共识
评论
0/150
提交评论