(模式识别与智能系统专业论文)基于计算智能的蛋白质三级结构预测.pdf_第1页
(模式识别与智能系统专业论文)基于计算智能的蛋白质三级结构预测.pdf_第2页
(模式识别与智能系统专业论文)基于计算智能的蛋白质三级结构预测.pdf_第3页
(模式识别与智能系统专业论文)基于计算智能的蛋白质三级结构预测.pdf_第4页
(模式识别与智能系统专业论文)基于计算智能的蛋白质三级结构预测.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

p r o t e i ns t r u c t u r ec l a s sp r e d i c t i o nb a s e do nc o m p u t e i n t e l l i g e n c e b y c a in a n a u n d e rt h es u p e r v i s i o no f p r o f c h e ny u e h u i at h e s i ss u b m i t t e dt ot h eu n i v e r s i t yo f j i n a n i np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t s f o rt h ed e g r e eo fm a s t e ro fe n g i n e e r i n g u n i v e r s i t yo fj i n a n j i n a n ,s h a n d o n g ,p r c h i n a m a y2 0 ,2 0 1 0 7 iiii一 川6747, iiil洲y 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的 研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 论文作者签名:缸丰国2 日期: 丛盘i l 二l 之 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借鉴;本人授权济南大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:纽导师签名:獬日期:幽 济南人学硕f j 学位论文 曼曼曼曼曼曼曼曼量曼i i i 一一i一一i l i i i 。一i =一 一 一一一一一i i i 。i i i 皂曼曼曼皇曼舅曼舅曼鼍 目录 摘要兽v a b s t r a c t v i i 第一章引言一l 1 1 研究背景1 1 2 生物信息学的应用及展望1 1 3 研究目的及现状2 1 4 本文研究提纲3 第二章蛋白质三级结构预测和氨基酸序列特征提取算法5 2 1 引言5 2 2 蛋白质相关知识5 2 3 蛋白质表示方式7 2 3 1 考虑顺序的表示方法7 2 3 2 不考虑顺序的表示方法一7 2 4 特征提取方法9 2 4 1 氨基酸组成( a a ) 9 2 4 2 二肽组成1o 2 4 37 类组成特征1 0 2 4 4 伪氨基酸组成模型特征1 0 2 4 5 准序列顺序特征( q u a s i s e q u e n c e o r d e r ) 1 1 2 4 69 维二级结构特征1 2 2 5 蛋白质三级结构预测方法1 2 2 5 1 蛋白质三级结构预测概述1 2 2 5 2 蛋白质三级结构预测方法概述1 3 2 6 应用于生物信息学领域的机器学习方法1 5 2 6 1 人工神经网络15 2 6 2 隐马尔可夫模型1 7 2 6 3 支持向量机17 2 6 4 遗传算法18 2 。6 5 动态规划18 2 6 6 多重机器学习18 基于计舅钾能的蛋白质三级结构预测 第三章神经网络及优化方式选择2 1 3 1 引言2l 3 2 神经网络简介2 1 3 2 1 神经网络结构2 2 3 2 2 神经网络算法描述2 3 3 2 3 神经网络的特点2 3 3 2 4 神经网络与蛋白质结构预测2 4 3 3 优化算法介绍2 4 3 3 1 梯度下降优化神经网络模型算法2 5 3 3 2 粒子群优化算法( p s o ) 2 7 3 4 试验数据集及结果评价方式。3 0 3 4 1 数据集3 0 3 4 2 预测正确率检验标准3 1 3 5 网络优化方式比较3 2 3 5 1b p 神经网络3 2 3 5 2p s o 网络设计3 3 第四章实验设计及结果分析3 7 4 1 引言3 7 4 2 蛋白质序列特征提取。3 7 4 3 集成神经网络预测蛋白质三级结构一3 7 4 3 1 集成网络设计3 7 4 3 2 结果分析4 1 4 3 3 一对多二分类算法4 3 4 4 集成f n t 预测蛋白质三级结构4 4 4 4 1f n t 概述4 4 4 4 2f n t 进化设计算法4 5 4 4 3 概率增强式程序进化( p r o b a b i li s t i ci n c r e m e n t a lp r o g r a m e v o l u t i o n 。p i p e ) 4 7 4 4 4 实验设计和结果4 9 第五章结束语5 l 5 1 全文总结5l 5 2 进一步研发设想5l l i 济南人学硕十学位论文 5 3 心得体会5 2 参考文献5 3 致谢5 9 攻读学位期间发表论文目录6 1 i v 济南大学硕士学位论文 鼍曼曼i 一一_ 一 一 i 。 m i m m 一_ - - i i i i i 鼍曼曼曼皇曼皇曼曼蔓寰 摘要 蛋白质三级结构预测是由氨基酸序列预测蛋白质三级结构的过程。蛋白质结构预 测的基本假设是蛋白质三级结构由其氨基酸序列唯一决定。研究蛋白质的结构意义重 大,不但有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与 蛋白质之间的相互作用,而且对生物学、医学和药学都有非常重要的作用。历时十年 的人类基因组计划产生了海量的生物序列数据,蛋白质序列数据与结构数据数量之间 的差距越来越大,所以蛋白质结构预测变得日益紧迫和重要。 本文所要研究的是如何构建一个蛋白质三级结构预测模型,使之能够更加准确有 效的预测氨基酸对应的蛋白质三级结构。内容包括氨基酸序列的特征提取方式,神经 网络结构设计及智能优化算法的选择。 一、氨基酸序列特征提取。要对蛋白质结构进行预测,首先必须把氨基酸序列中 的信息提取出来,转换成计算机可以处理的数据,即进行特征提取。选择何种提取方 式非常关键,不同的特征提取出的信息大不相同,现在的方法主要有氨基酸组成模型 ( a a ) 、二肽组成模型、多肽组成模型、伪氨基酸组成( p s e a a ) 、多特征融合、基 于氨基酸物理化学性质等,从不同角度对氨基酸特征进行提取。本文采用了以上各种 特征提取方式并进行了特征融合。实验表明,不同的特征提取方式对于不同的数据集 和分类模型效果不同。 二、分类模型的建立。蛋白质三级结构预测实际上是根据提取出的有用信息,通 过学习分析这些信息,总结出规律,实现对未知结构氨基酸序列的结构预测。对于蛋 白质三级结构预测这种信息维数高,计算量大的问题,借助神经网络是非常有效地。 神经网络具有较强的自组织、自学习、自适应能力,能够快速学习到序列中包含的特 征,实现对结构的预测。而对于网络,包括结构的优化和参数的优化两部分。选择何 种优化算法是至关重要的,不同的算法会产生不同的时间效率,不同的算法对应不同 的预测正确率。本文中将对各种不同的优化算法进行比较,选择出更适合的优化算法。 实验表明,参数优化采用粒子群优化算法( p s o ) 能取得较好的效果。b p 神经网络 在蛋白质三级结构预测中能大大提高预测准确率。针对蛋白质三级结构预测这种多分 类问题,本文提出将多类问题转换成多个二分类问题的集成。通过试验表明,单输出 方式比多输出方式能有效的提高预测的正确率。为了寻找一种更优的网络结构,本文 v 基于计剪智能的蛋一质j 级结构预测 首次将灵活神经树( f n t ) 应用在蛋白质三级结构预测中,p s o 对网络参数进行优化, 概率增强式程序进化( p i p e ) 对网络结构进行优化。实验表明,这种模型在预测2 5 p d b 这样较大的蛋白质数据集中,效果理想。它不但解决了以前预测时只能提前固定网络 结构和采用试探法选择隐层个数的问题,而且还能对高维特征进行选择性输入,实现 了对原始输入的降维作用。 关键词:p s e a a ,蛋白质三级结构预测,p s o ,f n t 济南大学硕 :学位论文 a b s t r a c t t h ep r o t e i ns t r u c t u r ec l a s sp r e d i c t i o ni st h ep r o c e s sp r e d i c t i n gp r o t e i ns t m c t u r ec l a s s f r o mt h ea m i n oa c i ds e q u e n c e t h eb a s i ca s s u m p t i o no fp r o t e i ns t r u c t u r ep r e d i c t i o ni s a m i n oa c i ds e q u e n c es o l ed e t e r m i n e sp r o t e i ns t r u c t u r ec l a s s s t u d yo fp r o t e i ns t r u c t u r ei so f g r e a ts i g n i f i c a n c e ,n o to n l yh e l pt ou n d e r s t a n dt h ee 艉c to f t h ep r o t e i n ,l e a r np r o t e i nh o w t op e r f o r mt h e i rb i o l o g i c a lf u n c t i o n s ,k n o wp r o t e i n p r o t e i ni n t e r a c t i o n ,b u ta l s oh a v eav e r y i m p o r t a n tr o l ef o rb i o l o g y , m e d i c i n ea n dp h a r m a c y t h ed e c a d e l o n gh u m a ng e n o m e p r o j e c tp r o d u c e dv a s ta m o u n t so fb i o l o g i c a ls e q u e n c ed a t a , t h eg a p b e t w e e nt h en u m b e ro f p r o t e i ns e q u e n c ed a t aa n ds t r u c t u r ed a t ag r o wb i g g e r , s ot h ep r o t e i ns 1 m c t l 胎p r e d i c t i o ni s b e c o m i n gi n c r e a s i n g l yu r g e n ta n di m p o r t a n t t h i sp a p e ri st os t u d yh o wt ob u i l dap r o t e i ns t r u c t u r ec l a s sp r e d i c t i o nm o d e l ,t o e n a b l em o r ea c c u r a t ea n de f f e c t i v et op r e d i c tp r o t e i ns t r u c t u r ec l a s sc o r r e s p o n d i n gt o a m i n oa c i d s t h ec o n t e n ti n c l u d e st h ef e a t u r ee x t r a c t i o nm e t h o d so fa m i n oa c i ds e q u e n c e , s t n l c t l _ l i 。ed e s i g no fn e u r a ln e t w o r ka n dt h ec h o i c eo fi n t e l l i g e n to p t i m i z a t i o na l g o r i t h m s f i r s t l y , f e a t u r ee x t r a c t i o no fa m i n oa c i ds e q u e n c e t op r e d i c tp r o t e i ns t r u c t u r ec l a s s , w em u s tf i r s te x t r a c tt h ei n f o r m a t i o ni nt h es e q u e n c eo fa m i n oa c i d s ,c o n v e r t e di n t ot h e d a t aac o m p u t e rc a nh a n d l e ,n a m e l y , f e a t u r ee x t r a c t i o n c h o i c eo fe x t r a c t i o nm e t h o di s c r i t i c a l ,a n dt h ei n f o r m a t i o no fd i f f e r e n tf e a t u r ee x t r a c t i o nm e t h o di sv e r yd i f f e r e n t n o w t h em a i nm e t h o d so ff e a t l l r ee x t r a c t i o na l ec o m p o s e do fam o d e lo fa m i n oa c i d s ( a a ) c o m p o s i t i o n ,d i p e p t i d ec o m p o s i t i o n o f m o d e l ,p o l y p e p t i d ec o m p o n e n tm o d e l , p s e u d o - a m i n oa c i dc o m p o s i t i o n ( p s e a a ) ,m u l t i f e a t u r ef u s i o n ,b a s e d o np h y s i c a la n d c h e m i c a lp r o p e r t i e so fa m i n oa c i d sa n ds oo n ,f r o md i f f e r e n ta n g l e so ft h ea m i n oa c i d s e x t r a c t i n gf e a t u r e s t h i sp a p e ru s e st h ea b o v ef e a t u r ee x t r a c t i o nm e t h o d sa n dc o n d u c t e d f e a t u r ef u s i o n e x p e r i m e n t ss h o wt h a tt h ed i f f e r e n tf e a t u r ee x t r a c t i o nm e t h o d sf o rd i f f e r e n t d a t as e t sa n dc l a s s i f i c a t i o nm o d e l sh a v ed i f f e r e n tr e s u l t s s e c o n d l y , b u i l do fc l a s s i f i c a t i o nm o d e l p r o t e i ns t r u c t u r ec l a s sp r e d i c t i o na c t u a l l yi s b a s e do nu s e f u li n f o r m a t i o ne x t r a c t i n gf r o mt h ea m i n oa c i d ,b ys t u d y i n ga n da n a l y z i n gt h e i n f o r m a t i o n ,s u m m e du pt h er u l e ,a n dr e a l i z et h es t r u c t u r eo ft h ea m i n oa c i ds e q u e n c eo f v l l 基于计算智能的蛋白质三级结构预测 u n k n o w ns t r u c n l r ep r e d i c t i o n f o rt h ep r o b l e mo fp r o t e i ns t m c t u r ec l a s sp r e d i c t i o nw h i c h h a st h eh i g hd i m e n s i o n a l i t yi n f o r m a t i o na n da m o u n tc o m p u t e ,u s i n gn e u r a ln e t w o r ki sv e r y e f f e c t i v e n e u r a ln e t w o r kh a sas t r o n gs e l f - o r g a n i z a t i o n ,s e l f - l e a r n i n g ,a d a p t i v ea b i l i t yt o q u i c k l yl e a r nt h ef e a t u r e st h a tc o n t a i n si nt h es e q u e n c e ,t oa c h i e v et h e 蛐m c 眦p r e d i c t i o n s t h en e u r a ln e t w o r ki n c l u d e st h es t r u c t u r eo p t i m i z a t i o na n dp a r a m e t e ro p t i m i z a t i o n c h o i c e o fo p t i m i z a t i o na l g o r i t h mi s c r i t i c a l ,d i f f e r e n ta l g o r i t h m sw i l lg e tt h ed i f f e r e n tt i m e e f f i c i e n c y , d i f f e r e n ta l g o r i t h m sc o r r e s p o n dt od i f f e r e n tp r e d i c t i n ga c c u r a c y i nt h i sp a p e r , w ew i l lc o m p a r eav a r i e t yo fo p t i m i z a t i o na l g o r i t h m s ,c h o o s eam o r es u i t a b l eo p t i m i z a t i o n a l g o r i t h m e x p e r i m e n t a lr e s u l t ss h o wt h a tp a r a m e t e ro p t i m i z a t i o nu s i n gp a r t i c l es w a r m o p t i m i z a t i o n ( p s o ) c a na c h i e v e9 0 0 dr e s u l t s b pn e u r a ln e t w o r ki np r e d i c t i o no fp r o t e i n t e r t i a r ys t r u c t u r ec a ng r e a t l yi m p r o v ep r e d i c t i n ga c c u r a c y f o rt h em u l t i - c l a s s i f i c a t i o n p r o b l e mo fp r o t e i nt e r t i a r y s t r u c t u r ep r e d i c t i o n ,t h i sp a p e rp r e s e n t st r a n s f o r m i n gt h e m u l t i - c l a s sp r o b l e mt oi n t e g r a t i o no fs e v e r a lt w oc l a s s i f i c a t i o np r o b l e m s t h r o u g ht h et e s t s s h o w e dt h a ts i n g l e o u t p u tw a yc a ne f f e c t i v e l yi m p r o v et h ep r e d i c t i n ga c c u r a c yt h a n m u l t i p l e o u t p u tm e t h o d i no r d e rt of i n dab e t t e rn e t w o r ks t r u c t u r e ,t h i sa r t i c l ef i r s tu s e sa f l e x i b l en e u r a lt r e e ( f n a 3i np r o t e i nt e r t i a r ys t r u c t u r ep r e d i c t i o n ,p s oo p t i m i z e st h e n e t w o r kp a r a m e t e r s ,p r o b a b i l i s t i ci n c r e m e n t a lp r o g r a me v o l u t i o n ( p i p e ) o p t i m i z e st h e n e t w o r ks t r u c t u r e e x p e r i m e n t ss h o wt h a tt h em o d e li np r e d i c t i n g2 5 p d bs u c hal a r g e p r o t e i nd a t as e t s ,t h er e s u l t sa r es a t i s f a c t o r y i tn o to n l yr e s o l v e st h ep r e v i o u sf o r e c a s to n l y f i x e dn e t w o r ks t r u c t u r ea n du s eh e u r i s t i c st os e l e c tt h en u m b e ro fh i d d e nl a y e rp r o b l e m a h e a d ,b u ta l s os e l e c t i v ei n p u to fh i g h d i m e n s i o n a lf e a t u r e ,i m p l e m e n t st h e e f f e c to f r e d u c i n go r i g i n a li n p u td i m e n s i o n k e y w o r d s :p s e u d o a m i n oa c i dc o m p o s i t i o n ,p r o t e i ns t r u c t u r ec l a s sp r e d i c t i o n ,p a r t i c l e s w a r mo p t i m i z a t i o n ( p s o ) ,f l e x i b l en e u r a lt r e e ( f n t ) v i l l 济南大学硕f 学位论文 1 1 研究背景 第一章引言 蛋白质是生物体的重要组分,是生命活动的执行者,生物体的重要结构成分,生 命活动的原料和储藏物,在生命活动中具有极其重要的作用。通过研究蛋白质的结构 可以了解蛋白质的功能和蛋白质如何行使其生物功能,因此预测蛋白质的结构对于生 物学的研究是非常重要的【1 1 。研究分析蛋白质的结构,从而确认蛋白质的功能单位和 结构域,不仅可以为遗传操作提供目标,为设计新的蛋白质和改造已有的蛋白质提供 可靠依据,而且还为设计新的药物分子提供合理的靶分子结构。现在生物全基因组测 序工在不断深入的进行,越来越多的核酸序列清晰的呈现在世人面前。与此同时,我 们明确知道空间结构的蛋白质数目却增长缓慢,而且二者之间增长速度的差异正在进 一步扩大。由于d n a 测序技术的发展,使得人类基因组和模式生物基因组已经或将 要被完全测序,因此d n a 序列的数量将会急剧增加。另一方面随着d n a 序列分析 技术和基因识别技术的发展,大量的蛋白质序列可以从d n a 序列推导出来。这意味 着蛋白质序列数量和蛋白质结构之间的差距越来越大,蛋白质结构测定的速度远远落 后于氨基酸序列测定的速度。人们希望找到一些预测方法,加快蛋白质结构产生速度, 缩小蛋白质结构测定的速度和蛋白质序列测定速度的差距。所以这对蛋白质结构预测 提出了极大地挑战,因此发展理论分析的方法迫在眉睫。在2 0 世纪6 0 年代后期, a n f i n s e n 【2 1 首先发现去折叠的蛋白质在允许重新折叠的试验条件下可以重新折叠到原 来的天然结构,大多数蛋白质只有在折叠成其天然结构的时候才能具有完全的生物活 性,而其天然结构对于蛋白质行使生物功能具有重要的作用。目前蛋白质结构预测的 基础是基于a n f i n s e n 提出的蛋白质折叠的信息隐含在蛋白质的一级结构中这一观点, 即蛋白质一级结构决定三级结构。通过对蛋白质一级结构的研究,预测蛋白质结构1 3 j 。 目前蛋白质结构预测的方法总体分为两大类:理论分析法和统计方法,细分为三大类: 同源模型方法、折叠识别方法和从头预测方法。 1 2 生物信息学的应用及展望 生物信息学是以基因组d n a 序列信息分析为源头,设法破译d n a 序列中隐藏 摹于计算智能的蛋白质i 级结构预测 的遗传语言规律。随着生物技术的发展,特别是生物芯片技术、蛋白质质谱技术和蛋 白质结构预测的快速发展,生物信息学的研究范畴不断扩大。现在已经进入了后基因 组时代,后基因组时代的生物信息学主攻方向大致可以分为四个方面:基因组功能预 测、支持蛋白质组学和各种“组学”的研究、利用生物分子的结构信息参与创新药物 的设计、生物学虚拟实验模型的构建。生物信息学在后基因组时代的最终目的是确定 每条新发现序列的生物学功能及其在生物体中的角色【4 1 。 生物信息学未来发展趋势主要有以下几个方面【5 】:计算基因组学,包括高通量基 因组测序、模型化和注释;计算结构生物学,包括模型比较和蛋白质折叠解析;计算 大分子化学,包括解析低分辨率的折叠拓扑和高分辨率的结构;分子识别的计算分析, 包括分子对接和分子结构仿真;计算细胞生物学【6 】。 生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。蛋白质组学作 为生物信息学一个重要的分支,随着人类基因组计划的完成,蛋白质组的研究已经成 为2 l 世纪生命科学发展的先导,成为生命科学乃至自然科学最活跃的学科领域。人 类蛋白质组研究对揭示生命活动规律和本质、探索人类重大疾病发生、发展机制具有 深远的意义。本论文就是对蛋白质组学中的蛋白质三级结构进行预测。 1 3 研究目的及现状 蛋白质结构预测是蛋白质结构与功能研究的重要组成部分。研究蛋白质结构的意 义重大,蛋白质的结构决定蛋白质的功能,蛋白质在生物体中的角色决定于蛋白质的 功能。研究蛋白质的结构,可以有助于了解蛋白质的作用和蛋白质与蛋白质之间的相 互作用,了解蛋白质如何行使其生物功能。因此研究蛋白质的结构对于医学、生物学 和药学,是非常重要的。通过结构分析,可以对未知功能的蛋白质分子和新发现的蛋 白质分子,进行功能注释和指导设计进行功能确认的生物学实验。蛋白质结构预测有 助于增加人们对蛋白质结构与功能的深入了解,加快基因药物研发和利用的步伐。 目前蛋白质结构预测主要有两大类方法:其一是理论分析方法( 从头算方法) , 即通过理论计算( 如分子力学、分子动力学计算) 进行蛋白质结构预测i 刀。但是在实 际中,这种方法往往不合适。其主要原因为:( 1 ) 天然的蛋白质结构和未折叠的蛋白 质结构之间的能量差非常小。( 2 ) 蛋白质可能的构像空间庞大,针对蛋白质折叠的计 2 济南大学硕f 二学位论文 算量非常大。其二是统计方法,统计方法首先是对已知蛋白质进行统计分析,建立蛋 白质序列到结构的映射模型。然后通过映射模型来对未知结构的蛋白质,通过其氨基 酸序列预测其蛋白质结构【引。统计方法主要包括经验性方法、结构规律提取方法、同 源模型化方法和神经网络方法【9 】。 统计学习理论是在2 0 世纪9 0 年代逐渐成熟的机器学习理论,以这种理论为基础 的神经网络与以往的机器学习方法相比具有支持小样本、不会陷入局部最优、具有很 好的鲁棒性、运算成本低、应用方便、计算能力强、预测准确率较高的特点。基于统 计学习理论的神经网络和支持向量机作为一种机器学习和知识挖掘的重要工具,被广 泛应用于蛋白质的结构类型、亚细胞结构和膜蛋白的结构等领域的预测中1 1 0 1 。 1 4 本文研究提纲 本文所要解决的问题包括如下几个方面: l 、如何提取出氨基酸序列中隐含的信息; 2 、对于多重特征提取方式,采用何种信息能够有效地提高蛋白质结构预测正确 率; 3 、采用哪种优化算法更有效的实现网络参数优化及如何设计网络结构,建立预 测模型; 4 、如何将f n t 与蛋白质预测模型有机结合在一起,使其发挥更大优势。 基于以上问题本书共分五章研究蛋白质三级结构预测方法。 第二章讲述蛋白质三级结构相关知识,氨基酸序列特征提取算法,蛋白质序列数 据库和本文中用到的蛋白质数据集,主要解决第一个问题,即氨基酸序列特征提取。 第三章讲述神经网络相关知识、神经网络预测模型的设计及网络结构预测方法的 对比,并通过多次实验,进行比较,选择合适的优化算法。 第四章讲述集成神经网络设计,并用灵活神经树预测蛋白质三级结构,实现结构 与连接权值同时优化。 第五章总结全文,并对下一步的工作进行了展望。 4 济南大学硕士学位论文 第二章蛋白质三级结构预测和氨基酸序列特征提取算法 2 1 引言 蛋白质是生物体内占有特殊地位的生物大分子,是生物体的基本构件,生命活动 的重要物质基础,几乎一切生命现象都是通过蛋白质的结构与功能体现出来的。蛋白 质执行着生物体内各种重要的工作,如生物化学反应的催化、营养物质的输运、生长 和分化控制、生物信号的识别和传递等。蛋白质的基本结构单元是氨基酸,参与蛋白 质组成的常见氨基酸共有2 0 种。蛋白质序列由相应的核酸序列所决定,通过对基因 的转录和翻译,将原来四字符的d n a 序列,根据三联密码规则翻译成2 0 字符的蛋 白质氨基酸序列【l l 】。 蛋白质是由氨基酸的线性序列组成的,但是蛋白质只有处于特定的三维空间结构 下才能具有其特定的生物活性和相应的生物学功能。因此系统地研究蛋白质功能与结 构及三级结构与氨基酸序列的关系,是当前生物信息学的一个重要任务。 2 2 蛋白质相关知识 蛋白质最重要的生物学功能就是作为酶,催化体内的各种新陈代谢过程。有些蛋 白质具有激素功能,参与代谢调节,还有些蛋白质作为具有免疫功能的抗体参与免疫 反应。因此,在分子生物学中,深刻阐明蛋白质的结构与功能,是探索生命奥秘的最 基本任务。生物体内的蛋白质种类繁多,结构各异,功能也多种多样。 组成蛋白质的主要元素有碳( 5 0 一5 5 ) 、氢( 6 8 ) 、氧( 1 9 2 4 ) 、氮 ( 1 3 1 9 ) 和硫,某些蛋白质还含有少量磷、铁等金属元素,各种蛋白质的含氮量 比较接近,平均为1 6 。据此,可通过测定样本总氮量推算样本中蛋白质的含量【1 2 1 。 氨基酸是蛋白质的基本组成单位,自然界中氨基酸种类很多,但参与蛋白质组成 的常见氨基酸只有2 0 种。这2 0 种氨基酸英文简写如表2 1 所示。 白质二级结构是指蛋白质多肽链本身的折叠和盘绕的方式。蛋白质二级结构主要有 口螺旋、折叠和转角。蛋白质二级结构是通过骨架上的羰基和酰胺基团之间形 成的氢键维持的,氢键是稳定蛋白质二级结构的主要作用力。蛋白质二级结构涉及序 列上相互接近的氨基酸残基之间的空间关系。这些空间关系中有的是很有规则的,产 生了周期性的结构,如口螺旋、折叠就是典型的蛋白质二级结构实例。蛋白质三级 结构是指一条多肽链在蛋白质二级结构的基础上,进一步盘绕,折叠,从而产生特定 的空间结构,关于蛋白质中多肽链空间走向,它涉及那些按线性顺序来说相隔较远的 氨基酸残基之间的空间关系。蛋白质四级结构涉及这些多肽链结合在一起的方式。在 这样的蛋白质中每一条多肽链称为亚基。另外一个常用的术语是结构域,它代表蛋白 质结构中的功能单位。下面主要介绍蛋白质三级结构。 蛋白质一级序列可以确定蛋白质三级结构。蛋白质三级结构是指蛋白质分子处于 6 济南大学硕士学位论文 它的天然折叠状态的三维构象,蛋白质三级结构是在蛋白质二级结构的基础上进一步 盘绕,折叠形成的。蛋白质三级结构主要是靠氨基酸侧链之间的疏水相互作用,氢键, 范德华力和静电作用维持的。尽管蛋白质的三级结构复杂且不规则,但是在自然状态 下蛋白质的折叠类型不超过1 0 0 0 种1 1 3 】。根据其折叠类型,l e v i t t l l 4 1 等定义蛋白质可以 被分成以下四种结构类:( 1 ) a l l t 2 :以口螺旋为主的类;( 2 ) a l l 一:以折叠为主 的类;( 3 ) 口:口螺旋和折叠以一口为单位存在,其中的折叠相互平行; ( 4 ) 口+ :口螺旋和折叠在空间上相互分离,分别处在蛋白质的不同部位【1 5 ,1 6 ,1 饥。 2 3 蛋白质表示方式 蛋白质的表示方式经常用的方法有以下两种: 2 3 1 考虑顺序的表示方法 蛋白质最典型考虑顺序的表示方法就是蛋白质序列。蛋白质序列含有蛋白质所有 的信息。我们可以很容易的通过例如b l a s t 等蛋白质序列比对工具来确定蛋白质所属 的蛋白质家族,从而确定蛋白质的亚细胞位置【1 8 】。但这种方法对于某些在通用数据库 中无法找到同源蛋白的蛋白质无法预测其位置。 2 3 2 不考虑顺序的表示方法 与考虑顺序的表示方法不同,不考虑顺序的蛋白质表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论