(理论物理专业论文)蛋白质的β发夹、β(γ)转角及四类简单超二级结构预测.pdf_第1页
(理论物理专业论文)蛋白质的β发夹、β(γ)转角及四类简单超二级结构预测.pdf_第2页
(理论物理专业论文)蛋白质的β发夹、β(γ)转角及四类简单超二级结构预测.pdf_第3页
(理论物理专业论文)蛋白质的β发夹、β(γ)转角及四类简单超二级结构预测.pdf_第4页
(理论物理专业论文)蛋白质的β发夹、β(γ)转角及四类简单超二级结构预测.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质的一发夹、( ) ,) 一转角及四类简单超二级结构预测 摘要 由于蛋白质的功能与其结构是密切相关的,因此研究蛋白质的结构是获取功能信 息的重要手段。随着人类基因组计划的顺利实施,蛋白质序列信息的积累速度远快于 蛋白质结构数据的增长速度。然而,通过实验手段确定蛋白质的结构,不但成本高、 耗时,而且实验中还会遇到一些目前无法解决的技术困难,因此人们非常希望能利用 理论计算的方法直接从序列信息预测蛋白质结构,这也是生物信息学研究的重要课题。 目前,直接从序列信息预测蛋白质的三级结构还很困难。由于局域结构有着较强 的序列信号,且在三级结构中大量存在、频繁出现,对蛋白质的折叠、识别和稳定性 起重要作用,因此,局域结构的预测可以简化结构预测问题,是蛋白质三级结构预测 重要的中间步骤。 本文主要研究蛋白质局域结构中超二级结构的预测,重点研究p 一发夹模体的预 测;研究了部分规n - 级结构中p 一转角和r 转角的预测。 1 提出了一种新的预测算法一基于离散增量的支持向量机算法,用该算法首次对 超二级结构数据库( a r c h d b 4 0 ) 中d 一发夹模体进行了预测,取得较好效果。 2 利用离散增量和序列打分值构成的向量来表示序列信息,将离散增量和打分值 作为向量输入支持向量机,在向量空间中寻找最优超平面,提出了一种新的组合向量 预测算法。该算法首次应用于p 一发夹模体的预测,对a r c h d b 4 0 超二级结构数据库中 p 一发夹数据集和文献( k u m a ra n db h a s i n ,n u c l e i ca c i d sr e s e a r c h ,2 0 0 5 ,3 3 :1 5 4 1 5 9 ) 中 已有的p 一发夹数据集的预测结果显示,我们的算法可以实现比以往方法更高的预测成 功率。与文献中已有数据集的预测结果相比,对独立的检验集预测精度提高4 ,p 一 发夹的敏感性提高6 。 另外,将这种算法首次用于a r c h d b 4 0 数据库中的四类简单超二级结构分类,无 论是对5 一交叉检验的训练集,还是对独立的检验集都取得较好分类结果。 3 在离散增量和序列打分值的基础上,进一步把预测的二级结构信息加入组合向 量,将它们共同输入支持向量机,对普遍使用的,分别包含4 2 6 个和3 2 0 个蛋白质序 列的两数据集中的部分规则二级结构p 转角和丫转角进行了预测。结果指出,对p 转 角的7 交叉检验预测精度达到7 9 8 、相关系数为o 4 7 ;对丫转角5 一交叉检验预测的 相关系数达到了o 1 8 ,这些结果都是目前最好的预测结果。 4 建立了一个新的包括2 2 0 8 个非冗余蛋白质链的数据库,蛋白质结构分辨率高 于2 5 a ,序列相似性小于4 0 。得到g 【一0 【模体6 7 9 9 个,a p 模体6 7 1 1 个,p 一0 【模体 6 0 7 2 个和1 3 - 1 3 模体8 1 6 3 个,首次将最小离散增量算法用于蛋白质四类简单超二级结 构预测,当序列模式固定长取8 个氨基酸残基,对“8 2 2 型”序列模式3 交叉检验的平 均预测精度达到7 8 ,j a c k - k n i f e 检验的平均预测精度达到7 6 8 ;当序列模式固定长 取1 0 个氨基酸残基,对“1 0 4 1 型”序列模式3 交叉检验的平均预测精度达到8 3 , j a c k - k n i f e 检验的平均预测精度达到7 9 8 。 5 在蛋白质简单超二级结构分类预测、肛发夹预测、p 转角预测及p 转角的预测 工作中,引入了二肽组分信息参数和亲疏水特征信息参数,改善了预测结果。 关键词:局域结构预测,超二级结构模体,p 一发夹,p 一转角,丫一转角,离散增量,打 分矩阵,支持向量机 p r e d i c t i o no ft h e - h a i r p i n s ,( 力一t u r n sa n df o u rk i n d s s i m p l es u o e r - s e c o n d a r ystructuresproteinssimple叁iuper-secondarys t r u c t u r e si n r o t e i n s a b s t r a c t t h ek n o w l e d g eo ft h es n l l c t l l r eo fap r o t e i ni si m p o r t a n tt ou n d e r s t a n di t sf u n c t i o n w i t ht h es u c c e s so fh u m a ng e n o m ep r o j e c t ,aw i d e n i n gg a pa p p e a r sb e t w e e nr a p i d l y i n c r e a s i n gk n o w np r o t e i ns e q u e n c e sa n ds l o wa c c u m u l a t i o no fk n o w np r o t e i ns t r u c t u r e s d e t e r m i n a t i o no fp r o t e i ns t r u c t u r ep u r e l yu s i n ge x p e r i m e n t a la p p r o a c h e si st i m e c o n s u m i n g a n de x p e n s i v e t h u s ,t h et h e o r e t i c a lo rc o m p u t a t i o n a lm e t h o d sf o rp r e d i c t i n gt h es t r u c t u r e s o fp r o t e i n sb e c o m ei n c r e a s i n g l yi m p o r t a n t p r e s e n t l y , t h ed i r e c tp r e d i c t i o no ft h ep r o t e i nt h r e e d i m e n s i o n a l ( 3 d ) s t r u c t u r ef r o m s e q u e n c ei sad i f f i c u l tt a s k b u tl o c a ls t r u c t u r a lm o t i f sa r ew i t hs t r o n gs e q u e n c es i g n a l s ,a n d c o m m o n l yp r e s e n ti nt h e3 ds t r u c t u r e s ,a n dg o v e r n i n gt h es t a b i l i t ya n df o l do fp r o t e i n s t h e r e f o r e ,p r e d i c t i n gl o c a ls t r u c t u r em a yh e l pt os i m p l i f ys t r u c t u r ep r e d i c t i o np r o b l e m ,w h i c h i sak e ys t e po fp r e d i c t i n g3 ds t l l l c t u r e i nt h i sd i s s e r t a t i o n ,w ei n v e s t i g a t e dt h es u p e rs e c o n d a r ys t r u c t u r ep r e d i c t i o no fp r o t e i n s , e s p e c i a l l y1 3 - h a i r p i nm o t i f s i na d d i t i o n ,1 3 - t u r n sa n d7 - t u r n so fs e c o n d a r ys t r u c t u r e si nt h e p r o t e i n sa l s os t u d i e d 1 b a s e do nt h ea l g o r i t h mo ft h el e a s ti n c r e m e n to fd i v e r s i t y ,an e wa l g o r i t h mo ft h e i n c r e m e n to fd i v e r s i t yc o m b i n e dw i t hs u p p o r tv e c t o rm a c h i n e ( i d _ s v m ) i sp r o p o s e d ,t o p r e d i c tt h e1 3 - h a i r p i n si nt h ea r c h d b 4 0 d a t a s e t a n db e t t e rr e s u l t sa r eo b t a i n e d 2 b yu s i n go ft h ec o m p o s i t ev e c t o rw i t hi n c r e m e n to fd i v e r s i t ya n ds c o r i n gv a l u et o e x p r e s st h ei n f o r m a t i o no fs e q u e n c e ,a n di n p u t t i n gt h ei n c r e m e n to fd i v e r s i t ya n ds c o r i n g v a l u et os u p p o r tv e c t o rm a c h i n e ( s v m ) ,s v mc a nf i n dt h eo p t i m i z a t i o nh y p e rp l a n ei n v e c t o rs p a c et oc l a s s i f yt h e i - h a i r p i n sa n dt h en o n p h a i r p i n s an e wa l g o r i t h mo ft h e i n c r e m e n to f d i v e r s i t y a n d s c o r i n g v a l u ec o m b i n e dw i t h s u p p o r tv e c t o r m a c h i n e ( i d _ p c s l s v m ) f o rp r e d i c t i n g1 3 - h a i r p i nm o t i f si nt h ea r c h d b 4 0d a t a s e ta n de v a d a t a s e t ( k u m a ra n d b h a s i n , n u c l e i ca c i d s r e s e a r c h ,2 0 0 5 , 3 3 : 1 5 4 1 5 9 , h t t p :c u b i c b i o c c o l u m b i a e d u e v a i n d e x h t m l ) i sp r o p o s e d a n dh i g h e rp r e d i c t i v es u c c e s s r a t e st h a nt h ep r e v i o u sa l g o r i t h m sa r eo b t a i n e d t h eo v e r a l l a c c u r a c yo fp r e d i c t i o ni s i m p r o v e d4 。a n ds e n s i t i v ef o ri b - h a i r p i ni si n c r e a s e d6 w ea l s oa p p l i e do u rm e t h o dt op r e d i c ts u p e rs e c o n d a r ys t r u c t u r eo ft h ea r c h d b 4 0 d a t a s e t ,a n db e t t e rr e s u l t sa r eo b t a i n e df o rt r a i n i n gs e t5 一f o l dc r o s s v a l i d a t i o na n d i n d e p e n d e n tt e s t i n gs e t 3 t h ei n c r e m e n to f d i v e r s i t y , s c o r i n gv a l u ea n dp r e d i c t i v es e c o n d a r ys t r u c t u r e i n f o r m a t i o nt o g e t h e ra r es e l e c t e da si n p u t t i n gp a r a m e t e r so ft h es v m an e w a l g o r i t h mf o r p r e d i c t i n gp - t u r n si nt h e4 2 6p r o t e i n sa n d ) , - t u r n si nt h e3 2 0p r o t e i n si sp r o p o s e d t h e o v e r a l lp r e d i c t i o n a c c u r a c y a n dm a t t h e w s sc o r r e l a t i o n c o e f f i c i e n t ( m c c ) i n7 - f o l d c r o s s - v a l i d a t i o na r e7 9 8 a n do 4 7 ,r e s p e c t i v e l y ,f o rt h ep - t u r n s a n dt h em c ci n5 - f o l d c r o s s - v a l i d a t i o ni so 18f o rt h et - t u r n s 4 ad a t a b a s ei sc o n s t r u c t e d w h i c hc o n t a i n e d2 2 0 8 p r o t e i nc h a i n sw i t hh i g h e r r e s o l u t i o nt h a n2 5 ka n dl o w e ri d e n t i t yt h a n4 0 t h e yc o n t a i n6 7 9 90 【一0 【,6 711a b ,6 0 7 2 1 3 - aa n d816 3p pm o t i f s b a s e do nt h ed i v e r s i t yi n c r e m e n ta l g o r i t h m ,t h ef o u rt y p e s s u p e r - s e c o n d a r ys t r u c t u r e sa r ep r e d i c t e db yt h e3 - c r o s s v a l i d a t i o nt e s t a n dr e s u l t ss h o wt h a t a v e r a g ep r e d i c t i o na c c u r a c ya r e7 8 i nt h e3 - c r o s s v a l i d a t i o nt e s ta n d7 6 7 i nj a c k - k n i f e t e s tf o rt h e “8 2 2 t y p e f o rf i x e d l e n g t hp a t t e r nw i t h8a m i n oa c i d s i fu s i n go ft h e “10 41t y p e f o rf i x e d l e n g t hp a t t e r nw i t h1 0a m i n oa c i d s ,p r e d i c t i o na c c u r a c ya r e8 3 a n d7 9 8 r e s p e c t i v e l y 5 b yu s i n gt h ei n f o r m a t i o no ft h ed i p e p t i d ec o m p o s i t i o na n da m i n oa c i dh y d r o p a t h y d i s t r i b u t i o n ,t h ep r e d i c t i v er e s u l t sf o rs u p e rs e c o n d a r ys t r u c t u r e s ,p h a i r p i n s 、1 3 - t u m sa n d t - t u r n sa n di si m p r o v e d k e y w o r d s :l o c a ls t r u c t u r a lp r e d i c t i o n ,s u p e r - s e c o n d a r ys t r u c t u r em o t i f , 1 3 - h a i r p i n ,b - t u r n , 1 , - t u m ,i n c r e m e n to fd i v e r s i t y ,s c o r i n gm a t r i x ,s u p p o r tv e c t o rm a c h i n e i v 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已 经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内蓥直太堂及 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位论文作者签名:d 蝉指导教师签名:纽 日 期:丛惮日期:知牡 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全 部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索, 也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期 间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古 大学就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:幽盈翌篓 指导教师签名: 日 期:玉芝z1 2 :互 日 期2 i 蛋 j 质的伊发夹、声( y ) 转角及四类简单超- 二级结构预测 1 1 研究课题的背景和意义 第一章绪论 随着人类基因组草图的完成,科学家们提出了后基因组计划,生命科学的研究也由基因 组时代进入后基因组时代( p o s t 。g e n o m ee r a ) ,生命科学的中心任务就是阐明基因组所表达的 真正执行生命活动的全部蛋白质的表达规律和生物功能,研究细胞乃至生物体内所有蛋白质 及其动态变化的规律,包括蛋白质的表达水平,翻译后的修饰,蛋白质与蛋白质的相互作用 等蛋白质组学( p r o t e o m i c s ) 【l 2 】的研究内容。 随着人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 的实施,核酸、蛋白质的序列和 结构数据呈指数增长。面对巨大而复杂的数据,运用计算机对数据进行管理、分析是很自然 的。因此,生物信息学也应运而生【3 ,4 】。 蛋白质和核酸是所有生命活动重要的物质基础,也是生物信息学研究的中心。脱氧核糖 核酸( d n a ) 是遗传信息的载体,但是遗传信息的复制、转录和表达则要依靠各种蛋白质才 能完成。蛋白质( p r o t e i n ) 是一类重要的生物大分子,一切生命活动无不与蛋白质有关,如 生化反应的催化、营养物质的输运、信号的识别与传递等,蛋白质分子在生物体内执行着各 项重要任务5 。蛋白质分子是生命活动的主要承担者,也是生命功能的主要体现者。研究表 明,蛋白质的功能是由其结构决定的【7 1 。因此,识别蛋白质空间结构有助于认识蛋白质功能, 研究蛋白质的结构是研究蛋白质功能的基础,要了解和掌握蛋白质的功能必须首先分析蛋白 质的结构【8 1 。 尽管通过实验手段获得结构信息是比较直接的方法 9 1 ,但实验方法测定一个蛋白质分子 结构不仅需要花相当长的时间、耗费大量的经费,而且在技术上也受到相当大的限制,因而 蛋白质分子空间结构测定的速度远远落后于其氨基酸序列测定的速度。如目前已知氨基酸序 列的蛋白质分子有4 7 5 万多个( 取自h t t p :w w w e b i a c u k s w i s s p r o t s p t r _ _ s t a t s i n d e x h t m l ; u n i p r o t k b 厂r r e m b lr e l e a s e3 7 211 - s e p 2 0 0 7 ) ,而已知空间结构的蛋白质只有4 5 0 0 0 多个( 取 自h t t p :w w w r c s b o r g p d b ;1 1 s e p 一2 0 0 7 ) 。要想减小这一差距,在理论上寻找合适的算法 预测其空间结构变得更加紧迫和重要,这一工作已成为生物信息学的重要研究课题。 内蒙古人学博上学位论文 一般说来,结构预测是指依据蛋白序列的信息来预测蛋白质的三维结构。然而,直接进 行结构预测还很困难,这就需要寻找结构预测的中间步骤,如蛋白质的二级结构预测及超二 级结构预测等,这些局域结构预测对三级结构预测是十分有益的,可以简化结构预测问题。 局域结构包括蛋白质的二级结构、结构模体( 如0 【发夹、p 一发夹及c t p 模体) 和结构域等。 这些局域结构带有很强的序列信号,且在三级结构中广泛存在、重复出现,对蛋白质的折叠 和稳定性起非常重要的作用【i o 】。目前,一些局域结构数据库也都建立起来了,像蛋白质二级 结构构象参数数据库d s s p 、超二级结构模体分类数据库a r c h d b 等,这些数据库的建立也充 分说明学者们开始重视对局域结构的研究,并且为基于序列信息预测局域结构提供了有利条 件,蛋白质的局域结构预测是蛋白质结构预测的基础。 1 2 蛋白质局域结构简介 蛋白质分子结构的一个显著特征是其结构的层次性。一般用一级结构、二级结构、超二 级结构、结构域、三级结构和四级结构表示蛋白质分子的不同结构层次。即下面我们主要介 绍与本文的局域结构预测相关的结构,如部分规n - - 级结构中的转角、简单超二级结构及其 特殊模体d 一发夹等。 1 2 1 部分规n - 级结构中的转角( t u r n ) 蛋白质的二级结构指多肽链骨架的局部空间结构,不考虑侧链的构象及整个肽链的空间 排列,它们是完整肽链构象( 三级结构) 的结构单元,是蛋白质复杂的空间构象的基础,故它 们也可称为构象单元。这些局部结构主要是靠氢键结合起来的,其他的作用力也有一定的贡 献,例如范德华力等。二级结构又分为规则的二级结构、部分规则的二级结构和不规则的二 级结构。规则的二级结构主要是0 【螺旋和d 折叠片,一般在序列中是重复出现的模体元素。 规则的二级结构中,不论是a 一螺旋还是b 一折叠组成的片层结构中,都存在着较多的氢键, 致使规则的二级结构都有相当的刚性。如果一段肽段中,不存在氢键或其它的相互作用,则 肽段中的各个残基间有更大的自由度,没有刚性,从而表现出极大的柔性,这类肽段没有规 则性,是不规则的二级结构。部分规则的二级结构的特点,介于前两者之间,即“刚柔兼备 。 如果蛋白质的肽链中只有规则的二级结构和不规则的二级结构,就不可能有如此多样化的蛋 白质的立体结构,部分规则的二级结构对球状蛋白质构象的形成是非常重要的。部分规则的 二级结构有转角和环形两类。转角一般在序列中是不重复出现的模体元素【1 l ,1 2 1 。 2 蛋白质的伊发夹、声( y ) 转角及网类简单超二级结构预测 转角定义为帮助多肽链改变方向的结构,形成转角的连续残基数不超过6 个。根据包含的 连续残基数又可以分为:6 一转角、丫转角、伊转角、a 转角和万一转角,它们分别包括2 、3 、4 、 5 、6 个残基 1 2 1 。 转角中最小的是6 一转角,它只包含2 个连续的氨基酸残基,一个8 转角的内部骨架的第f 个残基的羰基c o ( f ) 和第f + 1 个残基的氨基n h ( “1 ) 之间形成氢键1 4 】。 转角中第二小的转角是y 转角,它的含量在转角中居第二位,它包含3 个连续的氨基酸残 基,并在第f 个残基的羰基c o ( o 和第i + 2 个残基的氨基n h ( i + 2 ) 之间形成氢键。丫一转角有两种类 型,且r l c l a s s i c 型和i n v e r s e 型1 5 1 。 图1 1 为蛋白质2 d r i o ? 7 转角示意图,来自p r o m o t 正识别软件,表1 1 为图1 1 对应的y 转角相关信息。表中的( p 和、l ,表示二面角( 单位为度) 。 ij 0 毛 1 0 3 一1 0 5 h i , r lrsn 图1 1 蛋白质2 d r i 中7 - 转角的示意图 f i g1 1t h et - t u r ns k e t c ho ft h ep r o t e i n2 d r i 表1 1 蛋白质2 d r i 中的丫- 转角信息 t a b l e1 1t h ei n f o r m a t i o nf o rt - t u r n so ft h ep r o t e i n2 d r i r e s i d u e ( “1 ) i t o i + 2 n u m b e r s s e q u e n c e t u r nt y p e d i s t a n c e ( a ) 巾 、i , 8 8 9 0l d rc l a s s i e 7 5 5- 4 3 5 5 7 1 0 3 1 0 5s d ni n v e r s e 8 2 29 2 3 5 6 内蒙古人学博l 学位论文 p 转角是v e n k a t a c h a l a m 1 7 】提出来的,一个p 转角包含4 个连续的氨基酸残基,它是最常 见的、数量最大的转角。它的残基不属于a 一螺旋构象,并且在第i 个残基的羰基c o ( i ) 和第i + 3 个残基的氨基n h ( i + 3 ) 之间形成稳定的氢键,且第i 个残基0 【碳原子c a ( i ) 和第i + 3 个残基c 【碳原子 c a ( “3 ) 之间的距离小于7 a t l 8 ,1 9 1 。根据c a ( f ) 和c a ( f + 3 ) 之间的骨架二面角,b 一转角可以分成9 种 类型【2 0 :i 、i 、i v 、v i a l 、v i a 2 、v i b 、v i i i ( 介绍略) 。图1 2 为蛋白质2 d r i 中b 转角示意图,来1 1 1 p r o m o t i f 识别软件【1 6 1 ,表1 2 为图1 2 对应的p 转角相关信息。 l t6 8ans 5 7an p 5 8a s 图1 2 蛋白质2 d r i 中的p 一转角的示意图 f i g1 2t h e - t u r ns k e t c ho ft h ep r o t e i n2 d r i 表1 2 蛋白质2 d r i 邮一转角信息 t a b l e1 2t h ei n f o r m a t i o nf o rp t u r n so ft h ep r o t e i n2 d r i r e s i d u e t u r n ( “1 ) ( i + 2 ) i t o i + 2 n u m b e r s s e q u e n c e d i s t a n c e ( a ) t y p e 巾v由 、i , 1 m 1 3 田l n n 1 0 3 5o 79 3 85 7 26 8 3 9 - 4 2 s q n n i5 0 94 2 36 0 61 5 25 7 6 5 6 8m s 7 6 42 7 11 5 3 61 2 5 95 8 一个仅转角包含5 个连续的氨基酸残基,它的残基不属于q 螺旋构象,r e a ( d 和c a ( f “) 之 间的距离小于7 a 【2 1 捌。转角中最大的是疳转角,它包含6 个连续的氨基酸残基【1 3 , 2 3 ,且c “j ) 和c a ( “5 ) 之间形成稳定的氢键2 4 1 。 4 堂皇垦塑生垄墨:生! :矍苎墨望茎型坚望三堡茎塑鉴型 可以将所有转角统一到一个定义中,以h b o n d ( ,f + n ) 表示为第i 个残基的羰基c o ( i ) 与 l + n 个残基的氨基n h ( i + h ) 形成的氢键,壤示氨基酸在蛋白质链中的位置,n + l 表示转角 表示氢键数m i ,定义式见公式( 卜1 ) a o r2 一t u r n 7 一o r3 - t u r n 口一0 1 4 - t u r n a o r5 - t u r n 7 r o r6 一t u r n 1 f 月= 1 ,f = i f n = 2 f = i f n = 3 f = i f n = 4 f = i f n = 5 ,f = 2 2 简单超二级结构( s u p e r s e c o n d a r ys t r u c t u r e ) 在蛋白质结构中,常常发现两个或几个二级结构单元被连接多肽连接起来,进一步组成 有特殊几何排列的局域空间结构,人们把这些局域空间结构称为超二级结构或模体( m o t i f ) 结构【矧。连接d 一螺旋和b - 折叠的多肽,通常称为l o o p 。根据l o o p 两侧连接的规则二级结构类 型,简单的超二级结构一般有四类,即8 一l o o p b ( 见图l3 ( a ) ) 、0l o o p 砒a - l o o p - b ( 见图 i3 ( b ) ) 和q l o o p - ( 见图i3 ( c ) ) 。 蘑意仝扎 ( b )( c ) 图1 3 筒单的蛋白质超二级结构模体 f i 9 13 t h es i m p l e p r o t e i ns u p e r s e c o o d a r ys t r u c t u r e m o t i f s d,、l 叫 +,d n0bh 如 自蒙古 学* 1 学m 卫 23b 一发夹模体( p - h a i r p i n ) 在超二级结构p l o o p - b 模体中,如果两个相邻的反平行的b - 折叠片问存在一个或多个氢 键,则称之为p 发央( d h a i r p i n ) ,否则认为是非b 发火蛳。如图14 所示,图为免疫球蛋白1 f n a 中,4 1 1 3 哳叠片形成的3 个dl o o p 1 3 模体,其中1 和2 及3 和4 之间形成的d l o o p d 模体都含有氢 键,是b - 发夹;而2 和3 之间形成的0 一l o o p b 模体不含氢键,是非p - 发夹。 围1 a 免疫球蛋白i f n a 中p 发夹和非8 发夹的示意图( 取自文献 2 胡) f i g1 4 n l u s r a t i o no f 争l l a i r p i d s a n dn o b 一 h 4 l r p h s f o r i m m u n o g l o b u l i n1 f n a ( f r o m 2 6 1 ) 1 3 国内外研究现状 a n f i n s e n 原理是3 0 多年来生物学界研究蛋白质结构的主要思想口l 。随着分子生物学的发 展,尽管发现了一些不同序列具有相同或相似结构的蛋白质的例子,而且也发现结构的保守 性要强于序列的保守性,但a n f i n s e n 原理仍然是目前国内外关于蛋白质结构理论研究的基本 思想和出笈点。许多学者尤其是生物信息学家在基于计算的蛋白质结构预测方面进行了广泛 的研究,取得了一系列有意义的研究成果瞄6 2 删。这里主要介绍( 1 ) 蛋白质部分规则二级结 构转角的预测和( 2 ) 蛋白质超二级结构预测进展。 131 蛋白质部分规则二级结构转角的预测 蛋白质二级结构预测通常被认为是蛋白质结构预测的第一步,始于上个世纪6 0 年代中期。 目前对规则二级结构的预测方法高达几十种1 ”。统计分析算法删和各种机器学习算 法,如最近邻居法 蜊,神经网络唧郇胛1 ,隐m a r k o v 模型【郴1 1 以及支持向量机o ”5 1 等都在 蛋白质二级结构预测中发挥了重要作用。而且为了进一步提高二级结构预测率,人们还使用 蛋白质的卢发夹、声( y ) 一转角及p q 类简单超二级结构预测 混合模型算法对二级结构进行预测【4 3 , 5 6 , 5 7 ,如最近邻居法结合神经网络的混合模型方法,使 得规则二级结构的预测率接近8 0 f 舳, i i i - 1 1 2 。 在规则二级结构的预测中,除了预测规贝, j j - - 级结构a 螺旋和b 折叠外,其它的二级结构 都归为一类统称c o i l ,因而不能给出部分规则二级结构的详细预测信息,如转角中的1 3 一转角、 y 转角、7 【一转角及a 一转角等预测信息1 12 1 。事实上,转角在蛋白质的折叠稳定性1 9 ,5 踟、识别5 9 ,删 及结构装备【6 1 】等方面起着重要的作用。首先,如果没有转角,那么蛋白质多肽链就不能折叠 成紧密的球形结构;其次,转角常位于蛋白质的表面【1 9 1 ,因此它参与蛋白质分子受体之间的 相互作用过程;再次,转角可以为新药分子设计提供模板信息,如麻药、杀虫剂和抗原等。 因此,转角的预测与a 螺旋和p 一折叠的预测占有同等重要的地位。 近年来,人们对b 一转角作了一些预测工作2 0 ,3 0 ,3 1 ,6 9 。7 6 ,8 3 ,洲,有的是基于位点倾向经验预测, 也有机器记忆模型预测。2 0 0 2 年k a u r 和r a 曲a v a 【7 7 1 对p 一转角的预测是一个典型的工作,他们使 用统一的评价标准和数据集( 来自g u m p r a s a d 和r a j k u m a r 等【8 4 】构建的4 2 6 个蛋白质) ,对不同 的预测方法像c h o u - f a s m a n 方法3 0 1 、1 - 4 和2 3 相关模型、序列连结模型6 9 1 、和g o r b t u r n ( v 3 0 ) 3 3 , t m 等进行了重新计算,并i ! l l t , 较了这些方法的预测效果。此外,还给出t b t p r e d t 7 8 】 预测方法。 用c h o u _ f a s m a n 方法预测p 转角【3 0 】,与预测0 【一螺旋、p 一折叠一样,先计算1 3 转角的每一个 残基出现的概率和形成二级结构的构象参数,通过构象参数值的大小反映该种残基出现在某 种构象中的倾向性,根据残基的倾向性因子提出p 一转角预测的经验规则,用于未知蛋白质结 构的d 一转角预测;g o r b t u r n 方法也是使用了预测a 一螺旋、d 一折叠的相同的方法对1 3 转角进 行了预钡l j l 3 3 , t m ,不仅考虑了被预测位置本身的氨基酸残基,而且考虑了相邻残基对该位置构 象的影响,统计每个属于p 转角的氨基酸以及其两旁氨基酸出现的频率,建立打分矩阵,对 滑动窗口片段打分,以判断其中心氨基酸所属的结构。 在1 4 和2 3 相关模型中7 0 】,将第一和第四个残基及第二和第三个残基的耦合效果用于1 3 一转 角的预测,无论是对训练集还是对检验集都得到了较高的预测精度,充分说明在折叠过程中 第一和第四个残基及第二和第三个残基之间的相关性对p 一转角的形成的重要作用;序列连结 模型【6 9 】是基于马尔可夫链( m a r k o vc h a i n ) 理论,考虑了整条链的序列相关效果而得到的预 测,也是一种很好的预测方法;b t p r e d 是k a u r s f l r a g h a v a 在2 0 0 2 年的工作中,发展- j s h e p h e r d 等【7 8 】使用的神经网络的方法,对蛋白质中的1 3 一转角及其类型进行预测的方法。k a u r 和r a g h a v a 在2 0 0 3 年的工作中,进一步改善了神经网络方法的输入信息,以多序列联配替代单氨基酸序 列,用于预测蛋白质中的1 3 转角,使相关系数达到o 4 3 ,预测精度达到7 5 5 ,称为b e t a t p r e d 2 7 内蒙古人学博 :- q - :位论文 预测算法7 9 1 。 此外,在2 0 0 2 年c a i 等8 0 及l i n 等8 1 1 分别使用支持向量机和马尔可夫链理论预测了b 一转角, 这些预测都得到了有意义的结果。最值得一提的是2 0 0 5 年z h a n g 等【8 2 1 使用支持向量机对d 转角 进行的预测,他们使用s v m 的算法,以多联配和预测的二级结构信息作为输入参数,预测的 相关系数达到了0 4 5 ,预测精度达至1 j 7 7 3 。2 0 0 5 年f u c h s 等使用多联配和倾向因子相结合对p 转角进行预测,对4 2 6 个蛋白质的研究结果是相关系数为0 4 2 ,预测精度达到7 4 8 ,虽然这 个结果比不i - z h a n g 等8 2 1 预测结果,但在他们的工作中扩大了原有的数据集,给出了分别包 括5 4 7 个和8 2 3 个蛋白质的大数据集。 与p 转角的预测相比,对丫转角的预测工作较少,2 0 0 3 年g u m p r a s a d 等使用马尔可夫链理 论 8 4 , s 6 1 , 及2 0 0 5 年p h a m 等8 7 1 使用s v m 算法对y 转角预测进行了一些有意义的研究。但只有2 0 0 3 年k a u r 和r a g h a v a t 8 5 1 专门对丫转角进行了预测,在他们的工作中使用了预测p 一转角的方法,包 括序列连结模型、g o r 方法及神经网络方法等,丫转角预测的最好效果是相关系数达到o 1 7 。 近年来,也有一些工作研究晓转角和7 c 转角的预测。1 9 8 8 年r a m a s h n a n 和n a t a r a i s s l 用能 量最小化研究了a 转角,随后c h o u 。kc d , 组使用序列连结模型、基于马尔可夫链理论及s v m 算法预测了伍转角 2 1 , s 9 1 :在2 0 0 4 年k a u r 弄f i r a g h a v a t 9 0 1 使用m 呵n 方法也对0 【转角进行了预测,而 且又使用多序列联配信息进一步改善了预测效果;2 0 0 6 年w a n g 等【9 l 】使用s v m 算法预测了a 一 转角,由此得到了a 一转角最好的预测结果。然而对兀转角的预测只有w a n g 等在2 0 0 6 年首次对兀 转角进行了预测,使用的方法仍然是s v m 算法【9 2 1 。 在我们的论文中分别将矩阵打分的方法和最小离散增量的计算方法引入d 转角和7 一转角 的预测研究中,这些算法在其它预测工作中获得成功。如矩阵打分的方法在基因的转录因子 结合位点预测方面取得很大成就9 3 一0 2 1 ,最小离散增量的计算方法在蛋白质结构类预测、蛋白 质亚细胞定位等方面都获得成功n 0 3 m 0 】。然后,我们使用了一种新的组合算法,即将离散增 量、打分值和预测的二级结构信息共同输入支持向量机,得到了较好的预测结果,此方法的 预测效果是目前为止最好的。 1 3 2 蛋白质超二级结构预测进展 尽管规则二级结构预测已经达到了较高的预测率,但那些混合方法还仅仅局限于小的蛋 白质结构预测,因为大的蛋白质结构预测会受到严重的计算量限制1 1 3 - 1 2 0 ,使用预测的二级 结构直接预测三级结构只能达到4 0 左右的准确率她1 2 1 1 ,说明一个新的折叠是不能直接使用 8 蛋白质的伊发夹、卢o ) 一转角及四类简单超二级结构顶测 这些方法准确预测的 5 9 , 6 0 , 1 2 1 , 1 2 2 】。超二级结构是二级结构单元的简单排列形成的局域结构1 2 3 1 , 关键是它们频繁的出现在折叠中n2 4 1 ,因此识别这些二级结构及其相关的排列1 2 5 l 完全可以简 化结构预测问题6 1 ,1 2 6 ,1 2 8 1 。 超二级结构预测是一个新兴的研究领域,超二级结构的预测主要分两种:一种是在蛋白 质序列中预测不同的超二级结构模体数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论