(理论物理专业论文)信息论方法预测信号肽.pdf_第1页
(理论物理专业论文)信息论方法预测信号肽.pdf_第2页
(理论物理专业论文)信息论方法预测信号肽.pdf_第3页
(理论物理专业论文)信息论方法预测信号肽.pdf_第4页
(理论物理专业论文)信息论方法预测信号肽.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 本论文的主要目的在于介绍蛋白质信号肽的特征和性质,并在此基础上利用 数学方法对信号肽和信号肽的剪切位点进行讨论和预测。文章中介绍了国际上公 认为比较便捷而且准确率比较高的几种方法,并在此基础上提出信息论方法在蛋 白质信号肽方面的应用。 本论文使用的数据库是瑞典c b s ( c e n t e rf o rb i o l o g i c a ls e q u e n c ea n a l y s i s ) 的n i e l s e n 等根据s w i s s p o r tv e r s i o n2 9 构建的二次数据库,所有的数据库都 进行了同源性消减:此数据库中将包含1 3 8 3 个非同源信号肽序列和5 1 9 个成熟 蛋白序列。在此基础上,对n 端信号肽进行了统计学分析,以充分说明真核生物 以及原核生物( 包括革兰氏阳性菌和革兰氏阴性菌) 的信号肽特征,并验证( 一1 ,一3 ) 原则的准确性和普适性。 在利用信息论方法讨论蛋白质信号肽的性质和特征的时候,首先利用自信息 量概念,对数据库中的信号肽和成熟蛋白质进行处理,计算得出两者的自信息量 值进行比较,发现成熟蛋白平均的信息量随窗口变化波动不大,而且整体高于信 号肽的信息量;信号肽的平均信息量整体较低,且随窗口的变化有剧烈地波动, 这也暗示着我们可以利用这种思路对信号肽的剪切位点进行预测。然后,利用信 息熵的概念,将信号肽的每一个位置看作一个单独的信源,计算出各个位置的熵 值,发现对真核生物来说,其信息熵在1 和- 3 位只有两个明显的谷,表明相对 与邻近位置,1 及3 更具特征,而一1 2 8 位置又对应一个极值区,这说明h 区相 对于c 区和n 区更具特征。对于革兰式阴性菌及革兰式阳性菌来说,它们在1 位置与3 位置的特征性更强,这说明,在此数据库下,原核生物比真核生物更符 合( 3 ,1 ) 规则。而在h 区则没有明显的谷,也说明原核生物信号肽h 区特征较小。 最后,引入简单信息矩阵的概念,并用来预测和检验蛋白质信号肽剪切位点。对 于它检验,真核生物、革兰氏阳性菌和革兰氏阴性菌的预测准确性分别达到 6 0 1 ,6 9 2 ,8 1 2 。简单信息矩阵对原核生物的预测能力要好于权重矩阵方 法,但对真核生物的预测能力却略逊于权重矩阵方法。 关键词:信号肽剪切位点权重矩阵( 一1 ,一3 ) 规则信息论信息熵简单信息 矩阵 t h em a i np u r p o s eo ft h i sp a p e ri st oi n t r o d u c et h ec h a r a c t e r so fp r o t e i ns i g n a l p e p t i d e ,t h e nd i s c u s sa n dt r yt oi d e n t i f yt h es i g n a lp e p t i d ea n di t sc l e a v a g es i t ew i t h m a t h e s o m em e t h o d so f t h i sa r ea l s or e f e r e d ,w h i c ha r et h a u g h tt ob ee a s i e ra n dm o r e c o r r e c t , t h e no u rm e t h o do fi n f o r m a t i o nt h e o r yi si n t r o d u c e d t h ed a t a s e to ft h i sp a p e ri sf r o mc b s ( c e n t e rf o rb i o l o g i c a ls e q u e n c ea n a l y s i s ) o fs w e d e n , a n dw a sc o n s t r u c t e db yd rn i e l s e n e ta 1 b a s e do ns w i s s p o r tv e r s i o n 2 9 t h i sd a t a s e tw a so n c eu s e dt od e v e l o p ef lm e t h o df o rp r e d i c t i o nf o rs i g n a lp e p t i d e s a n dt h e i rc l e a v a g es i t e s a l lt h ed a t as e t sw e r eh o m o l o g yr e d u c e ds ot h a tn ot w o s e q u e n c e sw e r eh o m o l o g o u sw i t h i nas e t ,w h i c hc o n t a i n s1 3 8 3n o n h o m o l o g o u ss i g n a l s e q u e n c e sa n d5 1 9n o n b o m o l o g o u sm a t u r ep r o t e i ns e q u e n c e s t h ec h a r a c t e ro ft h e s i g n a lp e p t i d e ,b o t he u k a r y o t i ca n dp r o k a r y o t i c ( i n c l u d i n gg r a m + a n dg r a m 一) ,i s d e s c r i b e di nt h i sp a p e r , a n dt h ec o n c l u s i o na p p r o v e st h e ( - 3 ,- 1 ) r u l ea g a i n t h e nw eu s ei n f o r m a t i o nt h e o r yt od i s s c u s st l l ec h a r a c t e r so fp r o t e i ns i g n a l p e p t i d ea n di t sc l e a v a g es i t e f i r s t ,a v e r a g ei n f o r m a t i o nr a t ei sa p p l i e dt om a t u r e p r o t e i na n ds i g n a lp e p f i d e ,a n dw ed r a wac o n c l u s i o nt h a tt h er a t eo fm a t u r ep r o t e i n v a r i e sw i t ht h ec h a n g e so fw i n d o ww i d t hm u c hl e s st h a nt h a to fs i g n a lp e p t i d e ,w h i c h i n d i c a t e st h a tw ec o u l du s et h i st oi d e n t i f yt h ec l e a v a g es i t eo fs i g n a tp e p t i d e s e c o n d , w eu s et h ec o n c e p f i o no fi n f o r m a t i o ne n t r o p y e v e r yp o s i t i o no fs i g n a lp e p t i d ei s l o o k e da sas o l es o u r c eo fi n f o r m a t i o na n dh a si t so w ne n t r o p y :f o re u k a r y o t e s ,t h e r e a r et w oo b v i o u sc a n y o n sa tt h ep o s i t i o n so f - 1a n d 一3 ,w h i c hi n d i c a t e st h a tt h e s et w o p o s i t i o n sa r em o r es p e c i a l ,a n dt h er e g i o no f 1 2 - 8c o r r e s p o n d st oae x t r e m u m , w h i c hi n d i c a t e st h a th - r e g i o nh a sm o r es p e c i a lc h a r a c t e r st h a nc - a n dn - r e g i o n ; w h e r e a sf o rg m l l l + a n dg r a m b a c t e r i a , a tt h ep o s i t i o n so f - 1a n d - 3 t h ec a n y o n sa r e d e e p e r , w h i c ht e l l su st h a ts i g n a lp e p f i d e so fg r a m + a n dg r a m b a c t e r i ao b e y ( - i , - 3 ) r u l em o r e a tl a s t ,s i m p l i f i e di n f o r m a t i o n m a t r i xi si n t r o d u c e da n du s e dt oi d e n t i 旬t h e c l e a v a g e s i t eo f s i g n a lp e p t i d e u n d e r t h et e s tm e t h o do fl e a v e - o n e o u t c r o s s v a l i d a t i o n ,t h es u c c e s s f u lr a t ec o u l dr e a c h6 0 1 ,6 9 2 ,8 1 2 f o re u k a r y o t e s , g t 锄+ a n dg r a m - b a c t e r i ar e s p e c t i v e l y k e yw o r d s :s i g n a lp e p t i d e ,c l e a v a g es i t e ,w e i g h t m a t r i x ,( - 1 , - 3 ) r u l e , i n f o r m a t i o nt h e o r y , i n f o r m a t i o ne n t r o p y , s i m p l i f i e di n f o r m a t i o n - m a t r i x 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨生盘茎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:勿知 签字日期:移j年f 月,2 日 学位论文版权使用授权书 本学位论文作者完全了鳃盘查盘茎有关保留、使用学位论文的规定。 特授权鑫鲞盘茔j 玎以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:庐1 瓤 签字日期:d 年 1 月 i1 日 导师签名: 签字日期:臼多年f 月l 】日 第一章引言 1 1 蛋白质及主要功能 第一章引言 十九世纪中叶,荷兰生理学家qj m u l d e r 从动物组织和植物体液中提取出 一种基同的物质,并认为生命的存在很可能与这种物质有关。1 8 8 3 年在瑞典化 学家b e r z e l i u s 提议下,m u l d e r 把这种物质命名为蛋白质( p r o t e i n ) 。p r o t e i n 来自 希腊语兀。,意指“最重要的”,“最原始的”,“第一的”。 实验证明,蛋白质与生命现象是密切相关的。蛋白质是生物体内含量最丰富, 功能最复杂的生物大分子,它参与了几乎所有的生命活动和过程,是生命的主要 体现者。蛋白质的元素组成主要是c 、h 、o 、n 、s ,部分蛋白质还含有p 、f e 、 c u 、z n 等为微量元素。 蛋白质按照其组分分类,主要有三种:一是根据蛋白质分子的形状,分为球 状蛋白( g l o b u l a r p r o t e i n ) 纤维蛋白( f i b r o u s p r o t e i n ) ;二是根据蛋白质组成的繁 筒,分为单纯蛋白( s i m p l e p r o t e i n ) 和结合蛋白( c o n j u g a t e d p r o t e i n ) 三是根据 蛋白质的溶解性质,分为清蛋白( a l b u m i n s ) 、精蛋白( a l b u m i n s ) 等 1 】。 蛋白质具有多种生物学功能,它是生命现象的具体体现者和生物功能的具体 执行者【2 】。它的主要功能概括如下: a ) 结构蛋白参与细胞和组织的构建,如微管蛋白,角蛋白等。 b ) 酶是以蛋白质为主要成分的生物催化剂,生物体内的代谢范敬几乎都是 在酶的催化下进行。 c ) d ) e ) f ) 曲 h ) 某些动物的激素是蛋白质,如胰岛素,生长素等,在代谢调节中具有十 分重要的作用。 收缩蛋白,如肌肉中的肌蛋白。 高等动物的抗体,补体,干扰素等蛋白质具有防御功能。 某些蛋白质具有运输功能,如血红蛋白和肌红蛋白运输氧,脂蛋白运输 脂类。 激素和神经递质的受体蛋白有接受和传递信息的功能。 染色体蛋白,阻遏蛋白,转录因子等参与基因表达的控制。 笫章引言 1 2 蛋白质的组成 1 2 1 氨基酸 迄今为止,在各种生物体内已发现1 8 0 多种氨基酸( a m i n oa c i d ) 其中参与 组成蛋白质的2 0 种基本氨基酸称为蛋白质氨基酸或标准氨基酸。尽管氨基酸的 种类有限,但由于氨基酸在蛋白质中的连接次序及氨基酸数目的不同,可以组装 成几乎无限的不同种类的蛋白质,2 0 种氨基酸按极性分类见表1 1 。 非极性氨基酸残不带电荷的极性氨带正电荷的氨基带负电荷的氨基 基基酸残基酸残基酸残基 丙氨酸( a l a ) a丝氨酸( s e t ) s赖氨酸( l y s ) k 天冬氨酸( a s p ) 颉氨酸( v a l ) v苏氨酸( r 1 1 1 r ) t精氨酸c a r g ) ra 亮氨酸( l e u ) l酪氨酸( t y r ) y组氨酸( h i s ) h谷氨酸( g l u ) e 异亮氨酸( i l e ) i半胱氨酸( c y s c ) 苯丙氨酸( p h e ) f天冬酰胺( a s n ) n 色氨酸( t r p ) w谷酰胺( g l n ) q 甲硫氨酸( m e t ) m甘氨酸( g l y ) o 脯氨酸( p r o ) p 表1 - i ;2 0 种氨基馥 2 0 种氨基酸都被称为口一氨基酸,因为瑾氨基酸分子中的盯碳原子( 分子中 的第二个碳) 结合着一个氨基和一个酸性的羧基,此外,口一碳上还结合着一个h 原子和一个侧链基团( 用r 表示) 。每一种氨基酸的r 都是不同的,侧链上的碳 原子按字母命名为f l , r ,j ,f 碳原子,分别至第三,四,五,六位碳。 3 】 oo 心 乓 c i i 珏o b o n d l i h 。齄c o l t t m l n 图1 - 1 :氨基酸结构图 第一章引言 1 2 2 蛋白质及多肽 一个氨基酸的掰一羧基与另一个氨基酸的口氨基缩合,通过形成的酰胺键将 两个氨基酸连接在一起,这个酰胺键称为肽键( p e p t i d e b o n d ) ( 图1 - 2 ) 。氨基酸 缩合生成的产物称为肽( p e p t i d e ) 。蛋白质就是氨基酸通过肽键连接的聚合物。 由较少的氨基酸连接的聚合物成为多肽,因为它一般不具备使蛋白质折叠成具有 生物学功能的形状。 1 3 l - 3 酞i i 图l - 2 :肚键结构图 h l 核糖体( r i b o s o m e ) 是蛋白质的合成场所。蛋白质合成需要信使r n a ( m r n a ) ,转移r n a ( t r n a ) ,核糖体r n a ( r r n a ) 共同作用经过转录 ( t m m c r i p t i o n ) 和翻译( t r a n s l 撕o n ) 形成肽链和蛋白【3 , 5 。 r n a 的生物合成在细胞核中进行,以d n a 单链为模板,按照碱基配对的原 则,转录出m r n a ,t r n a ,r r n a 三种r n a 分子。在合成蛋白质的过程中,氨 基酸残基的排列次序由m r n a 中的核苷酸的排列次序来决定。由核苷酸的表达 转化为氨基酸的表达,因此这个过程称为弼译。 转化为氨基酸的表达,因此这个过程称为翻译。 室,黑m7溉 、 n 一、 、 、7 c 9 0 s d 叫 拈 一 陆 第一章引言 1 3 2 蛋白质寻靶和信号肽 蛋白质在经过转录翻译即般所说的合成( s y n t h e s i s ) 过程之后,一些多肽 并不是最终产物,即不是具有生物活性的成熟多肽或蛋白质,还需要多种形式的 修饰。例如进入内质网和高尔基体进行糖基化( g l y c o s y l a t i o n ) ;还有一些蛋白质 需要转运和定位在细胞中的特定位置。合成后的蛋白质转移到不同亚细胞区或分 泌到细胞外的过程称为蛋白质寻靶( p r o t e i n t a r g e t i n g ) 3 , 5 】。 真核生物的寻靶主要有两条主要途径: 途径一:蛋白质合成后通过内置网膜( e n d o p l a s m i cr e t i c u l u m ) 进入内置网 腔( 1 u m e no f e r ) ,然后分别插入质膜,进入溶酶体或分泌到细胞外等不同部位。 真核生物中至少有三类蛋白质必须首先进入内置网,它们是分泌蛋白,溶酶体蛋 白,某些膜蛋白。这些蛋白质的一个基本特点是n 段具有一段疏水性肽段。 途径二:新生蛋白质需要转运到线粒体( m i t o c h o n d r i a ) 、叶绿体( c h l o r o p l a s t ) 、 过氧化物体,可能还运到细胞核内,在这些过程中,蛋白质分子的导肽起着重要 的作用。 广义上说,指导蛋白质寻靶的任何一段连续氨基酸序列被称为信号肽( s i g n a l p e p t i d e ) 或信号序列( s i g n a ls e q u e n c e ) 。在完成寻靶之后,n 一端信号肽被信号肽 酶( s i g n a lp e p t i d a s e ) 剪切掉,因此在成熟蛋白( m a t u r ep r o t e i n ) 上找不到这一 段。在这篇论文中,信号肽指的是n 端信号肽f 6 ,7 】。对于制药学家来说,认识 蛋白质信号肽是极其重要的。因为他们要从遗传学角度对细菌,植物,动物进行 改进以得到更有效的药物。比如说,如果能够在所考察的蛋白质分泌物上加一个 特定的标签( s p e c i f i c t a g ) ,就可以使它们的分泌量大大增加【9 】。 信号肽的基本构成:一个基本的n 端区域( n r e g i o n ) ,这个区域般由5 个 带正电的氨基酸构成;一个中部的疏水区域h 区( h - r e g i o n ) ,这个区域由的主要 由疏水氨基酸( l e u ,v a l ,l i e 等) 构成;一个有着更强极性的c 区( e - r e g i o n ) , 这个区域的极性氨基酸( t h r ,s e r 等) 的分布较其它两个区来讲更多些 1 0 1 。 第二章几种公认的预测方法 第二章几种公认的预澜方法 在发现信号肽以后的凡十年中,科学家都在为识别和探讨信号肽的性质和特 点在孜孜不倦的努力着,并且取得了卓有成效的成果,到目前为止已经建立起许 多种推测信号肽剪切位点的方法,这些方法都从不同角度凸现了信号肽的特征, 并逐步提高了预测的准确率。现在公认的识别方法主要有下面7 种,我们将逐一 加以介绍。 2 1 权重矩阵方法( w e i g h t - m a t r i x ) l l o l 2 1 1 方法 把数据库中的一组信号肽序列( 1 6 1 个真核生物和3 6 个原核生物,并且它 们都不含有同源信号序列,原核生物样例中不包含被脂蛋白信号肽酶剪切的序列 2 2 1 ) 按照其已知的剪切位点排列好。剪切位点左侧第一个氨基酸位置规定为一1 , 向左以1 的步长依次递减;同样,剪切位点右侧第一个氨基酸位置规定为+ 1 , 向右以1 的步长依次递增。这样,所有排列好的序列中的每个氨基酸都有了其位 置的描述p 。再加上氨基酸自身种类的描述a , 1 0 】作者得到了一个2 0 x 三的矩阵 国( l 为窗口宽度,比如从1 3 到+ 2 共十五个位置的氨基酸,即l = 1 5 ) 。每个矩 阵元甜”( a 是氨基酸种类,p 是相对于剪切位点的位置) 由下面的方法得到【1 0 】: 统计出权重矩阵中每个位置出现的氨基酸总数量川吣,( 比如,在1 位置对1 0 0 1 个氨基酸做统计得到a i a 出现4 5 8 次,即n ai = 4 5 8 ) ,然后,把”用 来 除( 为某种氨基酸相对于所有序列的平均值) ,接着,对这个商求自然对数, 这样就得到了矩阵元甜”, 国:h f ” ) 对于统计值为。的虬,则令n q ,一5l ,然后再除以 并取对数。比如 第二章几种公认的预测方法 说,如果。m 2 0 ,则( ) d , - 1 2 = l n ( 1 ) 。而对于一1 和3 两个位置, 1 0 作者 要做特别地调整,即统计为0 的一,不将其用 来除,而是用n 即序列总 数来除。比如说,如果n 卧k 0 ,则缈卧一i n ( 1 n ) 。这样,完熬的权重矩阵便得 至0 了。 对某一序列剪切位点的预测依照下面的方法:将序列上的某一氨基酸位置假 定为+ 1 位置( 假设不知其正确剪切位点而任意选取的位置) ,则在给出一个窗口 宽度( 被分析的序列片段的长度) 的情况下,将窗口中每个位置的氨基酸在权重 矩阵中找到其相应的值,并将其求和得s s ( i ) = 屹一,一p + ,f p + 1 + + 。,f + 9 比如把这个序列中第5 个氨基酸假定为+ 1 位置,取其左边1 0 个( p = 1 0 ) , 右边一个( q - 2 ) ,包括其自身对应于权重矩阵中的1 2 个值,把这1 2 个值求和。 这样, 1 0 】作者在给定窗口宽度的情况下移动窗口的位置,就可以得到不同位置 的分数。其中得分最高的窗口被认为对于与真实情况,即剪切位点存在于此窗口 的1 和+ 1 之间。 s ( j n a x s ( i ) ,i = z - p ,z + q z 为被预测序列的长度,p ,q 分别对应于剪切位点左右两侧所取得残基数 并取决于结果的优化程度,且窗口宽度l = p + q 。对于不同的物种及数据库来说, p ,q 的取值一般是不同的。在这里,对真核生物,革兰式阴性菌,革兰式阳性 菌,其p 值分别取1 6 ,1 4 ,2 1 ( q 值均取2 ) 将取得最大的预测准确性。 2 1 2 结论 ( 3 , - 1 ) 规则:1 位置的残基必须是小氨基酸,比如,a i a , s e r , g l y , c y s ,t h r 或是g l n ,3 位置的残基一定不是芳香族氨基酸( p h e ,h i s ,t y r , t r p ) ,带电荷的氨 基酸( a s p ,g l u , l y s ,a r g ) ,或是大且极性的氨基酸( a s i h g l n ) 。 d r v o nh e i j n e g 通过权重矩阵的方法对蛋白质信号肽的剪切位点进行统 计分析并得出了这个规则,并通过后来的科学验证证明这是一条成功的规则,可 以说明大部分的蛋白质信号肽的特点,并可以作为其剪切位点进行初步断定的理 论根据。后来的科学工作者根据对其原有的方法进行改善,并写出了s i g n a l p3 0 的软件,供其它的科学工作者对蛋白质的信号肽剪切位点进行预测。 第二章几种公认的预测方法 2 1 , 3 准确性 权重矩阵方法对于蛋白质信号肽剪切位点是成功的,至今仍然是众多科研人 员对新方法时候成功的进行检验的一个标准,在d r v o nh e i j i n g 1 9 8 6 年的这篇 文章中,该方法对于自建数据库中的已知剪切位点蛋白质的检验准确性可以达 到:真核生物6 1 、革兰氏阳性菌8 1 和革兰氏阴性菌6 9 ;对于位置剪切位 点的蛋白质的预测准确性可以达到7 5 8 0 。 2 - 2 序列编码方法伍川e n c e _ e n c o d e da l g o r i t h m ) 1 9 1 2 2 1 方法 信号肽的长度对于不同蛋白质有所不同,最短的线号肽可能是8 个氨基酸 ( t = 8 ) ,最长的可能是9 0 个氨基酸( 厶= 9 0 ) ,大部分的信号肽长度分布在 1 8 2 5 个氨基酸之间。假定一个信号肽和他的剪切位点可以被一个虚拟的、标示 为【一厶,+ 厶】的序列来说明,其中厶是信号部分的氨基酸残基数目,厶是蛋白质 成熟部分的数目,信号台的剪切位点必定存在于这段被称为“基准窗口”的序列 片断中标定位一1 和+ l 的两个残基之间。首先【9 作者选定厶= 6 、上2 = 2 ,那么【9 】 作者有一个基准窗口【一6 ,+ 2 1 ( 这个算法可以很容易的推广到其他的厶、岛值) 。 一个卜6 ,+ 2 】序列片断可以表示成为: 足6 噩5 足4 足3 足2 足l 段l 心 这里的r 代表新生蛋白质序列i 位置的氨基酸残基。在( 一1 ,+ 1 ) 之间的位置时分 泌过程中的剪切位点,在此之前的位置上的残基组成了信号部分。 图2 - 1 :信号肽及其剪切位点示意图 第二章几种公认的预测方法 假定这一个序列片断的分泌剪切部分可以表达为+ ,而不能分泌剪切的部 分表达为一: + ( 足。卫。皿。足,足:足。r ,皿:) = 艺( r 6 ) e ( 足5 ) e ( 如) 墨( 如) 翳( 足:) e ( 是。) 焉( 墨,) 篇( 足:) y 一( 如如凡如如足,足。如) = 巴( 屯) 巧( 足,) p 二( 屯) 乞( 如) 巧【r 。) 石( r 一,) 石( 墨。) 巧( r :) 这里,p + ( 足) 代表对于在( 一l ,+ 1 ) 具有可分泌剪切点的序列中氨基酸e 在i ( 一6 ,一5 , 4 ,一3 ,一2 ,一1 ,+ 】,+ 2 ) 位置出现的几率,p 一( 足) 相应的代表不在( 一1 ,+ 1 ) 、而是在其 它位胃具有可分泌剪切点的序列中氨基酸r 在i ( - 6 ,一5 ,- 4 ,- 3 ,2 ,一i ,+ 1 ,+ 2 ) 位置 出现的几率。 对于一个给定的序列,按照“基准窗口”方法定以后,如果旷 i f ,一,那么, 这个序列可以认定为可分泌剪切;相反,如果矿 0 ,那么这个蛋白质肽是可分泌剪切的,而且他的剪切位点在 ( 一l ,+ 1 ) 位置; b ) 假如是其它任何值,则它的剪切位点不在( 一l ,+ 1 ) 位置,需重新设置 卜厶,+ 岛 ,进行判断a 2 2 2 准确性 自建的数据库中包括1 , 9 3 9 个分泌蛋白质和1 , 4 4 0 个非分泌蛋白质,以去重 复序列以保证在序列库中不存在同源序列。 对分泌蛋白和非分泌蛋白信号肽预测的准确性计算依据下式进行: 第二章几种公认的预测方法 a + = 掣:可分泌剪切肽 + 。 a 一:n - - m - :非分泌剪切肽 一 。 + 代表可分泌剪切肽的总数,m + 代表预测中遗失的肽的数目;相应的,一代 表不可分泌剪切肽的总数,m 一代表被错误预测为可剪切的不可分泌剪切肽的数 目。对整个数据库中蛋白质的剪切位点预测的准确率可以由下式得出: a+n+a-n-卜!:竺:a 2 矛i i _ 2 卜n + + n - 预测准确率通过标准检测过程1 2 3 1 进行检验,其中包括自检验和j a e k n i f e 检验。 j a c k n i f e 检验被认为是在统计学中的交叉检验方面最有效的方法,因为对于独立 的数据库检验而言,对于检验数据库的挑选时主观行为,因而所得到的结果缺乏 客观的规范,除非数据库充分 2 4 ,4 4 4 6 。 另外,对基准窗口卜厶,+ 厶】中的厶和厶进行调整以求得到最高的预测率方 面,发现在基准窗口设定为卜1 3 ,+ 2 】时可以达到最高的准确率:9 2 1 6 ( 对信号 肽或者分泌蛋白) ,9 0 1 1 ( 非分泌蛋白) 和9 0 1 3 ( 整个数据库) 。 2 3 神经同络法( n e u r a ln e t w o r ka p p r o a c h ) 【l s l 2 3 1 方法 神经网络方法通过两个方面应用于信号肽问题:1 、从整个序列位莺中识别 出剪切位点,2 、区分氨基酸是否属于信号肽。它是一种f e e d f o r w a r d 网络模式, 具有0 层或者1 层包含两个到1 0 个隐藏单位 2 5 1 ,且具有一个微小的错误调整 函数,序列数据通过零星编码移动窗i q f 2 6 ,2 7 输入网络。它通过很少的编码移 动窗1 3 来检测序列数据,5 个到3 9 个大小的对称或者不对称的窗口都经过了测 试。在正确和错误预测数据的基础上,我们计算出相关系数【2 8 】。每一组数据都 被分成5 个基本相等的部分,其中一部分数据作为测试数据,其他四个作为练习 数据,对这5 部分数据中的每一个,在相互作用系数的基础上,【1 5 】作者建立起 一个信号肽罔 信号肽网络体系和一个剪切位点,非剪切位点体系。【1 5 】作者所建 立的体系并不是具有最好的检测成绩,而是具有最小的网络,它不会因为扩大输 第二章几种公认的预测方法 入窗口或者增加隐藏单位而显著的增加。这个网络体系能够对氨基酸序列的每一 个位置提供两个不同的值,信号肽月 信号肽网络系统的输出值( s 值) 可以用来 检测这个位景是否属于信号肽的可能性,而剪切位点月e 剪切位点网络系统的输 出值( c 值) 可以用来检测这个位置属于成熟蛋白质、而且是否第一个位置的可 能性( + 1 位置与剪切位点有很大关系) 。 在检测的过程中会得到很多的c 值和s 值,为了提高检测的准确性,【1 5 作者尝试了很多种线型或非线性的拟合,最后寻找到最佳方案是c 值得几何平 均和s 值得衍生,命名为y 值: y 。= 4 c , a d s 。 这里a 。s 代表i 位置前的d 位置s 平均值跟i 位置后d 位置的s 平均值之差: 1dd - i 。墨= 专( s 一,一s + ,) “,;lt 0 通过检验可以确定,真正的剪切位点对应于最大的y 值。 一般说来,一个典型的非分泌位置,其c 值、s 值和y 值都比较小,所以, 信号肽和非分泌蛋白质可以通过8 值得平均值来分辨,当然,【1 5 】作者必须从1 位置一直计算到y 值最大的位置。假如这个值s 平均值大于0 5 ,【1 5 作者就可以怀疑这个序列是一个蛋白质信号肽。 2 3 2 准确性 通过一系列的测试 1 5 1 作者发现,用非对称窗口可以解决c 值问题,例如: 这个窗口中包括更多的剪切位点上游的位置或者下游的位置。而s 值问题可以通 过应用对称或者近似对称的窗口来解决。 虽然说这个方法可以以更高的可靠性定位剪切位点、分辨信号肽,但是对剪 切位点的预测方面,其准确性却低于权重矩阵的方法:对真核生物有7 8 的准确 性,对原核生物有8 9 的准确性( 这里不区分革兰氏阳性和革兰氏阴性) 2 4 隐马尔科夫方法佃m ma p p r o a c h ) l i b 2 4 1 方法 一个针对蛋白质的隐马尔科夫模型由一系列与转变率相联系的态组成,与每 个态相联系的是2 0 种氨基酸的分配。对于一个给定的序列,可以计算出这个序 第二章几种公认的预测方法 列可能被隐马尔科夫模型调配的最有可能的方式和几率,同样,因为隐马尔科夫 模型是一种几率模型,可以应用标准方法,例如最大几率方法,去确定模型的参 量。由关于隐马尔科夫模型的介绍可以参看参考文献【2 9 ,3 0 ,3 1 1 。在计算生物 学中,最常用的隐马尔科夫模型可能是剖面隐马尔科夫模型( p r o f i l e sh m m ) f 3 2 , 3 3 。然而,隐马尔科夫模型是更为广泛的,文中所用到的模型并非剖面隐马尔 科夫模型 为了获得有关于信号肽长度和氨基酸在其三个区域( 1 1 ,h 一和c 一区域) 上分 配的信息,首先试探性的对三个区域进行赋值,且遵从下列规定:( 1 ) 在1 位置 设置定位点,给c _ 区域赋值,逆流扫描整个序列知道n 端;( 2 ) 将定位点上移3 个位置;( 3 ) 在第一次出现两个以上的疏水氨基酸残基( a l a ,i l e ,l e u ,m e t ,p h e ,t r p , v a b 的位置设置为h - 区域:( 4 ) 上移定位点6 个位置;( 5 ) 在第一次出现一个带电残 基或者至少连续三个非疏水残基的位置设置为n 区域:( 6 ) 假如h 区域的n 端部 分不是一个疏水残基,那么将n _ 区域的设置点改到有疏水残基的地方。这一系列 的规定使信号肽的h 区域必然在n 端具有一个疏水残基,在c 端也具有两个连 续的疏水残基;c - 区域也一定有不少于3 个残基。另外,根据实验发现 3 4 1 ,给 h 区的长度加上另外一个苛刻的条件:小于6 个氨基酸长度的h 区不利于促进蛋 白质置换,而最利于蛋白质从可剪切蛋白质项不可剪切蛋白质转换的h 区长度在 1 7 到2 0 个蛋白质之间 3 5 ,3 6 】。 为预测一个新序列的剪切位点,在标准v i t e r b i 算法【2 9 】的基础上, 18 】作者 建立起最大几率路线方法,这种方法也同时被应用到给序列中的每一个氨基酸分 配区域的时候。为了区分信号肽、信号锚和可溶解的非分泌蛋白,【l8 】作者对原 有的模型进行了修订,新模型中省去了c 区域,而n 区域和h 区域也更为简单。 2 4 2 准确性 在剪切位点的预测方面,以前的神经网络方法比隐马尔科夫模型的表现略为 优异,即便是只用c 值一个来进行预测,其准确性也比隐马尔科夫模型略高出一 些,这充分说明在剪切位点预测方面存在着比较弱的非线性性质。 t a s k c l e a v a g e 虹忙l o c a t i o n d i s e r i m m a t i o a s i n o n s e cg a a c m e t h o d e 呔瓯。k : e u k g 籼g d 。 e u k h 删6 9 5 9 1 4 6 4 5 0 9 40 ,9 30 9 60 7 4 n n ( s 蛔均7 1 8 8 1 7 6 6 ( o 9 7 ) ( o 7 1 ) ( n 7 1 )( 0 i 8 ) f n n ( c o m b i a e d ) 7 2 4 8 3 4 6 7 5 0 ,9 70 8 9o 9 6 ( o3 9 ) l 表2 - 1 :砌方法和神经网络方法准确性比较 第二章几种公认的预测方法 c l p i i 、;1 2 ps i t e r l - e o i o n 圈2 - 2 :用于蛋白质信号肽剪切为预测的删模型 在用隐马尔科夫模型区分信号肽和可溶性非分泌蛋白质时,【1 8 作者忽略了 锚模型。假如在这里 1 8 】作者仍然使用修正后的模型,那么有一些的信号肽将被 错误的认定为信号锚,从而使真核生物序列的关联系数降低o 0 2 。在这方面,神 经网络方法,如果只用c 值检测,其表现略逊于隐马尔科夫模型。然而如果使 用c 值和s 值混合的方法,其表现就与隐马尔科夫方法平分秋色:在真核生物 方面前者略优于后者,而在革兰氏阴性菌方面则略逊于后者。 2 5 - 3 ,一1 ,+ 1 ) 耦合模型( 一3 ,一1 ,+ 1 ) c o u p l i n gm o d e l ) 1 9 】 2 5 1 方法 - 3 ,一1 ,+ 1 ) 耦合模型与前面的序列编码方法( 1 2 ) 大致相同,只是在处理 真正的蛋白质数据库的时候,由于大部分的蛋白质分类相互联系,特别是在3 、 1 、+ 1 位置绝大多数被a l a 占据的时候,有必要对原有的模型进行调整,以建立 更加有效的方法已识别蛋白质信号肽。所以在建立基准窗口卜轰,+ 彘 时,【1 9 】作 者进行了以下的调整: 第二章几种公认的预测方法 y + ( 疋6 足,足:足,r l 皿2 丘6 ) = 岛( 足自) 骂( 足3 ) 鸭( 如) p + ( 足- 1 疋,) 焉( 疋,1 疋- ) 呓( b z ) 名( 足6 ) y 一( 足6 r _ 3 r2 足,且,2 - - r 6 ) = 乞( 足6 ) 巧( 髓,) 巧( 尼:) 6 ( 足。l r _ 3 ) 巧( q ,l 尼一) p i ( b :) ;( b 6 ) 这里只一( r ) 和只+ ( r ,) 仍旧是以前的意义,而e ( 疋, 如) 代表在氨基酸r t 已 经出现在一3 位置上,氨基酸见一出现在1 位置的几率;对塌( b i r _ t ) 、 e g ( r - ,l 如) 、和巧( r ,i 罡一) 取类似的意义。 仍旧建立起同样的 ( 足6 足5 罡。噩3 尼2 足】r 1 8 2 ) = w + y + ( r _ 6 r 5 足4 足。r - 2 足1 r + l r + 2 ) 一w 一( 亿如屯如罡:足。“如) 和 假如a 0 ,那么这个蛋白质肽是可分泌剪切的,而且他的剪切位点在 ( - 1 ,+ 1 ) 位置; 假如a 是其它任何值,则它的剪切位点不在( 一1 ,+ 1 ) 位置,需重新设黉 一厶,+ 厶】,进行判断。 2 5 2 准确性 采用类似于序列编号方法中的检测方法和准确率计算方法,首先【1 9 】作者对 基准窗口卜石,+ 岛】进行定位,采用= 1 3 ,1 4 或者1 5 而磊= 2 的时候,a + 可以 取得9 3 ( 自检验) 和8 9 ( j a c k n i f e 检验) 【2 3 】的准确率,a 一也取得了9 2 1 驹 准确率。整体的准确率a 也达到9 2 。 第二章几种公认的预测方法 2 6 马尔科夫链模型( m a r k o vc h a i no rs c a l e dw i n d o wm o d e l ) 2 0 】 2 6 1 方法 马尔科夫链模型既是序列编码模型的演变,也是 3 ,一1 ,+ 1 ) 耦合模型的普遍 形式,可以应用于更广泛的蛋白质数据库中信息肽的虢测。类似于 一3 ,- 1 ,+ 1 ) 耦 合模型,建立起: + ( 冠自足3 足2 足1 墨1 r 2 丑岛) = 毪( 疋6 ) 薯6 - d ( 疋( 纠) 1 冠) 焉( 足:i 皿s ) e ( r l 足z ) 瑞( r ,i 足,) 塌( r :lr t ) 吃( 足6l 足( 纠) ) 妒一( 噩自疋3 r _ 2 rl 丘】丑2 r 岛) = 凫( 足6 ) 5 6 一】) ( 见( 6 一1 ) 】罡自) p i ( 足:j 足。) 巧( 足,i 如) 巧( r ,i 见t ) ( 曩z i q 一) 气( r 6i r ( 纠) ) 对鼻一( r ) 和只+ ( 暑) ,e “) ( 足“- 1 ) i 足,) 和丘一) ( 皿“- 1 ) i 尼- ) 仍旧是以前的意义。 一般说来,假如( 2 2 3 一) 的耦合作用需要被考虑的话,上面的式子需要 用第声级马克莫夫链进行修正,。可以想象,更高阶的马克莫夫链分析必然会更 加复杂,因而 2 0 】作者采用了第一级的马克莫夫链。 2 6 2 准确性 准确性的检测方法与以前的两种方法的检测一样,这里不再重复。【2 0 】作者 确定基准窗口卜茧,+ 磊】为: = 1 2 1 4 和磊= 1 ,这时其准确率可以高达9 5 。 2 7 载体矢量机械算法( s u p p o r tv e c t o rm a c h i n ea l g o r i t h m ) j 2 1 】 2 7 1 方法 载体矢量机械算法( s u p p o r tv e c t o rm a c h i n ea l g o d t h m ) ,简称s v m s 3 7 4 3 , 是一种建立在统计学习理论基础上的机器学习方法,其理论算法可以参照参考文 献兀。同之前的序列编码方法、 3 ,一1 ,+ 1 耦合模型与前面的序列编码方法以 及马尔科夫链方法类似,建立起基准窗口l 一上1 十岛j ,然后对序列进行编码。 在这种方法中,信号肽的2 0 个基数个它的剪切位点可以编码为一组2 0 一d 的 由0 和1 组成的向量组,比如:a = 1 0 0 0 0 0 0 0 ,c = 0 1 0 0 0 0 0 0 ,y 2 0 0 0 0 0 第二章几种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论