(计算机软件与理论专业论文)基于序列从头预测法的蛋白质相互作用研究.pdf_第1页
(计算机软件与理论专业论文)基于序列从头预测法的蛋白质相互作用研究.pdf_第2页
(计算机软件与理论专业论文)基于序列从头预测法的蛋白质相互作用研究.pdf_第3页
(计算机软件与理论专业论文)基于序列从头预测法的蛋白质相互作用研究.pdf_第4页
(计算机软件与理论专业论文)基于序列从头预测法的蛋白质相互作用研究.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 蛋白质相互作用是细胞大部分功能的基础,直接关系着生物功能的多样性,它有两 种主要的形式,包括“物理”上的相互作用和功能上的相互作用,一般的相互作用是指 参与同一个代谢途径,具有相似的功能,也就是功能上的相互作用。 蛋白质组学是在整体水平上研究蛋白质的结构、相互作用和功能的学科。相互作用 连接着蛋白质的结构和功能,无疑是研究的热点和焦点。对蛋白质相互作用的研究人们 已突破了试验的手段,而采取计算的方法对它作进一步的认证和高通量的预测,包括基 于基因组方法、基于进化的方法和基于蛋白质序列的从头预测方法等。研究表明,基于 基因组和进化的方法都各有其局限性,如基于基因组的方法需要知道全基因组的信息 等。而基于蛋白质从头预测的方法它只需要知道蛋白质序列的主要结构,对于序列的长 度等都没有限制,因而具有广泛的应用价值。 本文利用蛋白质序列从头预测的方法识别相互作用的蛋白质,统计了蛋白质序列的 多个特性,如氨基酸的疏水性、蛋白序列的摩尔分子量、极性以及平均隐蔽面积等。并 应用b p 神经网络和支持向量机( s ) 分类算法对蛋白质相互作用数据集进行了识别 与比较。选取m 口s 数据库中酿酒酵母( s c e r e v i s i y e 嬲t ) 相互作用数据集作为我们的 标准数据集,其中包括阳性数据集4 8 3 7 对和阴性数据集9 6 7 4 对。实验表明,b p 神经 网络和s 讧都具有较高的准确率,b p 神经网络可达到8 7 以上的正确率并具有较高 的敏感性,同时应用s v m 的高斯核函数对本数据集也达到了“以上的正确率,因而 都可用于认证和预测由试验手段得到的蛋白质相互作用数据集。 另外,通过实验的进一步分析,发现基于蛋白质序列从头预测法结合本文所用的分 类算法能够有效的识别相互作用的蛋白质对。 关键词:蛋白质相互作用;序列从头预测;b p 神经网络;支持向量机( s v m ) a b s t r a c t p r o t e i n sa r cp r o b a :b l y 也em o s ti n 驴删p l a y e r si nal i v i n gc e u ,al o to f f m 1 c o n so f c e u h a v eb e e na c c o m p l i s h e db yp r o t e i ni n t e r a c t i o n s t h e r ea r es 舰n g e rr e l a d o n s h i p sb e t w 咖 血n c t i o nv 撕o l l sa i l dp r o t e i n - p r o t e i ni n t e r a c t i o n s ,i th a s 细om a 证l yf o m ,i n c l u d i n g “p h y s i c a l ” i n l e 例:t i o n sa n df h n c t i o nm e m c 曲邶i ng e m l ,锄 e m c t i o np r o t e i n sp a r t i c i p a t ei n 也es 锄e m e t a b o l i cp a t h w a 孔a n d 麟e c u t i v es a m em 呲石。潞,i no m c rw o r d s ,i n 咖d o np r o t e i ni s 缸n c t i o ni i i t e r 翟i c t i o n s p r o t e o m i c si st h es y s 删cs 呐o f 也es 仇l c t i l r e 锄c e r a c t i o n sa n df i l :n c t i c 脚lo fp r o t e i n ni so b 、,i o u s l ym a tp r o t e i ni n :t e m c t i o ni st h em o s th o ts p o ti np r o t e o m i c s t h ee ) 【p 池e n t a l t e c h n i q u e sf o r 伍1 d i n gp r o t e i l l - p r o t c mi i l t e r a c t i o 璐h a v es e v e r a l l i l i t a t i o n sw h i c hs t i m u l a t e d 也er e s e a r c hi nc o m p u t a t i o n a lw a yo fp r e d i c t i n g 也ei n t e r t i o n s i tm a i n l yi n c l u d e sg e n o m e , e v o l u 曲ni n 】f 0 肋a t i o n 锄db 嬲e do np r i m a 叮s 仇l c t u r eo fp t e i n b u ts o m eo f 也锄h a v c m 柚yl i n l i t a t i o n s ,f o ri n s t 鲫i c 宅,t h em e 也o do fg e n o m en e e d sf h ug e n o m ei n f o 功1 a t i o n 1 1 0 w e v e r ,t h ea p p m a c ho fp r o t e i np r i m a 巧s 仃u c 仙r e ,o n l yr o q u h s 也ep r i i 衄d rs 仇l c 骶o f p r o t e i n ,“h 嬲n ol i m i t a t i o n sf o rs e q u e n c el e n g m 姐dh 嬲g r e a ta p p h c a 曲n i nt h i sp 印e r ,w e 伽叩l o yp 而n a d ,s 加工c t i l r eo fp r o t e i nt 0p 础i c tp r o t e i n p r o t c m i n t e m c t i o 邶1 1 1 es t a t i s d c a lm e 1 0 di su s e dt 0g c n e r a t es e q u e n c ef e a t l 鹏s ,舡c ha r et h 饥 n o r n l a l i z e df o rs a t i s 矽i n ge x p e r i n l e n t s f e wf e a t l l r e sa r ec a l c l l l a t e df o re a c hp r o t e i n i t 曲o l v e sh y d r o p h o b i l i 劬m o l e c l d a rw e i g h t ,p o l 撕妙锄da v e m g e 眦ab 嘶e d a n db pn e u m l m 铆o r k 、s 订a r el l s e dt 0c l a s s i 矽t 、ok i n d so f p r o t e i n w | eu s e dt l l es c e r c v i s i a ey e 嬲td a t a s c t t 0v 砸匆m ep r e m c t i v ea b i l 埘o fo u rm m 0 也w h i c h 疵m 她4 8 3 7o f 缸锨c t i o np r o t c i n p a i l 售锄d9 6 7 4o fn o n - i n t e r a c 石o np r o t e i np a h - s a c h i e v i n ga b o v e8 7 a c c l l r a c ym t e su s i n g 1 0 - f o l dc r o s s - v a l i d a t i o nb a s e d0 nb pn 棚m l 咖r k ,a n da _ b o v e6 4 a c c u r a c ym t 髂l i s i n g s v m 1 1 1a d d i t i o 衄l ,t h ee x 血瑚t sm a n i f e s tt b a to l l r 删浊o d sh a v cag o o da b i l 时t 0i d 髓t i 黟 锄dp i 司i c ti n t e r a c t i o np r o t e i np a i l 弓 k e yw o r d s :p r o t e n p r o t e i n1 1 1 t 锨c 6 0 n s ;p r o t e i np 而n a 巧s t l l l c t u 坞;b pn e u m ln e t w o r k ; s u p p o r t 、忱t o rm a c h 血e ( s v l ) 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取 得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文 中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名:弦拯夔 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手 段保存、汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全 文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中 国科学技术信息研究所) 等数据库中,并以电子出版物形式出版发行和提供信息服 务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:强、盔奎茨指导教师签名:兰垂5 叁 日 期:幽:石:r 日 期:翌置:垒:鱼 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 东北师范大学硕士学位论文 引言 随着科学技术的发展,人类基因组工程产生了大量的基因组数据。众所周知,生物 数据是晦涩难懂的,仅生物序列的分析和比对就用去了我们很长的时间,而且到目前为 止序列比对的算法和技术也不是非常的完善。从研究分子序列到结构和功能,经历了一 个相当漫长而艰巨的过程。不可否认,我们取得了瞩目的成绩,但科学的进一步发展, 摆在我们面前的问题将会更加的复杂,他需要我们创造性的应用和发展各方面的技术。 计算机技术的发展,推动了生命科学的不断进步,人类基因组计划的实施和推进, 生命科学研究已步入后基因组时代。后基因组时代的一个重要研究课题一蛋白质组学因 此而产生,它能大规模的分析蛋白质,从整体水平上研究细胞内蛋白质的组成及其活动 的规律,这在后基因组时代将有助于我们更好的理解基因功能。通常的方法是利用生物 化学手段去研究蛋白质,然而时代的发展,它需要我们创造性的应用计算机技术去更快 更好的服务于蛋白质组学这一研究领域。 蛋白质组学主要包括以下三个部分:蛋白质的分析与识别、蛋白质表达水平比较和 蛋白质相互作用的研究,蛋白质之间的相互作用联系着蛋白质的识别和表达水平,因 此在蛋白质组学中有着举足轻重的作用。换句话说,它的重要性是指步入后基因组时代, 对传统单个蛋白质的研究已无法满足时代的需要,如对功能的研究,通常一个功能不能 由单一的一个蛋白质来完成,而需要蛋白质之问的统一协调来共同完成;生命现象的发 生不是偶然的,更是多方面因素共同影响的结果,必然涉及到多个蛋白质共同参与某个 特定的生物学过程。因此要对生命的复杂活动有全面和深入的认识,必然要在整体、动 态、网络的水平上对蛋白质进行研究乜1 。所以对蛋白质相互作用的研究并不是偶然性的, 它必然是蛋白质组中的核心。 目前,这三方面的研究都已有比较成熟的实验手段和方法,如蛋白质识别方法有串 联质谱法、翻译后修饰等;蛋白质表达水平分析有二维凝胶和蛋白质芯片等;蛋白质相 互作用有双酵母杂交系统等。相对于实验手段而言,计算机模拟方法在蛋白质的识别和 表达水平这两个方面也都有比较广泛的应用,如对蛋白质识别的研究,我们可以到n c b i 上对未知蛋白质序列做序列比对,依据最匹配的蛋白质三维结构作参考,得到最匹配的 序列作为选取的模版序列,再将模版序列与该未知序列用c 1 u s t a k 程序作全序列比对, 全序列比对的结构可到s w i s sm o d e l 上在线预测生成的三级结构。而对蛋白质相互作用 的研究,虽然己进行了不断的研究,但由于它的复杂性和不稳定性,导致注释的结果与 实际情况往往相差甚远,所以有待于我们作进一步探索和发现。 显然,蛋白质相互作用识别是一个非常显著的问题呻1 ,首先它能帮助我们理解基本 的细胞操作,如生化过程和代谢途径:其次利用蛋白质相互作用可预测未知的蛋白质功 能;最后研究蛋白质相互作用的应用范围也从理性的药物设计到代谢和信号转导网络的 东北师范大学硕士学位论文 分析。为了更好的识别和发现这些基因组中的蛋白质之间的关系,研究者们提出了一系 列切实可行的方法,如遗传方法、亲和方法、分子和原子方法和基于文库的方法等。但 这些实验方法大多是很费力和冗长的,而且具有较多假阳性和假阴性的结果。基于蛋白 质相互作用数据在理解生命活动和药物设计方法的重要性,以及计算机技术的飞速发 展,用计算的方法来研究蛋白质之间的相互作用已成为必然。多年来,对计算方法的研 究,主要有系统发育谱法h 1 、基因融合事件巧1 、基因邻接阳1 和镜像树法h 1 等,但这些方法 都还不够完善,预测的覆盖率、正确性还有待提高。因而结合蛋白质的结构信息进行预 测,有待提高预测的正确率。 鉴于高通量实验技术和计算方法所带来的假阳性和低覆盖率等问题,本文的研究内 容主要集中在,通过有监督的机器学习方法b p 神经网络,对蛋白质主要结构的不同特 征进行整合,并以此来识别由高通量实验产生的蛋白质问相互作用。本文通过结合蛋白 质序列主要结构的多个属性特征和机器学习方法,因而具有较高的灵敏度和准确性。 2 东北师范大学硕士学位论文 1 1 研究背景和意义 第一章绪论 随着人类基因组计划的实施和推进,生命科学研究已步入后基因组时代。在这个时 代,生命科学的主要研究对象之一便是瞄准了功能基因组学,其中包括结构基因组研究 和蛋白质组研究等。尽管现在很多物种的全基因组测序工作已经完成,但在这些基因组 中通常有一半以上基因的生物学功能是未知的。用三级结构对蛋白质功能进行预测的方 法,由于结构预测本身的欠精确性或人为等因素都影响了蛋白质功能预测的正确性。有 相关研究表明h 3 ,蛋白质间的相互作用存在于每个细胞的生命活动过程中,生物体中的 许多生命现象如复制、转录、翻译、剪切、分泌、细胞周期调控、信号转导和中间代谢 等均受蛋白质间相互作用的调控哺1 ,相互作用的蛋白质必然参与同一个代谢途径,具有 相同或相似的功能呻1 。因此用相互作用的蛋白质对基因组功能进行注释成为可能。 蛋白质相互作用在生命活动中起核心作用,不仅是正常生理过程如d n a 复制、转 录、翻译、物质代谢、信号传导以及细胞周期控制的基础,也在病理过程中起着重要的 作用。蛋白质相互作用不仅对未知蛋白质的生物学功能的注释提供了线索,也为了解生 命活动的机制,提供了必要的信息。 近年来,研究蛋白质问相互作用的方法得到了很大的发展,如x 射线晶体学、核磁 共振谱、免疫共沉淀、交联技术、蛋白质探针和噬菌体展示等技术哺,1 0 1 。但是这些基于 实验方法得到的蛋白质相互作用数据都存在较高的假阳性和假阴性,多种方法之间的覆 盖率也相当的低,且实验的方法比较费力,还有不精确等种种缺点。另一方面,计算机 技术的发展,使得计算机模拟技术 s f 如dm o d e l i l l g ) 成为生命科学研究中一个必不可 少的工具。同实验方法相比,计算方法不仅是实验方法的有力的补充,而且能够弥补目 前实验方法难以克服的种种缺点。如m i ns ul e e 1 等人利用计算的手段对实验得到的高 通量蛋白质相互作用数据进行了有效的认证;又j 嬲o nm c d e 衄o t t u 纠等人利用蛋白质相 互作用网络进行功能预测,他们评估了基于网络的功能注释方法,通过实验表明基于他 们所预测得到的蛋白质相互作用网络进行功能注释的正确性。认为在同一个相互作用网 络中的两个蛋白质距离越近则功能越相近,又蛋白质相互作用网络由相互作用的蛋白质 对构建而成,因此有理由认为相互作用的蛋白质数据对也可以直接用于指派功能的注 释。 总之,蛋白质相互作用的研究将有助于我们更深入的了解生命机理,为药物的开发 和设计提供了必要的理论基础,从而将更好的服务和造福人类。 东北师范大学硕士学位论文 1 2 本文主要研究工作 系统总结国内外蛋白质相互作用识别方法和现有的蛋白质相互作用数据库,深入分 析了现有方法的优势与缺陷以及各种蛋白质相互作用数据库的作用和意义。并且提出了 一种直观的蛋白质相互作用预测方法,旨在充分发掘基于序列从头预测方法的潜力,克 服局限性,拓展应用范围。在理论方面,探寻一种新的序列特征组合方法,以更好地符 合模式分类识别算法。 主要研究工作概述如下: ( 1 ) 关于序列从头预测相关技术研究。 ( 2 ) 基于支持向量机的蛋白质相互作用聚类研究。 ( 3 ) 基于b p 神经网络的蛋白质相互作用聚类研究。 实现方法: 综合分析序列特征与蛋白质相互作用的关系,提出一种新的序列特征组合方法,获 取组合序列特征,利用多种分类算法对不同特征的相同蛋白质相互作用数据集进行分类 组合。在此基础上,构建一个通用蛋白质相互作用识别系统。 全文共分五章,主要内容概述如下: 第一章绪论。简要介绍了蛋白质相互作用的研究背景和意义,以及本文的主要研 究内容。 第二章蛋白质相互作用技术与数据库简介。介绍目前国内外关于蛋白质相互作用 的识别方法及存在的问题。蛋白质相互作用数据库的简要概括以及它的功能和作用。 第三章基于序列从头预测相关技术研究。介绍了蛋白质相互作用数据的获取途径 和基于序列从头预测法特征的选取,并且分析了这些属性特征与蛋白质相互作用之间的 关系。 第四章基于支持向量机的蛋白质相互作用聚类研究。简单叙述了应用支持向量机 分类算法对蛋白质相互作用进行的实验研究,并得到了它的可信度评估。 第五章基于b p 神经网络的蛋白质相互作用聚类研究。详细讨论了蛋白质相互作用 特征参数的选取和b p 神经网络基本原理的应用。 4 东北师范大学硕士学位论文 第二章蛋白质相互作用技术与数据库简介 2 1 蛋白质相互作用技术简介 2 1 1 实验方法 由于蛋白质相互作用数据的复杂性和庞大性,它具有高输出特征的要求。最初对蛋 白质相互作用的研究都集中在实验技术的改革和创新上,包括应用各种先进的物理和化 学手段,多种技术结合开发,这些方法能高通量、大规模地筛选相互作用的蛋白质,进 而绘制出蛋白质相互作用图谱,帮助我们了解蛋白质的功能。主要包括双酵母杂交系统 和蛋白质芯片n 踟等。 1 双酵母杂交系统 1 9 8 9 年,该系统由f i e l d s 和s o n g 等人首先在研究真核基因转录调控时建立n 引。作 用原理基于真核细胞转录因子的结构特性。这些转录因子通常由两个或两个以上相互独 立的结构域组成,分别为d n a 结合域( b d ) 和转录激活域( a d ) ,只有当两种结构域 共同作用时才能使转录正常进行,来自不同转录激活因子的两种结构域也能使转录正常 进行。利用此特性,可以分别使b d 与a d 时诱饵蛋白( x ) 和。猎纺蛋白( y ) 形成 融合蛋白,并在真核细胞中同时表达。如果两种蛋白可以发生相互作用,就能使b d 与 a d 在空间上充分接近,从而激活报告基因的转录,如图2 1 所示n 1 。 ll 制灿嘲 氆y 图2 1 双酵母杂交系统 圈 ; - 警_ 蝴鬻懋篇篇, 双杂交系统的建立为我们研究疾病的分子机理、细胞凋亡、信号转导途径及疫苗等 提供了很大的方便。它可研究定位在核、胞浆、线粒体、周质及膜相关的蛋白质;可检 5 东北师范大学硕士学位论文 测已知蛋白的相互作用;确定蛋白质问相互作用的结构域或重要残基;最主要的应用是 快速分离与已知蛋白相互作用的编码序列,即发现新基因。 但是,双酵母杂交方法本身也有一定的局限性:( 1 ) 不能研究具有自激活特性的蛋 白质;( 2 ) 只能检测两个蛋白质间的相互作用;( 3 ) 检测的相互作用必需发生在细胞核内, 对于不能定位到细胞核中的蛋白质无法研究;( 4 ) 大部分实验中的假阳性比率非常的高, 且推测出的相互作用仅有3 在两种以上的实验中得到验证。为了弥补方法本身的缺点 及局限性,研究者也不断地对其进行了完善和改进。 2 串联亲和纯化 早在1 9 9 9 年m g a u t 等人首次通过串联亲和纯化技术( 伽咀e ma f 越t ) ,p 砸& a t i o n , 1 = a j p ) 研究了蛋白质之间的相互作用n 引。它是一种能快速研究体内蛋白质相互作用的新 技术,如图2 2 显示了经过两步特异性亲和纯化,快速得到生理条件下与靶蛋白质存在 真实相互作用蛋白质u 6 1 的过程。 声一藉 | 秘旧协蝴c 轴哪, j 广带 p 嘲舛吣r y 嘲口嘲髓科r 捌一 萼 惦n 轴螂晰b 画姊 m 嘲筠d m 嘶 图2 2 串联亲和纯化 串联亲和纯化技术作为一个高效的蛋白质- 蛋白质相互作用研究技术。在多个生物体 系中得到了成功的应用,尤其是在酵母菌和人细胞系中,目前已成为大规模蛋白质相互 作用研究领域的一个重要组成部分。 该方法是一种融合表达的亲和纯化标签技术。与其他融合标签方法的最大不同是该 方法选用了两个连续的标签而不是通常意义上的一个。标签共分三部分:蛋白质a 、 c b p ( c a h o d l l l i n b 蛐p 印t i d e ,钙调素结合多j 哟和中间连接的t e v 酶识别的酶切位点。 该方法的优点是:1 ) 不需要过多的背景知识就可以得到大量包含靶蛋白的复合体;2 ) 蛋白质表达及与复合体结合都接近生理水平,是一种检测体内蛋白质相互作用的方法: 3 ) t a p 技术采用两步亲和纯化,提高了纯化产物的特异性。 t a p 技术的出现使得大规模研究酵母中的蛋白质复合体结构成为可能。但是也有它 的局限性,如标签的引入会影响蛋白质表达、蛋白质性质、复合体的稳定性等n 引,以及 6 东北师范大学硕士学位论文 少数靶蛋白会在r e v 蛋白酶处理后被破坏;细胞裂解时有时会破籼标签;细胞内源 钙调蛋白会与c b p 结合,影响第二次纯化等n 副。 显然,每种方法都不可避免的存在它的局限性和偏爱性,但科学的发展促进了新方 法、新技术的产生,如下面的蛋白质芯片技术等。 3 蛋白质芯片 蛋白质芯片又称为蛋白质微阵列,它的基本原理是将各种蛋白质有序地固定于滴定 板、滤膜和载玻片等各种载体上成为检测用的芯片,然后,用标记了特定荧光抗菌素的 蛋白质或其他成分与芯片作用,漂洗将未能与芯片上的蛋白质互补结合的成分漂洗去, 再利用荧光扫描仪或激光共聚焦扫描技术,测定芯片上各点的荧光强度,通过荧光强度 分析蛋白质与蛋白质之间相互作用的关系,最终达到测定各种蛋白质功能的目的n 7 1 。 蛋白质芯片技术是近年由c i p h e 玛e n 公司领导发展起来的一项新技术,理论上蛋白 质芯片除了可以研究蛋白质之间的相互作用外,还可以研究蛋白质和脂类、蛋白和核酸 以及蛋白质和配体间的相互的结合,但目前应用还远远不够广泛,仅限于使用于q i m 、 磷脂相互作用蛋白质、结构域之间以及抗原与抗体的相互作用研究等。随后,p t a c e k 等 人还研究了酵母激酶的相互作用蛋白质,发现了近4 0 0 0 个磷酸化反应,其中涉及到1 3 2 5 种不同的蛋白质u 刚。 2 1 2 计算方法 在后基因组时代,计算方法越来越受到欢迎,它不但是实验方法的有益补充,而且 还具有实验方法所无法比拟的方便和快速等优点。多年来,研究者们应用各种手段和方 法验证了高通量实验获得的数据结果的正确性,进一步加速了生命科学的发展和提高了 人类对自身和整个生物系统的理解。 对计算方法的研究,人们首先关注的是同源性方法,寻找在不同生物体内具有同一 功能的蛋白质,同源蛋白质大多有以下的特性:1 ) 多肽链长度相同或相近;2 ) 不变残 基具有高度的保守性;3 ) 除不变残基以外,其它位置的氨基酸对不同的种属有很大变 化,称可变残基,可变残基中,个别氨基酸的变化不影响蛋白质的功能。通过比较同源 蛋白质的氨基酸序列的差异可以研究不同物种间的亲源关系,同源蛋白的氨基酸顺序差 异越大,亲源关系就越远。 通常的同源性方法是指序列联配,把需要进行相互作用预测的蛋白质序列对,与蛋 白质相互作用数据库中的序列进行联配( 通常使用p b l a s t 进行联配) ,寻找具有最高 联配得分的序列。这种方法的局限性在于不能对大量的孤儿家族和孤儿基因进行注释。 同时,仅仅利用了序列的相似性,而离开了进化的观点,那么生物学中的任何课题都是 没有意义的。 研究过程中也发现了这样的事实,序列相似的蛋白质在功能上并没有明显的相关 性,反过来也一样,就是功能相关的蛋白质并没有序列或结构上的相似性。所以近年来, 基于非同源性的分析方法越来越显示出它的重要性。该方法是通过蛋白质的属性,而不 是与其他蛋白质序列的相似性来对蛋白质进行功能注释的,这些属性主要包括等电点、 7 东北师范大学硕士学位论文 分子量、酶切特性、疏水性、电荷分布等。 目前预测蛋白质相互作用的非同源性方法主要有以下几种,基于基因组信息方法、 基于进化关系方法、基于蛋白质序列的从头预算方法( 沿用了预测蛋白质三级结构中的 术语) 和基于三级结构信息的方法。前两种方法都具有一定的局限性,如需要知道全基 因组信息等。基于蛋白质序列从头预测的方法首先由b o c k 和g 0 u 曲提出,指出该方法 仅需要知道蛋白质序列的信息n 引;基于三维结构信息方法也就是同源结构复合物方法 ( h o m o l 0 9 0 u ss 仃u c t i l l r a lc o n l p l e x 鼯) ,提供了在线的w 曲服务,用提交的两个序列对数 据库搜索序列的同源性如果找到一个同源序列即可证明该提交的蛋白质序列存在对相 互作用有利的经验潜能。以下是对基于基因组的几种常用方法作简要介绍,而在后面重 点论述本文所用方法基于序列从头预测的方法。 1 系统发育谱法 图2 3 是系统发育谱法的图形化表示呦1 ,据图可知系统发育谱法是指功能相关的基 因同时出现或不出现在一组完全测序的基因组中,这种存在或不存在的模式被称作系统 发育谱。如果两个蛋白质他们的序列没有同源性,但他们的系统发育谱一致或相似,可 以认为他们是功能上相关的。p e l l e 班n i 等人选择了1 6 个完成全测序的细菌基因组构建 大肠杆菌核糖体蛋白r l 7 ,鞭毛结构蛋白f l g l ,和组氨酸合成蛋白h i s 5 等三种蛋白的 系统发育谱盥,结果显示,功能相关的蛋白能够很好地聚类在一起。这个方法提供了一 种为未知功能蛋白注释的方式。但是,它的限制是,不能判断功能相关的蛋白是否物 理上直接接触,只能注释非必需蛋白的功能;其准确性依赖于完成全测序的基因组的 数量以及系统发育谱方法的可靠性。 o 曙l 。 魄2 o 曙3 d 曙4 p m t a p m t b p m t cp m t d 一 图2 3 系统发育谱 2 基因融合事件 基因融合事件是指相同的蛋白域出现在不同的基因组中,这些蛋白域或是一个多肽 链( 多个蛋白域) 的部分,或是一个独立的蛋白质( 单个蛋白域) ,如图2 4 所示啪1 ,在 有机体l 中的两个蛋白域在有机体2 中被融合为一个蛋白域,则可以认为他们之间是相 互作用的。结合递归序列搜索和多序列联配( m s a ) 等方法去检测这样的域融合事件, 研究表明这样的域融合事件频繁的出现在起代谢作用的蛋白质中。m a r c o t t e 等人凹1 与 8 东北师范大学硕士学位论文 e 血g h t 等人瞳砌分别建立了这个方法。e d h a r d 等人搜索了4 2 9 0 个大肠杆菌蛋白质序列, 获得了6 8 0 9 个缸i p l c tc a n d i d a t e 。经过过滤步骤,最后确定为7 4 9 个,明显增加了候选者 属于功能上相互作用的机率。但是,这个方法的限制也是不能判断发生融合的蛋白质是 否“物理”上直接接触。此外,基因融合的机制可能是复杂多样的,必然会带来较高的 假阳性率。 p ”o t np m t b p t 曲 h 图2 4 基因融合事件 3 基因邻接法 基因邻接法是指在细菌基因组中的一个特定区域中的多个基因,如图2 5 所示,这 些基因趋向于编码形成功能相关的蛋白质,如操纵子等,这些邻接关系在别的物种中出 现时变得异常的相关。在各种细菌基因组中基因邻接法已被广泛的应用于功能相关性预 测,但这个方法的局限性是只能应用于细菌基因组中嘲。 咖j 莲忖点,口 d 曙2 1 h 卜_ :一童? 魄4 莲 一j p 三c h 图2 s 基因邻接法 4 镜象树法 据最近多数的研究表明,相互作用的蛋白质两两之间存在共进化( c o e v o l u 抽n ) 的 本质,如胰岛素和它的受体等啪1 。通过构建和比较它们的系统发育树,如果发现它们的 系统发育树显示了极大的相似性,则这种相似的树被称作镜象树,如图2 6 所示。g o h 等人引入了线性相关法定量的描述了磷酸甘油酸盐激酶的两个域之间系统发育树的相 似性。而在本质上,这个方法同上述系统发育谱法是一致的。 q 东北师范大学硕士学位论文 图2 6 镜象树法 2 2 蛋白质相互作用数据库简介 基因组数据呈指数增长已是不争的事实,面对大量的生物信息数据资源,必须采用 有效的方法,将它们进行适当的管理和维护,以便进一步的分析、处理和利用,这就需 要为之建立数据库。 生物信息学数据库是我们人类的宝贵资源和财富,它是随着数据库、计算机网络和 人工智能等技术的发展,出现的一种新的信息管理技术。生物信息学数据库是从多个内 容相关的、物理和逻辑上都相互独立的数据源中提取面向主题的数据集合,通过i n t 锄e t 将这些数据复制到一个数据存储中心,进行重新组织与集成,从而将一个海量的数据库 呈现在用户面前比4 1 。 目前,虽然大多数国家都建有自己的生物信息学数据库资源,但由于使用目的和分 类等的不同,产生了大量的冗余数据,其中大多数还不为我们所知。为了更好更充分的 利用好这些资源,先后建立了多个以不同功能和作用为导向的专门数据库。 一般而言,这些生物信息数据库可以分为一级数据库、二级数据库。一级数据库 的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释:如g 锄b a n k 、 啪l 、d d b j 等。二级数据库是在一级数据库、实验数据和理论分析的基础上针对特 定目标衍生而来,是对生物学知识和信息的进一步整理,如我们这里研究的蛋白质相互 作用数据库等。同时又由于研究目的和物种的不同,不同的研究所都建有自己独立和专 门的数据库,如下面的蛋白质相互作用数据库d p 、m i p s 、b d d 等。 2 2 1d i p 数据库 d d 数据库收集了由实验验证的蛋白质一蛋白质相互作用数据,其中包含了蛋白质 的信息、相互作用的信息和检测相互作用的实验技术三个部分昭6 。此外,存储在d i p 中 的部分蛋白质相互作用信息是由专家们手工确认完成,还有一些是使用有关蛋白质相互 作用网络知识提取自动验证生成,但提取的这些数据通常都是比较可靠的,是d p 的核 心子集。另外,d p 数据库中数据的检测有3 种指标,即e p ri n d e x 、p v ms c o r e 和d p v l o 一黼一嘛 一 东北师范大学硕士学位论文 s c o 。在目前还不存在相互作用蛋白质标准数据集的情况下,d p 为采用计算方法自动 验证高通量技术产生的蛋白质相互作用数据做了开拓性的工作。 d m 数据库可按蛋白质序列或蛋白质的注释信息、节点号、模体等信息对未知蛋白 质进行查询。如对节点进行查询,则可进一步的了解它在p 瓜、s s s p r o t 、g e n b j 蝴 o ,则我们认为它们是相互作用的,否则认为它们是不相互作 用的。 总之,s 讧就是从训练数据中找到最主要的数据( 支持向量数据) ,以此来识别未 知数据的类别。它可用于分析各种复杂的数据,在各个领域都有着广泛的应用。用支持 向量机来分析蛋白质相互作用的数据早在2 0 0 1 年j o e lr b o c k 和d a v i da g o u g h 的论 文中有所阐述,他们用支持向量机来对d 口数据库中的数据集进行蛋白质相互作用数据 的识别,并用离散的二进制来表示,其中1 代表相互作用的蛋白质,1 代表不具有相互 作用的蛋白质。 4 3 3 实验结果 本文利用支持向量机( s v m ) 对上一章所提蛋白质序列特征进行相互作用识别, 我们使用了1 9 0 条数据样本,包括正样本( p o s i t i v e ) 9 3 对和负样本e g a t i v e ) 9 7 对, 如表4 1 所示。图4 3 显示了支持向量机对表4 1 所提的粗糙样本集进行的分类验证,由 实验结果可知它具有“8 9 的预测准确率,虽然不够高,但相对于系统发育谱、基因 融合事件等方法相比还是获得了较高的预测准确率。 图4 3 支持向量机分类结果 东北师范大学硕士学位论文 虽然支持向量机具有多方面的优点,但是,它也存在着一定的不足,如只能用离散 的二进制来进行表示,而不是一个概率的值,也就是说只能验证模型的好坏,而不能解 决实际问题。 4 4 小结 本文简单介绍了支持向量机分类算法的原理和优点。重点叙述了支持向量机在蛋白 质相互作用识别中的应用。我们的实验研究表明,只使用了一个特征属性,支持向量分 类算法的准确率就高于其他蛋白质相互作用预测方法,如系统发育谱等。但是,它不能 解决实际的分类问题,只能给出一个预测评估的准确率。所以在下一章节中我们将重点 论述基于b p 神经网络的蛋白质分类方法,能够具体的解决实际分类的需要。 东北师范大学硕士学位论文 第五章基于b p 神经网络的蛋白质相互作用聚类研究 5 1 引言 蛋白质组学致力于阐明细胞或有机体中所有蛋白质的结构、相互作用和蛋白质的功 能。我们的目标是通过蛋白质相互作用数据能够准确地对蛋白质的功能进行分类,最终 能在蛋白质分子水平对疾病进行处理。预测蛋白质相互作用的研究,最原始的方法是利 用序列谱比对的思想,如比对它们的系统发育谱以及观察它们在多个物种中发生的融合 情况。而近来对蛋白质相互作用预测则主要集中在对机器学习方法的应用上,主要包括 近来比较流行的支持向量机、普遍使用的朴素贝叶斯、决策树和神经网络等。 在上一章中我们介绍了基于支持向量机的蛋白质相互作用分类算法描述。众所周 知,支持向量机只能使用有限的、单一成分的属性,这对蛋白质序列的认识来说是不全 面、不科学的,在本章中,我们使用了能够整合多个特征属性的b p 神经网络对来自相 同数据库的蛋白质相互作用标准数据集进行有效的识别。 本章所述方法,结合了b p 神经网络的蛋白质序列从头预测的方法,序列从头预测 法最初用在蛋白质三级结构预测中。本文主要利用了氨基酸残基的理化特征、疏水特征 及使用统计的思想,对序列特征进行局部统计扩展到全局统计,应用b p 神经网络对相 互作用的蛋白质序列特征进行有效的分类识别。 由试验结果表5 - 3 可知b p 神经网络可以很好的区分相互作用以及不具有相互作用 的蛋白质,利用m 口s 数据库的功能分类察看所得结果可知具有较高的准确性,得到的 分类结果同其它方法相比具有较低的假阳性率。 我们的方法运行在呲w s 操作系统平台上,编程语言使用m a t l a b 7 1 。以下各部 分分别介绍蛋白质相互作用预测中所用到的材料和方法以及用b p 神经网络预测得到的 结果和分析,最后阐述蛋白质相互作用预测的总结和讨论。 5 2 阴神经网络基本原理 1 9 8 5 年d i e l h a f t 和m c c l e u 粕d 提出了误差逆传播网络,简称为b p ( b a c k p r o p a g 撕o n ) 网络,它可以被视作是最小均值平方算法的推广。典型的b p 神经网络是 三层、前馈阶层网络,即输入层、隐含层( 中间层) 和输出层m 3 利。各层之间实行全连 接,并通过中间层的“内部表示”来识别非线性模式。 图5 8 是具有三层的基本b p 网络结构,它实现由输入x - x l ,x 2 ,砀) 到输出 y - y 1 ,y 2 ) 的映射( 或分类) m 。根据m p 神经元模式原理,可计算出中间层各单元 的输入为: 东北师范大学硕士学位论文 s _ ,= 嘞气一e 其中,f 为输入层神经元节点的个数,j f 勇中间层神经元个数,嘞为输入层至中间层的 连接权,e 为中间层神经元阈值; 输入层 中间层输出层 图5 8 三层b p 网络结构 y l y 2 s 。作为s 函数的自变量以模拟生物神经元的非线性特性,得到中间层各单元的输 出: 6 ,2m 胪毒= 云 同理,可得到输出层各神经元的输入和输出: 工i = v ,1 6 ,一 q = 厂( 厶) 其中,七为输出层神经元( 节点) 个数,这里七= 1 ,2 ;,雎是中间层至输出层连接权; 气为输出层神经元阈值;厂同样为s 函数。 由上可知s 函数的数学表达式为: 厂:与 l + p 而 这里选用s 函数作为各层的响应函数,其主要的特征是s 函数的导数可用s 函数自身来 表示。 为了使网络的实际输出值尽量的逼近我们的期望,进行以下的误差逆传播过程: 首先调整输出层的误差( d ,) 向中间层的误差( q ) 传递过程,即校正输出层的误差和 中间层各单元的校正误差如下所示: 东北师范大学硕士学位论文 = ( y :一) 厂。( 厶) 其中,七为输出层神经元的个数,f 为样本个数。 2 弓= 】厂呜) 七j 得到了各层的校正误差后,就可沿逆方向调整各层之间的连接权,以及各层单元的 输出阈值,其调整量如下所示: 血肛= 磁嘭 调整输出层至中间层的连接权;。 儿= 口d : 调整输出层各单元的输出阈值; w 玎= p ;口; 调整中间层至输入层的连接权; b = 摩: 调整中间层各单元的输出阈值。 这里为学习率:其他与上面同。 完成了模式顺传播和误差逆传播后,接下来就是对网络进行训练的过程,一般的 b p 网络要经过上百次乃至上千次的训练后,才能收敛。任何一种网络都有它的局限性, b p 网络同样也有一定的缺点,如容易陷入局部最小值等问题。但更重要的是它还具有 以下的特点: ( 1 ) 它具有一般人工神经网络所具有的优点,如具有非常强的容错性等。即部分神经 元损坏后,不会对全局的活动造成很大的影响。 ( 2 ) b p 神经网络是属于有教师示教的学习型网络。调整它的权值和阈值,使它越来 越接近我们所期望的目标。 ( 3 ) b p 神经网络最后输出的是一个概率值,可以理解为是一个隶属度,即输出结果 隶属于相互作用或不相互作用蛋白质对的程度,以利于生物学家做最后的决定。 5 3b p 神经网络应用 5 3 1 实验材料 1 相互作用蛋白质标准数据集 数据量呈指数增长是人类基因组计划实行以来生物医学研究领域最大的特点。如何 有效地存储、管理、分发和分析这些海量的数据,构成了生物信息学研究的核心问题。 随着研究蛋白质相互作用实验技术的发展,特别是大规模高通量的实验技术如双酵母杂 交技术、质谱技术、蛋白质芯片等的发展和应用及实验方法的高输出特性,产生了大量 的蛋白质相互作用数据。当前对整个基因组的蛋白质相互作用的网络分析的需求,使得 蛋白质相互作用的数据库不断应运而生,如d 口、b 玳d 等。科学家们应用最新的信息 技术和网络技术收集整理这些宝贵的数据,把它们建立成库,并和其他的基因组信息、 蛋白质信息、注释信息整合和附加证据,为广大的实验生物学家提供了十分方便的服务。 但大规模实验和计算方法预测得到的蛋白质相互作用数据一般都包含很高的假阳 性率,而这有可能给更好地解释生物学过程和细胞功能带来麻烦。为了解决这个问题以 东北师范大学硕士学位论文 及证实本文所提方法的正确性,我们使用来自m 口s 数据库的酵母相互作用标准数据集, 如表5 1 所示。m u n i c hi n f l o m 嵋呖o nc 衄t e rf o rp r o t e i ns e q u e e s s ) 数据库提供了对酵 母基因的功能注释信息,功能分类注释( 如n c 曲n a l c a 锄;o 巧锄。切时o n ) 。在本研究中,我 们使用该信息作为酵母基因的功能注释数据,所使用的相互作用酵母标准数据集包含 1 4 5 l l 条相互作用蛋白质数据对,其中4 8 3 7 条数据用于提取确实存在相互作用的蛋白质 特征,9 6 7 4 条数据用于提取不具有相互作用的蛋白质特征。 表5 1 蛋白质相互作用数据集样本 y e l m 4 4 q y l r lo o w i n t e r a c t 她 y 儿l6 8 c y k l l8 2 wn o n - 血e r a c 血g y b r l 6 0 w j 但r 1 2 0 w i n t e m c t i n g y m r 0 6 l 、r _ y o r l 9 l w jn o n - i n t e r a c t i 】呜 y a l 0 2 4 c - y o r l 0 1w ,i n t e r a c t 吨y g r 2 0 8 w i ,2 0 5 w n o n - i i l t e m c 血g y d i u 9 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论