(生物医学工程专业论文)蛋白质相互作用数据管理与分析预测.pdf_第1页
(生物医学工程专业论文)蛋白质相互作用数据管理与分析预测.pdf_第2页
(生物医学工程专业论文)蛋白质相互作用数据管理与分析预测.pdf_第3页
(生物医学工程专业论文)蛋白质相互作用数据管理与分析预测.pdf_第4页
(生物医学工程专业论文)蛋白质相互作用数据管理与分析预测.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l - n a n j i n gu n i v e r s i t yo f a e r o n a u t i c sa n d a s t r o n a u t i c s t h eg r a d u a t es c h o o l c o l l e g eo f a u t o m a t i o ne n g i n e e r i n g a n a l y s i sa n dp r e d i c t i o no fp r o t e i n - - p r o t e i n i n t e r a c t i o n sa n dd e s i gftoolan1 1 e s l g n0m a n a r e m e n tt 0 0 l a t h e s i si n b i o m e d i c a le n g i n e e r i n g b y z h o uz h e n g r o n g a d v i s e d b y p r o f e s s o rs o n gx i a o f e n g s u b m i t t e di np a r t i a lf u l f i l l m e n t o ft h er e q u i r e m e n t s f o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g m a r c h ,2 0 1 0 肼l iii 川3 棚9m 90 舢8 邶1舢y k-lilf 承诺书 本人声明所呈交的硕士学位论文,是本人在导师指导下, 独立进行研究工作所取得的成果。尽我所知,除文中已经注明 引用的内容外,本学位论文的研究成果不包含任何他人享有著 作权的内容。对本论文所涉及的研究工作做出贡献的其他个人 和集体,均已在文中以明确方式标明。 本人授权南京航空航天大学可以有权保留送交论文的复 印件,允许论文被查阅和借阅,可以将学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复 制手段保存论文。 ( 保密的学位论文在解密后适用本承诺书) 作者签名: 日期: 南京航空航天大学硕十学位论文 摘要 当前生命科学研究已经进入后基因组学时代,其主要研究对象为结构基因组学和蛋白质 组学。细胞的功能必须通过蛋白质相互作用才能实现,因此,对蛋白质相互作用的研究显得 尤为重要。 随着高通量的生物实验技术发展和应用,产生了大量的蛋白质相互作用实验数据,但是 此类方法所得到的数据假阳性和假阴性比率都比较高。因此,有效的计算方法被用来蛋白质 相互作用预测的研究。本文旨在以机器学习及模式识别理论为基础,以蛋白质序列信息为前 提预测蛋白质相互作用。 本文的主要工作包括:蛋白质相互作用预测算法和蛋白质相互作用数据管理工具。本文 主要内容以及创新之处包括以下两方面: 1 、本文蛋白质相互作用预测算法基于蛋白质序列信息。首先对样本数据进行预处理,预 处理得到的数据格式为本文自定义的特殊批处理数据格式。然后,分别对蛋白质序列的氨基 酸频率、位置、物化性质、生化相似性等特征分别进行特征提取。接着,采用支持向量机作 为样本的分类器,因为支持向量机是基于结构风险最小化的统计学习理论,并且支持向量机 支持小样本分类预测。对于每一个特征所得到的数据训练支持向量机预测模型,分别将其置 于组分分类器中。本文的3 个支持向量机预测模型作为组合分类器的子分类器,采用基于成 员的组合分类器预测算法得到最终预测结果。本文对组合分类器算法进行了详细的研究和公 式推导,并且计算得出基于成员数目的组合分类器理论约束条件。在3 类数据集合上:人、 酵母、果蝇验证本文算法,组合分类器预测准确率优于单个分类器预测准确率,并且部分数 据集预测结果高于相关文献的结果。 2 、本文的另外一部分工作是蛋白质相互作用数据管理工具的设计。因为本课题数据部分 比较特殊:来源广泛、数据格式多样。因此会造成数据查询、插入和管理的困难。现有大部 分网络数据库管理系统或提供蛋白质序列信息或提供相互作用信息,没有同时提供序列信息 和相互作用信息。本课题设计的数据管理工具可以同时显示序列信息和相互作用信息,用户 无需跨数据库平台就可以得到蛋白质相互作用研究所需的序列和相互作用信息。本工具为 b s 结构,前台是基于a s p n e t 网页开发平台和h t m l 脚本的w e b 界面,后台采用c 撑n e t 编写消息处理函数,前后台通信采用a p i 函数。本工具的后台数据库采用s q ls e r v e r 。本工 具是对蛋白质相互作用数据管理工具开发的一次有效尝试,其基本功能贴近课题实际。 关键词:蛋白质相互作用,支持向量机,组合分类器,数据管理工具,b s 架构 蛋白质相互作用数据管理与分析预测 a b s t r a c t c u r r e n t l y , r e s e a r c ho nl i f es c i e n c eh a se n t e r e dap o s t g e n o m i c se r a ,m e a n w h i l et h em a j o rp a r t o fl i f es c i e n c eh a sb e e nf o c u s e do ns t r u c t u r a lg e n o m i c sa n dp r o t e o m i c s a sw ek n o w n ,m o s t p r o t e i n sp e r f o r mf u n c t i o nb yi n t e r a c t i n gw i t l lo t h e rp r o t e i n s a sar e s u l t t h er e s e a r c ho n p r o t e i n - p r o t e i ni n t e r a c t i o n s ( p p i ) i sb e c o m i n gm o r ea n dm o r ei m p o r t a n t w i t ht h er a p i dd e v e l o p m e n ta n d a p p l i c a t i o no ft h et e c h n o l o g yo ft h eh i g h - t h r o u g h p u tb i o l o g i c a l e x p e r i m e n t s ,al a r g en u m b e ro fp r o t e i n - p r o t e i ni n t e r a c t i o ne x p e r i m e n t a ld a t ah a sb e e np r o d u c e d h o w e v e r , t h er e s u l t so ft h i sb i o l o g i c a lm e t h o da r eb l o c k e db yt h eh i g hr a t eo ff a l s ep o s i t i v ed a t a a n dn e g a t i v ed a t a s o ,t h ee f f e c t i v ec a l c u l a t i o nm e t h o di su s e dt o p r e d i c tt h ep r o t e i n - p r o t e i n i n t e r a c t i o n t h i sp a p e ra i m st ou s et h et h e o r yo fm a c h i n el e a r n i n ga n dp a t t e mr e c o g n i t i o nt op r e d i c t p r o t e i n - p r o t e i ni n t e r a c t i o nb a s e d o np r o t e i ns e q u e n c ei n f o r m a t i o n t h em a j o rc o n t e n to ft h i sp a p e ri ss e p a r a t e dt w om a i np a r t s ,t h ea l g o r i t h mo ft h ep r o t e i n p r o t e i n i n t e r a c t i o n sa n dt h es o f t w a r e - t o o lm a n a g i n gt h ed a t ao f p r o t e i n - p r o t e i ni n t e r a c t i o n s i nt h i sp a p e r , t h ei n n o v a t i o na n dc o n t e n tc a nb es e e na st h et w of o l l o w i n ga s p e c t s 1 、t h ea l g o r i t h mo ft h ep r o t e i n p r o t e i ni n t e r a c t i o n s i nt h i sp a p e ri sb a s e do nt h ei n f o r m a t i o no f t h ep r o t e i n s s e q u e n c e f i r s t l yo fa l l ,w en e e dt od e a lw i t ht h es a m p l ed a t ai nt h a tt h ef o r mw e n e e d e di ss p e c i a l ,w h i c hc a nf i to u rp r o g r a m sw e l l s e c o n d l y , w ee x t r a c tt h ef e a t u r eo nt h ea m i n o a c i df r e q u e n c y , l o c a t i o n ,p h y s i c a la n dc h e m i c a lp r o p e r t i e s ,b i o c h e m i c a lc h a r a c t e r i s t i c so fs i m i l a r i t y f r o mt h ep r o t e i ns e q u e n c e t h i r d l y , t h es u p p o r tv e c t o rm a c h i n e ( s v m ) ,w h i c hs u p p o r t ss m a l l s a m p l ec l a s s i f i c a t i o na n dp r e d i c t i o n ,i su s e da st h ec l a s s i f i e rb e c a u s et h es v mi sb a s e do n s t r u c t u r a lr i s km i n i m i z a t i o no fs t a t i s t i c a ll e a r n i n gt h e o r y t h em o d e l so ft h es v mb a s e do nt h e f e a t u r e sm a k eu pt h ee n s e m b l ec l a s s i f i e r w eu s et h ee n s e m b l ec l a s s i f i e rt op r e d i c tt h ef i n a lr e s u l t s i nt h i sp a p e r , t h ee n s e m b l ec l a s s i f i e ra l g o r i t h mi ss t u d i e di nd e t a i l ,a n dw ec a l c u l a t ea n dd e d u c et h e t h e o r yc o n s t r a i n t so ft h ee n s e m b l ec l a s s i f i e r o nt h et h r e ed a t a s e t s ,h u m a n ,y e a s ta n dd r o s o p h i l a , t h ea l g o r i t h mi sv e r i f i e d f i n a l l yt h er e s u l t so ft h ep r e d i c t i o ni s p a r t l yh i g h e rt h a nt h el i t e r a t u r e p r e d i c t e dr e s u l t s 2 、t h es e c o n dp a r to ft h ep a p e ri sf o c u s e do nt h ed e s i g no ft h ep p id a t am a n a g e m e n tt 0 0 1 w e d e s i g nt h et o o la st h er e s u l to ft h ec o m p l e xo ft h eo r i g i n a lp r o t e i ns e q u e n c e s ow i d ev a r i e t yo ft h e d a t as o u r c e sm a yc a u s et h ed i f f i c u l to ft h eq u e r y , i n s e r t i o na n dm a n a g e m e n t h o w e v e r , t h em o s t e x i s t i n gn e t w o r kd a t a b a s em a n a g e m e n ts y s t e m sd on o tp r o v i d et h ei n f o r m a t i o no ft h ep r o t e i n s e q u e n c ea n dt h ei n f o r m a t i o no ft h ep r o t e i n - p r o t e i ni n t e r a c t i o na tt h es a m et i m e y o un e e dt o 一 南京航空航天大学硕士学何论文 s e a r c ht w oo rm o r ed a t a b a s es y s t e m st oo b t a i nt h ed a t ao fp p ia n ds e q u e n c ea tt h es a l t l et i m e o b v i o u s l y , i ti sv e r yi n c o n v e n i e n tw h e ny o ud oy o u rr e s e a r c ho np p i i nv i e wo ft h i ss i t u a t i o n ,w e d e s i g nt h ed a t am a n a g e m e n tt o o lt om e e tt h i ss h o r t ,a n do u rt o o lc a nh e l pt h eu s e rt om a n a g et h e i r p p id a t ab yt h ec o n v e n i e n ti n s e r t i o n ,d e l e t ea n ds e l e c t i o n t h em o s ti m p o r t a n tt h i n gi st h a tw e c o m b i n et h ei n f o r m a t i o no ft h es e q u e n c ea n dt h ei n f o r m a t i o no ft h ep p ii nt h et 0 0 1 t h i ss t r u c t u r e o ft h et o o li sb s ,a n dt h ep r o s p e c to ft h i st o o li sb a s e do na s p n e tw e bd e v e l o p m e n tp l a t f o r ma n d h t m l s c r i p t s ,t h eb a c k g r o u n du s i n gc 群n e tp r o g r a mt oc o m p l e t et h et h r e em e s s a g ep r o c e s s i n g f u n c t i o n s t h ec o m m u n i c a t i o nb e t w e e nt h eb r o w s e ra n ds e r v e ri sb a s e do nt h ea p if u n c t i o n s w e u s et h es q ls e r v e rt os t o r et h ed a t ai nt h et 0 0 1 t h i st o o li nt h ep a p e ri sa ne f f e c t i v ea t t e m p tt ot h e p r o t e i n - p r o t e i nd a t am a n a g e m e n t ,a n dt h ef u n c t i o no ft h i st o o lc a nt o t a l l ym e e tt h er e a ln e e di nt h i s p a p e r k e yw o r d s :p p i ;s v m ;e n s e m b l ec l a s s i f i e r s ;d a t am a n a g e m e n tt o o l ;b s 蛋白质相互作用数据管理与分析预测 i v 南京航空航天大学硕十学位论文 目录 第一章绪论1 1 1 论文的研究背景。l 1 2 论文主要内容5 1 3 论文的主要创新点6 1 4 论文的章节安排一6 1 5本章小结6 第二章背景知识7 2 1生物信息学简介7 2 2信息科学时代的生物信息学8 2 3机器学习技术及其在生物信息学中的应用8 2 3 1机器学习技术8 2 3 2机器学习技术在生物信息学中的应用1 l 2 4本章小结1 1 第三章系统框架性设计与数据预处理1 2 3 1系统框架性设计1 2 3 2 实验数据来源和实验数据预处理1 3 3 3 本章小结1 6 第四章蛋白质数据库及蛋白质相互作用数据管理工具设计1 7 4 1 常用的蛋白质序列及蛋白质相互作用数据库1 7 4 1 1 d i p 数据库1 7 4 1 2 矾t a c t 数据库1 8 4 1 3 s w i s s p r o t 数据库1 9 4 1 4p i r 数据库2 0 4 2 蛋白质相互作用数据管理平台设计2 l 4 3 本章小结2 6 第五章蛋白质序列特征向量2 7 5 。l特征向量2 7 5 1 1 k - l e n g t hc o u n t ( k l c ) 2 8 5 i 2 k - n e a r e s t - n e i g h b o r ( k n n ) 2 9 蛋白质相互作用数据管理与分析预测 5 1 3 b i o - s i m i l a r i t y ( b i o ) 3 0 5 2 本章小结3 1 第六章支持向量机( s v m ) 与组合分类器结构3 2 6 1 支持向量机3 2 6 1 1 支持向量机的背景理论基础3 2 6 1 2 线性判别函数和分类面3 2 6 1 3 支持向量机3 3 6 1 4 l i b s v m 3 5 6 2组合分类器结构3 7 6 2 1组合分类器的基本结构3 7 6 2 2 组合分类器决策3 8 6 3本章小结3 9 第七章算法结论和分析4 0 7 1课题数据选择4 0 7 2算法评价标准4 0 7 3数据结论4 1 7 4本章小结4 3 第八章总结与展望4 4 8 1总结4 4 8 2展望4 4 参考文献4 6 部分课题算法实现程序5 0 致谢6 7 在学期间的研究成果及发表的学术论文6 8 南京航空航天大学硕士学位论文 图表清单 图1 1 系统发育谱法的示意图2 图1 2 基因融合法的示意图3 图1 3 基因近邻发在细菌基因组中的示意图3 图1 4 蛋白质相互作用无向图4 图2 1 机器学习方法在生物信息中应用模型8 图2 2 隐马尔科夫模型状态变迁图拉钉。9 图2 3b p 网络训练阶段模型啦引1 0 图2 4b p 网络预测阶段模型幢引1 0 图3 1 课题系统整体框架结构图1 2 图3 2m u l t i p l es e q u e n c ea 1i g n m e n tc l u s t a l w 在线序列比对工具。1 4 图3 3 酵母蛋白质的f a s t a 格式1 5 图3 4 经过预处理后符合后续格式要求的数据格式1 5 图4 1 蛋白质4 8 3 n 在d i p 中的查询结果1 7 图4 2 在d i p 中查询的与4 8 3 n 有相互作用的蛋白质。1 8 图4 3i n t a c t 数据库基本查询1 8 图4 4d i p 数据库高级查询,在f i e l d 下拉选择框中可以选择查询条件。1 8 图4 5 蛋白质r r p 4 2 和与其有相互作用4 5 个蛋白质构建的相互作用网络一1 9 图4 6s w i s s p r a r r 中提供的蛋白质的二级结构。1 9 图4 7 蛋白质p 0 1 5 7 9 在s w i s s p r o t 中的序列查询结果2 0 图4 8p i r 蛋白质数据库文本搜索2 0 图4 9p i r 蛋白质数据库文本搜索结果一2 1 图4 1 0 在s q ls e r v e r 企业管理器中创建数据库表2 3 图4 1 1 蛋白质相互作用数据管理平台前台界面。2 4 图4 1 2 p 0 1 5 7 9 蛋白质查询的结果2 5 图4 1 3 删除蛋白质p 4 2 5 7 4 2 5 图4 1 4 增加p 4 2 5 7 4 蛋白质,其相互作用蛋白质为p 7 9 8 0 2 2 5 图4 1 5 在控制面板中配置i i sw e b 服务器2 6 图5 1 对于任意一条序列,长度为i 的滑动窗口w 取关键字示意图2 9 图6 1c 1 和c 2 分别表示平面上两类不同数据【3 们3 2 图6 2 黑色的表示数据c l ,红色的表示数据c z l 刈3 3 图6 3 方形和圆形分别代表两类数据,h 为分类纠圳3 4 图6 4 支持向量机的基本结构示意图p 刀3 5 图6 5l i b s v mw i n d o w s 命令行界面3 6 图6 6 组合分类器的基本结构【3 9 1 【4 0 】【4 l 】3 8 蛋白质相互作用数据管理与分析预测 表4 1 常用蛋白质相互作用数据库一2 l 表5 12 0 种氨基酸的字母简写2 7 表5 2 氨基酸物化性质分类【3 2 】。2 8 表5 3 氨基酸按照生化相似性分6 类【3 3 l 3 0 表7 1 人的蛋白质相互作用数据样本1 4 2 表7 2 人的蛋白质相互作用数据样本2 4 2 表7 3 人的蛋白质相互作用数据样本3 。4 2 表7 4 人的蛋白质相互作用数据样本4 4 2 表7 5 人的蛋白质相互作用数据样本5 。4 2 表7 6 酵母蛋白质相互作用数据4 3 表7 7 果蝇蛋白质相互作用数据4 3 南京航空航天大学硕士学位论文 缩写 h g p t h m s p c f p f n g o s v m d o m a i n h t m l n c b i e m b l d d b j b i o i n f o r m a t i c s h m m a n n b p h c k n n k - l e n g t h b i o s i m i l a r i t y c s b s i i s x x f x i 3 形 注释表 中文全称 人类基因组计划 酵母双夹杂法 质谱法 蛋白质芯片 假阳性 假阴性 基因本体论 支持向量机 结构域 超文本标记语言 美国国家生物技术信息中心 欧洲分子生物学实验室 日本d n a 数据库 生物信息学 隐马尔可夫模型 人工神经网络 反向传播网络 分层聚类 k 近邻算法 k 长度算法 生化相似性算法 客户端朋艮务器 浏览器服务器 英特网服务 输入空间 特征空间 向量内积 权值 蛋白质相互作用数据管理与分析预测 a c c s n s p x 准确率 敏感性 特异性 南京航空航天大学硕士学位论文 第一章绪论 1 1 论文的研究背景 传统的生物学是一门实验和发现科学。通过研究实验过程、实验现象和实验数据,进行处 理、分析,并且在此基础上发现和解释新的现象、规律。从而探索固有的生物学规律,进一步 了解和掌握生命的物质基础和生命的本质。随着生物实验技术的不断发展,生物数据正在不断 增加,对海量生物学数据分析也提出了新的要求。 人类基因组计划【i 】( h u m a ng e n o m ea r o j e c t ,h g p ) 是美国在1 9 9 0 年提出的规模巨大的科研 计划。该计划和阿波罗登月计划和曼哈顿原子弹计划被称为人类发展史上的三大计划。该计划 对人类全部的2 4 条染色体中的所有碱基对进行序列测序和绘图,以此解读和破译人体生老病死 的全部信息。 伴随着人类基因组计划的顺利推进和实现,产生了大量的生物分子数据。目前生物分子数 据量每个月几乎增长一倍。这些生物数据具有非常丰富的内涵,人类目前还不能理解这些数据 背后的重要的意义。因此,如何通过数据分析和处理方法来揭开生命的秘密是生物科学家、数 学科学家和计算机科学家所面临的巨大挑战。生物信息学就是为了迎接这种挑战而发展起来的 一门新兴科学。它是由数学、计算机科学、生物学交叉形成的学科。其主要任务主要包括生物 分子数据收集和管理、数据处理和分析、软件开发等。 目前,人类基因组计划已经提前计划完成,生命科学的研究已经进入后基因组学 ( p o s t - g e n o m i c s ) 时代,其主要研究对象为功能基因组学,主要包括结构基因组学和蛋白质组学 的研究。功能基因组学的任务是进行基因组功能注释、识别基因的功能、研究基因和疾病之间 的联系,掌握基因的产物及其在生命活动中的作用。功能基因组学从基因组整体水平上对基因 的活动规律进行阐述,从而彻底的改变了传统生物学的研究思维。 作为功能基因组学的核心,蛋白质组学以细胞内全部蛋白质存在及其活动形式为研究对象。 它从全局的角度动态的分析蛋白质组成、表达和修饰,在此基础上研究蛋白质之间的相互作用 和联系,并且揭示蛋白质功能和细胞生命活动规律的研究领域。目前,蛋白质一蛋白质相互作用 ( p r o t e i n p r o t e i ni n t e r a c t i o n ,p p d 为蛋白质组学主要研究热点之一。 细胞的功能是由蛋白质通过之间的相互作用实现的 2 1 ,即生物学上的组织功能由相互作用 的蛋白质形成的网络及其不同蛋白质相互作用实现的。随着高通量生物实验技术的发展和应用, 如酵母双杂交法f 3 1 ( t w oh y b r i d ,t h ) 、质谱澍4 1 ( m a s ss p e c t r o m e t r y ,m s ) 、蛋白质芯片技术 ( p r o t e i nc h i p s ,p c ) 、噬菌体展示技术( p h a g ed i s p l a yt e c h n i q u e s ,p d t ) 、串联亲和纯化法( t a n d e m a f f m i t yp u r i f i c a t i o n ,t a p ) 、荧光共振能量转移( h u o r e s c e n c er e s o n a n c ee n e r g yt r a n s f e r , f r e t ) l 蛋白质相互作用数据管理与分析预测 【5 1 等方法,人们获得了大量的蛋白质相互作用数据。但是这些生物实验方法不仅费时费力、成 本较高,而且假阳性( f a l s ep o s i t i v e ,f p ) 比率和假阴性( f a l s en e g a t i v e ,f n ) 比率都比较高6 胴, 并且这类方法获得的数据远远不够全面。因此,数学计算方法被应用来预测蛋白质之间的相互 作用。 针对蛋白质相互作用预测,科研人员提出了各种各样的计算预测方法。下面介绍几种传统 的方法【8 】:系统发育谱法、基因融合法和基因近邻等方法。 系统发育谱法主要指功能相关的基因同时出现或者同时不出现在一个基因组中,这种存在 和不存在的关系被称为系统发育谱。图1 1 是系统发育谱法的示意图。a l 和a 3 在不同物种中 具有相同的系统发生树,根据系统发育谱法a l 和a 3 存在相互作用,a 2 和a 4 之间不存在相 互作用。 a 】a 2a 3a 4 o r g1 o r g 2 o r g 3 o r g4 0 o o 图1 1 系统发育谱法的示意图 o 0 基因融合法是指相同的蛋白质出现在不同的基因组中,如蛋白质1 和蛋白质2 出现在一个 基因组中,在另外一个基因组中,蛋白质1 和蛋白质2 被融合成一个蛋白质,则称蛋白质1 和 蛋白质2 有相互作用。基因融合的机制复杂而且多种多样,因此,此方法的假阳 图1 2 是基因融合法的示意图,蛋白质a l 和蛋白质a 2 分别出现在细胞1 中,而 白质a l 和a 2 融合为一个蛋白质,a 1 和a 2 在在细胞1 中存在相互作用。 2 南京航空航天大学硕士学位论文 图1 2 基因融合法的示意图 基因近邻法使用范围比较局限,仅仅指在细菌基因组中的某个特定区域中的多个基因。这 些基因是趋向于编码形成功能上相关的蛋白质。在细菌基因组中这种方法被广泛应用,但是其 局限是次要的方法只能用在细菌基因组中。图1 3 是基因近邻发在细菌基因组中的示意图。在 不同的基因中,a 1 和a 2 都处于近邻的位置,根据基因近邻法a 1 和a 2 存在相互作用。 o 玛1 o 玛2 o 唱3 - _ | _ 图1 3 基因近邻发在细菌基因组中的示意图 i a l 口a 2 m a h m o u d a m a h d a v i 等提出用g o 本体论注释来减少p p i 预测中的假阳性【1 0 1 。该文献从g o 本体论分子功能注释中提取出8 个关键词,分别为( b db i n d i n g 、( a p ) a s e a c t i v i t yp o r t e r 、似r ) a c t i v i t yt r a n s c r i p t i o n 、( a r ) a c t i v i t yr i b o s o m e 、( t a ) t r a n s l a t i o na c t i v i t y 、( s a ) s t r u c t u r a la c t i v i t y 、 ( r r e c e p t o ra c t i v i t y 、( r k ) r e m a i n i n gk e y w o r d s 。从实验获得的蛋白质相互作用数据作为训 练数据,对酵母数据库和蚯蚓数据库进行特异性和敏感性分析。酵母和蚯蚓数据库敏感性分别 为6 4 2 1 和8 0 2 3 ,酵母和蚯蚓数据库特异性分别为4 8 3 2 和4 6 4 9 。 j o e lr b o c k 等采用支持向量机川( s u p p o r tv e c t o rm a c h i n e ,s v m ) 进行聚类分析,以蛋白 3 蛋白质相互作用数据管理与分析预测 质的结构和生化性质进行特征提取。用相互作用的蛋白质对作为训练样本进行训练然后预测蛋 白质之间未知的相互作用。 h a i y u a ny u 等人通过完善网络中“派系”的方法来预测蛋白质相互作用【i3 1 。其算法的主要 思想是通过寻找蛋白质相互作用网络中不完善的“派系”( 只缺少个别蛋白质相互作用数据的“派 系”) ,以完善“派系”的方式来预测缺失的蛋白质相互作用数据。针对这个思想提出的算法主 要分为两步,第一步寻找网络中所有的“派系”,然后找到各自只有一个不同点而其他部分都重 叠的“派系”,对重叠的部分进行预测,最后增加蛋白质相互作用网络无向示意图中可能的连接 线。然而这个算法在寻找“派系”时会陷入“维数灾难”。据此,h a i y u a n y u 等对算法做了改进, 首先寻找网络中节点个数最多的“派系”,对重叠k 个节点和不重叠1 个节点的“派系”不重叠部 分进行预测,最后完善蛋白质相互作用网络。 图1 4 是蛋白质相互作用网络的无向示意图。y _ 1 3 le ,g 表示网络中的一个节点,即为网 络中的一个蛋白质,e 表示网络中蛋白质之间的连接,即为蛋白质之间的相互作用。 图1 4 蛋白质相互作用无向图 m i c h e l l ess c o t t 等通过单个可能与其他蛋白质发生相互作用蛋白质特征的全贝叶斯准则的 方法,来预测蛋白与蛋白之间的相互作用【l 钔。文献中给出了7 个上述的蛋白特征,主要是 e x p r e s s i o n ,o r t h o l g y ,l o c a l i z a t i o n id o m a i nc o - o c c u r r e n c e ,p t mc o - o c c u n e n c e ,d i s o r d e r it r a n s i t i v e 7 个特征。并且给出了改进的局部网络打分函数。s h a w nm e ta l 假设蛋白质相互作用网络中的每 对蛋白质都有一定概率存在相互作用,通过表征蛋白质相互作用网络拓扑结构的全局变量和网 络中局部蛋白质相互作用的局部变量之间建立的概率模型来预测蛋白质的相互作用。文献 1 5 1 7 】提出的方法主要是通过研究蛋白质序列和结构域( d o m a i n ) 序列,构建相应的机器学习模 型,来寻找蛋白质相互作用所遵循的规律。l o f t sn a n n ie t a l 1 e l 采用“2 - g r a m ”编码方式对蛋白 质序列进行特征提取,“1 - g r a m ”是氨基酸字母关键字,“1 - g r a m ”是该关键字在序列中出现 的频率。然后通过对不同的分类器融合来预测蛋白质相互作用。文献 1 9 】采用支持向量机作为 蛋白质相互作用预测分类器。该文献把s v m 核函数细分为蛋白质对核函数、序列核函数、非序 列核函数。通过融合这些核函数来预测蛋白质相互作用。目前,研究人员认为蛋白质最小功能 单元是其一段子序列一结构域,结构域之间相互作用一定程度上反映对应蛋白质之间相互作用。 4 南京航空航天大学硕士学位论文 文献【2 0 2 l 】通过建立蛋白质相互作用与其结构域之间相互作用的数学概率模型预测蛋白相互作 用。 鉴于高通量实验技术所带来的假阳性比率和假阴性比率都比较高,且实验过程复杂,本课 题主要通过研究机器学习方法中支持向量机技术作为分类核心来预测蛋白质之间的相互作用。 “序列决定构象”【2 2 1 原理说明从序列信息中可以得到蛋白质的一切信息。本课题以蛋白质序列 信息为前提。首先根据特征向量提取算法进行特征提取,得到蛋白质序列的数字特征向量,然 后使用分类器进行建模预测。已有大部分基于序列信息预测的算法都集中在分类器的改进和选 择,但是,分类器最终的预测的前提是特征提取后的蛋白质序列数字向量。因此,准确、有效 的特征提取是保证预测准确率的首要前提。本课题使用能较为全面反映序列信息的氨基酸位置、 频率、理化性质、生化特性等特征进行那个特征提取。然后根据不同的特征提取方法得到的特 征向量,训练s v m 预测模型,通过组合分类器方法来预测蛋白质相互作用。本文采用人的数据集、 酵母数据集和果蝇数据集来验证我们的算法。本课题中所涉及的特征提取算法程序、支持向量 机以及相关外围测试算法程序采用c + + ,编译环境为w i n d o w sv i s u a lc + + 6 0 。数据库管理工具 前台w e b 界面基于a s p n e t 网页开发平台,使用h n l 脚本编写。后台控件消息函数采用c 撑语言 编写,编译环境为w i n d o w sv i s u a ls t u d i o2 0 0 3 。数据库管理工具所涉及的数据库采用m i c r o s o f t s q ls e r v e r ,w e b 前台和数据库后台环境均为w i n d o w s 。 1 2 论文主要内容 本文主要运用支持向量机算法和组合分类器算法对蛋白质相互作用进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论