下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、蛋白质功能预测方法研究进展摘 要:蛋白质功能预测是后基因组时代生物信息学的研究热点之一。利用计算方法预测蛋白质的功能,可以弥补传统生物实验方法周期长、效率低和成本高等方面不足。首先介绍蛋白质功能预测的研究背景,并从计算角度定义蛋白质功能预测问题;然后,对蛋白质功能预测方法的研究现状进行分析与总结,最后指出已有方法中存在的不足及未来的研究方向。关键词:蛋白质;功能预测;基因本体;结构域;生物网络中国分类号:TP391 文献标识码:A 文章编号:2095-2163(2016)01-Abstract: protein function prediction is a hot spot of biol
2、ogical research in post-genomics. Compared to the traditional experimental methods, computational methods for predicting protein function performs more efficient. Firstly, the background and significance of protein function prediction are introduced, and protein function prediction is defined as a c
3、omputational problem. And then, the latest progress in computational predicting of protein functions are summarized and analyzed. Finally, the limitations of the computational methods and the development trends in this field are presented.Key words: Protein; Function Prediction; Gene Ontology; Domai
4、n; Biological Network0 引言蛋白质(protein)是基因经过转录和翻译后在生物体中所表达的产物。蛋白质是生物体的重要组成部分,不仅种类繁多、而且功能各异,几乎所有的生命活动都要通过蛋白质来完成。比如,生物体的生长、发育、运动、遗传、繁殖等一切生命活动都离不开蛋白质。毋庸置疑,蛋白质是生物体的生理功能的执行者,是生命现象的直接体现者,对蛋白质结构和功能的研究将直接阐明生物体在生理或病理条件下的变化机制。这对于疾病预防、药物开发等医学领域研究和农牧业领域的发展都有十分重要的意义。随着大规模高通量测序技术的发展和应用,蛋白质序列数据呈指数级地增长。然而大量蛋白质的功能仍然未被
5、测定,蛋白质的序列和功能信息之间的差距不断扩大。为缩小这种差距,寻找快速、高效且可靠的蛋白质功能预测方法成为生物学研究领域一项迫切的任务。最初,生物学家研究蛋白质功能主要通过生物实验的方法,包括微阵列分析、RNA干扰、免疫共沉淀法【3】、免疫交联法【4】、酵母双杂交法【5】等。然而,这类分子生物学实验方法比较费时费力,远不能满足大规模蛋白质功能预测的需要。随后,在机器学习、数据挖掘和数理统计等多学科发展的共同推动之下,蛋白质功能预测方法应运而生。这类方法主要通过机器学习和信息挖掘技术对蛋白质的功能进行预测,为进一步的生物学实验验证提供启发和指导。近年来,蛋白质功能预测方法的研究在生物信息学领域
6、得到了广泛关注,并取得了很多有价值的研究成果。这些研究成果有力地推进人类对蛋白质功能的认识进程,缩小序列和功能信息之间的差距。本文将在后面的小节中介绍和分析已有的蛋白质功能预测的典型方法,并指出其中存在的不足以及蛋白质功能预测未来的研究趋势。1 蛋白质功能蛋白质功能是一个比较宽泛的技术概念。一般来说,蛋白质具有催化、能量转运和信号转导等诸多功能,一个蛋白质可以参与多个生物过程或功能通路。可以说,一切与蛋白质有关的事务都可以被看作蛋白质的功能【6】。为统一和规范对蛋白质功能的描述,许多组织开始着手定义标准的词汇去描述特定功能,比如:基因本体联合会(Gene Ontology Consortium
7、)建立的基因本体(Gene Ontology, GO)【7】和慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences, MIPS)建立的基因分类标准(Function Categories, FunCat)。目前GO已经被广泛地应用于蛋白质功能标注,是比较主流的功能注释术语集合。GO利用有向无环图来组织术语(term),图中每个节点表示一个标准术语,图中的有向边表示术语间的关系如is-a,part-of和regulates等。GO按照所描述的范畴不同,大致分为三个术语子图:分子功能(Molecular Function, MF)
8、、生物过程(Biological Process, BP)和细胞组件(Cellular Component, CC)。分子功能本体主要描述个体分子在生物学方面的活性,比如催化活性和结合活性;生物过程本体主要描述分子所参与的生物过程和扮演的角色;细胞组件本体主要描述分子在哪些细胞器中发挥作用。因此,可以把GO术语看作是功能标签,蛋白质功能预测看作是为判定蛋白质所拥有的标签的过程。2蛋白质功能预测方法1961年Anfinsen提出了蛋白质的一级序列完全决定其三维结构的著名论断,同时又进一步提出蛋白质的高级结构完全决定其功能的科学论断。这种蛋白质的序列结构功能的决定关系称为第二中心法则,也为蛋白质功
9、能预测奠定了理论基础。因此,预测蛋白质功能实质就是判断未知功能的蛋白质与已知功能的蛋白质在序列、结构和功能方面的相似性计算问题。一般地,如果两个蛋白质的序列或结构比较相似,则认为彼此在功能上也比较相近。在此基础上,学者们提出了大致三类研究方法:基于序列同源性的方法(Homology-based methods)、基于基因组上下文的方法(Genomic Context-based method)、基于蛋白质相互作用网络的方法(Network-based method)。为此,本文将在下一节中具体介绍各类方法的研究进展。2.1 基于序列同源性的方法分子生物学中大量的研究表明,序列水平上相似的两个蛋
10、白质具有较高的同源性,并且两者的功能也接近或相似。因此,人们可以通过识别同源蛋白质来预测蛋白质的功能。这类方法被称为基于序列同源性的方法,其实施的难点在于识别同源蛋白质。一般地,可以通过以下两种方式进行识别。具体可做如下分析。2.1.1 序列全局比对方法首先通过FASTA,BLAST,PSI-BLAST等序列比对工具寻找与功能未知的蛋白质有较高序列相似性的蛋白质,然后将这些蛋白质的功能标注为功能未知的蛋白质的功能。这种方法简单易用,然而,却不能精确判定蛋白质的功能,且受已有数据库中噪声数据的影响较大,容易产生功能信息的错误传播问题。Devos和Valencia发现由序列比对得到的功能注释中超过
11、30%是错误的。此外,研究表明:大约有20%40%的蛋白质序列不具有显著的同源序列,特别是,还有一些独特的孤儿;蛋白质(orphan protein)存在。这一事实限制了基于序列全局比对的方法的应用范围。2.1.2 序列局部特征分析方法序列局部特征分析方法又称为从头预测方法,该方法不依赖于蛋白质序列的全局比对,而是通过统计一组已知的具有相同功能的蛋白质序列的组成及生化特性等局部特征并建立分类模型,将具有相近或相似特征的序列看作同源序列再划为同一类,从而进行蛋白质功能预测。这类方法一般可以分为四个阶段:特征提取、特征选择、训练模型和分类预测。其中,特征提取主要涉及序列特征的定义和提取,常用的特征
12、有氨基酸组成、结构域(domain)、序列模体(motif)、密码子偏好、等电点和范德华体积以及翻译后修饰等;特征选择主要是对特征提取阶段提取的特征集进行去除噪声和去冗余等操作;利用机器学习方法建立一个分类模型,并使用该模型对未知功能的蛋白质序列进行功能预测。2001年,英国威尔士大学Ross D.king将氨基酸序列用三类序列信息来具体表示,利用数据挖掘的学习方法对Riley定义的E.Coli蛋白质进行预测,准确率达到60%86%。2002年,丹麦科技大学生物序列分析中心L.J.Jensen等人提取14种蛋白质特征,利用神经网络方法进行蛋白质功能预测。结果表明,当允许假阳性达到10%的情况下
13、,预测敏感度可达到90%。2003年,新加坡大学C.Z.Cai等人利用蛋白质的组成、转换及分布特征和SVM进行蛋白质功能预测。之后许多学者利用不同的机器学习方法如共学习、朴素贝叶斯以及随机森林进行蛋白质功能预测,也取得了不错的效果。Kim等人提出了一种基于朴素贝叶斯的基因功能相似度计算方法,可以整合多种不同基因相关数据;英国Leeds大学的Bradford等人则相继使用这种方法进行基因功能预测;Troyanskaya等将贝叶斯网引入到功能关联预测,用以表示多种不同数据间的依赖关系。Lourdes等人给出了一种加权核的方法,首先为每种数据建立一个核,然后依质量为每种数据赋予权值,最后通过加求和的
14、方式获得一个新核。Mostafavi和Valentini利用集成不同分类器的结果,按照投票原则产生最终的预测结果。这类方法比基于序列全局比对的方法更加有效,主要是因为基于局部特征的方法抽取具有生物学意义的序列局部特征能够更显完善地判断序列同源性。然而这类方法也有一定的局限性,特征选取策略和正反例选取策略对分类模型的性能影响比较大,具体表现在:(1)难以定义能够有效区分目标基因和其他基因的特征集合。(2)在实际建立分类模型时发现,已知的具有某一功能的蛋白质序列较少(正例)、已知的不具有该功能的蛋白质序列(反例)不确定,训练模型时正例和反例集不平衡对模型的性能的影响也比较大。(3)蛋白质可能同时具
15、有多个功能,简单将功能预测问题看成二分类问题,会忽略个体蛋白质功能多样性的特点。2.2 基于基因组上下文方法基于基因组上下文的方法通过识别蛋白质之间的关联关系来预测其可实现的功能。该方法认为:如果两个或多个蛋白质在不同的基因组中表现出相同或相似的表达模式,则会有很大可能将执行同一个功能。这种方法这与依赖于序列同源性的方法是不同的。常用的基因组上下文特征有:基因融合(gene fusion)、基因共现(gene colocation)、基因共表达(gene co-expression)、种系发生树(Phylogenetic profile)等。1999年Marcotte第一次提出利用基因融合来预
16、测基因功能,该方法以发生基因融合的基因可能具有相同或相似的功能为依据,可以有效预测基因功能,然而预测结果假阴性较高。实际上,运用基因融合方法推测基因功能的关键在于识别真正的直系同源基因。如果待测基因与已知基因之间是旁系同源关系(paralogs)而非直系同源关系(orthologs),那么就很可能发生误判。1999年Overbeek等人基于基因顺序保守的基因所编码的产物之间很可能存在功能互作或者物理互作这一假说,提出一个双向最佳匹配方法(bidirectional best-hit method)在多个基因组上寻找位置相近的直系同源基因。该方法有效地发现了大量功能相关的基因。然而,受基因顺序保
17、守性发生频率的限制,其应用的覆盖度和精确度依赖于已知测定的基因组数量。近年来,Jiang等提出了一些运用进化信息预测蛋白质功能的方法,并取得了较好的结果。研究将每个基因或蛋白表示成一个n维特征串,n等于物种数目,+;和-;表示该基因是否在对应的物种中出现,通过这一设计方式就构建了基因的系统发生谱,由此推测系统发生谱相同(近)的基因具有相同或相似的功能。当两个基因的系统发生谱正好相互互补时,就认为这两个基因的功能类似,在基因进化过程中将可以替代对方完成某一特定功能。然而系统发生谱没有考虑系统进化过程中的层次特性,不能够充分利用进化信息。相对于系统发生谱而言,系统发生树包含了更丰富的遗传和进化信息
18、。随后一些学者提出一些方法整合系统发生树信息进行基因功能预测。然而,由于系统发生树比系统发生谱要复杂,因此应用算法要复杂得多;另外,由于系统发生树的构建强烈依赖于基因组序列,在一定程度上容易引入错误信息。因此,系统发生树的应用迄今仍未达到如系统发生谱一样具有优势广泛发展空间。根据比较基因组分析的结果,基因组中的双向转录基因对更倾向于具有很强的功能上的相关性,而且存在着潜在的调控作用关系。学者们 据此提出一些方法应用双向转录基因对的保守性去预测基因功能。通常认为保守的双向转录基因对具有相似的表达模式,这两个基因作为彼此的转录调控因子相互调控,如果通过同源的方法可以发现双向转录基因对中的一个基因是
19、转录调控因子,那么双向转录基因对中的另一个基因就受这个基因调控,并根据转录调控因子的功能,可以推测出被调控的基因的功能。然而,利用保守的双向转录基因对推测基因功能的有效性却将取决于已测定的基因组样本的数目。2.3基于蛋白质相互作用网络方法与前两类方法在蛋白质分子个体水平研究蛋白质功能不同,随着蛋白质相互作用数据的逐渐增多,一些学者开始借助于蛋白质相互作用网络从系统层面研究蛋白质的功能。研究认为蛋白质通过相互协作共同执行某种生物功能,蛋白质之间通过协作关系形成蛋白质相互作用(protein-protein interaction, PPI)网络,并根据蛋白质之间相互作用关系设计蛋白质预测方法。本
20、文即将其称为基于蛋白质相互作用网络的方法。基于蛋白质相互作用网络的方法是进行大规模、系统性蛋白质功能预测的重要手段和有效途径。按目前情况来看,这类方法可以大致分为两类:直接方法(direct method)和基于网络模块的方法(module-assisted method)。在此,给出这两类方法的概述分析。直接方法认为相互作用的蛋白质之间的功能相近或相似,并据此设计功能信息传播算法以预测蛋白质功能。最典型有基于邻居节点功能推测法,基于信息流传播的方法等。其中基于邻居节点功能推测法筛选蛋白质的邻居节点的典型功能作为该蛋白质的功能。然而,这种方法依赖于邻居节点的功能注释的准确性和完整性。如果蛋白质
21、的邻居节点功能信息不准确或者大多数邻居节点的功能未被注释,则利用该方法的准确性和效率都会比较低。基于信息流传播的方法将蛋白质相互作用网络看作是功能信息流通网络,蛋白质节点的功能信息可以沿着网络中的边传播给其它蛋白质。因此,学者们利用概率统计和图论知识通过不同的方法计算蛋白质具有某种功能的最大概率值,并据此判断蛋白质是否具有该功能。随着复杂网络理论和技术的发展,一些学者开始通过挖掘蛋白质网络中的子模块或网络模体来预测蛋白质的功能。本文则将这一类方法统称为基于网络模块的方法。这类方法认为在PPI网络中紧密联系的子团和频繁出现的子团都代表相互之间的协作模式,分别被称为蛋白质复合体(protein c
22、omplex)和蛋白质网络模体(network motif)。一般地认为,处于同一蛋白质复合体或网络模体的蛋白质执行相同或相近的功能。因此,这类方法的难点在于如何准确地识别出蛋白质相互作用网络中的功能模块。与此同时,笼统地认为处于同一模块的蛋白质具有相同功能,忽略蛋白质在功能模块中的具体分工,不利于精确预测蛋白质的功能。此外,基于蛋白质相互作用网络的蛋白质功能预测方法对网络的依赖性较强,蛋白质相互作用网络的规模和可靠性对预测结果影响较大。3 结束语目前,蛋白质功能预测的研究已经引起了越来越多的关注,而机器学习和信息挖掘方法是预测蛋白质的功能的重要途径。对此,国内外研究者已经展开了细致与深入的研究,并取得了一些研究成果。本文归纳并总结了蛋白质功能预测的计算方法,并分析了已有方法存在的问题和不足,希望借此能推动蛋白质功能预测的进展。从总体来看,未来蛋白质功能预测研究可能考虑以下几个方面:(1) 一个蛋白质可以同时拥有多个功能,这些功能之间存在一定的关联性,如何将这些关联关系应用到功能预测过程中是一个重要的研究内容。(2) 如何有效地融合蛋白质序列全局特征、局部特征、基因组上下文环境特征,多角度、准确地预测蛋白质功能。(3) 如何利用蛋白质的个体特征与蛋白质网络中的拓扑特征相结合,提高蛋白质复合体和网络模体的识别精度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Python程序设计实践- 习题及答案 ch10 实验6 循环结构程序设计
- 老师教学工作期末总结(35篇)
- 护理职业生涯规划书
- 幼儿园中班方案数学
- 湖水读后感(8篇)
- 食品安全承诺书借鉴(35篇)
- 个人工作总结开头语(22篇)
- 高考地理二轮复习综合题专项训练5评价开放类含答案
- 25.2 平行线分线段成比例 同步练习
- 小学数学人教版(2024)三年级上2万以内的加法和减法(一)(含答案)
- 第五章-语义和语用课件
- 胰岛素泵的规范使用
- 妇幼保健院产房运用PDCA循环降低经产妇阴道分娩会阴裂伤率品管圈成果汇报
- 8.12天津滨海新区爆炸事故带来的工程伦理思考
- 德育高级教师职称评审答辩教育理论题目与答案
- 语文二年级下册教学资料汇编:整本书:《小猪变形记》整本书指导
- 三通一平施工组织设计
- 110KV送出线路工程施工方案方案
- (市政)施工质量保证措施(管线、排水、道路等)方案
- 四年级数学老师家长会
- 2023-2024年卫生资格(中初级)-执业护士护士执业资格考试考试题库(含答案)
评论
0/150
提交评论