




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章 后基因组时代的生物信息学2022/9/10BIOINFORMATICS1本章提要:后基因组时代,生物综合论将成为生物学的主流研究方法。人们在网络观点下、在分子相互作用网络水平理解生物学的基本原理。本章简要介绍了“功能基因组系统学”和“系统生物学”的基本含义,学习网络及网络比较的基本方法。详细学习了包括基因表达水平关联、基因保守近邻法、基因融合法、种系轮廓发生法等预测蛋白质-蛋白质相互作用的理论方法,并对这些方法的优缺点作了介绍和比较。2022/9/10BIOINFORMATICS28.1 引言随着人类基因组计划的顺利进行,人类全基因组测序工作已经完成。测序工作的完成并不代表基因组计划的
2、结束,相反标志着“后基因组信息学”的开始。基因组学研究也由结构基因组转向了功能基因组的研究,通过对基因组的分析来了解生物体的功能成为后基因组时代的主要目标。2022/9/10BIOINFORMATICS3人们愈来愈认识到,基因与蛋白质很少单独起作用,它们倾向于组成相互作用网络来行使生物学功能。特别是我们看到这样的局面,鉴定了基因组大部分基因之后,我们仍然无法仅仅凭序列信息来推断基因的功能。对功能的研究必须分析其相互作用的网络,或者更准确地说,把基因组或蛋白质组看作一个系统来进行分析。2022/9/10BIOINFORMATICS4所以,后基因组生物信息学有时也称为功能基因组系统学。功能基因组系
3、统学的出现,是生物信息学领域的一个重大变化,它由主要以整理、储存、分析生物学数据或知识转变为综合多种生物分子及其相互作用的知识来了解生物系统的功能。2022/9/10BIOINFORMATICS5后基因组生物信息学在研究方法上的重大变化也标志着生物学的研究正在经历一场革命。如果说过去生物学研究主要以生物实验来进行,那么对于具有复杂网络的系统功能的分析,离开了理论分析和指导,几乎无法进行实验。因此,生物学尤其是分子生物学的研究方法将转变为在理论分析的指导下,将实验与理论相结合的研究过程,理论生物学的出现就成为必然。2022/9/10BIOINFORMATICS6基因组信息学是为了处理基因组计划产
4、生的大量数据而诞生的,它的主要任务是支持实验工作。后基因组生物信息学是以综合为特征的,其研究意义比基因组信息学更为深刻。后基因组生物信息学定义为对一系列生物学知识的综合,包括从基因组信息到对生命基本规律的理解等方面。如果说,基因组信息学是以对各种生物分子进行分析,获取有关生物知识的话,则后基因组生物信息学的研究使我们进入对生命基本规律的认识。2022/9/10BIOINFORMATICS78.2 后基因组生物信息学基本概念8.2.1历史的机遇当前生物学的状况可以类比17世纪时的物理学,正处于科学公式化的阶段。生物学仍是一门经验性学科,只拥有很少的原理来预测各种生物学现象。19世纪开始的遗传细胞
5、学技术,20世纪发展起来的分子生物学最终使收集生物学基本数据成为可能。人们期望随之会产生类似开普勒定理的经验规律、类似牛顿定律的基本原理和类似玻尔H量子论的重要理论。2022/9/10BIOINFORMATICS88.2.2 生物还原论与生物综合论还原论成为20世纪后半叶生物学发展的主流。按照还原论的方法,为了研究生物系统某一方面的功能,只需寻找并鉴定出与此功能直接相关的基因或蛋白质即可。基因组计划揭开了综合论研究方法的序幕。综合论方法研究基因和各种生物大分子是怎样通过网络调控方式形成一个生物系统的。虽然还原论方法研究生物学问题取得巨大成功,但在后基因组时代我们需要综合全部生物信息重构生物体,
6、综合论研究思路将成为生物学研究的主流。图8-1 生物学研究中的还原论和综合论方法2022/9/10BIOINFORMATICS10物理学和化学中,基本粒子如何组装成物质,元素如何组成化合物的一般规律已经被发现。但在生物学研究中,我们还未能取得这种令人鼓舞的进展。实际上,我们至今还不清楚基因组上的信息是否足以建立一个完整的生物体系。在物理学基本粒子的标准模型中,包括有两类基本粒子:物质组成和作用力介质。换句话说,只有各组成部分的信息是不够的,各部分之间的相互作用信息是非常重要的(如物理学中作用力介质)。基因组包含了其组成部分的信息,但很难说它含有各部分间相互作用的信息。图8-2 物理学、化学和生
7、物学的基本原理对比2022/9/10BIOINFORMATICS128.2.3 层次抽提除相互作用概念外,层次抽提是另外一个重要的概念。如图8-3所示,半胱氨酸在原子层次上是由碳、氮、氧、氢和硫原子组成的网络结构,但是在分子层次上,则被抽象为字母C,同其它19种抽象过的字母(氨基酸)一起构成了蛋白质一级序列。在网络层面上,蛋白质被抽象为一种符号,Ras,各个符号(蛋白质)之间的连线代表着一种通路。后基因组生物信息学的一个重要思想是从分子网络层次研究生物学。图8-3 层次抽提的概念2022/9/10BIOINFORMATICS14传统生物学关注的是一个一个的通路,而后基因组生物信息学则希望研究各
8、个通路之间的相互作用,构成一个复杂的相互作用网络,从而从更高的层面上理解生命过程。通俗地说:传统生物学看到的是树木,后基因组生物信息学则看到的是森林。图8-4为细胞内多种信号传导通路在相互作用网络视角的示意图。图8-5显示了构建网络的部分方法。图8-4 在网络层面对细胞内生命过程的理解图8-5 构建网络的方法示例2022/9/10BIOINFORMATICS17网络从结构上可分为指数式网络和自由标度网络。指数式网络是均匀的,大部分节点有近似相同的连接数。自由标度网络是不均匀的,大多数节点只有一个或两个连接,但少数节点有大量连接,从而保证系统是全部连通的。图8-6 指数式网络和自由标度网络的差异
9、2022/9/10BIOINFORMATICS198.2.4 后基因组生物信息学的重大挑战后基因组生物信息学是生物信息学中具有极大挑战性的领域。给定一个生物的全基因组,剩下的问题就是如何在计算机上重构这个生物体的功能体系。这个问题包括对所有组成部分(基因和其它生物分子)之间连线(相互作用)的预测。传统的看法是基因组是生命的蓝图,包含了构建生物体的全部信息。2022/9/10BIOINFORMATICS20但现在更加合理的看法是基因组只是细胞中分子之间相互作用的整个网络的一部分。基因组只是细胞指令的大仓库,相互作用网络本身才是那个所谓的指令系统,这个系统遵循固有程序引导发育过程,并产生生殖细胞。
10、后基因组生物信息学是以对一系列生物学知识的综合为特征的。是在网络观点下、在分子网络层次上研究和理解生命的基本规律。2022/9/10BIOINFORMATICS218.2.5 后基因组研究对象的多层次性后基因组研究对象是多层次的,人们从包括基因组(Genome)、转录组 (Transcriptome)、蛋白质组(Proteome)、相互作用组(Interactome)、定位组(Localizome)、折叠子组(foldome)、代谢组(Metabolome)、表型组(Phenome)等方面,从组的角度研究各类生物学过程。如果说基因组问题涉及遗传图谱(Genetic map)、限制性图谱(Res
11、triction map)和物理图谱(Physical map),那么其它所有的组涉及功能图谱(Functional maps)。2022/9/10BIOINFORMATICS228.2.6 功能基因组发展趋势功能基因组学发展的一个最新和重要领域是系统生物学(Systems Biology),系统生物学研究问题有如下三个特点:1、更好整合生物过程不同阶段的分散数据如整合基因组、转录组、蛋白质组和代谢组的数据,得到对生物学过程的总体认识。另外一个方面是为了满足整合数据库的复杂查询。2、对复杂生物过程的更好模拟包括蛋白质折叠和复杂系统建模(如信号/代谢通路和发病机理)3、生物过程动态研究从一个通路
12、的成分到一个通路的动力学2022/9/10BIOINFORMATICS238.2.7 系统生物学研究框架要解决生物体重构问题,首先要用计算机将有关相互作用的生物学知识计算机化,然后设计一些新实验。图8-7描述了功能基因组学实验,在这些实验中应用了活细胞对于各种环境变化的应激反应,还融合了全基因组序列和不完全的生物学知识,所有这些都被用来揭示潜在的相互作用关系。利用这样一个全新水平的信息技术,也许将来的某一天我们可以解决生物体重构问题。图8-7 系统生物学实验框架 2022/9/10BIOINFORMATICS258.2.8 功能基因组系统学正如前面所述,在相互作用网络背景下阐释“功能”是功能基
13、因组系统学的一个主要特点。另外一个特点是复杂系统的思想,把生物体看作一个复杂系统进行研究。主要有三个特征:1多层次数据整合 整合包括基因组、蛋白质组、转录、表达和调控路径等方面数据2系统的复杂性特点具有复杂系统的自组织、自调控和突变等特点3信息学分析采用信息学方法对多种数据进行分析是功能基因组系统学的又一特点 图9-8显示了基于信息学方法、整合多层次数据在网络层面研究细胞内复杂生物过程的基本思想。图8-8 基于知识的网络预测2022/9/10BIOINFORMATICS278.3 分子相互作用的网络分析8.3.1 “功能”的新涵义在单个分子层次,比如说当一个氨基酸序列与那些蛋白质激酶高度相似时
14、,可以认为其功能被鉴定出来。在细胞功能层次,只有当对应的被磷酸化的靶蛋白被鉴定出来,甚至需要弄清楚该蛋白在生化途径中扮演的角色,才说其功能是已知的。现在认为功能是分子间相互作用或相互作用关系的一种属性。2022/9/10BIOINFORMATICS288.3.2 后基因组时代对功能的理解变化 分子生物学中心法则总结了序列水平遗传信息的流动: 热动力学原理建立了单个蛋白质分子遗传信息的流动方式:2022/9/10BIOINFORMATICS29传统的观点认为,这种流动是在适宜的生理条件下自发产生的,基因组本身包含蛋白质结构的所有必需信息。这些观点过于简单并有太多的还原论色彩,任何一种生物学功能都
15、涉及分子相互作用网络,分子相互作用信息比单分子信息更加重要。因此,必须从新的角度理解信息的流动。 启示:应该在更高的分子网络而不是单个分子层面分析生物学功能。2022/9/10BIOINFORMATICS308.3.3 分子相互作用的网络分析 分子网络在单个分子层面,生物学功能信息编码在序列信息里,即在核酸和氨基酸序列里。在分子网络层面,生物学功能信息编码在分子相互作用网络信息里。我们在一般意义上定义“网络”这个术语。网络包含元素和元素之间的二元关系(图8-9)。元素可以是分子或基因,二元关系是分子相互作用、遗传相互作用或其他的两个元素之间的关系。图8-9 网络表示。网络包括一组元素(点)和一
16、组而元关系(边)。2022/9/10BIOINFORMATICS32 网络的分类网络可以分为两类,一类来自生物学知识,另一类来自对二元关系的计算。通路是分子相互作用形成的网络。如代谢途径、信号转导通路、细胞循环通路、发育途径及其它调控途径。分子复合物也是一种分子相互作网络。基因组是基因的网络,表示基因在染色体上的物理次序。2022/9/10BIOINFORMATICS33图8-9也显示了通过二元关系计算得到的网络。近邻表示特定分子或基因的相似关系。序列相似性分析是典型的近邻网络的例子查询序列与多个序列通过序列相似性的二元关系相互连接。聚类表示完整的一类分子或基因的相似关系。典型的例子是通过聚类
17、分析获得分类,所有成对元素的相似性分数在某种程度上用来确定相似性分类。层级树是层次聚类分析的结果,不断改变序列相似性阈值得到不同的聚类结果。2022/9/10BIOINFORMATICS34 网络的比较网络是一个图,是顶点和连接顶点的边的集合。图G包括顶点集V和边集E,G=(V,E)。图8-10显示了网络比较的例子:通路通路、通路基因组、基因组基因组以及聚类同路的比较。生物学比较问题就简化为寻找两图之间的共同子图或同构的子图。假定我们希望知道来自不同物种的两个生化途径是否具有任何相似性,这不是简单地基于单个分子的序列相似性而是基于分子之间的连接线路模式的相似性。这可被称做局部通路比对。图8-1
18、0 网络比较的例子2022/9/10BIOINFORMATICS36在分子网络比较问题中(图8-11),假定两个图中有结点的对应关系,我们希望确认局部相关的区域。图9-11为已知两个网络及其对应关系下的一种启发式网络比较。让我们考虑两个图G1=(V1,E1)和G2=(V2,E2)2022/9/10BIOINFORMATICS37和一组对应关系。一般来说,一个图中的结点可以对应于另一个图中的多个结点,对应关系还可以是多对多,但是所有的对应关系仍然用成对(二元)关系来表示。如果集合包括n对对应关系,问题就变成依据一定的距离来对这n个数据点进行聚类。聚类后可以发现在通路意义下的对应关系,显然和一般的
19、序列比对有本质的差别。网络比较在更高层次给我们提供两个系统的相似或对应关系,使我们可以在系统水平、网络层面对生物过程进行分析。图8-11 网络比较的启发式算法2022/9/10BIOINFORMATICS39 二元关系和演绎 一条边表示一种二元关系,一条路径是一种推导步骤,一个图是所有可能的推导步骤组成的完整网络。一旦不同类型的数据和知识依照二元关系组织起来,它们可用于路径的自动计算。下表是三种二元关系的总结。相关的二元关系被分成三种类型:事实关系、相似性关系和功能关系。事实关系表示不同数据库录入的数据之间最繁琐的连接,以交叉参考的生物学数据库形式储存。通过序列或结构数据库的比较,计算得出相似
20、关系。更为重要的二元关系是以相互作用形式多样体现的功能关系。关系类型内容举例事实关系数据库录入数据事实数据和文献数据核酸序列和氨基酸序列蛋白质序列和三维结构相似性关系计算相似性序列、三维结构相似性计算互补性三维结构互补性功能关系分子反应底物产物关系分子相互作用分子通路,分子复合物遗传相互作用正向共表达基因负向共表达基因染色体关系基因位置相关性进化关系直系同源和共生同源基因表8-1 二元关系类型2022/9/10BIOINFORMATICS418.3.4几个应用实例元素是分子和基因,二元关系是分子相互作用、遗传相互作用和其它分子或基因的相互作用。网络是KEGG(基因和基因组京都百科全书, htt
21、p:/www.genome.ad.jp/kegg)最独特的特征。表8-2总结了不同类型网络的实际应用。通路图包括代谢途径、调控途径和分子复合物的信息。基因组图谱是染色体上基因的一维网络。表达图谱表示基因组中所有基因依赖于环境和时间的表达,其中包括基因调控网络如正向和负向共表达基因的聚类。直系同源组的表达是不同生物体中属于同一功能单元的直系同源基因的集合。网络类型KEGG数据内容通路通路图谱代谢途径,调控通路,复合物基因组基因组图谱基因在染色体上的位置比较基因组图谱聚类表达图谱微阵列差异基因表达谱近邻直系同源组表通路种基因功能单元层级数基因分类基因的层次分类生物学分类分子的层次分类疾病分类疾病的
22、层次分类表8-2 KEGG中的网络数据表示2022/9/10BIOINFORMATICS43图8-12显示:一组在基因组中位置相关的基因对应于代谢途径的一个功能单元。通过基因组通路比较可以发现这一点。图8-12 基因组-通路比较,基因组物理位置上关联的基因与代谢途径中 功能上关联的基因产物之间相关2022/9/10BIOINFORMATICS45图8-13显示了一类特定类型蛋白质,/折叠蛋白在代谢途径中搜索的结果,这是KEGG中另一种网络比较即层级树通路比较的例子。它表明结构相似的酶催化连续的反应,提示基因复制在代谢途径形成中的作用。图8-13 层级树通路比较,显示进化上关联的基因和代谢途径
23、中功能上关联的基因产物之间相关2022/9/10BIOINFORMATICS47从全基因组预测完整的生化网络的网络预测问题是极具挑战性的课题。和基于知识的蛋白质结构预测一样,基于知识的生化网络预测也有望随着已知生化途径和复合物知识的积累变得愈来愈有效。下表比较了结构预测和网络预测问题。蛋白质折叠问题生物体重建问题预测结构预测从氨基酸序列预测蛋白质结构网络预测从全基因组序列预测完整的生化网络知识已知的蛋白质三维结构已知的生化途径和复合物基于知识的预测反向折叠(Threading)网络重建从头预测能量最小化路经计算扰动状态预测蛋白质工程通路工程表8-3 蛋白质折叠和生物体重建问题的比较2022/9
24、/10BIOINFORMATICS498.4 几种生化网络8.4.1代谢网络代谢网络粗分为中间代谢和次级代谢:中间代谢是反应途径的核心部分,在许多生物体中是保守的。图8-14显示中间代谢的核心部分:糖酵解、三羧酸循环和戊糖磷酸途径。每个节点是一个化合物,旁边显示其名称,每个边是化合物之间的酶催化的化学反应。图8-14 将糖酵解、三羧酸循环和戊糖磷酸途径看作化合物网络。每个圆 圈表示一个化合物,圆圈内部数字表示该化合物的碳原子数2022/9/10BIOINFORMATICS51这些核心途径不是一个孤立的网络。它与其它代谢网络有大量的连接,还有一些与细胞转运系统连接。带阴影的节点是12个代谢前体,
25、是中间代谢中许多重要的生化合成途径的起始点。2022/9/10BIOINFORMATICS528.4.2基因组视角代谢网络代谢是化合物网络,也是酶的网络。图8-14的糖酵解网络部分用酶的基因符号表示就成为一个代谢的基因视角网络。这里,一个结点是一个酶,用标有EC编号的方框表示。一条边是两个酶的连接,包括两者之间的化合物,分别为一个酶的产物和另一个酶的底物。由于每个生物体中酶的网络等价于编码酶的基因的网络,这个图示在把基因组信息添加到代谢途径知识上最为有用,有助于推导生物体的代谢情况。2022/9/10BIOINFORMATICS53图8-15中所示的糖酵解途径中,代谢途径中有三段是位置相关的成
26、组基因。从丙酮酸到乙酰辅酶A,最后一步反应被EC、2和等3个基因产物催化,他们都在一个操纵子结构中。图8-15 将糖酵解看作酶的网络(基因的产物)。每个方框是一个酶,方框里 面是EC编号2022/9/10BIOINFORMATICS558.4.3 蛋白质相互作用网络代谢是生化途径中一个相对熟知的部分,除了次级代谢外,它可用小分子化合物之间的化学反应的简单逻辑来解释。相比之下,有许多其它有待确定的各种各样的网络,尤其是来自全基因组序列的分析。这些途径涉及到蛋白质相互作用,比简单的化学反应远远复杂。图8-16 蛋白质相互作用的概念归纳2022/9/10BIOINFORMATICS57研究所有不同分
27、子之间的相互作用是一项极其复杂的任务。我们这里做一个简化,只考虑蛋白质的二元相互作用,这可能是研究代谢网络的可行办法。图8-16显示了蛋白质二元相互作用的概念。有蛋白质之间的直接相互作用如结合意义下的相互作用,包括生物大分子复合物的形成,磷酸化的共价修饰,糖基化等。有蛋白质之间的间接相互作用,如两个酶由连续的化学反应间接地相互作用。另一种重要的蛋白质之间的间接的相互作用类型是基因表达,一个蛋白质的信息被传递到另一个蛋白质要经过依赖分子模板(基因)的蛋白质的合成过程。2022/9/10BIOINFORMATICS58图8-17显示了从全基因组序列预测或重建蛋白质相互作用网络的策略。首先,所有生化
28、网络的知识保存在一如KEGG的参考数据库中。然后,参考基因组中基因的类别进行基于知识的预测。接着,依据二元关系集合的路经计算,预测网络。图8-17 从基因组信息重建网络的策略2022/9/10BIOINFORMATICS608.4.4 基因调控网络基因表达调控网络的概念是遗传决定论的自然延伸。这种观点认为特定基因表达的有序网络决定诸如一个胚胎如何发育或一个细胞如何应答外界刺激。基因组不仅包括基因的模板,也包括决定基因表达网络的调控信号。2022/9/10BIOINFORMATICS61相比之下,现在的观点恰好相反。基因表达是蛋白质相互作用的一种方式,细胞用它来限制和选择蛋白质。调控信号是恢复蛋
29、白信号的指令。何时、何地以及如何恢复这种指令由细胞中相互作用分子的网络决定。2022/9/10BIOINFORMATICS628.4.5 复杂系统生命本质上是一个开放体系,如果将生物体隔离于动态环境,必然产生生物体是稳定的结论。以蛋白质结构预测为例,现在更倾向于认为结构是分子相互作用动态过程的一部分。2022/9/10BIOINFORMATICS63二元关系和演绎(路径计算)的概念和它在KEGG中的实际应用,可能仅仅是对基因组和生化网络静态方面的应用。目前,已有模拟代谢网络的时间依赖行为的尝试,例如微分方程组和Petri网络。生物网络的集体行为来自网络中以及与动态环境的复杂的非线性相互作用,我
30、们有必要揭示这种相互作用并理解网络行为的一般规律。2022/9/10BIOINFORMATICS64后基因组信息学研究定位在分子网络层面,从分子或基因相互作用网络的角度来理解单个细胞的行为。相互作用网络的构建及网络一般规律的理解将成为生物学的主流。这实际上是所谓的复杂系统的一个例子。最终,生物复杂系统自组织的高级层次如脑功能、生态学乃至人类文明,可能都与基因组信息学相联系,从而成为后基因组生物信息学的主题。2022/9/10BIOINFORMATICS65系统结点边蛋白质三维结构原子原子相互作用生物体分子分子弹相互作用脑细胞细胞相互作用生态系统生物体生物体相互作用文明人人相互作用表8-4 复杂
31、系统的示例2022/9/10BIOINFORMATICS668.5 蛋白质蛋白质相互作用研究进展8.5.1 研究意义蛋白质蛋白质相互作用在诸如DNA复制、转录、剪切和转译,到分泌、细胞周期的控制、代谢、细胞宏观结构和酶复合物形成等生命过程都是一基本问题。大的细胞结构如细胞骨架、有丝分裂、纺锤体的形成,小的结构如核仁、中心体和着丝点的形成等过程中,蛋白蛋白相互作用都起着关键作用。除此而外,还有大量短暂蛋白蛋白相互作用控制或调控许多细胞过程。2022/9/10BIOINFORMATICS67例如,激酶、磷酸酶、糖基转移酶、酰基转移酶和蛋白酶等其作用物时间均很短暂。这种蛋白修饰酶涉及到大量基本生命过
32、程,如细胞生长、细胞循环、代谢途径和信号转导等。2022/9/10BIOINFORMATICS68蛋白蛋白相互作用还与疾病有关,因此这一问题的研究还有潜在的医疗价值。与基因组相比,蛋白质组更加易变。蛋白质形成大的相互作用网络,进行调控和相互支持。为了理解细胞的机制,简单地罗列蛋白是不够的,必须搞清楚全部的相互作用。 2022/9/10BIOINFORMATICS698.5.2 实验手段 传统地有遗传学、生化、生物物理等技术。最有效手段是酵母双杂交系统,还有关联mRNA表达谱,二维凝胶电泳,生物质谱仪分析蛋白复合物。外加从基因组上下文比较预测的相互作用(基因融合、基因近邻、基因共存和形态发生等方
33、法)。已研究酵母、幽门螺杆菌的相互作用谱,也有人发展软件用图更加直观地图示这些网络。2022/9/10BIOINFORMATICS709.5.3 理论方法由于实验技术不仅费时、强度大、假阳性大,而且远远不能满足理论工作的要求。所以,有必要发展理论的预测方法,预测蛋白质对间有无相互作用。2022/9/10BIOINFORMATICS71结构基因组学方法基本思想:如果两蛋白或两蛋白功能域的相互作用模式已知,那么可以推测:其它结构同源物(特别是具有结构相似的活性位点)之间也会有同样的相互作用。2022/9/10BIOINFORMATICS72Park等分析了PDB库中多肽链内功能域间的相互作用。他们
34、用5个小于5的原子间的接触作为阈值确定PDB输入条中SCOP功能域间的相互作用。在1.48版SCOP库中,已知结构蛋白的功能域分成771个超家族。其中,334个不同超家族的278种相互作用发生在同链功能域间,91%的超家族仅与一个或两个超家族有联系。也有少数复杂情形下,一个超家族会与多达14种不同的超家族有联系。用Park工作可以预测结构未知的多肽链中功能域间的相互作用。2022/9/10BIOINFORMATICS73 从基因组序列预测过去两三年来,已发展了一系列从基因组序列预测蛋白间相互作用的方法。大致归纳为三类。(1)从基因表达水平的关联预测思路:如果两多肽链为同一蛋白或蛋白复合物的一部
35、分,它们常常作为相互作用对在DNA水平一起表达或调控。方法:通过基因关联表达数据的分析可以预测同一蛋白或蛋白复合物中多肽链之间的相互作用。使用范围:该法只适用于同一蛋白或蛋白复合物中两多肽链,因为一般来说两相互作用蛋白对在基因表达水平并无关联。2022/9/10BIOINFORMATICS74(2)寻找基因的保守近邻或同一操纵子中的共存基因Ouzonis和Karp分析E. coli的代谢途径,发现同一蛋白的不同亚基在基因组中几乎总是相邻的(超过90%)。方法:通过寻找不同基因组间基因顺序的保守性,或者通过寻找两个蛋白的基因,它们在某一基因组中相邻,在另一基因组中是单一基因的两部分,可以预测处于
36、同一蛋白上的两亚基间的相互作用。图8-18 基因近邻法示意图2022/9/10BIOINFORMATICS76Dandekar等研究了9个细菌基因组直系同源对的基因顺序的保守性,发现尽管基因顺序的保守性很差,但还是有大量保守的基因对。这些保守基因对编码的蛋白有直接的物理相互作用。Dandekar等从每一基因组中找到了100个蛋白用于以基因顺序为基础的相互作用的预测。Huynen估计大约有63%的保守相邻基因的结构复合物有直接的相互作用。2022/9/10BIOINFORMATICS77大多数基因的前后近邻一般是变化的,但也有一些基因在多个基因组中有高度保守的近邻(如trpA和 trpB),这种
37、保守性是由于基因产物的物理或功能相互作用引起。当然,这种保守性并不具有普遍性。Lathe注意到:尽管基因近邻千变万化,但在同一功能相关基因集合中上下文会有共存基因出现。他们将这种在高级组织水平的保守基因簇称为Uber-operon。然后用于讨论转译、鞭毛虫蛋白和ABC运输操纵子中的基因近邻问题。这一概念可以用于功能注释和蛋白质相互作用预测。图8-19 不同生物体中色氨酸操纵子的结构 2022/9/10BIOINFORMATICS79箭头表示转录的方向。黑线表示通过插入基因组序列对操纵子的割裂。双黑线表示大于50个基因的割裂。基因编码的蛋白质如下:trpA,色氨酸合成酶链;trpB,色氨酸合成酶
38、链;trpC,吲哚-3-丙三醇磷酸合成酶;trpD,氨基苯甲酸磷酸核糖基转移酶;trpE,氨基苯甲酸合成酶I;trpF,氨基苯甲酸磷酸核糖基异构酶;trpG,氨基苯甲酸合成酶II;基因数字在基因组上按顺序排列。trpA- trpB基因对在7个基因组中保守。2022/9/10BIOINFORMATICS80Overbeek等则主要研究在染色体上相互近邻的代谢途径中基因簇中基因产物间的相互作用。他们定义了一系列量对基因进行分簇,然后借助一个或多个PCBBH或PCH,建立蛋白对之间的功能耦合。Overbeek给出了一系列通路(如purine biosynthesis,Glycolysis pathw
39、ay等)中基因簇中各蛋白相互作用的耦合分值。基因分簇在细菌中很常见,使用大量基因组的保守基因簇可以预测其它基因组中的基因或蛋白质之间的相互作用。图8-20 PCBBHs和PCHs定义示意图2022/9/10BIOINFORMATICS82(3)用基因融合法预测蛋白蛋白相互作用一般认为,基因融合是进化过程中功能水平选择压力作用的必然结果。其基本原理:进化过程中,基因可以融合(fusion)成一个较大的“Composite Gene”,也可分裂(fission)成较小的“Component Gene”。在一个基因组中出现的“Composite Gene”(也叫Rosetta stone Seque
40、nce)可以推测在其它基因组中Component Genes之间的功能相互作用。2022/9/10BIOINFORMATICS83比如在E. coli中DNA旋转酶GyrA和GyrB在yeast中熔入单一肽链中成为拓扑异构酶II,这样一来我们可以推测E. coli中GyrA和GyrB有相互作用(图8-21)。对E. coli的4290个蛋白搜索发现6809个候选相互作用对。图8-21 基因融合法原理示意图2022/9/10BIOINFORMATICS85Enright使用BLAST确定蛋白间的直系同源物,发现EC,HI,MJ和SC中的64个融合事件。Huynen发现63%的预测涉及物理相互作用
41、,15%为同一代谢途径的基因,即功能相互作用。Marcotte等使用Pfam和ProDom蛋白质家族库中所列的远亲同源物确定蛋白质功能域间的同源性。这一方法假定:如果一蛋白中出现两功能域,那么来自这两家族中的所有功能域均相互作用。2022/9/10BIOINFORMATICS86这一方法存在较大的假阳性和假阴性。假阴性(丢失真实相互作用)的原因是许多蛋白蛋白相互作用由其它机制导致,这种情况中无法找到Composite protein或Rosetta stone序列。假阳性(假相互作用)可能是由于功能(或基因)有熔合,但相互作用只是功能意义上的,而非真正的物理相互作用。2022/9/10BIOI
42、NFORMATICS87一般来说,以同一调控约束(换句话说:染色体上近邻或处于同一肽链)为基础的蛋白相互作用预测方法仅限于对同一蛋白(或复合物)亚单位,同一代谢途径中的蛋白有效。2022/9/10BIOINFORMATICS88 使用种系发生轮廓法预测蛋白蛋白相互作用假定功能相关的蛋白以关联形式进化,那么在机体的同一子集中的蛋白会有同源性。一般地,功能相关蛋白并无氨基酸序列上的相似性,传统的序列比对技术不能使用。对每一蛋白构建一种系发生轮廓。该轮廓有n个输入基因组,用1表示第n个基因组有给定蛋白的同源物,0表示没有。2022/9/10BIOINFORMATICS89以RL7(ribosome protein),FlgL (flagellar structure protein)和HIS5 (histidine biosynthet
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土地租赁合同范本
- 2024年江西南昌师范学院聘笔试真题
- 2024年河南省气象部门招聘笔试真题
- 病毒性腹泻的预防和治疗
- 行业研究工作总结
- 2025年度离职职工离职后项目成果补偿协议
- 二零二五年度野生动物保护安全责任合同
- 2025年度生态农业资金入股合作框架协议
- 二零二五年度退租公寓押金退还及租赁解除合同
- 二零二五年度企业级服务器租赁服务合同范本
- 广东外语外贸大学会计专硕复试
- 行政处罚案件集体讨论审理记录
- 变电站综合自动化
- 德语现代主义文学-浙江大学中国大学mooc课后章节答案期末考试题库2023年
- 2022年安徽省公务员录用考试《行测》真题及答案
- 2023年高中音乐课件大宅门-电视剧《大宅门》主题歌
- 国际贸易地理全套课件
- 内科学支气管扩张症(课件)
- 部编人教版五年级道德与法治下册全册完整课件ppt
- RB/T 115-2014能源管理体系石油化工企业认证要求
- GB/T 32512-2016光伏发电站防雷技术要求
评论
0/150
提交评论