




已阅读5页,还剩260页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
*1 生物信息学导论生物信息学导论 Introduction to BioinformaticsIntroduction to Bioinformatics 张举华 Email: Tel*2003年8月2 张举华 北京理工大学 生命科学与技术学院 生物信息学导论生物信息学导论 *3 主要内容主要内容 生物信息学概述 基因组信息学 *4 生物信息学概述生物信息学概述 本节主要内容 u 什么是生物信息学 u 基因组、转录组、蛋白质组 u 生物信息学有什么用 u 生物信息学的起源 u 生物信息学往哪里去 *5 概述概述 什么是生物信息学 生物信息学是生物学和信息科学与技术的结合所派生出来的一门新兴学科 ,包括了用来管理、分析和操作大规模生物数据集的任何计算方法和工具,也就 是说生物信息学是一个为现代生物学的各个分支,如生物学、分子生物学、生物 化学、生物物理学等,服务的数学和计算机科学与技术的整合平台。 *6 概述概述 基因组、转录组、蛋白质组 现在,生物学研究的范式已经发生了变化,生物学家已经不像上世 纪6080年代的同行那样满足于研究单个基因和蛋白质,而是对一类细胞 或组织中的所有基因和蛋白质同时感兴趣,希望了解这些生物分子之间是 通过什么样的途径实现生命过程的。 *7 概述概述 基因组、转录组、蛋白质组 基因组是一个细胞或组织内全部基因的集合;转录组是一个细胞或 组织内全部RNA(核糖核酸)的集合;蛋白质组是一个细胞或组织内所有 类型蛋白质的集合。以此类推,我们还可以定义其它的“组”,例如蛋白质相 互作用组就是一个细胞或组织内蛋白质间所有相互作用的集合。 *8 概述概述 基因组、转录组、蛋白质组 各种组学的发展与高通量检测与测量方法密切关联。“高通量”就是大 量的信息或样本在同一时间内通过系统的任何过程。目前, 这一概念被广泛 应用于计算系统、药物发现、组合化学以及基因组和蛋白组学。 *9 概述概述 生物信息学有什么用 自1990年以来,在生物医学科学领域,生物信息学已经成为生命科 学研究和发展整体中的一个重要组成部分。无论是处理由高通量实验技术 产生的基因组、转录组和蛋白质组数据,还是组织、分析和管理由传统的 生物技术收集到的数据,生物信息学都扮演着极其重要的角色。 *10 概述概述 生物信息学有什么用 上世纪8090年代建立的,以核苷酸或氨基酸序列为基础的,分析 单个基因和蛋白质的方法被用于分析大量的基因和蛋白质,例如用于关联 基因簇的分析和蛋白质相互作用网络的鉴定。当我们手中完整的基因组序 列越来越多时,生物信息学就能够为探索细胞和组织的系统功能与行为提 供原理基础和常用方法。 *11 概述概述 生物信息学的起源 分子序列数据的指数性增长始于20世纪80年代。当时,DNA测序技术 已趋完善,并作为常规实验手段得到广泛的应用,测序得到的数据被收集 到数据库中。比如目前仍有广泛影响力的三个生物信息学一级数据库 GenBank,EMBL(欧洲分子生物学实验室核苷酸序列数据库),和DDBJ(日 本DNA数据银行)。另外PIR(蛋白信息资源)和SWISS-PROT是蛋白质方面 非常重要的数据库。 数据的提取与分析的计算方法的发展是并行的。计算方法包括序列 相似性比较与搜寻算法、结构与功能预测方法等等。 *12 概述概述 生物信息学的起源 现今的“生物信息学”始于上世纪80年代计算生物学。后者主要包括 DNA和蛋白质的序列分析以及蛋白质的三维结构分析。 上世纪最后十年的基因组计划所形成的冲击不仅是序列数据的增加 ,还包括了分子生物数据的多样性。一个基因组序列所展示的不仅是一个 完整的基因集合和它们在染色体中的精确定位,而且包括基因组和跨物种 间的基因相似性关联。 *13 概述概述 生物信息学的起源 DNA自动测序构成过巨大的冲击,因为它曾经是各种生物学数据高通 量产出的前沿阵地。像表达序列标签(ESTs),单核苷多态性(SNPs)都 和基因序列密切相关。随后发展的研究基因表达模式(profile)的DNA微 阵列技术、用于探测蛋白质相互作用的酵母双杂交系统、以及质谱技术极 大地让生命科学类数据库飞速膨胀。结构基因组学方面的新技术还不能大 规模地产生数据,但它们正在导致蛋白质三维结构数据的增加。 *14 概述概述 生物信息学的起源 除了积累各种生物化学与分子生物学数据的实验技术的不断发展, 二十世纪后十年同样见证了信息技术的发展。单项最重要的事件是互联网 时代的到来。人们用它来传递、访问数据,浏览公共出版物等。生物信息 学的兴起很大程度上归功于需要用复杂的方法处理与分析大规模生物学数 据,但是互联网也是功臣,因为它的发明使得用户访问数据与软件的开发 比过去容易了许多。 *15 概述概述 生物信息学往哪里去 尽管最近十年来,高通量检测技术与信息技术的结合让人们认识了 大量的基因和蛋白质,但是和物理学、化学相比较,生物学仍旧是一门不 成熟的学科,因为对于生命过程,我们无法根据一般性原理做出像卫星轨 道那样精确的预测。随着数据的不断膨胀和知识的积累,也借助于生物信 息学,这种情形很有可能发生改变。 *16 概述概述 生物信息学往哪里去 生物信息学正在逐渐演变成为一门基础学科。生物信息学的最终目 标是从大规模数据中抽象出知识与原理;提出细胞以至于整个生物体的完 整数学与计算机表示;进而预测高度复杂的生物系统的行为,例如,预测 在细胞过程中相互作用网络和整个生物体的表型。 表18-1简要概括了生物信息学的过去,现在和将来。 *17 概述概述 生物信息学往哪里去 表18-1生物信息学的过去、现在和将来 主要内容目的 二十世纪纪90年代 的生物信息学 大规规模基因组组学与蛋白质组质组 学的 实验实验 数据形成的一级级数据库库及其 相应应的分析方法与工具 了解单单个基因和蛋白 质质的功能与用途 当前的生物信息 学 由一级级数据库库分类类、归纳归纳 、注释释 得到的基因组组学与蛋白质组质组 学二 级级数据库库 (知识库识库 )及其相应应的分析方法 与工具 在分子、细细胞和生物 体水平了解功能与用 途 未来的生物信息 学 细细胞和生物体的完全计计算机表示了解生物系统统高度复 杂杂性的基本原理 *18 主要内容主要内容 概述 基因组信息学 *19 基因组信息学基因组信息学 基因组信息学是生物信息学的源头,是到目前为止发展得比较完善的部分, 也是应用最为广泛的部分。本节内容将重点概述基因组生物信息学的主要特征。 *20 基因组信息学基因组信息学 本节主要内容 u 了不起的BLAST u BLAST已经不够用了 u 相互作用网络具有更高阶功能 u 生物信息数据库 u 序列比对的动态程序算法 u 复杂生物系统 *21 基因组信息学基因组信息学 了不起的BLAST 在二十世纪后十年,生物信息学的第一个大突破是序列数据库 快速搜寻工具BLAST的引入。这个搜寻工具不仅比80年代发展起来 的FASTA更有效,而且以不同的原理为基础。数据库搜寻就是将查 询的系列与序列数据库中的每一个序列作两两比对。美国国家生物 科技信息中心,/,提供了BLAST链 接。 *22 基因组信息学基因组信息学 了不起的BLAS 传统上,比对通过优化查询进行。即通过相同字母数目的最大 化,或者采用氨基酸突变矩阵,使相似分数最大化,得出优化系列 比对。当允许间隙时,对于做比对的两个序列,具有可能性的比对 数量巨大。然而,通过“动态程序” 算法,总能找到优化的比对。 动态程序算法系统地修剪含有各种可能比队的搜寻树的数枝,不幸 的是,这种算法十分耗时,不适合大规模数据库。所以,FASTA的 策略是采用一个被称之为“hash”的数据结构,对两个系列的匹配区 域先做一个快速、粗略的搜寻,然后再对该区域的近邻起用动态程 序算法。 *23 基因组信息学基因组信息学 了不起的BLAST 不同于FASTA遵循结合优化的传统,BLAST之于数学统计与人类直 觉的耦合。例如,当人用肉眼对两个系列作比较时,我们绝对不会 检查所有可能的细节,而是寻找两个系列共同的特征,然后再尝试 扩展这些特征得到更长的匹配,因为我们知道关联的系列倾向于含 有保守的系列模体(motifs)。这就是BLAST所采取的策略。它以 可靠的数学基础为依据,计算高分片段对(HSPs)的统计。高分片 段对指的是分数不可能由系列的扩充或剪除改善的无间隙序列的局 部比对。对于给定的查询序列的组合、被搜寻的数据库和打分系统 ,可以估计打分为s的高分片段对的概率极值(Extreme value), 及所谓的E值。目前,E值已经广泛用来作为系列相似性统计显著性 估计的标准度量。 *24 基因组信息学基因组信息学 了不起的BLAST 大约在大约在BLASTBLAST发展的同一时期,研究人员开始收集一种不同类型的发展的同一时期,研究人员开始收集一种不同类型的 数据数据以基因为基础的表达序列标签位点或以基因为基础的表达序列标签位点或ESTsESTs。该数据的收集对。该数据的收集对 数据库特征产生了非常大的影响。对于捕获具体细胞或组织中表达数据库特征产生了非常大的影响。对于捕获具体细胞或组织中表达 基因的完整序列,低质量和碎块序列的大量收集是一条捷径。在此基因的完整序列,低质量和碎块序列的大量收集是一条捷径。在此 方案中,无论对于在已存在的数据库中搜寻相似性,还是对数据库方案中,无论对于在已存在的数据库中搜寻相似性,还是对数据库 中所有的序列进行比较以建立相似序列的簇(中所有的序列进行比较以建立相似序列的簇(clustercluster),),BLASTBLAST都都 是一个可选的工具。是一个可选的工具。 *25 基因组信息学基因组信息学 BLAST已经不够用了 二十世纪90年代中期,人们看到了完全不同类型的大量序列数据的收 集,也就是为细胞生物体的全基因组建立数据库。目前已有100多种生物 体的完全基因组序列已经通过实验测定。更多生物体全基因组序列的测 定正在进行中。 *26 基因组信息学基因组信息学 BLAST已经不够用了 如果系列分析的工具不更新与改进,大规模序列数据的增加并不 必然导致生物学知识的增加。为了增加相似序列搜寻的灵敏度,人 们已经精心设计了相应的方法。其中最成功的有PSI-BLAST和隐马 尔柯夫模型(HMMs)。对于搜寻微弱的相似性,PSI-BLAST是极其 灵敏的方法。PSI-BLAST的核心是迭代算法,从而在程序运行过程 中由标准BLAST搜寻产生的位置特异性打分矩阵不断地得到改善。 *27 基因组信息学基因组信息学 BLAST已经不够用了 隐马尔柯夫模型根据多重序列比对构建。多重序列比对的结果可能是 由ClustalW或者ClustalX产生的,但是它们显含插入或删除概率,并且 能够搜寻HMM库以探测微妙的序列特征。另外一些成功的序列分析方法是 建立在神经网络基础上,它极大的改善了诸如蛋白质二级结构预测;或 建立在以规则为基础的系统上,例如用于蛋白质定位的PSORT,并被用来 预测蛋白质的各种功能特征。 *28 基因组信息学基因组信息学 BLAST已经不够用了 尤其是,HMMs和PSI-BLAST为蛋白质域数据库的发展提供了便利。该数 据库可以用来对蛋白质的分子结构和相应的功能单元进行识别。通过一 级数据库所做的相似性搜寻能够用来预测基因或蛋白质的功能,只要该 数据库被充分注释。由于日益增加的序列数据库,为维持数据库的先进 性和对数据进行充分的注释越来越困难,从而,就顾客来说,对二级数 据库的依赖程度越来越高。二级数据库含有蛋白质域和功能位点,就这 一点来说,这些二级库颇像是含有“序列语言”词汇与句子的词典。 *29 基因组信息学基因组信息学 BLAST已经不够用了 随着可以用作比较研究的基因组全序列数目的增加,人们发展了不同 类型的功能预测概念与方法。著名的有“基因语境”(gene context)和“ 基因内容”(content)分析。如果将基因组看成是一串基因,那么基因 语境就相当于基因的位置关联。基因语境分析,包括基因顺序的比较和 正常基因组的基因融合(Fusion),可探测蛋白质的功能关联,例如探 测物理相互作用亚单元、相同通路、酶、和它的调控子(regulator)的 数目。 *30 基因组信息学基因组信息学 BLAST已经不够用了 与基因语境分析相反,基因内容分析是跨基因组间基因指令系统的比 较。当不同生物体之间两个基因的某种相互关联的方式出现或消失时, 这两个基因之间或许有某种功能上的联系。对于这种分析的一个预先要 求是建立直向同源关系,即起源于共同祖先的功能相同的基因。实际上 ,直向同源由序列的相似性定义。常常,在基因组两两比对中,直向同 源内双向最好打击(bidirectional best hits)准确定义。在完全测序 的基因组中,对于直向同源组,在知识组织方面,COG是较早的和取得最 突出成就的数据库之一。 *31 基因组信息学基因组信息学 相互作用网络具有更高阶功能 如果将人类基因组图谱主要工作的完成作为后基因组时代开始的标志 ,那么后基因组信息学还处在幼年期。但是这是一个具有旺盛生命力的 超级婴儿。本节将重点概述后基因组生物信息学的相关发展。本节会提 到生物分子网络,下一节将对网络生物学作更详细的论述。 *32 基因组信息学基因组信息学 相互作用网络具有更高阶功能 基因调控与微阵列技术 蛋白质相互作用 Go,KEGG 生物信息学家都是网虫 从数据驱动到原理驱动 *33 基因组信息学基因组信息学 基因调控与微阵列技术 二十世纪90年代后期,各种类型高通量实验数据的获得已经丰富了生物 信息学的角色,使分析涉及各种各样细胞过程的高阶功能更加方便。例 如,大名鼎鼎的寡核苷酸微阵列或包含全基因组中每个基因的cDNA微阵 列,对于测量不同条件下,整个细胞或组织的基因表达是一个非常强有 力的工具。除了染色体中序列的相似性和相近性,两个基因由于它们在 某个特殊的时间点或某一特别受控条件下表达模式的相似性而相互关联 。根据基因表达数据,共调控(co-regulated)基因簇能被探测到,其 过程在本质上类似于COG中探测直向同源基因簇,或基因语境分析中位置 关联基因簇。这些基因表达簇可用来鉴别特殊生理过程中潜在基因组的 数目。从复杂的基因表达数据中提取生物学本质特征也促进了自组织图 谱、支持向量机等信息技术在生物学领域中的应用。 *34 基因组信息学基因组信息学 蛋白质相互作用 蛋白质-蛋白质相互作用代表了另外一类实验数据。高通量双杂交系统 分析已用来检测酵母基因组编码的所有蛋白质对之间的相互作用。质谱 技术已被用来系统地鉴别分离纯化了的蛋白质复合体的成分。这些数据 集为已有的基因组(序列相似性和基因语境)、转录组(表达相似性) 数据集赋予有关蛋白质(相互作用)方面的附加信息层。所有这些数据 集可以看成是二进制关系,即两个个体之间的关系,这就是允许整合分 析,从而更加精确地抽象出生物学特征。当酵母的不同数据集结合在一 起时,通常会发现成对的东西更具生物学意义。具有更高阶功能的数据 通常有更高的误差率,注释可能含有许多缺陷,从而要求更加严格的标 准。 *35 基因组信息学基因组信息学 Go,KEGG 直到最近,对于不同的功能还没有一个共同的术语。对于蛋白质功能 ,走向共同词汇的第一步已经由基因本体论协会(Gene ontology consortium)迈出,从而可以更准确地比较与描述基因与蛋白质的功能 特征。基因本体论协会将目前收集到的动态变化中的知识归类为三个系 统术语或“本体”,分别是单个蛋白质的“分子功能”、介入蛋白的“生物学 过程”和使蛋白质在其中发挥功能的“细胞组分”。 *36 基因组信息学基因组信息学 Go,KEGG 为增加对来自于基因组信息的细胞过程的了解,途径(pathway)数据 库,例如KEGG和EcoCyc,已经在过去的十年中建立起来。当大多数数据 库集中了分子特性(例如,序列、三维结构、模块和基因表达)的时候 ,这些数据库侧重于细胞的特性,例如代谢、信号传导和细胞周期。这 类库以路径图形式储存相应的分子相互作用网络。 *37 基因组信息学基因组信息学 Go,KEGG 为增加对来自于基因组信息的细胞过程的了解,途径(pathway)数据 库,例如KEGG和EcoCyc,已经在过去的十年中建立起来。当大多数数据 库集中了分子特性(例如,序列、三维结构、模块和基因表达)的时候 ,这些数据库侧重于细胞的特性,例如代谢、信号传导和细胞周期。这 类库以路径图形式储存相应的分子相互作用网络。 毋庸质疑,从过去许多年出版的文献中收集由生物学传统研究所获得 的知识是十分必要的。至少,就代谢途径来说,这些已经有的知识被较 好地组织成数据库中的数据,也为注释基因组,筛选微阵列与其他高通 量实验数据提供了参考数据。 *38 基因组信息学基因组信息学 Go,KEGG 序列只是简单的一维对象,与此相反,相互作用的分子网络是由一些 复杂的图对象表示的。数学上,图是节点与边的集合。根据节点所代表 的事物的不同,所定义的图的对象的类型也不同。例如,蛋白质系列是 由肽键(边)连接在一起的氨基酸(节点)的图对象。为了解更高阶功 能,必须考虑更高的图的对象。KEGG含有3个这样的图对象,分别是“蛋 白质网络”,“基因世界”和“化学世界”,其节点也就分别对应于蛋白质, 基因和化学对象。 *39 基因组信息学基因组信息学 Go,KEGG 这些数据库为发展图算法铺平了道路。算法包括在途径、表达模式和 基因语境中探测局域图相似性。在BLAST搜寻中,E值的概念建立在数据 库是独立的对象(序列)的集合这一观念基础上,与此相关,KEGG数据 库或其它任何相互作用网络数据库含有图对象,它们是节点(蛋白质, 基因或化合物)以及把这些节点关联在一起的不同类型的边的集合。因 此,相似性统计和图的其它特征必须被注解,并被转换成新的E值,以使 得网络分析更加聪明有效。这有些类似于FASTA向BLAST的转变。 *40 基因组信息学基因组信息学 生物信息学家都是网虫 后基因组生物医学研究的一个关键目标是对活体细胞内的所有分子和 它们之间的相互作用进行系统地归类,了解这些分子以及它们之间的相 互作用是怎样决定细胞这一极其复杂的机器的功能。细胞可能是孤立的 ,也可能被其他细胞包围着,研究结果表明细胞网络被普适的定律所控 制。飞速发展的网络细胞生物学已经有了一个全新的概念框架,它可能 革新我们对生物学和病理学的观念。 *41 基因组信息学基因组信息学 生物信息学家都是网虫 统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它 们的功能方面的极其丰富的知识。尽管简化论取得了巨大的成功,但是 越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。 相反,大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用 ,这些要素包括DNA、RNA和小分子。因此在21世纪,生物学所面临的关 键挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结 构与动力学。 *42 基因组信息学基因组信息学 生物信息学家都是网虫 高通量数据聚集技术的发展,例如微阵列芯片的广泛应用,允许人们 随时对细胞组分的状态进行探测。新的技术平台,像蛋白质芯片或半自 动酵母双杂交技术,能帮助我们了解生物分子什么时候怎样发生相互作 用。各种类型的相互作用网络(包括蛋白质-蛋白质相互作用、代谢、信 号以及转录调控网络)来源于这些相互作用的集合。相互作用网络不是 互相独立的,相反它们是某一更大网络的子网络。完整的网络对细胞的 功能负责。当前生物学的一个主要挑战是整合理论的和实验的步骤,以 制定、了解和定量模拟控制细胞行为的各种网络的拓扑与动力学特征。 *43 基因组信息学基因组信息学 生物信息学家都是网虫 过去几年里,复杂网络理论正在迅速发展,所提供的方法已经为揭示 控制各种各样复杂的技术与社会网络的组织原理做出了贡献。这一研究 正在冲击细胞生物学的研究。人们已经开始认识到细胞内分子相互作用 的网络结构特征在极大程度上与其它复杂的网络相同或相似。这些网络 有互联网、计算机芯片、社会网络等等。这个出乎人们意料之外的普适 性表明相似的定律或许控制着自然界中的大多数复杂网络,这就允许借 鉴已经被很好地了解的大型非生物学网络的经验,以刻画控制细胞功能 的错综复杂的关系。 *44 基因组信息学基因组信息学 生物信息学家都是网虫 网络理论有效的工具提供了理解细胞内部组织和进化的末期预料到的 可能性,这将从根本上改变我们关于细胞生物学的观念。一些研究成果 正在使人们认识到,尽管单个分子的重要性不可轻视,细胞的功能源于 大量细胞构件间相互作用的精确定量模式的关联。尽管揭示细胞网络的 一般组织原理是将细胞作为一个系统了解的基础,为实验生物学者发展 相关方法,帮助他们阐明在各种各样细胞过程中细胞网络所扮演的角色 同样是必须的。 *45 基因组信息学基因组信息学 生物信息学家都是网虫 各种各样复杂系统的相互作用网络,例如,互联网、社会网络、代谢 网络,还有基因网络以及其它各种生物学网络拥有网络拓扑学的共同特 征。其中一个特征就是“小世界网络”,其中任何两个节点都可由几个步 骤连接在一起,这是因为完全规则和完全随机之间的中间拓扑。另一特 征是“无标度”(scale free)网络,其中节点连接度服从幂率分布,这 很可能意味着高度被连接的节点(hubs)的存在。在不断扩大的互联网 和社会网络中,这些特征与新节点连接到更大的连接器(hubs)相关联 。在生物学网络中,这一特征和功能与进化密切相关。例如,无标度律 似乎与网络抵抗随机误差的稳定性相关。这是一种进化所喜欢的特征。 尽管不同类型的复杂网络分享普遍的特征,当检查简单的网络单元( motifs)时,它们之间是有区别的 。 *46 基因组信息学基因组信息学 生物信息学家都是网虫 必定地,网络拓扑的复杂性起源于连接(相互作用)的复杂模式,而 不是简单地来自网络的尺寸(由网络的节点数度量),这可能是有生物 学上的意义,尤其当我们看到人类基因组中几个令人吃惊的基因时。在 自然界,节点连接的图与模式是定态的。代谢重建已经完成了这样的图 。预测网络动力学远比简单地预测连接模式复杂。通过设计高通量实验 ,实验中系统地扰动动力学环境并收集足够的实验数据,网络动力学或 许会变得可计算,至少对小的环境扰动的响应动力学可以计算。 *47 基因组信息学基因组信息学 从数据驱动到原理驱动 在过去的一个年代里,生物信息学的主要标志是创造性地发展计算方 法以便为大规模数据的产生与分析提供帮助,以及为直接来自源于大规 模数据分析所得到的生物学知识建立二级数据库。懂得隐藏在细胞和生 物体中的基本原理是生物信息学的最终目标,1990年代的生物信息学只 是通向这一阶段目标的起点。生物学不再局限于列举与建立分子成分的 表列,也就是说不再受限于基因(基因组)、信使核糖核酸(转录组) 、蛋白质(蛋白质组)和代谢组份(代谢组)。延伸的表列包括相互作 用组,它是蛋白质蛋白质相互作用的集合,还有定位组、它是蛋白质 亚细胞器定位的集合。不同表列的指令系统随着高通量实验技术的建立 与扩充不断增长。 *48 基因组信息学基因组信息学 从数据驱动到原理驱动 当然,来自于基因组和蛋白质组的从底层到顶层的方案不足以理解生 物系统的高度复杂性。无论是基因本体论的控制性词汇或KEGG的图表示 ,对于复杂的细胞特征都会简化基因组数据的计算图谱,这些成果也可 用来探测基因组和高阶特性之间的经验关系。尽管该领域正在期盼“系统 生物学”与整个细胞的模拟,或许更多的努力必须付诸于抓住更高的特征 ,例如人类疾病的本体论和细胞网络的计算机表示。另外,功能对处境 (例如实验条件、细胞状态和环境)的依赖目前基本上没有受到重现。 换句话说,在我们对作为一系列复杂信息系统的生命有更基本了解之前 ,必须考虑一些其它高度复杂性问题。 *49 基因组信息学基因组信息学 生物信息学家都是网虫 统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它 们的功能方面的极其丰富的知识。尽管简化论取得了巨大的成功,但是 越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。 相反,大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用 ,这些要素包括DNA、RNA和小分子。因此在21世纪,生物学所面临的关 键挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结 构与动力学。 *50 基因组信息学基因组信息学 生物信息数据库 目前,生物信息学主要由三个部分组成,它们分别是建立可以存放和 管理大量生物信息数据集的数据库;发展从生物学数据中找出各个成员 之间相互关系的计算方法和相应的工具;使用这些算法和工具来挖掘、 分析和解释不同类型的生物学数据,包括:基因组、转录组、蛋白质组 、结构组、代谢途径、信号通路和调控网络等。对于任何一个数据库, 最需要关心的事情包括:从数据库中提取信息的速度;存贮大规模数据 的能力;更新数据的能力。当前流行的数据库基本上都是面向对象的相 关数据库。通过分析含有序列和三维结构的一级数据库中的数据所获得 的生物学知识被储存在二级数据库中。二级数据库可以按目的或功能分 类。表18-2列出了部分二级数据库。 *51 表表18-2 18-2 生物知识数据库生物知识数据库 知识识数据库库网址 蛋白质质功能 位点 PROSITEhttp:/ www.expasy.ch/prosite BLOCKS PRINTShttp:/www.bioinf.man.ac.uk/dbbrowser /PRINTS ProDomhttp:/prodes.toulous.inra.fr/prodom/ doc/prodom.html Pfam/ SMARThttp:/smart.embl-heidelberg.de TIGRFAMS/TIGRFAMS 蛋白质质三维维 折叠 SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop CATHhttp:/www.biochem.ucl.ac.uk/bsm/cath _new *52 转录转录 因子 TRANSFAChttp:/transfac.gbf.dc/TRANSFAC/ 蛋白质质相互 作用 BINDhttp:/www.bind.ca/ DIP/ 蛋白途径 KEGGhttp:/www.genome.ad.jp/kegg EcoCyc/ 直系同源组组 COG/COG 基因本体论论 协协会 GO/ *53 基因组信息学基因组信息学 主要序列仓库 计算生物学和生物信息学的许多应用是以核苷和蛋白质序列为基础 的。三个主要仓库中含有所有已知的核苷和蛋白质序列。通过国际核苷序 列数据库联盟,它们彼此间信息共享。这三个数据仓库是: 日本DNA数据银行(DDBJ): http:/www.ddbj.nig.ac.jp EMBL 核苷序列数据库:http:/www.ebi.ac.uk.embl.html GenBank: / 目前,GenBank 含有32亿多个核苷碱基,代表十万多个物种中的 2千 8百多万个序列,这就表明大量的数据需要储存。瞧一眼过去20年,尤其 是过去8年来GeneBank的增长,我们就可以看到序列数据的爆炸。 *54 基因组信息学基因组信息学 基因组数据库 核苷序列信息也可以按基因组数据库的方式组织与存贮。最广泛使 用的基因组数据源之一是UCSC基因组浏览器,它含有大鼠、小鼠和人类基 因组的全部序列和相应的注释。另一个广泛使用的数据源是Ensembl基因 浏览器。另外一些基因组数据库还包括: WormBase,它含有C. elegans 和 C. briggsae蠕虫的基因组;AceDB,它含有C. elegans、S. pombe和 H. sapiens的基因组;CMR含有95种完成的微生物基因组;FlyBase Drosophila melanogaster基因组; HIV-艾滋病毒基因组;MosDB-水稻基 因组数据库;MGD老鼠基因组数据库;酵母基因组数据库;TAIR- Arabidopsis 信息库;ArkDB-动物基因组数据库;还有其它许多未列出的 数据库。 *55 基因组信息学基因组信息学 基因组数据库 Ensembl基因组浏览器: UCSC 基因组浏览器: / WormBase: / AceDB: / CMR: /tigr-scripts/ CMR2/CMRHomePage.spl *56 基因组信息学基因组信息学 基因组数据库 FlyBase: / HIV序列数据库: / MOsDB水稻数据库: http:/mips.gsf.de/gams/rice/index.jsp MGD小鼠基因组数据库: / RGD大鼠基因组数据库: / 酵母基因组数据库: / Saccharomyces/ Arabidopsis信息库: / ArkDB: / *57 基因组信息学基因组信息学 基因数据库 目前有不少基因和相关联的结构数据库。其中最大的一个就是NCBI( 美国国家生物技术中心)所属的RefSeq 数据库。它是一个充分注释了的非 冗余mRNA信息库。其它的基因和基因结构数据库还有:AllGenes,其人类 和老鼠的基因指数整合了基因、转录和蛋白质注释;ASAP;ExInt,基因 的外显子内含子结构;IDB/IEDB,内含子序列和进化;SpliceDB, Canonical和非Canonical哺乳动物剪接位点;GDB和GenAtlas,人类基因 和基因组图谱;HS3D,人类外显子、内含子和剪接区。 *58 基因组信息学基因组信息学 基因数据库 RefSeq(NCBI参考序列项目): /RefSeq/ AllGenes: GDB / GenAtlas: http:/www.citi2.fr/GENATLAS/ Genew (被批准的基因名字): http:/www.gene.ucl.ac.uk/cgi- bin/nomenclature/searchgenes.pl *59 基因组信息学基因组信息学 基因数据库 ASAP(交互剪接基因): /ASAP ExInt: /sg/exint/exint.html IDB/IEDB: /intron/index.html SpliceDB: http:/genomic.sanger.ac.uk/spldb/SpliceDB.html HS3D: http:/www.sci.unisannio.it/docenti/rampone/ *60 基因组信息学基因组信息学 基因数据库 目前有不少基因和相关联的结构数据库。其中最大的一个就是NCBI( 美国国家生物技术中心)所属的RefSeq 数据库。它是一个充分注释了的非 冗余mRNA信息库。其它的基因和基因结构数据库还有:AllGenes,其人类 和老鼠的基因指数整合了基因、转录和蛋白质注释;ASAP;ExInt,基因 的外显子内含子结构;IDB/IEDB,内含子序列和进化;SpliceDB, Canonical和非Canonical哺乳动物剪接位点;GDB和GenAtlas,人类基因 和基因组图谱;HS3D,人类外显子、内含子和剪接区。 *61 基因组信息学基因组信息学 基因数据库 RefSeq(NCBI参考序列项目): /RefSeq/ AllGenes: GDB / GenAtlas: http:/www.citi2.fr/GENATLAS/ Genew (被批准的基因名字): http:/www.gene.ucl.ac.uk/cgi- bin/nomenclature/searchgenes.pl *62 基因组信息学基因组信息学 基因数据库 ASAP(交互剪接基因): /ASAP ExInt: /sg/exint/exint.html IDB/IEDB: /intron/index.html SpliceDB: http:/genomic.sanger.ac.uk/spldb/SpliceDB.html HS3D: http:/www.sci.unisannio.it/docenti/rampone/ *63 基因组信息学基因组信息学 单核苷多态性数据源 ASAP(交互剪接基因) 在人类的基因序列中,对于不同的个体,大约每2000个碱基中会有 一个碱基不同。 这一看起来不显眼的数字,在人群中产生了一百六十多 万个单核苷多态性。 SNPs在个体的差异性方面扮演了极其重要的角色, 同时也是许多疾病产生的原因(著名的有镰刀细胞贫血)。单核苷多态性 的主要数据库有: dbSNP(单核苷多态性数据库): /SNP/ SNP(单核苷多态性本体论数据库): / rSNP指南(调控基因SNPs): http:/util.bionet/nsc.ru/databases/rsnp.html *64 基因组信息学基因组信息学 表达序列标签库 表达序列标签(EST,expressed sequence tags)是一些mRNA的片 断拷贝。通过它们可以获得基因剪接的模式。常见的表达序列标签库包括 : dbEST /dbEST/ GRL(基因源定位子):http:/grl.gi.k.u-tokyo.ac.jp HUNT(已注释的人类全长cDNA序列): http:/www.hri.co.jp/HUNT/ Sputnik(聚类植物表达序列标签注释) :http:/mips.gsf.de/proj/sputnik STACK(无冗余面向基因的聚类): http:/www.sanbi.ac.za/Dbases.html TIGR: /tdb/tgi.shtml UniGene: /UniGene/ *65 基因组信息学基因组信息学 结合位点,启动子 除了基因组中基因的定位,了解基因表达开关的位置同样是非常重 要的。下面列出一些启动子和转录因子的数据库: EPD(真核生物Pol启动子): http:/www.epd.isb-sib.ch/ PromEC(大肠杆菌mRNA启动子): http:/bioinfo.md.huji.ac.il/marg/promec TRANSFAC(转录因子和结合位点): http:/transfac.gbf.de/TRANSFAC/ *66 基因组信息学基因组信息学 蛋白质数据库 DNA-RNA-蛋白质是分子生物学的中心法则。 蛋白质的数据库非 常多,对于不同的蛋白质家族可以创立不同的数据库。下面列出几个广泛 使用的数据库: InterPro(蛋白质家族和域): http:/www.ebi.ac.uk/interpro EXProt(功能被实验证实的蛋白质): http:/www.cmbi.nl/exprot PIR(蛋白质信息库): / SWISS-PROT/TrEMBL (已注释的蛋白质序列) http:/www.expasy.ch/sprot *67 基因组信息学基因组信息学 蛋白质序列模体(Motifs) 蛋白质序列模体是蛋白质中的一些保守的区域。储存这些信息的数 据库包括: BLOCKS (保守域的多重比对):/ CDD: /Structure/cdd/cdd.shtml eMOTIF: /emotif/ Pfam: http:/www.sanger.ac.uk/Software/Pfam/ PRINTS: http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/ ProDom: http:/www.toulouse.inra.fr/prodom.html PROSITE: /prosite ProtoMap: *68 基因组信息学基因组信息学 结构数据库 当蛋白质的序列确立后,剩下的事就是确定它的结构和功能。蛋白 质的三维结构一般通过核磁共振或X射线衍射光子学方法确定。 一些大规 模结构数据库包括: ASTRAL / PDB / SCOP http:/scop.mrc-lmb.cam.ac.uk/scop MMDB /Structure/ *69 基因组信息学基因组信息学 基因表达数据库(微阵列实验 ) 一旦基因的定位和序列已知,下一个步骤就是确定它们的功能。目 前DNA微阵列仍旧是基因表达方面最重要的高通量试验技术。实验得到的 图像、基因表达的模式、实验结果的分析和代谢途径等结果存放在相应的 数据库中,下面列出其中部分数据库的网址: ArrayExpress http:/www.ebi.ac.uk/arrayexpress BodyMap http:/bodymap.ims.u-tokyo.ac.jp/ HugeIndex / 小鼠Atlas和基因表达数据库: http:/genex.hgu.mrc.ac.uk/ NetAffx / 斯坦福微阵列数据库:http:/genome- /microarray/ KEGG http:/www.genome.ad.jp/kegg/ Klotho /klotho/ *70 基因组信息学基因组信息学 基因表达数据库(微阵列实验 ) 一旦基因的定位和序列已知,下一个步骤就是确定它们的功能。目 前DNA微阵列仍旧是基因表达方面最重要的高通量试验技术。实验得到的 图像、基因表达的模式、实验结果的分析和代谢途径等结果存放在相应的 数据库中,下面列出其中部分数据库的网址: ArrayExpress http:/www.ebi.ac.uk/arrayexpress BodyMap http:/bodymap.ims.u-tokyo.ac.jp/ HugeIndex / 小鼠Atlas和基因表达数据库: http:/genex.hgu.mrc.ac.uk/ *71 基因组信息学基因组信息学 NetAffx / 斯坦福微阵列数据库:/microarray/ KEGG http:/www.genome.ad.jp/kegg/ Klotho /klotho/ MetaCyc / *72 基因组信息学基因组信息学 其它数据库 当基因的功能已知后,就能够将那些与疾病相关的基因分类。突变 数据库包括: OMIM: /Omim/ OMIA: .au/omia/ HGMD: / 肿瘤基因家族数据库: /tgdf.html 最广泛使用的文献资源是PubMed: http:/www.ncbi.nlm.nih.giv/PubMed/ *7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- TCZSYSJLXH 002-2024 全国艺术行业职业能力水平评价团体标准
- 太原单柱式标志杆施工方案
- 吉安市防水补漏施工方案
- 浦东新区2024学年度第一学期期末教学质量检测高三语文试卷
- 生态茶园修复工程施工方案
- 建筑工程竣工验收检测报告
- 右安门钢结构施工方案
- 简支钢箱梁桥施工方案
- 酉阳四星级酒店施工方案
- 陶铝吸音板施工方案
- 中西医结合规范化癌痛全程管理 癌痛的中西医结合规范化治疗(一)课件
- 沙棘种植施工方案
- 安 全 旁 站 监 理 记 录 表
- 村卫生室医疗质量督导检查汇总表
- 电子商务专升本考试(习题卷12)
- (完整word版)Word信纸(A4横条直接打印版)模板
- 雨水管道水力计算表
- (完整版)《西游记》竞赛题目100题
- 困境儿童走访调查表、致困原因确定参考标准、困境儿童评估报告
- 电机学同步电机-全套课件
- 农产品电商营销与运营PPT完整全套教学课件
评论
0/150
提交评论