《KEGG数据库简介》PPT课件.pptx_第1页
《KEGG数据库简介》PPT课件.pptx_第2页
《KEGG数据库简介》PPT课件.pptx_第3页
《KEGG数据库简介》PPT课件.pptx_第4页
《KEGG数据库简介》PPT课件.pptx_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

简 介 2013/6/6 产生的背景 如何借助计算机全面地展示细胞和 生物所包含的生物学信息是后基因组时代的 重大挑战之一。科学家期望能够根据基因组 中的信息,用计算机计算或者预测出比较复 杂的细胞中的通路或者生物的复杂行为。出 于这个目的,日本京都大学生物信息学中心 的Kanehisa实验室于1995年建立了生物信息学 数据库KEGG。 特点 KEGG是一个整合了基因组、化学和系统功能信息的数 据库。把从已经完整测序的基因组中得到的基因目录与 更高级别的细胞、物种和生态系统水平的系统功能关联 起来是KEGG数据库的特色之一。 人工创建了一个知识库,这个知识库是基于使用一种可 计算的形式捕捉和组织实验得到的知识而形成的系统功 能知识库。它是一个生物系统的计算机模拟。 与其他数据库相比,KEGG 的一个显著特点就是具有强 大的图形功能,它利用图形而不是繁缛的文字来介绍众 多的代谢途径以及各途径之间的关系,这样可以使研究 者能够对其所要研究的代谢途径有一个直观全面的了 解。 用途 各个数据库中包含了大量的有用信息。基因组信息存储 在GENES数据库里,包括完整和部分测序的基因组序列 ;更高级的功能信息存储在PATHWAY数据库里,包括图 解的细胞生化过程如代谢、膜转运、信号传递、细胞周 期,还包括同系保守的子通路等信息;KEGG的另一个 数据库LIGAND,包含关于化学物质、酶分子、酶反应等 信息。 通过与世界上其它一些大型生物信息学数据库的连接, KEGG可以为研究者提供更为丰富的生物学信息(LinkDB) 。 KEGG提供了Java的图形工具来访问基因组图谱,比较基 因组图谱和操作表达图谱,以及其它序列比较、图形比 较和通路计算的工具,可以免费获取。 影响及发展 KEGG建立了KEGG直系同源系统(the KEGG Orthology (KO) system),这个系统通过把分子 网络的相关信息连接到基因组中,从而发展和 促进了跨物种注释流程。 结果表明,KEGG被当做一个参考知识库,被 广泛的用于基因组测序和其他高通量实验技术 得到的大规模数据集的整合和解释中。除了保 持对基础研究的支持,随着KEGG分子网络的 一些小变化,KEGG正在朝着更加偏向于实际 应用的方向发展,这些应用主要集中在整合人 类疾病、药物和其他与健康相关的物质。 KEGG数据库 KEGG是一个综合数据库,它们大致分为系 统信息、基因组信息和化学信息三大类。 进一步可细分为16个主要的数据库。可以 通过不同的颜色编码来区分。 分类类数据库库目录录颜颜色 系统信息 KEGG PATHWAYKEGG通路图 KEGG BRITEBRITE功能层次 KEGG MODULEKEGG功能单元的模块 KEGG DISEASE人类疾病 KEGG DRUG药物 KEGG ENVIRON天然药物和与健康相关的物质 基因组信息 KEGG ORTHOLOGYKEGG直系同源(KO)组 KEGG GENOMEKEGG中带有完整基因组的物种 KEGG GENES在完整基因组中的基因目录 KEGG SSDB与基因有关的序列相似性数据库 化学信息 KEGG COMPOUND代谢物及其他小分子化合物 KEGG GLYCAN多糖 KEGG REACTION生化反应 KEGG RPAIR化学反应中的反应物对 KEGG RCLASSRPAIR定义的反应级别 KEGG ENZYME酶命名法 三类数据库的关系 KEGG对象标识符 DatabaseObjectPrefixExample KEGG PATHWAYPathway mapmap, ko, ec, rn, (org)hsa04930 KEGG BRITEFunctional hierarchybr, jp, ko, (org)ko01003 KEGG MODULEKEGG moduleM, (org)_MM00010 KEGG DISEASEHuman diseaseHH00004 KEGG DRUGDrugDD01441 KEGG ENVIRONCrude drug, etc.EE00048 KEGG ORTHOLOGYKO groupKK04527 KEGG GENOMEKEGG organismTT01001 (hsa) KEGG GENESGene / proteinhsa:3643 KEGG COMPOUNDSmall moleculeCC00031 KEGG GLYCANGlycanGG00109 KEGG REACTIONReactionRR00259 KEGG RPAIRReactant pairRPRP04458 KEGG RCLASSReaction classRCRC00046 KEGG ENZYMEEnzymeec:2.7.10.1 数据库中包含各种各 样的数据对象,这些 数据对象是为了用来 对生物系统进行计算 机模拟的。因此,各 个数据库中的数据记 录都被称为KEGG对 象。这些对象可以通 过KEGG对象标识符来 识别,标识符由一个 与数据库相关的前缀 加五个数字构成。 (org) represents three-, four-, or five-letter organism code 当前数据库中的记录 KEGG Database as of 2013/6/5 KEGG PATHWAYPathway maps, reference (total)0 (246,368) KEGG BRITEFunctional hierarchies, reference (total)140 (78,848) KEGG MODULEKEGG modules, reference (total)566 (185,274) KEGG DISEASEHuman diseases1,301 KEGG DRUGDrugs9,910 KEGG ENVIRONCrude drugs and health-related substances845 KEGG ORTHOLOGY KEGG Orthology (KO) groups16,748 KEGG GENOMEKEGG Organisms2,697 KEGG GENESGenes in high-quality genomes (190 eukaryotes, 2336 bacteria, 153 archaea) 10,821,739 KEGG SSDBBest hit relations within GENES Bi-directional best hit relations within GENES 130,947,959,957 2,996,848,546 KEGG DGENESGenes in draft genomes (18 eukaryotes)432,488 KEGG EGENESGenes as EST contigs (99 eukaryotes)3,792,883 KEGG MGENESGenes in metagenomes (716 samples)90,754,418 KEGG COMPOUND Metabolites and other small molecules17,012 KEGG GLYCANGlycans10,985 KEGG REACTIONBiochemical reactions9,320 KEGG RPAIRReactant pair chemical transformations14,092 KEGG RCLASSReaction class2,807 KEGG ENZYMEEnzyme nomenclature5,973 KEGG PATHWAY Database KEGG PATHWAY数据库是一个手工画的代谢通路的集 合,包含以下几方面的分子间相互作用和反应网络: 1.新陈代谢 2.遗传信息加工 3.环境信息加工 4.细胞过程 5.生物体系统 6.人类疾病 7.药物开发 PATHWAY的五种类型 仅仅第一种参考通路(reference pathway)图是手动画出来的,其他的通路 图都是通过计算产生的。 pathway中的每一个框(或线)都对应一个或多个 K编号、EC编号及R编号。 map - Reference pathway 对于代谢相关的通路,在reference pathway中,一个点同时表示一个基 因、这个基因编码的酶及这个酶参加的反应 ko - Reference pathway (KO) ko通路中的点只表示基因 ec - Reference pathway (EC) ec通路中的点只表示相关的酶 rn - Reference pathway (Reaction) Reaction通路中的点只表示改点参与的某个反应、反应物对及反应类型 org - Organism-specific pathway map 对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个 标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性 的pathway。 map00010ko00010 ec00010rn00010hsa00010 KEGG BRITE Database KEGG BRITE是一个层级分类的数据库,包含 生物系统各个方面的知识。相对于KEGG PATHWAY仅限于分子间相互作用和反应, KEGG BRITE包含了许多不同的关系类型。例 如,可以查询酶和底物之间的关系,也可以 查询某种酶的同源基因。 tp53在BRITE中的查询结果 KEGG MODULE Database KEGG MODULE是一个人工定义的功能单元的集合。被用于 已测序基因组的注释和生物学上的解释。各个模块使用M 开头的编号及与其对应的一系列K开头的编号来表示。 四种主要的KEGG模块 1.通路模块:代表在KEGG代谢通路图中的复杂功能单元, 例如M00002(糖酵解,与三碳化合物相关的核心模块) 2.结构复合物:通常形成分子机械,例如M00072(寡糖转 移酶) 3.功能集:基本单元的其他形式,例如M00360(氨酰基- tRNA 合酶,原核生物) 4.特征模块:作为某种表型的标记,例如M00363(肠出血 性大肠杆菌致病性特征,志贺毒素) KEGG ORTHOLOGY (KO) Database KEGG参考通路图,BRITE功能层次以及KEGG模块 都是以一种广泛的方式来表示,都可以用于所有 物种。而KEGG直系同源系统(KO System)是这一 表示方式的基础。包含手动定义的直系同源组, 这些直系同源组就相当于KEGG通路中的点, BRITE层级中的点以及KEGG模块中的点。(这些点 并不是某个具体物种的某一个基因,而是在许多 物种中都存在的直系同源的某一个基因)。一旦 基因被分配了KO标识或K编号,通过基因组注释 流程,物种特异性的通路图、BRITE功能层次和 KEGG模块就可以自动产生了。 直系同源与旁系同源 l 直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定 义是: (1).在进化上起源于一个始祖基因并垂直传递的同源基因; (2).分布于两种或两种以上物种的基因组; (3).功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换 ; (4).结构相似; (5).组织特异性与亚细胞分布相似。 l 旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由 于始祖基因的加倍而横向产生的几个同源基因。直系与旁系的共性是 同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同 源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中 的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在 定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结 构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。 Image depicts concepts of Orthology and paralogy. from Protein Kinase C Orthologs Neurotrophin(神经营养因子) signaling pathway(ko04722) 从这个图上可以看到基因之间的相互作用。 ko编号表示一个通 路,这个通路是不 分物种的,相当于 所有物种的这一通 路的并集。 Ortholog table(ko04722) K编号表示一个基因,是ko 通路中的基本单位,某一K 编号代表的不是某一具体 物种的基因,而是所有物 种的某一同源基因的统 称。 KEGG GENOME Database 该数据库中收集了2679中物种(190 eukaryotes, 2336 bacteria, 153 archaea)的基因 组信息,这些物种都已经具有完整的基因组 序列,并根据大量的EST数据集进行了增补。 KEGG GENES Database KEGG GENES 是所有已知全基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论