医学数据挖掘 基因注释与功能分类_第1页
医学数据挖掘 基因注释与功能分类_第2页
医学数据挖掘 基因注释与功能分类_第3页
医学数据挖掘 基因注释与功能分类_第4页
医学数据挖掘 基因注释与功能分类_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因注释与功能分类引言随着后基因组(post-genomics)时代的来临,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functional genomics)。功能基因组学的主要任务之一是进行基因组功能注释(genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。 Si

2、ngle( SNP/Gene /Tf/miRNA) multi- ( SNP/Gene /Tf/miRNA) system病前期早期中期晚期终末期Cancer information flow: Two linesLife line:Mechanism line:功能模块代谢通路互作网络Analysis ways:+ ways当我要知道某基因的功能的时候怎么办?(不同物种)(它功能异常会导致什么疾病?)当我要知道某些基因集合的功能的时候怎么办?当我要知道某些基因或蛋白的关系及其关系代表的功能的时候怎么办?当我要知道某些疾病中那些基因发生了异常怎么办?当我要知道这些疾病有那些药物可以治疗怎么办?

3、当.当当.主要内容基因注释数据库数据库使用方法富集分析其他基因注释数据库GO通路数据库蛋白互坐数据库/ ERGOBioCyc/ GeneDB/ 通路数据库KEGG 其它通路数据库:/ReactomeGWT/entrypoint.htmlReactomewikipathways/index.php/WikiPathwaysbiocarta/http:/www.genome.jp/kegg/产生背景科学家期望能够根据基因组中的信息,用计算机计算或者预测出比较复杂的细胞中的通路或者生物的复杂行为。出于这个目的,日本京都大学生物信息学中心的Kanehisa实验室建立了一个生物信息学数据库KEGG。 1

4、995年5月,日本的教育、科学、体育和文化部携手建立了KEGG数据库。经过了18年的发展,数据库的规模不断的扩大,其应用价值也得到了世界范围内的认可。 KEGG是系统地分析基因功能、链接基因组信息和功能信息的数据库。数据库的维护人员不定期的根据最近出版的一些学术论文和生物学实验得到的数据对该数据库进行更新,来保证数据库的信息与最近的科研成果同步。 特点KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。人工创建的一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织

5、实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。内容各个数据库中包含了大量的有用信息。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG还包含了LIGAND数据库,包含关于化学物质、酶分子、酶反应等信息。通过与世界上其它一

6、些大型生物信息学数据库的连接,KEGG可以为研究者提供更为丰富的生物学信息(LinkDB)。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。KEGG目前共包含了18个子数据库,它们被分类成系统信息、基因组信息和化学信息三个类别 。可以通过不同的颜色进行区分KEGG存储内容 分类数据库目录颜色系统信息KEGG PATHWAYKEGG通路图KEGG BRITEBRITE功能层次KEGG MODULEKEGG功能单元的模块KEGG DISEASE人类疾病KEGG DRUG药物KEGG ENVIRON天然药物和与

7、健康相关的物质基因组信息KEGG ORTHOLOGYKEGG直系同源(KO)组KEGG GENOMEKEGG中带有完整基因组的物种KEGG GENES在完整基因组中的基因目录KEGG SSDB与基因有关的序列相似性数据库化学信息KEGG COMPOUND代谢物及其他小分子化合物KEGG GLYCAN多糖KEGG REACTION生化反应KEGG RPAIR化学反应中的反应物对KEGG RCLASSRPAIR定义的反应级别KEGG ENZYME酶命名法KEGG对象标识符DatabaseObjectPrefixExampleKEGG PATHWAYPathway mapmap, ko, ec, r

8、n, (org)hsa04930KEGG BRITEFunctional hierarchybr, jp, ko, (org)ko01003KEGG MODULEKEGG moduleM, (org)_MM00010KEGG DISEASEHuman diseaseHH00004KEGG DRUGDrugDD01441KEGG ENVIRONCrude drug, etc.EE00048KEGG ORTHOLOGYKO groupKK04527KEGG GENOMEKEGG organismTT01001(hsa)KEGG GENESGene / proteinhsa:3643KEGG COM

9、POUNDSmall moleculeCC00031KEGG GLYCANGlycanGG00109KEGG REACTIONReactionRR00259KEGG RPAIRReactant pairRPRP04458KEGG RCLASSReaction classRCRC00046KEGG ENZYMEEnzymeec:数据库中包含各种各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。因此,各个数据库中的数据记录都被称为KEGG对象。这些对象可以通过KEGG对象标识符来识别,标识符由一个与数据库相关的前缀加五个数字构成。(org) represents three-, f

10、our-, or five-letter organism code基因组信息存储在GENES数据库里,包括全部完整的基因组序列和部分测序的基因组序列,并伴有实时更新的基因相关功能的注释。 KEGG中化学信息的6个数据库被称为KEGG LIGAND数据库,包含化学物质、酶分子、酶化反应等信息。KEGG BRITE数据库是一个包含多个生物学对象的基于功能进行等级划分的本体论数据库,它包括分子、细胞、物种、疾病、药物、以及它们之间的关系。一些小的通路模块被存储在MODULE数据库中,该数据库还存储了其他的一些相关功能的模块以及化合物信息。KEGG DRUG数据库存储了目前在日本所有非处方药和美国的

11、大部分处方药品。KEGG DISEASE是一个存储疾病基因、通路、药物、以及疾病诊断标记等信息的新型数据库。KEGG PATHWAY DatabaseKEGG PATHWAY数据库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网络:1.新陈代谢2.遗传信息加工3.环境信息加工4.细胞过程5.生物体系统6.人类疾病7.药物开发PATHWAY的五种类型仅仅第一种参考通路(reference pathway)图是手动画出来的,其他的通路图都是通过计算产生的。 pathway中的每一个框(或线)都对应一个或多个K编号、EC编号及R编号。map - Reference pathway

12、 对于代谢相关的通路,在reference pathway中,一个点同时表示一个基因、这个基因编码的酶及这个酶参加的反应ko - Reference pathway (KO) ko通路中的点只表示基因ec - Reference pathway (EC) ec通路中的点只表示相关的酶rn - Reference pathway (Reaction) Reaction通路中的点只表示改点参与的某个反应、反应物对及反应类型org - Organism-specific pathway map 对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,

13、从而得到物种特异性的pathway。 map00010ko00010ec00010rn00010hsa00010KEGG PATHWAY DatabaseKEGG PATHWAY数据库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网络:1.新陈代谢2.遗传信息加工3.环境信息加工4.细胞过程5.生物体系统6.人类疾病7.药物开发丙酮酸丙酮酸激酶2-磷酸甘油酸磷酸烯醇式丙酮酸烯醇化酶葡萄糖6-磷酸葡萄糖6-磷酸果糖1,6-双磷酸果糖3-磷酸甘油醛1,3-二磷酸甘油酸3-二磷酸甘油酸http:/www.genome.jp/kegg-bin/show_pathway?org_na

14、me=rn&mapno=00010&mapscale=1.0&show_description=show葡萄糖代谢通路Hexokinase 己糖激酶KEGG ORTHOLOGY (KO) DatabaseKEGG参考通路图,BRITE功能层次以及KEGG模块都是以一种广泛的方式来表示,都可以用于所有物种。而KEGG直系同源系统(KO System)是这一表示方式的基础。包含手动定义的直系同源组,这些直系同源组就相当于KEGG通路中的点,BRITE层级中的点以及KEGG模块中的点。(这些点并不是某个具体物种的某一个基因,而是在许多物种中都存在的直系同源的某一个基因)。一旦基因被分配了KO标识或K

15、编号,通过基因组注释流程,物种特异性的通路图、BRITE功能层次和KEGG模块就可以自动产生了。直系同源与旁系同源直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是: (1).在进化上起源于一个始祖基因并垂直传递的同源基因; (2).分布于两种或两种以上物种的基因组; (3).功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换; (4).结构相似; (5).组织特异性与亚细胞分布相似。 旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在

16、进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。Image depicts concepts of Orthology and paralogy. Protein Kinase C Orthologs行与物种对应,3个字母都是相应物中的英文单词缩写,比如has表示Homo sapiens,mcc表示Macaca mulatta;列就表示相应的Ortholog分类,比如K00844就

17、表示生物体内的己糖激酶hexokinase 这一类序列和功能相似的蛋白质类(酶类)。如上图has后有3101,3098,3099 80201这4个条目,它表示在人类细胞中中存在3中不同的己糖激酶,它们分别由以上这3组数字代表的基因所编码,这3组数字应该是这3个基因的登录号。空白则表示在该物种中不存在这种酶。点击K00844则这一KO分类信息及成员列表都可显示出来;点击has则链接到物种(人类)基因组去了;点击P,则显示相应的代谢通路。下面我们点击3101,如下,3101是KEGG中的基因ID,H.sapiens表示物种,然后是基因的名称,表达的酶,属于哪个KO分类以及参与哪些代谢途径;下面还有

18、结构、序列信息等等。所以从Ortholog table中可以很容易地知道一张代谢通路上有哪些KO分类(酶类),并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。 KO编号表示一个基因,是ko通路中的基本单位,某一K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。 KO编号也包括通路,每个通路都有KO编号丙酸代谢KOHSAMUSKEGG BRITE DatabaseKEGG BRITE是一个层级分类的数据库,包含生物系统各个方面的知识。相对于KEGG PATHWAY仅限于分子间相互作用和反应,KEGG BRITE包含了许多不同的关系类型。例如,可以查询酶和底物之间的关

19、系,也可以查询某种酶的同源基因。搜索3101( Hexokinase 己糖激酶)代谢通路KOBRITE其他通路 信号通路 药物非代谢通路(信号转导通路等)磷酸化激活绑定/相关http:/www.genome.jp/kegg/pathway/hsa/hsa04010.htmlMAPK通路节点间的各种关系通过这些详细的互作关系,我们能够更清晰的了解通路!http:/www.genome.jp/kegg/document/help_pathway.htmlhttp:/www.genome.jp/kegg/xml/docs/Detail:泛素化去磷酸化抑制激活磷酸化绑定/相关http:/www.gen

20、ome.jp/kegg/pathway/hsa/hsa04630.html1. Metabolism 2. Genetic Information Processing 3. Environmental Information Processing 4. Cellular Processes 5. Organismal Systems 6. Human Diseases 6.1 Cancers 6.2 Immune System Diseases 6.3 Neurodegenerative Diseases 6.4 Cardiovascular Diseases 6.5 Metabolic D

21、iseases 6.6 Infectious Diseases 心血管疾病(Cardiovascular Diseases )肥厚性心肌病(HCM)Arrhythmogenic right ventricular cardiomyopathy (ARVC)Dilated cardiomyopathy (DCM)Viral myocarditis 糖尿病(Type II diabetes mellitus )结肠直肠癌(Colorectal cancer)KEGG通路中的疾病基因信息? 1. Metabolism 2. Genetic Information Processing 3. Envi

22、ronmental Information Processing 4. Cellular Processes 5. Organismal Systems 6. Human Diseases KEGG通路中的疾病信息?查询通路中的疾病信息进入KEGG网站 http:/www.genome.jp/kegg/pathway.html选择一个通路(如:MAPK)进入该通路,改变通路显示方式为Homo sapiens (human) + Disease/drug 。点击GoMAPK通路结果:http:/www.genome.jp/kegg-bin/show_pathway?org_name=hsadd&

23、mapno=04010&mapscale=1.0&show_description=show浏览通路中与疾病相关的基因疾病基因 药靶基因 http:/www.genome.jp/kegg-bin/show_pathway?org_name=hsadd&mapno=04010&mapscale=1.0&show_description=show人类基因 培利替尼 根据疾病风险基因识别疾病风险通路利用各种技术(基因表达谱、RNAseq、质谱、大规模突变、全基因组关联分析等)识别疾病风险基因注释这些基因到通路中识别疾病风险通路分析这些通路与疾病的相关性查看基因注释到哪些通路基因蛋白质基因idKEGG

24、 idKO number/EC numberKO:KEGG直系同源组号EC:酶号具体的注释过程:案例:查看单个疾病风险基因注释到哪些通路神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR) 进入KEGG搜索界面http:/www.genome.jp/kegg/tool/map_pathway2.html选择Search against为:hsa选择Primary ID 类型为:NCBI-GeneID输入EGFR基因(如格式:1956 red)点击Exec案例:查看多个疾病风险基因注释到哪些通路(适用于复杂疾病)从GAD数据库收集动脉硬

25、化(artherosclerosis)风险基因集合:共234个基因进入KEGG搜索界面http:/www.genome.jp/kegg/tool/map_pathway2.html选择Search against为:hsa选择Primary ID 类型为:NCBI-GeneID输入EGFR基因,格式:19 red 368 red点击Exec234个动脉硬化相关基因凝血相关KEGG其他数据库基因组信息存储在GENES数据库里,包括全部完整的基因组序列和部分测序的基因组序列,并伴有实时更新的基因相关功能的注释。 KEGG中化学信息的6个数据库被称为KEGG LIGAND数据库,包含化学物质、酶分子、酶化反应等信息。KEGG BRITE数据库是一个包含多个生物学对象的基于功能进行等级划分的本体论数据库,它包括分子、细胞、物种、疾病、药物、以及它们之间的关系。一些小的通路模块被存储在MODULE数据库中,该数据库还存储了其他的一些相关功能的模块以及化合物信息。KEGG DRUG数据库存储了目前在日本所有非处方药和美国的大部分处方药品。KEGG DISEASE是一个存储疾病基因、通路、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论