KEGG数据库的使用说明_第1页
KEGG数据库的使用说明_第2页
KEGG数据库的使用说明_第3页
KEGG数据库的使用说明_第4页
KEGG数据库的使用说明_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、KEG(数据库的使用方法与介绍 http:/www.ge no me.jp/KEGG的数据KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人 工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI等数 据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外 KEGG中 有一个“专有名词” KO( KEGG Orthology ),它是蛋白质(酶)的一个分类体 系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO (或K)标签。下面就首先来讲一下 KEGG orthology。任找一个代谢通路图,在上方有 pathway me

2、ue | payhway en try | Show(Hide) description | 这 3 个选项,点击 pathway entry,出现了一个页面,这 个随时被连接出来的页面相信大家一定再熟悉不过了。在这个页面中的pathwaymap项中点击按钮状的链接 Ortholog table。就进入了 Ortholog table如下的页面:Ortholog tableoOOOia Page: 1 T>Orga nismK00844(HK) 296K12407K00845(GCK) 11(glk) 1108K01810(GPI) 1234hsa r310130983099264528

3、21* ptr P462298741291450505737923455941mcc P710479698120711922699728717960mmu P152772120321527510398814751,mo P25058250592506024385292804cfa P479234475781489096479379611942bta P281771280817616576280808在这个表中,行与物种对应,3个字母都是相应物中的英文单词缩写, 比女口 has表示 Homo sapiens, mcc表示 Macaca mulatta;歹U就表示相应的 Ortholog 分类,比

4、如K00844就表示生物体内的己糖激酶hexokinase这一类序列和功能 相似的蛋白质类(酶类)。如上图 has后有3101, 3098,3099这3个条目,它 表示在人类细胞中中存在3中不同的己糖激酶,它们分别由以上这3组数字代表 的基因所编码,这3组数字应该是这3个基因的登录号。空白则表示在该物种中 不存在这种酶。点击K00844则这一 KO分类信息及成员列表都可显示出来;点击has则链接到物种(人类)基因组去了;点击 P,则显示相应的代谢通路。下面我们 点击3101,如下:Homo sapiens (human): 3101、” 申Entry3101CDSii. sapiensGene

5、 nameHK3r HKIII, HXK3Definitionheokinase 3 white cell,7.1.1OrthologyK0CS44 hexokinA» EC:2.7,1.1PathwayhsaOOOlO Glycolysis: / Gluconeegenesis hsaOGOol Frac七o曰巳 and mannose metabolism hsdC'3052 Galactose metabolism hsa00500 Starch and sucrose metabolism haa00520 Amino sugar and nucleotide sug

6、ar aetaboilam hsia00524 Butirasln and neomycin biosynthesis hsalllO j Met且bolic: pathways hsa0913 Insulin signaling pathway hsa04930Typ皂 II diah皂七皂s mellitusClavsMetabolism; Carbohydrate Metabolism; GlycolyAiA / Glu=cneogeneaiA PATH:haa0001G|Metabolism; Caxbchydra七e Metabolism; Fructcse and macnc3&l

7、t;= metabolismPATH:hsa0O051如上图,就是我们常见的一个页面,3101是KEG矽的基因ID (登录 号), H.sapiens表示物种,然后是基因的名称,表达的酶,属于哪个 KC分类 以及参与哪些代谢途径;下面还有结构、序列信息等等。所以从Ortholog table中可以很容易地知道一张代谢通路上有哪些K0分类(酶类),并且这些酶类的成员在各物种中分配存在的情况以及特定的 名称。怎么看KEGG代谢通路图两QXEGLYCOLYSIS / GLUCONEOGENESISStarchiiidsacHise HetabDlism2.7.1 4131.3.10ctD-Gluco

8、se-lPGlycolysis / Gluconeogenesis - Saccharomyces cerevisiae (budding yeast)Patfiway menu | Pathway entry | Shaw descripban Sacchanomvces cerevisiae fbudding yeast)5.4.22a-D-Glucose5 I 3.331.39I為丄i iry词12 工 i.22.?..632T1.2271.147p-D-Glwose*QI 53.1.9 -jl 1y.,. Aibutm-P伽Q乜辽画_>O彳3占1.3 Saiici

9、ii I n . ,n3 1 3.1127,1.31271君 Q p-D-Fnicto®-6P4t2.13|9O*CljjtBtont-Pc D-GliiOOaB9 (eitracellulai* |3-D-Fiructose-lnfliP 2* Glyceraldehyde-SP 冷十一比如以上这个图,方框一般就是酶,方框里面的542.2不是IP而是EC编号;小圆圈代表代谢物,你把鼠标放上去,(别放我这上面,放KEGG中去)会出现C00668的东西,C代表compound, 00668是这种化合物在 KEGG中 的编号,一般在KEGG中数据条目都是这样的

10、,前面一个标志,后面一个五位 数编号;大的圆方块,就表示是另一个代谢图了,所以就不展开了。但是:为什么这个图上有的小框框是绿色呢?(这是绿色吧?我蓝绿不分的,下同)因为这是一张特定物种(S. cere.酿酒酵母)的代谢图,蓝色的框框 表示专属于这个物种。在 KEGG中有两种代谢图,一种是参考代谢通路图 referenee pathway是根据已有的知识绘制的概括的、详尽的具有一般参考意义 的代谢图,这种图上就不会有绿色的小框,而都是无色的,所有的框都可以点击 查看更详细的信息;另一种就是像上面这样的属于特定物种的代谢图 species-specific pathway会用绿色来标出这个物种特有

11、的基因或酶,只有这些绿 色的框点击以后才会给出更详细的信息。这两种图很好区分,refere nee pathway在KEGG中的名字是以map开头的,比如map00010,就是糖酵解途径的参考 图,而特定物种的代谢通路图开头三个字符不是map而是种属英文单词的缩写(应该就是一个属的首字母+2个种的首字母)比如酵母的糖酵解通路图,就是 sce00010大肠杆菌的糖酵解通路图就应该是 eco00010吧。那么:怎么找这两种图呢?(1) 有下拉列表的时候,在列表选择refere nee或者是特定物种即可。(2)在 pathway检索的页面 http:/www.genome.jp/kegg/pathw

12、ay.html,如下图:KEGG2 PATHWAY BRrTESelect prefixmap | OrganismDISEASE DRUG KO GENES GENOME LIGAND DBGETEntmkevrVirardspqjHelpPathway MapsKEGG PATHWAY is a collection of manually drawn pathway maps (see new maps; change history, and last updates) representing dur knowledge on the molecular interaction an

13、d reaction net woIts for:0. Global Map1. MetabolismCmrbdhvdmt:E Enerav Lioid Nucleotide Amino acid Other amino acid Gl辛匚mn默认的就是map,参考图,你想要什么物中的代谢图写上它的名称就 好了(种属缩写),如果不知道是哪 3个字母,点击organism选择即可。(不 过你点进去也是一片空白,你要提示两个字母才会给出下拉条目) 顺便问一下:怎么找基因呢?还是上面这张图,看到了吗,除了 PATHWAY之外是不是还有BRITE、DISEASE.以及GENES等等,点击基因GENES

14、,就可以查找基因了, 如下图:KEGG2 PATHWAY BRITE KO GFNES 5SDEt GENOMEOrganismsEnter Orqigerte (Example) syn!ssr3451Entry i Gwnw 已ustwr Ortholog | Paralog Motif 匚心Gene CatalogsKEGG GENES 由 a collection of gene catalogs for all complete genomes (百皂e update history) generated from publicly available resources, most

15、ly NCBI RefSeq, They are subject to SSDB l. ifli b-K!H nIH/i j-B j-i B-m.n 雀 f jT uil n-s ji,i. i b.kli j-s.ai-b、!J*-hi A. IA:卜 J-fc j-s I Ir-1 if-'I F Ph !f-'C j-t ljl - fl ri«ri° jnmji不过这里要按一定的格式(org:gene)输入要查找的目的基因,比如它 给出的示例:syn表示物中,ssr3451表示基因ID,查找出来的基因名称是psbE。其实我试了一下,若直接检索基因名称

16、(而不是KEGG中的基因ID)syn:psbE也 是一样的。因为我不知道 KEGG中基因ID如何编制的,但是,我同时也不知道 基因的名称是如何定义的。 比如果糖1,6-二磷酸酶Fructose 1,6-biphosphatase的 基因就叫fbp,我放进去能检索,但是我把有名的 gal填上去就不能检索,当然这 可能与基因后面的乱七八糟的序号后缀有关,比如填上gal1就能检索了,所以我真不知道基因到底怎么命名的?当然我在syn中没找到gal1在sce中检索到了,这也说明了基因果然不是乱长的。依旧是上面这个图,看到 KEGG2 了吗?点击。也会出现检索框,这 是一个总体性地检索框,在这里面输入关键

17、词,代谢通路也好,glycolysis也好,gal也好,化合物也好,没那么多限制,KEGG中的相关东西都会检索出来,在 这里浏览一下,再进行后续检索,也是一个不错的方法。当然,代谢通路图,还有其他的查看形式(比如以 KO查看),以及 图上可以点击,链接到这链接到那,点来点去总能点出奇怪的页面来, 熟悉一下 也就熟悉了,这些东西会很有用,所以我就不说了。下面讲一下 KEGG的自动 注释功能。KEGG的自动注释KEGG Automatic Annotation Server, KEGG 的自动注释服务简称 KAAS。 在线网址为http:/www.genome.jp/tools/kaas/。就是你

18、提交一段蛋白质序列或者 基因序列(必须是fasta格式),它自动在内部进行相似性比对,找到最相似的 基因,并确定检索基因的KO分类,然后给出这些基因所在的代谢通路并以以不 同的颜色标示这些基因。如下图:Query sequences (inmuiti-FASTA)* Text data (I. NucleotideGFRQARQaVAE IGAVAS GISGSGPT LFAH:DKPETAQRVM>WLGE(NYLQNQEGFVHI CRL * DIASARTZLEN>0002KKLYNLKDSHE275FJ爲AVT茁LWKN誤LFFRAFEFSIHEI二EXLKLTFVTREA

19、KIIS 三 AFISDEIPQEILEERVRAAEAFPAPVANVESUVGCLELFHGPIIAEKDFGGRFMAQKLTH lAGDKmiLTATSGDTGAAVAHAFY 缸 FNVKWILYERGKISPLQEKLFCTLQSIIETVAIDSJFiaCCALVK妙FDDEELKVALGLNSANSimsRLLAQICYFFEAVaOLPCPTRNQ Tin r&.TFcnT TEUT T 2b 亡T UTtVD Tt TIsTi WnTt rcu rT sj FvzAwq:DtrbTT Mf 卞 ” File upload ( Nucleobde)浏览Query na

20、meforexampleE-mail addressneobe110GENES dsta set (javascnpt button or text box)我在help中随便复制了它的两条示例氨基酸序列,然后粘贴到检索框 中,进行了检索。检索框默认的蛋白质序列,如果不是的话要改选。然后填上一 个邮箱地址,点击又下角的compute即可。不出意外的话,你在接下来的页面中 应该看不到任何结果,甚至连提示都没有,原来它把结果发到你邮箱去了。 我也 不明白就一个网页链接为什么还硬要发送到邮箱。首先发你一封信说已经接受,并给你一个期待结果显示的网址,一段时间后,会发你另外一封邮件,说已经完 成。打开它

21、给的网址,就能看到结果了,如下:HomeFeedbackKEGG2KEGGGenome Met看来从1: 20开始计算到1: 50才结束,两条氨基酸链计算了 30分 钟(不过我感觉没这么长呀)。人家说了,计算时间是与要和检索序列对比的目 标序列成正比,因此在检索的时候最好限制一下检索范围。点击html有两条代谢通量图的条目,点开他们就可以直观地看出我们检索的未知序列在代谢通路中的位置和作用了。Text给出的是两个KO分类好像北京大学的生命科学学院也搞了一个 KOBA,也是基于KEGG中的KO进 行注释的一个服务,应该和这个差不多吧。代谢通路的着色怎么在KEGG检索出来的代谢通路中给特定的一些化

22、合物或者基因(酶)着色以高亮显示呢?进入网页 http:/www.genome.jp/kegg/tool/color_pathway.html ,或者 由 pathway主页的 Color objects in KEGG pathways进入,看图:KEGG2 Search Pathway Color Pathway Search Brite Color ©rite Map TaxonomySearch against: Saccharomyces cerevisiae (budding yeast)Enter objects one per line followed by bgt

23、olo匚 Fgcolor:GALI redExamptes;caona blue(Reference path wav (KO'i)K0ie03 redfblueCOO 118 pink(Homo sapiens pathway)7167 red .blueCOO 118 pinkAlter native IVf enter the file name containing the data:測览If necesaryr change default bgcolor: pinkJ! Include aliasesI Use uncolored diagrams0 Display obj

24、ects not found in the searchExec (clear如上图,search against下拉出你可供选择的代谢通量图,总所周知的 一个很烦人的问题就是,在这些下拉列表中,条目排序竟然是乱七八糟的很难索 引。还好我发现把焦点定在这个下拉列表的最顶端的文本框上(即文本框变成选中的蓝色),然后在键盘上拼写你要的那个物中的英文单词,只需要拼两三个字符相应的代谢通量图就出现在顶端了。 比如我要找酵母的代谢通量图,只需要在 文本框变蓝的时候拼写“ sacc 这几个字符“ Saccharomyces cerevisiae(budding yeast)”就自动被置于上面了。或者不把焦

25、点集中在文本框中也行,但是你要很 快地拼写sacc,否者的话焦点会在以这几个字符开头的条目之间切换。如上图,右边有示例,这个貌似不要太简单。想给谁着色就把它写出 来后面跟上颜色就好了, 一个一行。比如写上C00118 blue就表示在代谢通路图 中把C00118这种代谢物(3-磷酸甘油醛,GAP)给着上蓝色。但是大家也看出 来了,着色可以自定义背景色,也可以同时定义前景色。我曾一度琢磨前景色是 干嘛的,琢磨半天发现没用。背景色就是把方框或者圆圈涂成选定的颜色,这自然是要的;而前景色是谁的颜色,就是方框里面的542.2这几个数字的颜色,或者是小圆圈圆周的颜色,这有必要定义吗,所以后面直接跟一种颜

26、色就行了。然后就可以了。我随便弄个gal1想去着色,KEGG突然说在酵母中 找不到gal1,怎么可能找不到呢?我前面还在 GENES中搜过呢,分明是酵母, 分明是gal1分明搜的到,我当时还大为兴叹,唉,看来基因果然不能乱长啊, 怎么可能一顿饭就说找不到了呢?我又回去搜里一下,确实搜的到,我再回来着色还说找不到。发现没有哪里不对呀,难道在这里KEGG着色只能输入基因ID而不能输入名称?不是,输入基因ID能给着色,基因名称也应该能给 哈哈, 我突然大笑起来,一定是 KEGG区分大小写了!果然,我把搜到的 GAL1输进 去,好了!用gall又不行了。我突然觉得好玩起来,就一次次地改大小写,一 次次

27、地看它给出的错误报告,一次次得意地嗤笑它的弱智。既然区分大小写,那 red能着红色,Red、RED肯定就不认识了,果然改写一个大小写的 red就没反 应了,C00118也不认识了。前面那么多检索一直都不区分大小写的,在这里怎 么区分大小写呢? KEGG显然把这点疏忽了。着色结果如下:(红色的就是 GAL1的酶,右上角的就是C00118)Ml施i.j 1 LX"TV1CMjaJwne-I珂JI ub珂读2-DchylE&-3-dMrKy-. D-帘皿UM 砒丄订nd|鮎】Pentiss uiteTWETvemaiwOdrtiKj|41.2.S1|代谢物还好,如果要着色酶,没必要

28、去找基因,还免得像我那样麻烦, 直接在输入框中输入相应的酶就好了,比如ec: red(ec 要小写)跟GAL1 red是一样的。或者直接写 red也是一样的。这种着色功能还可用于对比(或寻找)两个不同物种的一些基因,或 者根据芯片数据,直观地示意一些基因的表达调控。 着色内容也可以预先按以上 规定的格式写在文本文件中,然后直接浏览导入也行。基因芯片数据的分析我对基因芯片数据(表达谱)的分析也是蛮感兴趣的。利用基因芯片的 表达数据,分析不同实验条件下的一些上调或下调基因,并与生物通路结合起来,用不同的颜色来直观地反映代谢通路中各基因表达的变化情况,可以为更好地研究代

29、谢网络提供了很大的帮助。以前出去听人家讲课,只知道GenMapp不错,可 以把基因芯片数据和通路结合起来,没想到在KEG仲也可以实现这一功能。进入网页 http:/www.genome.jp/kegg/expression/。网页左边是KEGG1身拥有的一些基因表达数据集 KEGG EXPRESSION Database!网页的右边 KegArray就是要进行芯片分析的工具了。 在KEGCEXPRESSIO下面,点击“list of experimental data available”,就打开了 KEGG中的基因芯片数据,见下图:t SynechocysUs sp. PCC&803

30、a Suzuki et al.Gi'OOl JSynechocystis PCCb8O3cold shock response PM1D:112y82yo=> Clus'sxnOOQuOQleK0000012saeDO0DO13eK0000014 esOODOOlS exQOOQQO?eK0C00003wild type wild type wild type wild type wild typE wild type wild type(normliKEd data emir). Download dat«UT 34CZ22C-1WT 34CZ22C-2UT

31、3Cz22C-3UT 34C/22C-4JWT 3Cz22C-5UT 34CZ22C-61exnUUDOlJOZ exOOOOOOB ex0000009 exOOOOOlO exOOOOOll 60000004 exOOOOOOShik33 disruptant hik33 disruphik33 disruptenthik33 disruptant hik33 disruptant hik33 disruptzt hik33 disruptanttransferredfrom34匚to22Ctransferredfrom34Cto22Ctransferredfrom34Cto22Ctrans

32、ferredfrom34Cto22Ctransferredfrom34Cto22Ctrsnsf昌rredfrom34Cto22Ctransferredfrom34Cto22C(noma 11 zed data, only)Hik33 34C/22C-1Hik33 34C/22C-2Hik33 34C/22C-3Hik33 34C/22C-4)Hik33 34C/22C-5JHik33 34C/22C-6Downlcdisruptantvs.wilddisruptdntvs.wilddisruptantvswilddisruptantVS -wilddisruptantVS-wildesnCOO

33、GOOS hik33 esODODOie hik33 eKOOOOOl? hik33 exODOOGlS hik33 exOOODOl hik33 ez0000G06 hik33 esGCOGOO? hik33di am pt ant vs wild disruptant vs. wildatep7(normalized data only). Download dateUTzHik331WT/Hik332UT/Hik33-3rrzH>k33-4VT/Hik33-5rWTHik33-6JHlhara et al. (20C1), Synschocystis POC6S03 acclima

34、tion croa low to high 1ight intensity Yoshimura et al. (2001) . Synechocystis PCX?6S03 cAMF receptor protein sycrpl (si11371 nu-* HihAre et a J. (2DQ3). Synechocvstis FCC6B03 redox-respans i ve enes PMID:1?591S91这是芯片数据的一个目录层次,箭头向右和向下分别表示收起和展开数据。我们以上图中的第一条数据为例,即Suzuki et al. 做的关于Synechocystis PCC6803

35、冷激响应的一条数据ex0000012,点击这个数据,在打 开的页面下面有个option列表,点击Launch KegArray,加载这个应用程序来 分析这条数据。出现如下对话框:EHTRY DEFUnilMS-ONTROLTARSETSUBMITTER DUEREFERENCExOMoaiaSyEBchoaystis KCCE03 cold abackwildfrom 3北 X 22C KT 34C/22C-1wild-tpe sella greywn at 34Cwild-tpe cells gzoMn at 34C were tiansferred t for 20 amnHcrioKin

36、urata Snibb ag r jp)L9-99-09-17 »:5«: 00409Keg Army Jn Ip www,qer>Dme,jpjF"1AUTHOR Suzuki IB Kdrieaski 弋* Hikun 兀 Kanehisa £ Mu: TITLE Ccld-reguiated gen.es uzidez coatzcl of the cold SynechccyiB'Ei 3 Mfl-l MiCEe-biDla 2001(13:2J:S-44MIDL12M2MCODEsy®.1BATA IS 3K3Tiff盯

37、幵辺«W 0 I螂靈跚Options:1 wiroui data lines |th£ pg-e|2 EMre EXPRESSION fil 3 Launch Keirapfar Mac OS X 1D2.0 df higher/Wmdciws with JRE 15.01 or hdgh&r冋你是打开还是保存,打开就相当于临时用一下,网页关掉就没了;保存就是把这个软件下载到自己的电脑上,以后还可以用。你先打开试试吧,这个不是关键,关键的是你可能打不开这个文件。 大家都知道,生物信息学的一些 软件往往要求安装JAVA才能运行,我JAVA早就安装了,但是仍然告诉我打不

38、开 这个文件,我看了一下文件格式,是什么 JNLP格式的没见过,看看属性,又从 网上搜搜,说需要java web start才能打开和运行,我安装了 JAVAjava webstart在哪里找到和启动,查了半天也没个头绪,忽然一想,java webstart肯 定在JAVA安装文件夹里,取首字母缩写,很有可能是 javaws.exe,我一搜还真 在安装文件夹里搜到这个执行程序了,用作JNLP的默认打开方式,立马就呼呼地启动了。出现了如下的界面:File Edit View Tools List HelpDataGene/Cornpound ClusteringFileFite name : e

39、x;ex0000012Local GenomeNet Clear# Organism: Svrchocvstis sp. PCC 6803y Compound dataFile name:1 总' Keg Ar ray analysisFile Edit View TcStatistics Arravln*T'quunKIntensrtyrhrestioim ino iujoocrhi eshold and normatizdtionToolsMapping to Pathway GoRdtio threshold itifouLocal ClearED conversion

40、Gg图中的File Name、Organism还都对,下面的参数一般都是默认的, 不需要改。右边还有一个统计图,用以显示上调、下调和不调的基因数目比例。 绿色表示下调,红色上调,黄色无明显差异(之前有文献说红色是下调,搞的我 迷糊了好大一阵子!)。那怎么在生物学通路中看这些基因的调整情况呢?看到最下面的Mapping to 了吗,选择pathway(默认的也是 pathway),GO 下,就0K了。然后它就会把这个芯片数据涉及到的基因所在的 通路图列出来,并在通路中用不同的颜色标明基因表达差异。如下图(选取的是 嘌呤代谢通路的一部分)绿色表示基因下调,黄色表示没明显变化,灰色是什么,这个可能species-specific基因,与芯片无关的吧。那怎么没红色?(1)通路中本就没有基因上调(2)虽然绿色表示下调,红色上调,但是在他们之间有过渡的颜色,比如某个 基因只是稍微上调,因此不能大红大紫,只能呈现过渡的暗黄色。如果你一定有 见红情结的话,那你可以在help菜单中选择preferences,把颜色梯

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论