使用GEO2R快速探索高通量数据教程_第1页
使用GEO2R快速探索高通量数据教程_第2页
使用GEO2R快速探索高通量数据教程_第3页
使用GEO2R快速探索高通量数据教程_第4页
使用GEO2R快速探索高通量数据教程_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、这份文档是在某个微信群里的课程文字稿,介统O2R的使用。GEO简介GEO全名是Gene Expression Omnibus,相信很多人都知道它是NCBI下面的一个 专门存储中、高通量数据库的公共仓库,研究者可以自由地把实验室里产生的芯 片、NGS乃至定量PCR数据上传到这里供全球科研工作者共享。现在我们可以注 意到的一点是很多杂志在接收文章时越来越多地要求作者把数据先放到公共数 据库里去了。再说说我们今天的主角GEO2R,简单点说它是在线分析GEO内数据的系统。这 个工具系统采用R语言来运行,准确点儿说是GEOquery和limma这两个R包, 前者用于数据的读取,后者用于计算。GEO2R最

2、大的优点就是它是一个在线的工具,不需要我们懂哪怕一点点的R语 言和芯片、测序分析知识就可以进行简单的操作。当然,它的功能也是比较有限的。但是对于我们想快速查探GEO数据来说是一 个很有用的工具。比如我们想知道某个公共数据库里和我们的课题相同实验材料 或相似实验设计里某个基因的表达情况,我们不需要从GEO里把数据down下来 再去分析什么的,只要在网页上简单地输入一些信息再点点鼠标,就能获取我们 想要的结果了。差不多所有的GEO内数据都可以分析,我们不需要任何生物信息学知识,也不 用管是芯片还是测序数据,是用什么实验平台获取的数据,都可以搞定!如何进入GEO2R?进入GEO2R的方法有两种:直接

3、从网址进入,地址是 HYPERLINK /geo/geo2r/ /geo/geo2r/从GEO的数据记录页面(也就是GSE结果页面)进入,比如我们这里以GSE71343 为例,先进入这个GSE实验记录页面 HYPERLINK /geo/query/acc.cgi?acc=GSE71343 /geo/query/acc.cgi?acc=GSE71343然后下拉到底部,看这里wuthD_Fann1KFT 而5hr 州.)s/FT oMlteML ME退Hl h1 蚀M:INffliL 5同W 阊*aM rWHwnkuHl FW现在我们具体看一下GEO2R的使用界面,我截了个图,并且在图上用数字进行

4、 了标注,按照标注序号我们来一步步探索。GSE信息部分,在这一部分我们可以输入GSE编号,然后点击【set】按钮后会自动 载入该数据,并且在后面显示这个GSE的实验名称,比如图上的【Control of Peripheral Tolerance by Regulatory T Cell-Intrinsic Notch Signaling就是这个实验的标题。样本名称及分组定义部分,点击Samples】后面的黑色三角我们可展开或收起样本 信息部分,在这里我们可以自定义分组,将多个样本合并为一组,具体一会儿会讲到。功能部分,这里包括了五个选项卡,我们在使用时会一点点儿地介绍给大家。下面用一个实例来操

5、作一下,就用我们刚才举例的GSE71343这个数据吧。点开【Samples,首先我们要自定义分组,在这里我们将15个样本分成4组, 分组方法是点击【Define groups】,然后输入我们要分组的名称,每输入一个按 一次回车。 Define groupsnter a Qroup name Listx Cancel seieciiorGro-up1Group?GroupsGr(HJp4;FPCreR26N1c/N1d2 SamnpleiGhkip ACMRlon由*1叫G淌1H费丁翰SraipT 的2了的Gr-Mipf 湖 18泗网-GSM1-B32iD1!这就是一个定义好的分组列表,下面我们

6、把前三个样本编入Groupl,方法是先 按住shift键同时用鼠标点选这些样本(或者直接拖动光标也可以的),注意是 要点击Accession那一列的名称,然后勾选要分组的名称比如Groupl,下面是选 择好后的效果图。SBUFEfl FI9Ie(LrUfl 113 S UH1 ei riFflrpHtCru 3pltngiECFs*PEQ5*30LplspnF0ITJ3EGF皿lfl4OOK,一个个来我们把所有样本都分好组,就是酱紫:S-dmpfloi. Dr*ne- Qm3Bttil UrlGraur愈Hil厕Till4MHUVIfun 笔并 Croup1 l3aamrie-l P5tf g

7、酸俏帽倒1此5激EjOWJ l 5帅 im 1 Q趴E山走nCrarl II 3airiP5i 3对4.由叫*im轴4GWIiLEWJg击国5弥涸酣OU卸OIHfzqjSEffPETtFOff I1CU1*wFsipaEappETBREPjjJi翊HBGfOUfiJR冲 3EQ=PCn5REF 上A2Spl CiKiSnMqiPpSEEIs&TsREPJJiJSfTBBl5U1922XaFSEBPZNffEPJiLJ AREiin同1伺血IM53EQF总出w皿俗替1耳海*F茫即时Sfwp4:S-=M1=833t3lFnqi宅 缶心皿dflDUlM刑UiE牡U此冲X林如1 mW由5然后点击选项卡

8、【GEO2R】的top 250按钮,进入分析流程这是分析后的结果下面我们逐列看结果: 第一列是ID部分,表示这个芯片的探针ID,是一个不重复的标识符;第二、三、四列是结果部分,是计算得到的统计值,我们这里设定的是4组比较, 因此用的是F-检验,得到的是p值、校正后的p (adj.P.Val)及 F值。我们可以 看到,结果是按照p值升序排列的,最显著的结果在顶部。其余的列为注释部分,这里是芯片的数据分析因此注释来自芯片配套的注释文 件,我们点击结果表格上面的【Select columns】可以勾选显示或隐藏哪些东西, 这里就不展示了嗯。Ok,基本的结果就是这些了。下面我们再进行一些扩展,比如我们

9、鼠标双击某行,在双击后展示的部分我们可 以看到这一行对应的芯片探针在各个样本中的表达值高低分布情况,是用柱状图 形式给出的。鼠标双击一个ID,展开相对表达值柱状图再看其余四个功能卡片【Value distribution】这个是用来画整体性的箱型图的。Options!提供了一些参数设定,比如p值校正的几种方法,信号值有无经过 log2处理等,但这个基本都是用默认值就可以的。Profile graph!这里输入一个ID可以看这个ID代表的基因的信号值分布图,其 实和我们前面鼠标双击某一行的结果是一模一样的啊!R script就是我们整个运行过程的R代码,我们可以copy下来进行研究或修 改参数,毕竟GEO2R这工具本身比较死板功能有限,而我们可以灵活修改参数 或调用不同的函数的话可以实现更多的功能,相信对一些会R语言的人来说是一 个很有用的功能。最后,我们看看两组比较时的情况,点开【Define groups】那里,原来是有我们 自定义的4个groups,现在我们随便删除两个,在名称后面点击x,这样只剩下 了两组,然后再点击这一行开头的【Recaculate,刷新页面。现在看看结果,因为是两组的比较,用的是T检验而不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论