生物信息学第五讲基于公共数据库进行课题研究的案例分析_第1页
生物信息学第五讲基于公共数据库进行课题研究的案例分析_第2页
生物信息学第五讲基于公共数据库进行课题研究的案例分析_第3页
生物信息学第五讲基于公共数据库进行课题研究的案例分析_第4页
生物信息学第五讲基于公共数据库进行课题研究的案例分析_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于公共数据库进行课题研究的案例分析廖

奇宁波大学医学院主要内容实例讲解GEO数据的下载、处理和分析实例讲解TCGA数据的下载、处理和分析1)数据整理实例间充质压型间差异高表达的基因(2942)多重线性回归模型miRNA表达量基因拷贝数启动子甲基化探针信号253基因至少含有1个影响因素Targetscan预测miRNA靶基因219

genes

regulated

by

19

miRNAs2)基于多组学分析挖掘

OC核心的miRNA-target网络miRNADNA拷贝数变异,红色表示增加,

绿色表示减少DNA甲基化变异3)对219个miRNA相关基因进行K

mean(k=2)聚类,

得到两类间充质亚型N钙黏蛋白wiWithout

3’UTR4)挖掘核心的miRNAs5)选取miRNA,进行实验验证OverexpressionofmiR-506inOvCacellsissufficienttoinduce

epithelial

phenotypeby

targetingSNAI2发生了形态学改变MiR-506

blocked

transforming

growth

factor

β

(TGFβ)-induced

EMT

in

vitroMiR-506expression

was

associatedwithincreasedE-cadherin,decreased

SNAI2andVIM,andlonger

overallsurvivaldurationin

serous

OvCaSystematic

delivery

ofmiR506inhibited

SNAI2

andVIMand

induced

E-cadherinexpressioninvivo实例ConclusionBioinformaticsanalysismiR-506miR-506in

cancer

SNAI2

TGFß

promote

METmiR-506in

cancer

SNAI2

E-cadherin

promote

cell

growthandinvasionGene

Expression

Omnibus(GEO)基因表达数据库:最初只是为了保存基因芯片检测的表达数据,随着芯片和测序技术的

发展,也包含多种生物过程下的各种基因芯片和测序的数据(如甲基化芯片、RNA-seq、ChIP-seq等)数据类型:基因表达谱基因组变异表观遗传组其他生物过程:

正常细胞/组织物种发育的不同阶段疾病/对照组药物治疗基因敲除、过表达等物理、化学刺激GEO

Datasets:

不仅包含原始数据,而且还对数据进行了处理和分析,如差异表达的基因和聚类热图。GSE

Profiles:

提供单个基因在整个dataset中所有样本的表达情况。认识ID:GSMXXX:

Sample

ID,

包含sample的具体信息,包括样品来源、处理方式、数据分析流程等GSEXXX:包含一组样本,提供整套研究数据的信息,包括实验设计、背景及分析等GDSXXX:GEO

Dataset

ID,

may

includeone

ormore

GSE,还包含该套数据的分析结果GPLXXX:

Array/SequencingplatformID不同类型的数目包含GSD

ID、GSE

ID以及高通量平台ID、标题、物种等比如搜索“colorectalcancer”关键词左边导航条上选择Customize,可对搜索结果按数据检测平台的类型进一步限定。每个基因的具体表达信息不同类型信息的下载DataSetfullSOFT

file(recommended):

包含数据集信息、实验样本信息、表达值、全面的最新的基因注释(tab分割的text格式)DataSet

SOFT

file:包含数据集信息、实验样本信息、表达值和基因Symbol(tab分割的text格式)Series

familySOFT

file:包含完整的、原始的、提交者提供的关于该数据集的记录(tab分割的text格式)Series

familyMINiML

file:包含完整的、原始的、提交者提供的关于该数据集的记录(

XML格式)AnnotationSOFT

file:包含全面的最新的基因注释(tab分割的text格式)Sample

subsets:该套表达谱所包含的样本及分组信息实验设计该套数据对应发表的文献检测该数据的高通量平台背景介绍GSE

页面信息样本信息:从这里也可以推断出该套表达谱可分为5组

处理过的未经标准化的表达值

未处理过的原始数据这里,提供一些数据的下载,如原始数据、处理后的结果等。如果是RNAseq等测序数据,则可能会有对应SRA数据库的链接。样品生长环境或策略样品提取方法提取的样品类型,如DNA、RNA等重复样本1数据处理方式所对应的GSE可以打开每个GSM页面查看具体的样品信息样品分组信息SampleTitleGroupGSM1309040WT-1wild

type

HCT116

cellsGSM1309041WT-2GSM1309042FAT10-1FAT10-overexpressed

stable

cellsGSM1309043FAT10-2GSM1309044FAT-M1-aFAT10

overexpressedmutantswith

mutationat

left

regionGSM1309045FAT-M1-bGSM1309046FAT-M2-aFAT10

overexpressedmutantswith

mutationat

right

regionGSM1309047FAT-M2-bGSM1309048FAT-M12-aFAT10

overexpressedmutantswith

mutationat

left

andright

regionGSM1309049FAT-M12-bGSM页面最后,显示该样品所检测的每个探针集的信号值探针集合ID,对应的基因信息可以通过检测平台(GPL)页面获得。展示该样品中所有探针集的信号值GPL页面,显示该检测平台(如基因芯片平台)的信息目前为止,该检测平台所检测的表达谱数据该检测平台探针集的信息,包含对应的基因symbol点击可下载以上表格的信息Find

gene

name

or

symbol:

输入要查询的基因名或者Symbol名。同样以MYC基因为例MYC基因在不同样本的表达情况MYC基因在不同样本的表达情况如果选择差

异表达基因,则展示差异

表达基因的

结果。左边选择Customize可以进一步对结果进行筛选,比如选择Geneontology为cellcycle的基因。点击Download后的文件差异表达的分析也可以进行分组的设置设置组B的样本设置组A的样本差异表达分析结果双击或者点击右上角的Stack

up可以放大显示具体哪些基因聚类、热图分析Display

plot:显示点线图部分基因的热图分析K-mean方法聚类按不同染色体进行显示显示不同样品信号值的分布情况,用于判断数据是否需要标准化等。不同信号通路的基因分布GEO2RGEO2R读取GEO提供的matrix文件,利用R包limma分析差异表达的基因。https:///geo/geo2r/输入GSE25724查看表达值在不同样本的分布情况,以确定是否进行标准化。分析差异表达基因的参数利用Define

groups设置差异表达分析的分组信息设置各组别的样本分析结果(Top250)下载到本地设置显示的列点击倒三角符号查看该基因在各样本的表达信息利用Profile

graph

查看特定基因在个样本的表达信息本地利用excel筛选差异表达基因差异上调:adjusted

FDR<0.05,log(FC)>11452个探针集

1365个基因差异下调:adjusted

FDR<0.05,log(FC)<-1106个探针集

78个基因利用GeneOntology(/)进行差异表达基因的富集分析复制到excel进行作图差异上调富集的功能差异下调富集的功能利用STRING(/)进行蛋白蛋白相互作用网络分析利用cytoscape制作网络图红色:上调基因绿色:下调基因注意:个别基因的名字版本不一致GEO2R注意事项GEO2R一般处理基因芯片平台的数据GEO2R处理的是GEO提供的matrix文件,而不是原始CEL文件,标准化方法可能不一。高通量测序数据以及基因组tiling芯片数据无法处理不能跨数据集分析,只能针对一个数据集(GSE)不能分析超过255个样本的数据集如果处理时间超过10分钟,则不再完成偶尔也有可能因为输入数据格式的问题出错基因突变分析基因组拷贝变异分析基因(miRNA、mRNA)表达谱分析DNA甲基化分析临床特征分析不同数据的相关性分析信号通路分析/TCGA数据分析的利器:FIREBROWSE1)选择直肠腺瘤2)选择突变基因分析3)结果1.

获取癌症突变的基因2.

筛选与临床特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论