生物信息学第二讲癌症相关数据库_第1页
生物信息学第二讲癌症相关数据库_第2页
生物信息学第二讲癌症相关数据库_第3页
生物信息学第二讲癌症相关数据库_第4页
生物信息学第二讲癌症相关数据库_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

癌症相关数据库廖

奇宁波大学医学院http://2016./Team:NJU-China/Background癌症在中国的情况http://2016./Team:NJU-China/Background癌症相关数据库Nucleic

AcidsResearch杂志中列出癌症相关的数据库列表:/nar/database/subcat/8/33基因组变异数据库(突变、SNP、插入、缺失、拷贝)癌症相关基因数据库(促癌、抑癌基因、转移相关基因)癌症基因表达数据库(利用基因芯片、测序检测等技术检测基因在各癌症的表达情况、差异表达分析)癌症表观遗传修饰数据库(DNA甲基化、表观遗传修饰)非编码RNA(癌症相关miRNAs,circRNAs,lncRNAs等)

癌症调节网络关系数据库(癌症基因间的调节关系)癌症大规模数据储存、分析平台(癌症相关高通量数据的查询、访问及分析)癌症基因组变异数据库COSMIC:

人类癌症体细胞突变数据库,

最大、最全面,https://cancer.sanger.ac.uk/cosmic,包含4个子数据库,

分别为:COSMIC,COSMIC核心

,专业审核过的体细胞突变Cell

Lines

Project,超过1000个癌症细胞系的突变谱COSMIC-3D,三维结构下动态展示癌症的突变Cancer

Gene

Census,癌症突变基因HGMD:实验验证的人类基因突变数据库http://www.hgmd.cf.ac.uk/ac/index.phpClinVar

a

public

archive

of

reports

of

the

relationships

among

human

variations

and

phenotypes

(包含癌症)https:///clinvar/OMIM

:人类基因和遗传紊乱的数据库(包含癌症)/DriverDBv2:主要来自外显子测序的人类肿瘤driver基因/突变数据库:.tw/driverdbIntOGen:肿瘤driver/突变基因数据库,https://TCGA

:癌症基因组突变数据库,

/CaSNP

SNP芯片来源的基因拷贝数据库.

/CaSNP/癌症基因相关数据库CCGD:

基于鼠遗传筛选来源的癌症基因数据库,http://ccgd-

/about.phpTumorAssociatedGene:利用Pubmed数据库的文本挖掘方法鉴定的肿瘤相关基因,.tw/TAG/GeneDoc.phpTissGDB:癌症中组织特异基因数据库,

/TissGDB/index.htmlHCMDB:

癌症转移相关基因数据库,/index癌症基因表达数据库Cancer

RNA-seqNexus:来自GEO数据库和TCGA数据库中癌症相关RNA-seq处理的差异表达基因,

.tw/Expression

Atlas:不同条件下(包括癌症)基因表达情况数据库,

https://www.ebi.ac.uk/gxa/homeOncomine:大型肿瘤基因芯片数据库,提供基因在癌症的表达信息、差异分析和工标的分析,GEPIA:基因在癌症的表达信息、生存分析(

TCGA来源的数据),/非编码RNA相关miRCancer:癌症相关miRNAs数据库,/OncomiRDB:癌症相关miRNAs数据库,

/member/jgu/oncomirdb/lnc2Cancer:癌症相关lncRNAs数据库,

/lnc2cancer/Lnc2Catlas:癌症相关lncRNAs数据库,

/LncRNA-Cancergene

co-expressionnetwork:

癌症基因与lncRNAs共表达关系数据库,/癌症调节关系数据库NCG5.0:

癌症基因相互作用,如蛋白蛋白相互作用,miRNA调节关系,也提供表达等相关信息,http://ncg.kcl.ac.uk/index.phpCistrome

cancer:

癌症中转录因子调节关系数据库,/CistromeCancer/starBase:

包含非编码RNAs调节关系(miRNA-target,ceRNA等)在癌症的表达相关性分析,/index.php癌症表观遗传修饰数据库MethHC:来自TCGA

的癌症DNA甲基化谱,.tw/php/index.phpMethyCancer:癌症DNA甲基化基因数据库,/PubMeth:癌症DNA甲基化基因数据库,http://matrix.ugent.be/pubmeth/癌症数据平台cBioPortal:

展示、分析和下载大规模癌症基因组数据的平台,/临床资料相关数据库SEER:

提供的临床数据,数据记录中包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息,

/data/单个肿瘤基因数据库Cervical

cancer:

/raghava/ccdb/Breast

cancer:

/ermb/bcgd/bcgd.htmlColorectal

cancer:

Gastriccancer:

/dbgc/index.doThe

CancerGenomeAtlas

(TCGA)起始于2005,由NationalCancer

Institute

(NCI)和National

Human

GenomeResearch

Institute

(NHGRI)共同负责,预计2006~2009年花费1.1

亿美元获取癌症基因组的遗传变异。美国政府投入5亿美元,预计再接下来的5年内(2010~2015)获得20~30种癌症的基因组变异。目的:利用大规模基因组测序技术,挖掘癌症的基因组图谱,加快我们对癌症分子基础的理解,提高我们对癌症的诊断、治疗和预防能力。目前TCGA项目涉及33种癌症,11328个病人,样本包含癌症组织、癌旁组织,血液等,总数据大小为2.5

petabytes

。数据类型Tumorcharacteristics:DNA

mutationCopy-number

variationGene

expressionDNA

methylationMicroRNA

activityCellular

proteinactivityClinical

dataDNA

sequencingWhole

genome

sequencesWhole

exome

sequencesSequence

tracesMutations,including

coding,

splice

site,

germline

and

noncoding

somatic

variantsRNA

sequencingmiRNAsequences

(calculated

expressionper

miRNA

andisoform)mRNAsequences

(calculated

expressionper

gene,

exon,splice

junction,

isoform)TotalRNA

sequences

(calculated

expression

per

gene,

exon,splice

junction,

isoform)Expressionsignals

per

gene,

exon,splice

junction,

miRNA,and

isoformCopy

numberArrays

(raw,

unnormalized,

normalized)Low-passDNAsequencing

(wholegenomessequences,

variants,

coverage)Array-based

expressionGene

expression(raw,

normalized,

calls)Exon

expression

(raw,

normalized,

calls)miRNA

expression(raw,

normalized,

calls)DNA

methylationBisulfitesequencing

(wholegenome

sequence,methylation

andmutation

calls)Array-based

methylation

(raw

signal

intensity,

calculated

beta

values)OtherProtein

expression

(high-resolution

imagesof

protein

arrays,

raw

signals,

normalized

expression)Microsatelliteinstability

(markers,classifications)Clinical

information

about

participants

(e.g.,

sex,

race,

ethnicity,

drugs

taken,

and

response

to

treatment);Information

about

the

samples

(e.g.,

the

weight

of

a

sample

portion,

days

to

collect,

and

time

of

freezing);

andImages

of

the

tumors

(allows

estimation

of

number

of

proliferating

cells,

how

many

cells

have

died,

how

many

immune

cells

are

present,

etc.)数据水平TCGA提供不同水平的处理数据:Level

1: 原始数据,被控制访问(controlled),如fastq、fasta文件。Level

2:处理的数据,被控制访问(controlled),如read比对基因组的bam文件。Level

3:被分割或解释的数据,公开(open),如标准化后的最终基因表达值。Level4:感兴趣的区域或概要信息,基于两个或多个数据的关联,公开(open)。利用TCGA数据发表的文献GCCs:TheGenomeCharacterization

centers

used

several

technologiestoanalyzegenomicchangesinvolvedin

cancerincluding

geneexpression

levelsand

structural

rearrangementsof

the

genome.数据访问和下载(Data

Portal)/鼠标放置每种癌症类型上面,可以显示该癌症的case数目以及文件数目。举例:搜索colorectal数据的选择、过滤和筛选数据的呈现直肠相关的case注意:并不是只有一种癌症类型或只有一套数据集病人的ID项目ID(通常为一种肿瘤)肿瘤来源部位突变的基因突变位点Case的分布情况Seq:高通量测序的底层处理数据,通常为bam格式的比对文件。Exp:测序数据处理过的表达谱,可以包括基因表达谱和miRNA表达谱、有count、FPKM类型的表达值SNV:

SimpleNucleotide

Variation,包括MAF和VCF格式的文件,其中体细胞突变的结果(MAF格式文件)公开。CNV:

CopyNumber

Variation,DNA拷贝变异数据,txt格式,公开。Meth:甲基化数据,txt格式,公开Clinical:临床资料信息,包括病人的临床特征、手术处理、药物处理、随访资料等信息。Bio:关于生物样品的信息按突变频率排序的基因生存曲线每个基因的具体描述所有癌症中出现突变的百分比突变位点信息点击Survival图标突变和未突变病人的生存曲线比较突变的影响数据分析:对所保存的数据集做交集或并集分析对所保存的数据集进行生存分析以及性别、存活情况、年龄的分布数据分析:1.

建立数据集分别选中COAD和READ种突变频率最高的top

100个基因。2.

保存数据集3.点击Analysis,选择数据集选中所要分析的数据集生存分析性别分布存活情况分布年龄分布检索基因和变异:以MYC基因为例Cases在癌症部位、项目种类、疾病类型、性别、存活情况的分布对Mutation

的过滤和筛选举例:检索所有lncRNA突变频率较高的lncRNAsTCGA数据在线分析工具:GEPIAGEPIA:

查看基因在各肿瘤的表达情况,生存分析及共表达的基因;查看各肿瘤差异表达的基因,与生存相关的基因。http://gepia.cancer-pk/打开主页,输入基因名以基因为单位进行查询肿瘤和正常组织中的表达情况,颜色深浅表示表达高低。其他数据库的链接LINC01578在各癌症的差异表达情况LINC01578在各癌症的差异表达情况LINC01578

top相关的共表达基因查看在具体某个癌症的表达情况选择所关心的癌症(可选择多个)如果选择TCGA和GTEx,表示正常样本加上GTEx数据库的正常样本如果选择只是TCGA,表示正常样本只来自TCGA。Expression

DIY

Boxplot可知该基因在肠腺瘤中低表达。查看在某癌症不同期的表达情况Expression

DIY

Stage选择所关心的癌症(可选择多个)1LINC01578在肠腺瘤各癌症阶段的表达情况Major

stage

Sub

stage生存分析Survival

Survival

Plots选择高低表达的分组选择生存时间单位选择所关心的癌症(可选择多个)尽管LINC01578在COAD中低表达,但其表达量越低,生存时间反而却越长。寻找共表达的基因选择要计算的表达谱显示top

20个共表达的基因显示2个基因的表达散点图选择要计算的表达谱输入要显示的2个基因名或ID注意:Top

基因相关系数高,不一定有好的散点图RP11-1299A16.1反而排序较后的可能有较好的散点图癌症差异表达分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论