




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、TCGA Data PrimerTCGA数据入门Added by Anna Chu, last edited by Jillaine Hadfield on Oct 27 2011 翻译:任重鲁TCGA数据入门提供了对TCGA和数据的高水平描述,这些数据同样提供给研究团体。这个入门介绍了TCGA数据,数据流程以及数据应用。数据入门一共包括以下几个部分:1. TCGA简介;2. TCGA数据概述;3. TCGA数据档案;4. 数据访问;5. 处理TCGA数据。第一、TCGA数据简介本章节提供对于TCGA及其产生的数据的高水平描述,分为以下四个部分:1. TCGA概观;2. 隐私策略;3. TCG
2、A数据流程;4. TCGA主要标示符。1. TCGA概观The Cancer Genome Atlas(TCGA)癌症基因组图谱是企图全面的并列的去努力地加速理解癌症的分子基础,它通过利用包括大规模基因组测序的基因组分析技术来实现。TCGA的总体目标是提高我们对癌症的诊断、治疗和预防的能力。为了以科学严谨的方式达到这个目标,美国国立癌症研究所(National Cancer Institute NCI)和美国国立人类基因组研究所(National Human Genome Research Institute NHGRI)用分阶段的策略来启动TCGA。试点项目开发并测试了系统地探究人类20多种
3、癌症中全基因组图谱的改变所需的研究框架。查看TCGA来获得关于这个项目更多的信息。2. 隐私策略TCGA项目在从人类癌症参与者中收集的样本里生产出大量的基因组信息。项目同样收集了这些样本的大量临床信息。汇总的数据对每一个个体都是独一无二的,尽管数据里缺少任何直接识别个体的信息,但是仍然存在被生物信息学方法和/或第三方数据库重新识别出个体的风险。因为参与者隐私保护是NIH,NCI和TCGA最为关注的,人的主体性的保护和数据访问政策的执行,用来使得捐助人隐私风险最小化并且他们数据的机密性也有所妥协。作为这一努力的一部分,从TCGA生成的数据被分为两个层级:Open access,开放访问,存储的数
4、据不能被汇总产生一个对于个体来说是独一无二的数据集。这一层级不需要用户的认证去访问数据。Controlled access,受约束的访问,网站把临床数据和潜在地能用来识别单独个体的唯一个体信息保护起来。这一层级需要用于的认证区访问数据。查看Access Control Policy来获得关于数据分层的更多信息。3. TCGA数据流程附图中说明的以下步骤总结了通过TCGA管道的数据流程:1.组织样本及其临床数据是由Tissue Source Sites(TSS)组织来源点收集的,然后送交给Biospecimen Core Resources(BCRs)生物标本核心资源。2.BCRs提交临床数据和
5、元数据到Data Coordinating Center(DCC)数据整理中心,并把分析物送交给Genome Characterization Center(GCCs)基因组鉴定中心和Sequencing Center(GSCs)测序中心,在这里生成突变信号并把信号提交到DCC。3.GSCs同样也提交跟踪文件、序列和比对图到Cancer Genomics Hub(CGHub)癌症基因组中心。4.被提交到DCC和CGHub的数据可供研究团体和Genome Data Analysis Centers(GDACs)基因组数据分析中西使用。5.分析渠道和GDACs产出的数据结果通过DCC对研究团体提供
6、服务。下表提供了对来自TCGA不同中心和小组的快速总览,要想对特定的小组或中心获得更多的信息,请单击相应的标签:中心/小组描述TSS组织来源点,收集样本(组织,细胞,血液)和临床元数据,然后把这些数据和样本送到BCR。每一个组织来源点都有一个ID来识别。BCR生物标本核心资源,是TCGA的样本中心,在这里样本及其参与者的临床信息被小心地分类,处理,质量检验和存储。分析物在BCR被等分并且分配等分条形码,之后送到其它中心。GCC基因组鉴定中心,在这里用高通量技术来分析癌症基因组的改变。鉴定出来的基因组的改变被GSCs用来进一步的研究。GCCs把在数据档案中的鉴定实验的实验结果文件转移到DCC。G
7、SC基因组测序中心,在这里利用高通量方法去识别各种癌症的基因组序列中的改变。GSCs对分析物(由BCRs提供)进行测序并且分析假定的体细胞和生殖细胞的突变。测序结果被送到癌症基因组中心,突变结果被送到被送到DCC。DCC数据整理中心,是提供TCGA数据的核心。DCC对数据格式进行标准化并且验证提交的数据。 DCC接受并且验证从BCRs,GCCs和GSCs获得的数据,之后研究团体才能通过TCGA门户网站的应用程序对数据进行使用。GDAC基因组数据分析中心,这里给研究团体提供了新颖的信息学工具和TCGA数据的分析结果,DCC不接受通过自动验证和展开系统的任何GDAC的数据提交。GDAC目前通过受控
8、访问临时上传分析数据到DCC。CGHub癌症基因组中心,一个安全的数据库,用来存储,分类和访问TCGA及其相关项目的的癌症基因组序列,比对和突变信息。在SAIC-Frederick分包合同之下,CGHub由加州大学圣克鲁斯分校(UCSC)管理。GSCs上传跟踪文件,短信号序列和BAM文件到CGHub。Project Team协调TCGA的项目团队,由NCI和NHGRI中的成员组成。4. TCGA主要标识符BRCs从TSSs收到参与者的样本和他们相关的元数据。然后BCRs分配人可读的IDs,也就是TCGA条形码给参与者的元数据和样本。TCGA条形码用来把扩展到整个TCGA网络中的数据联系在一起,
9、因为IDs可以唯一识别一个特定样本的一组结果。这个条形码的各个组成部分提供了一个样本的元数据值。自从试点项目开始以来,TCGA条形码已经成为生物标本的主要标识符。项目现在正在经历着使用UUIDs作为主要标识符的转变之中。一旦UUIDs被替换完成,条形码将不再被分配使用。参见 TCGA Barcodes 来获得更多的信息。第二、TCGA数据概述本章提供一个TGCA数据的简介,它的来源和分类。分为以下三个部分:1从TCGA中心提交到DCC的数据类型2数据提交来源3数据分类1从TCGA中心提交到DCC的数据类型同TCGA简介中描述的一样,BCR把等分的样本转变成TCGA中心里进行处理的四种类型。然后
10、这些中心把数据提供给DCC。下面的表格标明了每一个中心提交到DCC的数据类型。数据源提交的数据BCRs生物标本核心资源· 参与者信息· 生物标本数据· 临床病例数据· 相关的TCGA条形码(横跨所有生物标本数据水平)· 织芯片图像GSCs基因组鉴定中心· 基因组鉴定中心的对分析物测序(分析物由BCRs提供)并且分析假定的体细胞和生殖细胞的突变。测序结果被送到癌症基因组中心,突变结果被送到DCC。GCCs基因组测序中心· GCCs把在数据档案中的鉴定实验的实验结果文件转移到DCC。GDAC基因组数据分析中心· 目前,
11、DCC不接受通过自动验证和展开系统的任何GDAC的数据提交。GDAC目前通过受控访问临时上传分析数据到DCC。2数据提交来源关于TCGA中心和它们提交给DCC的数据信息。以下描述那些可以往TCGA上提交数据的研究中心。同时介绍一下这些研究中心提交的数据类型。BRCs:生物标本核心资源是TCGA的一个研究中心,在这里样本连同参与者临床信息被小心地分类,处理,质量检查和存储。在样本被组织来源点收集之后,在提取分子分析物(DNA/RNA)之前,BCR通过一个病理复查确保样本质量。在分析物被送往其它中心之前分析物被等分并分配等分条形码。BCR发送的样本和数据表示如下:GSCs 接收· DNA
12、分析物· 相应的等分条形码GCCs 接收· DNA/RNA分析物· 相应的等分条形码DCC 接收· 参与者信息· 生物标本数据· 临床病例数据· 相应的TCGA条形码(横跨所有生物标本数据水平)· 组织切片图像关于临床和生物标本数据临床和生物标本数据有两种文件类型,用XML类型和Tab分隔的文本文件类型两种不同的方式来表示相同的数据。Both enable the collection of a series of barcodes corresponding to participants that fit wi
13、thin the clinical data types of interest.每一个XML文件包含一个参与者的数据;每一个biotab文件包含多个参与者的数据。每种类型的文件可以用来提取和汇集同参与者临床数据相关联的等分条形码。从XML或者biotab文件中得到的相关样本或等分条形码和数据一旦被解析,样本就可以按照感兴趣的临床数据被汇集起来。汇集的条形码可以映射到相关数据。GSCs:基于序列的数据是通过各种高通量测序平台产生的测序数据。关于基于序列的数据TCGA的序列数据是由数据生成中心创建的。他们使用了多种针对于全基因组,外显子组和micro-RNA的平台获得数据。这些数据生成中心通过对
14、比肿瘤样本结果和正常样本结果来识别基因或者基因组中的变化。可识别的变化有:生殖细胞和体细胞突变、单核苷酸多态性、插入和删除(in-dels)、拷贝数变异、易位、倒转。除了识别这些变化之外,RNA测序和miRNA测序产出定量的数据,例如基因表达和miRNA表达数据。更多的信息,参见RNASeq。TCGA数据整理中心(DCC)组织,存储元数据并提供对序列样本相关的元数据访问,包括临床和生物标本信息。美国国家生物技术信息中心(NCBI)通过它自己的基因型表型数据库(dbGaP)来组织,存储和提供相关的基因型表型注释信息。癌症基因组中心(CGHub)提供原始测序序列和比对信息。GCCs:基于微阵列的数
15、据是由GCCs利用不同微阵列平台产生的描述型数据。关于基于微阵列的数据各种平台把分子探针和靶标组织在一个微阵列的各行各列种。TCGA基于微阵列的数据是由数据生成中心利用不同平台生成的。它针对基因,外显子,miRNA和蛋白质表达、拷贝数变异、单核苷酸多态性、杂合缺失(LOH)、DNA甲基化。GDAC:基因组数据分析中心是一个提供给研究团体新颖信息学工具同时也提供分析结果的TCGA中心。目前,DCC不接受通过自动验证和展开系统的任何GDAC的数据提交。GDAC通过受控访问临时上传分析数据到DCC。3数据分类关于TCGA数据不同水平和类型的分类信息以下描述TCGA中对数据的不同分类方式。包括数据类型
16、和数据水平分类两部分。数据类型:在TCGA网络中,数据类型是用来分类多种平台数据的标签。每一种平台都可以潜在地产生许多种类的数据(数据类型)。例如,基于SNP微阵列的平台是最复杂的平台,它产出拷贝数结果、杂合缺失和SNP。下表列出了六种平台下的的数据类型。Agilent Human Genome CGH Custom Microarray 2x415KAgilent Human Genome CGH Microarray 244AAgilent SurePrint G3 Human CGH Microarray Kit 1x1MAffymetrix Genome-Wide Human SNP
17、Array 6.0Illumina 550K Infinium HumanHap550 SNP ChipIllumina Human1M-Duo BeadChipCopy Number ResultsyesyesyesyesyesyesLOHyesyesyesSNPyesyesyes数据水平分类:数据水平是TCGA网络中使用的数据分类方法,促进研究者交流和定位他们感兴趣的数据。每一种数据类型,实验平台和实验中心都有几种数据水平。一共有四个数据水平:1水平(原始数据),2水平(经过处理的数据),3水平(结果分割和解释的数据)和4水平(感兴趣的区域数据)。下表介绍了四种TCGA数据水平。Data
18、LevelLevel TypeDescription1原始数据· 单个样本的低水平数据· 没有标准化的数据2处理过的数据· 经过标准化后的单样本数据· 对存在或者不存在特定分子异常的解释3经过分割、解释的数据· 来自单个样本的经过处理的数据的汇集· 通过已探测的基因座的集合来形成较大的contig区域(在一些案例中)4感兴趣的区域或概要· 量化跨各类样本之间的关联· 基于两个或多个数据的关联· 分子异常、样本特征、临床变量数据类型和数据水平分类之间的关系每一种平台都能产生多种数据类型。为了理解数据的分类,
19、有必要弄清楚数据类型和数据水平之间的关系。每一种数据类型都同一个或多个数据水平相关联。每一个研究中心和每一个实验平台或许在数据水平的概念上会有一点不同,因为这依赖于不同的数据类型,不同实验平台的使用和不同的分析算法。下表显示了应用在每一种数据类型上的原始数据水平和标准化后的数据水平。数据类型在Code Tables Report中列出,并且数据水平描述已经在上表中列出。数据类型和相应的数据水平的描述数据类型别名1水平(原始数据)2水平(标准化/处理)3水平(解释/分割)4水平(概要/感兴趣的部分)临床完全集无1个参与者的临床数据无无无临床最小集无1个参与者的临床数据无无无拷贝数结果(比较基因组
20、杂交)无每一个探针的原始信号标准化每个探针或探针集中的聚合区域的拷贝数变化信号每个样本中聚集或分割的区域中拷贝数的改变所有样本中有显著统计学意义的拷贝数变化的区域拷贝数结果(SNP)无无每个探针或探针集的拷贝数变化每个样本中聚集区域的拷贝数改变所有样本中有显著统计学意义的拷贝数变化的区域杂合性缺失(SNP)无无每个探针集的杂合性缺失信号每个样本中杂合性缺失区域的集合所有样本中有显著统计学意义的杂合性缺失SNP无每一个探针的原始信号标准化每个探针或探针集信号和等位基因信号无无DNA甲基化无每一个探针的原始信号标准化每个探针或探针集信号每个样本中的甲基化位点/基因所有样本中有显著统计学意义的甲基化位点/基因外显子表达外显子量化(RNASeq)每一个探针的原始信号(微阵列)序列比对(BAM文件;RNASeq)标准化每个探针集信号(微阵列)每个样本中的外显子表达信号 (Array and RNASeq)所有样本中有显著统计学意义的外显子连接点表达剪接位点量化(RNASeq)序列比对(BAM文件;RNASeq
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年食品饮料电商运营中的移动端营销效果评估报告
- 2025租房合同协议范本
- 数字货币对证券市场流动性影响的实证研究2025报告
- 2025年中国恒速整经机行业市场发展前景及发展趋势与投资战略研究报告
- 2025家具供货合同范本
- 2025年中国矿山排水泵行业市场深度分析及投资策略研究报告
- 茶叶加工厂可行性报告
- 2021-2026年中国室内微型盆景市场调查研究及行业投资潜力预测报告
- 2025年中国IPM市场运行动态及行业投资潜力预测报告
- 2025年中国花生糖市场竞争格局及投资战略规划报告
- 食品营养与健康(第三版)教学大纲教案
- 《2025年危险化学品企业安全生产执法检查重点事项指导目录》解读与培训
- 英语四级单词表4500
- 职业技术学院《农产品质量管理与认证》
- 2025年职工职业技能竞赛(管道工赛项)参考试指导题库(含答案)
- 名著《红岩》三年中考真题及典型模拟题训练(原卷版)
- 湖州市妇幼保健院消除艾滋病、梅毒和乙肝母婴传播工作应知应会及工作制度(医护篇)
- 电力行业安全生产法律法规及标准规范培训
- 特征值估计技术-洞察分析
- 唐山燕阳冷轧有限公司介绍企业发展分析报告模板
- Unit3 Weather B let's learn(说课稿)-2023-2024学年人教PEP版英语四年级下册
评论
0/150
提交评论