基因芯片数据荟萃―胶质瘤预后分析_第1页
基因芯片数据荟萃―胶质瘤预后分析_第2页
基因芯片数据荟萃―胶质瘤预后分析_第3页
基因芯片数据荟萃―胶质瘤预后分析_第4页
基因芯片数据荟萃―胶质瘤预后分析_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、单位代码:10226 学号:本科毕业论文题目 基因芯片数据荟萃胶质瘤预后分析 所在学院 生物信息科学与技术学院 专业 生物技术 学生姓名 秦远 指导教师 张绍军 二一四年六月哈尔滨医科大学本科毕业论文声明本人郑重声明: 所呈交的毕业论文,是本人在指导教师的指导下进行研究工作所取得的成果,实验数据与结果真实可靠。除文中已经注明引用的内容外,本文不含任何其他个人或集体已经发表或撰写过的研究成果。对本文研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。论文作者签名: 日 期: 年 月 日哈尔滨医科大学本科毕业论文版权使用授权说明本人完全了解学校关于收集、保存和使用本

2、科毕业论文的规定,即:1、按照学校要求提交本科毕业论文的印刷本和电子版本;2、学校有权保存本科毕业论文论文的印刷本和电子版,可以将本论文的全部或部分内容编入有关数据库进行检索,并提供目录检索、借阅及查阅服务;3、学校可以采用影印、缩印、数字化或其它复制手段保存论文;4、本科毕业论文研究成果的责任作者或通讯作者为本人的指导教师,作者署名单位为哈尔滨医科大学;5、保密的论文在解密后遵守此规定。论文作者签名: 指导教师签名: 日 期: 年 月 目 录中文摘要1Abstract21、文献综述41.1 胶质瘤41.2 相关数据库简介41.2.1 GEO数据库41.2.2 KEGG数据库51.3 临床预后

3、简介51.3.1 生存分析简介61.4 目前国内外研究现状61.5 课题研究目的及意义62、材料与方法82.1 实验数据82.1.1 获得胶质瘤芯片表达数据82.1.2 胶质瘤通路数据82.2 实验方法82.2.1 技术路线82.2.2 数据预处理92.2.3 多平台基因芯片数据整合92.2.4 鉴定风险通路102.2.5 生存分析103、结 果123.1 胶质瘤基因芯片整合数据123.2 胶质瘤的KEGG通路图123.3 meta分析143.4 生存分析144、讨 论175、结 论186、致 谢197、参考文献20 中文摘要大量的基因组数据特别是微阵列数据都可以通过各种网络资源获得,例如从t

4、he Gene Expression Omnibus (GEO)中获得。现存的这些基因表达数据库的数据库接口,表达数据存储方式和临床meta数据注释等方面在格式上都存在不相容的问题,而且从不同的数据库得到的数据的注释也会有不一致的情况。这些缺陷导致寻找疾病预后基因时存在很大的困难。原发性脑肿瘤中预后效果最差的就是脑胶质瘤,其预后与生物学特征、生长发生部位、手术方式等医疗手段有关,因为胶质瘤具有浸润生长的特征,对神经组织破坏较大,手术难以完全切除,绝大多数胶质瘤在手术和放化疗后复发概率仍较大。胶质瘤分为4个等级:I、II、III、IV。低等级的胶质瘤是高度分化的,患者也往往具有比较良好的预后效果

5、;高等级的胶质瘤则预后效果较差。基于此,利用经过整合了的胶质瘤的基因芯片表达数据作meta分析,这些数据都以统一的标准化来处理,并被映射到了HGNC的gene symbol上;继而利用R软件来进行meta分析;最后利用cox比例风险回归模型来寻找疾病预后的biomarker。本研究的一个重要的应用就是利用多个独立的研究来检验之前作为假设提出的胶质瘤的预后基因,利用meta分析能对同一个课题的多项研究结果的一致性进行归纳概括,对同一课题的多项研究结果作系统性评价和总结,meta分析能够提高统计效能和效应值估计的精确度。关键词:生存分析;生物标记;meta分析;预后;胶质瘤Meta-analysi

6、s and survival analysis of the gene expression of gliomaAbstractA wealth of genomic data, in particular microarray data, is publicly available through diverse online resources. Major database of gene chip expression data, e.g. Array Express and the Gene Expression Omnibus (GEO).However, inconsistent

7、 formatting among database interfaces, expression data storage and clinical meta-data annotations present formidable obstacles to making efficient use of these resources. The database provides machine-rather than manually annotated data, resulting in reduced consistency of annotation across studies.

8、 These defects may cause great problems when we are searching for the disease Biomarker. Glioma is a primary brain tumor which has the worst prognosis of tumor, its prognosis is related with biological characteristics, growth related parts, operation mode and many other treatment measures, because o

9、f glioma with infiltrative growth characteristics, damaging the nervous system , difficult to complete excision operation, the vast majority of glioma after operation and chemotherapy will probably recur . Glioma is divided into 4 grades: I, II, III, IV. Low grade gliomas are highly differentiated,

10、sufferers often have a relatively well prognosis; high grade gliomas usually have poor prognosis. Based on that, I utilize 7 sets of data of the expression of the glioma gene chip to do meta-analysis. And gene expression data were collected from public databases and author websites, processed in a c

11、onsistent manner and mapped uniformly to official Human Gene Nomenclature Committee (HGNC) gene symbols. And then we execute the meta analysis using R software. Finally, using Cox proportional hazards regression model to the prognosis of the disease biomarker.An important application of my research

12、is the use of multiple independent study to test the hypothesis before as glioma prognosis of biomarker, analysis of consistency can result a number of studies on the same topic was evaluated using meta, the results of several studies on the same topic for system evaluation and summary, meta analysi

13、s statistical efficiency and effect value estimation accuracy.Key words: survival analysis; biomarker; meta-analysis; prognosis; glioma1、文献综述1.1 胶质瘤胶质瘤(glioma)是发生发展于神经外胚层的肿瘤,故又称神经上皮肿瘤。大多数肿瘤起源于不同类型的神经胶质,但按照组织发生学来源及生物学特性的相似,对发生于神经外胚层的各种肿瘤,一般都称为神经胶质瘤。病因多是因为惊吓或大怒,或衰哭烦闷,使气血运行受阻,抵抗力下降,病邪借此乘虚而入,发为癌瘤。症状主要有两

14、方面的表现:一是颅内压增高以及一些其它症状,如视力减退、复视、头痛、呕吐、癫痫发作和精神症状等。另一是脑组织受肿瘤的压迫、浸润、破坏所产生的局部症状,造成神经功能缺失。 1.2 相关数据库简介 1.2.1 GEO数据库 GEO (Gene Expression Omnibus)数据库NCBI(National Center for Biotechnology Information)旗下的旨在支持基因表达数据公共使用和散布来自microarray,杂交膜(hybridization membrane),高密度的寡核苷酸微阵列(HAD)以及SAGE等很多其它类型的基因表达数据都被纳入,登记和存档

15、。GEO数据库是高通量的基因表达数据库,数据库里面包含高通量实验数据的各种分类,有以单,双通道微阵列为基础,对mRNA丰度的进行测定;蛋白质分子和基因组DNA的实验数据,迄今为止,GEO数据库包括的数据已经涵盖了10000个来自杂交实验以及30多种不同生物个体的SAGE库。 GEO数据库包含四个基本实体:提交者(submitter),平台(platform),系列(series)和样本(sample),这四个实体都可以保存到独立的相关数据库中,获得号前三个字母分别为“GPL”GSM”GSE”。这三个都是靠提交者维护的;另外GEO数据库尚有一个作为辅助的数据分析工具,他能够把提交者所提交的样本综

16、合整理到GEO数据集组(GEO DataSets,缩写为GDS),GDS数据是由GEO自身维护的,GDS数据比GSE数据更标准,并且数据具有生物学意义且在统计学上能够相互比较。 1.2.2 KEGG数据库 KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个人工收集的关于基因组(genomes)、生物通路(biological pathways)、疾病(diseases)、药物(drugs)和化学物质( chemical substance)的数据库。 KEGG一般用于生物信息学研究和教育用途。KEGG项目启动于 2005年,当时在人类基因组计划中工

17、作的日本京都大学化工研究所(Institute for Chemical Research, Kyoto University)的Minoru Kanehisa教授意识到现在需要一种能够帮助人类解释基因组序列数据的计算机资源,于是他就开始和设计了KEGG通路数据库,当时的 KEGG还只能够为细胞和生物体的代谢绘制包含分子互作和分子之间的化学反应的通路图,设计的初衷是将一个通路内的基因和基因产物(主要是蛋白质)连接起来。但是却直接产生了一种叫做 KEGG pathway mapping的分析,这类分析通过对比基因的序列与 KEGG PATHWAY数据库做比较来注释该段序列的功用。用 KEGG数据

18、库的开发者来说“ KEGG是计算机化的生物系统”,它能将图和块一起来构成一个生物系统。具体的说遗传学上的块是基因和蛋白质,化学的块是小分子,至于图则是这些块之间的互作形成的网络。这种观念直到现在也在影响 KEGG所有的数据库:系统、基因组、化学和健康信息。1.3 临床预后简介预后是指凭据经验预测出疾病的可能病程和最终结局。它既包含判断疾病的某种特定结果(例如病愈,复发以及死亡等),也包含了时间因素(例如预测特定时间内的出现某种结局的可能性的大小等)。1.3.1 生存分析简介生存分析是将事件的结果以及出现该结果所要经历的时间联合起来分析的一种统计分析方法。由于生存分析方法可以分析包括截尾数据的事

19、件,因此更充分的利用了信息。Cox 比例风险回归分析是生存分析中的一种半参数分析方法,同时也是一种多因素分析方法,它可以同时分析多个独立因素对生存时间的影响。 1.4 目前国内外研究现状利用常规的治疗方法来治疗恶性胶质瘤的效果还比较差,而近几年在胶质瘤的基因治疗方面研究获得了一定进展,当今胶质瘤基因治疗的分子手段主要包含调节细胞周期法 Louis D, Ohgaki H, Wiestler O, Cavenee W (2007) WHO classification of tumours of the central nervous system. IARC, Lyon、自杀基因疗法 Lin

20、Y, Jiang T, Zhou K, Xu L, Chen B, Li G, Qiu X, Jiang T, Zhang W, Song SW (2009) Plasma IGFBP-2 levels predict clinical outcomes of patients with high-grade gliomas. Neuro Oncol 11:476、免疫基因疗法、抗血管生成的治疗法、PKR途径等,基因转运体系包含逆转录病毒 Jung CS, Foerch C, Schanzer A, Heck A, Plate KH, Seifert V, Steinmetz H, Raabe

21、 A, Sitzer M (2007) Serum GFAP is a diagnostic marker for glioblastoma multiforme. Brain 130:33363341、腺病毒、腺相关病毒等病毒载体,对病毒的改造则主要是通过增加载体的靶向性和可控性 Quan N, Herkenham M (2002) Connecting cytokines and brain: a review of current issues. Histol Histopathol 17:273288,此外还有一种新型载体是溶瘤病毒和非病毒载体 Muller L, Pawelec G

22、(2003) Cytokines and antitumor immunity. Technol Cancer Res Treat 2:183194,而目前治疗效果最好的是结合基因治疗与传统化疗、放疗。随着基因组测序数据的快速增长,产生了大量的生物数据,同时这些数据也隐藏了很多的生物学知识,利用生物信息学可以对这些数据进行分析,处理等,可以挖开这些生物数据的内涵,进而指导临床对胶质瘤的治疗,预后。1.5 课题研究目的及意义随着大量的高通量表达数据的迅猛发展,出现了越来越多的基因表达数据库,我们应该充分利用这些数据来挖掘出隐藏在里面的信息。我查阅了大量的文献并在GEO和ArrayExpress上

23、下载了大量的数据,剔除不符合研究条件的数据,共保留了7套胶质瘤的芯片数据 Zeh HJ, Winikoff S, Landsittel DP, Gorelik E, Marrangoni AM, Velikokhatnaya L, Winans MT, Lee K, Moser A, Bartlett D, Lotze MT, Siegfried JM, Whitcomb D, Papacristou G, Slivka A, Bigbee WL, Lokshin AE (2005) Multianalyte profiling of serum cytokines for detection

24、 of pancreatic cancer. Cancer Biomark 1:259269。通过利用meta分析来对这些独立研究的结果进行汇总综合,并把基因芯片表达数据同生物通路结合起来,来查找胶质瘤的风险通路,并使用单变量的Cox比例风险回归分析根据胶质瘤病人的生存信息来寻找胶质瘤的预后基因,进而提高预后准确率,可以为临床上提供一个指导意见,辅助胶质瘤临床诊断与治疗。 2、材料与方法2.1 实验数据2.1.1 获得胶质瘤芯片表达数据本课题以胶质瘤为研究对象。检索时间截至2013年11月。数据主要来自于基因表达公共数据库:GEO。检索策略是在PubMed和GEO等数据库检索符合纳入标准的相关

25、研究文献和数据,所用的关键词是“glioma”AND“microarray”“survival”,并经过手工检索,剔除了不包含生存时间的数据,以及没有截尾状态的数据经删选后一共保留了7套数据,GSE编号分别是GSE427-GPL96 Sica D, Rayman P, Stanley J, Edinger M, Tubbs RR, Klein E, Bukowski R, Finke JH (1993) Interleukin 7 enhances the proliferation and effector function of tumor-infiltrating lymphocytes

26、 from renal-cell carcinoma. Int J Cancer 53:941947,GSE4271-GPL97 Narazaki M, Yasukawa K, Saito T, Ohsugi Y, Fukui H, Koishihara Y, Yancopoulos GD, Taga T, Kishimoto T (1993) Soluble forms of the interleukin-6 signal-transducing receptor component gp130 in human serum possessing a potential to inhibi

27、t signals through membrane-anchored gp130. Blood 82:11201126,GSE4412-GPL96 Weiergraber O, Hemmann U, Kuster A, Muller-Newen G, Schneider J, Rose-John S, Kurschat P, Brakenhoff JP, Hart MH, Stabel S et al (1995) Soluble human interleukin-6 receptor. Expression in insect cells, purification and charac

28、terization. EurJ Biochem 234:661669.,GSE4412-GPL97 Narazaki M, Yasukawa K, Saito T, Ohsugi Y, Fukui H, Koishihara Y, Yancopoulos GD, Taga T, Kishimoto T (1993) Soluble forms of the interleukin-6 signal-transducing receptor component gp130 in human serum possessing a potential to inhibit signals thro

29、ugh membrane-anchored gp130. Blood 82:11201126,GSE43114 Rabe B, Chalaris A, May U, Waetzig GH, Seegert D, Williams AS, Jones SA, Rose-John S, Scheller J (2008) Transgenic blockade of interleukin 6 transsignaling abrogates inflammation. Blood 111:10211028,GSE43115 Schmitz J, Owyang A, Oldham E, Song

30、Y, Murphy E, McClanahan TK, Zurawski G, Moshrefi M, Qin J, Li X, Gorman DM, Bazan JF, Kastelein RA (2005) IL-33, an interleukin-1-like cytokine that signals via the IL-1 receptor-related protein ST2,GSE43116 Ohgaki H, Dessen P, Jourde B, Horstmann S, Nishikawa T, Di Patre PL, Burkhard C, Schuler D,

31、Probst-Hensch NM, Maiorka PC, et al: Genetic pathways to glioblastoma: a population-based study. Cancer Res 2004, 64:68926899.,GSE43353 Verhaak RG, Hoadley KA, Purdom E, Wang V, Qi Y, Wilkerson MD, Miller CR,Ding L, Golub T, Mesirov JP, et al: Integrated genomic analysis identifies clinically releva

32、nt subtypes of glioblastoma characterized by abnormalities in PDGFRA, IDH1, EGFR, and NF1. Cancer Cell 2010, 17:98110.,GSE43388-GPL570 Ketolainen JM, Alarmo EL, Tuominen VJ, Kallioniemi A: Parallel inhibition of cell growth and induction of cell migration and invasion in breast cancer cells by bone

33、morphogenetic protein 4. Breast Cancer Res Treat 2010, 124:377386.和GSE43388-GPL14951 Zhou Z, Sun L, Wang Y, Wu Z, Geng J, Miu W, Pu Y, You Y, Yang Z, Liu N:Bone morphogenetic protein 4 inhibits cell proliferation and inducesapoptosis in glioma stem cells. Cancer Biother Radiopharm 2011, 26:7783.;每一套

34、数据里面都包含生存时间。样本量足够大可以使实验结果更具有统计学意义。2.1.2 胶质瘤通路数据从KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库可以查看到胶质母细胞瘤(glioma)的通路信息,检索时输入glioma和survival,可以看到我们想要的最符合我们要求的一个通路map05214。为了获得通路上的基因,使用了一个名为org.Hs.eg.db Liu B, Tian D, Yi W, Wu L, Cai Q, Dong H, Shen H, Ji B, Wang L, Zhang S,et al: Effect of bone mor

35、phogenetic protein 4 in the human brain glioma cell line U251. Cell Biochem Biophys 2010, 58:9196.的R包,使用org.Hs.eg.db这个R包可以提取出map05214这个通路上的基因。2.2 实验方法2.2.1 技术路线我们采用筛选出来的7套芯片数据进行数据预处理,并利用GEO数据库找到了芯片数据上探针ID对应的基因SYMBOL,进而得到基因和样本的对应关系。然后利用编写的R程序取这7套芯片数据中共有的基因SYMBOL,一共提取出4275个共有基因。最终得到的7个文件,其中每个文件的每一行是一个

36、基因,每一列是一个样本,矩阵数值表示该基因在该样本中的表达值;然后提取出表达数据中的生存时间(survival time)的数据和截尾状态(censor status)的数据,进而利用生存分析方法中的半参数方法cox比例风险回归分析来对生存数据和表达数据做生存分析,此步分别做了全套数据的生存分析和样本量充分的单套数据的生存分析。2.2.2 数据预处理下载的基因芯片表达数据里面行是探针ID,列是样本的GSM编号,我们要根据GEO数据库里面的平台注释信息将探针ID对应的gene symbol找到,并进而得到行是gene symbol,列是样本GSM编号的文件。发现文件里的表达值差别很大,小的数值是

37、几十,大的达到了上万,所以又对数据取了以2为底的对数转换,转换后发现表达值没有那么大的差别了,但是发现有重复探针集并进而按照取平均值进行合并。2.2.3 多平台基因芯片数据整合 要做meta分析,首先我们做的是胶质瘤的生存时间的meta分析,R里面有一个R包可以完成这个工作,这个R包就是RankProd。RankProd这个R包可以做Affymetrix芯片和cDNA芯片的差异表达基因的鉴别;此外这个包里一个高级用处就是可以用来检验经过药物治疗后上调和下调表达的基因。RankProd这个R包吸引人的一点就是他可以把从不同来源获得到的数据集整合到一个分析中去,这样可以提高统计检验的效能(powe

38、r),这一点正是符合meta分析的思想。首先安装RankProd这个包,在R中分别输入source(/biocLite.R和biocLite(RankProd);然后加载RankProd包library(RankProd),这样就可以使用RankProd这个包里的函数了。我的数据是一个类别(One class data)的数据,建立一个长度为n的向量,这里的n代表的是样本的个数,由于数据是一个类别的所以向量里面存放的是n个1;而且数据是来自不同的实验的也就是多个来源(Multiple origins)的,建立一个origin向量,向量里面的元素值是从

39、1取到L,其中L是数据来源的数目,由于我们的是7套数据,所以这里L等于7。利用RankProd这个包对胶质瘤数据做meta分析时,主要用到了2个函数RPadvance()和topGene()。2.2.4 鉴定风险通路通过KEGG数据库输入关键词glioma和survival得到符合要求的map05214这个通路,通过R里面的org.Hs.eg.db这个包提取出通路上的基因和meta分析分析出来的上下调基因,我们可以找到风险通路,可以进一步cox比例风险回归分析。 2.2.5 生存分析为了从我提取到的4275个基因中挖掘预后基因,我们采用了cox比例风险回归模型 Fernandez-Rozadi

40、lla C, Palles C, Carvajal-Carmona L, Peterlongo P, Nici C,Veneroni S, Pinheiro M, Teixeira MR, Moreno V, Lamas MJ, et al: BMP2/BMP4 colorectal cancer susceptibility loci in northern and southern European populations. Carcinogenesis 2013, 34:3148.。每个基因作为一个协变量,每个样本的生存时间作为因变量,所以一共有4275个协变量。对所有协变量做4275元

41、的cox比例风险回归分析,每个协变量得到一个概率值,这个概率值表示该协变量对样本生存时间的影响是否显著,取阈值为0.0001(如果阈值取0.01或0.001则挖掘出来的预后基因过多,没有起到很好的筛选作用),其值小于该阈值的被认为是预后基因,大于该阈值的被认为是对生存时间的影响是统计学不显著的。为了对每个样本给予一个打分值,该分值代表该样本的风险值或风险得分(risk score),构建一个预后模型,利用该模型对筛选出来的预后基因的表达进行加权求和,并将求出来的结果作为每个样本的风险得分,风险得分值则是通过cox比例风险回归分析得到的(对上一步筛选出来的预后基因做cox比例风险回归分析可以得到

42、回归系数,利用回归系数对表达值来加权)获取每个样本的风险得分值(risk score)之后,欲进行生存分析还需将之前得到的样本的连续的样本风险得分离散化(这里根据样本风险得分的大小进行了二分类化)。综合考虑设定一个得分阈值,大于该阈值的样本类别记为高风险得分样本(high risk score),而小于该阈值的样本类别记为低风险得分样本(low risk score)为了确定这个阈值,我们采用时间依赖的受试者工作特征曲线(time-dependent receiver operating characteristic(ROC)curve) Gravendeel LA, Kouwenhoven

43、MC, Gevaert O, de Rooi JJ, Stubbs AP, Duijm JE, Daemen A, Bleeker FE, Bralten LB, Kloosterhof NK, et al: Intrinsic gene expression profiles of gliomas are a better predictor of survival than histology. Cancer Res 2009, 69:90659072.来得到样本类别最适的二分类阈值,可以通过survivalROC这个R软件包来进行此步骤。并进而可以利用乘积极限法来估计存活率,使用Kapl

44、an-Meier来估计和绘制生存曲线,利用log rank检验来比较多组生存曲线的差别。生存分析这一步共利用不同的数据做了两次生存分析:第一次是整套数据的生存分析;第二次是第一套大样本数据(合并表1中GSE4271的两个不同平台的样本)做生存分析。 3、结 果 3.1 胶质瘤基因芯片整合数据主要通过GEO这个数据库获得胶质瘤芯片数据和生存数据,检索日期截止2013年11月,经过手动的筛选排除了不符合要求的数据一共得到了7套胶质瘤生存时间的数据,表1 表1.已获得带有生存数据的数据集列表 TABLE 1Picked data sets have survival data、Data setPla

45、tformSamplesGSE4271.GPL96HG-U133A100GSE4271.GPL97HG-U133B100GSE4412.GPL96HG-U133A85GSE4412.GPL97HG-U133B85GSE43114HG-U133_Plus_26GSE43115HG-U133_Plus_27GSE43116HG-U133_Plus_22GSE43353Illumina2GSE43388.GPL570HG-U133_Plus_215GSE43388.GPL14951Illumina2 3.2 胶质瘤的KEGG通路图在KEGG数据库的KEGG PATHWAY中得到可以得到胶质瘤相关基因

46、的通路,图1 图1胶质瘤的KEGG通路 Figure 1 The KEGG pathway of glioma 表2 通路上的基因 TABLE 2 The genes in the pathway表2中列出来的是利用org.Hs.eg.db这个R包从KEGG PATHWAY这个数据库的map05214通路上提取出来的基因的Entrez ID3.3 meta分析利用R里面的RankProd Soroceanu L, Murase R, Limbad C, Singer EL, Allison J, et al. (2012) Id-1 is aKey Transcriptional Regula

47、tor of Glioblastoma Aggressiveness and a Novel Therapeutic Target. Cancer Res.包对之前获得的关于胶质母细胞瘤芯片表达数据通过meta分析进行整合,共获得4275个基因,如图2 图2 整合的基因(图中只是一部分) Figure 2 Integrated genes(partly not all)通过编写R程序整合了多套表达数据里的基因,增加结果的可信度,使结果更具说服力。3.4 生存分析将从GEO获得7套胶质瘤相关的4275个基因合并到一起通过cox比例风险回归分析(p0.0001)得到了70个基因作为预后基因,利用这

48、70个预后基因做多元cox比例风险回归分析可以得到每个基因的权值,通过权值和基因在样本中的表达值可以得到每个样本的风险得分。利用survivalROC这个包里面的生存时间依赖的受试者工作特征曲线分析来得到最佳的二分类阈值(optimal cutoff)。我的optimal cutoff=3.35,大于该阈值的记为高风险得分样本,小于该阈值的记为低风险得分样本。这样,358个样本就分为125个低风险得分的样本和233个高风险得分样本。进行log-rank检验得到的p值 1.91e-10,说明两组曲线差异非常显著,结果具有统计学意义,图2:图3 整套样本的生存曲线 Figure 3 surviva

49、l curves of all sets samples接下来为了证明利用整套数据做的生存分析的效果,我们又单独做了GSE4271数据的生存分析曲线,见图4:图4 GSE4271样本的生存曲线 Figure 4 survival curve of GSE4271图4是通过整合GSE4271的两个不同平台的数据得出来的生存曲线图,由图中可以看到GSE4271两个不同平台的数据整合后低风险样本有104个,高风险样本有50个,低风险样本的平均生存时间显著的高于高风险样本的生存时间。4、讨 论本研究中,我们从GEO数据库获得的4275个基因经过cox比例风险回归分析后筛选出了70个预后基因。由4275个基因降到70个预后基因,不仅降低了研究的复杂程度而且也保留了大部分的重要的信息。随着大量的高通量表达数据的迅猛发展,出现了越来越多的基因表达数据库,我们应该充分利用这些数据来挖掘出隐藏在里面的信息。近年来对meta分析的研究越来越多,其结果也并不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论