下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于基因表达数据的胰腺癌预后研究现状综述目录TOC\o"1-2"\h\u27906基于基因表达数据的胰腺癌预后研究现状综述 115809摘要 1157451各种机器学习方法在基因数据上的表达 1312932基于临床数据的癌症生存期研究 267233基于基因数据的癌症生存期研究 2227714基于基因数据和临床数据的癌症生存期研究 27243参考文献 3摘要近50年来,乳腺癌的发病率在全球范围内呈上升趋势,且呈低龄化发展趋势。乳腺癌已经成为全世界女性最常见的癌症[1]。随着下一代高通量测序技术的快速发展和测序成本的降低,研究人员能够获得越来越多的全基因组基因表达值、miRNA值和拷贝值,为乳腺癌的研究和诊断提供更全面、准确的数据。基因表达数据分析一直是生物信息学研究的热点。现在,基因表达数据的生物信息学研究不仅仅是从基因表达数据中寻找差异表达的基因。而是从大量的肿瘤信息中寻找更有意义的遗传信息,结合统计建模的思想构建具有风险等级评估和预后评估作用的模型。系统生物信息学方法通过对生物样品遗传信息的高通量检测和统计分析,综合利用生物信息学数据库,对特定条件下复杂生物过程中基因表达的调控网络进行描述和分析。关键词:基因表达;乳腺癌;预后1各种机器学习方法在基因数据上的表达近年来各种机器学习方法也已经被成功应用于基因表达数据的分析上,其中聚类分析是普遍使用的方法之一,通过对基因表达数据进行聚类分析,将表达模式一致的基因聚为一类,通过筛选寻找相关基因,分析基因的功能,利用聚类分析的结果来研究基因的转录调控信息。聚类旨在发现在所有实验条件或样本下表达水平变化相似的基因组。如果两个不同的基因在整个实验条件中表现出相似的表达趋势,则表明存在一种共同的调控模式,也可能反映了它们功能之间的某种相互作用或关系。尽管聚类分析很有用,但它的一个严重缺点就是它考虑了整个条件集。实际上,基因不一定与每个条件相关。因为基因表达数据描述的是特定细胞或组织在特定状态下的基因表达信息,对基因表达数据的聚类找出在部分特定的实验条件下表达一致的基因簇会更有生物学意义[2,3]。因此,聚类应该在基因维和条件维上同时进行。聚类分析的另一个局限是每个基因必须精确的聚成一个簇,生成的簇之间没有重叠。根据基因在不同生物学过程中的影响,许多基因可能同时属于几个簇。聚类方法的这些缺点双聚类方法能够有效地解决[4]。双聚类方法可以识别在特定条件子集下具有相似表达模式的基因组,它通过在基因维和条件维同时聚类,可以动态地使用基因和条件间的相互关系,通过迭代聚类过程改善聚类结果的准确性[5,6]。最早的双聚类方法是Hartigan提出的直接聚类(DirectClustering),也称为分块聚类(BlockClustering,该算法基于分治的思想,首先依据表达数据的行和列的均值,将表达矩阵划分为方差尽可能小的子矩阵,随后在各个子矩阵中寻找双聚类[7]。Cheng和Church于2000年首次在基因表达数据分析中使用了双聚类方法,简称CC算法,Cheng和Church将双聚类定义为具有高相似性得分的行子集和列子集,引入了均方残差(MeanSquaredResidue)用于衡量双聚类中行和列的一致性,该算法通过贪婪搜索对表达矩阵逐步添加或删除行或列,使得到的子矩阵的均方残差显著减小,直到小于设定的阈值[8]。Yang等人在CC算法的基础上提出了FLOC(FlexibleOverlappedBiclustering)算法,该方法添加了概率移动策略来对双聚类进行搜索,从而能够准确的找到表达矩阵中的双聚类[9]。Kluge:等人通过假设表达矩阵在归一化后包含棋盘结构,使用光谱方法进行聚类。Kluger利用特征向量和线性代数中的奇异值分解(SVD)找到这些独立的棋盘结构的双聚类[10]。Bergmann等人提出了ISA(IterativeSignatureAlgorithm)算法,在该算法中将双聚类定义为模块,一个模块由一组共表达的基因组和条件组构成,模块的大小取决于两个阈值,这两个阈值分别决定了模块中基因和条件的相似性。然后随机选择几个基因和条件对所有基因和条件进行打分,最后根据设定的阈值来筛选基因和条件,直到选择的基因和条件不再改变就将其构成一个双聚类[11]。此外,还有基于单向聚类的双聚类方法。Wang等人提出了新型聚类模型Pcluster,该方法首先对行进行两两比对,求出表达数据中所有两行组合在列方向上最大维的聚类。再对列两两比对,求出数据中所有两列组合在行方向上最大维的聚类。最后对这些聚类进行剪枝处理,产生满足条件的双聚类[12]。Tang0和Zhang开发了相关双聚类的算法(InterrelatedTwo-WayClustering,ITWC,该算法将两个维度上的单向聚类结果分别结合起来获得满足条件的双聚类[13]。刘楠楠使用快速非负矩阵分解改进相关双聚类算法提出了FNMF-ITWC算法,该算法首先对原始的基因表达数据进行基因选择和快速非负矩阵分解,然后对子矩阵同时在行和列上进行聚类分析,将聚类结果结合起来获得要求的双聚类[14]。2基于临床数据的癌症生存期研究传统的乳腺癌预后研究,大多数基于临床数据。Oh等[15]等提出了一个预测晚期非小细胞肺癌(NSCLC)患者放疗后局部失败的图形化贝叶斯网络框架,并分别在临床和剂量学变量以及血液特征上进行实验,最后结果表明,该模型不仅比传统的贝叶斯模型有更好的分类效果,并且组合模型比单一模型性能更好。在对于数据缺失处理方面,早期的研究倾向于利用算法进行填补,Amir等[16]对3949例乳腺癌患者的资料进行了分析,使用期望最大化算法替换缺失值,并用CCA进行降维,最后利用决策树模型预测乳腺癌复发情况,与未进行预处理的数据进行实验比较,结果表明,替换缺失值并使用CCA进行数据缩减可显著减小生成树的大小,并提高预测乳腺癌复发的准确性。近期,Cheung等[17]考察了2522例肝癌临床数据,并且证明了三阴性是乳腺癌肝转移唯一独立的不良预后因素,而肝切除术是治疗乳腺癌肝转移的安全有效的方法。Cletus等[18]对11694例诊断为IV期乳腺癌的患者进行手术前后生存率对比研究,发现对第四期乳腺癌患者进行完整原发肿瘤手术与提高总体生存率相关。刘雅琴等[19]建立了基于神经网络的乳腺癌生存预测模型,对SEER乳腺癌登记资料库中的数据进行训练,并用降采样方法处理数据不平衡问题,最后得到模型的AUC为0.7613,特异度为0.7415,灵敏度为0.7811,正确度为0.7758。3基于基因数据的癌症生存期研究乳腺癌生存期预测研究早期,关于基因的研究主要围绕挖掘基因标志物展开,并基于这些基因标志物进行生存期预测。Hayes[20]等首次提出由microRNA组成的胶质母细胞瘤生存评分研究,该研究采用LASSO回归识别microRNA预后信号,并且通过microRNA靶标预测、实验验证和microRNA与mRNA表达数据的相关性确定microRNA的功能相关靶标。之后,Zhang[21]等利用最小冗余算法和一种基于多核学习框架的学习模型,用于多形性胶质母细胞瘤数据集的生存期预测,最后证明,在多形性胶质母细胞瘤数据集上,该模型具有较高的准确性。叶云等[22]分析了两组乳腺癌基因芯片(GSE1456和GSE2034),筛选与复发相关的差异基因,并用Cox比例风险模型进行基因表达的单因素分析得到与生存显著相关的基因,通过留一法交叉验证,得到ROC为0.803。4基于基因数据和临床数据的癌症生存期研究Brenton[23]等提出临床数据(如ER,PR,HER2)在乳腺癌生存期预测问题上具有重要作用,而基于基因组学的乳腺癌预后研究忽视了这些临床数据的信息以及相应的治疗诊断意义。Sun[24]等考虑到临床信息和基因标志物信息的互补性,利用IRELIEF[25]分别对微阵列数据和临床数据进行特征提取,最后用线性判别分析进行乳腺癌生存期预测,结果表明,结合临床数据和微阵列数据的预测结果比使用单一数据集的预测结果具有更好的鲁棒性。随着生物信息学技术的快速发展,以及大量癌症临床数据的积累,为结合临床数据和基因组学数据,开发新的准确率更高的生存期预测模型做好了铺垫。Gevaert[26]等提出一种基于贝叶斯网络的策略来处理临床和微阵列数据,结果表明共同使用临床数据和微阵列数据比分别使用临床数据或微阵列数据具有更高的生存期预测准确率,并且ROC面积最高能达到0.845.Khademi[27]等人利用概率图模型对临床数据进行特征提取并且进行生存期预测,利用深度信念网络对微阵列数据进行生存期预测,最后整合两个模型的结果,使得充分利用临床信息和基因表达特征,并且与支持向量机和k近邻算法预测结果相比较,这种融合的结果在肿瘤分类和预测复发转移等事件方面有着更好的效果。Kim[28]等提出一种基于图的数据融合方法对临床数据和基因表达数据进行融合分析,并预测了卵巢癌患者的生存期,结果表明,融合临床数据和基因表达数据可以达到0.893的AUC,而利用单组数据进行预测AUC最高只能达到0.877。参考文献[1]WormannB.Breastcancer:basics,screening,diagnosticsandtreatment[J].MedMonatsschrPharm,2017,40(2):55-64.[2]MadeiraSC,OliveiraAL.Biclusteringalgorithmsforbiologicaldataanalysis:asurvey[J].IEEE/ACMTransComputBiolBioinform,2004,1(1):24-45.[3]ErenK,DeveciM,KO,etal.Acomparativeanalysisofbiclusteringalgorithmsforgeneexpressiondata[J].BriefingsinBioinformatics,2013,14(3):279-292.[4]FiannacaA,LaRosaM,LaPagliaL,etal.AnalysisofmiRNAexpressionprofilesinbreastcancerusingbiclustering[J].BMCBioinformatics,2015,16(4):1-11.[5]PontesB,GiraldezR,Aguilar-RuizJS.Biclusteringonexpressiondata:Areview[J].ElsevierInc,2015,57:168-180.[6]JuanX,AnjunM,AnneF,etal.Itistimetoapplybiclustering:acomprehensivereviewofbiclusteringapplicationsinbiologicalandbiomedicaldata}J}.Briefingsinbioinformatics,2019,20(4):1450-1465.[7]HartiganJA.DirectClusteringofaDataMatrix[J].Taylor&FrancisGroup,2012,67(337):123-129.[8]ChengY,ChurchGM.Biclusteringofexpressiondata[J].ProcIntConfIntellSystMolBiol,2000,8:93-103.[9]YangJ,WangH,WangW,etal.ANIMPROVEDBICLUSTERINGMETHODFORANALYZINGGENEEXPRESSIONPROFILES[J].InternationalJournalonArtificialIntelligenceTools,2005,14(5):771-789.[10]KlugerY,BasriR,ChangJT,etal.Spectralbiclusteringofmicroarraydata:coclusteringgenesandconditions[J].GenomeRes,2003,13(4):703-716.[11]BergmannS,IhmelsJ,BarkaiN.Iterativesignaturealgorithmfortheanalysisoflarge-scalegeneexpressiondata[J].PhysRevEStatNonlinSoftMatterPhys,2003,67(3):31902.[12]Wang,Haixun.Clustering饰PatternSimilarityinLargeDataSets[J].Proceedingsofthe2002ACMSIGMODInternationalConferenceonManagementofData,2002,57:394-405.[13]TangC,ZhangA.1NTERRELATEDTWO-WAYCLUSTERINGANDITSAPPLICATIONONGENEEXPRESSIONDATA[J].WorldScientificPublishingCompany,2005,14(4):557-597.[14]刘楠楠.应用于基因表达数据的双聚类算法的研究[D].燕山大学,2ou.[15]Douglas,Hanahan,And,etal.HallmarksofCancer:TheNextGeneration[J].Cell,2011,144(5):646-674.[16]CheungTChokK,ChanA,etal.Survivalanalysisofbreastcancerlivermetastasistreatedbyhepatectomy:apropensityscoreanalysisforChinesewomeninHongKong[J].Hepatobiliary&PancreaticDiseasesInternationalHbpdInt,2019,18(5):452-457.[17]ArcieroC,LiuY,Gillespie毛etal.SurgeryandsurvivalinpatientswithstageIVbreastcancer[J].BreastJournal,2019,25(4):644-653.[18]刘雅琴,王成,章鲁.基于神经网络的乳腺癌生存预测模型[J].中国生物医学工程学报,2009,028(002):221-225.[19]XuX,ZhangY,LiangZ,etal.Agenesignatureforbreastcancerprognosisusingsupportvectormachine[C].InternationalConferenceonBiomedicalEngineering&Informatics,2012.[20]ZhangY,LiA,PengC,etal.ImproveGlioblastomaMultiformePrognosisPredictionbyUsingFeatureSelectionandMultipleKernelLearning[J].IEEE/ACMTransComputBiolBioinform,2016,13(5):825-835.[21]叶云,黄临凌,钟英英,等.乳腺癌复发相关基因预测疾病的特异生存率研究[J].肿瘤防治研究,2016,043(9):762-766.[22]Brenton,J.D.MolecularClassificationandMolecularForecastingofBreastCancer:ReadyforClinicalApplication?[J].JournalofClinicalOncologyOff
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口腔护理根管治疗配合
- 妇科手术管理
- 病历质量控制与评价制度
- 外科护理肿瘤化疗和放疗
- 《汽车的基本构造》课件
- 《员工培训与管理》课件
- 数学学案:课堂导学反证法和放缩法
- 如何预防艾滋病班会
- 《名句默写答案》课件
- 《吸收与酵解》课件
- 山西省太原市2024-2025学年高三上学期期中物理试卷(含答案)
- 酒店岗位招聘面试题与参考回答2025年
- 医科大学2024年12月急危重症护理学作业考核试题答卷
- 公安接处警培训
- JGJ18-2012钢筋焊接及验收规程
- 胸部术后护理科普
- 分布式光伏发电项目EPC总承包 投标方案(技术方案)
- 【产业图谱】2024年青岛市重点产业规划布局全景图谱(附各地区重点产业、产业体系布局、未来产业发展规划等)
- 中药药品注册法规考核试卷
- 期中测试卷-2024-2025学年统编版语文六年级上册
- 初中语文2024届中考修改病句选择题练习(共15道-附参考答案和解析)
评论
0/150
提交评论