版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五讲生物医学数据挖掘案例探讨与分享1.案例:应用分类与聚类进行全基因组DNA甲基化数据分析2.案例:应用关联规则从基因层面探讨自免疫疾病的相关性3.案例:应用贝叶斯网络探讨慢性阻塞性肺疾病基因与环境的互作4.案例:生物数据与临床数据的整合分析思路5.一个实用的TCGA数据库挖掘网站6.如何回答reviewer问题的一点建议案例1SCI论文发表——基于聚类的突眼症全基因组甲基化数据分析
统计分析1差异表达的甲基化基因筛选2单因素Logistic回归分析批量作Logistic回归read.table("d:\\logit.csv",header=TRUE,sep=",")->aresult<-array(0,dim=c(39,4))for(iin1:39){logr<-glm(group~sex+age+duration+a[,i+4],data=a,family="binomial")result[i,1]<-exp(summary(logr)$coefficients[5,1])result[i,2]<-exp(summary(logr)$coefficients[5,1]-1.96*summary(logr)$coefficients[5,2])result[i,3]<-exp(summary(logr)$coefficients[5,1]+1.96*summary(logr)$coefficients[5,2])result[i,4]<-summary(logr)$coefficients[5,4]}result(设置4列:分别放入OR值,OR值置信区间的上下限,P值)运行结果如下:4列分别为第1列:OR值第2列:OR值置信区间的上限第3列:OR值置信区间的下限第4列:P值两组比较有显著差异3应用聚类获得样本分类(疾病亚型)4主成分分析5GO功能分析6突眼症与甲基化水平的相关性分析统计方法批处理的R程序批量作卡方检验单个SNP的卡方检验SNPcasecontrolTotal06032921231538Total8347130可以采用plink软件实现read.table("d:\\chisq.csv",header=TRUE,sep=",")->afor(iin1:20){x<-a[,i]dim(x)<-c(2,2)print(chisq.test(x,correct=FALSE))}输出结果批量作线性回归作6-11列与年龄的线性回归单次线性回归Estimate:回归系数Std.Error:回归系数的标准误tvalue:回归系数的检验统计量Pr(>|t|):回归系数的P值批量作线性回归read.table("d:\\data.csv",header=TRUE,sep=",")->aage<-a[,1]result<-array(0,dim=c(6,3))for(iin1:6){linear<-lm(a[,i+5]~age)result[i,1]<-summary(linear)$coefficients[2,1]result[i,2]<-summary(linear)$coefficients[2,3]result[i,3]<-summary(linear)$coefficients[2,4]}result输出结果3列分别为第1列:回归系数第2列:回归系数检验的t统计量第3列:回归系数的P值批量作Cox回归library(survival)read.table("d:\\coxnew.csv",header=TRUE,sep=",")->datapvalue<-array(0,dim=c(252,1))for(iin1:252){fit<-coxph(Surv(time,status)~data[,i+2],data=data)pvalue[i,1]<-summary(fit)$coefficients[,'Pr(>|z|)']}pvalue输出结果:案例2:SCI论文发表——————基于关联规则的自免疫疾病关联
糖尿病和类风湿病的关联
系统性红斑狼疮和类风湿病的关联如果结合数据库将SNP分为恶性突变和温和突变,那么又可以将SNP分为两类,再次做关联规则,并进行比较,是不是又是一个方案呢?案例3SCI论文发表——————基于贝叶斯网络的基因-环境互作1应用数据库筛选功能SNP生物信息学分析建议结合多种数据库,以增加结果的可靠性。SNP功能分析和表型相关的贝叶斯网络2构建与表型相关的贝叶斯网络3个恶性突变的非同义SNP5个显著的SNP(P<0.01)和数量性状FEV1相关的贝叶斯网络3构建与数量性状FEV1相关的贝叶斯网络分类模型最好的是环境变量+贝叶斯网络提取的非同义SNP4应用Logistic回归验证贝叶斯网络提取的非同义SNP5非同义SNP的各分类器比较
生物信息学数据分析整合思路综合案例分析差异表达基因筛选聚类,主成分分析分类分析(决策树,随机森林)GO,KEGG富集分析蛋白质互作网络,转录调控网络……..关联分析(卡方检验,Logistic回归…..)互作分析(决策树,多因子降维,关联规则…….)分类分析(决策树,主成分,随机森林……)GO,KEGG富集分析(映射到基因)蛋白质互作网络,转录调控网络……增益或缺失结合临床表型案例:SCI论文发表——基于随机森林的代谢通路分析随机森林筛选风险通路
随机森林分类样本随机森林法筛选出的两条重要代谢通路WntsignalingpathwayLeukocyteadhesionpathway案例:SCI论文发表——基于组学数据整合的前列腺癌分层多组学数据的可视化R软件的caOmicsVLinHuaetal.RiskStratificationforProstateCancerviaTheIntegrationofOmicsDataofTCGA,TranslationalCancerResearch,2018案例:SCI论文发表——miRNA-mRNA双重表达谱分析思路1PrioritizingbreastcancersubtyperelatedmiRNAsmiRNA-mRNAdysregulatednetworkIdentifybreastcancersubtyperelatedmiRNAsReference:LinHuaetal.PrioritizingbreastcancersubtyperelatedmiRNAsusingmiRNA-mRNAdysregulatedrelationshipsextractedfromtheirdualexpressionprofiling,Journaloftheoreticalbiology,331,pp1-11,20132IdentifyingbreastcancersubtyperelatedmiRNAsfromtwoconstructedmiRNAsinteractionnetworksinSilicomethod主成分分析Reference:LinHuaetal.IdentifyingBreastCancerSubtypeRelatedmiRNAsfromTwo
ConstructedmiRNAsInteractionNetworksinSilicoMethod,BioMedResearchInternational,2013,pp.1-13
聚类分析
一个实用的TCGA数据库挖掘网站UALCAN:/index.html肿瘤类型按基因搜索按基因集团搜索按基因搜索表达生存数据库点击GExprofile按照性别,年龄,肿瘤亚型,肿瘤分期等绘制箱式图点击Survivalprofile按基因类别红色表示CDK2在该肿瘤中显著上调,边框红色表示总生存期显著。链接的各个数据库差异表达和生存预后链接到HPRD数据库如何回答reviewer问题的一点建议论文的四种状态:(1)Accept:论文直接接收,无需任何修改:这种情况机率不大,但是也不是没有。
(2)minorrevision:评审意见一般都是说某部分过于简单了没有说清楚,或者说文献不够之类。根据评审意见进行修改之后就应该可以接收了。
(3)Majorrevision:如果两个评委,一般情况是一个觉得好一个觉得不好。三个评委中可能会出现三种情况:i)一个说好一个说一般一个不同意;ii)两个说好一个说不好和iii)两个觉得不怎么样,但一个说好。以上三种情况编辑都可能给你机会修改重投。此时你需要用你的实际行动(修改和回复)来让这些评委改变主意,的确是一件具有挑战性的问题。回答稍有不好,那就失去机会了。(4)Reject:没有修改的机会了,只能转投他刊。
一审后论文的状态
如何应对Majorrevision首先,要摆正心态。应该意识到,文章没有直接被拒就是一件非常高兴的事情了,起码说明你的工作还是有人承认的。这个时候,就需要好好分析评委的意见,找出问题的所在。对于所有的评委,只要是评审意见,都需要一条一条地回复。1)要有礼貌,尊重审稿人
每条回复都有这样的话:“Thanksforyoursuggestion,”;
“Thanksforyourcomment,thatisthereviewer’scorrectobservation…….”“Thanksforthereviewer’ssuggestion,thissuggestionisveryhelpful…….”“Iamverygratefultoyourcommentsforthemanuscript…….”2)遇到审稿人提的问题不对怎么办?我的经验是尽量不要argue;而是explain
What'stheallelefrequenciesfortheseSNPsincontinentalpopulations(AFR,AMR,EUR,etc.)?ThebestmodelsderivedfromHanpopulationremainthesameordifferentforotherpopulation?Response:
Thanksforthereviewer.Thatisthereviewer’scorrectobservation.Infact,someMetaanalysisrelatedstudieshavefoundthatgeneticassociationtodiseasedisplayedobviousvarietiesindifferentpopulations,suggestingthatthegeographicisolationandnaturalselectionduringhumanexpansionmayinfluencethegeneticcontributiontodisease.Unfortunately,ononehand,thestudiesaboutgene-geneinteractionscontributingtoquantitativetraitsforotherpopulationsareabsent.Andontheotherhand,wecannotgettheoriginalquantitativetraitsdataandgenotypedatafocusingonthesefourgenesofcontinentalpopulations;wethuscannotperformthesimilaranalysis.However,wefeelthereviewer’ssuggestionisveryhelpful,wethuscitedsomereferencesaboutgene-geneinteractionscontributingtoCOPDorCOPD-relatedphenotypesbasedonthedifferentpopulationsinthisrevisedmanuscript.3)遇到审稿人提的问题无法在限定的时间解决怎么办(如补充实验,增加样本等)?ArecentstudyshowsMulti-QMDR(/pubmed/26201702)canimprovetheperformanceofQMDR,canauthorsalsocomparetheirresultswithMulti-QMDR?(2016)Response:Thanksforthereviewerverymuch.Theliteratureprovidedbythereviewerisveryuseful.Wereadthispapercarefully.
Unfortunately,wecannotfindthesoftwareorsourceprogramcodingorlinkwebaddresstoperformtheMulti-QMDRanalysis,andwecannotwritetheprogramscriptinaveryshorttime.
Instead,weusedGMDRmethodtoperformthecorrespondinganalysisandcomparedQMDRresultswithGMDR.Wefoundtheresultsaresimilar.Multi-QMDRcanperformbetterthanQMDRandGMDRwhenanalyzinginteractionsamongagreaternumberofSNPs(genes).Therefore,foranalyzinginteractionsamong44SNPs,QMDRandGMDRareappropriate.Thanksforthereviewertogiveusanillumination,wewillsupplementouranalysisincludingusingMulti-QMDRtodetectgene-geneinteractionsinfutureworks.Inthisrevisedmanuscript,weaddedthecorrespondingtextinDiscussionsection.Impactfactor:3.54)在给审稿人的回复中,最好将论文修改的部分加上Comment#4:Itisnecessarythatauthorsprovideagraphtheoreticdefinitionfor“nestedcommunitiesofgenes”.Response:Thanksforthereviewerverymuch.…….Wekindlyacceptthereviewer’ssuggestion,andprovidedagraphdefinitionfor“neste
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论