医学数据挖掘预测型知识专家讲座_第1页
医学数据挖掘预测型知识专家讲座_第2页
医学数据挖掘预测型知识专家讲座_第3页
医学数据挖掘预测型知识专家讲座_第4页
医学数据挖掘预测型知识专家讲座_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于临床数据发觉预测型知识医学数据挖掘预测型知识第1页例1从某单位1999年职员体检资料中取得101名正常成年女子血清总胆固醇(mmol/L)测量结果

2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26单变量资料医学数据挖掘预测型知识第2页例对10例肺癌病人和12例矽肺(硅从容病)0期工人用X线片测量肺门横径右侧距RD值(cm),结果见下表。问肺癌病人RD值是否高于矽肺0期工人RD值?肺癌病人矽肺0期工人RD值RD值2.783.233.233.504.204.044.874.155.124.286.214.347.184.478.054.648.564.759.604.824.955.10单变量资料医学数据挖掘预测型知识第3页表212只大白鼠进食量与体重增加量序号进食量(g)体重增加量(g)1305.723.62188.614.73277.219.24364.827.75285.318.96244.716.17255.917.28149.812.99268.918.310247.617.711168.813.712200.615.6累计2957.9215.6变量y变量x双变量资料医学上,还有许多现象之间也都有类似或强或弱相互依存改变关系,如:身高与体重、体温与脉搏、年纪与血压、胰岛素与血糖水平、癌症病人术后生存时间和肿瘤级别与年纪等等多变量资料医学数据挖掘预测型知识第4页预测型知识预测型知识指是预测连续值,是依据时间序列型数据,由历史和当前数据去推测未来数据。这类知识能够被认为是以时间为关键属性关联知识,所以关联知识挖掘方法能够应用到以时间为关键属性源数据挖掘中。分类知识挖掘:分类通惯用来预测对象类标号。然而,在一些应用中,人们可能希望预测一些遗漏或不知道数据值,而不是类标号。当被预测值是数值数据时,通常称之为预测。预测用于预测数据对象连续取值,如:能够结构一个分类模型来对银行贷款进行风险评定(安全或危险);医学数据挖掘预测型知识第5页预测型知识挖掘预测型知识挖掘能够利用统计学中回归方法,经过历史数据直接产生连续对未来数据预测值;也能够借助于经典统计方法、神经网络和机器学习等技术。不论怎样,经典统计学方法是挖掘预测知识基础。医学数据挖掘预测型知识第6页挖掘预测型知识线性回归(LinearRegression)一元线性回归多元线性回归Cox回归(CoxRegression)logistic回归(logisticRegression)医学数据挖掘预测型知识第7页目标:作出以多个自变量预计应变量多元线性回归方程。资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少许定性或等级指标需作转换。用途:解释和预报。意义:因为事物间联络经常是多方面,一个应变量改变可能受到其它多个自变量影响,如糖尿病人血糖改变可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等各种生化指标影响。线性回归(LinearRegression)医学数据挖掘预测型知识第8页表1多元线性回归分析数据结构试验对象yX1X2X3….XP

1y1a11a12a13…a1p

2y2a21a22a23…a2p

3y3a31a32a33…a3p

nynan1an2an3…anp

━━━━━━━━━━━━━━━━━━其中:y取值是服从正态分布医学数据挖掘预测型知识第9页表27名糖尿病人血糖及相关变量测量结果

医学数据挖掘预测型知识第10页缺失值及处理多元线性回归中,因为观察变量较多,轻易造成缺失(20%以内)处理:剔除缺失过多研究对象或变量用均数替换缺失值医学数据挖掘预测型知识第11页-4-202442-2-4极端值造成回归线上抬删除该极端值极端值及处理剔除极端值1.赋值错误2.单个极端值影响结果显著显著违反理论与常规机制保留极端值极端值较多非强影响值医学数据挖掘预测型知识第12页线性回归两变量间存在某种内在联络,且某一变量Y伴随另一变量X变动而变动,其散点图呈直线趋势,则统计上把这种描述两变量间依存改变数量关系现象称为直线回归数据散点图医学数据挖掘预测型知识第13页直线回归方程普通表示式X:自变量(independentvariable),通常也称为“解释变量”(explanatoryvariable)

*只有一个自变量,称简单回归(simpleregression)

*多个自变量,称多元回归(multipleregression)Y:应变量(dependentvariable),通常也称为“反应变量”(responsevariable)a为截距(intercept),b为回归系数(regressioncoefficient)回归系数b统计学意义:X每增加(或降低)一个单位,Y平均改变b个单位医学数据挖掘预测型知识第14页XY标准:各实测点至直线纵向距离平方和为最小求解回归直线最小二乘法(leastsquaremethod)原理医学数据挖掘预测型知识第15页回归直线特征2.若纵、横坐标无折断号时,将回归直线延长与纵轴相交,交点纵坐标必定等于截距a1.经过点

总离均差平方和分解:=+即医学数据挖掘预测型知识第16页直线回归统计推断b≠0原因:①因为抽样误差引发,总体回归系数b=0②存在回归关系,总体回归系数b≠01.方差分析2.t检验(一)回归方程假设检验医学数据挖掘预测型知识第17页一元线性回归统计量计算多元线性回归统计量计算医学数据挖掘预测型知识第18页应用条件(line):线性(linear)

独立性(independence)

残差e服从正态分布(0,

)(normality)等方差性(equityofvariance)多元线性回归分析注意事项医学数据挖掘预测型知识第19页非线性处理:结合专业知识,考虑回归方程中加入变量屡次方项。Ŷ=a1+b1x1+b2x12对变量数据进行转换对数变换、log变换

医学数据挖掘预测型知识第20页等方差性:绘制残差散点图考查模型形式及方差齐性。绘制残差直方图或正态概率图:判断残差分布正态性及发觉异常值;绘制残差与因变量预测值散点图:残差图呈曲线,提醒加入非线性项或做适当变量变换;残差呈喇叭形,则提醒方差不齐;残差与时间呈依赖关系,考虑时间变量或样本独立性。医学数据挖掘预测型知识第21页医学数据挖掘预测型知识第22页Matlab实现线性回归[b,bint,r,rint,stats]=

regress(Y,X)b---ap-by-1vectorofcoefficientestimatesforamultilinearregressionbint---ap-by-2matrixbintof95%confidenceintervalsforthecoefficientestimatesn-by-1vectorrofresidualsann-by-2matrixrintofintervalsthatcanbeusedtodiagnoseoutliers.1-by-4vectorstatstheR2statistic,theFstatisticitsp-valueanestimateoftheerrorvariance医学数据挖掘预测型知识第23页表27名糖尿病人血糖及相关变量测量结果

医学数据挖掘预测型知识第24页Matlab实现线性回归load('line_regression_data.mat')%总胆固醇(X1)、甘油三酯(X2)、胰岛素(X3)、糖化血红蛋白(X4)、血糖(Y)[b,bint,r,rint,stats]=regress(Data(:,5),[ones(27,1),Data(:,1:4)])b=5.94330.14240.3515-0.27060.6382stats=0.520713.47130.00004.6378theR2statistic,theFstatisticitsp-valueanestimateoftheerrorvariance医学数据挖掘预测型知识第25页Matlab实现线性回归[b,bint,r,rint,stats]=regress(Data(:,5),[ones(27,1),Data(:,[1,4])])%总胆固醇(X1)、糖化血红蛋白(X4)、血糖(Y)scatter3(Data(:,1),Data(:,4),Data(:,5),'filled')holdonx1fit=min(Data(:,1)):0.2:max(Data(:,1));x2fit=min(Data(:,4)):0.5:max(Data(:,4));[X1FIT,X2FIT]=meshgrid(x1fit,x2fit);YFIT=b(1)+b(2)*X1FIT+b(3)*X2FIT;mesh(X1FIT,X2FIT,YFIT)xlabel('总胆固醇')ylabel('糖化血红蛋白')zlabel('血糖')view(30,60)医学数据挖掘预测型知识第26页医学数据挖掘预测型知识第27页挖掘预测型知识线性回归(LinearRegression)一元线性回归多元线性回归Cox回归(CoxRegression)

logistic回归(logisticRegression)医学数据挖掘预测型知识第28页Cox百分比风险回归模型在医学中,首先要看治疗结局好坏,另首先还要看生存时间长短随访研究(follow-upstudy)是医学中惯用前瞻性研究。该类数据经过随访得到,称为随访资料不一样方法对某病人(癌症、重复发作疾病)生存时间(缓解时间)与结局(生存率)比较两种方法肾移植病人术后肾生存时间和结局(生存率)比较医学数据挖掘预测型知识第29页生存时间:从起始事件到终点事件之间所经历时间跨度称为生存时间结局事件:指结局出现特征,如疾病死亡、复发、发生(y=1或0)时间间隔变量记为(t)t=结局事件出现日期-事件起始日期疾病确诊随访时间死亡治疗开始随访时间死亡/治愈医学数据挖掘预测型知识第30页生存数据完全和不完全数据一部分研究对象可观察到死亡,从而得到准确生存时间,所提供信息是完全,称为完全数据另一部分病人因为失访、意外事故或到观察结束时仍存活等原因,无法知道确切生存时间,提供了不完全信息,称为不完全数据(截尾数据、删失数据:consordata)时间(t)=截尾事件日期-起始事件日期记为t+。(例:10+月)生存数据结果变量(Y)有两个:时间(t)值,t>0结局状态(y)=“如死亡或截尾值”医学数据挖掘预测型知识第31页随访方式1.全部观察对象同时接收不一样处理(起点相同)随访方式:多见于动物试验医学数据挖掘预测型知识第32页随访方式2.观察对象在不一样时间接收处理原因(起点不一样)随访方式:临床试验研究医学数据挖掘预测型知识第33页Cox百分比风险回归模型生存时间长短不但与治疗办法相关,还可能与病人体质、年纪、病情轻重等各种原因相关。怎样找出其中那些原因与生存时间相关、哪些无关呢?生存资料特点生存时间分布普通为非正态分布含有截尾数据(consoreddata),信息不完全截尾数据提供信息即使是不完全,但也很有价值,不应随便删除。因为存在不完全数据,不能用多元线性回归分析1972年英国统计学家CoxDR.提出了一个能处理多原因生存分析数据百分比危险模型(Cox'sproportionalharzardmodel)。医学数据挖掘预测型知识第34页

设含有p个变量x1,x2,…,xp及时间T和结局Cn个观察对象.其数据结构见表3。

表3COX模型数据结构试验对象tCX1X2X3….XP

1t11a11a12a13…a1p

2t20a21a22a23…a2p

3t30a31a32a33…a3p

……

ntn1an1an2an3…anp数据结构医学数据挖掘预测型知识第35页Cox回归模型应用条件自变量能够为定量资料也可为分类资料自变量取值不随时间改变样本含量要足够大,且截尾数据不能过多,死亡数不能过少,原因各水平例数也不能过少样本量当前尚无公认方法。普通要求样本含量是要研究原因个数5~20倍。样本量少于研究原因个数5倍,或样本含量少于50例,不宜做多变量分析医学数据挖掘预测型知识第36页Cox百分比风险回归模型在分析单个原因或同时分析2个或2个以上原因对生存时间影响时候,我们需要经过Cox百分比风险模型来处理这些问题。借助于多元线回归及Logistic模型结构思想

Logistic模型:

ln[P/(1-P)]=β0+β1X1+β2X2…+βpXp多元线回归

Y^=β0+β1X1+β2X2+…+βpXp

等式右边不变。能不能左边直接用时间T代替Y或者P?医学数据挖掘预测型知识第37页设不存在原因X1、X2、Xp影响下,病人t时刻死亡风险率为h0(t),存在原因X1、X2、Xpt影响下,t时刻死亡风险率为h(t)。COX提出:用死亡风险率比h(t)/h0(t)代替P/(1-P)即得。h(t,x)=h0(t)exp(-0.7169X3b

-1.0077X3c+0.3585X4+0.1603X5+0.7019X8c+0.2703X9)医学数据挖掘预测型知识第38页Cox百分比风险回归模型当事件发生时间与多个影响原因相关时,可用Cox百分比风险回归分析影响原因对自变量影响情况。可用于研究各种原因对于生存期长短关系,进行单原因或多原因分析。以风险函数(hazardfunction)作为应变量,以各影响原因作为自变量,做自然指数回归方程。回归方程表示式为X1,X2,••••,Xm是协变量

1,2,••••••,m是回归系数,由样本预计而得。医学数据挖掘预测型知识第39页Cox百分比风险回归模型Cox回归分析是生存分析一个半参数分析方法h0(t)是未知因为Cox百分比风险模型不是直接利用时间t全部信息,而只是利用了时间t所提供次序统计量信息,故称之为半参数方法优点:多原因分析方法不考虑生存时间分布利用截尾数据医学数据挖掘预测型知识第40页风险函数(风险率)h(t,x)表示当各协变量值X固定时风险函数,它和h0(t)成百分比,所以该模型又称为百分比风险模型(proportionalhazardmodel)表示已生存到时间t观察对象,从生存时间t到t+Δt这一非常小区间内死亡概率极限,即生存时间已到达t一群观察对象在时刻t瞬时死亡率。用来预计死亡风险大小。医学数据挖掘预测型知识第41页表示全部协变量Xi均为0时危险率,普通是未知。基础风险率是未知数,但它和风险函数呈百分比。H0(t)与时间相关任意函数,其分布和形状无明确假定,是非参数部分。基础风险函数(率)医学数据挖掘预测型知识第42页

j表示自变量改变一个单位,引发死亡风险改变倍数自然对数值。

j是模型中参数部分,经过样本观察值预计,

j计算采取偏似然函数。回归系数意义参数部分医学数据挖掘预测型知识第43页

j>0,表示当Xj增大时,h(t)也增大,即病人死亡风险增大,越大使生存时间越短,说明该自变量是死亡危险原因。

j=0,表示Xj改变不会引发病人死亡风险改变。

j<0,表示当Xj增大,h(t)则减小,即病人死亡风险减小,越大使生存时间越长,说明该自变量是死亡保护原因。

j假设检验可用最大似然比检验、Wald检验和计分检验,并以此作为筛选变量依据。回归系数意义医学数据挖掘预测型知识第44页Cox回归模型检验对Cox模型检验采取似然比检验。假设为H0:全部βi为0,H1:最少有一个βi不为0。将Ho和H1条件下最大部分似然函数对数值分别记为和能够证实在H0成立条件下,统计量

χ2=-2[-]服从自由度为pχ2分布。医学数据挖掘预测型知识第45页Cox模型中回归系数检验

假设为H0:,其它参数β固定;H1:,其它参数β固定。H0成立时,统计量Z=bk/SE(bk)服从标准正态分布。SE(bk)是回归系数bk标准误。医学数据挖掘预测型知识第46页原因筛选和最正确模型建立经过单变量分析筛选有价值自变量。采取前进法、后退法和逐步回归法筛选进入模型自变量,建立最正确模型。医学数据挖掘预测型知识第47页相对危险度表示其它自变量不变情况下,某自变量从某个值改变为另一个值时,风险函数改变情况。这是一个与时间无关统计量。计算公式为:假定自变量Xj取值为0和1时,其相对危险度为医学数据挖掘预测型知识第48页

变量xj暴露珠平时风险率与非暴露珠平时风险率之比称为风险比HR(hazardratio)hr=eβi

hr风险比相对危险度RR风险比HR假如HR/RR靠近1,说明该自变量不会影响危险函数;假如大于1,则是危险原因;假如小于1,则是保护原因。医学数据挖掘预测型知识第49页COX回归应用1)原因分析分析哪些原因(协变量)对生存期长短有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它原因影响后,该原因与生存期长短有显著关系。(2)求各原因在排除其它原因影响后,对于死亡相对危险度(或比数比)如某原因Xi偏回归系数为bi,则该原因Xi对于死亡相对危险度为exp(bi)当Xi为二值变量时,如转移(1=转移,0=不转移),exp(bi)为转移相对于不转移对于死亡相对危险度(或比数比)医学数据挖掘预测型知识第50页当Xi为等级变量时,如淋巴结转移,分0,1,2,3,4五个等级。exp(bi)为每增加一个等级,死亡相对危险度,如等级3相对于等级0其死亡相对危险度为:exp(3bi)当Xi为连续变量时,如年纪(岁)exp(bi)为每增加一岁时,死亡相对危险度如60岁相对于35岁其死亡相对危险度为exp(25bi)医学数据挖掘预测型知识第51页3)比较各原因对于生存期长短相对主要性比较各标准化偏回归系数bi’绝对值大小,绝对值大对生存期长短作用也大。(4)考查原因之间交互作用如考查XL和XK之间交互作用是否显著,再增加一各指标:XLK=XL*XK,如其偏回归系数bLK显著,则XL和XK之间交互作用显著。医学数据挖掘预测型知识第52页Matlab实现cox回归Coxphfit%Coxproportionalhazardsregression[b,logL,H,stats]=coxphfit(x,y)logListheloglikelihoodHisatwo-columnmatrixcontainingyvaluesinthefirstcolumntheestimatedbaselinecumulativehazardinthesecondcolumn.statsisastructurethatcontainsthefields:beta—Coefficientestimates(sameasb)se—Standarderrorsofcoefficientestimatesbz—zstatisticsforb(bdividedbystandarderror)p—p-valuesforbcovb—Estimatedcovariancematrixforb医学数据挖掘预测型知识第53页Matlab实现cox回归data=importdata('临床数据.xls');医学数据挖掘预测型知识第54页Matlab实现cox回归data=importdata('临床数据.xls');%SampleID、亚型(数字表示)、age、sex、IDH1mutation、 Overallsurvival、Sensor%基于单变量cox回归分析识别风险原因result=[];fori=1:4%亚型、age、sex、IDH1mutation

result(i,1)=i;[b,logl,H,stats]=coxphfit(data.data(:,1+i),data.data(:,6),'censoring',data.data(:,7));result(i,2)=stats.beta;%回归系数result(i,3)=exp(stats.beta);%HRresult(i,4)=stats.p;%回归显著性

clearbloglHstatsseend

医学数据挖掘预测型知识第55页回归系数HRP值亚型-0.07970.92330.5932age0.01551.01560.1370sex0.41211.5100.0569IDH1mutation0.29761.34670.4196医学数据挖掘预测型知识第56页生存分析总流程1.筛选影响生存风险原因经过单变量分析筛选有价值自变量,然后经过多变量cox回归考虑原因独立性采取前进法、后退法和逐步回归法筛选进入模型自变量,建立最正确模型。2.生存率预计与生存曲线预计生存函数。比较各组生存函数。医学数据挖掘预测型知识第57页几个率概念死亡率、死亡概率、生存概率、生存率死亡率:表示在单位时间(年)内死亡发生频率(年平均死亡水平)。死亡概率(F):在某时间(t)开始存活个体,死于(t+△t)该时段内可能性。医学数据挖掘预测型知识第58页生存概率、生存率生存概率(pi=1-F)指某时间段开始存活个体到该时间段结束时仍存活概率。医学数据挖掘预测型知识第59页生存率(survivalrate)称为生存函数记为S(t)指观察对象从起始事件(如手术时间为0点)开始,到t时刻仍存活概率。惯用n年生存率表示。时间ti,i=1,2,3…n医学数据挖掘预测型知识第60页例:某病病人术后生存率

生存期初死亡生存死亡生存生存率时段人数人数人数概率概率[0,1]10010900.10.90.90[1,2]9010800.110.890.80[2,3]8020600.250.750.60

医学数据挖掘预测型知识第61页生存曲线2.生存曲线:(survivalcurve)指各时点(t)为横轴,生存率S(t)为纵轴,连接一起曲线图。描述生存率在各时点(t)改变过程。3.半数生存期(中位数生存时间)即生存率为0.5时对应时间(t),描述一组数据平均生存时间。注:生存时间(t)是正偏态分布。医学数据挖掘预测型知识第62页生存曲线以时间t为横坐标,S(t)为纵坐标所作曲线称为生存率曲线,它是一条下降曲线,下降坡度越陡,表示生存率越低或生存时间越短,其斜率表示死亡速率。医学数据挖掘预测型知识第63页生存率预计方法生存率S(t)预计方法有参数法和非参数法。参数法可求出一个方程表示生存函数S(t)和时间t关系,画出生存曲线是光滑下降曲线。惯用非参数法非参数法只能得到某几个时间点上生存函数,再用直线联起来,画出生存曲线是呈梯型。非参数法主要有二个,即,乘主动限法与寿命表法,前者主要用于观察例数较少而未分组生存资料,后者适合用于观察例数较多而分组资料,不一样分组寿命表法计算结果亦会不一样当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法计算结果与乘主动限法完全相同。医学数据挖掘预测型知识第64页乘主动限法(Product-LimitMethod)简称为积限法或PL法,它是由统计学家Kaplan和Meier于1958年首先提出,所以又称为Kaplan-Meier法,是利用条件概率及概率乘法原理计算生存率及其标准误。设S(t)表示t年生存率,s(ti/ti-1)表示活过ti-1年又活过ti年条件概率,比如s(1),s(2)分别表示一年,二年生存率,而s(2/1)表示活过一年者,再活一年条件概率,据概率乘法定律有:S(2)=S(1)S(2/1),普通地有S(ti)=S(ti-1)S(ti/ti-1)医学数据挖掘预测型知识第65页例22.1用某中药加化疗(中药组)和化疗(对照组)两种疗法治疗白血病后,随访统计各患者生存时间,不带"+"号者表示已死亡,即完全数据,带"+"号者表示尚存活,即截尾数据,试作生存分析。时间单位为月。中药组10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24对照组2+,13,7+,11+,6,1,11,3,17,7医学数据挖掘预测型知识第66页资料中药组积限法计算生存率─────────────────────────────────────时间状态期初人数死亡人数条件生存率累积生di∑di/ni(ni-di)累积生存tisinidi(ni-di)/ni存率^S(ti)ni(ni-di)率标准误①②③④⑤⑥⑦⑧⑨=⑥√⑧─────────────────────────────────────2活4死1510.93330.93330.0047620.0047620.06446活6活8活9死1110.90900.84850.0090910.0138530.09999活10死910.88890.75420.0138890.0277420.125612活13死710.85710.64650.0238100.0515510.146818死610.83330.53870.0333330.0848850.157019活24死410.75000.40400.0833330.1682180.165726死310.66670.26940.1666670.3348850.155931死210.50000.13470.5000000.8348850.123143活─────────────────────────────────────医学数据挖掘预测型知识第67页医学数据挖掘预测型知识第68页医学数据挖掘预测型知识第69页寿命表法(LifeTableMethod)适合用于随访病例数较多,将资料按生存期进行分组,在分组基础上计算生存率,本法也能用于不分组资料,此时计算结果与积限法相同。某医院1946年1月1日到1951年12月31日收治126例胃癌病例,生存情况如表22.2,试用寿命表法预计生存率。表22.2126例胃癌患者寿命表法预计生存率─────────────────────────────────────────────────────时间(年)期初例数死亡例数失访例数截尾例数有效例数条件生存率累积生存率di∑di/ni(ni-di)累积生存tin'idiuiwini^S(ti/ti-1)^S(ti)ni(ni-di)率标准误⑴⑵⑶⑷⑸⑹⑺⑻⑼⑽⑾=⑻√⑽─────────────────────────────────────────────────────0-12647415116.50.59660.59665.805×10-35.805×10-30.04551-60561151.50.90290.53862.088×10-37.893×10-30.04792-38201530.50.93440.50332.301×10-30.01020.05083-2122716.50.87880.44238.359×10-30.01860.06024-100067.01.00000.442300.01860.06025-40042.01.00000.442300.01860.0602─────────────────────────────────────────────────────医学数据挖掘预测型知识第70页

寿命表法预计生存率步骤以下:1.将观察例数按时间段(年)0-,1-,2-,划分,分别计数期初例数,死亡,失访,截尾例数列入表22.21-5列。实际上,从第二个时间段开始,期初人数ni系由下式算得:n'i=n'i-1-di-ui-wi比如第二行,即时间段1-,有n'2=126-47-4-15=602.计算各时间段期初实际观察例数,(亦称有效例数)nini=n'i-ui/2-wi/2上式表明该时间段期初例数中失访,及截尾例数只计其半时,即得有效例数。如第一行,n1=126-4/2-15/2=116.53.分别用(22.5)(22.6)(22.7)式计算条件生存率^S(ti/ti-1),累积生存率s(ti)及其标准误。计算结果已列于表22.2中,第7,8,11列,表中9,10二列系用于第11列计算。比如时间段0--中^S(ti/ti-1)=(116.5-47)/116.5=0.5966^S(ti)=1×0.5966=0.5966SE(S(ti))=0.5966×√5.805×10-3=0.0455故一年生存率预计为0.5966±0.0455一样二年生存率预计为0.5386±0.0479因为寿命表法与积限法累积生存率及其标准误计算公式完全相同,所以,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法就是积限法。医学数据挖掘预测型知识第71页性别做生存分析p=??医学数据挖掘预测型知识第72页第三节生存曲线统计检验当有两个或两个以上生存分布时,我们常需比较它们是否来自同一生存分布,常进行生存率曲线间比较。方法:时序检验(Log-Ranktest),可对两组或多组生存率曲线做比较.检验假设:H0:两总体生存率曲线相同H1:两总体生存率曲线不一样α=0.05,如P≤α,拒绝H0医学数据挖掘预测型知识第73页医学数据挖掘预测型知识第74页Logrank检验(LogRankTest)当比较几个样本生存分布,全部为完全数据时,本检验又称为Savage检验。Logrank检验计算步骤以下:1.将两样本生存数据混合,由小到大排列,并给以秩次i1,当截尾数据与完全数据数值相同时,截尾数据排列在后。并设两样本含量分别为m1,m2,总例数n=m1+m2。2.列出所比较两组中任一个组序号i2(本处选取中药组),记入表22.3中第3列。3.列出死亡例序号i3(见表22.3中第4列)。4.计算完全数据各时间点处于危险状态例数r,它表示该时刻时还剩下多少例数。r系由与i3对应i1值计算而得。

r=n-i1+1

医学数据挖掘预测型知识第75页5.对秩次i1作logrank变换,即计算logrank变换值W,其算法为秩次为i1序号为i3非截尾数据W值为秩次为i1截尾数据,首先判断它在那二个非截尾数据之间,假如它在序号i3与i3+1之间则W为尤其地,当截尾数据在第一个非截尾数据之前时,取W=0,几个截尾数据落在一样序号非截尾数据之间时,它们含有相同W值。医学数据挖掘预测型知识第76页6.计算所指定组别(本例为中药组,序号为i2)logrank变换值之和T上式连加系在指定i2范围内相加。其均数与方差分别为E(T)=m1/n∑WV(T)=m1m2/[n(n-1)]∑(W-E(T)/m1)2式中连加系在全部观察值上完成,m1系指所指定组别例数,(本例为中药组m1=16),n为总例数。

Z=[T-E(T)]/√V(T)Z服从标准正态分布,故可由Z0.05=1.96,Z0.01=2.58作出统计推断。本例资料有T=3.822,E(T)=0.4402×10-6,

V(T)=3.1755,Z=2.145,故P<0.05,拒绝H0,认为两种疗法生存分布不相同。医学数据挖掘预测型知识第77页Matlab实现%性别x1=find(data.data(:,4)==0);%低风险样本识别x2=find(data.data(:,4)==1);%高风险样本识别figuretrain_p=logrank(data.data(x1,6:7),data.data(x2,6:7))医学数据挖掘预测型知识第78页性别做生存分析p=0.0679医学数据挖掘预测型知识第79页Matlab实现%IDH突变x1=find(data.data(:,5)==0);%低风险样本识别x2=find(data.data(:,5)==1);%高风险样本识别figuretrain_p=logrank(data.data(x1,6:7),data.data(x2,6:7))%年纪M_age=median(data.data(:,3));x1=find(data.data(:,3)<=M_age);%低风险样本识别x2=find(data.data(:,3)>M_age);%高风险样本识别figuretrain_p=logrank(data.data(x1,6:7),data.data(x2,6:7))医学数据挖掘预测型知识第80页年纪做风险原因p=0.2152医学数据挖掘预测型知识第81页IDH突变生存分析p=0.4434医学数据挖掘预测型知识第82页挖掘预测型知识线性回归(LinearRegression)一元线性回归多元线性回归Cox回归(CoxRegression)logistic回归(logisticRegression)医学数据挖掘预测型知识第83页logistic回归模型应变量Y是一个二值变量,取值为假如发生为0,未发生为1,则模型中回归系数绝对值不变,但符号相反。自变量X1,X2,……,Xm。自变量全部或大部分为定量指标,若有少许定性或等级指标需作转换。P表示在m个自变量作用下阳性结果发生条件概率。1-P=P(y=0|x)为不发病概率医学数据挖掘预测型知识第84页数据结构医学数据挖掘预测型知识第85页概率型非线性回归模型S-形曲线,符合流行病学对危险原因与疾病风险关系认识医学数据挖掘预测型知识第86页logit变换事件发生概率与未发生概率之比自然对数,称为Plogit变换,记作logit(P)。概率P取值范围在0~1之间,而logit(P)取值是没有界限。医学数据挖掘预测型知识第87页

0(常数项):全部影响原因均为0时(记作X=0),个体发生事件概率与不发生事件概率之比自然对数值。

j

含义:某原因原因Xj改变一个单位时,个体发生事件概率与不发生事件概率之比自然对数改变值。优势(odds)是指某影响原因控制在某种水平时,事件发生率与事件不发生率比值,即P/(1-P)。某影响原因两个不一样水平优势比值称为优势比如某影响原因一个水平为c1,另一个水平为c0,则这两个水平优势比为:医学数据挖掘预测型知识第88页优势比(oddsratio,OR)结果吸烟不吸烟累计食管癌患者309(a)126(b)435非食管癌患者208(c)243(d)451累计517(a+c)369(b+d)886吸烟与食管癌关系病例对照调查结果医学数据挖掘预测型知识第89页医学数据挖掘预测型知识第90页医学数据挖掘预测型知识第91页优势比(oddsratio,OR)OR表示影响原因对事件发生影响方向和影响能力大小。普通地,OR>1表示该原因取值越大,事件发生概率越大,又称危险原因。OR<1表示该原因取值越大,事件发生概率越小,又称保护原因。OR=1表示该原因与事件发生无关。医学数据挖掘预测型知识第92页logistic回归模型参数预计通常采取最大似然预计(maximumlikeli-hoodestimate,MLE)预计回归系数,同时得到回归系数标准误Sb。医学数据挖掘预测型知识第93页logistic回归模型假设检验依据样本得到logistic回归模型还需经过检验才能说明影响原因对事件发生影响是否含有统计学意义。假设检验假设:H0:

1=

2=……=

m=0(将多个影响原因作为一个整体考虑)惯用检验方法:似然比检验、Wald检验医学数据挖掘预测型知识第94页依据病例详细情况,安排一些条件相同个体作为对照。能够是1:1对照,也能够1个病例选择多个对照,称为1:M对照(M≤3)。分析过程与非条件logistic回归相同。条件logistic回归与非条件logistic回归区分是没有常数项。医学数据挖掘预测型知识第95页logistic回归应用流行病学危险原因分析病例对照研究中探索疾病发病原因;临床试验数据分析当评价指标为分类数据,而且有其它影响评价指标影响原因(年纪、病情、病种等)存在时。预测和判别依据个体特征,判断个体发生某事件概率;判断个体属于类型。医学数据挖掘预测型知识第96页医学数据挖掘预测型知识第97页医学数据挖掘预测型知识第98页Matlab实现[b,dev,stats]=glmfit(x,y,'binomial','link','logit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论