




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 简单线性相关简单线性相关北京大学公共卫生学院北京大学公共卫生学院妇女与儿童青少年卫生学系妇女与儿童青少年卫生学系周虹周虹2一、散点图一、散点图 (双变量)散点图(双变量)散点图(scatter plot)是把两)是把两个变量的关系在直角坐标系中用一些散在的个变量的关系在直角坐标系中用一些散在的点表示出来,根据图中各点分布走向和密集点表示出来,根据图中各点分布走向和密集程度,大致可以判断变量之间的关系类型。程度,大致可以判断变量之间的关系类型。3例:为了研究父亲与成年儿子身高之间的关例:为了研究父亲与成年儿子身高之间的关系,卡尔系,卡尔.皮尔逊(英格兰皮尔逊(英格兰1857-1936)测)测
2、量了量了1078对父子的身高。用水平轴对父子的身高。用水平轴X上的上的数代表父亲身高,垂直轴数代表父亲身高,垂直轴Y上的数代表儿子上的数代表儿子的身高,的身高,1078个点所形成的图形是一个散个点所形成的图形是一个散点图。它的形状像一块橄榄状的云,中间点图。它的形状像一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是的点密集,边沿的点稀少,其主要部分是一个椭圆。一个椭圆。456二、相关系数二、相关系数 相关系数相关系数(correlation coefficient) :衡:衡量两个变量相关关系的密切程度和方向。量两个变量相关关系的密切程度和方向。n总体相关系数:总体相关系数:n样本相关
3、系数样本相关系数:r7n- r 1nr 时为正相关时为正相关nr t0.05,29,由于由于t越大,其所对应的越大,其所对应的P值越小,因此由值越小,因此由t所推断的所推断的P值小值小于于 (0.05),按),按 =0.05水准拒绝水准拒绝H0 ,接受,接受H1,认为临产认为临产妇妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。小时内尿中雌三醇浓度与产儿体重之间有正相关关系。31210614.142.17利用利用SPSS统计软件实现线性相关:统计软件实现线性相关:AnalyzeCorrelationBivariateBivariate correlation 在弹出的对话框中同时选中待分
4、析的在弹出的对话框中同时选中待分析的两个变量,在两个变量,在Correlation Coefficients项项目下选中目下选中“Pearson”即可。即可。181920CorrelationsCorrelations1.610*.0003131.610*1.0003131Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N尿雌三醇(mg/24h)产儿体重(kg)尿雌三醇(mg/24h)产儿体重(kg)Correlation is significant at the 0.01 level (2-taile
5、d).*. SPSS输出结果:21四、线性相关的应用四、线性相关的应用 在确实存在相关关系的前提下,如果在确实存在相关关系的前提下,如果r的绝对值的绝对值越大,说明两个变量之间的关联程度越强;如果越大,说明两个变量之间的关联程度越强;如果r绝对值越小,则说明两个变量之间的关系越弱。绝对值越小,则说明两个变量之间的关系越弱。 一般说来,当样本量较大(一般说来,当样本量较大(n100),并对),并对r进行假设检验,有统计学意义时,进行假设检验,有统计学意义时,r的绝对值大的绝对值大于于0.7,则表示两个变量高度相关;,则表示两个变量高度相关;r的绝对值大的绝对值大于于0.4,小于等于,小于等于0.
6、7时,则表示两个变量之间中时,则表示两个变量之间中度相关;度相关;r的绝对值小于等于的绝对值小于等于0.4时,则两个变量时,则两个变量低度相关。低度相关。22应用线性相关时要注意:应用线性相关时要注意:1.相关系数接近于零时并不意味着两变量一相关系数接近于零时并不意味着两变量一定不相关,也可能存在非线性相关。定不相关,也可能存在非线性相关。2.观察值中存在异常值时要慎重处理。观察值中存在异常值时要慎重处理。3.统计学上存在相关并不一定表示两个指标统计学上存在相关并不一定表示两个指标在专业上有内在联系。在专业上有内在联系。23偏相关分析偏相关分析概念概念:偏相关系数是用来衡量任何两个变偏相关系数
7、是用来衡量任何两个变量之间的关系,而使与这两个变量量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响控制了其它一个或多个变量的影响下,计算两个变量的相关性。下,计算两个变量的相关性。24例题:例题: 某地某地29名名13岁男童身高岁男童身高X1(cm)、)、体重体重X2(kg)和肺活量)和肺活量Y(ml)的数)的数据据(见数据见数据data1), 请用该资料计算体请用该资料计算体重与肺活量的偏相关系数。重与肺活量的偏相关系数。25SPSS操作步骤:操作步骤:Analyze-Correlation-Partial把分析变量选入
8、把分析变量选入 Variable 框框把控制变量选入把控制变量选入 Controlling for 框框ContinueOK26体重与肺活量的简单相关系数体重与肺活量的简单相关系数CorrelationsCorrelations1.751*.0002929.751*1.0002929Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N体重肺活量体重肺活量Correlation is significant at the 0.01 level(2-tailed).*. 27C Co or rr re el l
9、a at ti io on ns s1.000.569.002026.5691.000.002.260CorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)df体重肺活量Control Variables身高体重肺活量身高作为控制变量,肺活量与体重的偏相关系数身高作为控制变量,肺活量与体重的偏相关系数28线性回归线性回归29第一节第一节 简单直线回归简单直线回归30一、简单直线回归方程一、简单直线回归方程n简单直线回归简单直线回归(linear regression)是用来描述一是用来描述一个变量依赖于另一个
10、变量的线性关系。个变量依赖于另一个变量的线性关系。bXaY这里两变量的地位是不同的,其中这里两变量的地位是不同的,其中X为自为自变量,可随机变动亦可人为取值;而变量,可随机变动亦可人为取值;而Y被被视为依赖于视为依赖于X而变化的因变量。而变化的因变量。 31a称为截距称为截距(intercept),表示,表示X取值为取值为0时时Y的的平均水平。平均水平。b称为回归系数称为回归系数(regression coefficient)或直或直线的斜率线的斜率(slope),表示,表示X每变化一个单位时,每变化一个单位时,Y平均改变平均改变b个单位。个单位。nb0时,随时,随X的增大而增大;的增大而增大
11、;nb0时,随时,随X的增大而减小;的增大而减小;nb=0时,直线与时,直线与X轴平行,轴平行,Y与与X无直线关系无直线关系 32二、回归方程的计算n在数理统计中,用最小二乘法的原理可求在数理统计中,用最小二乘法的原理可求出出a a、b b的计算公式。求解的计算公式。求解a a和和b b实际上就是实际上就是怎样怎样”找到一条直线使所有数据点与它的找到一条直线使所有数据点与它的平均距离平均距离“最近最近”。 xxxyllXXYYXXb2)()(XbYa33表表. 待产妇尿雌三醇含量与产儿体重待产妇尿雌三醇含量与产儿体重编号编号(1)尿雌三醇尿雌三醇mg/24h(2)产儿体重产儿体重kg(3)编号
12、编号(1)尿雌三醇尿雌三醇mg/24h(2)产儿体重产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2资料来源:Rosnser B: Fundamentals of Biostatistics P.364, Duxbury
13、 Press, 1982 34()()XXYY53499 231. X X 2 9876 534 2 31 677 42 . =1750-=41.20061. 042.67720.41)()(2XXYYXXb35YYnXXn9 9 .23 13 25 3 43 11 7 .2 3.15. 223.17061. 02 . 3XbYaXbXaY061. 015. 236三、回归系数的假设检验n与直线相关一样,直线回归方程也是从样与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差本资料计算而得的,同样也存在抽样误差问题。所以,需要对样本的回归系数问题。所以,需要对样本的回归系数
14、b进行进行假设检验,以判断假设检验,以判断b是否从回归系数为零的是否从回归系数为零的总体中抽得。总体中抽得。n总体的回归系数一般用总体的回归系数一般用表示。表示。37回归系数的检验方法有两种:回归系数的检验方法有两种:(1) 方差分析方差分析2)t检验检验两种方法是等价的。两种方法是等价的。38)()(YYYYYY39因变量Y的变异的分解Y的分解:的分解:移项:移项:考虑全部样本:考虑全部样本:上式用符号表示:上式用符号表示:)()(YYYYYY)()(YYYYYY222)()()(YYYYYY残回总SSSSSSSS总总称为称为Y的总离均差平方和的总离均差平方和SS回回称为回归平方和称为回归平
15、方和SS残残称为残差平方和或剩余平方和称为残差平方和或剩余平方和40 不考虑回归时,不考虑回归时,Y的总变异的总变异SS总总全部视为随全部视为随机误差;而回归以后,回归的贡献使得随机机误差;而回归以后,回归的贡献使得随机误差减小为误差减小为SS剩剩。如果两变量间总体回归关。如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误系确实存在,回归的贡献就应当大于随机误差;大到何种程度时可以认为具有统计意义,差;大到何种程度时可以认为具有统计意义,可计算如下的可计算如下的F统计量:统计量:41自由度分别是:自由度分别是:回回1,残残n-2 MS回回与与MS残残分别称为回归均方和残差均方。分别称
16、为回归均方和残差均方。求得求得F值后查值后查F界值表得到界值表得到P值,最后按所取值,最后按所取 水水准作出总体回归关系是否成立的推断结论。准作出总体回归关系是否成立的推断结论。 残回残残回回MSMSSSSSF/42(2)t检验:nH0:=0nH1:0n =0.05统计量t的计算公式为:自由度自由度 =n-2bbstbxxblss 22)(2nSSnYYs残43例1:nH0:=0nH1:0n =0.05015. 0bs14. 4015. 0061. 0bt自由度自由度 =31-2=29,查,查t界值表,界值表,t0.05(29)=2.045, P0.05,按按 =0.05检验水准,拒绝检验水准
17、,拒绝H0,接受,接受 H1,认,认为待产妇为待产妇24小时尿中雌三醇含量与产儿体重之间存小时尿中雌三醇含量与产儿体重之间存在直线回归关系。在直线回归关系。44n对于一元线性回归来说,方差分析与对于一元线性回归来说,方差分析与t检验是完全等价的,且有关系式:检验是完全等价的,且有关系式:Ft 45利用SPSS实现直线回归:nSPSS操作步骤:操作步骤:Analyze - Regression - Linear dependent: 因变量因变量 independent: 自变量自变量 method: 可选择可选择 enter forward backward stepwise点击点击stati
18、stics: 出现若干统计选项可供选择出现若干统计选项可供选择ContinueOK46474849ANOVAANOVAb b2.50612.50617.162.000a4.23429.1466.74030RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 尿雌三醇(mg/24h)a. Dependent Variable: 产儿体重(kg)b. CoefficientsCoefficientsa a2.152.2628.214.000.061.015.6104.143.000(C
19、onstant)尿雌三醇(mg/24h)Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 产儿体重(kg)a. 50四、直线回归的应用1. 描述两变量之间的依存关系描述两变量之间的依存关系 通过回归系数的假设检验通过回归系数的假设检验,若认为两变量之若认为两变量之间存在直线回归关系间存在直线回归关系,则可用直线回归来则可用直线回归来描述。描述。2. 利用回归方程进行预测利用回归方程进行预测 把自变量代入回归方程,对应变量进行估把自变量代入回归方程,对应变
20、量进行估计,并可求出应变量的波动范围。计,并可求出应变量的波动范围。51五、应用直线相关与回归的注意事项五、应用直线相关与回归的注意事项52(一)注意事项1.考虑实际意义考虑实际意义 进行相关回归分析要有实际意义,不可把进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来做相关回毫无关系的两个事物或现象用来做相关回归分析。归分析。532. 相关关系相关关系 相关关系不一定是因果关系,也可能是伴相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。随关系,并不能证明事物间有内在联系。543. 利用散点图利用散点图 对于性质不明确的两组数据,可先做散点对于性质不明确的
21、两组数据,可先做散点图,在图上看它们有无关系、关系的密切图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行程度、是正相关还是负相关,然后再进行相关回归分析。相关回归分析。554. 变量范围变量范围 相关分析和回归方程仅适用于样本的原相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和回归关系。能得出两变量的相关关系和回归关系。56(二)相关与回归的区别1. 意义意义n相关反映两变量的相互关系,即在两个变相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的量中,任何一个的变化都
22、会引起另一个的变化,是一种双向变化的关系。变化,是一种双向变化的关系。n回归是反映两个变量的依存关系,一个变回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一量的改变会引起另一个变量的变化,是一种单向的关系。种单向的关系。572. 相关系数相关系数r与回归系数与回归系数bnr与与b的绝对值反映的意义不同。的绝对值反映的意义不同。nr的绝对值越大,散点图中的点越趋向于一的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关条直线,表明两变量的关系越密切,相关程度越高。程度越高。nb的绝对值越大,回归直线越陡,说明当的绝对值越大,回归直线越陡,说明当X变化一
23、个单位时,的平均变化就越大。反变化一个单位时,的平均变化就越大。反之也是一样。之也是一样。58(三)相关与回归的联系1. 关系关系n 能进行回归分析的变量之间存在相关关能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量)系。所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,于确有相关关系的变量再进行回归分析,求出回归方程。求出回归方程。592. 相关系数相关系数r与回归系数与回归系数bnr与与b的符号一致。的符号一致。r为正时,为正时,b也为正,表也为正,表示两变量是正相关,是同向变化。
24、示两变量是正相关,是同向变化。r为负时,为负时,b也为负,表示两变量是负相关,是反向变也为负,表示两变量是负相关,是反向变化。化。60第二节 多重(多元)线性回归 在医学研究中,影响某个结局指标的因在医学研究中,影响某个结局指标的因素常常有很多个,特别对于慢性非传染性素常常有很多个,特别对于慢性非传染性疾病更是如此,例如心血管疾病、肿瘤等。疾病更是如此,例如心血管疾病、肿瘤等。 多重线性回归分析可以用来发现影响某多重线性回归分析可以用来发现影响某个结局变量的多个因素,并有可能建立有个结局变量的多个因素,并有可能建立有效的预测模型。效的预测模型。61一、多重线性回归模型 多重线性回归模型可视为简
25、单直线模型多重线性回归模型可视为简单直线模型的直接推广。简单的说,只有一个自变量的直接推广。简单的说,只有一个自变量的线性模型为简单直线回归模型,具有两的线性模型为简单直线回归模型,具有两个以上自变量的线性模型即为多重线性回个以上自变量的线性模型即为多重线性回归模型。归模型。 这里提及的回归模型中,都只有一个因这里提及的回归模型中,都只有一个因变量。变量。62总体回归模型:总体回归模型: 0 0为常数项,为常数项,1 1 , , , ,m m 称为称为总体偏回归系数。总体偏回归系数。mmXXY11063样本回归模型:样本回归模型:mmxbxbxbby.22110偏回归系数偏回归系数: b0为常
26、数项,为常数项,b1,b2,bm为样本偏回归系数。为样本偏回归系数。 偏回归系数表示在其它所有自变量固定不变的情况偏回归系数表示在其它所有自变量固定不变的情况下,某一个自变量变化一个单位时引起因变量下,某一个自变量变化一个单位时引起因变量y变化的变化的平均大小。平均大小。 残差残差e:y 的变化中不能为自变量所解释的部分。的变化中不能为自变量所解释的部分。eyy 641.L:线性:线性自变量自变量x与应变量与应变量y之间存在线性之间存在线性关系;关系;2.I:独立性:独立性Y值相互独立,在模型中则要值相互独立,在模型中则要求残差相互独立,不存在自相关;求残差相互独立,不存在自相关; 3.N:正
27、态性:正态性随机误差(即残差)随机误差(即残差)e服从均服从均值为零,方差为值为零,方差为 的正态分布;的正态分布;4. E:等方差:等方差 对于所有的自变量对于所有的自变量x,残差,残差e的方差齐。的方差齐。65数据类型要求: 因变量必须是数值型变量(连续变量)。因变量必须是数值型变量(连续变量)。 自变量既可以是数值型变量,也可以是分自变量既可以是数值型变量,也可以是分类型变量。但如果是多分类变量,则不能直类型变量。但如果是多分类变量,则不能直接进入回归方程,而要先进行哑变量设置接进入回归方程,而要先进行哑变量设置(略)。(略)。66例例2. 某研究者测量了某研究者测量了29名儿童血液中血
28、红蛋名儿童血液中血红蛋白(白(g)、钙)、钙(g)、镁、镁(g) 、铁、铁(g) 、锰、锰(g) 、铜、铜(g)的含量。试以血红蛋白为因的含量。试以血红蛋白为因变量,其它的为自变量,建立回归模型。变量,其它的为自变量,建立回归模型。6768 做回归分析的第一步通常是做散点图,做回归分析的第一步通常是做散点图,以发现因变量与自变量之间是否大致存在以发现因变量与自变量之间是否大致存在直线关系。如有明显的曲线关系,则不能直线关系。如有明显的曲线关系,则不能直接做线性回归模型。直接做线性回归模型。 另外,散点图还有助于发现异常点。另外,散点图还有助于发现异常点。697071采用最小二乘法(采用最小二乘
29、法(LSLS)估计回归系数)估计回归系数b b即要求残差平方和:即要求残差平方和:达到最小值。达到最小值。 求解过程需要进行矩阵运算,并要借助计算机完成。求解过程需要进行矩阵运算,并要借助计算机完成。二、回归系数的估计212211012)()(niimmiiiniiixbxbxbbyyyQ7273CoefficientsCoefficientsa a.3661.367.268.791-.048.024-.209-1.962.062.001.049.003.023.982.033.004.9518.079.000-.6421.132-.049-.568.576.507.754.073.672.5
30、08(Constant)钙镁铁锰铜Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血红蛋白a. ANOVAANOVAb b113.259522.65226.306.000a19.80523.861133.06428RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 铜, 锰, 铁, 钙, 镁a. Dependent Variable: 血
31、红蛋白b. SPSS回归分析输出结果741.对整个方程的检验:对整个方程的检验:H0: 1 2 m 0残回残残回回MSMSSSSSF/bbstb三、方程的显著性检验:三、方程的显著性检验:75对整个方程的检验:对整个方程的检验: H0: 回归系数全为零回归系数全为零 1=2=m=0 H1: 回归系数不全为零回归系数不全为零 0.05FMSreg/MSE26.306自由度自由度 dfreg5, dfe23, Pt20.023 df2=23 p=0.982t38.079 df3=23 p0.001t50.672 df5=23 p=0.508只有铁的偏回归系数有意义。只有铁的偏回归系数有意义。77四
32、、筛选有影响的自变量四、筛选有影响的自变量选择标准:对各自变量的偏回归平方和进行选择标准:对各自变量的偏回归平方和进行检验,检验,F值大于预先设定的值大于预先设定的F,则将此变,则将此变量选入或保留在方程内。量选入或保留在方程内。偏回归平方和:将某个变量引入方程后所引偏回归平方和:将某个变量引入方程后所引起的回归平方和增加的部分;或者,将某起的回归平方和增加的部分;或者,将某个变量剔除方程后所引起的回归平方和减个变量剔除方程后所引起的回归平方和减少的部分。少的部分。例如:将本例中钙剔除后,回归平方和从例如:将本例中钙剔除后,回归平方和从113.26 变为变为109.94,则钙的偏回归平方,则钙
33、的偏回归平方和为和为113.26-109.943.3278自变量的选择方法自变量的选择方法1. 强行进入法(强行进入法(Enter):为默认选择项,定):为默认选择项,定义的全部自变量均引入方程。义的全部自变量均引入方程。2. 后退法(后退法(Backward):先建立一个包含全):先建立一个包含全部自变量的回归方程,然后每次剔除一个部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。量,直到不能剔除为止。793. 前进法(前进法(Forward):回归方程由一个自变量):回归方程由一个自变量开始,每次引入一个偏回归
34、平方和最大,且具开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统有统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。计学意义的自变量被引入为止。4. 逐步法(逐步法(Stepwise):它是前进法和后退法的):它是前进法和后退法的结合。结合。5. 消去法(消去法(Remove):建立回归方程时,根据):建立回归方程时,根据设定的条件剔除部分自变量。设定的条件剔除部分自变量。80选用后退法选用后退法81CoefficientsCoefficientsa a.3661.367.268.791-.048.024-.209-1.962.062.001.0
35、49.003.023.982.033.004.9518.079.000-.6421.132-.049-.568.576.507.754.073.672.508.3651.338.273.787-.048.023-.208-2.075.049.033.003.95311.235.000-.6501.056-.050-.616.544.513.697.074.736.469.3921.321.297.769-.046.023-.203-2.053.051.033.003.94111.540.000.534.687.077.777.445.2911.304.223.825-.036.018-.159
36、-1.979.058.033.003.94911.846.000(Constant)钙镁铁锰铜(Constant)钙铁锰铜(Constant)钙铁铜(Constant)钙铁Model1234BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血红蛋白a. 钙保留下来的钙保留下来的原因:后退法原因:后退法的默认剔除标的默认剔除标准是准是0.182最终回归模型:最终回归模型: 以血红蛋白含量作为因变量以血红蛋白含量作为因变量y,钙、镁、铁、,钙、镁、铁、锰、铜的含量作为自
37、变量进行多重线性回归分析,锰、铜的含量作为自变量进行多重线性回归分析,变量筛选方法为后退法(变量筛选方法为后退法(backward),剔除标),剔除标准为准为p0.1()。最后结果只有钙和铁保留在方程。最后结果只有钙和铁保留在方程中。中。31033. 0036. 0291. 0 xxY其中其中x1代表钙,代表钙,x3代表铁代表铁(方程和偏回归系数的检验略)(方程和偏回归系数的检验略)83两个自变量与因变量的拟合面示意图84注意:自变量的选择不是一个单独的数学问注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而题,可以放心地交给计算机自动完成,而必须结合专业知识,综合考察
38、。必须结合专业知识,综合考察。1.对因变量确实有影响的,应当选入。对因变量确实有影响的,应当选入。2.不同筛选方法结果不一致时要谨慎,重点不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。考虑共线性的问题。3.所做出的模型不能视为所做出的模型不能视为“最佳最佳”模型,而模型,而应视为应视为“局部最优局部最优”模型,因为所纳入分模型,因为所纳入分析的自变量中常常不能包括全部的影响因析的自变量中常常不能包括全部的影响因素,甚至是很重要的因素。素,甚至是很重要的因素。85iyiissbb 86CoefficientsCoefficientsa a.2911.304.223.825-.036.01
39、8-.159-1.979.058.033.003.94911.846.000(Constant)钙铁Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血红蛋白a. 从本例来看,钙和铁的偏回归系数的从本例来看,钙和铁的偏回归系数的绝对值差不多,但铁的标准化偏回归系数绝对值差不多,但铁的标准化偏回归系数确要大得多,表示铁对血红蛋白的作用比确要大得多,表示铁对血红蛋白的作用比钙要大。钙要大。87六、回归模型的优良性评价(拟和六、回归模型的优良性评价(拟和效果)
40、效果)1.决定系数决定系数R2:残回总SSSSSS总回SSSSR 20R21 决定系数反映决定系数反映Y的全部变异中能够被回的全部变异中能够被回归方程中的全部自变量所解释的比例。归方程中的全部自变量所解释的比例。R21, 越接近于越接近于1,说明模型拟和得越好。,说明模型拟和得越好。882.复相关系数复相关系数R:2RR 0R1 复相关系数描述了因变量复相关系数描述了因变量y与方程中与方程中m个自变量的总体相关系数。个自变量的总体相关系数。R越接近于越接近于1,说,说明因变量与自变量的关系越密切,模型拟和明因变量与自变量的关系越密切,模型拟和得越好。得越好。893.校正决定系数校正决定系数R2
41、adj: R和和R2有一个缺陷,随着自变量有一个缺陷,随着自变量个数的增加,个数的增加,R2总是增加,造成变量总是增加,造成变量数目越多,则拟和效果越优良的错觉。数目越多,则拟和效果越优良的错觉。为解决这一问题,可采用校正决定系为解决这一问题,可采用校正决定系数。数。903.校正决定系数校正决定系数R2adj:总残总回SS12SSSSSSR MS代表均方,用离均差平方和代表均方,用离均差平方和SS除以自由度得到除以自由度得到(详见方差分析):(详见方差分析): MS残残SS残残/(n-m-1) MS总总SS总总/(n-1) 校正决定系数消除了自变量的个数以及样本量的大校正决定系数消除了自变量的
42、个数以及样本量的大小对决定系数的影响。小对决定系数的影响。总残MS12MSRadj91845. 0064.133604.201SS12总残SSR833. 0) 129/(064.133) 1229/(604.201MS12总残MSRadj919. 0845. 02RR92Model SummaryModel Summarye e.923a.851.819.92796.923b.851.826.90843.921c.849.831.89708.919d.845.833.890211.512Model1234RR SquareAdjustedR SquareStd. Error ofthe Est
43、imateDurbin-WatsonPredictors: (Constant), 铜, 锰, 铁, 钙, 镁a. Predictors: (Constant), 铜, 锰, 铁, 钙b. Predictors: (Constant), 铜, 铁, 钙c. Predictors: (Constant), 铁, 钙d. Dependent Variable: 血红蛋白e. 本例显示,自变量个数最多的模型本例显示,自变量个数最多的模型1的的复相关系数和决定系数最大,而最后一个模复相关系数和决定系数最大,而最后一个模型(最优模型)的校正决定系数最大。型(最优模型)的校正决定系数最大。93七、残差分析
44、七、残差分析 残差分析常用于检验回归模型是否符合残差分析常用于检验回归模型是否符合适用条件(如独立性、正态性、方差齐适用条件(如独立性、正态性、方差齐性),发现异常点(强影响点)。性),发现异常点(强影响点)。 一般所说的残差(一般所说的残差(residual)是指拟和)是指拟和残差,指因变量的实测值与回归方程预测残差,指因变量的实测值与回归方程预测值之差:值之差:yye94 由于残差有单位,不适合相互比较,可由于残差有单位,不适合相互比较,可用标准化残差(用标准化残差(Standardized residual)和学生氏残差(和学生氏残差(Studentized residual)。)。这两
45、个残差都经过了标准化变换,去除了这两个残差都经过了标准化变换,去除了单位。单位。951.独立性检查 独立性是指不同观察对象之间的独立性是指不同观察对象之间的y值相互值相互独立,没有联系。在模型中,则是要求残差独立,没有联系。在模型中,则是要求残差间相互独立,不存在自相关。间相互独立,不存在自相关。 分析方法:分析方法:Durbin-Watson(D)残差序)残差序列相关性检验。列相关性检验。0D4D2时,残差与自变量相互独立时,残差与自变量相互独立符合独立性的推荐取值范围:符合独立性的推荐取值范围:1D39697Model SummaryModel Summarye e.923a.851.81
46、9.92796.923b.851.826.90843.921c.849.831.89708.919d.845.833.890211.512Model1234RR SquareAdjustedR SquareStd. Error ofthe EstimateDurbin-WatsonPredictors: (Constant), 铜, 锰, 铁, 钙, 镁a. Predictors: (Constant), 铜, 锰, 铁, 钙b. Predictors: (Constant), 铜, 铁, 钙c. Predictors: (Constant), 铁, 钙d. Dependent Variabl
47、e: 血红蛋白e. 982. 正态性检查 残差的正态性是回归模型的假设条件,残差的正态性是回归模型的假设条件,在样本量比较大时可以适当放宽。在样本量比较大时可以适当放宽。 检查方法:标准化或学生氏残差的直方检查方法:标准化或学生氏残差的直方图和残差的累积概率图(图和残差的累积概率图(P-P图)。图)。991001011023. 残差的等方差性 回归模型中的等方差性,比正态性要重要。回归模型中的等方差性,比正态性要重要。绘制残差图检查等方差性:绘制残差图检查等方差性: 以以y的预测值为横坐标,学生氏的预测值为横坐标,学生氏/标准化标准化残差为纵坐标做散点图,如果残差在零水残差为纵坐标做散点图,如果残差在零水平上下均匀分布,没有某种趋势存在,可平上下均匀分布,没有某种趋势存在,可认为残差方差齐。认为残差方差齐。103 1 2 3 4 y残差210-102残差210-102 1 2 3 4 y残差210-102 1 2 3 4 y方差齐方差齐方差不齐方差不齐自变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 清洗地面合同范本
- 烟叶生产用工合同范本
- bimco 光租合同范本
- 别墅如何洽谈合同范本
- 庆典布展合同范本
- 自驾活动合同范本
- 多式联运合同(6篇)
- 音乐初步知识点
- 淘宝后台操作流程
- 山东建筑大学《书法创作》2023-2024学年第二学期期末试卷
- 中国神话故事绘本火神祝融
- 五星级酒店前厅管理常用表格
- 《养老护理员》-课件:老年人安全防范及相关知识
- 茶楼棋牌经营管理方案
- 水准测量记录数据自动生成表
- 2024年宜都市高新技术产业投资有限公司招聘笔试参考题库含答案解析
- 2024年英语专业四级考试真题及详细答案
- 初中数学八年级下册 一次函数的概念 全市获奖
- 肺占位性病变查房
- 水平三(五年级)体育《障碍跑-红军长征路》教学设计及教案
- 弹性计算:无处不在的算力
评论
0/150
提交评论