第二单元统计学高级篇_第1页
第二单元统计学高级篇_第2页
第二单元统计学高级篇_第3页
第二单元统计学高级篇_第4页
第二单元统计学高级篇_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二单元统计学高级篇第1页,课件共73页,创作于2023年2月第一节多重线性回归分析的概念

一、多重线性回归的概念

多重线性回归是研究多个自变量(x1\x2..)与一个因变量(y)之间线性依存关系的方法。其中自变量可以是随机变量,也可以是给定变量,而因变量是随机变量。多元线性回归是研究多个自变量与多个因变量线性依存关系的方法。若所有变量都是随机的,还可以做多重相关分析,描述因变量与一组自变量之间的线性关系;用偏相关描述因变量与一个自变量之间,在扣除其他自变量影响之后的线性关系。第2页,课件共73页,创作于2023年2月二、多重线性回归模型与方程多重线性回归模型用于研究一个被解释变量(因变量)与多个解释变量(自变量)的线性关系分析。多重线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量y与多个解释变量x1,x2···xk之间存在线性关系。假定被解释变量y与多个解释变量x1,x2···xm之间具有线性关系,建立多重线性回归模型为:其中y为被解释变量,xi为k个解释变量,βi为偏回归系数,表示在其他自变量固定的条件下,自变量Xi改变一个单位时,因变量Y的平均改变量。ε为随机误差项。第3页,课件共73页,创作于2023年2月三、回归模型的前提条件多重线性回归方程:描述被解释变量y的期望值或平均值如何依赖于解释变量x的方程为:回归模型的前提条件:1)线性:是指反应变量Y的总体平均值与自变量X呈线性关系;2)独立性:自变量间相互独立,自变量之间没有精确的线性关系(不相关);3)正态性:是指对于给定的X值,其对应的Y值的总体和线性模型的误差项ε均服从正态分布;(ε服从均数为0的正态分布)4)等方差性:无论X如何取值,Y都有相同的方差;误差项的方差相等。第4页,课件共73页,创作于2023年2月第二节多重线性回归分析步骤一、参数估计:根据样本数据,求得模型参数的估计值,即求出模型β的估计值b0、bm后,建立回归方程。多重回归采用最小二乘法估计其参数,即求出与实际观察值Y之差的平方和(残差平方和)为最小的b0、b1、b2、bm值。多重回归的参数估计和假设检验,常采用统计软件完成。求出参数的估计值后,可建立方程。

例8-1下表是27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值,试建立血糖与其它几项指标关系的多重线性回归方程。

第5页,课件共73页,创作于2023年2月27名糖尿病人血糖与其它变量的测量值第6页,课件共73页,创作于2023年2月27名糖尿病人血糖与其它变量的测量值第7页,课件共73页,创作于2023年2月二、建立方程经统计软件处理后,得各参数如下:得回归方程为:第8页,课件共73页,创作于2023年2月三、多重回归分析的假设检验及评价

(一)回归方程(模型)的假设检验:检验模型是否成立,或方程是否有意义。

第9页,课件共73页,创作于2023年2月方差分析法多重线性回归方差分析表以上结果显示:接受H1,回归方程成立。(相关公式)第10页,课件共73页,创作于2023年2月(二)有关评价指标1.残差标准差(剩余标准差)SY,1,2,…M:为扣除m个自变量影响外,因变量仍存在的变异,不能用自变量的变化解释Y的变异。反映回归方程精度,值越小说明回归效果越好。第11页,课件共73页,创作于2023年2月2.决定系数R2:R2:说明所有自变量能解释Y变化的百分比。取值范围(0,1),越接近1,模型拟合效果越好。R2反映在Y的总变异中,自变量组合解释部分,占总变异的比重,即线性回归模型能在多大程度上解释应变量Y的变异性。自变量对应变量贡献越大,回归效果越好。第12页,课件共73页,创作于2023年2月SY,1,2,…M与R2第13页,课件共73页,创作于2023年2月3.校正决定系数RC2(Radj2)=0.5282第14页,课件共73页,创作于2023年2月R2与RC2关系:R2表示总变差中已由多元回归方程“解释”的比例,R2可解释模型的拟合优度,残差平方和越小,决定系数越接近1,回归方程的拟合程度越好。RC2当给模型增加自变量时,决定系数也随之逐步增大,然而决定系数的增大代价是自由度的减少。自由度小意味着估计和预测的可靠性低。为了克服样本决定系数的这一缺点,我们设法把R2给予适当的修正,这就是校正决定系数。R2或RC2只能说明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭它们来选择模型。第15页,课件共73页,创作于2023年2月4.复相关系数R

R说明所有自变量与Y间的线性相关程度,而不反应相关的方向。取值范围(0,1),R越接近1,说明所有自变量与应变量Y间的关系越密切。如果只有一个自变量,此时的R=∣r∣。(r为pearson相关系数)第16页,课件共73页,创作于2023年2月(三)偏回归系数的假设检验及评价

偏回归系数的假设检验(即各自变量贡献大小的检验),有三种方法。1.t检验法:第17页,课件共73页,创作于2023年2月t检验显示:

胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。第18页,课件共73页,创作于2023年2月t检验显示:

胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。机读显示相同结果。第19页,课件共73页,创作于2023年2月2.方差分析法(求x的偏回归平方和)第20页,课件共73页,创作于2023年2月机读显示相同结果F检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。第21页,课件共73页,创作于2023年2月3.标准化偏回归系数法标准化偏回归系数概念:第22页,课件共73页,创作于2023年2月偏回归系数与标准化偏回归系数关系第23页,课件共73页,创作于2023年2月第24页,课件共73页,创作于2023年2月由这些新的观察值进行回归分析得到的偏回归系数称为标准偏回归系数,各自变量标准偏回归系数可以进行排队,如本例4个自变量的标准偏回归系数依次为0.0776,0.3093,-0.3395,0.3977可以说对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)、和总胆固醇(X1)。第25页,课件共73页,创作于2023年2月机得数据变量回归系数bj标准化回归系数b’jljj标准差SX10.142450.0775866.01031.5934X20.351470.30931172.36482.5748X3-0.27059-0.33948350.31063.6706X40.63820.3977486.44071.8234Y222.55192.9257第26页,课件共73页,创作于2023年2月第三节自变量的选择(筛选)多重线性回归分析中,常常通过专业知识或实践经验,去挑选那些对因变量影响较大的自变量与因变量Y建立回归方程。如从为数众多因素中,选择的自变量对反应变量无影响或影响甚微,把它们引入方程后,不但计算量大,信息成本高,而且会使回归系数的估计和预测的精度降低。选择对因变量影响较大的自变量引入方程,将对反应变量无影响或影响甚微的自变量排除方程,这种统计方法称为自变量选择(筛选),统计中常用方法之一是逐步选择法。第27页,课件共73页,创作于2023年2月一、最优回归方程及选择方法第28页,课件共73页,创作于2023年2月二、全局择优法(最优子集回归法)第29页,课件共73页,创作于2023年2月1.校正决定系数RC2(Radj2)选择法所谓最优回归方程是指RC2

最大的方程。第30页,课件共73页,创作于2023年2月2.CP选择法第31页,课件共73页,创作于2023年2月第32页,课件共73页,创作于2023年2月3.AIC准则的计算公式

求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型。第33页,课件共73页,创作于2023年2月SAS获得的几个准则值结果

ADJRSQCPAIC

ADJRSQCPAICx2x3x40.54563440.343x2x30.40748346.66x1x2x3x40.52823542.157x1x30.37522348.091x1x3x40.48797443.568x40.34653248.405x1x2x40.44683445.655x10.28443250.857x1x40.44137345.07x1x20.27478352.116x2x40.4395345.16x30.23063252.814x3x40.43542345.356x20.17864254.579x1x2x30.40756447.507

第34页,课件共73页,创作于2023年2月4.全局择优法(最优子集回归法)局限性第35页,课件共73页,创作于2023年2月三、逐步选择法第36页,课件共73页,创作于2023年2月(一)前进法第37页,课件共73页,创作于2023年2月方法第38页,课件共73页,创作于2023年2月(二)后退法第39页,课件共73页,创作于2023年2月方法第40页,课件共73页,创作于2023年2月(三)逐步回归法

双向筛选:引入有意义的变量(前进法),剔除无意义的变量(后退法)。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。第41页,课件共73页,创作于2023年2月方法第42页,课件共73页,创作于2023年2月第四节逐步回归分析一、逐步回归分析基本思想第43页,课件共73页,创作于2023年2月二、逐步回归实例分析(令α入=α出=0.01)第44页,课件共73页,创作于2023年2月逐步回归法实例(第一步)模型SS回SS残SS总Y与X482.7144139.8375222.5519Y与X169.4251153.1267222.5519Y与X246.7873175.7645222.5519Y与X357.9133164.6386222.5519第45页,课件共73页,创作于2023年2月逐步回归法实例(第二步)模型SS回SS偏回SS残F值P值Y与X482.7144Y与X4X1107.790325.0759

114.76155.24410.0311Y与X4X2107.407424.6931115.14445.14690.0326Y与X4X3106.568323.8539115.98364.93600.0360第46页,课件共73页,创作于2023年2月逐步回归法实例(X1剔除否)模型SS回SS偏回SS残F值P值Y与X169.425138.3652

Y与X482.714425.0759Y与X4X1107.7903

114.76155.24410.0311第47页,课件共73页,创作于2023年2月逐步回归法实例(第三步)模型SS回SS偏回SS残F值P值Y与X4X1107.7903

Y与X4X1X2113.64725.8569Y与X4X1X3121.748013.9577

100.80383.18470.0875第48页,课件共73页,创作于2023年2月逐步回归法实例(X4/X1/X3剔除否)变量模型SS回SS偏回SS残F值P值Y与X4X1X3121.7480100.804X1Y与X4X3106.568315.1797X3Y与X4X1107.790313.9577

3.18470.0870X4Y与X1X394.202627.5454

第49页,课件共73页,创作于2023年2月逐步回归法实例(第四步)模型SS回SS偏回SS残F值P值Y与X4X1X3X2133.710711.962788.84122.96240.099Y与X4X1X3121.7480

第50页,课件共73页,创作于2023年2月逐步回归法实例(是否剔除)变量模型SS回SS偏回SS残F值P值Y与X4X1X3X2133.710788.8412X2Y与X4X1X3121.748011.9627X1Y与X4X3X2133.09780.6129

0.15180.7006X3Y与X4X1X2113.647220.0635X4Y与X1X3X2105.916727.7940

第51页,课件共73页,创作于2023年2月逐步回归法实例(是否剔除)变量模型SS回SS偏回SS残F值P值Y与X4X3X2133.097889.4540X4Y与X3X2100.829232.2686X3Y与X4X2107.407425.69046.60540.0171X2Y与X4X3106.568326.5295

第52页,课件共73页,创作于2023年2月方差分析结果变异来源自由度SSMSFP总变异26222.5519回归3133.09844.36611.410.0001残差2389.4543.889第53页,课件共73页,创作于2023年2月回归系数及其检验第54页,课件共73页,创作于2023年2月机得数据比较分析第55页,课件共73页,创作于2023年2月第五节多重线性回归应用与注意事项

一、多重线性回归应用:影响因素分析,控制混杂因素。第56页,课件共73页,创作于2023年2月预测:由自变量值推出应变量Y的值第57页,课件共73页,创作于2023年2月控制:指定应变量Y的值查看自变量的改变量第58页,课件共73页,创作于2023年2月二、应用的注意事项1.变量的数量化(1)自变量为连续型变量:必要时作变换。(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1。(3)自变量为二分类:如令男=1,女=0。(4)自变量为名义分类:需要采用哑变量进行编码。第59页,课件共73页,创作于2023年2月2.样本含量观察个体数n与变量个数m的比例一般至少应为:n:m=1:5~10。3.统计“最优”与专业的“最优”。不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响。第60页,课件共73页,创作于2023年2月4.多重共线性共线性:自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性。问题:出现回归系数的符号与由专业知识不符;变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论