多元线性回归_第1页
多元线性回归_第2页
多元线性回归_第3页
多元线性回归_第4页
多元线性回归_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析郭静绪论近三十年来在数理统计学基础上发展起来的一个新的数学分支。它属于应用数学范畴。它的发展分为以下几个阶段:

第一阶段:早在三十年代英国著名的统计学家R.A.Fisher做了许多杰出的贡献,我国著名的数学家许宝录先生也取得了许多成果,起到了奠基的作用。

第二阶段:T.W.Anderson所写的“IntroductiontoMultivariateStatisticalAnalysis”是一部很成功的著作,被誉为经典著作。第三阶段:50年代后,多元统计有了很大的发展,世界各国先后出版了一批不同风格的比较有水平的著作,发表了大量文章,进一步促进了这一学科的发展。

第四阶段:由于多元统计的计算量非常庞大,有些计算要几个月,甚至几年才能完成,这一时期计算工具的落后束缚了多元统计的发展。

第五阶段:随着计算机技术的飞速发展,计算机比较广泛地使用,多元统计的许多庞大计算得以实现,所以,80年代未到90年代初又有了大的发展。

目前,多元统计分析方法已经广泛应用于自然科学和社会科学的许多领域。我国近年来,在工业、农业、经济、地质、医学、气象以及社会科学等许多方面,多元统计分析的理论和方法都得到了应用,并取得了可喜的成果。

多元统计分析在农业科学和生物科学中,用于:

数值分类(动、植物,微生物分类等)

数学模型

预测预报

种类判别

数量遗传

数量生态等方面

多元统计是医学研究的一个强有力的工具。绪论引入多元分析的原因医学、生物学中,许多现象的发生、发展和变化是多种因素在一定条件下相互影响、制约而产生的共同结果。主要内容是研究多个因素(变量)间关系及具有这些因素的样品(个体)之间的关系。主要任务直接减少因素(变量)个数从原有的因素中选出一些典型的、有代表性的、能说明问题的因素,舍弃不典型的、无代表性的因素。通过变量变换减少参数个数把彼此相关的原变量转换成彼此独立的新变量,从而减少许多相关系数的参数绪论主要分析方法多元线形回归Logistic回归判别分析聚类分析生存分析主成分分析*因子分析*绪论几个重要问题总体分布?样本含量问题?样本含量n与研究因素m之间的比例关系因素/变量类型?定量因素定性因素等级因素绪论指标的数量化注意必须思路清晰,知道自己要干什么;在作多元分析前,必须先作描述性分析。只有在充分了解资料性质的基础上,才有可能正确选择方法,得出有价值的结论;当多得结果不符逻辑,或有悖于专业知识时,既不要轻易接受,亦不要轻易放弃,必须弄清楚为什么。多元线性回归内容介绍多元线性回归的概念多元线性回归方程的求解过程自变量选择多元线性回归的应用多元线性回归注意事项一、多元线性回归的概念1.直线回归

直线回归:研究一个应变量与单个自变量之间呈直线关系的一种统计方法。如在一定年龄阶段,体重与身高之间可表达为: (体重)=a+bx(身高) a:截距 b:斜率2.多元线形回归定义:研究一个因变量与多个自变量之间的线性关系。如儿童的心象面积与身高、体重、月龄等有关系。1.方程形式:

=b0+b1x1+b2x2+…+bpxp+e b0:截距 bi:偏回归系数,其意义为: 在其他自变量不变的条件下,某个自变量变化一个单位导致的因变量的y平均变化量。2.条件 1)个体之间独立(各观测值Y之间独立)2)Y与各X之间有线性关系3)残差服从正态分布一、多元线性回归的概念条件自变量与应变量的关系是线性的(line)COV(ei,ej)=0,即独立性(independence)ei~N(0,),即正态性(normality)Var(ei)=,即方差齐性(homogeneity,equalvariance)LINE如果只是建立方程,探讨自变量与因变量的关系,后两个条件可以适当放宽3.对多元回归求解结果的要求:

找出确实影响因变量的因素(自变量)

1)建立的方程必须有意义 2)方程内不存在对因变量没有显著影响的变量一、多元线性回归的概念二、多元线性回归方程的求解过程1.数据的收集、整理2.方程的建立 1)估计偏回归系数,建立回归方程 2)回归方程显著性检验及拟合效果评估 3)各偏回归系数的显著性检验 4)各自变量作用大小的评估1.数据的收集、整理1)数据收集要求

尽可能包括影响自变量的因素/与自变量有影响的因素数据应该成组的收集2)数据的整理要求

最后的数据可以整理成以下形式:

表127名糖尿病人的血糖及有关变量的测量值———————————————————————序号 总胆固醇甘油三酯胰岛素血红蛋白血糖———————————————————————

1 5.68 1.90 4.53 8.211.223.791.64 7.32 6.98.8…… …………273.84 1.206.45 9.610.4———————————————————————1.数据的收集、整理2.方程的建立1)方程中参数的求解

采用最小二乘法原理求解正规方程组,得到b1,…,bm,进一步得到b0。

最小二乘法示例求解过程:1.设计若干个矩阵如下:1)因变量矩阵Y=(y1

y2…..yn)’2)设计矩阵3)误差矩阵E=(e1e2…en)’4)系数矩阵B=(b0b1b2…bp)2.解正规方程:正规方程.可以表述成如下形式:

X’XB=X’Y

根据正规方程,我们可以得到:

B=(X’X)-1X’Y2)回归方程的显著性检验及评价(一)分析方法:方差分析

i)回归可以解释的部分 ii)回归不能解释的部分

方差分析表——————————————————————————— 变异 平方和 自由度均方 F值 来源 (MS)—————————————————————————— 回归SS回 p

SS回/pMS回/MS误 剩余SS误 n-p-1SS误/(n-p-1)————————————————————————————总 SS总 n-1

—————————————————————————方差分析表中参数的计算

回归变异:

SS回=

∑biliy

bi:为每个自变量的偏回归系数

liy:每个自变量与因变量的离均差平方和

回归自由度=方程内的自变量个数

剩余(误差):SS误=

SS总-SS回

剩余自由度=总自由度-回归自由度总自由度=总样本数-1方差分析表中参数的计算(续)F值的自由度:

分子自由度:为回归自由度(p) 分母自由度:为误差(剩余)自由度2)回归方程的显著性检验及评价(二)方程的评价决定系数(R2)说明自变量能解释Y变化的百分比,说明模型对数据拟合程度,(0,1)复相关系数用来度量Y与多个自变量间的线性相关程度。2)回归方程的显著性检验及评价(二)方程的评价校正R2剩余标准差(MSE)赤池系数/赤池信息准则(AIC)最小二乘法估计极大似然法估计CP统计量3)各自变量的显著性检验及作用大小评价方差分析和决定系数是将所有变量作为整体来检验和说明它们与Y的相关程度及解释能力

a.

未解释在众多回归变量中是那一个/些的作用。 b.变量中是否存在对因变量的作用不显著的自变量。3)各自变量的显著性检验(一)偏回归平方和回归方程中某一自变量的偏回归平方和,表示模型中含有其它m-1个自变量的条件下,该自变量对Y的回归贡献,相当于从回归方程中剔除该变量后,总平方和减少的量。偏回归平方和愈大,相应的自变量愈重要。3)各自变量的显著性检验(二)t检验同一资料,不同自变量的t值间可以比较,t的绝对值愈大,说明该自变量对Y的回归所起的作用愈大。3)各自变量作用大小评价标准化回归系数偏回归系数由于单位不同,不能进行直接的比较。为此有必要对此进行标准化,使它们都成为无量纲的系数。标准化回归系数的绝对值愈大说明相应的自变量对Y的作用愈大。标准偏回归系数表示该自变量对因变量的直接贡献标准化回归系数的意义调查了某地29名13岁男童的身高(cm)、体重(kg)与肺活量(L)。拟研究肺活量与身高及体重之间的关系。三个变量之间的相关系数

身高 肺活量

体重 0.7421 0.7362

肺活量 0.5884建立肺活量与两个变量的标准化回归方程

=-0.09352x1+0.66682x2

标准化回归系数的意义两个变量对因变量的间接贡献

身高对于肺活量的间接贡献: 0.66682x0.7421=0.4948体重对于肺活量的间接贡献: 0.09352x0.7421=0.0694各变量对于因变量的总贡献(相当于各自对因变量的相关系数)

身高;0.09352+0.4948=0.5884

体重:0.66682+0.0694=0.7362自变量间接作用的估计假设有三个自变量,一个因变量。可以画成以下关系图:Yx2x3x1r23r12b2’b1’b3’变量之间的相关系数矩阵 X1 X2 X3 YX1 1 R12 R13 R1Y

X2 R21 1 R23 R2YX3 R31 R32 1 R3YY RY1 RY2 RY3 1间接作用的估计X1对因变量的间接作用等于 b2’r12+b3’r13

X2对因变量的间接作用等于 b1’r21+b3’r23X3对因变量的间接作用等于 b1’r13+b2’r32三、自变量选择为什么要进行变量选择自变量不一定都对因变量有显著意义(将不重要的自变量引入方程,会降低模型的精度)变量之间存在共线性目的尽可能将回归效果显著的自变量选入方程,作用不显著的自变量则排除在外。全局择优法对自变量各种不同的组合建立的方程进行比较,从全部组合中找出“最优”的方程。校正决定系数选择法:选择法三、自变量选择逐步选择法:基于偏回归平方和引入或剔除一个自变量前进法可以去掉高度相关的自变量后续变量的引入可能会使先进入的变量不显著后退法考虑了自变量的组合作用自变量较多或高度相关时,结果不准确逐步回归法三、自变量选择多元线性回归的应用影响因素分析筛选、比较各因素对因变量的作用估计与预测用容易测量的变量推算不容易测量的变量均数可信区间允许区间统计控制利用回归方程进行逆估计四、多元线性回归应用注意事项(一)指标的数量化

一般要求Y为连续变量,X可以是连续变量、分类变量、有序变量。连续变量:分类变量:数量化二分类多分类(K-1个哑变量)有序变量:连续变量处理哑变量注意事项(一)--指标的数量化二分类以性别(x)为例,男性:x=0,女性:x=1,建立回归方程:

a:男性对因变量作用大小a+b1:女对因变量作用大小b1:女相对于男对因变量作用大小X的值可以随意取,所得回归方程是等价的

多分类--设置哑变量

以地区为例,变量名为‘region’,用一组哑变量的取值来表示一个地区。 地区名原赋值X1X2X3X4 北京 11 0 0 0 上海 20 1 0 0 天津 30 0 1 0 河北 40 0 0 1 江苏 50 0 0 0注意事项(一)--指标的数量化

多分类--设置哑变量

a+b1,a+b2,a+b3,a+b4,a,分别表示北京、上海、天津、河北、江苏对应变量作用的大小。b1,b2,b3,b4分别是北京、上海、天津、河北相对于江苏的对应变量作用大小之差。注意事项(一)--指标的数量化

多分类--设置哑变量

采用不同的赋值方法,得到的回归方程不同,但分析总体效果不变。当K>2时,不能用常规的逐步回归方法进行自变量的选择,要将K-1个哑变量作为一个整体考虑是否引进方程。(结果解释?)注意事项(一)--指标的数量化

有序变量

连续变量表示意义表示方法不同时,所得回归方程不等价哑变量:分析每个等级对因变量的作用方法选择

注意事项(一)--指标的数量化多元线性回归应用注意事项(二)样本含量样本含量是方程中自变量个数的5—10倍关于逐步回归所谓的“最优”回归方程并不一定是最好的剔除、选入标准研究用途多元线性回归应用注意事项(二)4变量的交互作用定义:某一自变量对应变量Y的作用大小与另一个自变量的取值有关处理方程中加入乘积项多元线性回归应用注意事项(三)共线性:一些自变量间存在较强的线性关系(相关的)危害参数估计值的标准误增大;回归方程不稳定;t检验不准确;估计值的正负符号与客观实际不一致多元线性回归应用注意事项(三)共线性:一些自变量间存在较强的线性关系(相关的)方法剔除某个造成共线性的自变量,重新建立方程;定义新的自变量代替具有共线性的自变量;将一组具有共线性的自变量合并成一个变量采用逐步回归法。多元线性回归应用注意事项(三)共线性:主要诊断指标条件数(ConditionIndex)方差膨胀因子(VarianceofflationFactor,VIF)容许值(ToleranceValue,TOL)多元线性回归应用注意事项(四)6残差分析:检验资料是否符合模型条件定义:ei=Ŷi

–Yi在正常情况下,残差符合标准正态分布,ei~N(0,σ2)影响分析:定义:研究每个观察对于参数估计的影响。目的在于找出对参数估计影响大的点,影响较大的点,称为杠杆点。主要诊断指标:h值、学生化残差等。多元线性回归—小结变量的数量化根据实际情况,变量类型间的相互转换逐步回归是一种思维方法、一种建模策略逐步回归分析的目的除建立方程外,更重要的是观察变量进出方程的过程,深入分析变量的独立作用和联合作用方程与变量有意义是不同的概念多元线性回归—小结回归系数反常情况b与专业知识不符,甚至符号相反方程显著,但每个自变量均不显著专业上重要的变量未选入方程原因数据中有离群值或异常点(对即定模型偏离很大的点)自变量的观察范围太窄,或方差太小样本含量不够,或自变量数太多自变量间存在(复)共线性多元线性回归—小结(复)共线性存在导致如下现象:回归系数的符号与实际不符回归系数的估计值与实际相差太大回归系数的标准误太大;因而有些重要变量选不进方程整个方程有显著性,而每个自变量均无显著性回归分析的正确应用多元线性回归分析的应用条件方程与变量的检验样本含量什么时候可能出现不合理的回归结果回归过程

PROCREG

一、必须语句PROCREG语句Model语句1、procreg语句数据集选项Data=SAS数据集Outest=SAS数据集Outsscp=SAS数据集输出及其它选项AllCorrSimpleNoprint2、model语句(一)格式Model应变量=自变量列表/选择项模型选择的选项Selection=F/B/Stepwise/CPslentry=slstay=DetailsInclude=n:指定前n个自变量包含在模型中Noint:取消模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论