多重回归与相关_第1页
多重回归与相关_第2页
多重回归与相关_第3页
多重回归与相关_第4页
多重回归与相关_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关联性分析方法分类(定量资料),回归分析与Pearson其人,皮尔逊推广了高尔登(Golton)的相关结论和方法,推导出人们称之为“皮尔逊积差”的公式,给出了简单的计算:说明对三个变量的一般相关理论,并且赋予多重回归方程系数以零阶相关系数的名称。,他意识到只有通过回归才能回答韦尔顿提出的关于出现相关器官的选择问题,意识到要测定复回归系数值,须广泛搜集所有变量的均数、标准差和相关的数据。 他提出了净相关、复相关、总相关、相关比等概念,发明了计算复相关和净相关的方法及相关系数的公式。,实例,例15-1:试建立血糖与其他几项指标的多重线性回归方程,主要内容,统计描述: 多重回归与多重相关的概念 多重

2、回归方程与复相关系数 拟合优度与决定系数 统计推断(假设检验) 总体回归方程的方差分析 偏回归系数的 t 检验 最优模型的筛选 注意问题,多重回归方程:定量刻划出一个因变量Y与多个自变量X1,X2之间的线性依存关系。其中: 变量可以是随机变动的,也可以人为选定 因变量是服从状态分布的随机变量 若所有变量都是随机的,还可做多重相关来描述因变量与一组自变量之间的线性关系; 用偏相关(partial correlation)描述因变量和一个自变量在扣除其他自变量影响之后的线性相关。,多重回归与多重相关的定义,简单线性回归推广为 0相当于简单回归中的 i为偏回归系数,反映了当其他自变量对因变量的影响固

3、定时,第i个自变量xi每改变一个单位后因变量的平均变化 样本多重回归方程:,第一节 多重回归方程,一个因变量y 多个自变量x1,x2,xm n个个体组成的随机样本,一、线性回归模型的前提条件L-I-N-E,线 性(Line): 自变量和因变量之间的关系有线性趋势 独立性(Independence): 总体中的个体之间相互独立 正态性(Normal) 给定一组x值后,相应的y值服从正态分布 等方差(Equal variance) 各x值变动时,相应的y有相同的变异度,二、多重回归方程的求解,用最小二乘法寻找适宜的系数b0,b1,b2bm,使得误差(残差)平方和最小。 计算复杂,一般需借助计算机完

4、成,估计结果,单变量散点图,SPSS分析结果,转t检验,偏回归 系数,标准误,标准回归系数,三、假设检验,总体回归方程的整体检验 方差分析 总体偏回归系数的假设检验 t检验 拟合优度检验 决定系数、调整决定系数与方差分析 模型筛选过程中的检验 偏回归平方和,三、多重回归的方差分析,用于回答总的来说回归方程是否成立 H0:1=2=m=0 H1:1,2,m不全为0,总=回+误差 总=n-1 回=m 误差=n-(m+1),方差分析结果,方差分析表 SPSS分析结果,四、偏回归平方和,SS偏回归(X1),SS偏回归(X2),SS偏回归(X3),SS偏回归(X4),F=,MS偏回归(X1),MS偏回归(

5、X2),MS偏回归(X3),MS偏回归(X4),MS残差,MS残差,MS残差,MS残差,五、偏回归系数的假设检验,回归方程有统计学意义并不说明每一个偏回归系数都有意义 H0: i0 H1: i 0 i=1,2,m,SPSS结果,标准化偏回归系数,?P值大小能反映自变量对应变量影响的大小吗 ?偏回归系数大小能反映自变量影响的大小吗,P值越小只是越有理由认为某自变量对应变量有影响,并不表明影响越大。 偏回归系数大小受自变量单位与量刚影响,不能由偏回归系数的大小直接说明某自变量对应变量的影响大小。,这种影响大小及方向通过标准化偏回归系数来反映,偏回归系数计算:数据中心化估计系数 各个自变量标准化后所

6、求得的标准化回归方程b0=0,各标准化回归系数间可以直接比较绝对值的大小,反映自变量对应变量的线性影响大小 上例标准化偏回归系数结果,六、评价拟合效果的重要统计量,决定系数R2:越接近于1,回归效果越好, 本例 R2=SS回/SS总=133.711/222.552=60.08% 剩余标准差:即残差均方的平方根。回归估计精度的指标,其值越小,估计精度越高。,常用于评价所拟合的回归方程的好坏程度,但是不能单靠增加自变量的数目来提高决定系数。全面地衡量,应当是既要确定系数大,又要自变量数目少,为此可采用校正确定系数,调整的决定系数,Adj R2 =0.5282,六、多重相关 (multiple co

7、rrelation),当自变量和因变量均为多元正态分布的随机变量时,才考虑进行相关性分析。 1.简单相关系数: 对于一组随机变量x1 ,x2, xm和y的样本,可计算其中任何两个变量间的相关系数。可列成相关系数矩阵。 推断各总体简单相关系数是否为0的假设检验可用t检验或查r界值表,一个变量与一组变量的的相关的密切程度可由复相关系数反映,即Y和 的简单相关系数 前例R2=0.6008,R=0.6008=0.7751 复相关系数的平方就是决定系数。其是否为0的假设检验等价于多重回归的方差分析。,2.复相关系数:,设总体中扣除q个变量影响后的偏相关系数为(-q),样本中相应的偏相关系数为 r(-q)

8、, H0: (-q)=0, H1: (-q) 0,在其他变量不变的情况下,某两个变量间的相关系数。,3.偏相关系数:,第二节 回归分析中自变量的选择,回归方程中的自变量并非多多多多益善 回归方程中的自变量并非都有统计学意义 回归方程中的自变量并非都符合专业解释 最优模型筛选 目标:如何选择最好的、符合专业解释的回归模型 用较少的自变量建立回归方程 要求:选择自变量首先要靠背景知识来指导,所选方 程符合专业知识,最后还要靠其来验收 方法:全局择优、局部择优,选择自变量的标准,全局择优法:对自变量的所有组合考察 评价准则 1、决定系数与调整决定系数最大: 要求自变量个数不得过小或过大。,2、Cp统

9、计量,Cp统计量最小 : 1973年,由Mallows提出 (n-p-1)(MS误差,p/MS误差,全-1)+(p+1) Cp统计量越接近p1的回归方程为最佳方程,3、Up最大:,1973年由日本学者赤池提出 计算公式 AIC越小越好,4、AIC准则 (Akaike information criterion),SAS获得的几个准则值结果,二、逐步选择变量的方法,1.向前引入法 (forward selection):前进法 将与y简单相关系数最大且F检验又有意义的选为第一个变量,直到不再拒绝H0 。 注:一次只能引入一个自变量,若两个变量在一起效果好,单独一个却不好时,则该变量无机会选中。

10、2.向后引入法(backward selection):后退法 首先对全部候选自变量建立回归方程,然后一个个剔除无统计学意义的变量,直到再不能剔除。,在向前引入的每一步之后都考虑从已引入方程的变量中剔除相形见绌者。先规定两个值F引入和F剔除, F引入F剔除,引入和剔除交替进行,直到无可引入和剔除为止。调整两个F值可影响筛选结果。 小样本检验水准a定为0.10或0.15,大样本定为0.05。值越小表示选取自变量的标准越严。 注意,引入变量的检验水准要小于或等于剔除变量的检验水准。,3.逐步引入-剔除法(stepwise selection),前进法:容易忽略有意义的变量 局限性:即后续变量的引入

11、可能会使先进入方程的自变量变得不重要。 后退法:容易引进更多的变量 局限性:自变量高度相关时,可能得不出正确的结果 。 逐步法:所选变量比较精悍,但计算繁琐,三种方法比较,逐步筛选结果,第三节 多重回归分析应用及一些问题,一、多重线性回归的应用 预测预报: 利用实测值建立的预报方程,可以进行预测预报。 因素分析:发现影响因素,二、应用多重线性回归的几点注意,应用条件:线性、独立、正态、等方差(LINE) 样本含量:在进行多重线性回归分析时,一般要求观察例数不少于变量个数的5-10倍。 数据类型:回归方程中的各变量一般应是数值变量,但如果自变量为分类变量或有序变量时,须转换。 预测范围 回归方程

12、进行预报,各自变量的取值范围应在观察范围之内。 “最优”方程的意义 方法学上:全局择优与局部择优相对最优 实际应用:符合专业意义,例如 若回归方程能较好地反映y和xi 的线性关系,残差应该是服从 =0的正态分布。 也可用每一例的残差 做图,理想的残差图上的点应围绕x轴( )随机分布。,绘制残差的直方图判断分布的正态性以及发现异常值;绘制残差与自变量(或因变量预测值)的散点图考察模型形式以及方差齐性。,三、残差分析:,(a)可以认为基本满足线性和等方差的假定条件 (b)(c)的散点呈现曲线趋势,提示资料不满足线性的假定。 (d)(e)(f)显示残差变化,提示资料不满足方差齐的前提条件 (g)(h

13、)显示方差不齐,而且散点呈现曲线趋势,提示资料不满足线性和方差齐性的前提条件。,常见残差图,例15-1的进一步剖析,剔除No25号数据(标准化残差2.46),逐步筛选的结果,二分类:xi取0或1, 多分类:设置分类数减1个哑变量,如果变量有等级之分 近似等间距的: xi取1,2,3. 不等间距或无法度量间距的:用适当的数量化方法,四、名义变量的分析,部分或全部自变量间存在高度相关时: 整个方程有意义,但所有偏回归系数无统计学意义 结果显示与专业常识不符; 去掉一两个变量或观察单位,偏回归系数变化较大 解决对策: 从专业角度判断,人为去除较次要或缺失较多测量误差较大的共线性变量; 逐步选择变量; 利用主成分回归,五、自变量的共线性,将两个或多个变量的乘积作为一个新的变量与其他自变量一起进行分析,可通过该复合变量的偏回归系数检验结果是否有意义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论