何晓群版应用回归分析考试重点题型文档良心出品_第1页
何晓群版应用回归分析考试重点题型文档良心出品_第2页
何晓群版应用回归分析考试重点题型文档良心出品_第3页
何晓群版应用回归分析考试重点题型文档良心出品_第4页
何晓群版应用回归分析考试重点题型文档良心出品_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、元,多元线形回归分析:.请分别表达变量问统计关系与函数关系的区别,以及相关分析与回归分 析的联系与区别.答:各自然现象或社会现象之间普遍存在着各种联系,根据这些联系的 紧密程度不同,可将之分为函数关系与统计关系.一种情况下某变量Y能被其余的一类变量X,H|,Xn完全决定,这时 两者之间存在着完全确实定性关系,这种关系可以通过一个函数Y = f X|,Xn表示.这样确实定性关系被称为函数关系.另一种情况下变量之间虽然存在紧密的联系,但并不能互相唯一 确定,这种非确定性的紧密联系被称为统计关系.相关分析与回归分析都是研究两边统计关系的方法,在实际问题 的处理中往往结合使用两者.两者的区别主要在丁:

2、1.目标不同:相关分析主要用丁刻画X,Y两变量间的联系的密切程度,而回归分析除此之 夕卜,还关心对未观察Y值的预测与限制.2.角度不同:相关分析中X, Y 两变量地位相同,因此假设两者都是随机变量;而回归分析中只将变量 Y作为主要研究对象,因而往往假设 Y是随机变量,而X是非随机变量.二. 请表达一元多元线性回归模型及其根本假设答:1.一元线性模型的根本形式是:yL+BiXi + W ,其中精,用称为回归系数,自称为随机误差.其根本假设为:G-M 假设:E =0或者更强的正态性假设:耳独立同分布,L N 0,.2. 多元线性模型的根本假设是:y=X +,其中P= E.,川,丁称为回归系数阵,甘

3、=辱JI3 丁称为随机 误差.其根本假设为:a. G-M 假设:E ;i =0P, i 孝 j Cov 牝司= 2 .,i = j 或者更强的正态性假设: §独立同分布,&L N 0, o2.b. rankX=p+1<n三. 请表达最小二乘法最大似然法的根本思路、理论根底与性质,并对两者作比较. 答:1. 最小二乘法的根本思路是通过最小化残差平方和nQ o,川,:p=' yi- 0- 1xi1-.-pxip2=y-x : 'y-x :i日求得回归系数月的估计值.其理论根底是函数极值理论.2. 最大似然法的根本思路是最大化似然函数L=2y/2e2,2exp

4、-3y-x :'y-x ' 2-求得回归系数Pi的估计值.其理论根底是函数极值理论.3. 两者对E的估计结论是一致的,且结果均具有线性,无偏性,稳定性在 G-M 假设下是最小方差线性无偏估计,在正态性假设下是最小方差无偏估计, 具体参 见问题四.4. 相对来说,使用最大似然法需要的假设较强, 需要正态性假设,而最小二乘法本身不需要任何假设.但是,最大似然法可以得到.2的估计,而最小二乘法不行.四. 假设通过最小二乘估计得到回归方程yi=E° +臼凶十%x2i +. +Rxpi+&的估计,请表达估计量冒=f?,IH,l?p以及残差£= eJILen的定

5、义及其性质. 答:1.估计量具有线性,无偏性,稳定性,即:a. 阡是y的线性变换f?= x'xxyb. !?是无偏的.Ef? = Ec. 在G-W段设下!?是最小方差线性无偏估计,在正态性假设下是最小方差无 偏估计.D(|5>Q 2(x,x)-02. 残差e= ? -乂,它具有以下性质a. Ee,=E *=0b. D (e) =(I-H).2,其中 H=x (x'x)x', I 是单位阵,即2D (e) =(1-h Q., hH是H的王对角线兀素.c. x'e=0d. Cov(?,e) =0,且正态性假设下两者独立nne. 旦氐厂服从自由度为n-p-1的开

6、方分布,即 一 2 L,2(n-p-1)二二五、表达多元线性回归中常见的显著性检验方法及其关系.答:常见的显著性检验方法有t检验,F检验,偏F检验三种.假设检验水平' 为a.1. F检验原假设H0: 61 = 0 2=. =.首=用备择假设:存在 岗# 0检验统计量: F=SSR/ pFp, np-1 SSE/n - p -1判断法那么:F PF*, n-p-1)时拒绝原假设.2. t检验原假设H°j: 0 j = 0=备择假设:E产0?检验统计量:t=-F亏L t(n-p-1),其中c是矩阵(x'x)*的主对角元素 . 6二?2判断法那么:|t| X宓n p1时拒绝

7、原假设.3. 偏F检验原假设H.j:月j = 0=备择假设:E / 0检验统计量SSR SSR,:、Fj = SSETL Fen-pf其中SSR.是剔除Xj后的回归平万和判断法那么:Fj AFa1,n-p-1时拒绝原假设.4. 三者的关系.t检验与偏F检验等价,F检验与另两者不同实质上是另两者的前提, 通常先做F检验,再做t检验或偏F检验.六、给出一元回归模型估计值的点估计与区间估计置信度 17 答:i.在未观测点X.处,y的点估计为yo=%+留x.2.在未观测点X.处,y°的区间估计为预测区间?.土t* n-2J1 +h./,其中屏.=+乂.X n Lxx相当大时n>15,可

8、以简化为±2齿.3. 在未观测点X.处,Ey.的区间估计为置信区间?.土t* n -2展敬,其中 h.=1 +X.X.n Lxx3. 给定置信上界T2与置信下界Ti时,X.的取值范围为?.时,"2.".时,Xo .上宇0七. 表达样本数据与回归系数标准化的意义与方法答:多元线性回归模型中,由丁自变量的数量级差异较大,因而舍入误差将对 估计的精度造成较大的影响;同时自变量的单位不同也会造成回归方程的解释比 较困难,因而通常需要对样本数据进行预处理,即数据的标准化.数据的标准化通常这样进行:* X; _ X;_1 nn如Xij= L ,其中Xj =_£ Xi

9、j, Ljj =£ (Xj -Xj) .:Ljjn 7J* y V _ 1 J1丁 _ 2yi=,其中V =£ Vi,Lyy=£ (yiy). ' Lyy1 i 4i 4利用标准化样本数据的得到的回归方程系数 区称为标准化回归系数,其满足:?*=四代(i=1,2.,p),用=0. Lyy八. 给出偏决定系数、偏相关系数的定义答:1.当其余自变量固定时,Xi对y的影响程度称为Xi的偏决定系数,定义1(pX , . , X )p. X )2SSE , .i_1X #,1Xp=. &SE"V 1p 1,.SSEX , .i_1X i.,1X2.

10、 当其余自变量固定时,Xi与Xj的相关程度称为两者的偏相关系数,定义为斤;1,2.时.p =;U,其中Aj是样本相关阵的i行j列的代数余子式 ii , ' jj计算:1. 20分近来某时尚杂志进行了一项关丁高活数字电视的调查.对丁各不 同品牌不同型号的数字电视,该杂志基丁画面质量给出了一个测试总分xii=1,2,24,同时,该杂志也收集了这些数字电视的平均市场售价yj.数据显示2424、Xi =1090广 y =143101 i Ai旦242424一 2一 一 2-一 一一一一' xi =50528,' yi =877429461,' xy =6562786 i

11、 4i Ai 4假设样本数据符合正态性假设,随机项的方差为根据以上条件,请15分建立y关丁 x的一元线性回归方程25分给出作s2的无偏估计.3 5分在a =0.05的显著性水平下,检验变量之间的显著性.:F°.051,22 =4.30 4 5分假设某种新上市的数字电视的评分为45分,请给出其市场建议价y.,并作该价格的置信水平为95%勺区间估计.解:1根据题意,有:x=45.42 , y=5962.541 分nLxx' X:-n(X)2 =1023.831 分i AnLxy = XN-nXV =63615.581 分i =1从而?= J =62.13, q = y - x =

12、3140.59Lxx所以回归方程为y=62.13x 3140.59n 22(2) SST=Lyy =' yi-n(y)2 =24183785.96,八SSR =结质=3952123.96,SSE=SST SSR= 202316621所以 = SSE=9196212 分n-2(3) 建立假设为:原假设H.: & =0u备择假设:E"0-1分构造检验统计量:F= SSR/1 = 4.30L F(1,22)3分SSE/22由丁 F=4.30 2 4.30 = F0.05( 1,22),所以拒绝原假设1分即认为变量之间存在显著的线性关系.(4) y.的估计值为%十官x.=59

13、36.441分由丁样本量较大,所以可以用近似公式计算预测区间-1分即价格y°的预测区间为?0 ±2 = 5936 .功 4乂 2 95 8.97 = , 4018.5 0 7 85 4-3-83 分2. (15分)某市最近进行的一项有关公共交通的调查发现,公交车的维护费用山 与其已使用月数Xi之间的关系可以用一元线性回归模型 乂 =臼0 +臼少十弓描 述,其误差项满足匕=匕+改,其中随机项改满足G-M假设.实验的实际 观测数据(10组)由下表给出,请根据数据给出该回归模型的估计,并预 测某辆已使用了 4年的公交车的维护费用.已使用月数61454855294360维护费用49

14、6863175198504891825696F 4858652931831945716887解:由丁误差项满足R=R_1+料,而料满足G-M假设,所以可以通过差分法来消除自相关性.1分对原样本数据做一阶差分Ayi = * - y, 为 =为-为 ,得到差分数据样本自变量差 分-1637-2614175因变量差分1349-1119-1504134-3486-8383461-362-37482316由丁差分数据必然已中央化,所以差分回归模型为n'.上 y"xAyUAXi,其中?=14.16'"'.X;i湿从而回归方程为 y yj=-14.16XiXj,即

15、yi = yi-14.16 -xi_将x11 =48带入上述方程,得:11 =6646.284分4分4分2分3. 非参数检验异方差证实:1.对一元线性模型证实三种检验统计量等价证:对丁一元线性回归模型来说,假设相同,均为F检验、t检验、相关性检验的原假设与备择原假设H.:知=M 备择假设:E砖0而三者的检验统计量分别为:SSR/1F=SSE/ n-2;?2 分由各参数的定义nSST=Lyy,SSR= 停-yi)2 =也xx旧nL2lSSE八 q2,r2 =上、=?2 J I I I i 丑xx yyyy所以22SSR?2Lxx?2Lxx 十 2F2 tlSSE/n-21 3匚:SSE n -2

16、?l1 Lxx2 (n-2)r2Lyy_ SSR2 _ 1-r2 一Lyy - 孑Lxx 一 SSE/n-2n - 2Lyy所以F =t: =t;,即三种检验完全等价.1 nC一2.在正态性假设下,求证成二二£ 乂 -2 一兀/n-2 id鼻奇弓yi-?i2 多元是°2的无偏估计a. 记 H=x(x'x) x',贝U ? = Hy.再记 e=j -、,$ = *.那么E(e) =E(Y -Y) =E(I-H)Y = (I - H) E(Y) =(l H) E(X :) =(I H)X= X : HX '= XE-X( X'X )(X'

17、X ) P =04 分D(e) = CoV(I _ H) Y,(l _ H) Y = (I _ H)CoV(Y,Y)(I - H)' = , n所以猷=,yi-?i2是.2的无偏估计 n-2 id(| _H)(I H)' =. .;2(I H)2所以 Ee =0, Ee = D(e,)2 分从而nnnE' (y-?)2 厂 Ee2D(e) =c-2tr(I _H) =c-2(n_p_1)5分i 4i 4i1 n即&2= £成一2是的无偏估计,证毕.n-p-1 i 4b. 记ei =yi- .贝U Ee =0.从而 Ee2 =D(e) =D(yi ?)=

18、Var(y i) +Var(?)2Cov(y i, ?)由正态性假设,2Var(yi)=:.Var (贝)=Var( ?0+?Xi)=Var( ?0+x2Var( ?)+2x Qov( ? , ?) 122221 xxi12r 1(为一x)2=c- - -2xi f -=加二n Lxx LxxLxxn LxxCov(y i, ?) = Cov(y i,伊° + R xi) = Cov(y i, V) + (xi x)Cov(y i,胃)C-2- (xx) 21(xx)222=(xix) c-二一卜=加.nLxx nLxx从而 Ee2 =(1-M.2扑 1,n2 c2/2E;? = &

19、#39; (1-尾).=(n-、九)=一;2分3分4分1分-3 分1分n2 一n2-3计算多元线性模型下,E, e的期望阵与方差4. 证实数据标准化后参数估计值之间的转化关系5.证实dw的取值范围0<=dw<=4nnet-etj'DW =一 2、qt =2nnn2 一2.et r 方 -2、etetjt z2t z2n-2、ett =2nn£ e2=£ e;t=2t=2n n ,' e" £ -t z2 t :2样本充分大时,可以认为从而n寸q如p =n气-2ett =2nDW=21 -,2et t =2所以 DW =21 -

20、 :?乂 一1?1?1 ,从而0壬DW <4.其余:一.表达全模型、选模型的优缺点答:设全模型为 y"0 + P|Xi+.+ gmXm + 8 ,选模型为 y邓0+BiX+.+BpXp + 站(p<m).那么:1. 选模型的缺点为:a. 设Xj与Xp+i,.Xm至少一个相关,那么Rp是有偏的,即E(?p=Ejp#Ejb. 选模型的预测值?op是有偏的,即E%p #y.2. 选模型的优点为:a. 选模型回归参数的方差较小(稳定性较高),即D(?jp 喜? jm )b. 选模型的预测值的残差方差更小,即D (eo p) * D(e0m ),其中 4 p = 0 p y0,e0

21、m = ?0m y0c. 选模型的预测值的均方误差更小,即22E0) p - Ee)m - D (e0m ).表达变量选择的根本准那么答:通常根据以下三种准那么进行变量选择.1. 自由度调整的复决定系数最大自由度调整的复决定系数是基丁拟合效果提出的变量选择参数,定义为R%=1- E L(1-R2),其中日2=竺是回归方程的决定系数(拟合 n - p -1SST优度).2. 赤池信息量(AIC)或SBC最小赤池信息量是基丁最大似然原那么提出的变量选择参数,定义为SSEAIC=nln()+2p.nSBC是对AIC的修正,定义为SB C = nlSSE) + 2 l n (p)n Mallows统计

22、量Cp最小Mallows统计量是基丁预测效果均方误差提出的变量选择参数, 定义为Cp =;富山 n m 1 +n p 2三. 表达变量选择的根本方法及其比较答:变量选择的根本方法有以下三种:1. 前进法,具体步骤为:a. 对所有可选变量Xij|,Xp作一元线性回归,对这p个回归方程分别作F检验,选择其中统计量最大值 A.假设Fii芝d1,n -2,那么将Xi选作回归自变量.b. 对所有的二元变量对Xi,Xi,x 2,Xi.x p,Xi作二元线性回归,对这p-1个回归方程分别作偏F检验,选择其中统计量最大值F2j.假设F2j芝Fgn-3,那么将Xj选作回归自变量.c. 以此类推,直到引入q个自变

23、量后所有q+1元回归方程的F统计量值均小丁 Fnq1.2. 后退法,具体步骤为:a. 对全部可选变量X川,Xp作P元线性回归,对该回归方程作t检验,选择其中统计量最小值t1i o假设0壬ta/2n - p-1,那么将为删除.b. 对剩余自变量作p-1元线性回归,对该回归方程作t检验,选择其中统计量最小值t2j o假设t2j?t* n - p - 2,贝U将Xj删除.c. 以此类推,直到所有剩余自变量均能通过t检验.3. 逐步回归法,具体步骤为:a. 使用前进法选择自变量.b. 每选入一个自变量,那么利用后退法删除所有需要删除的自变量.c. 以此类推,直到剩余自变量均不能被选入.由丁前进法有进无

24、出自变量被选入之后无法被删除,后退法有出 无进自变量被删除后无法被再次选入,所以在选择效果上通常都 不如逐步回归.四. 表达所有违背根本假设的情形及其检验、改进方法答:违背根本假设的情形一共有四种:异方差性、自相关性、异常值以 及多重共线性.1. 异方差性:a.可以通过spearman等级相关系数检验,其方法为:原假设H.: L = 0=备择假设:丫萨Q其中's=1-2£ dj2 , dj是为与| e, |的等级差.n(n -1) ,4检验统计量:t= t(p, n-2), '1 - :判断法那么:|t?t*(n-2)时拒绝原假设.b.可以通过加权最小二乘法改进2.

25、自相关性a.自回归阶数为1时可以通过D-W检验法检验,其方法为: 根据样本容量n与解释变量个数p+1查得dw下届dL与dw上界du.计算D-W统计量,其定义为n-. 一2e-eDW= X -2ei =20 < DW <dL存在正自相关dL<DW苴du不能判断假设<du<DW <4-dU 无自相关性4-du<DW、4-dL不能判断4-dL<DW <4 存在负自相关b.可以通过迭代法或者差分法改进3. 异常值异常值可以简单分为y的异常值与x的异常值两种.a. y的异常值可以用残差大小判断,通常认为学生化残差|SREj|>3或者标准化残差|

26、ZREj|A3即说明yj是异常值;精确的判断可以用学生化删除残差SR%进行,其中SR%= SRE;( ° - P -2 2)1/2n _ p _1 _SREb. x的异常值可以用库克距离 口判断,其定义为(p 1)?2 (1-W2,其中hii是杠杆值通常认为Di <0.5说明Xi不是异常值,Di >1说明为是异常值 b'对丁 x还有强影响点的概念,是否届丁强影响点可以通过杠 杆值hH判断,通常认为品疽伊1) 说明Xi是强影响点.3. 多重共线性多重共线性可以通过方差扩大因子或者条件数进行检验.a. 方差扩大因子法:VIFj芝10即认为Xj与其余自变量之间存在着多重共线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论