回归分析作业_第1页
回归分析作业_第2页
回归分析作业_第3页
回归分析作业_第4页
回归分析作业_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用线性回归课后作业姓名:xxx学号:xxxxxxxxx年级:2013级指导老师:xxx第2章2.14为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y(万元)和广告费用x(万元),数据如表2-6所示月份12345x12345y1010202040(表2-6)(1) 画散点图:解:> x <- c(1,2,3,4,5)> y <- c(10,10,20,20,40)> plot(x,y)(2)x与y之间是否大致呈线性关系:解: 由上题的散点图可以看出五个点基本在一条直线附近,因此可以看出x与y之间大致呈线性关系(3)用最小二乘估计求出回归方程:解:R语

2、言程序如下> mystat1 <- data.frame(x,y)> mystat1 x y1 1 102 2 103 3 204 4 205 5 40> regress1 <- lm(yx,data=mystat1)> summary(regress1)Call:lm(formula = y x, data = mystat1)Residuals: 1 2 3 4 5 4.000e+00 -3.000e+00 5.004e-16 -7.000e+00 6.000e+00 Coefficients: Estimate Std. Error t value P

3、r(>|t|) (Intercept) -1.000 6.351 -0.157 0.8849 x 7.000 1.915 3.656 0.0354 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 6.055 on 3 degrees of freedomMultiple R-squared: 0.8167, Adjusted R-squared: 0.7556 F-statistic: 13.36 on 1 and 3 DF, p-value: 0.03535l 得出回归方程为:y=-x+7

4、(4)求回归标准误差:解:l 从上述分析看出=6.055(5)给出的置信度为95%的区间估计:解:> confint(regress1) 2.5 % 97.5 %(Intercept) -21.2112485 19.21125x 0.9060793 13.09392l 得出置信度为95%的区间估计为(-21.2112485,19.21125) 置信度为95%的区间估计为(0.9060793,13.09392)(6)计算x 与y的决定系数:解:l 由第三问的分析看出:R2=0.8167,接近1,表明原方程的拟合程度较好。(7)对回归方程作方差分析:解:> anova(regress1

5、)Analysis of Variance TableResponse: y Df Sum Sq Mean Sq F value Pr(>F) x 1 490 490.00 13.364 0.03535 *Residuals 3 110 36.67 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1(8)作回归系数:解:l 同样从第三问的分析可以看出的p值为0.0354,在显著性水平为0.05时,影响显著。(9)作相关系数的显著性检验:解:> sqrt(0.8167)1 0.9037146l 相关系数为0.9037146,查表知,x与y有

6、显著的线性关系(10)对回归方程作残差图并作相应的分析:解:>y2 <- regress1$residuals> plot(x,y2,type='b',pch=15,lty=3)> y3 <- c(0,0,0,0,0)> lines(x,y3,type='b',pch=20,lty=1)l 由残差图可以看出残差在0附近随机变化,并在变化幅度不大的一个区域内。(11) 求当广告费用为4.2万元时,销售收入将达到多少,并给出置信度为95%的置信区间:解:> new2 <- data.frame(x=4.2)> p

7、red <- predict(regress1,new2,interval="prediction")> pred fit lwr upr1 28.4 6.059318 50.74068l 当x为4.2时,预测值为28.4,置信度为95%的置信区间为6.059318,50.740682.15一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过10周时间,收集了每周加班时间的数据和签发的新保单书目,y为每周加班时间(小时),数据如表2-7所示。表2-7周序号12345678910x82521510705504809201350325670121

8、5y3.51.04.02.01.03.04.51.53.05.0(1)画散点图:解:R语言程序如下> x <- c(825,215,1070,550,480,920,1350,325,670,1215)> y <- c(3.5,1.0,4.0,2.0,1.0,3.0,4.5,1.5,3.0,5.0)> plot(x,y)(2)x与y之间是否大致呈线性关系:解:l 由图可以看出y与x大致呈线性关系(3)用最小二乘估计求出回归方程:解:> mystat <- data.frame(x,y)> mystat x y1 825 3.52 215 1.03

9、 1070 4.04 550 2.05 480 1.06 920 3.07 1350 4.58 325 1.59 670 3.010 1215 5.0> regress2 <- lm(yx,data=mystat)> summary(regress2)Call:lm(formula = y x, data = mystat)Residuals: Min 1Q Median 3Q Max -0.83899 -0.33483 0.07842 0.37228 0.52594 Coefficients: Estimate Std. Error t value Pr(>|t|)

10、(Intercept) 0.1181291 0.3551477 0.333 0.748 x 0.0035851 0.0004214 8.509 2.79e-05 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 0.48 on 8 degrees of freedomMultiple R-squared: 0.9005, Adjusted R-squared: 0.8881 F-statistic: 72.4 on 1 and 8 DF, p-value: 2.795e-05利用最小二乘法手算:设一

11、元线性回归方程为要使得参数满足.004l 看出两种结果相同,即回归方程为y=0.1181291+0.0035851*x(4)求回归标准误差:解:l 从第三问看出回归标准误差为0.48(5)给出的置信度为95%的区间估计:解:> confint(regress2) 2.5 % 97.5 %(Intercept) -0.700843004 0.937101152x 0.002613486 0.004556779l a0的置信度为95%的区间估计为-0.700843004,0.937101152a1的置信度为95%的区间估计为0.002613486,0.004556779(6)计算x与y的决定

12、系数:解:l 决定系数为R2=0.9005(7)对回归方程作方差分析:解:> anova(regress2)Analysis of Variance TableResponse: y Df Sum Sq Mean Sq F value Pr(>F) x 1 16.6816 16.6816 72.396 2.795e-05 *Residuals 8 1.8434 0.2304 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1l 以上为对回归方程作方差分析,可以看出F值为72.396,显著性p值为2.795e-05,表明回归方程高度显著。(

13、8)作回归系数的显著性检验:解:l 因此拒绝原假设,认为y与x有显著的线性关系,并且从第三问的分析中看出,回归系数的P值为 2.795e-05,远小于显著性水平,故影响显著(9)作相关系数的显著性检验:解:> sqrt(0.9005)1 0.9489468l 相关系数为0.9489468,查表知,大于显著性水平为0.01时的值,故x与y有高度的显著性关系(10)对回归方程作残差图并作相应分析:解:> y2 <- regress2$residuals> plot(x,y2,type='b',pch=15,lty=3)> y3 <- c(0,0,

14、0,0,0,0,0,0,0,0)> lines(x,y3,type='b',pch=20,lty=1)l 由残差图可以看出残差在0附近随机变化,并在变化幅度不大的一个区域内(11)该公司预计下一周签发新保单张,需要加班时间是多少?解:> new2 <- data.frame(x=1000)> pred <- predict(regress2,new2,interval='prediction')> pred fit lwr upr1 3.703262 2.51949 4.887033l 由回归方程预测的当x=1000时,需要的

15、加班时间为3.7(小时)(12) 给出的置信度为95%的精确预测区间和近似预测区间:解:> new3 <- data.frame(x=825)> pred2 <- predict(regress2,new3,interval='prediction')> pred2 fit lwr upr1 3.075863 1.913287 4.23844> sigma <- c(0.48)> 3.075863+2*sigma1 4.035863> 3.075863-2*sigma1 2.115863l y0的置信度为95%的精确预测区间

16、为1.913287,4.23844y0的置信度为95%的近似预测区间为2.115863,4.0358632.16表2-8是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和对学生的人均经费投入x(美元)序号yx序号yx序号yx1195833346182081630593519538264222026331141918095296736204603124320325355420209393285372141927524268004542212264439143825160342952947046692224624451739224823947626610488823271

17、864349402096925097306785710243399050204127224544082717055362523382359442258924042925853416826206272821432264434021024500354727227953366442464028291124274315928215702920452234122971227170362129220802980462561029321330168378230222503731472601537051426525424731209402853482578841231527360398232218002533

18、49291323608162169035683322934272950414808349172197431553418443230551258453766(1) 绘制y对x的散点图。可以用直线回归描述两者之间的关系吗?解:R语言如下:>mystat<- read.table('C:/Users/Administrator/Desktop/1.csv',header=T,sep=',')> mystat y x1 19583 33462 20263 31143 20325 35544 26800 45425 29470 46696 26610 4

19、8887 30678 57108 27170 55369 25853 416810 24500 354711 24274 315912 27170 362113 30168 378214 26525 424715 27360 398216 21690 356817 21974 315518 20816 305919 18095 296720 20939 328521 22644 391422 24624 451723 27186 434924 33990 502025 23382 359426 20627 282127 22795 336628 21570 292029 22080 29803

20、0 22250 373131 20940 285332 21800 253333 22934 272934 18443 230535 19538 264236 20460 312437 21419 275238 25160 342939 22482 394740 20969 250941 27224 544042 25892 404243 22644 340244 24640 282945 22341 229746 25610 293247 26015 370548 25788 412349 29132 360850 41480 834951 25845 3766> regress3 &

21、lt;- lm(yx,data=mystat)> summary(regress3)Call:lm(formula = y x, data = mystat)Residuals: Min 1Q Median 3Q Max -3849.9 -1853.0 -219.1 1654.3 5522.3 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12112.629 1197.768 10.11 1.39e-13 *x 3.314 0.312 10.62 2.62e-14 *-Signif. codes: 0

22、* 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 2323 on 49 degrees of freedomMultiple R-squared: 0.6972, Adjusted R-squared: 0.691 F-statistic: 112.8 on 1 and 49 DF, p-value: 2.621e-14> x <- mystat$x> x 1 3346 3114 3554 4542 4669 4888 5710 5536 4168 3547 3159 3621 3782 424715 3982 356

23、8 3155 3059 2967 3285 3914 4517 4349 5020 3594 2821 3366 292029 2980 3731 2853 2533 2729 2305 2642 3124 2752 3429 3947 2509 5440 404243 3402 2829 2297 2932 3705 4123 3608 8349 3766> y <- mystat$y> y 1 19583 20263 20325 26800 29470 26610 30678 27170 25853 24500 24274 2717013 30168 26525 2736

24、0 21690 21974 20816 18095 20939 22644 24624 27186 3399025 23382 20627 22795 21570 22080 22250 20940 21800 22934 18443 19538 2046037 21419 25160 22482 20969 27224 25892 22644 24640 22341 25610 26015 2578849 29132 41480 25845> plot(x,y)l 由散点图看出,可以大致用直线回归描述两者的关系(2)建立y对x的线性回归:解:l 由上题的结果得出,线性回归方程为:y=3

25、.314*x+12112.629(3) 用线性回归的Plots功能绘制标准化残差的直方图和正态概率图,检验误差项的正态性假设:解:>z <- regress3$residuals>p <- z/2323> p 1 2 3 4 5 6 -1.55740164 -0.93371749 -1.53470915 -0.15679500 0.81140917 -0.73217153 7 8 9 10 11 12 -0.15361048 -1.41550729 -0.03092841 0.27252163 0.72873441 1.31633286 13 14 15 16 1

26、7 18 2.37723111 0.14565537 0.88313968 -0.96707859 -0.25565840 -0.61720308 19 20 21 22 23 24 -1.65729081 -0.88665425 -1.04998848 -1.05785105 0.28469328 2.25645048 25 26 27 28 29 30 -0.27580036 -0.35904488 -0.20323781 -0.09433258 0.03961821 -0.95853839 31 32 33 34 35 36 -0.26995487 0.55675155 0.765309

27、93 -0.56310950 -0.57248308 -0.86317884 37 38 39 40 41 42 0.08032540 0.72496971 -1.16680198 0.23326163 -1.25531284 0.16560532 43 44 45 46 47 48 -0.31959571 1.35705027 1.12630547 1.62767928 0.69930090 0.00528521 49 50 51 2.17947549 0.73174986 0.53910022 > hist(p)l 上图为标准化残差的直方图l 上图为标准化残差的正态概率图,看出散点基

28、本呈直线趋势,可以认为检验误差项服从正态分布。> shapiro.test(regress3$residuals) Shapiro-Wilk normality testdata: regress3$residualsW = 0.96793, p-value = 0.1812l 作正态假设检验可以看出,P值为0.1812,故不能拒绝误差项服从正态分布的假设,即可以认为误差项服从正态分布。第三章 3.11研究货运总量y(万吨)与工业总产值x1(亿元),农业总产值x2(亿元),居民非商品支出x3(亿元)的关系。数据如下表所示。编号 货运总量y(万吨)工业总产值x1(亿元)农业总产值x2(亿元

29、)居民非商品支出x3(亿元)116070351.0 226075402.4 321065402.0 426574423.0 524072381.2 622068451.5 727578424.0 816066362.0 927570443.2 1025065423.0 (1) 计算出y,的相关系数矩阵。解:用R软件计算> y <- c(160,260,210,265,240,220,275,160,275,250)> x <- c(70,75,65,74,72,68,78,66,70,65)> z <- c(35,40,40,42,38,45,42,36,4

30、4,42)> w <- c(1.0,2.4,2.0,3.0,1.2,1.5,4.0,2.0,3.2,3.0)> mystat1 <- data.frame(x,y,z,w)> mystat1 x y z w1 70 160 35 1.02 75 260 40 2.43 65 210 40 2.04 74 265 42 3.05 72 240 38 1.26 68 220 45 1.57 78 275 42 4.08 66 160 36 2.09 70 275 44 3.210 65 250 42 3.0> cor(mystat1) y x1 x2 x3y 1

31、.0000000 0.5556527 0.7306199 0.7235354x1 0.5556527 1.0000000 0.1129513 0.3983870x2 0.7306199 0.1129513 1.0000000 0.5474739x3 0.7235354 0.3983870 0.5474739 1.0000000由上述可知,相关系数矩阵为(2)求y关于的三元线性回归方程解:> regress1 <- lm(yx+z+w,data=mystat1)> summary(regress1)Call:lm(formula = y x + z + w, data = my

32、stat1)Residuals: Min 1Q Median 3Q Max -25.198 -17.035 2.627 11.677 33.225 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -348.280 176.459 -1.974 0.0959 .x 3.754 1.933 1.942 0.1002 z 7.101 2.880 2.465 0.0488 *w 12.447 10.569 1.178 0.2835 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.

33、1 1Residual standard error: 23.44 on 6 degrees of freedomMultiple R-squared: 0.8055, Adjusted R-squared: 0.7083 F-statistic: 8.283 on 3 and 6 DF, p-value: 0.01487由程序分析看出: y=-348.280+3.754+7.101+12.447(3)对所求得的方程作拟合优度检验:解:查看上题的程序得出:=0.806,可以认为回归方程对样本的拟合程度较高。(4)对回归方程作显著性检验:解:仍然根据上题的程序得出:p=0.01487,在显著性水

34、平,方程显著,即整体对y的线性影响是显著的。(5)对每一个回归系数作显著性检验: 解:根据上题的程序看出:的Sig.值分别为:0.1002,0.0488,0.2835,在显著性水平下,只有(6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验:解:从上题可以看出,和是不显著的,原则上每次先剔除一个变量,所以第一次先剔除p值最大的> mystat2 <- data.frame(x,y,z)> mystat2 x y z1 70 160 352 75 260 403 65 210 404 74 265 425 72 24

35、0 386 68 220 457 78 275 428 66 160 369 70 275 4410 65 250 42> regress12 <- lm(yx+z,data=mystat2)> summary(regress12)Call:lm(formula = y x + z, data = mystat2)Residuals: Min 1Q Median 3Q Max -42.012 -10.656 4.358 11.984 28.927 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept)

36、 -459.624 153.058 -3.003 0.01986 * x 4.676 1.816 2.575 0.03676 * z 8.971 2.468 3.634 0.00835 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 24.08 on 7 degrees of freedomMultiple R-squared: 0.7605, Adjusted R-squared: 0.6921 F-statistic: 11.12 on 2 and 7 DF, p-value: 0.00671

37、8l 可以看出将参量x3剔除后,回归方程p值为0.006718,在显著性水平为0.05时高度显著,表明并且小于剔除之前的p值。l 的p值为0.03676,0.00835,在显著性水平为0.05时都显著。(7)求出每一个回归系数的置信水平为95%的置信区间。解:> confint(regress12) 2.5 % 97.5 %(Intercept) -821.547 -97.700x 0.381 8.970z 3.134 14.808l 得出a0的置信水平为95%的置信区间为(-821.547,-97.700)l a1的置信水平为95%的置信区间为(0.381,8.970)l a2的置信水

38、平为95%的置信区间为(3.134,14.808)(8)求标准化回归方程: 解:> meanx <- mean(x)> meany <- mean(y)> meanz <- mean(z)> meanw <- mean(w)> for (i in 1:10)+ Lxx <- (xi-mean(x)2> Lxx1 28.09> x2 <- (x-meanx)/sqrt(Lxx)> x2 1 -0.05660377 0.88679245 -1.00000000 0.69811321 0.32075472 -0.43

39、396226 7 1.45283019 -0.81132075 -0.05660377 -1.00000000> for (i in 1:10)+ Lyy <- (yi-mean(y)2> y2 <- (y-meany)/sqrt(Lyy)> y2 1 -3.8648649 1.5405405 -1.1621622 1.8108108 0.4594595 -0.6216216 7 2.3513514 -3.8648649 2.3513514 1.0000000> for (i in 1:10)+ Lzz <- (zi-meanz)2> z2 &l

40、t;- (z-meanz)/sqrt(Lzz)> z2 1 -3.375 -0.250 -0.250 1.000 -1.500 2.875 1.000 -2.750 2.250 1.000> for (i in 1:10)+ Lww <- (wi-meanw)2> w2 <- (w-meanw)/sqrt(Lww)> w2 1 -1.9850746 0.1044776 -0.4925373 1.0000000 -1.6865672 -1.2388060 7 2.4925373 -0.4925373 1.2985075 1.0000000> mystat

41、2 <- data.frame(x2,y2,z2,w2)> regress12 <- lm(y2x2+z2+w2,data=mystat2)> summary(regress12)Call:lm(formula = y2 x2 + z2 + w2, data = mystat2)Residuals: Min 1Q Median 3Q Max -1.3620 -0.9208 0.1420 0.6312 1.7960 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.392e-15 4.

42、007e-01 0.000 1.0000 x2 1.075e+00 5.539e-01 1.942 0.1002 z2 6.141e-01 2.491e-01 2.465 0.0488 *w2 4.508e-01 3.828e-01 1.178 0.2835 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 1.267 on 6 degrees of freedomMultiple R-squared: 0.8055, Adjusted R-squared: 0.7083 F-statistic: 8

43、.283 on 3 and 6 DF, p-value: 0.01487l 剔除x3之前的标准化回归方程为:y=-1.392e-15+1.075x1+ 6.141e-01x2+4.508e-01x3(9)求当时的,给定置信水平为95%,用SPSS软件计算精确置信区间,手工计算近似预测区间。l 用SPSS精确置信区间:yLICI_1UICI_1预测值1607035114.1804249.1279181.65412607540186.7191313.0551249.88712106540139.2701266.9915203.13082657442200.9208325.3859263.15342407238155.9556279.8809217.91832206845195.3407328.6842262.01252757842213.4631350.2487281.85591606636105.138238.7071171.92262757044199.0204325.7651262.39282506542156.1113286.0341221.07277542204.435

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论