实验七 多元回归模型_第1页
实验七 多元回归模型_第2页
实验七 多元回归模型_第3页
实验七 多元回归模型_第4页
实验七 多元回归模型_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验七 多元回归模型(2学时)一、实验目的和要求1. 熟练掌握多元线性回归模型的建立方法,掌握并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制;2.掌握平方和分解公式,会编程求总离差平方和TSS、回归平方和RSS、残差平方和ESS、复相关系数平方等统计量; 3.会根据实际问题对建立多元非线性回归模型,掌握多元线性回归的regress命令格式二、实验内容1.多元线性回归模型(1)多元线性回归模型多元线性回归模型待定常数,回归系数,.矩阵表示对进行次独立观测,得组数据 则有 ,其中 相互独立,且采用矩阵记号 -观测向量- 设计矩阵-待估回归参数向量 -随机误差向量 多元

2、线性回归模型(2)参数估计及性质-的最小二乘估计-随机误差项方差的无偏估计-回归方程给出,可由的观测值和经验回归方程求得的预测值%求回归参数命令(3)复相关系数及相关性检验总离差平方和分解 总离差残差平方和(Total Sum of Squares) 残差平方和(Error Sum of Squares) 回归平方和(Regression Sum of squares)复相关系数平方,回归愈越显著%求复相关系数平方命令TSS=sum(y-mean(y).2) %计算总离差平方和,y是因变量Y数据RSS=sum(y1-mean(y).2) %计算回归平方和ESS=sum(y-y1).2) %计算

3、残差平方和R2=RSS/ESS; %计算样本决定系数R2=RSS/TSS(4)回归方程的显著性检验检验假设: 统计量 给出显著性水平,检验值,当拒绝,认为与线性回归显著;否则线性关系不显著%回归方程显著性检验命令F=(n-p-1)*SSR/SSE %计算的F统计量,n是样本容量F1=finv(0.95,p,n-p-1) %查F统计量0.05的分位数F2=finv(0.99,p,n-p-1) %查F统计量0.01的分位数p=1-fcdf(F,p,n-p-1) %求检验P值,F是上面计算结果(5)回归系数的统计推断检验假设 统计量 检验值当,拒绝,认为与线性回归显著;否则不显著%回归系数显著性的t

4、检验命令T=b1/sqrt(SSE/(n-2)*sqrt(sum(x-mean(x).2) %t统计量观测值to, x是自变量,b1是X的回归系数T1=tinv(0.975,n-p-1) %t统计量0.05的分位数T2=tinv(0.995,n-p-1) %t统计量0.01的分位数p=2-2*tcdf(T,n-p-1) %t检验的p值(6)预测及统计推断 因变量的点估计和区间估计给出,的预测值的置信区间 4.多元线性回归建模的基本步骤(1)对问题进行直观分析,选择因变量与解释变量,作出因变量与各解释变量散点图,初步设定多元线性回归模型参数个数;(2) 多元回归建模命令输入因变量与自变量的观测数

5、据(y,X), 计算参数的估计regeress,调用格式有以下三种:(1)b = regress(Y,X)(2)b,bint,r,rint,stats = regress(Y,X)(3)b,bint,r,rint,stats = regress(Y,X,alpha) 输入参数:因变量观测向量;矩阵,第一列元素全为1,第j列是自变量Xj观测向量,对一元线性回归,取p=1即可;alpha为显著性水平.输出参数:向量b-回归系数估计值bint-回归系数的(1-alpha)置信区间;向量r-残差列向量;rint-模型的残差的(1- a)的置信区间;stats-用于检验回归模型的统计量,有4个分量值:第

6、一个是复相关系数平方,第二个是F统计量值,第三个是与统计量F对应的概率P,当P<a时拒绝H0,即认为线性回归模型有意义,第四个是方差的无偏估计. (3)调用命令 rcoplot(r,rint)绘制残差及置信区间图,分析数据的异常点情况;(4)作显著性检验,若检验通过,则用模型作预测;(5)对模型进一步研究:如残差的正态性检验、残差异方差检验,残差自相关性检验等.例3.2.1某销售公司将库存占用资金情况、广告投入的费用、员工薪酬以及销售额等方面的数据作了汇总,该公司试图根据这些数据找到销售额与其他变量之间的关系,以便进行销售额预测并为工作决策提供参考依据.(1)建立销售额的回归模型;(2)

7、如果未来某月库存资金额为150万元,广告投入预算为45万元,员工薪酬总额为27万元,试根据建立的回归模型预测该月的销售额.表3.7 占用资金、广告投入、员工薪酬、销售额(单位:万元)月份库存资金额(x1)广告投入(x2)员工薪酬总额(x3)销售额(y)175.230.621.11090.4277.631.321.41133380.733.922.91242.147629.621.41003.2579.532.521.51283.2681.827.921.71012.2798.324.821.51098.8867.723.621826.397433.922.41003.31015127.724.

8、71554.61190.845.523.2119912102.342.624.31483.113115.64023.11407.11412545.829.11551.315137.851.724.61601.216175.667.227.52311.717155.26526.52126.718174.365.426.82256.5解:(1)建立回归模型为确定销售额与库存占用资金、广告投入、员工薪酬之间关系,分别作出y与x1,x2,x3散点图,若散点图显示它们之间近似线性关系,可设y与x1,x2,x3关系为三元线性回归模型.,程序:%输入数据并作散点图(图3.18)A=75.2 30.6 21.

9、1 1090.4; 77.6 31.3 21.4 113380.7 33.9 22.9 1242.1; 76 29.6 21.4 1003.279.5 32.5 21.5 1283.2; 81.8 27.9 21.7 1012.298.3 24.8 21.5 1098.8; 67.7 23.6 21 826.374 33.9 22.4 1003.3; 151 27.7 24.7 1554.690.8 45.5 23.2 1199; 102.3 42.6 24.3 1483.1115.6 40 23.1 1407.1; 125 45.8 29.1 1551.3137.8 51.7 24.6 16

10、01.2; 175.6 67.2 27.5 2311.7155.2 65 26.5 2126.7; 174.3 65.4 26.8 2256.5;m,n=size(A); %读取A的行数(样本容量n)和列数(回归参数个数p)subplot(3,1,1),plot(A(:,1),A(:,4),'+'),xlabel('x1(库存资金额)') ylabel('y(销售额)') %画3行一列图矩阵,第一张为(X1,Y)散点图subplot(3,1,2),plot(A(:,2),A(:,4),'*'),xlabel('x2(广告投

11、入)') ylabel('y(销售额)') % 第二张为(X1,Y)散点图subplot(3,1,3),plot(A(:,3),A(:,4),'x'),xlabel('x3(员工薪酬)') ylabel('y(销售额)') %第三张为(X1,Y)散点图如图3.18,可见销售额y与库存资金、广告投入、员工薪酬具有线性关系,因此可以建立三元线性回归模型.图3.18销售额与库存、广告、薪酬散点图% 调用命令regress建立三元线性回归模型x=ones(m,1), A(:,1:3); % 设计矩阵x第一列全为1,2-3列为X1-

12、X3数据y=A(:,4) % 读取A第4列Y值b,bint,r,rint,stats=regress(y,x); % 回归模型y因变量,X为设计矩阵b,bint,stats, % 输出结果 程序运行结果:1)回归参数估计 b =162.0632 7.2739 13.9575 -4.3996得因此回归方程为bint = -580.3603 904.4867 4.3734 10.1743 7.1649 20.7501 -46.7796 37.9805得到回归参数的95%置信区间分别为-580.3603,904.4867,4.3734,10.1743,7.1649,20.7501,-46.7796,

13、37.98052)模型的检验统计量stats输出结果stats=0.9574804050 105.0866520891 0.0000000008 10077.9867891125stats第一列为模型可决系数,说明自变量整体和因变量y线性关系显著;第二列为F统计量观测值,第三列得到概率;最后一列为模型残差平方和.拒绝原假设,认为线性回归模型显著.(2)预测求因变量预测值程序:x0=1,150,45,27; %给定自变量一组值,第一项为1yc=x0*b %求因变量预测值输出结果:yc =1.7624e+03即因变量预测值方法2 线性回归模型类的类方法对一元和多元线性回归模型,matlab提供了L

14、inearModel类,用户可以根据观测数据,调研LinearModel类的类方法,创建一个LinearModel类对象,用来求解回归模型。程序:A=75.2 30.6 21.1 1090.4; 77.6 31.3 21.4 113380.7 33.9 22.9 1242.1; 76 29.6 21.4 1003.279.5 32.5 21.5 1283.2; 81.8 27.9 21.7 1012.298.3 24.8 21.5 1098.8; 67.7 23.6 21 826.374 33.9 22.4 1003.3; 151 27.7 24.7 1554.690.8 45.5 23.2

15、1199; 102.3 42.6 24.3 1483.1115.6 40 23.1 1407.1; 125 45.8 29.1 1551.3137.8 51.7 24.6 1601.2; 175.6 67.2 27.5 2311.7155.2 65 26.5 2126.7; 174.3 65.4 26.8 2256.5;>> n,p=size(A); %读取A的行数和列数X=A(:,1:3) %X1-X3构成的数据矩阵 y=A(:,4)mmdl=LinearModel.fit(X,y) %调用LinearModel类的fit方法求解模型 结果输出:结果输出 mmdl = Linea

16、r regression model: y 1 + x1 + x2 + x3Estimated Coefficients:参数估计表 Estimate SE tStat pValue 参数估计 残差平方 t统计量 检验P值 (Intercept) 162.06 346.15 0.46818 0.64686 x1 7.2739 1.3523 5.3787 9.7273e-05 x2 13.957 3.167 4.4071 0.00059659 x3 -4.3996 19.76 -0.22265 0.82702 以下是关于一些统计量的结果:Number of observations: 18, E

17、rror degrees of freedom: 14Root Mean Squared Error: 100R-squared: 0.957, Adjusted R-Squared 0.948F-statistic vs. constant model: 105, p-value = 7.75e-10 其他结果,点击工作区mmdl,显示很多结果。包括给出3个平方和SSE、SST、SSR及MSE,残差Residuals,因变量拟合Fittde等诸多结果。说明:1),修正后的复相关系数平方 均认为和的线性关系显著.2)F统计量观测值,及检验概率均拒绝原假设,认为和的线性关系显著.3)从参数估计表

18、看出, 认为, 认为认为与关系显著,与关系不显著,可进一步考虑是否剔除.此外,该类结果还给出了一系列统计量值,如Fitted-因变量拟合结果,Residual残差结果,平方和SSESSTSSR等。例3.2.3现代服务业是社会分工不断深化的产物,随着经济的发展,科学技术的进步,现代服务业的发展受到多种因素和条件的影响。不仅受到经济总体发展水平的影响,还受到第二产业、就业、投入等因素的影响,从这几个主要方面出发,利用江苏省统计年鉴的有关数据,通过建立多元线性回归模型对1990-2008年各种因素对现代服务业的影响进行回归分析。假如构建如下江苏省服务业增长模型:,Y代表江苏省服务业的增加值(单位:亿

19、元),反映了江苏省服务业发展的总体水平。x1x4表示影响江苏省服务业发展的四种主要因素和影响,其中x1代表江苏省人均GDP(单位:元),说明江苏省总体经济发展水平对服务业的影响;x2代表江苏省第二产业的增加值(单位:亿元),说明了工业发展对服务业的影响,体现了生产性服务业的需求规模;x3表示江苏省服务业的就业人数(单位:万人); x4表示江苏省服务业资本形成总额(单位:亿元),主要体现服务业投资的经济效应。表3.11 江苏省关于服务业发展及各影响因素相关数据年份服务业增加值Y省人均GDPX1第二产业增加值X2服务业就业人数X3服务业资本形成总额X4198937.76203870.24589.7

20、4252.01199028.13210935.53623.19275.82199193.582353101.33640.95330.711992160.623106325.34706.39439.321993286.584321478.79786.37620.971994277.125801588.72855.97858.911995387.117319528.49920.451102.711996367.168471358.86975.661293.431997291.779371337.741025.221370.211998280.0110049228.241102.311624.741

21、999227.6110695280.051151.681773.372000329.1611765515.741192.021903.372001385.4412882471.571263.772131.872002437.0214396697.031341.862189.782003601.39168301182.621407.632686.572004704.72202231650.881443.373362.1920051291.11245601917.051542.463930.5620061360.09288141895.81625.064628.5920071769.2833928

22、2055.561713.335287.91解:(1)建立回归模型,,n=19,p=4回归分析程序%输入各影响因素的数据x0=203870.24589.74252.01210935.53623.19275.822353101.33640.95330.713106325.34706.39439.324321478.79786.37620.975801588.72855.97858.917319528.49920.451102.718471358.86975.661293.439371337.741025.221370.2110049228.241102.311624.7410695280.0511

23、51.681773.3711765515.741192.021903.3712882471.571263.772131.8714396697.031341.862189.78168301182.621407.632686.57202231650.881443.373362.19245601917.051542.463930.56288141895.81625.064628.59339282055.561713.335287.91;y=37.76,28.13,93.58,160.62,286.58,277.12,387.11,367.16,291.77,280.01,227.61,329.16,

24、385.44,437.02,601.39,704.72,1291.11,1360.09,1769.28' %Y服务业增加值列向量n,p=size(x0); %矩阵的行数即样本容量n,列数即回归变量个数x=ones(n,1),x0; % 构造设计矩阵,第一列为1,后4列为X1-X4db,dbint,dr,drint,dstats=regress(y,x); % 调用多元回归分析命令,输出回归参数db,回归参数置信区间dbinr,残差dr,残差置信区间drint,及一些统计量dstats程序运行结果:1)回归参数的估计n=19, p=4输出:db =345.2493 0.1672 0.19

25、62 -0.7012 -0.6537得到回归参数估计为所以,服务业增加值Y对4个自变量的线性回归方程为回归参数的区间估计结果dbint = 22.8409 667.6576 的置信区间 0.0731 0.2613 的置信区间为0.0731, 0.2631 0.0201 0.3722 的置信区间 -1.1650 -0.2374 的置信区间 -1.2867 -0.0207 的置信区间2)残差输出结果:dr = -83.8119 -59.4867 0.5889 14.6534 82.1633 7.9945 80.5396 64.6092 -72.1976 44.5876 5.7768 -4.5670

26、 73.2709 -79.9409 -46.9710 -136.1633 113.7938 -10.20225.3624即残差向量残差的置信区间结果drint = -221.9639 54.3402 即的置信区间-221.9639, 54.3402 -205.9396 86.9662 -151.4255 152.6034 -140.5198 169.8267 -62.4916 226.8182 -144.3484 160.3374 -72.5509 233.6301 -92.9528 222.1712 -214.9770 70.5819 -103.0712 192.2464 -137.4586

27、 149.0121 -162.2339 153.0999 -64.6853 211.2271 -195.3209 35.4392 -191.1233 97.1813 -228.7041 -43.6224 -12.7351 240.3227 -149.3628 128.9584 -85.7809 96.5057 的置信区间-85.7809, 96.50573)输出 统计量值dstats = 1.0e+003 * %下列数据要100.00010 0.1727 0.0000 5.7926可决系数R2=0.00010接近0, F统计量观测值,检验P值, <0.05, 残差方差估计值.(2)检验接

28、上面的程序,在MATLAB命令窗口中继续输入:1)回归方程的显著性F检验%计算平方和,进行求复相关系数平方SST=y'*(eye(n)-1/n*ones(n,n)*y; % 计算总偏差平方和TSSH=x*inv(x'*x)*x' % 计算对称幂等矩阵HESS=y'*(eye(n)-H)*y; % 计算ESSRSS=y'*(H-1/n*ones(n,n)*y; % 计算RSSMSR=RSS/p; % 计算MSRMSE=ESS/(n-p-1); %计算MSE%回归方程的F检验程序F0=(RSS/p)/(ESS/(n-p-1); % 计算F统计量观测值F0Fa

29、=finv(0.95,p,n-p-1) % F分布时的临界值=3.1122F检验结果对称幂等阵,即帽子矩阵HH = Columns 1 through 90.2483 0.2257 0.2150 0.1498 0.0946 0.0683 0.0669 0.0750 0.04010.2257 0.2089 0.1992 0.1349 0.0824 0.0581 0.0614 0.0768 0.04250.2150 0.1992 0.1947 0.1399 0.0909 0.0678 0.0627 0.0662 0.01830.1498 0.1349 0.1399 0.1583 0.1563 0.

30、1459 0.1057 0.0514 0.02980.0946 0.0824 0.0909 0.1563 0.1876 0.1870 0.1306 0.0474 0.05490.0683 0.0581 0.0678 0.1459 0.1870 0.1905 0.1321 0.0440 0.05950.0669 0.0614 0.0627 0.1057 0.1306 0.1321 0.1033 0.0594 0.08400.0750 0.0768 0.0662 0.0514 0.0474 0.0440 0.0594 0.0834 0.11390.0401 0.0425 0.0183 0.0298

31、 0.0549 0.0595 0.0840 0.1139 0.22530.0470 0.0674 0.0581 -0.0184 -0.0584 -0.0657 -0.0083 0.0846 0.06840.0306 0.0567 0.0555 -0.0280 -0.0757 -0.0831 -0.0262 0.0690 0.0170-0.0089 0.0117 0.0135 -0.0039 -0.0082 -0.0050 0.0208 0.0625 0.0533-0.0184 0.0117 0.0154 -0.0405 -0.0688 -0.0688 -0.0205 0.0590 0.0148

32、-0.1228 -0.1019 -0.1172 -0.0267 0.0604 0.0884 0.1010 0.1044 0.2641-0.1184 -0.1019 -0.0853 0.0186 0.0919 0.1176 0.0850 0.0275 0.0636-0.0399 -0.0336 0.0112 0.0574 0.0663 0.0763 0.0228 -0.0538 -0.1913-0.0486 -0.0566 -0.0342 0.0446 0.0884 0.1073 0.0602 -0.0208 -0.04120.0323 0.0217 0.0264 -0.0196 -0.0522

33、 -0.0499 -0.0290 -0.0040 -0.05790.0634 0.0349 0.0019 -0.0555 -0.0754 -0.0702 -0.0120 0.0541 0.1409 Columns 10 through 180.0470 0.0306 -0.0089 -0.0184 -0.1228 -0.1184 -0.0399 -0.0486 0.03230.0674 0.0567 0.0117 0.0117 -0.1019 -0.1019 -0.0336 -0.0566 0.02170.0581 0.0555 0.0135 0.0154 -0.1172 -0.0853 0.

34、0112 -0.0342 0.0264-0.0184 -0.0280 -0.0039 -0.0405 -0.0267 0.0186 0.0574 0.0446 -0.0196-0.0584 -0.0757 -0.0082 -0.0688 0.0604 0.0919 0.0663 0.0884 -0.0522-0.0657 -0.0831 -0.0050 -0.0688 0.0884 0.1176 0.0763 0.1073 -0.0499-0.0083 -0.0262 0.0208 -0.0205 0.1010 0.0850 0.0228 0.0602 -0.02900.0846 0.0690

35、 0.0625 0.0590 0.1044 0.0275 -0.0538 -0.0208 -0.00400.0684 0.0170 0.0533 0.0148 0.2641 0.0636 -0.1913 -0.0412 -0.05790.2157 0.2387 0.1488 0.2210 0.0508 -0.0028 -0.0065 -0.0827 0.03980.2387 0.2846 0.1732 0.2701 0.0030 0.0058 0.0727 -0.0690 0.06250.1488 0.1732 0.1335 0.1794 0.0972 0.0830 0.0682 0.0011

36、 0.02530.2210 0.2701 0.1794 0.2706 0.0458 0.0589 0.1094 -0.0283 0.06190.0508 0.0030 0.0972 0.0458 0.4573 0.2310 -0.1432 0.0339 -0.1036-0.0028 0.0058 0.0830 0.0589 0.2310 0.2487 0.1577 0.1701 0.0030-0.0065 0.0727 0.0682 0.1094 -0.1432 0.1577 0.4729 0.2701 0.1983-0.0827 -0.0690 0.0011 -0.0283 0.0339 0

37、.1701 0.2701 0.2824 0.18610.0398 0.0625 0.0253 0.0619 -0.1036 0.0030 0.1983 0.1861 0.32390.0024 -0.0575 -0.0453 -0.0727 0.0780 -0.0542 -0.1152 0.1368 0.3351 Column 19 0.0634 0.0349 0.0019 -0.0555 -0.0754 -0.0702 -0.0120 0.0541 0.1409 0.0024 -0.0575 -0.0453 -0.0727 0.0780 -0.0542 -0.1152 0.1368 0.3351 0.7102SSE =8.1096e+04SSR =4.0005e+

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论