版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 回归分析回归分析l0 引例引例l1 (多元多元)线性回归模型线性回归模型l2 参数的最小二乘估计参数的最小二乘估计l3 线性关系的显著性检验线性关系的显著性检验l4 区间预测区间预测l5 参数的区间估计参数的区间估计(假设检验假设检验)l6 matlab多元线性回归多元线性回归l7 matlab非线性回归非线性回归l8 非线性回归化为线性回归非线性回归化为线性回归l9 matlab逐渐回归逐渐回归l10 综合实例:牙膏的销售量综合实例:牙膏的销售量l11 综合实例:投资额与国民消费总值和物价指数综合实例:投资额与国民消费总值和物价指数 例例1: 水泥凝固时放出的热量水泥凝固时放出的热量y与水
2、泥中与水泥中4种化学成分种化学成分x1、x2、x3、 x4 有关,今测得一组数据如下,试确定一个有关,今测得一组数据如下,试确定一个 线性模型线性模型. 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 x1 7 1 11 11 7 11 3 1 2 21 1 11 10 x2 26 29 56 31 52 55 71 31 54 47 40 66 68 x3 6 15 8 8 6 9 17 22 18 4 23 9 8 x4 60 52 20 47 33 22 6 44 22 26 34 12 12 y 78.5 74.3 104.3 87.6 95.9 109.2 102.
3、7 72.5 93.1 115.9 83.8 113.3 109.4 l线性关系能否显著?线性关系能否显著?l当当x=(8,30,10,10)时,时,95%的能够的能够y落在哪个区间落在哪个区间?l能否能否4种化学成分都对释放的热量有显著影响?种化学成分都对释放的热量有显著影响?ly还受其他要素影响吗还受其他要素影响吗? 如如x1*x2, yt-1,xt-101 1223344ybb xb xb xb x20123401 12233441(,)()niiiiiiQ b b b b bbb xb xb xb xyl为了可以运用普通最小二乘法进展参数估计,需对为了可以运用普通最小二乘法进展参数估计
4、,需对模型提出假设干根本假设模型提出假设干根本假设 :101 112211101 122kknnnkknnybb xb xb xybb xb xb x(1)随机误差项服从随机误差项服从0均值、同方差的正态分布均值、同方差的正态分布: 2(0,), 1,iNincov( ,)0, ijij (2)随机误差项在不同样本点之间是独立的随机误差项在不同样本点之间是独立的,不存在序列相关不存在序列相关: cov( ,)0, 1, ;1,iijxin jk(3)随机误差项与解释变量之间不相关随机误差项与解释变量之间不相关: 1 1多元线性回归多元线性回归多元线性回归多元线性回归一般称 nICOVEXY2)
5、,(, 0)( 为高斯马尔柯夫线性模型(k k 元元线线性性回回归归模模型型),并简记为),(2nIXY nyyY.1,nknnkkxxxxxxxxxX.1.1.1212222111211,k.10,n.21 线性模型),(2nIXY考虑的主要问题是: (1)用试验值(样本值)对未知参数和2作点估计和假设检验,从而建立 y 与kxxx,.,21之间的数量关系; (2)在,.,0022011kkxxxxxx处对 y 的值作预测与控制,即对 y 作区间估计. 称为回归平面方程. kkxxy.110用最小二乘法求k,.,0的估计量:作离差平方和 niikkiixxyQ12110. 选择k,.,0使
6、Q 达到最小。 得到的i代入回归平面方程得:kkxxy.110 称为经经验验回回归归平平面面方方程程.i称为经经验验回回归归系系数数. YXXXTT1解得0123462.401.550.510.100.14bbbbb假设 01:.0kH F检验法检验法r检验法检验法定义eyyQUULUR为 y 与 x1,x2,.,xk的多多元元相相关关系系数数或复复相相关关系系数数。 由于2211RRkknF,故用 F 和用 R 检验是等效的。 当 H0成立时,)1,()1/(/knkFknQkUFe 如果 F F1-(k,n-k-1) ,则拒绝 H0,认为 y 与 x1, xk之间显著 地有线性关系;否则就
7、接受 H0,认为 y 与 x1, xk之间线性关系不 显著. 其中 niiyyU12(回回归归平平方方和和) (残差平方和niiieyyQ12)(11niiyyn21()niiUyy21()neiiiQyy记:记:回归平方和:回归平方和:残差平方和:残差平方和:/( ,1)/(1)eU kFF k nkQnk1( ,1)FFk nk那么线性关系不显著,反之显著。那么线性关系不显著,反之显著。假假设设94.4231y =2677.9=47.862677.9/4111.4847.86/(134 1)F 1 0.1(4,134 1)2.8064F1点预测点预测求出回归方程kkxxy.110,对于给定
8、自 变量的值kxx ,.,*1,用*110*.kkxxy来预测 *110.kkxxy.称* y为*y的点预测. 2区间预测区间预测1knQee21()neiiiQyy残差平方和:残差平方和:1001/21001/21()(1)1()(1)TTeTTeyXX XX tnkyXX XX tnk,12( ,)kx xx01 122kkybb xb xb x在未知点在未知点 的点预测为:的点预测为: 而而y的置信程度的置信程度1- 的区间预测为:的区间预测为: 1eeQnk111111knknxxXxx01(1,)kXxx其中:其中: 21()neiiiQyy(7,40,10,30)y=89.70(8
9、9.70-18.32, 89.70+18.32)l 经常听到这样的说法,经常听到这样的说法,“假设给定解释变量值,根据假设给定解释变量值,根据模型就可以得到被解释变量的预测值为模型就可以得到被解释变量的预测值为值。这值。这种说法是不科学的,也是统计模型无法到达的。假设种说法是不科学的,也是统计模型无法到达的。假设一定要给出一个详细的预测值,那么它的置信程度那一定要给出一个详细的预测值,那么它的置信程度那么为么为0;假设一定要回答以;假设一定要回答以100%的置信程度处在什么的置信程度处在什么区间中,那么这个区间是区间中,那么这个区间是。l 在实践运用中,我们当然也希望置信程度越高越好,在实践运
10、用中,我们当然也希望置信程度越高越好,置信区间越小越好。如何才干减少置信区间?置信区间越小越好。如何才干减少置信区间?l 1置信程度与置信区间是矛盾的。但可增大样本置信程度与置信区间是矛盾的。但可增大样本容量容量n,使临界值,使临界值t减小。减小。l 2更主要的是提高模型的拟合优度,以减小残差更主要的是提高模型的拟合优度,以减小残差平方和。想象一种极端情况,假设模型完全拟合样本平方和。想象一种极端情况,假设模型完全拟合样本观测值,残差平方和为观测值,残差平方和为0,那么置信区间也为,那么置信区间也为0。l 3提高样本观测值的分散度。在普通情况下,样提高样本观测值的分散度。在普通情况下,样本观测
11、值越分散,本观测值越分散,(XX)-1越小。越小。2( ,)iieiibN bc1,0,iji jkCAcTAX X(1)iieiibbTt nkc1/21/2,ieiiieiibtcbtc记:记:故故bi的区间估计为:的区间估计为:那么有:那么有:假设要素假设要素xi不重要,那么有不重要,那么有bi=0,即上述区间包含,即上述区间包含0。l -99.1786 223.9893l -0.1663 3.2685l -1.1589 2.1792l -1.6385 1.8423l -1.7791 1.49105 逐渐回归逐渐回归4“有进有出的逐渐回归分析。1从一切能够的因子变量组合的回归方程中选择最
12、优者;2从包含全部变量的回归方程中逐次剔除不显著因子;3从一个变量开场,把变量逐个引入方程;选择“最优的回归方程有以下几种方法: “最优的回归方程就是包含一切对Y有影响的变量, 而不包含对Y影响不显著的变量回归方程。 以第四种方法,即逐渐回归分析法在挑选变量方面较为理想. 这个过程反复进展,直至既无不显著的变量从回归方这个过程反复进展,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。程中剔除,又无显著变量可引入回归方程时为止。“有进有出的逐渐回归分析有进有出的逐渐回归分析(组合优组合优化化) 从一个自变量开场,视自变量从一个自变量开场,视自变量Y作用的显著程度,从大作用
13、的显著程度,从大到小地依次逐个引入回归方程。到小地依次逐个引入回归方程。 但当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。 引入一个自变量或从回归方程中剔除一个自变量,为引入一个自变量或从回归方程中剔除一个自变量,为逐渐回归的一步。逐渐回归的一步。 对于每一步都要进展对于每一步都要进展Y值检验,以确保每次引入新的显值检验,以确保每次引入新的显著性变量前回归方程中只包含对著性变量前回归方程中只包含对Y作用显著的变量。作用显著的变量。b, bint,r,rint,stats=regress(Y,X,alpha)回归系数的区间估计残差置信区间 相关系数 r2越接近 1,说明回归方程越
14、显著; F F1-(k,n-k-1)时拒绝 H0,F 越大,说明回归方程越显著; 与 F 对应的概率 p时拒绝 H0,回归模型成立.ppxxy.110pb.10nYYYY.21npnnppxxxxxxxxxX.1.1.1212222111211引例引例1的解的解1、输入数据:、输入数据: x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164; X=ones(16,1) x; Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;2、回归分析及检验:、回归分析及检验:
15、b,bint,r,rint,stats=regress(Y,X) 得到结果:得到结果: b = bint = -16.0730 -33.7071 1.5612 0.7194 0.6047 0.8340 stats = 0.9282 180.9531 0.0000 即即 ; 的置信区间为的置信区间为-33.7017,1.5612, 的置信区间为的置信区间为0.6047,0.834; r2=0.9282, F=180.9531, p=0.0000。p0.05, 可知回归模型可知回归模型 y=-16.073+0.7194x 成立。成立。 7194. 0,073.1610013、残差分析,作残差图:、
16、残差分析,作残差图: rcoplot(r,rint) 从残差图可以看出,除第二个数据外,其他数据的残从残差图可以看出,除第二个数据外,其他数据的残差离零点均较近,且残差的置信区间均包含零点,这阐明差离零点均较近,且残差的置信区间均包含零点,这阐明回归模型回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第能较好的符合原始数据,而第二个数据可视为异常点二个数据可视为异常点. 可以去掉该点重新回归可以去掉该点重新回归4、预测及作图:、预测及作图:z=b(1)+b(2)*x plot(x,Y,k+,x,z,r)246810121416-5-4-3-2-101234Residual
17、Case Order PlotResidualsCase Number留意,留意,matlab没有线性回没有线性回归的区间预测函数,需求归的区间预测函数,需求本人根据公式计算。本人根据公式计算。逐渐回归的命令是: stepwisex,y,inmodel,alpha 运转stepwise命令时产生三个图形窗口:Stepwise Plot,Stepwise Table,Stepwise History. 在Stepwise Plot窗口,显示出各项的回归系数及其置信区间. Stepwise Table 窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余规范差RMSE、相关系数R
18、-square、F值、与F对应的概率P.矩阵的列数的目的,给出初始模型中包括的子集缺省时设定为全部自变量显著性程度缺省时为0.5自变量数据, 阶矩阵mn因变量数据, 阶矩阵1n引例引例2: 水泥凝固时放出的热量水泥凝固时放出的热量y与水泥中与水泥中4种化学成分种化学成分x1、x2、x3、 x4有关,今测得一组数据如下,试用逐渐回归法确定一个有关,今测得一组数据如下,试用逐渐回归法确定一个 线性模型线性模型. 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 x1 7 1 11 11 7 11 3 1 2 21 1 11 10 x2 26 29 56 31 52 55 71 31
19、 54 47 40 66 68 x3 6 15 8 8 6 9 17 22 18 4 23 9 8 x4 60 52 20 47 33 22 6 44 22 26 34 12 12 y 78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4 1、数据输入:、数据输入:x1=7 1 11 11 7 11 3 1 2 21 1 11 10;x2=26 29 56 31 52 55 71 31 54 47 40 66 68;x3=6 15 8 8 6 9 17 22 18 4 23 9 8;x4=60 52 20
20、47 33 22 6 44 22 26 34 12 12;y=78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4;x=x1 x2 x3 x4;2、逐渐回归:、逐渐回归:1先在初始模型中取全部自变量:先在初始模型中取全部自变量: stepwise(x,y)得图得图Stepwise Plot 和表和表Stepwise Table图图Stepwise Plot中四条直线都是虚中四条直线都是虚线,阐明模型的显著性不好线,阐明模型的显著性不好从表从表Stepwise Table中看出变中看出变量量x3和和x4的显著
21、性最差的显著性最差.2在图在图Stepwise Plot中点击直线中点击直线3和直线和直线4,移去变量,移去变量x3和和x4移去变量移去变量x3和和x4后模型具有显著性后模型具有显著性. 虽然剩余规范差RMSE没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好.3对变量对变量y和和x1、x2作线性回归:作线性回归: X=ones(13,1) x1 x2; b=regress(y,X)得结果:b = 52.5773 1.4683 0.6623故最终模型为:y=52.5773+1.4683x1+0.6623x2留意,留意,matlab没有线性回归的区间预测没有线性回归的区间预测函数,需
22、求本人根据公式计算。函数,需求本人根据公式计算。问问题题建立牙膏销售量与价钱、广告投入之间的模型建立牙膏销售量与价钱、广告投入之间的模型 预测在不同价钱和广告费用下的牙膏销售量预测在不同价钱和广告费用下的牙膏销售量 搜集了搜集了30个销售周期本公司牙膏销售量、价钱、个销售周期本公司牙膏销售量、价钱、广告费用,及同期其它厂家同类牙膏的平均售价广告费用,及同期其它厂家同类牙膏的平均售价 9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价钱差价钱差
23、元元广告费用广告费用(百万元百万元)其它厂家其它厂家价钱价钱(元元)本公司价本公司价钱钱(元元)销售销售周期周期根本模型根本模型y 公司牙膏销售量公司牙膏销售量x1其它厂家与本公司价钱其它厂家与本公司价钱差差x2公司广告费用公司广告费用110 xy222210 xxy55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.510 x1y22322110 xxxyx1, x2解释变量解释变量(回归变量回归变量, 自变自变量量) y被解释变量因变量被解释变量因变量 0, 1 , 2 , 3 回归系数回归系数 随机误差均值为零的随机误差均值为零的
24、正态分布随机变量正态分布随机变量MATLAB 统计工具箱统计工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha) 输入输入 x= n4数据矩阵数据矩阵, 第第1列为全列为全1向量向量1 2221xxxalpha(置信程度置信程度,0.05) 22322110 xxxyb的估计的估计值值 bintb的置信区间的置信区间 r 残差向量残差向量y-xb rintr的置信区间的置信区间 yn维数据向量维数据向量输出输出 由数据由数据 y,x1,x2估计估计结果分析结果分析y的的90.54%可由模型确定可由模型确定 参数参数参数估计值参数估计值置信区间置信
25、区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 322322110 xxxyF远超越远超越F检验的临界值检验的临界值 p远小于远小于=0.05 2的置信区间包含零点的置信区间包含零点(右右端点距零点很近端点距零点很近) x2对因变量对因变量y 的的影响不太显著影响不太显著x22项显项显著著 可将可将x2保管在模型中保管在模型中 模型从整体上看成立模型从整体上看成立22322110 xxxy销售量预测销售量
26、预测 价钱差价钱差x1=其它厂家价钱其它厂家价钱x3-本公司价钱本公司价钱x4估计估计x3 调整调整x4控制价钱差控制价钱差x1=0.2元,投入广告费元,投入广告费x2=650万元万元销售量预测区间为销售量预测区间为 7.8230,8.7636置信度置信度95%上限用作库存管理的目的值上限用作库存管理的目的值 下限用来把握公司的现金流下限用来把握公司的现金流 假设估计假设估计x3=3.9,设定,设定x4=3.7,那么可以,那么可以95%的的把握知道销售额在把握知道销售额在 7.83203.7 29百万元百万元以上以上控制控制x1经过经过x1, x2预测预测y2933.822322110 xxxy(百万支百万支)模型改良模型改良x1和和x2对对y的影响独立的影响独立 22322110 xxxy21422322110 xxxxxy参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵阳幼儿师范高等专科学校《动画场景设计》2023-2024学年第一学期期末试卷
- 2025山西省安全员C证(专职安全员)考试题库
- 硅湖职业技术学院《面向对象技术》2023-2024学年第一学期期末试卷
- 2025甘肃省建筑安全员考试题库
- 广州幼儿师范高等专科学校《绿色建筑与绿色施工》2023-2024学年第一学期期末试卷
- 2025年四川建筑安全员-B证(项目经理)考试题库
- 广州卫生职业技术学院《温病学》2023-2024学年第一学期期末试卷
- 2025贵州建筑安全员B证(项目经理)考试题库
- 2025黑龙江省安全员-C证(专职安全员)考试题库
- 《ESD知识和控制》课件
- 人教版四年级上册竖式计算400题及答案
- 重庆开县2023-2024学年七年级上学期期末数学检测卷(含答案)
- 血气分析结果判读及临床应用护理课件
- 智能船舶与海洋工程:物联网在船舶与海洋工程中的应用
- 高速服务区经营分析报告
- 浙江省湖州市2022-2023学年四年级上学期数学期末试卷(含答案)
- 建井施工方案
- YMO青少年数学思维28届五年级全国总决赛试卷
- 个人业绩相关信息采集表
- 过敏性紫癜课件PPT
- 大学生暑期社会实践证明模板(20篇)
评论
0/150
提交评论