




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计学回归分析第1页,共44页,2023年,2月20日,星期四目的
研究对象的数量波动能否被另外一个或几个因子来解释。第2页,共44页,2023年,2月20日,星期四假如用Y表示研究对象,用X表示其他可能可以解释研究对象波动的某个(某些)因子。则用数学方法可以建立函数关系Y=f(X)。建立这种关系的过程就叫做回归(regression)。得到的结果为回归方程。一旦建立了回归模型,除了对他们之间关系有了进一步的定量理解之外,还可以利用回归模型通过X对Y做预测(prediction)。第3页,共44页,2023年,2月20日,星期四例:学生高一成绩,能否被初三的成绩来解释?
第4页,共44页,2023年,2月20日,星期四回归分析原理图中的那条趋势线,如何用数学方法求出。确定直线的标准-最小二乘(leastsquares)
——直线到所有点的竖直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)。第5页,共44页,2023年,2月20日,星期四DPS下的回归方程建立变量 回归系数 标准回归系数标准误t值 p值b0 26.4441 5.39594.900.0000b1 0.6511 0.7953 0.0716 9.090.0000第6页,共44页,2023年,2月20日,星期四截距=26.444;斜率=0.651第7页,共44页,2023年,2月20日,星期四该直线数学理论公式:
截距和斜率(26.444和0.651)是对b0和b1的估计。理论公式中多出的e是随机误差,即每个观察值和拟合值的差值。第8页,共44页,2023年,2月20日,星期四计算出来的模型,有多大的可能性能代表他们之间的关系?这里我们关系的是:初3成绩每增加一分,高1成绩是否有可能跟着增加。在统计上的假设检验是统计软件,如DPS给出了这个检验的结果:t检验统计量为9.089,而p-值为0.000。第9页,共44页,2023年,2月20日,星期四因变量Y的波动,被解释变量X可以解释的比例,叫做决定系数(coefficientofdetermination),用R2表示。本例的R2=0.632;说明高一成绩的波动,大约有63%可由初3成绩来解释(或者说是由初3成绩来决定)。第10页,共44页,2023年,2月20日,星期四多个自变量的回归模型
多元回归方程:是前面的一个解释变量的推广。这里b0,b1,…,bk和前面一样,称为回归系数。统计软件,如DPS也会自动输出相应的检验结果。第11页,共44页,2023年,2月20日,星期四第12页,共44页,2023年,2月20日,星期四多元回归分析用户界面第13页,共44页,2023年,2月20日,星期四当有多个解释变量时的检验须用方程分析:检验是否目标变量和所有的解释变量都不存着数量上的关系。
方差分析表 方差来源 平方和 自由度 均方 F值 p值 回归 0.0640 4 0.0160 17.59 0.0000剩余 0.0173 19 0.0009 总的 0.0812 23 0.0035
相关系数R=0.8873,决定系数R^2=0.7874,调整相关R=0.8612第14页,共44页,2023年,2月20日,星期四各个解释变量对因变量重要性变量 回归系数 标准回归系数 标准误 t值 p值b0 -0.1417 0.0692 2.0483 0.0546b1 0.0001 0.5925 0.0000 4.2275 0.0005b2 0.0045 0.2727 0.0019 2.3637 0.0289b3 0.0000 -0.0011 0.0007 0.0095 0.9925b4 -0.0347 -0.4477 0.0108 3.2080 0.0046第15页,共44页,2023年,2月20日,星期四从多个解释变量里面挑选“重要”因子建立回归方程,逐步回归。逐步回归,逐个地把显著的变量加入;把不显著的变量去掉。第16页,共44页,2023年,2月20日,星期四17在DPS中,数据格式和线性回归相同:一行一个样本,一列一个变量,因变量放在最右边。在DPS中的逐步回归分析第17页,共44页,2023年,2月20日,星期四18逐步回归:调整R值达到最大下一页第18页,共44页,2023年,2月20日,星期四19第19页,共44页,2023年,2月20日,星期四20分析结果和线性回归相同。第20页,共44页,2023年,2月20日,星期四自变量中有定性变量的回归学生高1成绩受初3成绩影响数据中,如果还考虑家庭收入,但它是“低”,“中”,“高”,即用1,2,3来代表的定性变量。这时需要含定性变量的回归分析,这时的回归模型是:第21页,共44页,2023年,2月20日,星期四哑元的各个参数a1,a2,a3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。对于前面的例子,可得到第22页,共44页,2023年,2月20日,星期四
即b0,
b1,a1,a2,a3的估计值分别为28.708,0.688,-11.066,-4.679和0。回归分析结果 系数项系数值标准回归系数 标准误t值 p值常数项28.7081 A(1) -11.0662 -0.3928 2.6410-4.1901 0.0001A(2) -4.6789 -0.1998 2.1759-2.1503 0.0368X1 0.6876 0.8398 6.293810.9247 0.0000
回归方程 y=28.70811-11.06623A(1)-4.67886A(2)+0.687575X1
第23页,共44页,2023年,2月20日,星期四24
CCD试验设计中的回归分析
1、实验设计类型;
2、实验处理因子数
3、实验处理各个水平取值的设置方式
4、各处理零水平(中心点)/变化区间或最小/最大值。第24页,共44页,2023年,2月20日,星期四25第25页,共44页,2023年,2月20日,星期四26第26页,共44页,2023年,2月20日,星期四27
实验结果统计分析
左边方实验设计表,右边一列放各个处理相应的产量,然后用鼠标选中。最后进入主菜单,选择“试验统计”中的“实验优化分析”下面的“二次多项式回归”。系统出现如下界面。第27页,共44页,2023年,2月20日,星期四28第28页,共44页,2023年,2月20日,星期四29输出结果①、各个因素(试验处理水平)编码的平均值和标准差,以及相关系数矩阵;②、二次多项式回归模型;③、回归模型的F检验值及显著水平p,一般显著水平小于等于0.05时即可对该模型进一步分析,如果F太小,回归方程不显著,则不适合建立二次多项式回归模型来分析试验结果;第29页,共44页,2023年,2月20日,星期四30模型统计检验变异来源平方和自由度均方F值p值回归468.291433.44931.26880.3026残差553.642126.3636
失拟420.371042.03673.46970.0264
误差133.271112.1154总变异1021.9335第30页,共44页,2023年,2月20日,星期四31④、各个因子项的回归系数、标准回归系数、t检验值及显著水平p;⑤、回归模型的复相关系数R剩余标准差和调整后的相关系数,一般来说,调整后的相关系数越大越好;⑥、各个处理的观测值、拟合值和拟合误差,以及Durbin-Watson(DW)统计量。DW统计量只当分析样本按某一顺序(如处理先后)存放时才有意义,该值要在2的附近为好;第31页,共44页,2023年,2月20日,星期四32⑦、其他因子为零时单因子和两因子互作效应分析,可在DPS系统作图功能的支持下,分别作x-y曲线图和等高线图;⑧、其他因子为零水平时,各个因素的灵敏度分析,给出了系数灵敏度、导数、平均效应y/x和目标函数y,根据这些数据,可以进行边际分析;第32页,共44页,2023年,2月20日,星期四33⑨、典型分析,求一阶偏导数方程、拟合方程的典型形式,稳定点分析;⑩、在试验条件的约束之下,进行模型优化,得到最高产量时各个因素组合。如果在分析时按系统的提示,输入了目标指标的价格,以及各个处理因素的价格,系统将会给出最大经济效益时的产量和产值。第33页,共44页,2023年,2月20日,星期四34典型分析及模型优化对回归模型进行比较深入、直观地分析;典型分析(又称典范分析,典则分析,Canonicalanalysis)提供了较为理想的分析技巧。第34页,共44页,2023年,2月20日,星期四35应用典型方程,我们可以得到如下信息:一是稳定点处是否是拟合模型的极大值、极小值或者是鞍点:当典型方程的各个系数为负时,稳定点为模型的极大值;当典型方程的各个系数为正时,稳定点为模型的极小值;当典型方程的各个系数有正有负时,稳定点为鞍点。这一点很重要,这时因为我们在寻优建模时,往往根据专业背景,指定模型寻优方向。这种寻优方向可能和拟合模型本身的最优解不一致,或部分因子不一致。不一致时,采用数值寻优算法得到的最优点有可能位于实验因子取值的边界上。第35页,共44页,2023年,2月20日,星期四36第36页,共44页,2023年,2月20日,星期四37同时,根据典型方程,判断各个因素在稳定点附近的变化大小。系数越大,变化越快,该点的稳定性就较差,这是在应用中需要注意的。最后,如果通过数值优化分析和典型分析得到的最优值一致,那么模型可以认为是较好的,如果不一致,在模型应用时,需要进行更深入的分析,探明原因,且模型结果谨慎应用。第37页,共44页,2023年,2月20日,星期四38多因子实验优化的区组设计多因子优化设计试验,一般试验次数较多。试验次数增加会带来量方面的问题:一是试验时间延长。有的实验处理是依时间顺序一个接一个地进行的。由于时间延而产生的对实验结果的影响叫做时间漂移,这一影响很可能增加试验误差。这种情况在工业试验中较为普遍。另一种情况是试验区增大。在农林生物的田间试验中,因处理因子多、实验区加大、这样难以在同质的条件下进行试验,而需要进行小区控制、实行区组设计。第38页,共44页,2023年,2月20日,星期四39DPS提供的区组设计功能区组设计应用与多因子优化试验是有必要的。但遗憾的是,我们以往的试验优化分析工具,都没有提供可处理区组设计功能。这里,我们增加了处理含有若干区组的二次正交回归组合(中心复合)设计试验数据分析建模功能,该功能模块在“试验统计”“试验优化分析”“区组设计二次多项式回归”里面。第39页,共44页,2023年,2月20日,星期四40区组设计统计分析数据格式二次正交回归组合设计或其他多因子试验,如果在实施时划分了B个区组,在试验结果的数据分析时,数据的第一列放区组的顺序编号(1,2,...,B),其它列则和其它多因素实验设计一样,放各个处理因子的编码值或各个因子试验实施的水平值,最右边放试验观察指标结果值。第40页,共44页,2023年,2月20日,星期四41区组设计优化分析方差分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国平纹网数据监测研究报告
- 2025至2030年中国仿石桌面数据监测研究报告
- 2025年消防设施操作员之消防设备高级技能题库练习试卷B卷附答案
- 质检员基础知识培训课件
- 2025年大学生防诈骗知识竞赛题库试题及答案(共60题)
- 企业人力资源管理系统开发维护合同书
- 如何提升英语听力水平:听力技巧与素材选择教学教案
- 年度金融科技行业投资研究报告表
- 水暖安装劳务合同
- 户外广告位租赁经营协议书
- 2025年安徽省烟草专卖局(公司)招聘高频重点提升(共500题)附带答案详解
- 2025年春新冀教版英语三年级下册课件 2L2
- 2025年广西平果市事业单位招聘工作人员高频重点提升(共500题)附带答案详解
- 2025中国联通广东省分公司招聘187人高频重点提升(共500题)附带答案详解
- 研学旅行课程设计广西
- 2024-2030年中国留学中介行业转型模式及未来发展规划研究报告
- 子宫内膜癌治疗进展
- 2025年中考数学分类专项复习之概率
- 高考语文复习【知识精研】《晋书列传•陈寿传》教考衔接+课件
- 2024循环转型指标CTI行业指南-时尚及纺织业-WBCSD
- 绿化迁移专项施工方案
评论
0/150
提交评论