版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE5PAGE授课题目(教学章、节或主题)7.1一元回归分析需用学时2学时教学目标(知识、能力、素养)1、掌握一元回归分析的基本原理和回归方程显著性检验的方法及预测方法;2、了解MATLAB中回归分析函数的用法和帮助系统等;3、学会应用MATLAB软件进行一元回归分析和建模的方法;4、培养学生借助计算机初步建立用回归模型解决实际问题的能力。重点难点重点:1、MATLAB回归分析函数的用法;2、回归分析建模方法。难点:回归分析中检验课程思政元素1.通过回归分析发展史的了解,引导学生树立追求科学、精益求精的工匠精神;2.通过对回归建模中各类案例的讲解让学生知道数学的重要性,激发学习动力。教学内容及过程一、一元线性回归分析1.数学模型称之为一元线性回归模型.其中自变量x是可以控制的非随机变量,称为回归变量,两个未知参数a,b称为回归系数,y称为响应变量或因变量.由于是随机误差,根据中心极限定理,通常假定,是未知参数.因变量y的数学期望称为回归方程,它是一条直线,称为回归直线.一元线性回归模型用到了以下假定:(1)因变量y与自变量x有线性关系;(2)随机误差项,不同的x对应误差独立.独立性意味着一个特定的x对应的误差与其他的x对应的误差不相关;方差相同意味着对于所有的x,y的方差都是,该值越小,意味着y的观测值越靠近回归直线.2.回归系数的估计使用最广泛的是最小二乘方法可求得参数估计值:.由此得到(样本的)一元线性回归方程.注意,这里得到的回归方程,是由本次实验数据估计出来的,故也称为经验回归方程.该方程的直线称为回归直线.代入观测值,得到的值称回归预测值,它实际是E(y)预测值.3.回归方程统计检验拟合优度检验该检验是检验样本观测点与回归直线的接近程度,拟合程度越高说明回归方程对样本的代表程度越高.回归平方和在偏差平方和中所占的比重,记为()称为决定系数.用的大小来说明模型的拟合优度.它测度了回归直线对观测数据的拟合程度.越大说明回归平方和所占的比例越大,说明回归直线与各观测点越接近,用x的变化来解释y的变差的部分就越多,回归直线的拟合程度就越高。反之拟合程度就越差.在一元回归分析中相关系数就是决定系数的算术平方根.(2)回归方程的显著性检验当时,称回归方程高度显著;当时,称回归方程显著;当时,称回归方程不显著.在一元回归分析中,自变量只有一个,回归方程的显著性检验与回归系数的显著性检验是等价的.4.利用回归方程进行预测把自变量的每一个给定值代入回归方程,就可以求得一个对应的回归预测值,称为模型的点估计值.利用方程对预测目标进行区间估计.对给定的置信度,其预测区间为:二、回归分析的MATLAB函数介绍按照软件版本,分为两类:1各个版本都有的函数,2是较新版本才有函数。1.regress(y,x,alpha)、rcoplot(r,rint)2.fitlm(x,y,model)、plotDiagnostics、plotResiduals、predict三、应用案例例1设x为该时期的家庭人均收入,y为该时期内平均每十户拥有照相机的数量.统计数据见表7.1.试分析拥有相机数量y与家庭收入x的关系,并求出关系式.表7.1家庭人均收入与需要照相机数的关系家庭人均收入(百元)1.51.82.43.03.53.94.44.85.0有照相机(台/十户)2.83.75.06.38.810.511.011.613.2详见课件。四、一元非线性回归分析1.可化为线性的非线性。常见的可化为一元线性回归的非线性(即曲线型)问题,主要有以下几种情形:双曲线型。(2)幂函数型(3)指数函数()型对数函数型S曲线型2.相关函数介绍函数nlinfit(x,y,’model’beta0)nlintool(x,y,’model’,beta0,alpha)nlpredci(‘model’,x,beta,r,J)nlparci(beta,r,J)fitnlm(x,y,fun,beta0)plotDiagnostics(mdl,plottype)plotResiduals(mdl,plottype)predict(mdl,Xnew)3.应用案例例2在彩色显影中,根据经验,形成燃料光学密度y与析出银的光学密度x由公式表示,测得实验数据如下:表7.3光学密度与析出银的光学密度实验数据xi0.050.060.070.100.140.200.250.310.380.430.47yi0.100.140.230.370.590.791.001.121.191.251.29求y关于x的回归方程.详见课件。讨论、思考、作业1.案例讨论下表为1980~1991年间以1987年不变价计算的美国个人消费支出Y与国内生产支出X数据(单位:10亿美元)表7.4年份YX年份YX19802447.13776.319862969.14404.519812476.93843.119873052.24539.919822503.73760.319883162.44718.619832619.43906.619893223.34838.019842746.14148.519903260.44877.519852865.84279.819913240.84821.0(1)在直角坐标系下,作X与Y的散点图,并判断Y与X是否存在线性相关关系;(2)试求Y与X的一元线性回归方程;(3)对所得回归方程作显著性检验(=0.05);(4)若国内生产支出为x0=4500,试求对应的消费支出y0的点预测和包含概率为的95%区间预测.要求:用两类函数分别求解上述问题。参考资料(含参考书、文献等):《数学实验》,萧树铁主编高等教育出版社《数学实验》,李尚志主编高等教育出版社教学过程设计:复习0分钟,授新课85分钟,安排讨论5分钟,布置作业0分钟授课类型:√理论课讨论课实验课练习课其他教学方式:√讲授讨论指导其他教学资源:√课件√在线课程动画其他授课题目(教学章、节或主题)7.2多元回归分析需用学时2学时教学目标(知识、能力、素养)1、掌握多元回归分析的基本理论和建模方法;2、学会应用MATLAB软件进行多元回归分析和逐步回归;3、培养学生借助计算机初步建立用回归模型解决实际问题的能力和素养。重点难点重点:1、MATLAB回归分析中的检验方法、逐步回归;2、回归建模中变量检验和模型诊断。难点:回归分析中检验和模型诊断课程思政元素1.通过回归分析发展史的了解,引导学生树立追求科学、精益求精的工匠精神;2.通过对回归建模中的各类案例的讲解让学生知道数学的重要性,激发学习动力。教学内容及过程一、多元线性回归分析的基本理论1.假设关注对象y与m个影响因素之间有以下线性关系(7.3)(),称(7.3)为多元线性回归模型,其中y称为因变量(响应变量),称为回归变量,是未知的待定系数,称为回归系数.是随机误差,一般假设,是未知参数.更一般地有,(7.4)其中是已知的函数,因为y对它们是线性的,故也称为(广义)多元线性回归模型.(7.4)式经过变量代换可化为(7.3).多元线性回归分析的主要任务是:用试验值(样本观测值)对待定系数做出估计;对建立的回归方程和每个回归变量进行显著性检验;给定回归变量数据后,利用回归方程对y作预测.2.回归系数的估计为了估计回归系数,做了n组实验得到数据代入多元线性回归模型得到矩阵形式为其中,,,矩阵X为已知的样本数据矩阵,称为资料矩阵;B为未知的列向量(回归系数);服从独立的同分布,即应用最小二乘法估计可得到回归系数的估计值,设为.因此可得(样本)多元线性回归方程:.代入一组观测值,通过回归方程可计算出,称之为回归预测值.3.回归方程统计检验(1)回归方程的拟合优度(检验)在这里被称为复相关系数或全相关系数,即多重判定系数的算术平方根.复相关系数用来解释这一组影响因素与y的线性相关程度,用来评价模型的有效性.值越接近1,说明因变量y与回归变量之间的函数关系越密切;反之,则说明因变量y与回归变量之间的函数关系不密切或不存在线性函数关系.通常R大于0.8(或0.9)才认为相关关系成立.多重判定系数R2在多元线性回归分析是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例.使用时需要注意的是,如果增减变量的个数,前后模型对比时,一般使用调整的多重判定系数判定拟合优度.调整的多重判定系数公式是.此外,剩余标准差(RMSE)表示观测值偏离回归直线的平均误差,利用它也可以判断回归方程拟合的效果.显然,s越接近0,说明回归预测值与原始数据拟合的越好.(2)回归方程的线性显著性检验(检验)检验是定量地检验因变量与回归变量之间是否显著地有线性关系.构造统计量为:.F服从第一自由度为m,第二自由度为n-m-1的F分布,给定显著水平,查F分布表得.如果,则认为因变量与全体回归变量之间显著地有线性关系,可以利用所建立的多元线性回归方程进行预测;否则认为因变量与全体回归变量之间不存在显著的线性关系.常通过概率F的统计值对应的概率P<来说明因变量y与全体回归变量之间的线性相关性显著.注意,这里是指因变量y与至少一个回归变量有显著的线性关系,而不是与每一个回归变量都有显著的线性关系.当时,称回归方程高度显著;当时,称回归方程显著;当时,称回归方程不显著.4.回归系数的显著性检验方法如下:如果某个回归系数的置信区间包含0点,则说明该回归变量对因变量的影响不显著.若存在不显著的回归变量,剔除后,再进行其余变量的回归,直至余下的变量全部显著为止.如果同时有多个回归变量没有通过检验,剔除的原则是,先剔除t值最小的那个自变变量,一次只能剔除同一个,剔除一次重新回归计算一次.这里要注意的是,剔除一个变量时,不能完全根据统计的数量指标决定,还要考虑它对所研究问题的实际影响再最终确定其去留.残差分析与模型诊断观测值与回归值之差称为残差.在回归模型定义中,假设随机误差,如果残差不服从正态分布,则说明建立回归模型不够好,需要进一步改进模型.对于通过检验的模型,残差图中置信区间不经过0直线的残差所对应的个别数据,可从原数据中删除后再重新进行回归,这一点有时候很重要,直接影响到模型的结构,如例5中建立的模型.在多元线性回归模型中,一些回归变量之间彼此相关时,则称回归模型中存在多重共线性.如果出现下列情况,暗示存在多重共线性:模型中各对自变量之间显著相关.F检验通过时,几乎所有的回归系数检验通不过.回归系数的正负与实际预期相反.最后提醒一下,在建立多元线性回归模型时,不要试图引入更多的自变量,除非必要。特别是社会科学研究中,很多数据是非实验数据,质量不好,即使结果不满意,也不一定是模型不合适.建立的模型只有经得起实践的检验才是好模型.用回归方程预测当我们获得显著的回归方程,就可以运用该回归方程进行分析预测了.给出自变量的一组观测值,代入回归方程即可得到的回归预测值.给定置信度,我们还可以得y的的预测区间(置信区间).二、应用案例例3某公司调查某种商品的两种广告费用1和广告费用2对该产品销售量的影响,得到如下数据,试建立线性回归模型并进行检验,诊断是否有异常点.表7.8数据表销量Y9690959295959494广告费1(x1)1.52.01.52.53.32.34.22.5广告费2(x2)5.02.04.02.53.03.52.53.0详见课件。三、逐步线性回归分析1.逐步回归的原理建立的回归方程即使通过了回归方程的显著性检验,回归方程是不是“最优”的方程呢?实际问题中由于对因变量y的影响的因素较多,有的回归变量对因变量的影响并不显著,且多个回归变量之间可能存在相互依赖性,相互影响,这就给回归系数的估计带来不可靠的解释.为了得到“最优”的回归模型,我们要保留对因变量影响大的变量,剔除对因变量影响小的变量.这里最有效的方法是逐步回归法:(1)从一个自变量开始,根据对因变量y的影响程度,从大到小地依次逐个引入回归方程.但当引入的自变量由于后面的自变量的引入而变得不明显时,要将其除掉.(2)每引入或剔除一个自变量,都要对y进行一次检验,以确保每次引入新变量前回归方程中只包含对y作用显著的变量.(3)这个过程反复进行,直至没有显著影响变量引入,也没有不显著影响变量剔除为止.引入或剔除变量是由一定数学依据这里就不一一列举了.我们可以通过观察调整后的决定系数R2、F统计量和剩余标准差(RMSE)、回归系数的区间的变化来判断该判定变量对模型的影响的显著性.可用剩余标准差(RMSE)最小作为衡量变量选择的一个数量标准.逐步回归的MATLAB函数stepwise命令使用说明:stepwise(x,y,inmodel,alpha)(1)x是自变量数据矩阵,y是因变量数据矩阵;alpha是显著性水平(缺省时为0.05).(2)inmode是自变量初始集合的指标(数据矩阵的X哪些列进入初始集合),给出初始模型中包括的变量的子集,如取第2、3个变量时inmodel为[2,3](缺省时设定为全部自变量),alpha缺省为0.05.此外,Matlab2023还提供了如下逐步回归命令:stepwiselm(x,y,modelspec)这里x和y的意义同stepwise,modelspec用来提供模型的类别,详见软件帮助.值得注意的是,软件建立的“最优”模型只是统计意义上的,不一定是因果事实.模型的检验和改进还要结合所研究问题的专业知识来决定.应用案例例5表中数据是某建筑公司去年20个地区是销售量(Y千元),推销开支、实际帐目数、同类商品竞争数和地区潜力分别是影响建筑材料销售量的因素,试分析哪些是主要的影响因素,并建立该因素的线性回归模型.数据表7.10(见课件)操作详
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 买房带车位合同范例
- 废品店门面转让合同范例
- 水沟劳务分包合同范例
- 2024年秋九年级化学上册 第三单元 分子和原子教学实录 (新版)新人教版
- 唐山幼儿师范高等专科学校《机器人专业英语》2023-2024学年第一学期期末试卷
- 影院承包经营合同范例
- 唐山学院《数学课堂教学技能训练与评价》2023-2024学年第一学期期末试卷
- 工程 代付款 合同范例
- 唐山师范学院《商业品牌整体策划》2023-2024学年第一学期期末试卷
- 托管牛羊养殖合同范例
- 中建爬架施工方案
- 2024年中国甲烷报警仪市场调查研究报告
- 纪检委员工作职责
- 2024年办公室档案管理工作总结模版(3篇)
- 2025年小学五年级数学(北京版)-分数的意义(三)-3学习任务单
- 网络信息安全工程师招聘面试题及回答建议(某大型央企)2025年
- 2024年煤矿个人工作总结例文(4篇)
- 江苏省南通市多校2024-2025学年二年级上学期期中数学试卷
- 数字化转型成熟度模型与评估(DTMM)国家标准解读 2024
- 河南省名校八校联考2024-2025学年高二上学期期中模拟考试语文试题(含答案解析)
- 聘请专家的协议书(2篇)
评论
0/150
提交评论