版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
建模讲座相关与回归分析第一页,共八十二页,2022年,8月28日第一节变量间的相关关系
一、变量相关的概念第二页,共八十二页,2022年,8月28日变量之间的关系
1.确定性关系函数关系,例如商品销售额与销售量2.非确定性关系相关关系,例如商品需求量与价格第三页,共八十二页,2022年,8月28日变量之间相关关系的示意图相关关系线性相关非线性相关正相关负相关第四页,共八十二页,2022年,8月28日二、相关系数及其计算1.变量之间线性相关关系的密切程度的度量2.两个变量之间线性相关程度的度量,也称简单相关系数3.根据总体全部数据计算而得的相关系数,称总体相关系数,记为ρ4.根据样本数据计算而的得相关系数,称为样本相关系数,记为r第五页,共八十二页,2022年,8月28日样本相关系数(1)其中(2)(3)x和y的样本相关系数为第六页,共八十二页,2022年,8月28日相关系数的取值范围及意义1.r的取值范围为[-1,1]2.,称完全相关,既存在线性函数关系
r=1,称完全正相关
r=-1,称完全负相关3.r=0,称零相关,既不存在相关关系4.r<0,称负相关5.r>0,称正相关6.愈大,表示相关关系愈密切第七页,共八十二页,2022年,8月28日例1在研究我国人均消费水平的问题中,把人均消费金额记为y;把人均国民收入记为x。我们收集到1981-1993年13年的样本数据。数据见表1。年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981393.8024919881068.86431982419.1426719891169.26991983460.8628919901250.77131984544.1132919911429.58031985668.2940619921725.99471986737.7345119932099.511481987859.97513表1我国人均国民收入与人均消费金额数据
第八页,共八十二页,2022年,8月28日解:根据样本数据得得人均消费金额y与人均国民收入x的样本相关系数为第九页,共八十二页,2022年,8月28日相关系数的显著性检验1.检验两个变量之间是否存在线性关系2.检验步骤⑴.⑵.在成立条件下,则⑶.对规定的显著性水平,若则拒绝,接受。否则接受。第十页,共八十二页,2022年,8月28日例1的相关系数检验1.2.根据和,查表得3.由于因此,拒绝,认为x和y的相关系数,即人均消费金额y与人均国民收入x之间的相关关系显著。第十一页,共八十二页,2022年,8月28日第二节一元线性回归1.一元线性回归模型2.回归参数的最小二乘估计3.回归方程的显著性检验4.预测第十二页,共八十二页,2022年,8月28日回归分析与相关分析的区别1.相关分析中x和y都处于相同地位,而回归分析中,y称因变量,x称自变量。2.相关分析中x和y都是随机变量,而在回归分析中,因变量y是随机变量,自变量x则可以是随机变量,也可以是非随机变量。3.相关分析主要是描述变量之间的相关关系,而回归分析主要是确定变量之间的内在联系。第十三页,共八十二页,2022年,8月28日回归模型的类型示意图回归模型一元回归多元回归线性回归非线性回归线性回归非线性回归第十四页,共八十二页,2022年,8月28日一、一元线性回归模型称为一元线性回归模型1.一元线性回归模型只含有一个自变量x2.误差项为随机变量3.描述因变量y与自变量x和误差项的关系4.和称为模型的参数(10.4)第十五页,共八十二页,2022年,8月28日一元线性回归模型的基本假定1.x为确定性变量2.误差项满足3..(10.5)区间估计和假设检验时,还进一步假定服从正态分布即当时,而则是x变动一个单位时,的相应变化量第十六页,共八十二页,2022年,8月28日样本回归方程1.
和
是未知参数,可以根据样本数据作估计2.
和
的估计记为和,则称为样本回归方程3.是样本回归方程的斜率,表示x每变动一个单位时,的相应变化量。而则是样本回归方程的截距。即x=0时,4.设已取得样本量为n的随机样本,则(10.6)(10.11)第十七页,共八十二页,2022年,8月28日二、参数β0,β1的最小二乘估计
1.最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来求和的估计和的方法,即使达到最小,称和为和的最小二乘估计。(10.12)第十八页,共八十二页,2022年,8月28日2.根据微积分中求极值的原理,和应满足下列方程组得正规方程组解正规方程组得(10.16)(10.17)第十九页,共八十二页,2022年,8月28日例根据例10.1的数据,建立人均消费金额y对人均国民收入的回归方程。已求得按(10.17)式,得从而样本回归方程为因此当人均国民收入增长1元时,则人均消费金额增长约0.5元。第二十页,共八十二页,2022年,8月28日三、回归方程的显著性检验
㈠、F检验
1.平方和分解
用SST表示因变量的总离差平方和,反映y全部数据的离散程度,即并可分解成如下形式(10.21)(10.20)第二十一页,共八十二页,2022年,8月28日续而根据(10.16)式于是(10.22)其中称为残差平方和,是由随机因素和其他未加控制的因素引起的,反映除x以外的其他因素对y
的影响大小。而称为回归平方和,是由x
和y的线性关系引起的y的取值变化,反映x对y的影响大小。第二十二页,共八十二页,2022年,8月28日2.计算平均平方
三个平方和的自由度⑴.SST的自由度为n-1⑵.SSR的自由度为1⑶.SSE的自由度为n-2关于自由度存在如下的关系式
n-1=(n-2)+1第二十三页,共八十二页,2022年,8月28日则SSE的平均平方为
SSE/(n-2)且(10.23)而SSR的平均平方为
SSR/1且回归方程的显著性检验是用回归的平均平方与残差的平均平方作比较,判断因变量与自变量是否存在线性关系。续(10.24)第二十四页,共八十二页,2022年,8月28日3.方差分析表
一元线性回归方程的假设检验是当为真时,则(10.26)前面的这些计算可以列成表格的形式,称为方差分析表。第二十五页,共八十二页,2022年,8月28日方差来源平方和自由度均方F统计量显著性水平回归SSR1SSR残差SSEn-2SSE/(n-2)--总和SSTn-1---方差分析表表10-2第二十六页,共八十二页,2022年,8月28日一元线性回归方程的显著性检验步骤
1.提出原假设2.计算检验统计量3.对规定的显著性水平,若则拒绝,认为,称回归方程显著。否则,接受,认为,称回归方程不显著。第二十七页,共八十二页,2022年,8月28日例对于例10.1的方差分析已知由于得
SSR=0.52638×1798122.644=946495.8从而
SSE=SST-SSR=2453.3方差分析表见表10-3第二十八页,共八十二页,2022年,8月28日方差来源平方和自由度均方F值回归946495.81946495.84244.4F0.05(1,11)=4.84残差2453.311223.0-总和948949.112--方差分析表表10-3从而拒绝,即回归方程显著。第二十九页,共八十二页,2022年,8月28日㈡、样本决定系数
1.表示回归平方和占总离差平方和的比例(10.27)
2.反映样本回归方程的拟合优度3.取值范围为[0,1]4.r2愈大,说明回归方程拟合得愈好5.样本决定系数为样本相关系数r的平方第三十页,共八十二页,2022年,8月28日例例10.1的样本决定系数即回归平方和占总离差平方和的99.74%第三十一页,共八十二页,2022年,8月28日相关系数与回归系数之间的数量关系(10.28)这就是说与的正负号必定相同第三十二页,共八十二页,2022年,8月28日四、预测及应用1.根据自变量x的取值预测y的取值2.预测可分两种类型⑴.点预测⑵.区间预测第三十三页,共八十二页,2022年,8月28日㈠、点预测对于自变量x的一个取值,根据样本回归方程用作为的估计,称为点预测对于例10.1,设,则(10.29)第三十四页,共八十二页,2022年,8月28日㈡、区间预测1.对于自变量x的一个取值,根据样本回归方程给出的一个估计区间,称为区间预测。2.在置信度时的预测区间为(10.30)对于例10.1,根据方差分析表得其中第三十五页,共八十二页,2022年,8月28日影响Δ的因素1.随的增大而增大2.随n的增大而减少3.随的增大而增大第三十六页,共八十二页,2022年,8月28日近似区间预测当n较大,且时,则从而1.,由于,得则0.95的近似预测区间为第三十七页,共八十二页,2022年,8月28日2.,由于,得则0.99的近似预测区间为续第三十八页,共八十二页,2022年,8月28日例对于例10.1,试求人均国民收入为2300时,人均消费金额的0.95预测区间。解:已知所以人均消费金额的0.95预测区间为(1223.51,1306.27)查表得从而第三十九页,共八十二页,2022年,8月28日第三节多元线性回归
一、多元线性回归模型
㈠、多元线性回归模型的一般形式称为多元线性回归模型1.多元线性回归模型包含一个因变量与两个或两个以上自变量2.误差项为随机变量3.描述因变量y与自变量和误差项ε的关系4.为模型的参数,称偏回归系数(10.31)第四十页,共八十二页,2022年,8月28日续5.设已取得样本量为n的随机样本。则多元线性回归模型可以表示为(10.33)第四十一页,共八十二页,2022年,8月28日多元线性回归模型的矩阵形式(10.33)其中第四十二页,共八十二页,2022年,8月28日㈡、多元线性回归模型的基本假定1.自变量是确定性变量,且2.误差项ε满足3.误差项服从正态分布从而(10.35)即(10.36)(10.37)第四十三页,共八十二页,2022年,8月28日㈢、多元线性回归方程的直观解释1.(10.38)(10.39)2.表示保持不变时,每变动一个单位时的相应变化量3.表示保持不变时,每变动一个单位时的相应变化量例:用y表示空调机的销售量,表示空调机的平均价格,表示消费者收入,则可建立二元线性回归模型。第四十四页,共八十二页,2022年,8月28日二、回归参数的估计样本回归方程1.是未知参数,可以根据样本数据作估计2.的估计记为,则称为样本回归方程第四十五页,共八十二页,2022年,8月28日参数的最小二乘估计
1.使因变量的观察值y与估计值之间的离差平方和达到最小来求,即使达到最小。称为的最小二乘估计第四十六页,共八十二页,2022年,8月28日2.根据微积分中求极值的原理应是下列正规方程组的解整理得第四十七页,共八十二页,2022年,8月28日3.正规方程组的矩阵形式为当的逆矩阵存在时,则有就是的最小二乘估计,并且(10.43)(10.44)第四十八页,共八十二页,2022年,8月28日三、回归方程的显著性检验
㈠、拟合优度检验
1.平方和分解由于从而(10.46)第四十九页,共八十二页,2022年,8月28日续其中称回归平方和,是由自变量和y的线性关系引起的y的取值变化,反映对y的影响大小,而称残差平方和,是由随机因素和其他未加控制的因素引起的,反映了除以外的其他因素对y的影响大小。第五十页,共八十二页,2022年,8月28日2.样本决定系数反映样本回归方程的拟合好坏程度,R2愈大,说明样本回归方程拟合得愈好。显然,。而称y关于的样本复相关系数,R的大小可以反映作为一个整体的与y的线性相关的密切程度。
拟合优度的检验可看成是回归方程的检验。(10.47)(10.48)第五十一页,共八十二页,2022年,8月28日3.调整的样本决定系数由于样本决定系数的分母SST对给定的样本数据是不变的,而SSR与引进回归方程的自变量个数有关。因此,应对R2作调整,调整的样本决定系数为第五十二页,共八十二页,2022年,8月28日㈡、F检验
1.计算平均平方
三个平方和的自由度⑴.SST的自由度为n-1⑵.SSR的自由度为p⑶.SSE的自由度为n-p-1关于自由度存在如下的关系式
n-1=p+(n-p-1)第五十三页,共八十二页,2022年,8月28日2.方差分析表
多元线性回归方程的显著性检验是检验当为真时,则(10.49)前面的这些计算结果可以列成表格的形式,称为方差分析表。(10.50)第五十四页,共八十二页,2022年,8月28日方差来源平方和自由度均方F值回归SSRpSSR/p残差SSEn-p-1SSE/(n-p-1)总和SSTn-1-方差分析表表10-5第五十五页,共八十二页,2022年,8月28日多元线性回归方程的显著性检验步骤
1.提出原假设和备择假设3.对规定的显著性水平,若则拒绝,认为y对存在线性关系,称回归方程显著。否则,认为y对之间不存在线性关系,称回归方程不显著。2.计算检验统计量至少有一个不为0第五十六页,共八十二页,2022年,8月28日四、回归系数的显著性检验
1.当回归方程显著时,仅表示中至少有一个不为0,即这时并不表示每一个自变量对因变量的影响都是显著的2.回归系数的显著性则是对每一个自变量都要检验,从而确定每一个自变量对因变量的影响是否显著3.采用t检验4.对于多元线性回归,回归系数的显著性检验与回归方程的显著性检验是两种不同的检验方法第五十七页,共八十二页,2022年,8月28日
1.提出原假设和备择假设回归系数的显著性检验步骤2.计算检验统计量其中而是对角线上第j个元素(10.53)第五十八页,共八十二页,2022年,8月28日续3.对规定的显著性水平,若则拒绝,称对y的影响显著,即认为。否则接受,称对y的影响不显著,即认为。第五十九页,共八十二页,2022年,8月28日五、多元线性回归的预测
㈠、点预测对自变量的一组取值根据样本回归方程用作为的估计,称为点预测(10.54)第六十页,共八十二页,2022年,8月28日㈡、区间预测1.对于自变量的一组取值根据样本回归方程给出的一个估计区间,称为区间预测。2.在置信度时的预测区间为其中第六十一页,共八十二页,2022年,8月28日近似区间预测当n较大时,且时,则从而1.,由于,得则0.95的近似预测区间为2.,由于,得则0.99的近似预测区间为第六十二页,共八十二页,2022年,8月28日例10.2中国民航客运量的回归模型。为了研究我国民航客运量的变化趋势及其成因,我们以民航客运量作为因变量y,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。y为民航客运量(万人),x1为国民收入(亿元),x2为消费额(亿元),x3为铁路客运量(万人),x4为民航航线里程(万公里),x5为来华旅游入境人数(万人)。根据《1994年统计摘要》获得1978-1993年统计数据,见表10-6。第六十三页,共八十二页,2022年,8月28日表10-6年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.701984554565239051135326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.70我国民航客运量的有关数据第六十四页,共八十二页,2022年,8月28日1.求回归系数的估计值得样本回归方程第六十五页,共八十二页,2022年,8月28日2.样本决定系数而样本复相关系数第六十六页,共八十二页,2022年,8月28日方差来源自由度平方和均方F值回归5137911002758219527.6242残差1052276.25227.62-总和1513843370--表10-7民航客运量回归的方差分析表3.方差分析方差分析表明回归方程显著第六十七页,共八十二页,2022年,8月28日4.回归系数的显著性检验查表得由于所以x3对y无显著影响,而其余各自变量均有显著影响第六十八页,共八十二页,2022年,8月28日5.剔除x3,重新建立样本回归方程求得,方差分析见表10-8,并且回归系数的显著性检验表明,所有的自变量都有显著影响。第六十九页,共八十二页,2022年,8月28日方差来源自由度平方和均方F值回归4137887203447180693.832残差1154651.544968.32-总和1513843370--民航客运量回归的方差分析表表10-9方差分析表明回归方程显著第七十页,共八十二页,2022年,8月28日6.预测即
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度股权投资合同详尽范本
- 2024年度某企业员工健康保险服务合同
- 2024年度矿井开采用起重机维修合同
- 2024年度工程监理合同及监理要求3篇
- 2024年度基于云计算的金融服务系统开发合同3篇
- 2024年度秦皇岛市供气合同3篇
- 四年级英语课件
- 【高中化学导学案】新课标高中化学必修一全册导学案(习题附参考答案)
- 《价格的谈判技巧》课件
- 幕墙施工组织方案书
- 《汉字输入一点通》课件
- 2024年中国联通黑龙江省分公司招聘笔试参考题库含答案解析
- 小学生多功能大语文素材词典
- 施工管理方案编制与实施
- 设立认证服务公司组建方案
- 物业团队职业素养培训
- 出租车驾驶员培训资料
- 包装漏装改善方案
- 区块链在信息安全中的应用
- 政府机关办公楼物业管理服务方案三篇
- 2023年10月民航东北空管局届通导气象设备-气象-基建-财务岗位人员招考聘用18人笔试历年高频考点(难、易错点荟萃)附带答案详解
评论
0/150
提交评论