版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.2一元线性回归模型及其应用
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题8.2.1一元线性回归模型一、知识回顾1.正相关和负相关:
2.线性相关:
3.非线性相关或曲线相关:
如果从整体上看,当一个变量的值增加时,另一个变量的
相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当
一个变量的值增加时,另一个变量的相应值呈现减少的趋势,
则称这两个变量负相关.
一般地,如果两个变量的取值呈现正相关或负相关,而且
散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么
我们就称这两个变量非线性相关或曲线相关.
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如下表所示.二、探究新知
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将上表中的成对样本数据表示为散点图,如右图所示.可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关,利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182父亲身高/cm185165170175180160185165170175180160190儿子身高/cm
根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?二、探究新知编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182
在表中的数据,存在父亲身高相同,而儿子身高不同的情况.例如,第6个和第8个观测的父亲身高均为172cm,而对应的儿子身高分别为176cm和174cm;
同样,第3、4两个观测中,儿子身高都是170cm,而父亲身高分别为173cm和169cm.可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画.
根据散点图,儿子身高和父亲身高这两个变量之间具有线性相关关系吗?二、探究新知
图的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型.其中,随机误差是一个随机变量.父亲身高/cm185165170175180160185165170175180160190儿子身高/cm三、一元线性回归模型
用x表示父亲身高,Y表示儿子身高,e表示随机误差,假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
为什么假设E(e)=0,而不假设其为某个不为0的常数?
我们称上式为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的.
如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
对于父亲身高x和儿子身高Y的一元线性回归模型
可以解释为父亲身高为xi的所有男大学生的身高组成一个子总体,该子总体的均值为bxi+a,即该子总体的均值与父亲身高是线性函数关系.而对于父亲身高为xi的某一名男大学生,他的身高yi并不一定为bxi+a,它仅是该子总体中的一个观测值,这个观测值与均值有一个误差项ei=yi-(bxi+a).三、一元线性回归模型
在研究儿子身高与父亲身高的关系时,
产生随机误差e的原因有:
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差e的原因.
你能结合具体实例解释产生模型(1)中随机误差项的原因吗?三、一元线性回归模型例1两个变量y与x的回归模型中,分别选择了4个不同模型,它们的
相关指数R2如下,其中拟合效果最好的模型是()
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25四、精典例题例2已知经验回归方程y=2x-1,则该方程在样本(3,4)处的残差为________.四、精典例题五、课堂小结
我们称上式为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,即e=Y-(bx+a).模型中的Y也是随机变量,其值虽然不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育法规押题练习试卷B卷附答案
- 2023年航空辅助动力系统资金申请报告
- 三年级数学计算题专项练习汇编及答案集锦
- FOB条件下国际货物买卖协议模板
- 2025年人教版高考历史试题及答案指导
- 2024年度模具采购协议精简样本
- 2024年度矿权出让及转让专项协议
- 2024年矿泉水采购正式协议样本
- 2024年服务协议增补协议样本
- 2024年医疗机构医生劳动协议模板
- 顾客满意理念与技巧课件
- 付款条件与支付方式
- 数字化赋能绿色智能制造案例分析
- 搜狗拼音输入法打字入门
- 【课件】+现实与理想-西方古典绘画+课件高中美术人美版(2019)美术鉴赏
- 纯银的金相组织分析报告
- 客户经理关键素质课件
- 爬宠行业的分析
- 2023-2024学年北师大版(2019)必修 第三册Unit 7 Art Lesson 3 A Musical Genius名师教学设计
- 《人人都是产品经》课件
- 汽车使用中的消防安全知识课件
评论
0/150
提交评论