线性回归方程课件高二下学期数学选择性_第1页
线性回归方程课件高二下学期数学选择性_第2页
线性回归方程课件高二下学期数学选择性_第3页
线性回归方程课件高二下学期数学选择性_第4页
线性回归方程课件高二下学期数学选择性_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9.1.2线性回归方程教学目标1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理.2.掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.3.针对实际问题,会用一元线性回归模型进行预测.通过前面的学习我们已经了解到,根据成对样本数据的散点图和线性相关系数,可以推断两个变量是否存在相关关系以及线性相关程度的强弱等.若两个变量具有线性相关关系,是否可以像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的数学模型来刻画两个变量之间的相关关系?并通过模型进行预测?问题1下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高.由14对数据画出来的散点图点大致分布在一条直线附近.情景探究1编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.随机误差ε母亲身高生活环境饮食习惯体育锻炼

……

除父亲身高外,还有哪些因素影响儿子的身高?问题2yx假设没有随机误差,则儿子身高y只受父亲身高x影响,则y=a+bx.虽然父子的身高有较强的线性相关,但是我们无法用一次函数精确地反映x与y之间的关系.y的值虽然不能由变量x的值确定,但是却能表示为a+bx与ε的和,前一部分由x所确定,后一部分是随机的.如果ε=0,那么y与x之间的关系就可用一元线性函数模型来描述.回归直线的定义如果散点图中的样本点从整体上看,大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。一元线性回归模型的定义我们将y=a+bx+ε称为线性回归模型,其中其中a+bx是确定性函数,

ε称为随机误差。1.随机误差产生的主要原因有(1)所用的确定性函数不恰当引起的误差;(2)忽略了某些因素的影响;(3)存在观测误差等。2.函数模型与回归模型之间的差别函数模型:回归模型:

一元线性回归模型y=bx+a+ε增加了随机误差项ε,因变量

y的值由自变量x和随机误差项ε共同确定,即自变量x只能解释部分y的变化.路程与速度的关系、正方体体积与边长的关系可以应用函数模型刻画,体重与身高的关系、冷饮销量与气温的关系可以用回归模型刻画。情景探究2为了研究两个变量之间的相关关系,我们建立了一元线性回归模型表达式

刻画的是变量y与变量x之间的线性相关关系,其中参数a和b未知,我们能否通过样本数据估计参数a和b?与函数模型不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数.参数a和b刻画了变量y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.

难点:如何用数学的方法刻画“从整体上看,各散点与直线最接近”我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.设有n对观测数据(xi,yi)(i=1,2,3,···,n),根据线性回归模型,对于每一个xi,对应的随机误差项εi=yi-(a+bxi),我们希望y=a+bx+ε与y=a+bx越“接近”越好,即|ε1|+|ε2|+···+|εn|越小越好。由于|ε1|+|ε2|+···+|εn|是绝对值之和的形式,这对于进一步的运算与推导带来很多不便,而ε1+ε2+···+εn很小并不表示|ε1|+|ε2|+···+|εn|很小,因此通常用“ε12+ε22+···+εn2越小越好”来代替“|ε1|+|ε2|+···+|εn|越小越好”。yx刻画各样本观测数据与直线y=bx+a的“整体接近程度”于是,只要求出使

取最小值时的α,β的值,分别将它们作为a和b的估计值,记为(读作a估计,b估计),通过推导可得:其中.随机误差平方和(课本161-163)该公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小.使样本数据各点到回归直线的距离的平方和最小来得到回归直线的方法叫做最小二乘法.这里的“二乘”是平方的意思.线性回归方程的定义设有n对观测数据(xi,yi)(i=1,2,3,···,n),我们将由公式(其中)得到的直线称为n对数据的回归直线,此直线方程称为线性回归方程,其中称为回归截距,称为回归系数,称为回归值。(读作a估计,b估计)因为

,所以线性回归方程经过样本中心点,即线性回归直线经过点

注意:题型剖析题型一线性回归方程的认识与求解1、(多选)有关线性回归的说法,正确的是(

)(A)相关关系的两个变量不是因果关系(B)散点图能直接反映数据的相关程度(C)回归直线最能代表线性相关的两个变量之间的关系(D)任意一组数据都有回归方程ABC2.以下四个散点图中,两个变量的关系适合用线性回归模

型刻画的是(

)

(A)①② (B)①③(C)②③ (D)③④B(A)(B)(C)(D)3.三点(3,10),(7,20),(11,24)的线性回归方程是()D4.已知y与x之间的线性回归方程为,其样本点的中心为(3,y),样本数据中y的取值依次为2.5,m,3.4,4.2,5.4,则m的值为()(A)2(B)2.8(C)3(D)3.2Cx24568y20406070805.对具有线性相关关系的变量x,y,测得一组数据如下表,根据表中数据,利用最小二乘法得到回归直线方程

,据此模型预测当x=20时,y的估计值为()(A)210(B)210.5 (C)211.5(D)212.5C

3456

2.5344.5(1)请画出上表数据的散点图;

解:(1)由题设所给数据可得散点图,如图.

例2、下表为某地近几年机动车车辆数与交通事故数的统计

资料,请判断机动车车辆数与交通事故数之间是否具

有线性相关关系,如果具有线性相关关系,求出线性

回归方程;如果不具有线性相关关系,说明理由。机动车辆数x/103辆95110112120129135150180交通事故数y/103件6.27.57.78.58.79.810.213解:计算相应的数据之和:代入公式可得相关系数r=0.9927,故两个变量之间具有很强的线性相关关系.代入公式可得:因此,所求线性回归方程为(1)作出散点图或求出相关系数,分析数据间是否存在线性相关关系;

(4)写出回归方程并对实际问题作出估计.求经验回归方程的基本步骤解:由表中的数据可得例3、统计学家K.Pearson收集了大量父亲和儿子的身高数

据,下表是从中随机抽取的10对父子的身高数据,父亲的身高x/cm152.4157.5162.6165.1167.6儿子的身高y/cm161.3165.6167.6166.4169.9父亲的身高x/cm170.2172.7177.8182.9188.0儿子的身高y/cm170.4171.2173.5178.1177.8试估计父亲身高为166cm时,他儿子的身高。由公式可得:因此,所求线性回归方程为当x=166时,,即父亲的身高为166cm时,他的儿子的身高约为168cm。根据线性相关系数公式可得r=0.9801,说明父亲与儿子的身高之间具有很强的线性相关关系,通过观测得到的数据称为观测值,通过线性回归方程得到的称为估计值,观测值减去对应的估计值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.残差残差图为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图下所示观察残差的散点图可以发现,残差有正有负,比较均匀地分布在横轴的两边.说明残差比较符合一元线性回归模型的假定,好的回归方程对应的残差散点图应是均匀地分布在横轴两侧的带状区域内.且带状区域越窄,说明模型拟合效果越好.一般地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论