高二(理)数学《回归分析》_第1页
高二(理)数学《回归分析》_第2页
高二(理)数学《回归分析》_第3页
高二(理)数学《回归分析》_第4页
高二(理)数学《回归分析》_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复习提问1两个随机变量之间具有线性相关关系是如何直观理解的?回归分析复习提问1两个随机变量之间具有线性相关关系是如何直观理解的?两个变量的样本数据的散点图大致分布在一条直线附近复习提问1两个随机变量之间具有线性相关关系是如何直观理解的?两个变量的样本数据的散点图大致分布在一条直线附近2什么叫回归直线?回归直线方程的一般形式是什么?复习提问1两个随机变量之间具有线性相关关系是如何直观理解的?两个变量的样本数据的散点图大致分布在一条直线附近2什么叫回归直线?回归直线方程的一般形式是什么?散点图的分布从整体上最接近的一条直线,其方程是:3函数关系是一种确定性关系,相关关系是一种非确定性关系,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。在必修3中,我们采用的方法是:画散点图→求回归直线方程→用回归直线方程进行预报。在理论上,这种研究方法是不全面、不深刻的,因此,对回归分析的理论和方法,我们还得作进一步的研究复习(一):回归直线方程1对于一组具有线性相关关系的数据1,y1,2,y2,…,n,yn,其回归直线方程中参数的计算

公式分别是什么?复习(一):回归直线方程1对于一组具有线性相关关系的数据1,y1,2,y2,…,n,yn,其回归直线方程中参数的计算

公式分别是什么?复习(一):回归直线方程1对于一组具有线性相关关系的数据1,y1,2,y2,…,n,yn,其回归直线方程中参数的计算

公式分别是什么?2点称为样本点中心,那么样本点中心与回归直线的位置关系是如何?回归直线经过样本点中心3设回归直线方程为,记

则在什么背景下n个样本数据与回归直线整体上最接近?Q最小时3设回归直线方程为,记

则在什么背景下n个样本数据与回归直线整体上最接近?探究(一):相关性检验思考1:如果具有相关关系的两个随机变量呈正相关或负相关,其散点图各有什么特点?探究(一):相关性检验思考1:如果具有相关关系的两个随机变量呈正相关或负相关,其散点图各有什么特点?正相关:散点图分布在从左下角到右上角的区域;探究(一):相关性检验思考1:如果具有相关关系的两个随机变量呈正相关或负相关,其散点图各有什么特点?正相关:散点图分布在从左下角到右上角的区域;负相关:散点图分布在从左上角到右下角的区域思考2:对任意一组样本数据都存在回归直线吗?

都能求得参数的值吗?思考2:对任意一组样本数据都存在回归直线吗?

都能求得参数的值吗?不一定存在回归直线,但可求得参数的值思考2:对任意一组样本数据都存在回归直线吗?

都能求得参数的值吗?不一定存在回归直线,但可求得参数的值思考3:对于一组样本数据:1,y1,2,y2,…,n,yn,有什么办法判断变量,y具有线性相关关系?思考2:对任意一组样本数据都存在回归直线吗?

都能求得参数的值吗?不一定存在回归直线,但可求得参数的值思考3:对于一组样本数据:1,y1,2,y2,…,n,yn,有什么办法判断变量,y具有线性相关关系?根据散点图的分布情况进行判断思考4:对于一组样本数据:1,y1,2,y2,…,n,yn,称为变量,y的相关系数,统计中用r来衡量两个变量之间

线性关系的强弱,且|r|≤1。你能感觉出当r>0,r<0,|r|→1,|r|→0时,变量,y分别具有怎样的相关性吗?当r>0时,表明两个变量正相关;

当r<0时,表明两个变量负相关;当|r|→1时,表明两个变量的线性相关性越强;当|r|→0时,表明两个变量的线性相关性越弱,

几乎不存在线性相关关系思考5:统计学认为,对于变量,y,如果|r|∈,则这两个变量有很强的线性相关关系,如果|r|∈[03,075),则这两个变量的相关性一般。

那么,对于一组样本数据,在什么条件下研究其回归

直线方程才有实际意义?思考5:统计学认为,对于变量,y,如果|r|∈,则这两个变量有很强的线性相关关系,如果|r|∈[03,075),则这两个变量的相关性一般。

那么,对于一组样本数据,在什么条件下研究其回归

直线方程才有实际意义?|r|∈探究(二):随机误差思考1:从某大学中随机选取8名女大学生,得其身高和体重y的回归直线方程为吗?探究(二):随机误差思考1:从某大学中随机选取8名女大学生,得其身高和体重y的回归直线方程为吗?不一定思考2:两个变量之间的线性相关关系是一种非确定性关系,在回归分析中,通常把称为解释变量,y称为预报变量,对不同的解释变量所对应的预报变量y与真实的y值之间的误差是常数还是随机变量?思考2:两个变量之间的线性相关关系是一种非确定性关系,在回归分析中,通常把称为解释变量,y称为预报变量,对不同的解释变量所对应的预报变量y与真实的y值之间的误差是常数还是随机变量?随机变量思考2:由于所有的样本点不共线,只是散布在某一条直线附近,所以身高与体重的关系可以用线性回归模型:y=-85712+e来表示,如何理解字母e的含意?思考2:由于所有的样本点不共线,只是散布在某一条直线附近,所以身高与体重的关系可以用线性回归模型:y=-85712+e来表示,如何理解字母e的含意?e是真实值y与预报变量之间的误差思考4:一般地,对具有线性相关关系的两个变量,y,可以用线性回归模型:y=b+a+e来表示,其中a,b

为模型的未知参数,e是y与之间的误差,并称为随机误差。它的均值Ee=0,方差De=σ2>0,那么线性回归模型的完整表达式是什么?思考4:一般地,对具有线性相关关系的两个变量,y,可以用线性回归模型:y=b+a+e来表示,其中a,b

为模型的未知参数,e是y与之间的误差,并称为随机误差。它的均值Ee=0,方差De=σ2>0,那么线性回归模型的完整表达式是什么?思考5:在上述线性回归模型中,随机误差e的方差σ2的大小变化,对通过回归直线预报真实值y的精度产生什么影响?思考5:在上述线性回归模型中,随机误差e的方差σ2的大小变化,对通过回归直线预报真实值y的精度产生什么影响?方差σ2越小,预报真实值的精度越高思考5:在上述线性回归模型中,随机误差e的方差σ2的大小变化,对通过回归直线预报真实值y的精度产生什么影响?方差σ2越小,预报真实值的精度越高思考6:回归模型中的参数a,b与回归方程中的参数

有什么差异?思考5:在上述线性回归模型中,随机误差e的方差σ2的大小变化,对通过回归直线预报真实值y的精度产生什么影响?方差σ2越小,预报真实值的精度越高思考6:回归模型中的参数a,b与回归方程中的参数

有什么差异?是回归直线的截距和斜率的估计值,a和b是回归直线的截距和斜率的真实值探究(三):残差分析思考1:随机误差e是随机变量,其均值为0,因此可以用方差σ2来衡量随机误差的大小,进而衡量预报的精度。能否从预报变量y中精确提取随机变量e的样本?探究(三):残差分析思考1:随机误差e是随机变量,其均值为0,因此可以用方差σ2来衡量随机误差的大小,进而衡量预报的精度。能否从预报变量y中精确提取随机变量e的样本?由于参数a,b是未知的,所以不能精确提取样本思考3:对于样本点1,y1,2,y2,…,n,yn,相应的随机误差为eii=1,2,…,n等于什么?其估计值等于什么?思考2:由样本数据可以建立回归方程所得

的估计量,那么随机误差可用哪个量来估计?思考3:对于样本点1,y1,2,y2,…,n,yn,相应的随机误差为eii=1,2,…,n等于什么?其估计值等于什么?思考2:由样本数据可以建立回归方程所得

的估计量,那么随机误差可用哪个量来估计?思考3:对于样本点1,y1,2,y2,…,n,yn,相应的随机误差为eii=1,2,…,n等于什么?其估计值等于什么?思考2:由样本数据可以建立回归方程所得

的估计量,那么随机误差可用哪个量来估计?思考4:上述称为相应于点i,yi的残差,类比样本方差估计总体方差的思想,可以用作为σ2的估计值,称为残差平方和。当样本容量为

1或2时残差平方和为多少?残差平方和为0,但不能认为预报误差为0思考4:上述称为相应于点i,yi的残差,类比样本方差估计总体方差的思想,可以用作为σ2的估计值,称为残差平方和。当样本容量为

1或2时残差平方和为多少?思考5:在研究两个变量间的相关关系时,先要根据散点图直观判断它们是否线性相关,再通过残差来判断模型的拟合效果,判断原始数据中是否存在可疑数据,这些分析工作称为残差分析。在残差分析中,计算各样本点残差估计值的步骤如何?思考5:在研究两个变量间的相关关系时,先要根据散点图直观判断它们是否线性相关,再通过残差来判断模型的拟合效果,判断原始数据中是否存在可疑数据,这些分析工作称为残差分析。在残差分析中,计算各样本点残差估计值的步骤如何?先求参数的值,再利用

求残差估计值思考6:利用图形可以直观分析残差特性,作图时纵坐标为残差,横坐标可以是样本编号,或样本中其它数据,所得的图形称为残差图。那么回归模型拟合精度越高,残差图有什么特性?思考6:利用图形可以直观分析残差特性,作图时纵坐标为残差,横坐标可以是样本编号,或样本中其它数据,所得的图形称为残差图。那么回归模型拟合精度越高,残差图有什么特性?残差点较均匀地散布在水平带状区域中,且带状区域

宽度较窄探究(四):相关指数思考1:称为相关指数,在线性回归模型中,可以证明相关指数恰好等于相关系数的平方,即R2=r2,那么R2的取值范围是什么?探究(四):相关指数思考1:称为相关指数,在线性回归模型中,可以证明相关指数恰好等于相关系数的平方,即R2=r2,那么R2的取值范围是什么?思考2:相关指数与残差平方和有什么关系?相关指数的大小变化与回归模型的拟合精度有何内在联系?思考2:相关指数与残差平方和有什么关系?相关指数的大小变化与回归模型的拟合精度有何内在联系?思考2:相关指数与残差平方和有什么关系?相关指数的大小变化与回归模型的拟合精度有何内在联系?R2取值越大,残差平方和越小,模型拟合的精度越高思考3:在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,它能说明解释变量对预报变量产生影响的百分比,对前面给出的女大学生身高与体重的样本数据,计算得R2=064,这表明什么内涵?思考3:在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,它能说明解释变量对预报变量产生影响的百分比,对前面给出的女大学生身高与体重的样本数据,计算得R2=064,这表明什么内涵?女大学生的体重差异有64%是由身高引起的思考4:建立回归模型的基本步骤是什么?思考4:建立回归模型的基本步骤是什么?1确定研究对象,明确解释变量和预报变量;2画出散点图,观察两个变量之间的关系;3由经验确定回归方程的类型;4按一定规则估计回归方程中的参数;5分析残差图是否有异常,并作适当处理思考5:利用回归模型进行预报时需要注意些什么问题?思考5:利用回归模型进行预报时需要注意些什么问题?1回归方程只适用于所研究的样本的总体;2所得回归方程一般都有时间性;3样本取值的范围会影响回归方程的取值范围;4由回归方程得到的预报值是预报变量的可能取值

的平均值探究(五):非线性回归方程【背景资料】一只红铃虫的产卵数y和温度有关,现收集了7组观测数据如下表:探究(五):非线性回归方程【背景资料】一只红铃虫的产卵数y和温度有关,现收集了7组观测数据如下表:325115662421117产卵数y/个35322927252321温度x/ºC思考1:作这组样本数据的散点图,变量,y是否呈线性相关关系?呈非线性相关关系思考2:从散点图来看,可认为这些样本点大致分布在一条指数函数曲线的周围,那么这个指数函数的解析式可设为哪种形式?思考2:从散点图来看,可认为这些样本点大致分布在一条指数函数曲线的周围,那么这个指数函数的解析式可设为哪种形式?思考3:如何将函数转化为一次线性函数?思考3:如何将函数转化为一次线性函数?两边取自然对数,可将函数变换为=b+a的形式思考3:如何将函数转化为一次线性函数?两边取自然对数,可将函数变换为=b+a的形式思考4:变换后的样本数据如下表:5.7844.7454.1903.1783.0452.3981.946z35322927252321x作这组样本数据的散点图,变量,是否呈线性相关关系?=-3849思考5:由计算可得这组样本数据的线性回归方程为=-3849,退回原变量,红铃虫的产卵数y对温度非线

性回归方程是什么?思考5:由计算可得这组样本数据的线性回归方程为=-3849,退回原变量,红铃虫的产卵数y对温度非线

性回归方程是什么?=-3849思考6:对原样本数据的散点图,也可认为这些样本点大致分布在一条二次函数曲线的周围,那么这个二次函数的解析式可设为哪种形式?思考6:对原样本数据的散点图,也可认为这些样本点大致分布在一条二次函数曲线的周围,那么这个二次函数的解析式可设为哪种形式?思考6:对原样本数据的散点图,也可认为这些样本点大致分布在一条二次函数曲线的周围,那么这个二次函数的解析式可设为哪种形式?思考7:如何将函数y=c32c4转化为一次线性函数?思考7:如何将函数y=c32c4转化为一次线性函数?令t=2,可将函数变换为y=c3t+c4思考7:如何将函数y=c32c4转化为一次线性函数?令t=2,可将函数变换为y=c3t+c4思考8:变换后的样本数据如下表:325115662421117y12251024841729625529441t作这组样本数据的散点图,变量,y是否呈线性相关关系?这组样本数据不具有线性相关关系,即不宜用二次曲线y=c32c4来拟合y和之间的关系思考9:由上述样本数据也可以得到y关于t的线性回归方程=-202543,退回原变量,红铃虫的产卵数

y对温度非线性回归方程是什么?思考9:由上述样本数据也可以得到y关于t的线性回归方程=-202543,退回原变量,红铃虫的产卵数

y对温度非线性回归方程是什么?=-20254377.968-58.265-40.101-41-5.83219.447.69634.675-13.3819.23-8.951.875-0.1010.557325115662421117y35322927252321x思考10:我们可以通过残差来比较指数回归方程和二次回归方程的拟合程度,计算得两个模型的残差如下表:比较这些残差的大小可以说明什么问题?77.968-58.265-40.101-41-5.83219.447.69634.675-13.3819.23-8.951.875-0.1010.557325115662421117y35322927252321x思考10:我们可以通过残差来比较指数回归方程和二次回归方程的拟合程度,计算得两个模型的残差如下表:指数模型残差的绝对值小,其拟合效果比二次模型好比较这些残差的大小可以说明什么问题?思考11:计算得,指数模型的残差平方和为=1550538,相关指数R2=098,二次模型的残差平方和为

=15448431,相关指数R2=08,这些数据说明什么问题?思考11:计算得,指数模型的残差平方和为=1550538,相关指数R2=098,二次模型的残差平方和为

=15448431,相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论