选修1-2统计案例-课件_第1页
选修1-2统计案例-课件_第2页
选修1-2统计案例-课件_第3页
选修1-2统计案例-课件_第4页
选修1-2统计案例-课件_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

选修1-2统计案例-课件11.1回归分析的基本思想及初步应用(3)1.1回归分析的基本思想及初步应用(3)2复习回顾1、线性回归模型:y=bx+a+e,

其中a和b为模型的未知参数,e称为随机误差。2、数据点和它在回归直线上相应位置的差异是随机误差的效应,称为残差。3、对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号表示为:称为残差平方和,它代表了随机误差的效应。复习回顾1、线性回归模型:2、数据点和它在回归直线上相应位置3刻画模型拟合的精度相关指数:R2取值越大,则残差平方和越小,即模型的拟合效果越好.刻画模型拟合的精度相关指数:R2取值越大,则残差平方和越小,41)确定解释变量和预报变量;2)画出散点图;3)确定回归方程类型;4)求出回归方程;5)利用相关指数或残差进行分析.建立回归模型的基本步骤1)确定解释变量和预报变量;建立回归模型的基本5回归分析

从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析

从一组样本数据出发,确定变量之间的数学关系式6回归分析与相关分析的区别相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制

回归分析与相关分析的区别相关分析中,变量x变量y处于7问题:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据,试建立y与x之间的回归方程解:1)作散点图;从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。问题:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据8选变量解:选取气温为解释变量x,产卵数为预报变量y。画散点图假设线性回归方程为:ŷ=bx+a选模型分析和预测当x=28时,y=19.87×28-463.73≈93估计参数由计算器得:线性回归方程为y=19.87x-463.73相关指数R2=r2≈0.8642=0.7464所以,一次函数模型中温度解释了74.64%的产卵数变化。探索新知050100150200250300350036912151821242730333639方案1当x=28时,y=19.87×28-463.73≈93一元线性模型选变量解:选取气温为解释变量x,产卵数画散点图假设线9奇怪?93>66?模型不好?奇怪?93>66?10

y=bx2+a变换y=bt+a非线性关系线性关系方案2问题1选用y=bx2+a,还是y=bx2+cx+a?问题3

产卵数气温问题2如何求a、b?合作探究

t=x2二次函数模型y=bx2+a变11方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a温度21232527293235温度的平方t44152962572984110241225产卵数y/个711212466115325作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802将t=x2代入线性回归方程得:y=0.367x2-202.54当x=28时,y=0.367×282-202.54≈85,且R2=0.802,所以,二次函数模型中温度解释了80.2%的产卵数变化。t方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数12问题2变换y=bx+a非线性关系线性关系问题1如何选取指数函数的底?产卵数气温指数函数模型方案3合作探究对数问题213方案3解答温度xoC21232527293235z=lgy0.851.041.321.381.822.062.51产卵数y/个711212466115325xz当x=28oC时,y≈44,指数回归模型中温度解释了98.5%的产卵数的变化由计算器得:z关于x的线性回归方程为z=0.118x-1.665,相关指数R2=r2≈0.99252=0.985

对数变换:在中两边取常用对数得令,则就转换为z=bx+a方案3解答温度xoC21232527293235z=lgy014最好的模型是哪个?产卵数气温产卵数气温线性模型二次函数模型指数函数模型最好的模型是哪个?产卵数气温产卵数气温线性模型二次15比一比最好的模型是哪个?比一比最好的模型是哪个?16解:令则z=bx+a,(a=lnc1,b=c2),列出变换后数据表并画出x与z的散点图x和z之间的关系可以用线性回归模型来拟合解:令x和z之间的关系17应用统计方法解决实际问题需要注意的问题:对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方法分析数据。现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是:可以利用直观(散点图和残差图)、相关指数来确定哪一个模型的拟合效果更好。应用统计方法解决实际问题需要注意的问题:对于同样的数据,有18非线性回归方程二次回归方程残差公式非线性回归方程二次回归方程残差公式19(1)y=f(bx+a+e)Z=bx+a+e(2)y=bg(x)+a+et=g(x)y=bt+a+e(3)y=f(bg(x)+a+e)Z=bt+a+e用线性回归模型解决非线性相关问题(1)y=f(bx+a+e)Z=bx+a+e(2)y=bg(20小结实际问题样本分析回归模型抽样回归分析预报精度预报小结实际问题样本分析21用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们所研究的样本的总体;2、我们所建立的回归方程一般都有时间性;3、样本采集的范围会影响回归方程的适用范围;4、不能期望回归方程得到的预报值就是预报变量的精确值。事实上,它是预报变量的可能取值的平均值。——这些问题也使用于其他问题。涉及到统计的一些思想:模型适用的总体;模型的时间性;样本的取值范围对模型的影响;模型预报结果的正确理解。小结用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们22相关系数相关系数又称线性相关系数.它是衡量变量之间线性相关程度的指标。样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值范围为[-1,1]。|r|值越大,误差Q越小,变量之间的线性相关程度越高;|r|值越接近0,Q越大,变量之间的线性相关程度越低。相关系数相关系数又称线性相关系数.它是衡量变量之间线性相关程23相关系数如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。通常|r|大于0.8时,认为两个变量有很强的线性相关性相关系数如两者呈正相关,r呈正值,r=1时为完全正相关;如两24相关系数的性质相关系数的性质(1)相关系数可正可负;(2)相关系数的区间是[-1,1];(3)相关系数是线性关联或线性相依的一个度量,它不能用于描述非线性关系;相关系数的性质25偏差平方和偏差平方和单次测量值x1与测定平均值之差的平方的总和,以Q表示,Q值越大,表示测定值之间的差异越大,用偏差平方和表征差异的优点是能充分利用测度数据所提供的信息,缺点是Q随着测定值数目的增多而增大,为了克服这一缺点,用方差S2=Q/f来表征差异的大小,其中f为自由度。如一个测定结果受多个因素影响,则总偏差平方和等于实验误差与各因素(包括固定因素与随机因素)所形成的偏差平方和之总和。偏差平方和偏差平方和26残差平方和英文:residualsumofsquares[1]概念:为了明确解释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异称残差,把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应。残差平方和英文:residualsumofsquare27相关指数R^2相关指数R^2表示一元多项式回归方程拟合度的高低,或者说表示一元多项式回归方程估测的可靠程度的高低。R^2=1-(∑(y-y估测值)^2÷∑(y-y平均值)^2)相关指数R^2用来刻画回归效果时,R^2越大,说明模型的拟合效果越好。相关指数R^2相关指数R^2表示一元多项式回归方程拟合度的高28谢谢谢谢29选修1-2统计案例-课件301.1回归分析的基本思想及初步应用(3)1.1回归分析的基本思想及初步应用(3)31复习回顾1、线性回归模型:y=bx+a+e,

其中a和b为模型的未知参数,e称为随机误差。2、数据点和它在回归直线上相应位置的差异是随机误差的效应,称为残差。3、对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号表示为:称为残差平方和,它代表了随机误差的效应。复习回顾1、线性回归模型:2、数据点和它在回归直线上相应位置32刻画模型拟合的精度相关指数:R2取值越大,则残差平方和越小,即模型的拟合效果越好.刻画模型拟合的精度相关指数:R2取值越大,则残差平方和越小,331)确定解释变量和预报变量;2)画出散点图;3)确定回归方程类型;4)求出回归方程;5)利用相关指数或残差进行分析.建立回归模型的基本步骤1)确定解释变量和预报变量;建立回归模型的基本34回归分析

从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析

从一组样本数据出发,确定变量之间的数学关系式35回归分析与相关分析的区别相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制

回归分析与相关分析的区别相关分析中,变量x变量y处于36问题:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据,试建立y与x之间的回归方程解:1)作散点图;从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。问题:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据37选变量解:选取气温为解释变量x,产卵数为预报变量y。画散点图假设线性回归方程为:ŷ=bx+a选模型分析和预测当x=28时,y=19.87×28-463.73≈93估计参数由计算器得:线性回归方程为y=19.87x-463.73相关指数R2=r2≈0.8642=0.7464所以,一次函数模型中温度解释了74.64%的产卵数变化。探索新知050100150200250300350036912151821242730333639方案1当x=28时,y=19.87×28-463.73≈93一元线性模型选变量解:选取气温为解释变量x,产卵数画散点图假设线38奇怪?93>66?模型不好?奇怪?93>66?39

y=bx2+a变换y=bt+a非线性关系线性关系方案2问题1选用y=bx2+a,还是y=bx2+cx+a?问题3

产卵数气温问题2如何求a、b?合作探究

t=x2二次函数模型y=bx2+a变40方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a温度21232527293235温度的平方t44152962572984110241225产卵数y/个711212466115325作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802将t=x2代入线性回归方程得:y=0.367x2-202.54当x=28时,y=0.367×282-202.54≈85,且R2=0.802,所以,二次函数模型中温度解释了80.2%的产卵数变化。t方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数41问题2变换y=bx+a非线性关系线性关系问题1如何选取指数函数的底?产卵数气温指数函数模型方案3合作探究对数问题242方案3解答温度xoC21232527293235z=lgy0.851.041.321.381.822.062.51产卵数y/个711212466115325xz当x=28oC时,y≈44,指数回归模型中温度解释了98.5%的产卵数的变化由计算器得:z关于x的线性回归方程为z=0.118x-1.665,相关指数R2=r2≈0.99252=0.985

对数变换:在中两边取常用对数得令,则就转换为z=bx+a方案3解答温度xoC21232527293235z=lgy043最好的模型是哪个?产卵数气温产卵数气温线性模型二次函数模型指数函数模型最好的模型是哪个?产卵数气温产卵数气温线性模型二次44比一比最好的模型是哪个?比一比最好的模型是哪个?45解:令则z=bx+a,(a=lnc1,b=c2),列出变换后数据表并画出x与z的散点图x和z之间的关系可以用线性回归模型来拟合解:令x和z之间的关系46应用统计方法解决实际问题需要注意的问题:对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方法分析数据。现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是:可以利用直观(散点图和残差图)、相关指数来确定哪一个模型的拟合效果更好。应用统计方法解决实际问题需要注意的问题:对于同样的数据,有47非线性回归方程二次回归方程残差公式非线性回归方程二次回归方程残差公式48(1)y=f(bx+a+e)Z=bx+a+e(2)y=bg(x)+a+et=g(x)y=bt+a+e(3)y=f(bg(x)+a+e)Z=bt+a+e用线性回归模型解决非线性相关问题(1)y=f(bx+a+e)Z=bx+a+e(2)y=bg(49小结实际问题样本分析回归模型抽样回归分析预报精度预报小结实际问题样本分析50用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们所研究的样本的总体;2、我们所建立的回归方程一般都有时间性;3、样本采集的范围会影响回归方程的适用范围;4、不能期望回归方程得到的预报值就是预报变量的精确值。事实上,它是预报变量的可能取值的平均值。——这些问题也使用于其他问题。涉及到统计的一些思想:模型适用的总体;模型的时间性;样本的取值范围对模型的影响;模型预报结果的正确理解。小结用身高预报体重时,需要注意下列问题:1、回归方程只适用于我们51相关系数相关系数又称线性相关系数.它是衡量变量之间线性相关程度的指标。样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值范围为[-1,1]。|r|值越大,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论