选修12统计案例.ppt_第1页
选修12统计案例.ppt_第2页
选修12统计案例.ppt_第3页
选修12统计案例.ppt_第4页
选修12统计案例.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.1回归分析的基本思想及初步应用(3),复习回顾,1、线性回归模型: y=bx+a+e, 其中a和b为模型的未知参数,e称为随机误差。,2、数据点和它在回归直线上相应位置的差异 是随机误差的效应,称 为残差。,3、对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号表示为: 称为残差平方和,它代表了随机误差的效应。,刻画模型拟合的精度,相关指数:,R2取值越大,则残差平方和越小,即模型的拟合效果越好.,1)确定解释变量和预报变量; 2)画出散点图; 3)确定回归方程类型; 4)求出回归方程; 5)利用相关指数或残差进行分析.,回归分析,从一组样本数据出发,确定变量之间的数学

2、关系式 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,回归分析与相关分析的区别,相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变

3、量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制,问题:一只红铃虫的产卵数y与温度x有关,现收集了7组观测数据,试建立y与x之间的回归方程,解:1)作散点图;,从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。,画散点图,假设线性回归方程为 :=bx+a,选 模 型,所以,一次函数模型中温度解释了74.64%的产卵数变化。,探索新知,方案1,当x=28时,y =19.8728-463.73 93,一元线性模型,奇怪?,9366 ? 模型不好?,方案2,问题3,合作探究,t=x2,二次函数模型,方案2解答,平

4、方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a,作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t-202.54,相关指数R2=r20.8962=0.802,将t=x2代入线性回归方程得: y=0.367x2 -202.54 当x=28时,y=0.367282-202.5485,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。,问题,变换 y=bx+a 非线性关系 线性关系,产卵数,气温,指数函数模型,方案3,合作探究,对数,方案3解答,当x=28oC 时,y 44 ,指

5、数回归模型中温度解释了98.5%的产卵数的变化,由计算器得:z关于x的线性回归方程 为z=0.118x-1.665 , 相关指数R2=r20.99252=0.985,最好的模型是哪个?,线性模型,二次函数模型,指数函数模型,比一比,最好的模型是哪个?,解: 令 则z=bx+a,(a=lnc1,b=c2),列出变换后数据表并画 出x与z 的散点图,x和z之间的关系可以用线性回归模型来拟合,应用统计方法解决实际问题需要注意的问题:对于同样的数据,有不同的统计方法进行分析,我们要用最有效的方法分析数据。,现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是:,可以利用直观(散点

6、图和残差图)、相关指数来确定哪一个模型的拟合效果更好。,非线性回归方程,二次回归方程,残差公式,(1)y=f(bx+a+e),Z=bx+a+e,(2)y=bg(x)+a+e,t=g(x),y=bt+a+e,(3)y=f(bg(x)+a+e),Z=bt+a+e,用线性回归模型解决非线性相关问题,实际问题,样本分析,回归模型,抽样,回归分析,预报精度,预报,这些问题也使用于其他问题。,涉及到统计的一些思想: 模型适用的总体; 模型的时间性; 样本的取值范围对模型的影响; 模型预报结果的正确理解。,小结,相关系数,相关系数又称线性相关系数.它是衡量变量之间线性相关程度的指标。样本相关系数用r表示,总

7、体相关系数用表示,相关系数的取值范围为-1,1。|r|值越大,误差Q越小,变量之间的线性相关程度越高;|r|值越接近0,Q越大,变量之间的线性相关程度越低。,相关系数,如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。通常|r|大于0.8时,认为两个变量有很强的线性相关性,相关系数的性质,相关系数的性质 (1)相关系数可正可负; (2)相关

8、系数的区间是-1,1; (3)相关系数是线性关联或线性相依的一个度量,它不能用于描述非线性关系;,偏差平方和,偏差平方和 单次测量值x1与测定平均值之差的平方的总和,以Q表示,Q值越大,表示测定值之间的差异越大,用偏差平方和表征差异的优点是能充分利用测度数据所提供的信息,缺点是Q随着测定值数目的增多而增大,为了克服这一缺点,用方差S2=Q/f来表征差异的大小,其中f为自由度。如一个测定结果受多个因素影响,则总偏差平方和等于实验误差与各因素(包括固定因素与随机因素)所形成的偏差平方和之总和。,残差平方和,英文:residual sum of squares1 概念: 为了明确解释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异称残差,把每个残差的平方后加起来 称为残差平方和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论