回归分析的基本思想及其初步应用课件_第1页
回归分析的基本思想及其初步应用课件_第2页
回归分析的基本思想及其初步应用课件_第3页
回归分析的基本思想及其初步应用课件_第4页
回归分析的基本思想及其初步应用课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.1

回归分析的基本思想及其初步应用(第一课时)1.通过典型案例的探究,进一步了解回归分析的基本思想、方法及其初步应用.2.让学生经历数据处理的过程,培养他们对数据的直观感觉,体会统计方法的特点,认识统计方法的应用,通过使用转化后的数据,求相关指数,运用相关指数进行数据分析、处理的方法.3.从实际问题中发现已有知识的不足,激发好奇心,求知欲,通过寻求有效的数据处理方法,开拓学生的思路,培养学生的探索精神和转化能力,通过案例的分析使学生了解回归分析在实际生活中的应用,增强数学取之生活,用于生活的意识,提高学习兴趣.

本节课通过必修3熟悉有例题回顾线性相关关系知识,通过实际问题中发现已有知识的不足,引出随机误差、残差、残差分析的概念,进而运用残差来进行数据分析,通过例题讲解掌握用残差分析判断线性回归模型的拟合效果。掌握建立回归模型的步骤。本节内容学生内容不易掌握,通过知识整理与比较引导学生进行区分、理解。通过对典型案例的探究,练习进行巩固了解回归分析的基本思想方法和初步应用.从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:

怎样根据一名女大学生的身高预报她的体重,并预报一名身高为172cm的女大学生的体重?编号12345678身高/cm165165157170175165155170体重/kg4857505464614359根据必修32.3变量相关关系解决这个问题的方法:1.先判断是两个变量是否具有线性相关关系(1)作散点图,如图所示(见课本P82:图3.1-1)2.根据线性回归的系数公式,求回归直线方程=0.849x-85.7123.由线性回归方程可以估计其位置值为=60.316(千克)左右。具有较好的线性相关关系性质:回归直线一定过样本中心点(2)计算相关系数这些点并不都在同一条直线上,上述直线并不能精确地反映x与y之间的关系,y的值不能完全由x确定,它们之间是统计相关关系,y的实际值与估计值之间存在着误差.因此,在统计学中设它们的线性回归模型为:其中a,b为模型的未知参数,e为y与bx+a之间的误差,称它为随机误差,它是随机变量。且线性回归模型完整表达式为x称为_____变量,y称为_____变量.解释预报线性回归模型中随机误差的主要来源①线性回归模型中的预报值与真实情况y引起的误差;②观测与计算(用代替ba)产生的误差;③省略了一些因素的影响(如生活习惯等)产生的误差.在线性回归模型中,e为用bx+a的预报真实值y的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差?在实际应用中,我们用估计bx+a所以的估计量为对于样本点它们的随机误差为估计值为称相应于点的残差坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域;对于远离横轴的点,要特别注意。错误数据模型问题身高与体重残差图异常点残差的作用1.通过残差表或残差图发现原始数据中的可疑数据通过残差来判断模型拟合的效果这种分析工作称为残差分析通过残差表或残差图判断模型拟合的效果是直观判断,如何精确判断模型拟合的效果?引入参数R2来精确该画模型拟合效果对于己获取的样本数据,在上式子中是定值,越小,即残差平方和越小,R2越大,说明模型拟合效果越好。引入例中参数R2计算得约为0.64说明女大学生体重差异有百分之六十四是由身高引起的.知识点线性回归分析1.对线性回归模型的三点说明(1)非确定性关系:线性回归模型y=bx+a+e与确定性函数y=bx+a相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具.(2)线性回归方程中,的意义是:以为基数,x每增加1个单位,y相应地平均增加个单位.(3)线性回归模型中随机误差的主要来源①线性回归模型与真实情况引起的误差;②观测与计算产生的误差;③省略了一些因素的影响产生的误差.2.线性回归模型的模拟效果(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.(3)R2法:R2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.3.相关系数与R2(1)R2是相关系数的平方,其变化范围为[0,1],而相关系数的变化范围为[-1,1].(2)相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果.(3)当|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回归方程的拟合效果较好.【微思考】(1)残差与我们平时说的误差是一回事儿吗?提示:这两个概念在某程度上具有很大的相似性,都是衡量不确定性的指标,二者的区别是:误差与测量有关,误差可以衡量测量的准确性,误差越大表示测量越不准确;残差与预测有关,残差大小可以衡量预测的准确性,残差越大表示预测越不准确.(2)R2与原来学过的相关系数r有区别吗?提示:它们都是刻画两个变量之间的的相关关系的,区别是R2表示解释变量对预报变量变化的贡献率,其表达式为R2=1-;相关系数r是检验两个变量相关性的强弱程度,其表达式为

建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.

为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图并求线性回归方程;(2)求出R2;(3)进行残差分析.作残差分析时,一般从以下几个方面予以说明:(1)散点图;(2)相关指数;(3)残差图中的异常点和样本点的带状分布区域的宽窄.解答(1)散点图如图0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.规律方法当资料点较少时,也可以利用残差表进行残差分析,注意计算数据要认真细心,残差分析要全面.1.判一判(正确的打“√”,错误的打“×”)(1)残差平方和越小,线性回归方程拟合效果越好.(

)(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.

(

)(3)R2越接近于1,线性回归方程的拟合效果越好.(

)√×√2.做一做(请把正确的答案写在横线上)(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系为

.(2)在残差分析中,残差图的纵坐标为

.(3)如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于

,解释变量和预报变量之间的相关系数R等于

.正相关残差01或-13.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x1416182022y1210753求y对x的回归直线方程,并说明回归模型拟合效果的好坏.00.3-0.4-0.10.24.62.6-0.4-2.4-4.4再见敬请指导.3.1

回归分析的基本思想及其初步应用(第二课时)1.通过典型案例的探究,进一步了解回归分析的基本思想、方法及其初步应用.2.让学生经历数据处理的过程,培养他们对数据的直观感觉,体会统计方法的特点,认识统计方法的应用,通过使用转化后的数据,求相关指数,运用相关指数进行数据分析、处理的方法.3.从实际问题中发现已有知识的不足,激发好奇心,求知欲,通过寻求有效的数据处理方法,开拓学生的思路,培养学生的探索精神和转化能力,通过案例的分析使学生了解回归分析在实际生活中的应用,增强数学取之生活,用于生活的意识,提高学习兴趣.

本节课通过例题线性相关关系知识,通过实际问题中发现已有知识的不足,引导学生寻找解决非线性回归问题思想与方法,培养学生化归数学思想。通过知识的整理,通过例题讲解掌握解决非线性回归问题。本节内容学生内容不易掌握,通过知识整理与比较引导学生进行区分、理解。通过对典型案例的探究,练习进行巩固解决非线性回归基本思想方法及初步应用.建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.(6)参数R2与相关系数r提示:它们都是刻画两个变量之间的的相关关系的,区别是R2表示解释变量对预报变量变化的贡献率,其表达式为R2=1-;相关系数r是检验两个变量相关性的强弱程度,其表达式为

(7)相关系数r与R2(1)R2是相关系数的平方,其变化范围为[0,1],而相关系数的变化范围为[-1,1].(2)相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果.(3)当|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回归方程的拟合效果较好.例:一只红铃虫产卵数y和温度x有关,现收集到的一组数据如下表1-3表,试建立y与x之间的回归方程。画出确定好的解释变量和预报变量的散点图,观察它们之间的关系.(1)是否存在线性关系?(2)散点图具有哪种函数特征?(3)以指数函数模型为例,如何设模型函数?非线性关系指数函数、二次函数、三次函数cc21设指数函数曲线其中和是待定参数。ecyxc12=我们可以通过对数变换把指数关系变为线性关系()这样就可以利用线性回归模型来建立z与x回归模型,进而找到y与x的非线性回归方程。*则变换后样本点分布在直线的周围。令)cb,clna(abxz21==+=ylnz=现在问题变为如何估计待定参数和?cc21非线性回归模型(6)eyˆ0.272x-3.843(1)=另一方面,可以认为图11-4中样本点集中在某二次曲线因此可以对温度变量做变换,即令然后建立y与t之间的线性回归方程,从而得到y与x之间的排线性回归方程。,2xt=的附近,其中和为待定参数.43cc423cxcy+=表1-5是红铃虫的产卵数和对应的温度的平方,图1.1-6是相应的散点图.()()()(),b,xgy~a,xfy~21==和对于给定的样本点,两个含有未知数的模型其中a和b都是未知参数,可以按如下的步骤来比较它们的拟合效果.bˆaˆ其中和分别是参数a、b的估计值(1)分别建立对应于两个模型的回归方程()(),bˆ,xgyˆ2=()()aˆ,xfyˆ1=()()();yˆyQˆn1i22ii2å=-=()Qˆ1()()yˆyn1i21iiå=-=与(2)分别计算两个回归方程的残差平方和()()()()()()()()()().bˆ,xgyˆaˆ,xfyˆ,;bˆ,xgyˆaˆ,xfyˆ,QˆQˆ212121的好的效果不如反之的好的效果比则(3)若====<非线性回归问题的处理方法(1)两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=,我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围.(2)非线性回归方程的求法①根据原始数据(x,y)作出散点图;②根据散点图,选择恰当的拟合函数;③作恰当的变换,将其转化成线性函数,求线性回归方程;④在③的基础上通过相应的变换,即可得非线性回归方程.(3)非线性相关问题中常见的几种线性变换在实际问题中,常常要根据一批实验数据绘出曲线,当曲线类型不具备线性相关关系时,可以根据散点分布的形状与已知函数的图象进行比较,确定曲线的类型,再作变量替换,将曲线改为直线.下面是几种容易通过变量替换转化为直线的函数模型:①y=a+,令t=,则有y=a+bt;②y=axb,令z=lny,t=lnx,m=lna,则有z=m+bt;③y=aebx,令z=lny,m=lna,则有z=m+bt;④y=,令z=lny,t=,m=lna,则有z=m+bt;⑤y=a+blnx,令t=lnx,则有z=a+bt;⑥y=bx2+a,令t=x2,则有y=bt+a.例某种食品每公斤的生产成本y(元)与该食品生产的重量x(公斤)有关,经生产统计得到以下数据:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15通过以上数据判断该食品的成本y(元)与生产的重量x(公斤)的倒数1/x之间是否具有线性相关关系?若有,求出y关于1/x的回归直线方程,并借此估计一下生产该食品500公斤时每公斤的生产成本是多少?(精确到0.01)

于是y与1x的回归方程为y^=8.973x+1.125.

当x=500(公斤)时,y^=8.973500+1.125≈1.14.即估计生产该食品500公斤时每公斤的生产成本是1.14元.

Xx2.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y关于x的线性回归方程为(

).A.y=x-1

B.y=x+1C.y=88+12x D.y=176父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177答案:C解析:方法一:由线性回归直线方程过样本中心(176,176),排除A,B答案,结合选项可得C为正确答案.方法二:将表中的五组数值分别代入选项验证,可知y=88+12x最适合.xxxx

非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数)等图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.再见敬请指导.3.1独立性检验的基本思想及初步应用1.(1)了解独立性检验的基本思想、方法及初步应用.(2)会从列联表(只要求2×2列联表)、等高条形图直观分析两个分类变量是否有关.(3)会用K2公式判断两个分类变量在某种可信程度上的相关性.2.运用数形结合的方法,借助对典型案例的探究,来了解独立性检验的基本思想,总结独立性检验的基本步骤.3.(1)通过本节课的学习,让学生感受数学与现实生活的联系,体会独立性检验的基本思想在解决日常生活问题中的作用.(2)培养学生运用所学知识,依据独立性检验的思想作出合理推断的实事求是的好习惯.本课主要学习独立性检验的基本思想及初步应用。以吸烟是否对肺癌有影响引入新课,通过数据和图表分析,得到结论是:吸烟与患肺癌有关初步判断两分类变量具有相关性。通过结论的可靠程度如何?引出如何通过量化来进行研究判断两分类变量是否具有相关性,相关程度有多大?通过假设两分类变量没有相关性,也就是是相互独立的,得到判断两分类变量相关性检验方法。再通过例1例2讲解引导学生掌握独立性检验的基本思想及初步应用。吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是

在吸烟者中患肺癌的比重是

说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%1)通过图形直观判断两个分类变量是否相关:三维柱状图2)通过图形直观判断两个分类变量是否相关:二维条形图3)通过图形直观判断两个分类变量是否相关:患肺癌比例不患肺癌比例等高条形图独立性检验H0:吸烟和患肺癌之间没有关系←→H1:吸烟和患肺癌之间有关系通过数据和图表分析,得到结论是:吸烟与患肺癌有关结论的可靠程度如何?用A表示“不吸烟”,B表示“不患肺癌”则

H0:吸烟和患肺癌之间没有关系“吸烟”与“患肺癌”独立,即A与B独立等价于等价于吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d独立性检验引入一个随机变量作为检验在多大程度上可以认为“两个变量有关系”的标准。1)如果P(m>10.828)=0.001表示有99.9%的把握认为”X与Y”有关系;2)如果P(m>7.879)=0.005表示有99.5%的把握认为”X与Y”有关系;3)如果P(m>6.635)=0.01表示有99%的把握认为”X与Y”有关系;4)如果P(m>5.024)=0.025表示有97.5%的把握认为”X与Y”有关系;5)如果P(m>3.841)=0.05表示有95%的把握认为”X与Y”有关系;6)如果P(m>2.706)=0.010表示有90%的把握认为”X与Y”有关系;7)如果m≤2.706),就认为没有充分的证据显示”X与Y”有关系;设有两个分类变量X和Y它们的值域分别为{x1,x2}和{y1,y2}其样本频数列表(称为2×2列联表)为

y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2×2列联表适用观测数据a、b、c、d不小于5P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论