回归分析与独立性检验_第1页
回归分析与独立性检验_第2页
回归分析与独立性检验_第3页
回归分析与独立性检验_第4页
回归分析与独立性检验_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析与独立性检验知识要点及解析1.函数关系与相关关系的区别?函数关系是一种确定性关系,而相关关系是一种非确定性关系.2.回归公式3.回归分析的步骤?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据作散点图求回归直线方程利用方程进行预报.4.回归直线的性质⑴回归直线过样本点的中心其中解释变量x的平均数为:预报变量y的平均数为:⑵回归直线的斜率的估计值的意义:解释变量x每增加一个单位,预报变量y就增加个单位.5.求线性回归方程的五个步骤:⑴计算⑵计算⑶计算⑷代入系数公式求⑸代入公式计算例题1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的能耗y(吨标准煤)的几组数据:⑴画出散点图;⑵求出线性回归方程⑶该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)问求出的线性回归方程预测(估计)生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?x3456y2.5344.5例题2:从某大学中随机选取8名女大学生,其身高和体重数据如表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359⑴画出散点图;⑵求出根据身高预报体重的回归方程⑶根据以上回归方程预测一名身高为172cm例题3:下表是某厂1~4月份用水量(单位:百吨)的一组数据,由散点图可知:用水量y与月份x之间有较好的线性相关关系,其线性回归方程为,请你预测该厂5月份的用水量大约为多少百吨?月份x1234用水量y4.5432.56.线性回归模型y=bx+a+e中随机误差e产生的原因?⑴选用的函数模型不恰当引起的误差⑵忽略了某些因素的影响⑶存在观测误差7.如何发现数据中的错误?先分别计算出残差然后选取横坐标为编号或解释变量x或预报变量y,纵坐标为残差,作出残差图;最后观察:如果样本点的残差较大(落在带状区域外),说明数据的采集有可能错误。8.如何衡量模型的拟合效果?方法1:在残差图中,残差点比拟均匀落在带状水平区域内,说明选用的模型比拟适宜;带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高例题1:根据一位母亲记录儿子3~9岁身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程,假设用此方程预测儿子10岁时的身高,以下有关表达正确的选项是()A.身高一定为145.83cm;B.身高大于145.83C.身高小于145.83cm;D.身高在145.83例2.用两个模型分别去拟合某组数据,这两个模型的残差图(以样本编号为横坐标)分别如图1、图2,试判断这两个模型哪一个的拟合效果更好,为什么?010123456123-1-2残差编号图10123456123-1-2残差编号图2例3.下表是某产品的广告费x与销售额y的统计数据.由散点图可知广告费x与销售额y之间有较好的线性相关关系,其线性回归方程为,根据此模型,请你预测广告费为6万元时,销售额大约为多少万元?广告费用x/万元4235销售额y/万元49263954方法2:残差平方和:残差的平方和越小,回归模型拟合效果越好.方法3:相关指数R:其中.在线性回归模型中,R表示解释变量对于预报变量变化的奉献率,相关指数R越接近于1(越大),回归模型拟合效果越好。例题:在两个变量y与x的回归模型中,分别选择了4个不同的模型,它们的相关指数R如下,其中拟合效果最好的模型是()A.模型1的R=0.98B.模型2的R=0.80C.模型3的R=0.50D.模型4的R=0.259.用线性回归模型进行预报时应注意的几个问题:⑴样本数据来自哪个总体,预报时也仅适用这个总体⑵模型的时效性,利用不同时间段的样本数据建立的模型,只能用来对那段时间范围的数据进行预报⑶建立模型时,变量的取值范围决定了预报时模型的适用范围,通常不能超出太多⑷在回归模型中,因变量的值不能由自变量完全确定.10.建立回归模型的根本步骤:⑴确定研究对象,明确哪个是解释变量,哪个是预报变量⑵画出散点图,观察两个变量之间的关系⑶由经验确定回归方程的类型⑷按一定规那么(如最小二乘法)估算回归方程中的参数⑸回归分析残差图是否异常、数据是否有误、所选模型是否适宜等;⑹最后才利用回归方程进行预报。例题:调查显示某地假设干户家庭的年收入x(单位:万元)与年饮食支出y(单位:万元)具有线性相关关系,其回归方程为 ,利用回归方程,求家庭年收入每增加1万元,年饮食支出平均增加多少万元?11.用换元法求非线性回归方程例题1:在一次抽样调查中测得样本的5组数据,试建立y与x之间的回归方程.x0.250.5124y1612521分析:由散点图知y与x近似地呈反比例函数关系,可设令那么画出y关于t的散点图知y与t呈近似的线性相关关系,可设线性回归方程为:得∴y与x之间的回归方程为例题2:下表记录了篮球爱好者小明某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系。⑴求投篮命中率y关于打篮球时间x之间的线性回归方程⑵预测小明该月6号打6小时篮球的命中率x12345y0.40.50.60.60.4例题2:为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:天数x/天123456繁殖个数y/个612254995190⑴用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;⑵试求出预报变量对解释变量的回归方程.〔所求非线性回归方程为.〕12.分类变量:变量的不同“值〞表示个体所属的不同类别,像这样的变量称为分类变量.13.2×2列联表与等高条形图:例题1:某学校对高三学生作了一次调查发现:在平时的模拟考试中,性格内向学生426人中有332人在考前心情紧张;性格外向学生594人中有213人在考前心情紧张⑴先作出2×2列联表,然后作出等高条形图;⑵利用等高条形图判断考前心情紧张与性格类别是否有关例题2:下表是某地区的一种传染病与饮用水的调查统计表:

得病不得病总计饮用干净水52人466人

饮用不干净水94人218人

总计

⑴先填表,后计算饮用干净水得传染病的频率,以及饮用不干净水得传染病的频率⑵作出等高条形图⑶利用等高条形图判断得传染病是否与饮用水有关14.独立性检验的定义:利用随机变量K来判断“两个分类变量有关系〞的方法称为独立性检验其中15.独立性检验的步骤:⑴制定判别规那么:根据实际问题的需要,确定容许推断“两个分类变量有关系〞犯错误概率的上界,然后查表确定临界值k⑵利用公式计算随机变量K的观测值k⑶如果K的观测值k很大,说明“X与Y有关系〞,观测值k很小,说明“X与Y没有关系〞如果k≥k,就推断“X与Y有关系〞,这种推断犯错误的概率不超过,即有的把握认为“X与Y有关系〞例题:针对某地区的一种传染病与饮用水进行抽样调查发现:饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人。⑴作出2×2列联表⑵能否有90%的把握认为该地区中得传染病与饮用水有关?分析:作出2×2列联表

得病不得病总计饮用干净水

5

50

55饮用不干净水

9

22

31总计

14

7286计算随机变量K的观测值5.785查表知5.785>2.706且P(K≥2.706)=0.10∴在犯错误的概率不超过0.10的前提下,可以认为“该地区中得传染病与饮用水有关〞,即有90%的把握认为该地区中得传染病与饮用水有关16.如何判断两个分类变量之间有关系?方法1:观察等高条形图,假设发现小矩形的高相差很大,就可以粗略判断两个分类变量之间有关系方法2:计算|ad-bc|,假设|ad-bc|越大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论