变量的相关性、回归分析、独立性检验完整_第1页
变量的相关性、回归分析、独立性检验完整_第2页
变量的相关性、回归分析、独立性检验完整_第3页
变量的相关性、回归分析、独立性检验完整_第4页
变量的相关性、回归分析、独立性检验完整_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、121.两个变量间的相关关系两个变量间的相关关系如果两个变量之间确实存在关系如果两个变量之间确实存在关系,但又没但又没有函数关系所具有的确定性有函数关系所具有的确定性,它们的关系带有它们的关系带有随机性随机性,则称这两个变量具有则称这两个变量具有 .有相关关系的两个变量有相关关系的两个变量,若一个变量的值若一个变量的值由小到大时由小到大时,另一个变量的值也是由小到大,另一个变量的值也是由小到大,这种相关称为这种相关称为 ;反之,一个变量的;反之,一个变量的值由小到大,另一个变量的值由大到小,这值由小到大,另一个变量的值由大到小,这种相关称为种相关称为 .相关关系相关关系正相关正相关负相关负相关

2、32.散点图散点图在平面直角坐标系中描点在平面直角坐标系中描点,得到关于两个变量得到关于两个变量的一组数据的图形的一组数据的图形,这样的图形叫做这样的图形叫做 .散点图散点图0 01010202030304040505060607070150150155155160160165165170170175175180180体重体重/kg身高身高/cm4如果散点图中,相应于具有相关关系的两如果散点图中,相应于具有相关关系的两个变量所有观察值的数据点,分布在一条直线个变量所有观察值的数据点,分布在一条直线附近,则称这两个变量具有附近,则称这两个变量具有 ,这条直线叫做这条直线叫做 ,方程为方程为 =b

3、x+a,其中其中b= = ,a= - b.线性相关关系线性相关关系回归直线回归直线xy121()()()niiiniixxyyxx1221niiiniix ynxyxnx y3.回归直线方程回归直线方程0 0101020203030404050506060707015150 0155155160160165165170170175175180180体体重重/kg身身高高/cm512211 ()()r0r0r1r0niiinniiiix ynxyrxxyy3.相关性检验样本的相关系数当时,表示两个变量正相关,当时,表示两个变量负相关, 越近于 ,表明两个变量的线性相关性越强: 越近于 ,表明两个

4、变量之间几乎不存在线性相关关系6)()()()(22dbcadcbabcadnKdcban 其其中中不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d(2)统计中有一个非常有用的统计量统计中有一个非常有用的统计量K2(卡方)(卡方)5.独立性检验独立性检验P(K2k)0.050.01k3.8416.6357例例1 汽车的重量和汽车消耗一升汽油汽车的重量和汽车消耗一升汽油所行驶的路程成负相关,这说明所行驶的路程成负相关,这说明( )A.汽车越重汽车越重,每消耗每消耗1升汽油所行驶的路程越短升汽油所行驶的路程越短B.汽车越轻汽车越轻,每消

5、耗每消耗1升汽油所行驶的路程越短升汽油所行驶的路程越短C.汽车越重汽车越重,消耗汽油越多消耗汽油越多D.汽车越轻汽车越轻,消耗汽油越多消耗汽油越多A 要透彻理解一些常见参概念的意义要透彻理解一些常见参概念的意义.8例例2 某车间为了规定工时定额某车间为了规定工时定额,需要确定加工需要确定加工零件所花费的时间零件所花费的时间,为此做了四次试验为此做了四次试验,根据试根据试验数据得到如下图所示的散点图验数据得到如下图所示的散点图,其中其中x表示零表示零件的个数件的个数,y表示加工时间表示加工时间. (1)求出求出y关于关于x的线性的线性 回归方程回归方程 =bx+a; (2)试预测加工试预测加工1

6、0个零个零 件需多长时间?件需多长时间? y9 (1) = =3.5, = =3.5,所以所以b= =0.7,a=-b=3.5-0.73.5=1.05,所以线性回归方程为所以线性回归方程为 =0.7x+1.05.x23454 y23454 4122144iiiniix yxyxx2222222 2.53 34 45 4.54 3.523454 3.5 y10(2)当当x=10时,时, =0.710+1.05=8.05,故加工故加工10个零件大约需个零件大约需8.05小时小时. 求出回归直线方程后,往求出回归直线方程后,往往用来作为现实生产中的变量之往用来作为现实生产中的变量之间相关关系的近似关

7、系,从而可间相关关系的近似关系,从而可用来指导生产实践用来指导生产实践. y11 为了研究某种细菌随时间为了研究某种细菌随时间x变化繁变化繁殖的个数,收集数据如下:殖的个数,收集数据如下: (1)以以x为解释变量,为解释变量,y为预报变量作这些为预报变量作这些数据的散点图;数据的散点图; (2)求求y关于关于x的回归方程的回归方程.天数(x)123456繁殖细菌个数(y)61225499519012用所学函数看变化趋势用所学函数看变化趋势. (1)画散点图画散点图13(2)若建立线性模型若建立线性模型 =a+bx,则得到则得到 =-56.467+34.086x,若建立指数函数模型若建立指数函数

8、模型=menx,则得到则得到 =3.0519e0.6902x. y 回归方程不一定惟一,该题还回归方程不一定惟一,该题还可以用二次函数为模型可以用二次函数为模型. y y y14例例2 在对人群的休闲方式的一次调查中,在对人群的休闲方式的一次调查中,共调查了共调查了124人,其中女性人,其中女性70人,女性中人,女性中有有43人主要的休闲方式是看电视,另外人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中人主要的休闲方式是运动;男性中21人主人主要的休闲方式是看电视,其余男性的主要要的休闲方式是看电视,其余男性的主要休闲方式是运动休闲方式是运动. (1)根据以上数据建立一个根据以

9、上数据建立一个22列联表列联表; (2)判断性别与休闲方式是否有关系判断性别与休闲方式是否有关系,并说并说明理由明理由.15是否有关系取决于是否有关系取决于K2的大小的大小. (1) 22列联表为列联表为看电视运动总计女432770男213354合计646012416( 2) K2= = 6.2设设H1:性别与不同运动方式有关系性别与不同运动方式有关系.假设假设H0:性别与不同的运动方式没有关系,性别与不同的运动方式没有关系,在在H0的前提下,的前提下,K2应该很小应该很小,而而P(K25.024)0.025.所以有所以有97.5的把握认为性别与不同的运动的把握认为性别与不同的运动方式之间有关

10、系方式之间有关系.2()()()()()n adbcab cd ac bd2124 (43 3327 21)70 54 64 60 对判断过程和计算方式要清楚对判断过程和计算方式要清楚,计算计算K2时勿将时勿将(ad-bc)2中的平方运算漏掉中的平方运算漏掉.17 下面是两个变量间的一组数据:下面是两个变量间的一组数据:x1.04.06.010.014.0y19.044.040.052.053.0(1)在同一直角坐标系中画出散点图、直线在同一直角坐标系中画出散点图、直线 =24+2.5x和曲线和曲线 = ;(2)比较所画直线与曲线,哪一条更能表现比较所画直线与曲线,哪一条更能表现这组数据之间的

11、关系?这组数据之间的关系?(3)分别计算用直线方程与曲线方程得到在分别计算用直线方程与曲线方程得到在5个个x点处的预测值与实际预测之间的误差,点处的预测值与实际预测之间的误差,比较两个误差绝对值之和的大小比较两个误差绝对值之和的大小. y602xx y18(1)所求作图型如下:所求作图型如下:19(2)从图形上看从图形上看,曲线曲线 = 比直线比直线 =24+2.5x更能表现这组数据间的关系更能表现这组数据间的关系.(3)用直线用直线 =24+2.5x近似数据时,误差绝对值近似数据时,误差绝对值的和为的和为27.5,用曲线,用曲线 = 时,误差绝对时,误差绝对值的和为值的和为12.5,比前者小

12、得多,比前者小得多. y602xx602xx 由散点图可比较直观地看出更能表现由散点图可比较直观地看出更能表现所给数据的关系的曲线,再通过比较误差绝所给数据的关系的曲线,再通过比较误差绝对值之和的大小,则显得更有说服力对值之和的大小,则显得更有说服力. y y y201.计算回归直线方程中的参数计算回归直线方程中的参数a、b时应分时应分层进行,避免因计算错误而产生误差层进行,避免因计算错误而产生误差.2.求线性回归方程之前,应对数据进行线求线性回归方程之前,应对数据进行线性相关分析性相关分析.3.回归分析的关键是根据散点图选择函数回归分析的关键是根据散点图选择函数模型,用相关系数判定哪种模型更

13、好模型,用相关系数判定哪种模型更好.4.独立性检验不能用比例余数来判定,独立性检验不能用比例余数来判定,a、b、c、d成比例扩大,成比例扩大,K2的值是不同的,正确的值是不同的,正确列出列出22列联表是解题的关键步骤列联表是解题的关键步骤.21学例1 (2009辽宁卷辽宁卷)某企业有两个分厂某企业有两个分厂生产某种零件,按规定内径尺寸(单生产某种零件,按规定内径尺寸(单位:位:mm)的值落在)的值落在29.94,30.06)的零件为优质品的零件为优质品.从两个分厂生产的零从两个分厂生产的零件中各抽出了件中各抽出了500件,量其内径尺寸,件,量其内径尺寸,得结果如下表:得结果如下表:22甲厂:甲

14、厂: 乙厂:乙厂:分组频数29.86,29.90)1229.90,29.94)6329.94,29.98)8629.98,30.02)18230.02,30.06)9230.06,30.10)6130.10,30.14)4分组频数29.86,29.90)2929.90,29.94)7129.94,29.98)8529.98,30.02)15930.02,30.06)7630.06,30.10)6230.10,30.14)1823(1)试分别估计两个分厂生产的零件的优质试分别估计两个分厂生产的零件的优质品率品率;(2)由以上统计数据填下面由以上统计数据填下面22列联表,并列联表,并分析是否有分析

15、是否有99%的把握认为的把握认为“两个分厂两个分厂生产的零件的质量有差异生产的零件的质量有差异”.甲厂乙厂合计优质品非优质品合计242()()()()()n adbcab cd ac bdP(K2k)0.050.01k3.8416.635附:附:K2= ,25 (1)甲厂抽查的产品中有甲厂抽查的产品中有360件优件优质品,从而甲厂生产的零件的优质品率估质品,从而甲厂生产的零件的优质品率估计为计为 =72%;乙厂抽查的产品中有;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品件优质品,从而乙厂生产的零件的优质品率估计为率估计为 =64%.36050032050026(2) 22列联表如下:列联表如下:K2= 7.356.63

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论