第3讲变量间的相关关系、统计案例_第1页
第3讲变量间的相关关系、统计案例_第2页
第3讲变量间的相关关系、统计案例_第3页
第3讲变量间的相关关系、统计案例_第4页
第3讲变量间的相关关系、统计案例_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 3 讲 变量间的相关关系、统计案例学生用书 P1931 变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系2 两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线(2) 从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关 (3)回归方程为 ybx a,其中, a y b x (4)相关系数当 r0 时,表明两个变量正相关;当 r0,则

2、zby a 0. 1bx ba,故 x 与 z 负相关 某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用 2 2 列联表进行独立性检验,经计算K 27. 069,则所得到的统计学结论是:有 _的把握认为“学生性别与支持该活动有关系”()附:P(K2 k0)0. 1000. 0500. 0250. 0100. 001k02. 7063. 8415. 0246. 63510. 828A. 0. 1%B.1%C99%D 99. 9%解析: 选 C. 因为 7. 069 与附表中的6. 635 最接近 ,所以得到的统计学结论是:有10. 010 0. 99 99%的把握认

3、为 “学生性别与支持该活动有关系 ”下面是一个 2 2 列联表y1y2总计x1a2173x222527总计b46则表中 a、 b 处的值分别为 _解析: 因为 a21 73,所以 a 52.又因为 a 2 b,所以 b 54.答案: 52、 54对于下列表格所示的五个散点,已知求得的回归直线方程为y 0. 8x 155,则实数m 的值为 _x196197200203204y1367m11解析: 依题意得x5 (196 197 200 203 204) 200, y5 (1 3 6 7 m)17 m,因为回归直线必经过样本点的中心,所以 17 m 0. 8 200 155,解得 m 8.55答案

4、: 8相关关系的判断学生用书P194 典例引领 (1) 四名同学根据各自的样本数据研究变量x, y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论: y 与 x 负相关且 y 2. 347x 6. 423; y 与 x 负相关且 y 3. 476x5. 648 y 与 x 正相关且 y 5. 437x 8. 493; y 与 x 正相关且 y 4. 326x4. 578.其中一定不正确的结论的序号是()A B.CD(2)x 和 y 的散点图如图所示,则下列说法中所有正确的序号为_ x, y 是负相关关系;在该相关关系中,若用y c1ec2x 拟合时的相关系数的平方为2 r1,用 y

5、bx a拟合时222的相关系数的平方为 r2,则 r 1r2 ; x、 y 之间不能建立线性回归方程 时, y与 x【解析】 (1) 由线性回归方程 y bx a知当 b0 时, y 与 x 正相关 ,当b0 时,正相关; r0 时,正相关; b0 时,负相关 通关练习 1在一组样本数据 ( x1, y1), (x2, y2) , , , (xn ,yn )(n 2,x1 ,x2,, , xn 不全相等 )的1散点图中,若所有样本点(xi, yi)(i 1, 2, , , n) 都在直线 y2x 1 上,则这组样本数据的样本相关系数为 ()A 1B.01C. 2D 1解析: 选 D . 所有点

6、均在直线上,则样本相关系数最大,即为 1,故选 D.2变量 X 与 Y 相对应的一组数据为(10, 1), (11. 3,2),(11. 8,3), (12. 5, 4), (13,5);变量 U 与 V 相对应的一组数据为(10,5),(11. 3,4),(11. 8,3),(12. 5,2),(13,1)r 1表示变量 Y 与 X 之间的线性相关系数,r2 表示变量V 与 U 之间的线性相关系数,则()A r 2 r 1 0B.0 r2 r1Cr 20 r 1D r 2 r 1解析: 选 C. 由线性相关系数公式知n)(xi x)( yi yi 1rn 2( xi x )i1.n 2( y

7、i y )i 1因为 X U 11.72, Y V 3,Xi Ui (i 1, 2, , , 5), Yi V6 i(i 1, 2, , , 5),55所以( Xi X )2( Yi Y ) 2i 1i 1所以 A 0, B 0,所以 r1 0, r2 0.线性回归分析 学生用书P194 典例引领 (2017 考全国卷高)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸 (单位: cm)下面是检验员在一天内依次抽取的16 个零件的尺寸:抽取次序12345678零件尺寸9. 9510. 129. 969. 9610. 019. 929.

8、9810. 04抽取次序910111213141516零件尺寸10. 269. 9110. 1310. 029. 2210. 0410. 059. 95(1)求 (xi, i )(i 1, 2,, ,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若 |r|0. 25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小 )(2)一天内抽检零件中,如果出现了尺寸在 3s)之外的零件,就认为这条生( x3s, x产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查(i) 从这一天抽检的结果看,是否需对当天的生产过程进行检查?

9、(ii) 在 ( x 3s, x 3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到 0. 01)附 : 样 本 (xi, yi)( i1,2, ,, n)的 相 关 系 数 rn)( xi x )( yi yi 1n 2( xi x )i 1.0. 008 0. 09.n 2( yi y )i 1【解】(1) 由样本数据得 (xi, i)( i 1, 2,, ,16)的相关系数为16)( i 8. 5) ( xi xri 1162162)( i 8. 5)(xi xi 1i 12. 78 0. 18.0. 212 16 18. 439由于 |r

10、|0. 25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小 97,s0. 212,由样本数据可以看出抽取的第13个零件的尺寸在(2)(i) 由于 x 9.( x3s, x 3s)以外 ,因此需对当天的生产过程进行检查1(ii) 剔除离群值 ,即第 13个数据 ,剩下数据的平均数为15(16 9.97 9. 22) 10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02,162221 591. 134, xi 16 0. 212 16 9. 97i1剔除第 13 个数据 ,剩下数据的样本方差为1 (1 591. 134 9. 22215 10. 022 ) 0

11、. 008,15这条生产线当天生产的零件尺寸的标准差的估计值为0. 0080. 09.线性回归分析问题的类型及解题方法(1)求线性回归方程利用公式 ,求出回归系数 b, a.待定系数法:利用回归直线过样本点的中心求系数(2)样本数据的相关系数n)(xi x)( yi yri 1,nn2) 2 ( xi x ) ( yi yi 1i 1反映样本数据的相关程度, |r|越大 ,则相关性越强 通关练习 (2016 高考全国卷 )下图是我国2008 年至 2014 年生活垃圾无害化处理量( 单位:亿吨 )的折线图注:年份代码1 7 分别对应年份2008 2014.(1)由折线图看出,可用线性回归模型拟

12、合y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程 (系数精确到0. 01),预测 2016 年我国生活垃圾无害化处理量附注:解: (1)由折线图中数据和附注中参考数据得因为 y 与 t 的相关系数近似为0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与 t 的关系 9322.89.1.331(1)0 103(2)由 y 及得,7 28.a y b t 1. 331 0. 103 40. 92.所以 ,y 关于 t 的回归方程为y 0. 92 0. 10t.将 2016 年对应的 t 9 代入回归方程得y 0. 92 0. 10 9

13、 1. 82.所以预测 2016 年我国生活垃圾无害化处理量约为1.82亿吨独立性检验 学生用书 P195 典例引领 (2017 考全国卷高)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位: kg) ,其频率分布直方图如下:(1)记 A 表示事件“旧养殖法的箱产量低于50 kg”,估计 A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量 50 kg箱产量 50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较附:P(K2 k)0. 0500.

14、 0100. 001k3. 8416. 63510. 828,2K2n( adbc)(a b)( c d)( a c)(【解】(1) 旧养殖法的箱产量低于bd) .50 kg 的频率为(0. 012 0. 014 0. 024 0. 034 0. 040)5 0. 62.因此 ,事件 A 的概率估计值为0. 62.(2)根据箱产量的频率分布直方图得列联表箱产量 6 . 635,故有 99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明: 新养殖法的箱产量平均值 (或中位数 )在 50 kg 到 55 kg之间 ,旧养殖法的箱产量平均值 (或中位数 )在 45kg 到 50 kg

15、 之间 ,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此 ,可以认为新养殖法的箱产量较高且稳定 ,从而新养殖法优于旧养殖法(1)比较几个分类变量有关联的可能性大小的方法通过计算K2 的大小判断:K2 越大 ,两变量有关联的可能性越大通过计算 |ad bc|的大小判断:|ad bc|越大,两变量有关联的可能性越大(2)独立性检验的一般步骤根据样本数据制成 22 列联表 2n( ad bc) 22的观测值 k.根据公式 K ( a b)( a c)( b d)( c d)计算 K比较 k 与临界值的大小关系,作统计推断 通关练习 (2018 惠州第三次调研 )在某校举行的航天

16、知识竞赛中,参与竞赛的文科生与理科生人数之比为 13,且成绩分布在 40 ,100 ,分数在 80 以上 (含 80)的同学获奖按文、理科用分层抽样的方法抽取 200 人的成绩作为样本,得到成绩的频率分布直方图如图所示(1)求 a 的值,并计算所抽取样本的平均值x (同一组中的数据用该组区间的中点值作代表) ;(2)填写下面的2 2 列联表,并判断能否有95%的把握认为“获奖与学生的文、理科有关”?文科生理科生合计获奖5不获奖合计200附表及公式:2K2n( adbc)(a b)( c d)( a c)( bd)P(K 2k0)0. 150. 100. 050. 0250. 0100. 005

17、0. 001k02. 0722. 7063. 8415. 0246. 6357. 87910. 828解: (1)a 1 (0. 01 0. 015 0. 030. 015 0. 005) 10 10 0. 025,x 450. 1 55 0. 15 65 0. 25 75 0. 3 85 0. 15 95 0. 0569.(2)2 2 列联表如下:文科生理科生合计获奖53540不获奖45115160合计501502002200( 5 115 35 45) 225 4. 1673. 841,因为K640 160 50 150所以有 95%的把握认为 “ 获奖与学生的文、理科有关”求回归方程,关

18、键在于正确求出系数 a,b,由于 a,b的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误回归分析是处理变量相关关系的一种数学方法主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间比较接近的数学表达式;(2) 根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程独立性检验是根据K2 的值判断两个分类变量有关的可信程度回归分析及独立性检验中的两个易误点(1) 回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义根据回归方程进行预报,仅是一个预报值,而不是

19、确定的值(2)独立性检验中统计量 K2 的观测值 k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错 学生用书P337(单独成册 )1某商品的销售量y(件 )与销售价格 x(元 /件 )存在线性相关关系 根据一组样本数据(xi,yi)( i 1,2,, ,n),用最小二乘法建立的回归方程为)y 5x150,则下列结论正确的是 (A y 与 x 具有正的线性相关关系B若 r 表示 y 与 x 之间的线性相关系数,则r 5C当销售价格为10 元时,销售量为100 件D当销售价格为10 元时,销售量为100 件左右解析: 选 D. 由回归直线方程知 , y 与

20、 x 具有负的线性相关关系,A 错,若 r 表示 y 与 x之间的线性相关系数 ,则 |r |1, B 错 当销售价格为10 元时, y 5 10 150 100,即销售量为 100 件左右 ,C 错,故选 D.2(2018 湖南湘中名校联考 )利用独立性检验来考虑两个分类变量X 和 Y 是否有关系时,通过查阅下表来确定“X 和 Y 有关系”的可信度如果k3. 841,那么有把握认为“ X 和 Y有关系”的百分比为()2P(K0. 500. 400. 250. 150. 100. 050. 0250. 0100. 0050. 001 k0)k00. 4550. 7081. 3232. 0722

21、. 7063. 8415. 0246. 6357. 87910. 828A. 5%B.75%C99. 5%D 95%解析:选 D. 由图表中数据可得,当 k3. 841 时,有 95%的把握认为 “ X 和 Y 有关系 ”,故选 D.3在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图根据该图,下列结论中正确的是()A 人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D人体脂肪含量与年龄负相关,且脂肪含量的中位数

22、小于20%解析: 选 B. 因为散点图呈现上升趋势 ,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15% 到 20%之间 ,故脂肪含量的中位数小于20% .4 (2018 北七市湖(州 )联考 )广告投入对商品的销售额有较大影响某电商对连续5 个年度的广告费x 和销售额 y 进行统计,得到统计数据如下表(单位:万元 ):广告费 x23456销售额 y294150597110 万元时销售额约为由上表可得回归方程为 y 10.2x a,据此模型,预测广告费为()A101. 2 万元B.108 . 8 万元C111. 2 万元D 118. 2 万元11解析: 选 C. 根据统计数据表 ,可得

23、 x (2 3 4 5 6) 4, y (29 41 505559 71) 50,而回归直线 y 10. 2x a经过样本点的中心 (4,50),所以 50 10. 2 4 a,2,解得 a 9. 2,所以回归方程为y 10. 2x 9. 2,所以当 x 10 时,y 10. 2 109. 2 111.故选 C.5下列说法错误的是 ()A自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高22D在回归分析中, R 为 0. 98 的模型比 R

24、为 0. 80 的模型拟合的效果好解析: 选 B. 根据相关关系的概念知A 正确;当 r0 时, r 越大 ,相关性越强 ,当 r300指数(50,100200250300150空气优良轻微污染轻度污染中度污染中度重重度污染质量污染天数413183091115记某企业每天由空气污染造成的经济损失为S(单位:元 ),PM2 . 5 指数为 x. 当 x 在区间0, 100内时对企业没有造成经济损失;当x 在区间 (100, 300 内时对企业造成的经济损失成直线模型 (当 PM2 . 5指数为150 时造成的经济损失为500 元,当 PM2 . 5 指数为200 时,造成的经济损失为 700 元

25、 );当 PM2. 5 指数大于300 时造成的经济损失为2 000 元(1)试写出 S(x)的表达式;(2)试估计在本年内随机抽取一天,该天经济损失S 大于 500 元且不超过 900 元的概率;(3)若本次抽取的样本数据有30 天是在供暖季,其中有8 天为重度污染,完成下面列联表,并判断是否有95%的把握认为郑州市本年度空气重度污染与供暖有关?非重度污染重度污染合计供暖季非供暖季合计100附:P(K 2 k0)0. 250. 150. 100. 050. 0250. 0100. 0050. 001k01. 3232. 0722. 7063. 8415. 0246. 6357. 87910.

26、 828K2n( adbc) 2,其中 n ab c d.(a b)( c d)( a c)( bd)0, x 0, 100解: (1)依题意 ,可得 S(x) 4x 100, x( 100,300 .2 000, x( 300, )(2)设 “ 在本年内随机抽取一天,该天经济损失S 大于 500 元且不超过900 元 ” 为事件 A,由 500S 900,得 1503 . 841,85 15 30 70所以有 95%的把握认为空气重度污染与供暖有关1甲、乙、丙、丁四位同学各自对方法分别求得相关系数r 与残差的平方和A、 B 两变量的线性相关性做试验,并用回归分析 m 如下表:甲乙丙丁r0.

27、820. 780. 690. 85m106115124103则哪位同学的试验结果体现A、 B 两变量有更强的线性相关性()A 甲B.乙C丙D丁解析: 选 D. 相关系数 r 越接近于 1 和残差平方和m 越小 ,两变量 A, B 的线性相关性越强 故选 D.2某考察团对 10 个城市的职工人均工资x(千元 )与居民人均消费 y(千元 )进行调查统计,得出 y 与 x 具有线性相关关系,且回归方程为2. 若某城市职工人均工资为5 千y 0. 6x 1.元,估计该城市人均消费额占人均工资收入的百分比为()A66%B.67%C79%D 84%解析: 选 D. 因为 y 与 x 具有线性相关关系 ,满

28、足回归方程 y0. 6x 1. 2,该城市居民人均工资为 x 5,所以可以估计该城市的职工人均消费水平y 0. 6 5 1. 2 4. 2,所以可以估计该城市人均消费额占人均工资收入的百分比为4. 2 84%.53春节期间,“厉行节约, 反对浪费”之风悄然吹开,某市通过随机询问100 名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男4510女3015则下面的正确结论是()A 有 90%以上的把握认为“该市居民能否做到光盘与性别有关”B在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别无关”C在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别有关”D有 90%以上的把握认为“该市居民能否做到光盘与性别无

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论