变量间的相关关系与统计案例(教师版)_第1页
变量间的相关关系与统计案例(教师版)_第2页
变量间的相关关系与统计案例(教师版)_第3页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、变量间的相关关系与统计案例【知识要点】1. 相关关系的判断X和y具有线性(1)如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量相关关系. 样本数据(Xj,yj(i = 1,2 ,,n)的相关系数n' (Xi X)(yi y)当r 0时,两变量正相关,当r : 0时,两变量负相关,当|r|1且|r|越接近于1,相关程度越高,当 | r |乞1且| r |越接近于0 ,相关程度越低.2. 回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.若变量x与y具有线性相关关系,有 n个样本数据(Xj,yi)(i = 1,2 ,,n),则回归方程

2、y =bx a中斜率和截距的最小二乘估计公式分别为:n_A 召为-X)(yi -y)b =i 1n' (x -X)21其中x丄“ Xi ,n i吕nx xyinxyn,a=y_bxv 2_x nxi 1- 1 n yyi , (x,y)称为样本点的中心.n i#【重点】 回归直线y =bx a必过样本点的中心(x, y),这个结论既是检验所求回归直线 方程是否准确的依据,也是求参数的一个依据.3. 独立性检验设X, Y为两个变量,它们的取值分别为x1, X2和y1,囲,其样本频数列联表(2 ><2列联表)如下:yiy2总计X1aba+ bX2cdc+ d总计a+ cb+ d

3、a+ b+ c + dP(K利用随机变量k2 =n(ad S(其中n a b cd为样本容量)来判断(a +b)(c +d)(a +c)(b +d)两个变量有关系”的方法称为独立性检验.【例题解析】题型一变量间的相关关系 启k)0. 0500. 0100. 001k3. 8416. 63510. 828【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是幣关来M % ais i's» ii 品塔 粗孟和UN血A.2<4< 0 v3< ri B . 4<2< Ov riv3 C.解析:选 A 易知题中图(1)与图 是正相

4、关,图(2)与图 是负相关,且图(1)与图 中的样本点集中分布在一条直线附近,则r2< zv 0v r3<【变式1】四名同学根据各自的样本数据研究变量x, y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: y与x负相关且y = 2.347 x 6.423 ;A y与x负相关且y = 3.476 x + 5.648 ;A y与x正相关且y = 5.437 x + 8.493 ; y与x正相关且y = 4.326 x 4.578.其中一定不正确的结论的序号是()A. B . C . D .解析:选D正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为

5、,故选D.相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性, 若呈图形区域且分布较乱则不具备相关性.【例2】(2014湖北高考)根据如下样本数据x345678y4.02.50.50.52.03.0得到的回归方程为y= bx+ a,则()A.a>0,b>0B.a>0,b<0C .a<0,b>0D .a<0,b<0解析:选B由表中数据画出散点图,如图,由散点图可知b<0, a>0,选B.【例3】对于下列表格所示五个散点,已知求得的线性回归方程为y = 0.8 x- 15

6、5,则实数 m的值为(x196197200203204y1367mC.8.2.8.4DA.8.8.5解析:196 + 197+ 200+ 203+ 2041 + 3 + 6 + 7+ m 17+ m=200, y =样本中心点为i200.留,将样本中心点200,17+ m a丁 代入y = 0.8X- 155,可得 m=8.故A正确.题型二回归方程的求法2011年到2015年人口总数与年份的关系如下表所示年协2011+耳(年)01234人Ufty (十頁)57g1119【例4】某城市理论预测(1)请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;(2)据此估计2016年该城市人口总数.

7、n送 XX - nxy _参考公式: b =, a = y - bx2 2人 - nxi A解:(1) : x = 2,y =10 , 2 分552 2 2 2 2 2' xiyi = 0 X5+1X7+2$+3X11+4X19=132, ' xi =01234 =30i 1i=1n瓦 Xi% nxy_.I?=弋=3.2 , 0? = y -bx = 3.6 故y关于x的线性回归方程为 ? =3.2x+3.6V 2_22- x 一 nxi :1 当x=5时,? =3.2*5+3.6即?=19.6 据此估计2016年该城市人口总数约为196万.【例5】某保险公司有一款保险产品的历

8、史户获益率(获益率= 获益甘呆费收入)的频率分布直方图如图所示:(I )试估计平均获益率;(n)根据经验若每份保单的保费在20元的基础上每增加 x元,对应的销量y (万份)与x获益率第19题图x(元)2535404555销量y (万份)7.36.36.05.94.3(元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x与y的对应数据:(i)根据数据计算出销量y (万份)与x (元)的回归方程为(ii )若把回归方程y=bx.a当作y与x的线性关系,用(I)中求出的平均获益率估计此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益nn_A 纠xx)(yy)三 x

9、ynxy 八一参考公示:b=4n号,a=y-bx二(人 - x)2' 人2 -nxi 1解析:(I )区间中值依次为:0.05 , 0.15 , 0.25 , 0.35 , 0.45 , 0.55 ,取值概率依次为: 0.1 , 0.2 , 0.25 , 0.3 , 0.1 , 0.05 ,平均获益率为x2535404555yi7.56.36.05.94.3Xj 40-15-50515yi -6.01.50.30-0.1-1.7(Xj -40)(% -6.0)-22.5-1.50-0.5-25.5(K -40)225525025255552x 40=0,i 6.0=0正(x 40)(y

10、i 6.0)=-50正(x: 40) =500i#im0.05 0.10 0.15 0.20 0.25 0.25 0.35 0.30 0.45 0.10 0.55 0.05 = 0.275(n)( i)nZ Xiyi nxyA i _i50A Ab = 0.10, a y-bx=0丁 225002 X _nxi 1则 y 6.0 二0.10(x 40)即 y = 0.10x 10.0(ii )设每份保单的保费为 20 x元,则销量为y =:-0.10x - 10.0,则保费获益为f(x) =(20 x)(-0.10x 10.0)万元,f (x)二-0.1 x用分层抽样的方法从喜欢统计课程的学生

11、中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考: 8x 200 二-0.1(x-40)2 360当x=40元时,保费收入最大为 360万元,保险公司预计获益为360 0.275=99万元题型三独立性检验【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计得病32101133不得病61213274总计93314407根据以上数据,则种子经过处理与是否生病 (填 有”或 无”)关.2n ad bc 2解析:在假设无关的情况下,根据题意口=cTdarcb+弋6,可以得到无关的概率大于 50%所以种

12、子经过处理跟是否生病有关的概率小于50%所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢 应用统计”课程是否与性别有关, 随机抽取了选修课程的 55名学生,得到数据如下表:喜欢应用统计”课程不喜欢应用统计”课程总计男生20525女生102030总计302555(1) 判断是否有99.5%的把握认为喜欢 应用统计”课程与性别有关?P(X书0.150.100.050.250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828wn ad be»亠(参考公式:eerdarbr,其中 n=a+ b+e+d)2小丄八亠

13、乂 5520X20 10X5解:(1)由公式 =30X25&5X30胡1.978>7.879 ,所以有99.5%的把握认为喜欢 应用统计”课程与性别有关. 设所抽样本中有 m个男生,则;-=20,得m= 4,所以样本中有4个男生,2个女生,3020分别记作 B, Ba, B, BsG, G.从中任选2人的基本事件有(B, R) ,(B,闵,(B,B),(B , G), (B, G), (B,B?) , (B,刍),(B, G) , (B, G), (B, B) ,(B, G) ,(B,G),(B , G), (B4 , G), (G , G),共 1 5 个,其中恰有1个男生和1

14、个女生的事件有(B, G) , (B , G2) , (B , G) , (B , G) , ( B?, G) , (B , G) , (B , G), (B , G),共 8 个.8所以恰有1个男生和1个女生的概率为石【变式1】经过对计量K2的研究,得到了若干个临界值如下:I1ft 150.1001*5(10250.0102.07227063.M15 024当K2的观测值K 3.841时,我们(A )A.在犯错误的概率不超过0.05的前提可认为A与B有关B.在犯错误的概率不超过0.05的前提可认为A与B无关C.在犯错误的概率不超过0.01的前提可认为A与B有关D.没有充分理由说明事件A与B有

15、关系【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(满分150分)进行分析,按照不小于 120分为优秀,120分以下为非优秀的标准3统计成绩,已知从全班 100人中随机抽取1人数学成绩优秀的概率为 ,调查结果如下表10所示.总计甲班1030合计10(1 )请完成上面的列联表;(2)根据列联表的数据,问是否有95%勺把握认为 数学成绩与班级有关系”;(3 )若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人 的编号,求抽到的编号为 6或10的概率.PMX

16、k)o.os0.01k18116皈1L【命JK意圏】不匪以实祁生暦为育咸.建龙麹学欖規,T:柠代轨计集啊中的裂立件检號旳知识点. 并将古典概率知讥浊造于乓中”誓査学生处理數册、分折独崛的能力.I试题鲜折】仃)粗据題中所给条件.可计澤出幣甥島学虚络建秀的楂人雜为30.从而扁宦乙凱独学 成绩伉秀的人數进画傅到甲籃敌学感细半优秀的人畫;(2)再廉番肿立的计第公式*林出也值,对比 左屮盟抿”判斷瓦其裁性.CD利用列毕法并也入古曲糕型ffit率处氏”即川曲解(1) G 分)优苻菲优勞总计甲班104050乙班203050合计3070100根据列联黑中的整据理到以=蔦蔦:"N 4762 >

17、18+1-因此有95%的靶握认为"成绩与班级育关柔”.也分)记事件 枕倒6号咸】0号*为事件九则所在的基慕事件有山D. (1.2). 1,3),f 低毗共36卜(2分)其中事件A包含的费本事件有(1,趴怯4M3,(4,2,.(5, 1). U6.(5.5), (6J)hJt8所 W P(A) =|. (2 分)【变式3】为了解人们对新颁布的生育二孩放开”政策的热度,现在某市进行调查.对5,65岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(I )求,p的值,并由频率分布直方图估计被调查人群的平均年龄;(n )根据以上统计数据填下面 2X2列联表,并根据列联表

18、的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对 生育二孩放开”政策的支持度有关系?年龄不低于45岁的人数年龄低于45岁的人数合计支持不支持合计参考数据:P(K2 Ak)0. 0500. 0100. 001k3. 8416. 63510. 82822n(ad - be)K(a +b)(c + d)(a+c)(b 十 d)解:(I )从5,15)岁这一年龄组中抽取的人数为40.8二5,且频率为0.010 10=0.1,其中n = a bed5八 n50;2分0.1又第二组的频率为0.2,则第二组人数为10人, p= =0 54分1025 17 1772256.27 : 6.6

19、35,2 32 181152平均数 x =0.1 10 0.2 20 0.3 30 0.2 40 0.1 50 0.1 60 = 33 (岁)6 分年龄不低于45岁的人数年龄低于45岁的人数合计支持32932不支持71118合计104050(n ) 2 2列联表如下:2生育二孩放开”政策的支持度有没有99%的把握认为以 45岁为分界点的不同人群对关系。【例8】为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的-;不吸烟的人数中,5患肺癌与不患肺癌的比为 1:4 .(1) 若吸烟不患肺癌的有 4人,现从患肺癌的人中

20、用分层抽样的方法抽取5人,再从这5人 中随机抽取2人进行调查,求这两人都是吸烟患肺癌的概率;(2) 若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则吸烟的 人数至少有多少?2附:K2_bc),其中 n = a b c d .(a +b)(c+d)(a +c)(b +d)P(K > ko)0.1000.0500.0100.001k°2.7063.8416.63510.8281解:(1)设吸烟人数为x,依题意有 x=4,所以吸烟的人有20人,故有吸烟患肺癌的有516人,不患肺癌的有4人.用分层抽样的方法抽取 5人,则应抽取吸烟患肺癌的 4人,记为a, b ,

21、 c , d .不吸烟患肺癌的 1人,记为A 从5人中随机抽取2人,所有可能的结果有(a,b), (a,c) , (a,d) , (a,A) , (b,c) , (b,d) , (b,A) , (c,d) , (c,A),(d,A),共10种,则这两人都是吸烟患肺癌的情形共有6种, P=,即这两人都是1053吸烟患肺癌的概率为3 6分5(2 )方法一:设吸烟人数为 5x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟4xx5x不吸烟x4x5x总计5x5x10x(5x)4由表得,K? =(4)=3.6x,由题意 3.6x10.828, x3.008,/ x为整数, x的最小值为4 则5x=20,即

22、吸烟人数至少为 20人. 方法二:设吸烟人数为 x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟4 x51 x 5x不吸烟1 一X 54 一 X5x总计xx2x由表得,K216 2 1 2、22x( x x )2525(x)418 18数且为5的倍数, x的最小值为20即吸烟人数至少为20人.NX,由题意-x > 10.828, x 15.04, x 为整【高考真题】cm).下面是检验员在一天内依次【1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:抽取的16个零件的尺寸:抽取次序12345678

23、零件尺寸9. 9510.129. 969. 9610.019. 929. 9810.04抽取次序910111213141516零件尺寸10.269. 9110.1310.029. 2210.0410.059. 95经计算得 X 二丄' 人=9.97 , s = . 1 - (x,-x)2 =1 (J x216x2) : 0.212,16 y16i二y 16 i' (i -8.5)2i 416"8.439, v (xX)(i -8.5) =-2.78,其中为为抽取的第i个零件的尺寸,i 4i =12 ,16 .(1)求(xj (i =1216)寸不随生产过程的进行而系统

24、地变大或变小(若| r卜0.25,则可以认为零件的尺寸不随生的相关系数r,并回答是否可以认为这一天生产的零件尺(x -3s,x 3s)之外的零件,就认为这条产过程的进行而系统地变大或变小).(2) 一天内抽检零件中,如果出现了尺寸在 生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i )从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii )在(x -3s厂七s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0. 01)n迟(x x)(yi y)nn-(Xi -x)2(y -y)2i 二 附:样本(Xi,yj (i

25、 =1,2,n)的相关系数r =0.008 0.09.【答案】(1)-0.18,可以;(2) ( i )需要;(i )均值与标准差估计值分别为10. 02,0. 09.【解析】试题分析:(1)依公式求r ;( 2)(i )由x =9.97, s 0.212,得抽取的第13个零件的尺寸在(x-3s,x 3s)以外,因此需对当天的生产过程进行检查;(ii )易V除第13个数据,则均值的估计值为10. 02,方差为0. 09.试题解析: 由样本数据得:的丰联系数九-2 7R2<-xW-E5):_品产.XV 14由于|广忙0.25 ,因此可臥认为这一天主产的零件尺寸不随主产过程的进行而系统地变大

26、或变小*由于咒 ,由样本数据可以看出抽取的第13个零件的尺寸在任3疥十対以外, 因此需对些天的生产过程进行检查1(ii )易V除离群值,即第 13个数据,剩下数据的平均数为一(16汇997 _922) =1002 ,15这条生产线当天生产的零件尺寸的均值的估计值为10. 02.16' X: =16 0.2122 16 9.9721591.134 ,i 4剔除第13个数据,剩下数据的样本方差为丄(1591 134 -9 222 -15=<10 022)茫0 008 ,15这条生产线当天生产的零件尺寸的标准差的估计值为.0.008 :、0.09 .【2】【2017课标II,文19】海

27、水养殖场进行某水产品的新、旧网箱养殖方法的产量对比, 收获时各随机抽取了 100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:fidfl.OHIM撵也彖(1)记A表示事件 旧养殖法的箱产量低于 50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有 99%勺把握认为箱产量与养殖方法有关:箱产量v 50kg箱产量海0kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。附:P (沪 >Jt)0.0500.0100.001k3.8416.63510.828n(ad -be)2(a b)(e d)(a e)(b d)【答案】(1)

28、0.62.( 2)有把握(3)新养殖法优于旧养殖法【解析】试题另'Uh CD 频車分韦宜方因中小氏方册面釈竽于对应祗至,计垦A的粧車(2)將數犯号入対应表 牯代人卡右公式,计算里315/70"对照E敕拥可判断冇讷軸的把握,<1>兀夙灼伯比锻夫怙 超大 越轧 再从鞋擔片布皓凤首隐M性,粗集中越好才笛J/MIW弄短芸氏于1日券菇住试範祈和: f 1>旧蓿荤法的诵产旦HEt干SGte 怖率汩< Q.012+O.014-K>.O24*D.034-0*d: «5=0 diML.垂It A的槪车佶11借沟0 52.(2)根据箱产量的频率分布直方图得

29、列联表箱产量v 50kg箱产量为0kg旧养殖法6238新养殖法3466200( 62 66-34 38)15.705100 100 96 104由于15.705 > 6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.【3】(2016年全国III卷高考)下图是我国 2008年至2014年生活垃圾无害化处理量(单 位:亿吨)的折线图年餡代码f注;牛扮代码1亠T命肌片庖平忖皿皿-却皿WT*呂

30、嘛氓豊曰妊白甘(I )由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(n)建立y关于t的回归方程(系数精确到0.01 ),预测2016年我国生活垃圾无害化处理量.附注:参考数据:7' yi =9.32,i 17' tiyi =40.17 ,i 1、(y -y)2 =0.55,7 迄646.i 4参考公式:相关系数nv (ti -T)(yi -y)i 土n,' (t t )2' (yi -y)2i ±i 4回归方程,bt中斜率和截距的最小二乘估计公式分别为:n(ti -F)(yi -y)b 二 J,a=y;-b' (ti

31、-F)i 4试题解析:(I)由折线固中数据和附注中誓考齣据号f = 4 ,刀(fe - 疔二 28F-1V(f.-/Xy.-v) = VvrV-v40.r-4x932=2.g9,P-li-1s-l2 89r 瓷曲 0.99.0,55x2x2,646因为A与啲相关系数近彳肪0.99,说明p与临线圉朕程度相当高, 从而可臥用线性回归模型槪合F与f的关系.7_9 32为(ti 0(% - y) 2(n)由 y h932 : 1. 331 及(I)得 b?= 277- 2、(ti -t)i =128:' 0.103,<?= y -? 1.330.103 4 0.92所以,y关于t的回归方

32、程为:-0.92 0.10t .10将2016年对应的t =9代入回归方程得: ? = 0.920.10 9 = 1.82.所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨12分【4】【2015高考新课标1,文19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量 y (单位:t )和年利润z (单位:千元)的影响,对 近8年的宣传费Xi和年销售量yi i =1,2J ,8数据作了初步处理,得到下面的散点图及一些统计量的值x4 y呻W8迟(Xix)2i =t8Z M _w)2iT8迟(Xi x)(yi y)8乞(Wi -w)(yi -y)im46.

33、656.36.8289.81.61469108.8表中wi =x , w =丄送Wj8 i =1(I )根据散点图判断,y=a,bx与y=c,d x,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(II )根据(I )的判断结果及表中数据,建立y关于x的回归方程;(III )已知这种产品的年利润z与x,y的关系为z =0.2y -x,根据(II )的结果回答(i )当年宣传费x=90时,年销售量及年利润的预报值时多少?(ii )当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(qvj , (u2, v2),(Un,Vn),其回归线v U的斜率和截距的最小二乘估计分别为:n送(Ui -U)(Vi -V)_'-='-n,:-二V _ :u送(Ui -U)2i 4【答案】(I) y=cd x适合作为年销售 y关于年宣传费用 x的回归方程类型(n)y =100.6 68 x (川)46.24【解析】(I )由散点图可以判断,y=cd x适合作为年销售 y关于年宣传费用x的回归方程类型.2分8_送(Wiw)(yi y)(n )令w = x,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论