(完整版)变量间的相关关系与统计案例(教师版)_第1页
(完整版)变量间的相关关系与统计案例(教师版)_第2页
(完整版)变量间的相关关系与统计案例(教师版)_第3页
(完整版)变量间的相关关系与统计案例(教师版)_第4页
(完整版)变量间的相关关系与统计案例(教师版)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、变量间的相关关系与统计案例【知识要点】1相关关系的判断如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x和y具有线性相关关系.n(Xi x)(yi y)样本数据(Xi,yJ(i = 1,2,,n)的相关系数ri i当r 0时,nnJ (x X) (yi y)2 i 1 i 1两变量正相关,当r 0时,两变量负相关,当|r| 1且|r|越接近于1,相关程度越高,当|r | 1且|r|越接近于0,相关程度越低.2回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.若变量x与y具有线性相关关系,有n个样本数据(xi, yi) (i = 1,2,,

2、n),则回归方程y bx a中斜率和截距的最小二乘估计公式分别为:nn_(x x)(y 勺)xyi nxy - 一b Jn4厂,a y bx2 2 _2(x x)x nxi 1,其中xXi,i 11 一一yi, (x,y)称为样本点的中心.n i 1【重点】 回归直线y bx a必过样本点的中心(x, y),这个结论既是检验所求回归直线 方程是否准确的依据,也是求参数的一个依据.3.独立性检验设X,Y为两个变量,它们的取值分别为列联表)如下:x1,X2和y1,y2,其样本频数列联表(2 2y1y2总计X1aba+ bX2cdc+ d总计a + cb+ da + b+ c+ dP(K2 k)0.

3、 0500. 0100. 001k3. 8416. 63510. 828利用随机变量k2n(ad bb(其中n a b c d为样本容量)来判断 两(a b)(c d)(a c)(b d)个变量有关系”的方法称为独立性检验.【例题解析】题型一变量间的相关关系【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A . 24 B. 42 v 0v ri v3 C.4 v r2V 0v r3V riD . 2 r4 0v ri v3解析:选 A 易知题中图 与图是正相关,图 与图是负相关,且图(1)与图中的样本点集中分布在一条直线附近,则r2Vr4V 0v r3vr

4、i.【变式i】四名同学根据各自的样本数据研究变量x, y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:A y与x负相关且y= 2.347X 6.423 ;A y与x负相关且y= 3.476X+ 5.648 ;A y与x正相关且y= 5.437X+ 8.493 ;A y与x正相关且y= 4.326x 4.578.其中一定不正确的结论的序号是()A.B .C.D.解析:选D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为,故选D.相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形

5、区域且分布较乱则不具备相关性.【例2】(20i4湖北高考)根据如下样本数据解析:选B 由表中数据画出散点图,如图,a0, b0由散点图可知 b0,选B.y = 0.8x i55,则实数 m【例3】对于下列表格所示五个散点,已知求得的线性回归方程为的值为()x196197200203204y1367mA.8B. 8.2C. 8.4D. 8.5解析:选 A T = 196 + 197 + 20+ 203 + 204 = 2oo,=仆 3 + 6 + 7+ m =卑卫555样本中心点为200,17Jm ,将样本中心点 200,17 m代入y= 0.8x155,可得m =,5,58.故A正确.题型二回

6、归方程的求法【例4】某城市理论预测 2011年到2015年人口总数与年份的关系如下表所示年B 2O1I-H (年01234人口数y(十万)57ft1119(1)请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;参考公式:$xwi 1n2 Xii 1nxy,$2nx了 bx解:(1)Q x2,y10,2分552 2 2 2 2 2xiYi = 0 冷+1 7+2 X8+3 XI1+4 XI9=132,Xj =0123430i 1i 1nXi Yinx yn(2)据此估计2016年该城市人口总数b 七=3.2 , a? y bx 3.6 故y关于x的线性回归方程为 ?=3.2x+3.6n

7、2_2x nxi 1当x=5时,?=3.2*5+3.6即?=19.6据此估计2016年该城市人口总数约为196万.【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益保费收入)的频率分布直方图如图所示:(I )试估计平均获益率;(n)根据经验若每份保单的保费在20元的基础上每增加 x元,对应的销量y (万份)与x(元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x与y的对应数据:JL频率组距3. 02. 52. 01. 51.00.5x(元)2535404555销量y (万份)7.36.36.05.94.300. 10. 20.30. 40.50. 6 获益率第19题图(i)根

8、据数据计算出销量y (万份)与x (元)的回归方程为(ii )若把回归方程y bx a当作y与x的线性关系,用(I)中求出的平均获益率估计 此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益参考公示:bn n(Xi x)(yi y)Xiyi nxynna y bx2 2 - 2 (N x)xinxi 1i 1解析:(I)区间中值依次为:0.05, 0.15, 0.25, 0.35, 0.45, 0.55,取值概率依次为:0.1, 0.2, 0.25, 0.3, 0.1 , 0.05,平均获益率为x2535404555yi7.56.36.05.94.3xi 40-1

9、5-50515yi 6.01.50.30-0.1-1.7(Xi40)( yi 6.0)-22.5-1.50-0.5-25.5(x 40)22552502525555x 40=0 ,yi6.0=0, (x 40)( yii 16.0)=-50,i 12(Xi 40)5000.05 0.10 0.15 0.20 0.25 0.25 0.35 0.30 0.45 0.10 0.55 0.05 0.275(n)( i)Xi yi nx y_2nx505000.10, a y b x 0则 y 6.00.10(x 40)即 y0.10x 10.0(ii)设每份保单的保费为20 x元,则销量为y 0.10

10、x 10.0,则保费获益为f(x) (20 x)( 0.10x 10.0)万元,f(x)0.1 x2 8x 2000.1(x 40)2 360当x 40元时,保费收入最大为360万元,保险公司预计获益为360 0.275=99万元解析:在假设无关的情况下,根据题意心卡n ad be 2 c+d a+eb+ d0.16题型三独立性检验【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计得病32101133不得病61213274总计93314407根据以上数据,则种子经过处理与是否生病 (填 有”或 无”关.可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关

11、的概率小于50%,所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢 应用统计”课程是否与性别有关, 随机抽取了选修课程的 55 名学生,得到数据如下表:喜欢应用统计”课程不喜欢应用统计”课程总计男生20525女生102030总计302555(1) 判断是否有99.5%的把握认为喜欢应用统计”课程与性别有关?(2) 用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.F面的临界值表供参考:P(K2 沫)0.150.100.050.250.0100.0050.001k2.0722.706

12、3.8415.0246.6357.87910.828(参考公式:k2=n ad bec+ da + c b+ d ,其中 n =汀C+ d)解:(1)由公式、门 55 X 20 X20 10 X52K2=30 25 X25 X3011.9787.879所以有99.5%的把握认为喜欢 应用统计”课程与性别有关.(2)设所抽样本中有m个男生,则盒=20得m= 4,所以样本中有4个男生,2个女生,分别记作 B1, B2, B3, B4, G1, G2.从中任选2人的基本事件有(B1, B2), (B1, B3), (B1, B4),(B1 , G1), (B1, G2), (B2,B3), (B2,

13、 B4), (B2, G1),(B2, G2), (B3 ,B4) ,(B3 , G1) ,(B3 ,G2) , (B4 , G1) , (B4 , G2) ,(G1 , G2),共 15 个,其中恰有1个男生和1个女生的事件有(B1 , G1) ,(B1 , G2) , (B2 ,G1) ,(B2 , G2) ,(B3 ,G1) , (B3 , G2) , (B4 , G1) , (B4 , G2),共 8 个.所以恰有1个男生和1个女生的概率为 辛.15【变式1】经过对计量K2的研究,得到了若干个临界值如下:P (宀30.1$0.100 050 025Q.QIO2 &725*24当K2的观

14、测值K 3.841时,我们(A )A.在犯错误的概率不超过0.05的前提可认为A与B有关B.在犯错误的概率不超过0.05的前提可认为A与B无关C.在犯错误的概率不超过0.01的前提可认为A与B有关D.没有充分理由说明事件A与B有关系【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(满分150分)进行分析,按照不小于 120分为优秀,120分以下为非优秀的标准3统计成绩,已知从全班 100人中随机抽取1人数学成绩优秀的概率为 ,调查结果如下表10所示.优秀非优秀总计It乙坯合1100(1 )请完成上面的列联表;(2) 根据列联表的数据,问是否有95%的把握

15、认为 数学成绩与班级有关系”;(3) 若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的 10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人 的编号,求抽到的编号为 6或10的概率.fa+fr)(c+d)(a+c)(fi+d)P(Kk)0.G5O,C1k18116.635IL【命JK意圏】不匪以实际生话为育咸.建龙麹学欖規,T:柠代轨计集啊中的翹言件和拮眄知识点. 并将古典概奉知讥浊造于乓中”誓査学生处理數折、分折独崛的能力.I试题鲜析1仃)粗据題中所経件.可计澤出两麹島学成缔匱番的楂人雜为30.从而确宦乙凱独学 成绩伉秀的人數进画傅到甲髓載

16、学啟细半优帚的人畫;(2)再廉番肿立的计第公式*林出也值,对比 花中盟1W”削斷耳其联性.CD利用列毕注护世入古鹽糊咀鴨率处氏”即呵曲解(分)优苻暮0总计甲班104050乙班203050合计3070100根据列联黑中的数蜿粵到泌=律:;:;:疔痒4.762 1841,因此有95%的靶提认为成绩与班级肓关柔”.詔分)记事# “期到6号或】0号为爭件九则所在的基乳事件 ko)0.1000.0500.0100.001k2.7063.8416.63510.8281解:(1)设吸烟人数为x,依题意有 x 4,所以吸烟的人有20人,故有吸烟患肺癌的有516人,不患肺癌的有4人用分层抽样的方法抽取 5人,则

17、应抽取吸烟患肺癌的 4人,记为 所有可能的结果有(a,b), (a,c) , (a,d), (a,A) , (b,c) , (b,d) , (b,A) , (c,d) , (c,A),a, b , c , d .不吸烟患肺癌的1人,记为A .从5人中随机抽取2人,63(d,A),共10种,则这两人都是吸烟患肺癌的情形共有6种, P -,即这两人都是1053吸烟患肺癌的概率为 3 6分5(2 )方法一:设吸烟人数为 5x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟4xx5x不吸烟x4x5x总计5x5x10x由表得,K210x(16x 4 x)3.6X,由题意 3.6x 10.828 , x 3

18、.008 ,(5x)/ x为整数, x的最小值为4 则5x 20,即吸烟人数至少为 20人. 方法二:设吸烟人数为 x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟41x5x5x不吸烟1 x54 x5x总计xx2x由表得,K216 2 1 2、22x( x x )2525(x)418 x,由题意 18 x 10.828 , x 15.04 , / x 为整数且为5的倍数,x的最小值为20即吸烟人数至少为20人.【高考真题】【1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:次抽取的16个零件的尺寸:cm

19、).下面是检验员在一天内依2525抽取次序12345678零件尺寸9. 9510.129. 969. 9610.019. 929. 9810.04抽取次序910111213141516零件尺寸10.269. 9110.1310.029. 2210.0410.059. 9516经计算得x1 16Xi16 i 19.97 , sV16(X X)1 2i 11 ( X2 16x2)0.212,16 i 116(i8.5)21618.439,i 1(XiX)(i 8.5)2.78 ,其中Xi为抽取的第i个零件的尺寸,i 1,2, ,16 .(1)求(Xi,i)(i 1,2,16)的相关系数r,并回答是

20、否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若| r | 0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2) 天内抽检零件中,如果出现了尺寸在(X 3s,X 3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i )从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(X 3s,X 3s)之外的数据称 为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0. 01)附:样本(Xj,yj (i 1,2,n)的相关系数rn(X X)(yi y)i 1n(X X

21、)2i 1n?(y y)2i 1.0.0080.09.【答案】试趣解析: 由样本数据得(无0(心1諾16的相关系數対-2 71?丈(石-荻-呵:_架.缶厂叭品-呵艸卿f-dV M由于|广|弋G25 ,因此可从认为这一天主产的零件尺寸不随主产过程的进行而系统地变夫或变小*由于无“旳存02】2,由样锄据可以看出抽取的第13个需件的尺寸在(无3疥+%)以外, 因此需对当天的生产过程逬行检查(ii)易V除离群值,即第13个数据,剩下数据的平均数为丄(16 9 97 922) 10 02,这15条生产线当天生产的零件尺寸的均值的估计值为10. 02.162 2 2Xi216 0.2122 16 9.97

22、21591.134 ,i 1122剔除第13个数据,剩下数据的样本方差为(1591.134 9.2215 10.02 ) 0.008 ,15这条生产线当天生产的零件尺寸的标准差的估计值为 .0.0080.09 .【2】【2017课标II,文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:(2)填写下面列联表,并根据列联表判断是否有99%的把握认 为箱产量与养殖方法有关:箱产量v 50kg箱产量 50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。P曲“0.0

23、500.0100.001k3.8416.63510.828附:K2n (ad be)2(a b)(e d )(a e)(b d)【答案】(1)0.62.( 2)有把握(3)新养殖法优于旧养殖法【解析】试题甘折: *丽頼率分奇亘方區巾小氓方总面釈等于刪戊紙車.计畀人的概率C2)入M直去 移.代人亡方公式,计45 705 7对暉蒔考約捋可単阡有, 朱从堆佰比琢龙牛.丈 越奸,再从擞協专芾肯丹看棉主出越隼中越好综上可得新养殖法优于旧抿1法MW:( 1 I口芜殖?占厢产虽f匡三別kg頫率为因此,s rr a计值沟(2)根据箱产量的频率分布直方图得列联表箱产量v 50kg箱产量 50kg旧养殖法6238

24、新养殖法3466k2=15.705200 (62 66-34 38)100 100 96 104由于15.705 6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法【3】(2016年全国III卷高考)下图是我国 2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图f醫总兰算氓豊曰妊自H-(I)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(n)建立y关于t的

25、回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:7yii 19.32 ,7ti yi40.17 ,17(yiy)2i 10.55 ,72.646.n参考公式:相关系数(ti f)( y y)i 1回归方程ybt中斜率和截距的最小二乘估计公式分别为:n(tit)(y y)i 1n(ti t)2i 1试題薛析:(i)由折线圄中数抿和附注中蟄考数据得i-iV心二工 片匸斗。-.一 .89 jP-1:-1S-12890.55x22.646299.因为F与啲相关系数近(初0. 99,说明$与啲线圉朕程度相当高,从而可S用线性回归模型槪合卩与扌的关系. 6分-9 3

26、2c由沏及* (I)得(tii 1t)(yiy)(tit)2i 12.89280.103,? y bt 1.331 0.103 4 0.9210分所以,y关于t的回归方程为:? 0.92 0.10t .将2016年对应的t 9代入回归方程得:y 0.92 0.10 9 1.82 .所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨12分【4】【2015高考新课标1,文19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量 y (单位:t)和年利润z (单位:千元)的影响,对近8年的宣传费xi和年销售量yi i 1,2丄,8数据作了初步处理,得到下面的

27、散点图及一ur表中Wi = Jx ,wi些统计量的值r xU yirW8一 2 (Xi x)i 182(Wi w)i 18(Xi x)(yi y)i 18(Wi w)(yi y)i 146.656.36.8289.81.61469108.88(I) 根据散点图判断,y a bx与y cd x,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(II) 根据(I)的判断结果及表中数据,建立y关于x的回归方程;(III )已知这种产品的年利润z与x,y的关系为z 0.2y x,根据(II)的结果回答下列问题:(i)当年宣传费x 90时,年销售量及年利润的预报值时多

28、少?(ii)当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(*,V1),(U2, V2),(Un,Vn),其回归线vU的斜率和截距的最小二乘估计分别为:n(Ui u)(Vi v) _m= _n,归v 临(Ui U)2i 1【答案】(i ) y c d x适合作为年销售 y关于年宣传费用 x的回归方程类型(n )$100.6 68 X (川)46.24【解析】(I)由散点图可以判断,y c d X适合作为年销售 y关于年宣传费用 x的回归方程类型.2分8_(Wi w)(yi y)(n)令w x,先建立 y关于w的线性回归方程,由于d i 1 8=(W w)2i 1108.8 =68 ,二 $ y dw =563-68 68=100616 y关于w的线性回归方程为 $100.6 68w , y关于x的回归方程为$ 100.6 68 x.6分(川)(i )由(n)知,当x=49时,年销售量y的预报值$ 100.6 6 8 49 =576.6,$ 576.6 0.2 49 66.32.9 分(ii)根据(n )的结果知,年利润 z的预报值$ 0.2(100.6 68 x) x x 13.6 x 20.12,当 x = 13.6 =6.8,即x 46.24时,$

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论