变量间地相关关系与统计案例(教师版)_第1页
变量间地相关关系与统计案例(教师版)_第2页
变量间地相关关系与统计案例(教师版)_第3页
变量间地相关关系与统计案例(教师版)_第4页
变量间地相关关系与统计案例(教师版)_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

标准实用文案标准实用文案文档文档£n(X£n(X-X)(y-y)i ii=1 £n(X-X)2i=1iV\V2总计x1aba+bP(K2>k)0.0500.0100.001k3.8416.63510.828变量间的相关关系与统计案例【知识要点】1.相关关系的判断(1)如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量X和y具有线性相关关系.£(X-x)(y-y)(2)样本数据(x,y)(i=1,2,..,n)的相关系数r=一」_ ' 当r>0时,ii i 、i2(x-X)2二£(y-y)2'i卜iTi=1 'i=1两变量正相关,当r<0时,两变量负相关,当|r|<1且|r|越接近于1,相关程度越高,当|r|<1且|r|越接近于0,相关程度越低.2.回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.若变量x与y具有线性相关关系,有n个样本数据(X,y)(i=L2,…,n),则回归方程iiy=bX+a中斜率和截距的最小二乘估计公式分别为:£一一Xy-nXyii 人一力一-i=r; ,a=y-bx£x2-nx2ii=1其中X—£X,y—£y,(X,y)称为样本点的中心.ninii=1 i=1【重点】回归直线y=bx+a必过样本点的中心(x,y),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.3.独立性检验设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2x2列联表)如下:

x2cdc+d总计a+cb+da+b+c+d利用随机变量K2=—n(ad-bc)2_(其中n=a+b+c+d为样本容量)来判断(a+b)(c+d)(a+c)(b+d)“两个变量有关系”的方法称为独立性检验.【例题解析】题型一变量间的相关关系【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是相关弟联为八5而isasis相关弟联为八5而isasis认&12)— । ■I1■□S10^5年烈部35间美原疝为出A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1解析:选A易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<ri.【变式1】四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与X负相关且y=2.347X-6.423;②y与x负相关且y=-3.476X+5.648;③y与x正相关且y=5.437X+8.493;④y与x正相关且y=-4.326x-4.578.其中一定不正确的结论的序号是( )A.①② B.②③ C.③④D.①④解析:选D正相关指的是丫随x的增大而增大,负相关指的是丫随x的增大而减小,

故不正确的为①④,故选D.相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.【例2】(2014・湖北高考)根据如下样本数据x345678y4.02.5-0.50.5-2.03.0得到的回归方程为丫=bx+a/U()A.a>0,b>0 B.a>0,b<0 C.a<0,b>0 D.a<0,b<0解析:选B由表中数据画出散点图,如图,由散点图可知b<0,a>0,选B.【例3】对于下列表格所示个散点,已知求得的线性回归方程为丫=0秋-155,则实数m的值为()x196x196197y1320020320467mA.8 B.8.2 C.8.4 D.8.5196+197+200+203+204 _1+3+6+7+196+197+200+203+204 _1+3+6+7+m解析:选Ax= =200,y=17+m' 17+m' 17+m) ( 17+m'样本中心点为200,——,将样本中心点200,——代入丫=0.8x-155,可得V 7 V 7m=8故A正确.题型二回归方程的求法

【例4】某城市理论预测2011年到2015年人口总数与年份的关系如下表所示年价2011+xf年)0【例4】某城市理论预测2011年到2015年人口总数与年份的关系如下表所示年价2011+xf年)01234人口软y(十万)57H19(1)请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;(2)据此估计2016年该城市人口总数.>一x^xy-nxy

ii — —参考公式:b=甘 ,a=y-bx乙x2-nx-2i

i=1解:(1)x=2,y=10,……2分Xxy=0x5+1x7+2x8+3x11+4x19=132,iii=1Ax2=02+12+22+32+42=30ii=1> —xy-nxyiib=-i=1 夕C-2x2-nx2

ii=12=y-bx=3.6故y关于x的线性回归方程为y=3.2x+3.6(2)当x=5时,y=3.2*5+3.6即y=19.6据此估计2016年该城市人口总数约为196万.【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益!保费收入)的频率分布直方图如图所示:(工)试估计平均获益率;(口)根据经验若每份保单的保费在20元的基础上每增加x元,对应的销量y(万份)与x(元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x与y的对应数据:

(i)根据数据计算出销量y(万份)与,(元)的回归方程为9=bx+a;(ii)若把回归方程y=bx+a当作y与x的线性关系,用(工)中求出的平均获益率估计此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益.参考公示:b=£参考公示:b=£(X—x)(y—y)

iii= £(X一X)2i=1i£一一x^xy一nxyii A= ,a£x2—nx2i=1解析:(工)区间中值依次为:0.05,0.15,0.25,0.35,0.45,0.55,取值概率依次为:0.1,0.2,0.25,0.3,0.1,0.05,平均获益率为xi2535404555yi7.56.36.05.94.3x一40i-15-50515y一6.0i1.50.30-0.1-1.7(x-40)(y一6.0)i i-22.5-1.50-0.5-25.5(x-40)2i25525025255x-40=0,y一6.0=0,£(x-40)(y一6.0)=-50,£(x-40)2=500i i i i ii=1 i=10.05x0.10+0.15x0.20+0.25x0.25+0.35x0.30+0.45x0.10+0.55x0.05=0.275(□)(i)£*一nxy-50 Xx2-nx2ii=l500=-0.10,a=y-bx=Q则y-6.0=-0.10(x-40)即y=-0.10x+10.0(ii)设每份保单的保费为20+x元,则销量为y=-0.10x+10.0,则保费获益为f(x)=(20+x)(-0.10x+10.0)万元,f(x)=-0.1x2+8x+200=-0.1(x-40)2+360当x=40元时,保费收入最大为360万元,保险公司预计获益为360x0.275=99万元.题型三独立性检验种子处理种子未处理总计得病32101133不得病61213274总计93314407【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,则种子经过处理与是否生病(填“有”或“无”)关.nad-bc2解析:在假设无关的情况下,根据题意K2二 -a+b c+d a+cb+d0.16,可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关的概率小于50%,所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的喜欢“应用统计”课程不喜欢“应用统计”课程总计55名学生,得到数据如下表:男生20525女生102030总计302555(1)判断是否有99.5%的把握认为喜欢“应用统计”课程与性别有关?(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:P(K2>k)0.150.100.050.250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828nad-bc2(参考公式:K2=a+b。+~a+c b+d,其中『="*+~)55x20x20-10x52解:(1)由公式K2二一2c0匚o匚2c—=11.978>7.879,30x25x25x30所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(2)设所抽样本中有m个男生,则H,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,GjNByGjNBuGj.E,。),共8个.所以恰有1个男生和1个女生的概率为15.【变式1】经过对计量K2的研究,得到了若干个临界值如下:FOJSOJOon50.015OJOIOA5必也纪5当K2的观测值K>3.841时,我们(A)

A.在犯错误的概率不超过0.05的前提可认为A与B有关B.在犯错误的概率不超过0.05的前提可认为A与B无关C.在犯错误的概率不超过0.01的前提可认为A与B有关D.没有充分理由说明事件A与B有关系【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班10数学成绩(满分150分)进行分析,按照不小于120分为优秀,120分以下为非优秀的标准统计成绩,已知从全班100人中随机抽取1人数学成绩优秀的概率为上,调查结果如下10表所示.优秀甲班优秀甲班乙班含H非优秀范计30(1)请完成上面的列联表;(2)根据列联表的数据,问是否有95%的把握认为“数学成绩与班级有关系”;(3)若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人的编号,求抽到的编号为6或10的概率.尔十出国十4克尔十出国十4克0十c)但十心0,OS0.01k3.841氏635L&【命题怠阳】布题以实际生活内育景,建立我学模里,主号置「统计案例中的独立在位验的知识点,汴将古典概率知识满透于其中.考查学生处理熟据、分折数相的能力【试题解析】门)根据地中所蜡条件,可计立出两班费学成绩优秀峋息人里为钻,从而碰定乙班数学或绩优秀的人数,进而得到甲班数学域绩年优秀的人戳;《用再根据小的计算公式,算出K值.对比表中数揖.判断其关帙性.G)利用列举法并代入古的概里概率公式.即可求解.优秀甲班优秀甲班10乙班20合计30非优秀息计40小305070100(2)根据列联表中的数据,得到/=二:差"谓:如“、4,762>1841,3OX7OiXMX50因此有95%的把握认为”成绩与班级有关系h.(4分)(3)记事件“抽到6号或10号”为事件九则所有的基本事件有口,1)、(10)1⑶-76a共36牝(2分)其中事件A包含的基本事件有(1,2.(24)J3,3),(4,2)1⑸(5,5),(6,4),共8个.所以p(a=『*(2分)【变式3】为了解人们对新颁布的“生育二孩放开”政策的热度,现在某市进行调查.对[5,65]岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(1)求,p的值,并由频率分布直方图估计被调查人群的平均年龄;(口)根据以上统计数据填下面2x2列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系?年龄不低于45岁的人数年龄低于45岁的人数合计支持不支持合计参考数据:P(K2>k)0.0500.0100.001k3.8416.63510.828n(ad一bc)2 ,(a+b)(c+d)(a+c)(b+d)其中n=a+b+c+d解:(工)从[5,15)岁这一年龄组中抽取的人数为.±0.8=5,且频率为0.010X10=0.1,「♦n=-^—=50;0.1又第二组的频率为0.2,则第二组人数为10人,/♦p=9=0,510平均数兀=0.1x10+0,2x20+0,3x30+0,2x40+0.1x50+0,1x60=33(岁)2分4分年龄不低于45岁的人数年龄低于45岁的人数合计支持32932不支持71118合计104050(口)2x2列联表如下:25x17x177225K2= = h6.27<6.635,2x32x18 1152・•・没有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系。【例8】为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的4;不吸烟的人数中,5患肺癌与不患肺癌的比为1:4.(1)若吸烟不患肺癌的有4人,现从患肺癌的人中用分层抽样的方法抽取5人,再从这5人中随机抽取2人进行调查,求这两人都是吸烟患肺癌的概率;(2)若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则吸烟的人数至少有多少?附:K2= n(ad-b)2 ,其中n-a+b+c+d.(a+b)(c+d)(a+c)(b+d)P(K,k)00.1000.0500.0100.001k02.7063.8416.63510.8281解:(1)设吸烟人数为%,依题目有5x-4,所以吸烟的人有20人,故有吸烟患肺癌的有16人,不患肺癌的有4人.用分层抽样的方法抽取5人,则应抽取吸烟患肺癌的4人,记为a,b,c,d.不吸烟患肺癌的i 人,记为A.从5人中随机抽取2人,所有可能的结果有(a,b),(a,c),(a,d),(a,A),(b,c),(b,d),(b,A),(c,d),(c,A),(d,A),共10种,则这两人都是吸烟患肺癌的情形共有6种,.••尸二1-3,即这两人都是吸烟患肺癌的概率为3 6分(5X)4

・「%为整数,「•%的最小值为4.则5%=20,即吸烟人数至少为20人.且为5的倍数,」•%的最小值为20即吸烟人数至少为20人.【高考真题】【1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得X=乂£x=9.97,s=:_L£(x—x)2=:_L(£x2—16x2)h0.212,16i \'16i"16ii=1 i i=1 i=1£(i—8.5)2h18.439,£(x「x)(i—8.5)=—2.78滇中xi为抽取的第i个零件的尺寸,i=1 i=1i=1,2,…,16.(1)求(x,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺i寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x—3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(II)在(元—3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)Z(x—x)(y—y)附:样本(x,y)(i=1,2,…,n)的相关系数r= ㈠, 。 ,,, 庐(xi-x)2!Z(yi-y)2i=1 ,i=1<0:008h0.09.【答案】(1)rh—0.18,可以;(2)(i)需要;(ii)均值与标准差估计值分别为10.02,0.09.【解析】试题分析:(1)依公式求r;(2)(i)由x=9.97,sh0.212,得抽取的第13个零件的尺寸在(x—3s,x+3s)以外,因此需对当天的生产过程进行检查;(ii)剔除第13个数据,则均值的估计值为10.02,方差为0.09.

试题解析:(1)由样本数据得…46)的相关系数为「加fT"二F-麻万炉石。。⑵抠小融由于|广卜0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(0由于元=9一97,£=S212,由样本数据可以看出抽取的第13个零件的尺寸在值—全息+3月以外,因此需对当天的生产过程进行检查.1(ii)剔除离群值,即第13个数据,剩下数据的平均数为卷(16*9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.£x2=16义0.2122+16*9.972氏1591.134,ii=11剔除第13个数据,剩下数据的样本方差为记(1591.134-9.222-15*10.022)氏0,008,这条生产线当天生产的零件尺寸的标准差的估计值为y0008x0.09.【2】【2017课标II,文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1) 记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2) 填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<箱产量二50kg

50kg1日养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。附:附:P(产“)0.0500.0100.001k3.8416.63510.828“ n(ad-bc)22= (a+b)(c+d)(a+c)(b+d)【答案】(1)0.62.(2)有把握(3)新养殖法优于旧养殖法【解析】试题分析:<1)根据场率分布直方图中小长方形面积等于对应概率,计篁A的概率(2)将触据埴久对由表格,代入卡方公式,计算至2a15/7Q5,对照学考数据可为断有目目咻的书区是,门)先从均值比国大小,越大越好,再从数据分布情况看稿定性,越集中越好,综上可得新养殖法仇「旧养殖法试题解析:(1)旧养殖法期音产里低于50kg的频率为(0.012+0.014+0.024^0.034-0J04O)^5=0.62因此,事件A的概率估计值为062.(2)根据箱产量的频率分布直方图得列联表箱产量<50kg箱产量”0kg旧养殖法6238新养殖法3466K2=200x(X66-34X38)^15705100X100X96X104 .K2=由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.⑶箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳

定,从而新养殖法优于旧养殖法.【3】(2016年全国III卷高考)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图以由驻京¥以由驻京¥僚相轻如捷轲.居(工)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(口)建立y关于t的回归方程(系数精确到0.01),予预测2016年我国生活垃圾无害化处理量.附注:参考数据:2y=9.32,£ty=40.17,';£(y—y)2=0.55,■.77*2.646.i ii i "i=1 i=1 'i=1参考公式:相关系数r参考公式:相关系数r=£(t-t~)(y—y)TOC\o"1-5"\h\z£(t-T)2£(y-y)2

i ii=1 i=1回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为:£(t—干)(y—力、

ii)=i=1- ,a=£(t-t)2ii=1

试题解析:(I)由折线图中数据和附注中参考数据得)=4,彳&-行二/卜a-1了二035,士(5人「B旺5一注…0f1=2-i-1 £-1 £-1尸三 三空 飞0.99 4分0.55>:2x2.646因为,与f的相关系数近似为0.99,说明1■与工的线性相关程度相当高,从而可以用线性回归模型拟合;I1与『的关系. g分932 八2L(t-t)(y-y)2890.103,TOC\o"1-5"\h\z(口)由y=上六1.331及(工)得b=I- = 289。0.103,7 工(t—t)2 28ii=1a=y-bt21.331-0.103x420.92所以,y关于t的回归方程为:y=0.92+0.101 10分将2016年对应的t=9代入回归方程得:y=0.92+0.10x9=1.82.所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨. 12分【4】【2015高考新课标1,文19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费X(单位:千元)对年销售量y(单位:t)和年利润Z(单位:千元)的影响,对近8年的宣传费x和年销售量y(i=1,2, ,8)数据作了初步处理,得到下面的散点图及ii一些统计量的值.一些统计量的值.xyw£(x-x)2ii=1£(W-W)2ii=1£(x-x)(y-y)i ii=1£(w-w)(y-y)i ii=146.656.36.8289.81.61469108.8表中w二,X,w二—£wi'i 8ii=1(I)根据散点图判断,y=a+bx与y=c+d、F,哪一个适宜作为年销售量y关于年宣传费X的回归方程类型(给出判断即可,不必说明理由);(II)根据(I)的判断结果及表中数据,建立y关于X的回归方程;(山)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(II)的结果回答下列问题:⑴当年宣传费了=90时,年销售量及年利润的预报值时多少?(ii)当年宣传费了为何值时,年利润的预报值最大?11 22nn附:对于一组数据(u,v),(u,v),……,(u,v),其回归线v=a+Pu的斜率和截距的11 22nn最小二乘估计分别为:£(u-u)(v-v)p=J i ,&=v-pu£(u-u)2ii=1【答案】([)y=c+d4适合作为年销售y关于年宣传费用x的回归方程类型(口)y=100.6+68JX(m)46.24【解析】([)由散点图可以判断,y=c+d4适合作为年销

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论