版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、_3.1回归分析的基本思想及其初步应用回归直线方程提出问题必修3中,求出回归直线方程x.问题1:回归直线方程准确的反映了x,y之间的关系吗?提示:不是问题2:所有的两个相关变量都可以求回归方程吗?提示:可以,但拟合程度很差导入新知1回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法2回归直线方程方程x是两个具有线性相关关系的变量的一组数据(x1,y1)(x2,y2),(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:其中i,i,(,)称为样本点的中心化解疑难线性回归方程中系数的含义(1)是回归直线的斜率的估计值,表示x每增加一个单位,y的平均增加单位数,而不是
2、增加单位数(2)当0时,变量y与x具有正的线性相关关系;当0时,变量y与x具有负的线性相关关系线性回归分析提出问题具有相关关系的两个变量的回归直线方程x.问题1:预报变量与真实值y一样吗?提示:不一定问题2:预报值与真实值y之间误差大了好还是小了好?提示:越小越好导入新知1残差平方和法(1)iyiiyixi(i1,2,n),称为相应于点(xi,yi)的残差(2)残差平方和(yii)2越小,模型拟合效果越好2残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度越窄,说明模型的精确度越高3利用相关指数r2刻画回归效果其计算公式为:r21,其几何意义:r2越接
3、近于1,表示回归效果越好化解疑难1在线性回归模型中,因为e是一个随机变量,所以可以通过其数字特征来刻画它的一些总体特征2在线性回归模型中,r2表示解释变量对于预报变量变化的贡献率,r2越接近于1,表示回归的效果越好求线性回归方程例1某种产品的广告费用支出x与销售额y(单位:百万元)之间有如下的对应数据:x/百万元24568y/百万元3040605070(1)画出散点图;(2)求线性回归方程;(3)试预测广告费用支出为10百万元时,销售额多大?解(1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i12345合计xi2456825yi3040605070250xiyi6016030
4、03005601 380x416253664145所以,5,50,145,iyi1 380.于是可得6.5, 506.5517.5.所以所求的线性回归方程为6.5x17.5.(3)根据上面求得的线性回归方程,当广告费用支出为10百万元时,6.51017.582.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元类题通法求线性回归方程的步骤(1)列表表示xi,yi,xiyi,x;(2)计算,iyi;(3)代入公式计算,的值;(4)写出线性回归方程活学活用为了估计山上积雪融化后对下游灌溉的影响,在山下建立了一个观测站,测量了最大积雪深度x(尺)与当年灌溉面积y(千亩),得到连续
5、10年的数据于下表:年序最大积雪深度x/尺灌溉面积y/千亩115.228.6210.419.3321.240.5418.635.6526.448.9623.445.0713.529.2816.734.1924.046.71019.137.4(1)试根据散点图判断变量y与x是否相关?(2)若y与x相关,求出回归直线方程解:为了研究这些数据中所蕴含的规律性,我们把各年最大积雪深度作为横坐标,相应的灌溉面积作为纵坐标,将这些数据点标在平面直角坐标系中,如下图所示从上图可以看到,数据点大致落在一条直线附近,这告诉我们变量x与y之间的关系大致可看作是线性关系,从上图还可以看到,这些点又不都在一条直线上,
6、这表明x与y的关系并没有确切到给定x就可以唯一地确定y的程度,事实上,还有许多其他因素对y产生影响,如当年的平均气温,当年的降雨量等等,这些都是影响y取什么值的随机因素,研究x与y的关系,利用公式得,(15.210.419.1)18.85,(28.619.337.4)36.53,x10 2227.845,xiyi10 413.065,1.813,36.531.81318.852.355.从而回归直线方程为1.813x2.355.线性回归分析例2已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x(元)1416182022y(件)1210753求y对x的回归直线方程,并说明回归
7、模型拟合效果的好坏解(1416182022)18,(1210753)7.4,1421621822022221 660,122102725232327,iyi14121610187205223620,1.15. 7.41.151828.1,所求回归直线方程为1.15x28.1.列出残差表:yii00.30.40.10.2yi4.62.60.42.44.4(yii)20.3,(yi)253.2,r210.994,故回归模型的拟合效果很好类题通法在进行线性回归分析时,要按线性回归分析步骤进行在求r2时,通常采用分步计算的方法,r2越大,模型的拟合效果越好活学活用关于x与y有如下数据:x24568y3
8、040605070有如下的两个线性模型:(1)6.5x17.5;(2)7x17.试比较哪一个拟合效果更好解:由(1)可得yii与yi的关系如下表:yii0.53.5106.50.5yi201010020(yii)2(0.5)2(3.5)2102(6.5)20.52155,(yi)2(20)2(10)2102022021 000.r110.845.由(2)可得yii与yi的关系如下表:yii15893yi201010020 (yii)2(1)2(5)282(9)2(3)2180,(yi)2(20)2(10)2021022021 000.r110.82.由于r0.845,r0.82,0.8450.
9、82,rr.(1)的拟合效果好于(2)的拟合效果.非线性回归分析例3在一次抽样调查中测得样本的5个样本点,数值如下表:x0.250.5124y1612521试建立y与x之间的回归方程解作出变量y与x之间的散点图,如图所示由图可知变量y与x近似地呈反比例函数关系设y,令t,则ykt.由y与x的数据表可得y与t的数据表:t4210.50.25y1612521作出y与t的散点图,如图所示:由图可知y与t近似地呈线性相关关系又1.55,7.2,iyi94.25,21.312 5,4.134 4, 7.24.134 41.550.8,4.134 4t0.8.所以y与x的回归方程是0.8.类题通法非线性回
10、归分析的步骤非线性回归问题有时并不给出经验公式这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决其一般步骤为:活学活用3某电容器充电后,电压达到100 v,然后开始放电,由经验知道,此后电压u随时间t变化的规律用公式uaebt(b0)表示,现测得时间t(s)时的电压u(v)如下表:t/s012345678910u/v100755540302015101055试求:电压u对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解
11、:对uaebt两边取对数得ln uln abt,令yln u,aln a,xt,则yabx,y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得5,3.045,由公式计算得0.313, 4.61,所以y对x的线性回归方程为0.313x4.61.所以ln 0.313t4.61,即e0.313t4.61e0.313te4.61,因此电压u对时间t的回归方程为e0.313te4.61.典例下列现象的线性相关程度最高的是()a某商店的职工人数与商品
12、销售额之间的相关系数为0.87b流通费用率与商业利润率之间的相关系数为0.94c商品销售额与商业利润率之间的相关系数为0.51d商品销售额与流通费用率之间的相关系数为0.81解析|r|越接近于1,相关程度越高答案b易错防范1解题误认为r越近于1,相关程度越高,从而误选a.2|r|值越大,变量之间的线性相关程度越高;|r|值越接近0,变量之间的线性相关程度越低成功破障变量x与y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量u与v相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量y
13、与x之间的线性相关系数,r2表示变量v与u之间的线性相关系数,则()ar2r10b0r2r1cr20r1 dr2r1解析:选c对于变量x与y而言,y随x的增大而增大,故变量y与x正相关,即r10;对于变量u与v而言,v随u的增大而减小,故变量v与u负相关,即r10.故r20r1.随堂即时演练1关于回归分析,下列说法错误的是()a在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定b线性相关系数可以是正的也可以是负的c在回归分析中,如果r21或r1,说明x与y之间完全线性相关d样本相关系数r(1,1)解析:选d样本的相关系数应满足1r1.2若某地财政收入x与支出y满足回归方
14、程bxaei(单位:亿元)(i1,2,),其中0.8,2,|ei|0.5,如果今年该地区财政收入10亿元,年支出预计不会超过()a10亿元b9亿元c10.5亿元 d9.5亿元解析:选c0.8102ei10ei,|ei|0.5,10.5.3在研究气温和热茶销售杯数的关系时,若求得相关指数r20.85,则表明气温解释了_的热茶销售杯数变化,而随机误差贡献了剩余的_,所以气温对热茶销售杯数的效应比随机误差的效应大得多解析:由相关指数r2的意义可知,r20.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案:85%15%4若施肥量x(kg)与小麦产量y(kg)之间的回归直线方程为2504x,
15、当施肥量为50 kg时,预计小麦产量为_解析:把x50代入2504x,可求得450.答案:450 kg5某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程x,其中b20,;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解:(1)因为(88.28.48.68.89)8.5,(908483807568)80.从而2080208.5250,故20x250.(2
16、)由题意知,工厂获得利润z(x4)y20x2330x1 00020(x)2361.25,所以当x8.25时,zmax361.25(元)即当该产品的单价定为8.25元时,工厂获得最大利润课时达标检测一、选择题1为了研究变量x和y的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l1和l2,已知两人计算过程中,分别相同,则下列说法正确的是()al1与l2一定平行bl1与l2重合cl1与l2相交于点(,)d无法判断l1和l2是否相交解析:选c回归直线一定过样本点的中心(,),故c正确2甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数r2分别如下
17、表:甲乙丙丁r20.980.780.500.85哪位同学建立的回归模型拟合效果最好?()a甲 b乙c丙 d丁解析:选a相关指数r2越大,表示回归模型的拟合效果越好3对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是()解析:选a用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适带状区域的宽度越窄,说明模型的拟合精度越高4设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为0.85x85.71,则下列结论中不正确的是()
18、ay与x具有正的线性相关关系b回归直线过样本点的中心(,)c若该大学某女生身高增加1 cm,则其体重约增加0.85 kgd若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:选d回归方程中x的系数为0.850,因此y与x具有正的线性相关关系,a正确;由回归方程系数的意义可知回归直线过样本点的中心(,),b正确;依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,c正确;用回归方程对总体进行估计不能得到肯定的结论,故d错误5某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程x中的为9
19、.4,据此模型预报广告费用为6万元时销售额为()a63.6万元 b65.5万元c67.7万元 d72.0万元解析:选b样本点的中心是(3.5,42),则429.43.59.1,所以回归直线方程是9.4x9.1,把x6代入得65.5.二、填空题6在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为_解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:17若一个样本的总偏差平方和为80,残差平方和为60,则相关指数r2为_解析:
20、回归平方和总偏差平方和残差平方和 806020,故r20.25或r210.25答案:0.258面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:,71,79,iyi1 481.则销量每增加1 000箱,单位成本下降_元解析:由题意知,1.818 2,71(1.818 2)77.36,1.818 2x77.36,销量每增加1千箱,则单位成本下降1.818 2元答案:1.818 2三、解答题9某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编
21、号12345工作年限x/年35679年推销金额y/万元23345(1)求年推销金额y关于工作年限x的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额解:(1)设所求的线性回归方程为x,则0.5, 0.4.所以年推销金额y关于工作年限x的线性回归方程为0.5x0.4.(2)当x11时,0.5x0.40.5110.45.9(万元)所以可以估计第6名推销员的年推销金额为5.9万元10假设某农作物基本苗数x与有效穗数y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,画
22、出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗数;(3)计算各组残差解:(1)散点图如图所示(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程来建立两个变量之间的关系设线性回归方程为x,由表中数据可得0.29,34.66,故y与x之间的回归方程为0.29x34.66.当x56.7时,0.2956.734.6651.103.故估计有效穗数为51.103.(3)各组数据的残差分别为10.39,20.76,30.46,42.17,51.66.3.2独立性检验的基本思想及其初步应用独立性检验的有关概念提出问题某校高三模拟考试调查中,性格内向的426
23、人中有332人考前紧张,性格外向的594人中有213人考前紧张问题1:考前紧张与性格类别有关系吗?提示:有问题2:通过怎样比较看出有?提示:通过考前紧张的人数占性格类型的比例导入新知1分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量222列联表假设有两个分类变量x和y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称为22列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd3k2统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量k2,其中nabcd为样本容量4独立性检验利用随机变量k2来确定是否能以给定把握认为“两个分类变
24、量有关系”的方法,称为两个分类变量独立性检验化解疑难122列联表的特征2在列联表中,如果两个分类变量没有关系,则应满足adbc0.因此|adbc|越小,说明两个分类变量之间的关系越弱;|adbc|越大,说明两个分类变量之间的关系越强.独立性检验的思想提出问题吸烟与患肺癌“列联表”中,事件a表示不吸烟,b表示不患肺癌问题1:事件a,b发生的频率可求吗?提示:可以问题2:通常情况下,为研究问题方便,常用什么近似于概率?提示:频率问题3:事件a,b无关有怎样的概率公式?提示:p(ab)p(a)p(b)导入新知独立性检验的思想:要确定“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即
25、假设结论“两个分类变量没有关系”成立在该假设下我们构造的随机变量k2应该很小,如果由观测数据计算得到的k2观测值k很大,那么在一定程度上说明假设不合理,根据随机变量k2的含义,可以通过可信度表评价该假设不合理的程度,即“两个分类变量有关系”的可信程度化解疑难1p(k26.635)0.01表明h0成立的概率很小,是小概率事件,可以判断h0不成立,也就是“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过0.01,也可以理解为“有99%的把握认为两个分类变量之间有关系”2利用独立性检验解决问题的基本步骤:(1)根据相关数据作列联表;(2)求k2的观测值;(3)与临界值作比
26、较,得出结论.列联表和等高条形图的应用例1某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系解作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关类题通法进行独
27、立性检验的前提是根据题中数据获得22列联表,常用等高条形图展示列联表数据的频率特征,即将与(或与)的值相比,由此能直观地反映出两个分类变量间是否相互影响,但是此方法较粗劣活学活用为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟6785221 200总计9156051 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如下:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.考查独立性检验的原理例2研究人员选取170
28、名青年男女大学生为样本,对他们进行一种心理测验发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名问:性别与态度之间是否存在某种关系?用独立性检验的方法判断附:p(k2k0)0.100.050.025k02.7063.8415.024解根据题目所给数据建立如下22列联表:肯定否定总计男生2288110女生223860总计44126170根据22列联表中的数据得到:k5.6223.841.所以在犯错误的概率不超过0.05的前提下,认为“性别与态度有关系”类题通法根据题意列出22列联表,计算k2的观测值,
29、如果k2的观测值很大,说明两个分类变量有关系的可能性很大;如果k2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系这需要给出正确的计算,避免计算失误活学活用在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人请你根据所给数据判定:在天气恶劣的飞机航程中,男乘客是否比女乘客更容易晕机?附:p(k2k0)0.100.05k02.7063.848解:根据题意,列出22列联表如下:晕机不晕机总计男乘客243155女乘客82634总计325789假设在天气恶劣的飞机航程中男乘客不比女乘客更容易晕机由公式可得k
30、2的观测值k3.6892.706,故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中男乘客比女乘客更容易晕机”典例(12分)某工厂有工人1 000名,其中250名工人参加过短期培训(称为a类工人),另外750名工人参加过长期培训(称为b类工人)现用分层抽样的方法(按a类、b类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表表1:a类工人生产能力的频数分布表生产能力分组110,120)120,130)130,140)140,150)人数8x32表2:b类工人生产能力的频数分布表生产能力分组110,120)120,130)
31、130,140)140,150)人数6y2718(1)确定x,y的值;(2)完成下面22列联表,并回答能否在犯错误的概率不超过0.001的前提下认为工人的生产能力与工人的类别有关系?生产能力分组工人类别110,130)130,150)总计a类工人b类工人总计附:k2,p(k2k0)0.0500.0100.001k03.8416.63510.828解题流程 (2)根据所给的数据可以完成列联表,如下表所示:生产能力分组工人类别110,130)130,150)总计a类工人20525b类工人304575总计5050100 (6分)由列联表中的数据,得k2的观测值为活学活用(东北三校联考)某学生对其亲属
32、30人的饮食进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列22列联表:主食蔬菜主食肉类总计50岁以下50岁以上总计(2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析解:(1)22列联表如下:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(2)因为k2106.635,p(k26.635)0.01所以可以在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关随堂即时演练1观察下列各图,其中两个分
33、类变量x,y之间关系最强的是()解析:选d在四幅图中,d图中两个深色条的高相差最明显,说明两个分类变量之间关系最强2下面是一个22列联表:y1y2总计x1a2173x222527总计b46则表中a、b处的值分别为()a94,96b52,50c52,54 d54,52解析:选c由得3独立性检验所采用的思路是:要研究a,b两类型变量彼此相关,首先假设这两类变量彼此_,在此假设下构造随机变量k2,如果k2的观测值较大,那么在一定程度上说明假设_答案:无关不成立4在吸烟与患肺病是否相关的判断中,有下面的说法:若k2的观测值k6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那
34、么在100个吸烟的人中必有99人患有肺病;从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误其中说法正确的是_解析:k2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法不正确;说法中对“确定容许推断犯错误概率的上界”理解错误;说法正确答案:5为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计
35、表(单位:分)的一部分,试分析实验效果.70及70分以下70分以上总计对照班321850试验班123850总计4456100附:p(k2k0)0.0250.0100.005k05.0246.6357.879解:根据列联表中的数据,由公式得k2的观测值k16.234.因为16.2346.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系课时达标检测一、选择题1判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是()a22列联表 b独立性检验c等高条形图 d其他解析:选ba、c只能直观地看出两个分类变量x与y是
36、否相关,但看不出相关的程度;独立性检验通过计算得出相关的可能性,较为准确2假设有两个分类变量x和y,它们的值域分别为x1,x2和y1,y2,其22列联表为y xy1y2总计x1ababx2cdcd总计acbdabcd对同一样本,以下数据能说明x与y有关的可能性最大的一组为()aa5,b4,c3,d2 ba5,b3,c4,d2ca2,b3,c4,d5 da3,b2,c4,d5解析:选d对于同一样本,|adbc|越小,说明x与y相关性越弱,而|adbc|越大,说明x与y相关性越强,通过计算知,对于a,b,c都有|adbc|1012|2;对于选项d,有|adbc|158|7,显然72.3对于分类变量
37、x与y的随机变量k2的观测值k,下列说法正确的是()ak越大,“x与y有关系”的可信程度越小bk越小,“x与y有关系”的可信程度越小ck越接近于0,“x与y没有关系”的可信程度越小dk越大,“x与y没有关系”的可信程度越大解析:选bk越大,“x与y没有关系”的可信程度越小,则“x与y有关系”的可信程度越大即k越小,“x与y有关系”的可信程度越小4利用独立性检验对两个分类变量是否有关系进行研究时,若有99.5%的把握认为事件a和b有关系,则具体计算出的数据应该是()ak6.635 bk6.635ck7.879 dk7.879解析:选c有99.5%的把握认为事件a和b有关系,即犯错误的概率为0.5
38、%,对应的k0的值为7.879,由独立性检验的思想可知应为k7.879.5通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由k2算得,观测值k7.8.附表:p(k2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()a有99%以上的把握认为“爱好该项运动与性别有关”b有99%以上的把握认为“爱好该项运动与性别无关”c在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”d在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:选a
39、由k7.8及p(k26.635)0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”二、填空题6下列关于k2的说法中,正确的有_k2的值越大,两个分类变量的相关性越大;k2的计算公式是k2;若求出k243.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;独立性检验就是选取一个假设h0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝h0的推断解析:对于,k2的值越大,只能说明我们有更大的把握认为二者有关系,却不
40、能判断相关性大小,故错;对于,(adbc)应为(adbc)2,故错;对答案:7某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_(填“是”或“否”)解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而在大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的答案:是8某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,
41、得到如下列联表(单位:人):月收入2 000元以下月收入2 000元及以上总计高中文化以上104555高中文化及以下203050总计3075105由上表中数据计算得k2的观测值k6.109,请估计在犯错误的概率不超过_的情况下认为文化程度与月收入有关系解析:由于6.1095.024,所以在犯错误的概率不超过0.025的前提下认为文化程度与月收入有关系答案:0.025三、解答题9用两种检验方法对某食品做沙门氏菌检验,结果如下表.阳性阴性总计荧光抗体法1605165常规培养法264874总计18653239附:p(k2k0)0.0100.0050.001k06.6357.87910.828(1)利
42、用图形判断采用荧光抗体法与检验结果呈阳性是否有关系;(2)能否在犯错误的概率不超过0.001的前体下认为采用荧光抗体法与检验结果呈阳性有关系?解:(1)作出等高条形图如图所示,由图知采用荧光抗体法与检验结果呈阳性有关系(2)通过计算可知k2113.184 6.而查表可知,因为p(k210.828)0.001,而113.184 6远大于10.828,所以在犯错误的概率不超过0.001的前提下认为采用荧光抗体法与检验结果呈阳性有关系10某校在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如下表所示(单位:人):80及80分以上80分以下总计试验班351550对照班20m
43、50总计5545n(1)求m,n;(2)能否在犯错误的概率不超过0.005的情况下认为教学方式与成绩有关系?解:(1)m451530,n5050100.(2)由表中的数据,得k2的观测值为k9.091.因为9.0917.879,所以能在犯错误的概率不超过0.005的前提下认为教学方式与成绩有关系统计案例一、选择题(共10小题,每小题5分,共50分)1对于自变量x和因变量y,当x取值一定时,y的取值带有一定的随机性,x,y之间的这种非确定性关系叫()a函数关系b线性关系c相关关系 d回归关系解析:选c由相关关系的概念可知,c正确2设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x
44、的回归直线的斜率是b,纵轴上的截距是a,那么必有()ab与r的符号相同 ba与r的符号相同cb与r的符号相反 da与r的符号相反解析:选a因为b0时,两变量正相关,此时r0;b0时,两变量负相关,此时r0.3下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是()x45678910y14181920232528a线性函数模型 b二次函数模型c指数函数模型 d对数函数模型解析:选a画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型4下表是某厂14月份用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x
45、之间有较好的线性相关关系,其线性回归方程是0.7x,则()a10.5 b5.15c5.2 d5.25解析:选d样本点的中心为(2.5,3.5),将其代入线性回归方程可解得5.25.5下面的等高条形图可以说明的问题是()a“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的b“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同c此等高条形图看不出两种手术有什么不同的地方d“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握解析:选d由等高条形图可知选项d正确6根据一位母亲记录儿子39岁的身高数据,建立儿子身高(单位:
46、cm)对年龄(单位:岁)的线性回归方程为7.19x73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是()a身高一定为145.83 cm b身高大于145.83 cmc身高小于145.83 cm d身高在145.83 cm左右解析:选d用线性回归方程预测的不是精确值,而是估计值当x10时,y145.83,只能说身高在145.83 cm左右7在22列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大()a.与 b.与c.与 d.与解析:选a当ad与bc相差越大,两个分类变量有关系的可能性越大,此时与相差越大8如图,5个(x,y)数据,去掉d(3,10)后,下列说法错误的是
47、()a相关系数r变大b残差平方和变大c相关指数r2变大d解释变量x与预报变量y的相关性变强解析:选b由散点图知,去掉d后,x与y的相关性变强,且为正相关,所以r变大,r2变大,残差平方和变小9为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计课外阅读量较大221032课外阅读量一般82028总计303060由以上数据,计算得到k2的观测值k9.643,根据临界值表,以下说法正确的是()a没有充足的理由认为课外阅读量大与作文成绩优秀有关b有0.5%的把握认为课外阅读量大与作文成绩优秀有关c有99.9%的把握认为课外阅读量大与作文成绩优秀有关d有99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:选d根据临界值表,9.6437.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024智能家居产品研发与技术服务合同
- 2025关于简易维修合同
- 2024汽车租赁同典当行合作协议
- 2025拍卖合同协议书范本
- 水库建设爆破作业合同模板
- 城市综合体建设项目施工合同范本
- 建筑照明改造合同范本
- 污水处理水电设施施工合同
- 2024版民间借款合同参考格式
- 酒店管理专家聘用合同
- 【MOOC】隧道工程-中南大学 中国大学慕课MOOC答案
- 红色经典影片与近现代中国发展学习通超星期末考试答案章节答案2024年
- 剧作策划与管理智慧树知到期末考试答案2024年
- 铁路基础知识考试题库500题(单选、多选、判断)
- 生物医学研究的统计学方法课后习题答案 2014 主编 方积乾
- 牛仔面料成本核算
- 加拿大矿业政策
- 客情关系的建立和维护
- 2022年合理使用抗生素试题
- 简单娱乐yy频道设计模板
- 110kV变压器保护整定实例
评论
0/150
提交评论