统计案例学案2选修12_第1页
统计案例学案2选修12_第2页
统计案例学案2选修12_第3页
统计案例学案2选修12_第4页
统计案例学案2选修12_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、研卷知古今;藏书教子孙。第一章 统计案例1. 1 独立性检验【要点梳理】1、统计学提出假设 H0,采用统计量2 作出判断.2、一般地,对两个研究对象I和II ,要推断“I与II有关系”,其基本步骤:(1) ;(2) ;(3) .3、(1)如果观测值2,那么有99.9%的把握认为“ I与II有关系”;2(2)如果观测值 ,那么有99%勺把握认为“I与II有关系”;(3)如果观测值2,那么有90%勺把握认为“I与II有关系”;(4)如果观测值2,那么就认为没有充分的证据显示“ I与II有关系”,但也不能认为“ I与H没有关系”。【典型例题】例1、为考察高中生的性别与是否喜欢数学课程之间的关系,在某

2、城市的某校高中生中随机抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学课程合计男3785122女35143178合计72228300问在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么?解:提出假设H0:性别与是否喜欢数学课程之间没有关系根据列联表中的数据,可以求得22300(37 143 85 35)4.51472 228 122 1782因为当H0成立时,3.841的概率约为0.05,所以有95%勺把握认为:性别与是否喜欢数学课程之间有关系.37点评:由列联表的数据可知,有 30%的男生喜欢数学课程,有12235, 一一、,一 一一 一,、,、 一 20%的女生喜

3、欢数学课程,从直观上看,性别与是否喜欢数学课程之间有关系.用178进行独立检验,给出这个判断的可信程度.例2、调查339名50岁以上吸烟习惯与患慢性气管炎的情况,获数据如下患慢性气管炎未患慢性气管炎合计吸烟43162205不吸烟13121134合计56283339试问:(1)吸烟习惯与患慢性气管炎病是否有关?(2)用假设检验的思想给予证明 .解:(1)根据列联表的数据,得到22n ad bcabacdbdc339 43 121 162 13 2205 56 283 134=7.469>6.635.所以有99%勺把握认为“吸烟与患慢性气管炎病有关”(2)假设“吸烟与患慢性气管炎之间没有关系

4、”A= 2 6.635 的概率为 P( 2 6.635)0.01,即A为小概率事件而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.点评:用独立性检验解决问题要抓住步骤,用好公式细心计算例3、对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别 解:提出假设:H 0 :两种手术对病人又发作心脏病的影响没有差别根据列联表中的数据,可

5、以求得2 392 (39 167 29 157)2. 7a 1.7868 324 196 196当H。成立时 21.78,而22.072的概率为0.85.所以,不能否定假设H0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论点评:本题是利用 2n(ad bc),求出2的值,再利用临界值的大(a b)(c d)(a c)(b d)解题时应注意准确代数与计算,不可错用公式;准确进行比较小关系来判断假设是否成立, 与判断.【阶梯练习】基础练习1、下列关于卡方2的说法正确的是().2 , , . .、一, , .一 、,A. 在任何相互独立问题中都可用与检验是否相关B. 2的值越大,两个

6、事件的相关性越大C. 2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是 否相关这类问题D 2 n(ad bc)(a b)(c d)(a c)(b d)2、在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是()A.若统计量 2 6.635,我们有99%勺把握说吸烟与患肺病有关,则某人吸烟,那么他有99%勺可能患有肺病B.若从统计中求出,有99%勺把握说吸烟与患肺病有关,则在 100个吸烟者中必有 99人患有肺病C.若从统计量中求出有 95咐巴握说吸烟与患肺病有关,是指有5%勺可能性使得推断错误D.以上说法均错误3、考察棉花种子经过处理跟生病之间的关系得到如下表数据

7、种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则下列说法正确的是()A.种子经过处理跟是否生病有关B.种子经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的4、若由一个2 2列联表中的数据计算得2 4.013,那么有 的把握认为两个变量有关系.5、独立性检验所采用的思路是:要研究A、B两类型因子彼此相关,首先假设这两类因子彼此,在此假设下构造2统计量.如果2的观测值较大,那么在一定程度上说明假设 能力训练6、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该搜集那些数据?7、打鼾不仅影响别人休息,而且可

8、能与患某种疾病有关,下表是一次调查所得数据,试问: 每一晚都打与患心脏病有关吗?有多大把握认为你的结论成立?患心脏病未患心脏病合计每一晚都打鼾30224254不打鼾2413551379合计54157916338、为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外 50名患者服用安慰剂,得到下列实验数据:副作用 药物有无合计新药153550安慰剂44650合计1981100请问服用新药是否可产生副作用?9、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了 189名员工进行调查,其中支持企业改革的调查者中,工作积极的54人,工作一般的32人,而不太赞成

9、企业改革的调查者中,工作积极的40人,工作一般的63人.(1)根据以上数据建立一个 2 2的列联表;(2)对于人力资源部的研究项目,根据以上数据可以认为企业的全体员工对待企业改革的态度与其工作积极性是否有关系?1.2 回归分析【要点梳理】1、y与x的关系y a bx 中,a bx是确定性函数,称为y a bx 称为 2、直线y a bx称为n对数据的 ,此直线方程即为线性回归方程;nn_(xi x)(yi y) xyi nxy其中a,b的估计值 a y bx, b 0n -,(xi x)2x2 n(x)2i 1i 1x , y , a 称为b称为, y称为 3、对于变量x与y随机抽取到n对数据

10、(x1, yj 242,(xn, yn),检验统计量是样本nn(xi x)(yi y)xi yi nxy相关系数 r一i 1i 1n_ n_n_ n_(xi x-(yi y)2. x2 n(x)2yi2 n(y)2,i 1i 1, i 1i 1r具有以下性质:1r 1,并且r越接近于1,线形相关程度越 ;r越接近于0,线形相关程度越4、检验的步骤如下:(1)作统计假设:.(2)根据小概0.05与n 2在附表中查出r的一个临界值r0.05.(3)根据样本相关系数计算公式算出的r值(4)作统计推断,如果 rr0.05,表明有 的把握认为x与y之间具有线形相关关系.如果,我们没有理由拒绝原来的假设,

11、这时寻找回归直 线方程是毫无意义的.【典型例题】例1、 关于某设备的使用年限 x和所支出的维修费用 y (万元),有如下的统计资料:x23456y2.23.85.56.57.0如由资料可知y对x呈线形相关关系.试求:(1) 线形回归方程;(2) 估计使用年限为10年时,维修费用是多少?解:(1) x4,y2.2 3.8 5.5 6.5 7.0552 Xi590,Xi yii 1112.35Xi yi 5xy i 12Xi 5 xi 1112.3 5 4 590 5 421.23于是 a y bx 5 1.23 4 0.08.所以线形回归方程为:y bx a 1.23x 0.08.(2)当 x

12、10时,y 1.23 10 0.08 12.38(万元)即估计使用10年是维修费用是12.38万元.点评:已知x与y呈线性相关关系,就无须进行相关性检验.否则,应先进行相关性检验,若两个变量不具备相关关系,或者说,它们之间相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的例2、一个车间为了规定工时定额,须要确定加工零件所花费的时间,为此进行了10次实验,测得的数据如下:零件个数x(个)102030405060708090100加工时间y (分)626875818995102108115122(1) y与x是否具有线性相关关系?(2)如果y与x具有线形相关关系,求

13、 回归直线方程(3) 并据此估计加工200个零件所用的时间为多少?解:5591.710 20 30 40 50 60 70 80 90 100(1) x 1062 68 75 81y 10102 2xi38500,yii 1i 189 95 102 108 115 122101087777,xiyi 55950 .i 110Xi yi 10xy i 1 r '102102Xi2 10 X y210 y; i 1i 15595010 55 91.73850010 552 8777710 91.7 20.9998又查得相应于显著性水平0.05和n 2的相关系数临界值r0.05 0.632,

14、由r r0.05知,y与x具有相形相关关系.(2)设所求的回归直线方程为y bx a,同时,利用上表可得XiYi 10xy 55950 10 55 91.7 b k2 0.668 ,xi2 10x 238500 10 552a y bx 91.7 0.668 55 54.96.即所求的回归直线方程为y 0.668x 54.96.当 x 200 时,y 的估计值 y 0.668 200 54.96 188.56189.故加工200个零件时所用的工时约为 189个.点评:作相关性检验有时也用画散点图,观察所给的数据列成的点是否在一条直线的附 近,这样做既直观又方便,因而对解相关性检验问题常用,但在

15、许多实际问题中,有时很难说这些点是不是分布在一条直线的附近,这时就很难判断两个变量之间是否有相关关系,这时就应该利用样本的相关系数对其进行相关性检验;这种方法虽然较为繁琐,但却非常准确在计算中应该特别注意要细心,不可出现计算的错误,也可借助于计算器等进行有关计算例3、 为了解某地母亲身高 x与女儿身高y的相关关系,随机测得10对母女的身高如下表所示:母亲身高 x/cm159160160163159154159158159157女儿身高y / cm158159160161161155162157162156试又x与y进行一元线性回归分析,并预测当母亲身高为 162cm时女儿的身高为多少? 一 1

16、,人 ,一, 解:x 159 160157158.8,101/C/Cy 158 159156159.1,10210 158.82 47.622_222xi2 10 x1592 16021572xiyi 10xy 159 158 160 159157 15610 158.8 159.1 37.2,y2 10y 21 582 1 5921 5621 0 1 59.12 56.9,37 2所以 r 37.20.71.47.6 56.9而由附表查得r0.05 0.632 ,因为rr0.05,从而有95%勺把握认为x与y之间具有线性相关关系.一 一一 37 2回归系数 b 37.2 0.78,a 159

17、.1 0.782 158.8 34.92.47.6所以y对x的回归直线方程是 y 34.92 0.78x.回归系数0.78反映出当母亲身高每增加1cm时,女儿身高平均增力口 0.78cm, a 34.92可以解释为女儿身高不受母亲身高变化影响的部分当 x 161 时,y 34.92 0.78 161160.5,这就是说当母亲身高为161cm时,女儿的身高大致也接近161cm.【阶梯训练】基础练习1、长方形的面积一定时,长和宽具有A.不确定性关系B.C.函数关系D.( )相关关系无任何关系2、线性回归方程 y a bx必定过A. 0,0 点 B. x,0 点 C.0,y 点 D. x,y 点3、

18、三点(3, 10)、(7, 20)、(11, 24)的线性回归方程是A. y 5 17xB.y 5.75 1.75xC. y 17 5xD.y 5.75 1.75x100次和4、为了考察两个变量 x和y之间的线性相关性,甲、乙两位同学各自独立地作了150次试验,并且利用线性回归的方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是m ,对变量y的观测数据的平均值都是 t ,那么下列说法正确的是A. 1i和l2有交点E,。 B.1i和l2相交,但交点不一定是(m,t)C. l1和心必定平行D.l1和l2必定垂直能力训练5、下列说法正确的是()A.任何两种变量都

19、具有相关关系B.球的体积与该球的半径具有相关关系C.农作物的产量与施肥之间是一种确定性关系D.某商品的生产量与该商品的销售价格之间是一种非确定性关系6、对于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量惟一确定B.线性相关系数可以是正的或负的C.回归分析中,如果r2 1或r 1,说明x与y之间完全线性相关D.样本相关系数r ( 1,1)7、已知x、y之间的数据如下表所示,则 x与y之间的线性回归方程过点()x1. 081. 121. 191 . 28y2. 252. 352. 402. 55A.(0,0)B.(x,0)C.(0, y)D.(

20、 x, y)链接高考8、(06山东济宁)设有一个回归方程为y 3 5x ,变量x增加一个单位时( )A. y平均增加3个单位B.y平均增加5个单位C. y平均减少5个单位D.y平均减少3个单位9、(06山东泰安)若回归直线方程中的回归系数 b 0时,则相关系数为( )A. r 1 B. r 1 C. r 0 D. 无法确定10、(06广东中山)在一个2 2列联表中,由其数据计算得k213.097 ,则其两个变量间有关系的可能性为()A.99%B.95%C.90% D.无关系11、(06山东烟台)线性回归方程y bx a必过()A.(0,0)B.(x,0)C.(0, y)D.( x, y)本章总

21、览【知识架构】1、本章主要讨论了如何样本数据对总体进行分析、估计和预测.独立性检验通过2统计量,运用假设检验的方法,研究了两个“变量”之间是否具有相互独立这一在医学、社会经济、生活、科学技术等方面具有重要意义的问题2、对独立性检验的结果,通常以为这是一个统计量,不要误以为它们之间存在因果关系,可以利用统计量去估计它们的值,但不要绝对化3、独立性检验的应用十分广泛,它在生物统计、医学统计等学科中的应用十分广泛,在处理社会问题时得到得数据中,也常常用到独立性检验4、样本相关系数r的计算公式:(Xi x)(yiy)Xi yi nxyr (x y)2?(yi y)2. ( X2 n(x)2) ? (

22、y; n(y)2)及r的性质:(1) r 1;(2) r越接近于1, x, y的线性相关程度越强;(3) r越接近于0, x,y的线性相关程度越弱.5、相关性检验的一般步骤:(1) 作统计假设:假设x与y不具有线性相关关系.(2) 根据小概率0.05与n 2在相关性检验的临界值表中查出r0.05的一个临界值.(3)根据样本相关系数的计算公式计算出r的值.(4)作统计推断,如果r0.05表明有95%勺把握认为x与y之间具有线性相关关系;如果r0.05,则没有理由拒绝原来的假设,即x与y不具有线性相关关系,从而求回归直线方程是毫无意义的.【本章评价】一、选择题:1、在画两个变量的散点图时,下面哪个

23、叙述是正确的()(A)预报变量在x轴上,解释变量在 y轴上(B)解释变量在x轴上,预报变量在 y轴上(C)可以选择两个变量中任意一个变量在x轴上(D)可以选择两个变量中任意一个变量在y轴上2、设两个变量x和y之间具有线性相关关系,它们的相关系数是r , y关于x的回归直线的斜率是b,纵截距是a,那么必有()(A) b 与r的符号相同(B) a 与r的符号相同(C) b 与r的相反 (D) a与r的符号相反3、一位母亲记录了儿子 39岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是()(A)身高一定是145.83cm(C)身

24、高在145.83cm以下(B)(D)4、两个变量y与x的回归模型中,分别选择了身高在145.83cm以上身高在145.83cm左右4个不同模型,它们的相关指数r如下,其中拟合效果最好的模型是 ()(A)模型1的相关指数r为-0.98 (B) 模型2的相关指数r为0.80(C)模型3的相关指数r为0.50 (D)模型4的相关指数r为0.255、工人月工资(元)依劳动生产率(千元)变化的回归直线方程为? 60 90x,下列判断正确的是()(A)劳动生产率为1000元时,工资为50元(B)劳动生产率提高1000元时,工资提高150元(C)劳动生产率提高1000元时,工资提高 90元(D)劳动生产率为

25、1000元时,工资为 90元6、为研究变量x和y的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程11和12,两人计算知 x相同,y也相同,下列正确的是()(A) 11与12重合(B)11与12 一定平行(C) 11与12相交于点(x,y)(D)无法判断11和12是否相交7、考察棉花种子经过处理跟生病之间的关系得到如下表数据:种子处理种子未处理合计得病32101133不得病61213274合计93314407根据以上数据,则()(A)种子经过处理跟是否生病有关(B)种子经过处理跟是否生病无关(C)种子是否经过处理决定是否生病(D)以上都是错误的8、变量x与y具有线性相关关系

26、,当 x取值16,14,12,8 时,通过观测得到 y的值分别为11,9 , 8,5 ,若在实际问题中,y的预报最大取值是10,则x的最大取值不能超过()(A)16(B)17(C)15(D)12二、填空题:9、在研究身高和体重的关系时,求得相关指数r ,可以叙述为“身高解释了 64%勺体重变化,而随机误差贡献了剩余的36%'所以身高对体重的效应比随机误差的效应大得多。10、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据? 11、某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:性别一一_专业-一-非统计专业统计专业男1310女

27、720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到一 一24.84450 (13 20 10 7)23 27 20 30因为P( 23.841) 0.05,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为12、许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过 9年或更少教育的百分比(X)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)的数据,建立的回归直线方程如下?0.8x 4.6,斜率的估计等于0.8说明,成年人受过 9年或更少教育的百分比(x)和收入低于官方的贫困线的人数占本州人数的百分比(y)之间的相关系数

28、( 填充“大于0”或“小于0”)三、解答题13、在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。(1)根据以上数据建立一个 2X 2的列联表;(2)判断性别与休闲方式是否有关系。14、某种书每册的成本费 y (元)与印刷册数 x (千册)有关,经统计得到数据如下:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15 , 一 一1 检验每册书白成本费 y与印刷

29、册数的倒数 1之间是否具有线性相关关系, 如有,求出y对x的回归方程。答案与提示第一章统计案例答案1. 1 独立性检验1、C 2、C 3、B 4、95% 5、无关 不成立6、女教授人数,男教授人数,女副教授 人数,男副教授人数7、解:提出假设H 0 :患心脏病与是否每一晚都打鼾没有关系根据列联表中的数据,可以求得21633(30 1355 224 24)2八68.03354 1579 254 1379因为当H0成立时, 2 10.828的概率约为 0.001 ,所以有 99.9%的把握认为:每晚都打鼾与患心脏病有关系.8、解:提出假设H 0 :服用新药与产生副作用之间没有关系由已知数据可以求得7.86 6.63100(15 46 35 4)250 50 19 81所以有99%勺把握认为新药与产生副作用是相关联的9、解:(1)根据题设条件,得 2 2列联表如下:积极支持企业改革不太赞成企业改革合计工作积极544094工作一M326395合计86

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论