版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.3.1分类变量与列联表第八章成对数据的统计分析8.3.1分类变量与列联表饮用水的质量是人类普遍关心的问题,根据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.问题人的身体健康状况与饮用水的质量之间有关系吗?提示我们可以根据2×2列联表找到人的身体健康与饮用水之间的关系,也就是本节课所要学习的内容.情境引入2.残差平方和:
3.最小二乘法
将
称为Y关于x的经验回归方程,4.判断模型拟合的效果:残差分析R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.1.线性回归模型y=bx+a+e含有随机误差e,其中x为解释变量,y响应变量回顾旧知
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题.独立性检验方法分类变量:用实数表示不同的现象或性质.如:班级:1、2、3,男生、女生:0、1.本节主要讨论取值于{0,1}的分类变量的关联性探究新知解:比较经常锻炼的学生在女生和男中的比率.男生经常锻炼的比率比女生高出个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.探究新知解:对于Ω中的每一名学生,分别令性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:探究新知1124804320合计601473128男生(X=1)523331192女生(X=0)经常(Y=1)不经常(Y=0)合计锻炼性别
在该校的学生中,性别对体育锻炼的经常性有影响,男生更经常性的锻炼.>探究新知探究新知2.2×2列联表的概念分类变量X和Y的抽样数据的2×2列联表:2×2列联表给出成对分类变量数据的交叉分类频数n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX
探究新知因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为我们可以用等高堆积条形图直观地展示上述计算结果:881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校
探究新知2.两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.探究新知问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.独立性检验方法探究新知4.独立性检验公式及定义:提出零假设(原假设)H0:分类变量X和Y独立假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,在列联表中,如果零假设H0成立,则应满足,即ad-bc≈0.因此|ad−bc|越小,说明两个分类变量之间关系越弱;|ad−bc|越大,说明两个分类变量之间关系越强.
2=χ为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量用χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立。这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.探究新知5.临界值的定义:对于任何小概率值α,可以找到相应的正实数xα,使得P(x≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准,概率值α越小,临界值xα越大.χ2独立性检验中几个常用的小概率值和相应的临界值.基于小概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.10.8287.8796.6353.8412.706xα0.0010.0050.010.050.1α
探究新知依据小概率值的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.因为2=χ<计算得到:根据小概率值的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校
探究新知例3:某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值的独立性检验,分析乙种疗法的效果是否比甲种疗法好.解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,根据列联表中的数据,经计算得到2=χ<根据小概率值的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.1361152169636675215治愈未治愈合计疗效合计乙甲疗法
探究新知思考:
若对调两种疗法的位置或对调两种疗效的位置,这样做会影响χ2取值的计算结果吗?2=χ2=χ2=χ不影响13611521合计69636乙675215甲治愈未治愈合计疗效疗法
13611521合计675215甲69636乙治愈未治愈合计疗效疗法
13621115合计69663乙671552甲未治愈治愈合计疗效疗法
探究新知根据小概率值的独立性检验,分析乙种疗法的效果是否比甲种疗法好.解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.根据列联表中的数据,经计算得到2=χ>根据小概率值的χ2独立性检验,我们推断H0不成立,即可以认为两种疗法效果有差异,该推断犯错误的概率不超过.1361152169636675215治愈未治愈合计疗效合计乙甲疗法
探究新知根据小概率值的独立性检验,分析乙种疗法的效果是否比甲种疗法好.甲种疗法未治愈和治愈的频率分别是因此可以推断乙种疗法的效果比甲种疗法好乙种疗法未治愈和治愈的频率分别是探究新知例4:为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,调查了9965人,得到如下结果(单位:人)依据小概率值α=的独立性检验,分析吸烟是否会增加患肺癌的风险。解:零假设为H0:吸烟和患肺癌之间没有关系根据列联表中的数据,经计算的2=χ>根据小概率值的独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于,即我们有%的把握认为“吸烟与患肺癌有关系”.吸烟肺癌合计非肺癌患者肺癌患者非吸烟者7775427817吸烟者2099492148合计9874919965探究新知根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为吸烟者中不患肺癌和患肺癌的评率分别为由可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。探究新知9.应用独立性检验解决实际问题大致应包括以下几个主要环节;(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要通过比较相应的频率,分析X和Y间的影响规律.
上述几个环节的内容可以根据不同情况进行调整,例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.探究新知1.分类变量这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为__________,分类变量的取值可以用______表示.分类变量实数新知探索2.2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2×2列联表,2×2列联表给出了成对分类变量数据的交叉__________.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为分类频数
y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d新知探索3.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的______特征,依据________________的原理,我们可以推断结果.频率频率稳定于概率新知探索1.分类变量中的变量与函数中的变量是同一概念. (
)
提示分类变量中的变量是指一定范围内的两种现象或性质,与函数中的变量不是同一概念.2.列联表中的数据是两个分类变量的频数. (
)3.列联表、频率分析法、等高条形图都可初步分析两分类变量是否有关系. (
)×√√新知探索1.下列不是分类变量的是(
) A.近视
B.成绩 C.血压
D.饮酒
解析
近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,饮酒变量有饮酒与不饮酒两种类别.故选B.
答案B新知探索2.某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如2×2列联表所示(单位:人),则其中m=________,n=________.
80分及80分以上80分以下合计试验班321850对照班24m50合计5644n新知探索答案26
100新知探索1.是否吸烟、是否患肺癌是什么变量?
提示
分类变量.2.吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗?
提示
不是.新知探索练习巩固解2×2列联表如下:
年龄在六十岁以上年龄在六十岁以下合计饮食以蔬菜为主432164饮食以肉类为主273360合计7054124练习巩固将表中数据代入公式得练习巩固练习巩固变1假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1y2x11018x2m26则当m取下面何值时,X与Y的关系最弱(
)A.8 B.9 C.14 D.19解析由10×26≈18m,解得m≈,所以当m=14时,X与Y的关系最弱.答案C新知探索
性格内向性格外向合计考前心情紧张332213545考前心情不紧张94381475合计4265941020练习巩固相应的等高堆积条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前心情紧张与性格类型有关.练习巩固规律方法利用等高堆积条形图判断两个分类变量是否相关的步骤:练习巩固变2在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解根据题目给出的数据作出如下的列联表:
色盲不色盲合计男38442480女6514520合计449561000练习巩固根据列联表作出相应的等高堆积条形图:从等高堆积条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.练习巩固题型三有关“相关的检验”【例3】某校对学生课外活动进行调查,结果整理成下表,用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?
体育文娱合计男生212344女生62935合计275279练习巩固解零假设为H0:喜欢体育还是喜欢文娱与性别没有关系∵a=21,b=23,c=6,d=29,n=79,根据小概率值α=的χ2独立性检验,我们推断H0不成立,即认为喜欢体育还是喜欢文娱与性别有关系,此推断犯错误的概率不大于0.005.练习巩固练习巩固变3打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:
患心脏病未患心脏病合计每一晚都打鼾30224254不打鼾2413551379合计5415791633根据独立性检验,能否在犯错误的概率不超过的前提下认为每一晚都打鼾与患心脏病有关系?练习巩固解零假设为H0:打鼾与患心脏病无关系由列联表中的数据,得≈=x.根据小概率值α=的χ2独立性检验,我们推断H0不成立,即认为打鼾与患心脏病有关系,此推断犯错误的概率不大于0.001.练习巩固题型四有关“无关的检验”【例4】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科生对外语有兴趣的有138人,无兴趣的有98人,文科生对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
解零假设为H0:选报文、理科与对外语的兴趣无关.
列出2×2列联表
理文合计有兴趣13873211无兴趣9852150合计236125361练习巩固代入公式得χ2的观测值∵×10-4<=x,根据小概率值α=的χ2独立性检验,没有充分证据推断H0不成立,即选报文、理科与对外语的兴趣无关.练习巩固规律方法独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.练习巩固变4某教育机构为了研究成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
积极支持教育改革不太赞成教育改革合计大学专科以上学历39157196大学专科以下学历29167196合计68324392练习巩固解零假设为H0:成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度无关.根据表中数据,计算得因为=x,根据小概率值α=的χ2独立性检验,没有充分证据推断H0不成立,所以我们没有理由说成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.练习巩固题型五独立性检验的综合应用【例3】某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据. (1)应收集多少位女生的样本数据? (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.练习巩固(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别的列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附:α0.1000.0500.0100.005xα2.7063.8416.6357.879练习巩固(2)由频率分布直方图得学生每周平均体育运动时间超过4小时的频率为1-2×+0.025)=,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.练习巩固(3)由(2)知,300位学生中有300×=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别的列联表如下:
男生女生合计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225合计21090300练习巩固零假设为H0:该校学生的每周平均体育运动时间与性别无关.结合列联表可算得根据小概率值α=的χ2独立性检验,我们推断H0不成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44349-2024蜂花粉总多酚的检测福林酚试剂比色法
- 电动闭门器商业机会挖掘与战略布局策略研究报告
- 芥子膏药商业机会挖掘与战略布局策略研究报告
- 电子烟用电池项目营销计划书
- 乐器销售行业相关项目经营管理报告
- 空调器项目可行性实施报告
- 头发漂色剂产业链招商引资的调研报告
- 视频混合器产品供应链分析
- 装压缩气体或液态空气用非金属瓶容器商业机会挖掘与战略布局策略研究报告
- 整修机机械加工装置产品供应链分析
- 20世纪时尚流行文化智慧树知到期末考试答案章节答案2024年浙江理工大学
- (高清版)JTGT 3331-04-2023 多年冻土地区公路设计与施工技术规范
- 增值服务具体方案怎么写范文
- 「」初中人教版七年级英语常用方位介词和短语巩固练习
- 基于PLC的谷物烘干机控制系统设计--程序代码-附 录
- 社区治安巡逻队工作方案
- 信用社(银行)借新还旧申请书(精编版)
- (完整版)苏教版五年级数学上册知识点归纳总结
- lampsite LTE 站点配置指导v1.1
- 美能达807si相机中文说明书
- 莆田市人教版四年级数学上册期中测试卷
评论
0/150
提交评论