版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类变量与列联表F佳
2022年06月吸烟的危害
吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题.为此,联合国固定每年5月31日为全球戒烟日.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题.吸烟是否会增加患肺癌的风险?
例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题.在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.两种变量分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等变量♂对于性别变量,其取值为男和女两种.♀
这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.两种变量数值变量的取值一定是实数,
例如身高、体重、考试成绩等,张明的身高是180cm,李立的身高是175cm。数值变量:体重、身高、温度、考试成绩等等
两种变量分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等变量数值变量的取值为实数,其大小和运算都有实际含义.分类变量是区别不同的现象和性质的一种特殊的随机变量.本节主要讨论取值于{0,1}的分类变量的关联性.①分类变量的取值也可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.②这些数值只作编号使用,并没有大小和运算意义.③分类变量是相对于数值变量来说的.但要注意到:问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解法一:
比较经常锻炼的学生在女生和男生的比率.问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.解法二:
对于Ω中的每一名学生,分别令性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:合计男生(X=1)女生(X=0)经常(Y=1)不经常(Y=0)合计锻炼性别
由
可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,男生更经常性的锻炼.
在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.
在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断.(用样本估计总体)在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将上表这种形式的数据统计表称为2×2列联表.表格直观呈现了成对分类变量数据的交叉分类频数。分类变量X和Y的抽样数据的2×2列联表:
以上表为例,2×2列联包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;
最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;
右下角格中的数是样本空间中样本点的总数.班级锻炼合计80分及80分以上80分以下实验班321850对照班24m50合计5644n练习:某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如2×2列联表所示(单位∶人),则其中m=________________,n=__________________.例1:
为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:合计乙校(X=1)甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校
例1:
为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为:乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为:可以用等高堆积条形图直观地展示上述计算结果:通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.
因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
依据频率稳定于概率的原理,我们可以推断:P(Y=1|X=0)>P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
反思一个现象:
学生提出:“我很有能力,我只是没有考上一个好的大学,而那些好的企业却只去名校招聘,这是不是不公平?”
结合刚才例题的启发,尝试从一个企业的角度去想想,为什么他们“更偏向于去好学校招聘”。
反思2:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.后面我们将讨论犯这种错误的概率大小问题.练习:(多选)下图是调查某地区男女中学生喜欢理科的等高堆积条形图,阴影部分表示喜欢理科的百分比,从图中可以看出(
)A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为40%课本P127练习4假设在本小节"问题"中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表∶(单位:人)(1)据此推断性别因素是否影响学生锻炼的经常性;(2)说明你的推断结论是否可能犯错,并解释原因.性别锻炼合计不经常经常女生51520男生61824合计113344练习:某学校对高三学生作一项调查后发现∶在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中有213名在考前心情紧张.请作出考前心情紧张与性格情况的列联表.练习:在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表。
作业:课本P135习题8.35两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.
如可以通过列联表中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《旅游与旅游模式》课件
- 科教文卫中心2024年半年工作总结及下半年工作计划
- 小学三年级数学下册复习计划例文
- 中学初二好词佳句摘抄总结计划大全
- 外贸人员工作计划
- 工作计划出纳工作计划
- 大学新生班主任工作计划范文
- 小班教育工作计划模板汇编
- 2024幼儿园安全工作计划开头语
- 幼儿园2024年工作计划
- 全国气象站号
- 南京大学在校学生校史知识认知情况调查问卷
- 四川乐山历年中考语文文言文阅读试题18篇(含答案与翻译)(截至2021年)
- 外卖配送理论知识考核考核试题及答案
- 道德与法治中考备考建议课件
- 医学检验结果互认课件
- 财产保险退保申请范文推荐6篇
- 食品工程原理课程设计
- 羊膜在眼科临床中应用课件
- (71)第十五章15.2.3整数指数幂1-负整数指数幂-导学案
- 2022年江苏省环保集团有限公司招聘笔试题库及答案解析
评论
0/150
提交评论