版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.上节学习了回归分析基本方法.线性回归模型y=bx+a+e不一样于一次函数y=bx+a,含有__________,其中x为_________,y为__________.温故夯基随机误差e解释变量预报变量样本点中心残差平方和独立性检验的基本思想和其初步应用第1页1.2独立性检验基本思想及初步应用独立性检验的基本思想和其初步应用第2页1、两个相关概念
对于性别变量,其取值为男和女两种,这种变量不一样“值”表示个体所属不一样类别,像这么变量称为分类变量,也称为属性变量或定性变量,它们取值一定是离散,而且不一样取值仅表示个体所属类别。(1)分类变量:
定量变量取值一定是实数,它们取值大小有特定含义,不一样取值之间运算也有特定含义。(2)定量变量:
比如身高、体重、考试成绩等,张明身高是180cm,李立身高是175cm,说明张明比李立高180-175=5(cm)。独立性检验的基本思想和其初步应用第3页独立性检验本节研究是两个分类变量独立性检验问题。在日常生活中,我们经常关心分类变量之间是否相关系独立性检验独立性检验独立性检验的基本思想和其初步应用第4页
吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965问题:为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到以下结果(单位:人)列联表在不吸烟者中患肺癌比重是
在吸烟者中患肺癌比重是
说明:吸烟者和不吸烟者患肺癌可能性存在差异,吸烟者患肺癌可能性大0.54%2.28%
与表格相比,三维柱形图和二维条形图能更直观地反应出相关数据总体情况。独立性检验的基本思想和其初步应用第5页1)经过图形直观判断两个分类变量是否相关:三维柱状图独立性检验的基本思想和其初步应用第6页2)经过图形直观判断两个分类变量是否相关:二维条形图独立性检验的基本思想和其初步应用第7页3)经过图形直观判断两个分类变量是否相关:患肺癌百分比不患肺癌百分比等高条形图独立性检验的基本思想和其初步应用第8页
独立性检验H0:吸烟和患肺癌之间没相关系←→H1:吸烟和患肺癌之间相关系经过数据和图表分析,得到结论是:吸烟与患肺癌相关结论可靠程度怎样?
吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d独立性检验的基本思想和其初步应用第9页
吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d独立性检验的基本思想和其初步应用第10页不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d吸烟与患肺癌列联表:假如“吸烟与患肺癌没相关系”,则在吸烟者中不患肺癌百分比应该与6中对应百分比应差不多,即|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强.独立性检验的基本思想和其初步应用第11页引入一个随机变量
作为检验在多大程度上能够认为“两个变量相关系”标准。0.500.400.250.150.100.4550.7081.3232.0722.7060.050.0250.0100.0050.0013.8415.0246.6357.87910.8280.050.0250.0100.0050.0013.8415.0246.6357.87910.8280.500.400.250.150.100.4550.7081.3232.0722.706独立性检验的基本思想和其初步应用第12页
独立性检验
吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965经过公式计算独立性检验的基本思想和其初步应用第13页在H0成立情况下,统计学家估算出以下概率:也就是说,在H0成立情况下,对随机变量K2进行屡次观察,观察值超出6.635频率约为0.01,是一个小概率事件.现在K2观察值为56.632,远远大于6.635,所以有理由断定H0不成立,即认为“吸烟与患肺癌相关系”
但这种判断会犯错误,犯错误概率不会超出0.01,即我们有99%把握认为“吸烟与患肺癌相关系”.独立性检验的基本思想和其初步应用第14页
利用随机变量K2来确定在多大程度上能够认为“两个分类变量相关系”方法称为两个分类变量独立性检验.独立性检验:假如,就判断H0不成立;不然,就判断H0成立.即在成立情况下,K2
大于6.635概率非常小,近似为0.01独立性检验的基本思想和其初步应用第15页独立性检验基本思想:
(类似于数学上反证法,对“两个分类变量相关系”这一结论成立可信程度判断):(1)假设该结论不成立,即假设结论“两个分类变量没相关系”成立.(2)在假设条件下,计算结构随机变量K2,假如由观察数据计算得到K2很大,则在一定程度上说明假设不合理.(3)依据随机变量K2含义,能够经过(2)式评价假设不合理程度,由实际计算出k>6.635,说明假设不合理程度约为99%,即“两个分类相关系”这一结论成立可信程度约为99%.独立性检验的基本思想和其初步应用第16页
利用独立性检验来考查两个分类变量是否相关系,能较准确地给出这种判断可靠程度.详细作法是:(1)依据实际问题需要可信程度确定临界值k0;(2)由观察数据计算得到随机变量K2观察值k;(3)假如k>6.635,就以1-P(K2≥6.635)×100%把握认为“X与Y相关系”;不然就说样本观察数据没有提供“X与Y相关系”充分证据.独立性检验的基本思想和其初步应用第17页
设要判断结论为:H1:“X与Y相关系”
1、经过三维柱形图和二维条形图,能够粗略地判断两个变量是否相关系。(1)在三维柱形图中,主对角线上两个柱形高度乘积ad与副对角线上乘积bc相差越大,H1成立可能性就越大。(2)在二维条形图中,(x1,y1)个体所占百分比与(x2,y1)个体所占百分比,两个百分比相差越大,H1成立可能性就越大。2、能够利用独立性检验来考查两个分类变量是否相关系,而且能较准确地给出这种判断可靠程度。独立性检验普通步骤:2x2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d独立性检验的基本思想和其初步应用第18页10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.50(1)假如k>10.828,就有99.9%把握认为“X与Y相关系”;(2)假如k>7.879,就有99.5%把握认为“X与Y相关系”;(3)假如k>6.635,就有99%把握认为“X与Y相关系”;(4)假如k>5.024,就有97.5%把握认为“X与Y相关系”;(5)假如k>3.841,就有95%把握认为“X与Y相关系”;(6)假如k>2.706,就有90%把握认为“X与Y相关系”;(7)假如k<=2.706,就认为没有充分证据显示
“X与Y相关系”.临界值独立性检验的基本思想和其初步应用第19页分类变量之间关系条形图柱形图列联表独立性检验背景分析独立性检验的基本思想和其初步应用第20页例1.秃头与患心脏病
在某医院,因为患心脏病而住院665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院男性病人中有175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否相关系?你所得结论在什么范围内有效?解:依据题目所给数据得到以以下联表1-13:患心脏病不患心脏病总计秃顶214175389不秃顶4515971048总计6657721437
依据联表1-13中数据,得到所以有99%把握认为“秃顶患心脏病相关”。独立性检验的基本思想和其初步应用第21页
为考查高中生性别与是否喜欢数学课程之间关系,在某城市某校高中生中随机抽取300名学生,得到以下联表:喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300解:在假设“性别与是否喜欢数学课程之间没相关系”前提下K2应该很小,而且例2.性别与喜欢数学课
由表中数据计算K2观察值k4.513。在多大程度上能够认为高中生性别与是否喜欢数学课程之间相关系?为何?而我们所得到K2观察值k4.513超出3.841,这就意味着“性别与是否喜欢数学课程之间相关系”这一结论错误可能性约为0.05,即有95%把握认为“性别与是否喜欢数学课程之间相关系”。独立性检验的基本思想和其初步应用第22页思索:例1、2结论是否适合用于普通对象?
在掌握了两个分类变量独立性检验方法之后,就能够模仿例1中计算处理实际问题,而没有必要画对应图形。图形可帮助向非专业人士解释所得结果;也能够帮助我们判断所得结果是否合理例1这组数据来自住院病人,所以所得到结论适合住院病人群体.例2结论只适合被调查学校。大家要注意统计结果适用范围(这由样本代表性所决定)独立性检验的基本思想和其初步应用第23页独立性检验基本思想类似反证法(1)假设结论不成立,即“两个分类变量没相关系”.(2)在此假设下随机变量K2
应该很能小,假如由观察数据计算得到K2观察值k很大,则在一定程度上说明假设不合理.(3)依据随机变量K2含义,能够经过评价该假设不合理程度,由实际计算出,说明假设合理程度为99.9%,即“两个分类变量相关系”这一结论成立可信度为约为99.9%.独立性检验的基本思想和其初步应用第24页知新益能1.2×2列联表与等高条形图(1)分类变量定义变量不一样“值”表示个体所属_________,像这么变量称为分类变量.(2)2×2列联表定义普通地,假设有两个分类变量X和Y,它们取值分别为________和_________,其样本频数列联表(称为2×2列联表)为:不一样类别{x1,x2}{y1,y2}独立性检验的基本思想和其初步应用第25页y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d(3)与表格相比,图形更能直观地反应出两个分类变量间是否相互影响,惯用____________展示列联表数据频率特征.等高条形图独立性检验的基本思想和其初步应用第26页a+b+c+d独立性检验的基本思想和其初步应用第27页
打鼾不但影响他人休息,而且还可能与患某种疾病相关,在某一次调查中,其中每一晚都打鼾254人中,患心脏病有30人,未患心脏病有224人;在不打鼾1379人中,患心脏病有24人,未患心脏病有1355人,利用图形判断打鼾与患心脏病相关吗?例1【解】依据题目所给数据得到以下2×2列联表:患心脏病未患心脏病总计每一晚都打鼾30224254不打鼾2413551379总计5415791633对应等高条形图如图:
图中两个深色高分别表示每一晚都打鼾和不打鼾人中患心脏病频率,从图中能够看出,每一晚都打鼾样本中患心脏病频率显著高于不打鼾样本中患心脏病频率,所以能够认为打鼾与患心脏病相关系.独立性检验的基本思想和其初步应用第2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年农业科技园区场地合作经营协议书4篇
- 科技礼仪在商务中的应用
- 两人合伙买房协议书标准版
- 2025年度茶叶品牌授权经营合同书4篇
- 个人信用贷款协议2024年汇编
- 专业洗车工2024年服务协议样本版A版
- 2025年度体育产业市场调研服务合同书4篇
- 二零二四年一带一路建设项目合同
- 2025年度智能交通系统规划与设计合同范本下载4篇
- 2025年度酒店场地经营承包协议范本3篇
- 割接方案的要点、难点及采取的相应措施
- 2025年副护士长竞聘演讲稿(3篇)
- 2025至2031年中国台式燃气灶行业投资前景及策略咨询研究报告
- 原发性肾病综合征护理
- 第三章第一节《多变的天气》说课稿2023-2024学年人教版地理七年级上册
- 2025年中国电科集团春季招聘高频重点提升(共500题)附带答案详解
- 2025年度建筑施工现场安全管理合同2篇
- 建筑垃圾回收利用标准方案
- 2024年考研英语一阅读理解80篇解析
- 样板间合作协议
- 福建省厦门市2023-2024学年高二上学期期末考试语文试题(解析版)
评论
0/150
提交评论