定性数据卡方检验_第1页
定性数据卡方检验_第2页
定性数据卡方检验_第3页
定性数据卡方检验_第4页
定性数据卡方检验_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。

机动目录上页下页返回结束第1页/共61页H0(无效假设):总体参数没有差别机动目录上页下页返回结束χ2检验用途:分类计数资料的假设检验,检验两个或多个总体率或构成比有无差别。基本思想:实际频数与理论频数的符合程度,即差别是否由抽样误差引起的。检验统计量:χ2用来反映各类中实际观测到的实际频数与一定假设下的理论频数的偏离程度.永远是正值.实际频数通过实际观测或实验得到,理论频数要按照统计假设计算出来.第2页/共61页

第三章第一节机动目录上页下页返回结束卡方拟合性检验第3页/共61页

第三章第一节机动目录上页下页返回结束卡方拟合性检验第4页/共61页一、卡方检验的一般问题

卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。理论证明,实际观察次数(fo)与理论次数(fe),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:

机动目录上页下页返回结束K为组数,r为待估参数个数.第5页/共61页n=1n=4n=10f(y)01357911131517x0.50.40.30.20.1有所改变.分布的概率密度图形如下:显然分布的概率密度图形随自由度的不同而第6页/共61页当fe越大(fe

≥5),近似得越好。

显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。

机动目录上页下页返回结束拟合性检验自由度的确定与两个因素有关:一是分类的项数,二是在计算理论次数时,所用统计量或约束条件的个数,这两者之差即为自由度。由于一般情况下,计算理论次数时只用到“总数”这一统计量,所以自由度一般是分类的项数减1。第7页/共61页拟合性检验的零假设是观测次数与理论次数之间无差异。

机动目录上页下页返回结束可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。

卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得到的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

第8页/共61页二、检验无差假设

无差假设:指各项分类的实计数之间没有差异,也就是说各项分类之间的概率相等(均匀分布),因此理论次数完全按概率相等的条件来计算。

任一项的理论次数都等于总数/分类项数。

机动目录上页下页返回结束自由度也就等于分类项数减1。第9页/共61页例1

随机地将麻将色子抛掷300次,检验该色子的六个面是否均匀。结果1-6点向上的次数依次是,43,49,56,45,66,41。解:每个类的理论次数是300/6=50,代入公式:机动目录上页下页返回结束因此,在0.05的显著性水平下,可以说这个色子的六面是均匀的。第10页/共61页例2

随机抽取60名高一学生,问他们文理要不要分科,回答赞成的39人,反对的21人,问对分科的意见是否有显著的差异。

解:如果没有显著的差异,则赞成与反对的各占一半,因此是一个无差假设的检验,于是理论次数为60/2=30,代入公式:

机动目录上页下页返回结束所以对于文理分科,学生们的态度是有显著的差异的。

第11页/共61页例

某商场统计了一周中七天的顾客平均数如下表所示,请问该商场一周各天的顾客数是否有显著性差异?机动目录上页下页返回结束星期日星期一星期二星期三星期四星期五星期六顾客数15000105001180012200132001400018500第12页/共61页三、检验假设分布的概率这里的假设分布可以是经验性的,也可以是某理论分布。公式中所需的理论次数则按照这里假设的分布进行计算。

机动目录上页下页返回结束第13页/共61页例3国际色觉障碍讨论会宣布,每12个男子中,有一个是先天性色盲。从某校抽取的132名男生中有4人是色盲,问该校男子色盲比率与上述比例是否有显著差异?

解:按国际色觉障碍讨论会的统计结果,132人应该有132/12=11人是色盲,剩下的121人非色盲,代入公式有:

机动目录上页下页返回结束因此,在0.05和显著性水平下,该校男子色盲比率与国际色觉障碍讨论会的统计结果有显著差异,显然根据比例可知该校的色盲率小于国际色觉障碍讨论会的统计结果。

第14页/共61页例教务处要求各院系在本科生毕业设计的成绩评定中,注意成绩等级的人数分布,一般应符合如下表格中第一行所示的比例。某院65名本科生毕业设计成绩等级分布如下表第二行数字。请问该院系学生毕业设计的成绩评定是否符合学校要求?机动目录上页下页返回结束评定等级优秀良好中等及格或未及格要求比例10%50%30%10%某院各等级人数843131第15页/共61页例4在英语四级考试中,某学生做对了80个四择一选择题中的28题,现在要判断该生是否是完全凭猜测做题。

解:假如该生完全凭猜测做题,那么平均而言每道题做对的可能性是1/4,因此80个题中平均而能做对80/4=20题,代入公式有:

机动目录上页下页返回结束因此,该生可能会做一些题。

第16页/共61页例5.某电话交换台,在100分钟内记录了每分钟被呼唤的次数X,设fi为出现该X值的频数,结果如下:X0123456789fi071218172013634

问总体X(电话交换台每分钟呼唤次数)服从泊松分布吗?第17页/共61页解:按题意,原假设

由于λ未知,首先须用极大似然估计法,求得λ的估计值:检验统计量:拒绝域:列表计算:第18页/共61页XfiPinPifi-nPi≤1234567≥8n=10071218172013671.3099∑-0.02-0.340.18

-2.293.300.95

-1.46-0.320.00006

0.0094

0.00180.27190.65210.0749

0.28570.0140

7.0212.3417.8219.2916.7012.057.467.320.07020.12340.17820.19290.16700.12050.07460.0732第19页/共61页因为所以接受H0,认为电话交换台每分钟呼唤次数X服从泊松分布.说明:将n=0和n=1合并,n=8与n≥9合并是为了保证理论频数npi

≥4.第20页/共61页四、连续变量分布的拟合性检验首先要将测量数据整理成次数分布表和画出次分布图,并据此选择恰当的理论分布。机动目录上页下页返回结束然后根据选择的理论分布计算出理论次数,就可以计算卡方统计量并进行显著性检验了

第21页/共61页例5.为了研究患某种疾病的21~59岁男子的血压(收缩压,单位:mm-Hg)这一总体X,抽查了100个男子,得,,样本值分组如下:第22页/共61页序号分组fi序号分组fi12345(-∞,99.5)[99.5,109.5)[109.5,119.5)[119.5,129.5)[129.5,139.5)582227176789[139.5,149.5)[149.5,159.5)[159.5,169.5)[169.5,+∞)9552取α=0.10,检验21~59岁男子的血压(收缩压)总体X是否服从正态分布。第23页/共61页解:按题意,原假设

由于μ,σ2未知,首先须用极大似然估计法,求得其估计值(看教科书七章二节例2):检验统计量:拒绝域:列表计算:第24页/共61页H0为真时,第25页/共61页第26页/共61页列表计算:第27页/共61页12345678n=10058222717957∑XfiPinPifi-nPi分组(-∞,99.5)[99.5,109.5)[109.5,119.5)[119.5,129.5)[129.5,139.5)[139.5,149.5)[149.5,159.5)[159.5,+∞)0.06550.10560.17720.22310.19890.13290.06610.03076.5510.5617.7222.3119.8913.296.613.07-1.55-2.564.284.69-2.89-4.292.320.36680.62061.03380.98590.41991.38480.55605.3678第28页/共61页因为所以接受H0,即21~59岁男子的血压(收缩压)总体X服从正态分布。第29页/共61页

第三章第二节机动目录上页下页返回结束独立性检验第30页/共61页机动目录上页下页返回结束总体分布的卡方检验实际上是单变量引起的次数分布的差异性检验。如果是两个变量,甚至三个变量交叉引起的次数分布,该如何检验呢?可以使用交叉列联表中的卡方检验和相关分析。第31页/共61页机动目录上页下页返回结束品质数据(概念要点)1.品质随机变量的结果表现为类别.例如:性别(男,女)2.各类别用符号或数字代码来测度一、列联表3.使用定类或定序尺度你吸烟吗?1.是;2.否你赞成还是反对这一改革方案?1.赞成;2.反对4.对品质数据的描述和分析通常使用列联表5.可使用χ2检验第32页/共61页机动目录上页下页返回结束列联表(概念要点)1.由两个以上的变量进行交叉分类的频数分布表2.行变量的类别用r表示,ri

表示第i个类别3.列变量的类别用c表示,cj

表示第j个类别4.每种组合的观察频数用fij

表示5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表第33页/共61页机动目录上页下页返回结束列联表的结构(r×c列联表的一般表示)第34页/共61页例1一个集团公司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取420个样本单位(人),了解职工对此项改革的看法,调查结果如下表机动目录上页下页返回结束一分公司一分公司一分公司一分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420第35页/共61页机动目录上页下页返回结束列联表的分布(概念要点)观察值的分布1.边缘分布

行边缘分布:行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人

列边缘分布:列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人2.条件分布与条件频数变量X条件下变量Y的分布,或在变量Y条件下变量X的分布每个具体的观察值称为条件频数第36页/共61页机动目录上页下页返回结束观察值的分布第37页/共61页机动目录上页下页返回结束百分比分布(概念要点)1.条件频数反映了数据的分布,但不适合进行对比2.为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布.行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)总百分比:每一个观察值除以观察值的总个数(fij/n

)第38页/共61页机动目录上页下页返回结束百分比分布第39页/共61页机动目录上页下页返回结束期望频数的分布(概念要点)1.假定行变量和列变量是独立的2.一个实际频数fij

的期望频数eij

,是总频数的个数n乘以该实际频数fij落入第i行和第j列的概率,即第40页/共61页机动目录上页下页返回结束例1(续)第1行和第1列的实际频数为f11,它落在第1行的概率估计值为该行的频数之和r1除以总频数的个数n,即:r1/n;它落在第1列的概率的估计值为该列的频数之和c1除以总频数的个数n,即:c1/n。根据概率的乘法公式,该频数落在第1行和第1列的概率应为由于观察频数的总数为n,所以f11的期望频数e11应为第41页/共61页机动目录上页下页返回结束根据上述公式计算的前例的期望频数第42页/共61页机动目录上页下页返回结束卡方检验还可以用于检验两个或两个以上因素(各有两项或以上的分类)之间是否相互影响的问题,这种检验称为独立性检验。

所谓独立,即无关联,互不影响,就意味着一个因素各个分类之间的比例关系,在另一个因素的各项分类下都是相同的,卡方独立性检验的零假设是各因素之间相互独立。二、独立性检验第43页/共61页机动目录上页下页返回结束其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有关,或,两变量不独立。第44页/共61页机动目录上页下页返回结束χ2统计量(概念要点)1.用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立2.基本计算公式为其自由度为:(r-1)(c-1)专用计算公式为适用条件:表中不宜有1/5以上格子的理论频数小于5,或有一个格子的理论频数小于1。第45页/共61页机动目录上页下页返回结束例1(续)第46页/共61页机动目录上页下页返回结束一致性检验(概念要点)1.检验列联表中目标变量之间是否存在显著性差异2.检验的步骤为提出假设H0:P1=P2=…=Pj

(目标变量的各个比例一致)H1:P1,P2,…,Pj

不全相等(各个比例不一致)计算检验的统计量进行决策根据显著性水平α和自由度(r-1)(c-1)查出临界值若,拒绝H0;若,接受H0第47页/共61页机动目录上页下页返回结束例1(续)检验职工的态度是否与所在单位有关?提出假设H0:P1=P2=P3

=P4(赞成比例一致)H1:P1,P2,P3

,P4

不全相等(赞成比例不一致)计算检验的统计量根据显著性水平α=0.1和自由度(2-1)(4-1)=3查出相应的临界值。由于,接受H0第48页/共61页例2某校对学生课外活动内容进行调查,结果整理成下表。

机动目录上页下页返回结束性别(因素2)课外活动内容(因素1)小计和体育文娱阅读男生21112355女生

6

72942小计和27185297男女生在选择课外活动上是否存在显著的差异?第49页/共61页机动目录上页下页返回结束解:由于所有学生参加三项活动的比例是27:18:52,因此如果课外活动的选择与性别没有关系的话,男女生参加这三项活动的比例也应是这同一比例,而男女各自的人数可以计算,所以每格内的理论次数的计算方法如下:

男生中参加体育活动的理论人数:55×27/97=15.3…女生中

参加体育活动的理论人数:42×27/97=11.7…第50页/共61页机动目录上页下页返回结束性别(因素2)课外活动内容(因素1)小计和(fx)体育文娱阅读男生21(15.3)11(10.2)23(29.5)55女生

6(11.7)

7(7.8)29(22.5)42小计和(fy)27185297=8.3552或:=8.3552第51页/共61页机动目录上页下页返回结束χ20.05(2)=5.99所以在0.05的显著性水平下,拒绝零假设,即可以认为性别与课外活动内容有关联,或者说男女生在选择课外活动上存在显著的差异。第52页/共61页例某研究人员收集了亚洲、欧洲和北美洲人的A、B、AB、O血型资料,结果见表所示,其目的是研究不同地区的人群血型分类构成比是否一样机动目录上页下页返回结束地区ABABO合计亚洲321369952951080欧洲2584322194517北美洲40810637444995合计9875181549332595第53页/共61页查χ2界值表v=(3-1)(4-1)=6,拒绝H0,认为三个地区的人群血型分布构成不同或不全相同。建立假设H0:不同地区的人群血型分布构成相同

H1:不同地区的人群血型分布构成不同或不全相同α=0.05计算检验统计:e11=1080×987/2592=411.5e12=215.83e13=64.17e14=388.75e21=196.87e22=103.32e23=30.72e24=186.10e31=378.88e32=198.8e33=59.12e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论