第九章 列联分析_第1页
第九章 列联分析_第2页
第九章 列联分析_第3页
第九章 列联分析_第4页
第九章 列联分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章列联分析第一页,共二十页,2022年,8月28日第一节列联分析

第二页,共二十页,2022年,8月28日二维列联表(contingencytable;交叉表:crosstable):

这些变量中每个都有两个或更多的可能取值,这些取值也称为水平;比如收入有三个水平,观点有两个水平。各个变量不同水平的交汇处是频数。

更多维的列联表称为高维列联表。第三页,共二十页,2022年,8月28日

列联表分析的一个重要内容是看变量之间是否独立,如本例中的收入和观点是否无关。原假设和备选假设:H0:(观点和收入)变量之间独立;H1:变量之间相关。所用的检验统计量一般为Pearson卡方统计量(也有其他统计量,如似然比统计量,但Pearson卡方统计量最常用),它在原假设成立的前提下有(大样本时)近似的卡方分布。第四页,共二十页,2022年,8月28日第五页,共二十页,2022年,8月28日第六页,共二十页,2022年,8月28日第七页,共二十页,2022年,8月28日既然这个c2统计量是近似的,那么有没有精确的统计量呢?有。这个检验称为Fisher精确检验;它不是c2分布,而是超几何分布。当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的c2统计量。第八页,共二十页,2022年,8月28日例:收入水平与对待该项政策的态度独立(无关)吗?第九页,共二十页,2022年,8月28日例:收入水平与对待该项政策的态度相关吗?第十页,共二十页,2022年,8月28日>data=read.csv("table7.csv",head=TRUE);attach(data)>data1=xtabs(number~opinion+income)#把三维表转化为二维>sum=sum(data1)>理论频率=c(sum(number[opinion==0])/sum,sum(number[opinion==1])/sum)>理论频数=cbind(sum(number[income==1])*理论频率,sum(number[income==2])*理论频率,sum(number[income==3])*理论频率)#计算理论频数>实际理论之差=data1-理论频数>卡方统计量值=sum(实际理论之差^2/理论频数)>自由度=(2-1)*(3-1)>pvalue=1-pchisq(卡方统计量值,自由度);pvalue[1]3.614199e-05第十一页,共二十页,2022年,8月28日列联检验的软件实现:SPSS:Analyze(分析)→DescriptiveStatistics(描述统计)→Crosstabs(交叉表)。R:>data=read.csv("table7.csv",head=TRUE);attach(data)>data1=xtabs(number~opinion+income)#把三维表转化为二维>chisq.test(data1)或>fisher.test(data1)#fisher精确检验第十二页,共二十页,2022年,8月28日第二节检验

第十三页,共二十页,2022年,8月28日第十四页,共二十页,2022年,8月28日1、看看基本指标>data=read.csv("概率论与数理统计课程成绩数据.csv",head=TRUE)>attach(data);length(课程成绩);mean(课程成绩);sd(课程成绩);range(课程成绩)[1]147[1]80.57143[1]12.61278[1]391002、划分区间并计算实际频数>区间=quantile(课程成绩,prob=seq(0,1,0.1))#把课程成绩分成等概率的10个区间(即频数为147*0.1)第十五页,共二十页,2022年,8月28日>实际频数=table(cut(课程成绩,区间,include.lowest=TRUE))#计算成绩落在各区间的频数(并列成绩的存在使各区间频数并不严格相等),include.lowest=TRUE选项保证39分的成绩不被漏掉3、计算理论概率>理论概率1=pnorm(区间,mean(课程成绩),sd(课程成绩))>理论概率1=理论概率1[-1]>理论概率=c(理论概率1[1],理论概率1[2:10]-理论概率1[1:9])>理论频数=理论概率*length(课程成绩)第十六页,共二十页,2022年,8月28日4、计算卡方统计量、p值>卡方统计量=sum((实际频数-理论频数)^2/理论频数)>df=10-1#自由度为10个区间数(即卡方统计量中sum的项数)-1>pvalue=1-pchisq(卡方统计量,df)>卡方统计量;pvalue[1]30.6344[1]0.0003419502第十七页,共二十页,2022年,8月28日分布的拟合优度的卡方检验的计算机实现:SPSS:Analyze(分析)→NonparametricTests(非参数检验)→Chi-Square(卡方)。(麻烦:理论频数需要一个一个地输入)第十八页,共二十页,2022年,8月28日R:#读入数据、划分区间、计算实际频数>data=read.csv("概率论与数理统计课程成绩数据.csv",head=TRUE)>attach(data);n=length(课程成绩);mean=mean(课程成绩);sd=sd(课程成绩);range(课程成绩)>区间=quantile(课程成绩,prob=seq(0,1,0.1))#把课程成绩分成等概率的10个区间(即频数为147*0.1)>实际频数=table(cut(课程成绩,区间,include.lowest=TRUE))#计算成绩落在各区间的频数(由于有并列成绩所以各区间频数并不严格相等),include.lowest=TRUE选项保证39分的成绩不被漏掉第十九页,共二十页,2022年,8月28日#构造概率向量:为了使概率向量的区间数与实际频数相等并使概率和为1(这是使用chisq.test命令的前提),需要进行修正>累积理论概率1=pnorm(区间,mean,sd)>累积理论概率修正1=c(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论