交叉列联表分析_第1页
交叉列联表分析_第2页
交叉列联表分析_第3页
交叉列联表分析_第4页
交叉列联表分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、交叉列联表分析用于分析属性数据1 属性变量与属性数据分析从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变最又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据一一列联表;2)检验属性变量间的独立性(无尖联性);3)计算属性变量间的尖联性统计量;4)对高维数据进行分层分析和建模。在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是 否有矢?色盲与性别是否有尖?上网时间与学习成绩是否有尖等等.解决这类问题常用到建立列联 表,利用彳统计量作显著性检验来完成.2 .列联表(Con

2、ti nge ncy Table)列联表是由两个以上的属性变量进行交叉分类的频数分布表。设二维随机变量(X,丫),X可能取得值为Xl,X2/,Xr Y可能取得值为如$2,ys现从总体中抽取容量为门的样本,其中事件(X =力丫 =旳)s发生的频率为ng (h2, , r,j=佃,,s,)记niriij,n=八皿,j二yr srs则有n m n n=7 ni .二n .j,将这些数据排列成如下的表:这是一张r x s列联表.3属性变量的尖联性分析对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种尖联性,即一个变量取不同数值时,另一个变量的分布

3、是否有显著的不同,这就是属性变量矢联性分析的内容。属性变量尖联性检验的假设为H0 :变量之间无矢联性;H1 :变量之间有矢联性由于变量之间无尖联性说明变量互相独立,所以原假设和备择假设可以写为:H0 :变量之间独立;H1 :变量之间不独立检验Ho: X与丫独立.记 P (X = Xi n = yj) = pi j * i =1 2 , r,,j = 1,2,,,s,P(Xii)= Pj. , i j 2, , r, p(Y=yj)=p.j ,j = i,2,,,s.由离散性随机变最相互独立的定义,则原假设等价于Ho - pj j = pj. p.j h =12 9 9 9 r ,j = 1 9

4、 2 9 , 9 s.若Pi j已知,我们可以建立皮尔逊2统计量27 2(nij-n Pij)由皮尔逊定理知,r的极限分布为72(rs1).但这里pij未知,因此用它A的极大似然估计Pjj代替,这时检验统计量为As0npij)2id ijnPij在Ho成立的条件下,p. j = pi. p.j,即等价于用Pj 和p.&的极大似然估计A AP和尸勺积去代替可以求得巧 jm c n jpi .=in, j = 1 2 , , sr nni nj.=从而得到统计最2r s Tlijt八j2Pi.Pjs2、Z Z nij -1i 二A rii.j)在Ho成立的条件下,当n_;时彳的极限分布为2(rs

5、(r s-2) -1)=对给定的显著性水平a,当2_ -(r-1)(A1) ,则拒绝Ho,否则接受H。.特别,当r = s = 2时,得到2X 2列联表,常被称为四格表,是应用最广的一种列联 表.这时检验统计量为22 (ri 11 ri22 ni2n2i)=nn in 2初“乍它的极限分布为2(1).对于二维随机变最(X , Y)是连续取值的情况,我们可采用如下方法将其离散化. 将X的取值范围(亠,+8)分成r个互不相交的区间,将丫的取值范围(- +8)分成S个互不相交的区间,于是整个平面分成了rs个互不相交的小矩形;求出样本落入小矩形中的频数建立统计量2 、72nij .L =n ZZ-1i

6、 T t ni - n在Ho成立时且n充分大时,彳的极限分布为2 ( ( r_1)(S-1),拒绝域的确定同离散型的情况.3属性变量的矢联度计算2检验的结果只能说明变量之间是否独立,如果不独立,并不能由nn ri22 一 n 12 n2i其它其中当r=s=2即2X 2列联表时v1,其它0V1, |越接近1,它们之间尖联性越强,反之越弱。主要用于2X2列联表例1 (教材P116例4.4)为了了解吸烟与患慢性气管炎的尖系,对339名50岁以上的人作了调查,具体数据如下表:、疋患病if吸烟患病未患病合计吸烟43162205不吸烟13121134合计56283339利用交叉列连表分析,研究吸烟习惯与患

7、慢性气管炎的矢系。解检验H,:吸烟与患慢性气管 炎无矢.已给数据构成一个四格表,n=339,=43, n 12 =162 ,n21 =13,n 22=121,n 1 205, n 1=13, n 2134 , n 吆=121,则2: 7.469.2 (ri 111122-11121121)339 (43 12162 13)A = n13 134 205 121若给定a =0.05,查表得(1) = 3.841 7.469、所以拒绝Ho,即认为吸烟习0.95惯与患慢性气管炎有尖但利用SPSS软件完成,系数=0.148较小,表不相矢性不是太大练习1数据文件“电信用户sav”中记录了某电信运营商经营的各种 情况, 比如服务类型、设备租用、无线使用等。选择其中4个变量:custcat (顾客服务)、ed (顾客受教育程度)income (家庭收入)、inine (电信消费),考察顾客与服务经营的情况(1 )对变量custcat和ed

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论