列联表c检验和对数线模型

上传人：建*** IP属地：上海上传时间：2022-01-02 格式：PPTX 页数：43 大小：1.47MB 积分：20 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、列联表、c c2检验和对数线性模型三维列联表三维列联表（关于某项政策调查所得结（关于某项政策调查所得结果果:table7.sav）opinion * income Crosstabulationopinion * income CrosstabulationCount71519414525128252403112301opinionTotal123incomeTotal 观点：赞成(1)观点:不赞成(0) 低收入(1)中等收入(2)高收入(3)低收入(1)中等收入(2)高收入(3)男1201055810女025157279sex * opinion Crosstabulationsex *

2、opinion CrosstabulationCount184765233558418212301sexTotal01opinionTotal列联表列联表前面就是一个所谓的三维列联表(contingency table).这些变量中每个都有两个或更多的可能取值。这些取值也称为水平；比如收入有三个水平，观点有两个水平，性别有两个水平等。该表为322列联表在SPSS数据中，表就不和课本印的一样，收入的“低”、“中”、“高”用代码1、2、3代表；性别的“女”、“男”用代码0、1代表；观点“赞成”和“不赞成”用1、0代表。有些计算机数据对于这些代码的形式不限（可以是数字，也可以是字符串）。Table7

3、.sav 数据列联表列联表列联表的中间各个变量不同水平的交汇处，就是这种水平组合出现的频数或计数（count）。二维的列联表又称为交叉表（cross table）。列联表可以有很多维。维数多的叫做高维列联表。注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。二维列联表的检验研究列联表的一个主要目的是看这些变量是否相关。比如前面例子中的收入和观点是否相关。这需要形式上的检验二维列联表的检验下面表是把该例的三维表简化成只有收入和观点的二维表( (这是SPSS自动转化的: :Analyze-Descriptive Statistics-Crosstabs-.).OPINI

4、ON * INCOME CrosstabulationCount71519414525128252403112301OPINIONTotal123INCOMETotal二维列联表的检验二维列联表的检验对于上面那样的二维表。我们检验的零假设和备选假设为 H H0 0:观点和收入这两个变量不相关;H H1 1:这两个变量相关。这里的检验统计量在零假设下有（大样本时）近似的c c2 2分布。当该统计量很大时或p p- -值很小时，就可以拒绝零假设，认为两个变量相关。实际上有不止一个c c2 2检验统计量。包括Pearson c c2 2统计量和似然比（likelihood ratio）c c2 2统

5、计量；它们都有渐近的c c2 2分布。根据计算可以得到（对于这两个统计量均有）p p- -值小于0.0010.001。因此可以说，收入高低的确影响观点。 21niiiiOEQE12lnniiiiOTOEPearson c c2 2统计量似然比c c2 2统计量Oi代表第i个格子的计数，Ei代表按照零假设（行列无关）对第i格子的计数的期望值二维列联表的检验二维列联表的检验刚才说，这些c c2 2统计量是近似的，那么有没有精确的统计量呢？当然有。这个检验称为FisherFisher精确检验；它不是c c2 2分布，而是超几何分布。对本问题, ,计算FisherFisher统计量得到的p p- -值

6、也小于0.0010.001。聪明的同学必然会问，既然有精确检验为什么还要用近似的c c2 2检验呢？这是因为当数目很大时，超几何分布计算相当缓慢（比近似计算会差很多倍的时间）；而且在计算机速度不快时，根本无法计算。因此人们多用大样本近似的c c2 2统计量。而列联表的有关检验也和c c2 2检验联系起来了。Fisher精确检验精确检验Chi-Square TestsChi-Square Tests10.288b1.001.002.0019.1071.00310.4961.001.002.001.002.001113Pearson Chi-SquareContinuity Correctiona

7、Likelihood RatioFishers Exact TestN of Valid CasesValuedfAsymp. Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Computed only for a 2x2 tablea. 0 cells (.0%) have expected count less than 5. The minimum expected count is23.45.b. SPSS: Weight-Describ-crosstab-exacttable7.sav 其中有变量性别( (sex) )、观点( (

8、opinion) )和收入( (income) )；每一列相应于其代表的变量的水平; ;每一行为一种水平的组合( (共有23212种组合( (12行),),而每种组合的数目( (也就是列联表中的频数) )在number那一列上面，这就是每种组合的权重( (weight),),需要把这个数目考虑进去, ,称为加权( (weight).).如果不加权，最后结果按照所有组合只出现一次来算( (也就是说，按照列联表每一格的频数为1).).由于在后面的选项中没有加权的机会, ,因此在一开始就要加权. .方法是点击图标中的小天平( (“权”就是天平的意思),),出现对话框之后点击Weight cases，

9、然后把“number”选入即可。二维列联表情况加权之后，按照次序选AnalyzeDescriptive StatisticsCrosstabs。在打开的对话框中，把opinion和income分别选入Row（行）和Column（列）；至于哪个放入行或哪个放入列是没有关系的。如果要Fisher精确检验则可以点Exact，另外在Statistics中选择Chi-square，以得到c c2检验结果。最后点击OK之后，就得到有关Pearson c c2统计量、似然比c c2统计量以及Fisher统计量的输出了( (这里的Sig就是p-值) )。加权：Chi-Square Tests20.456a2

10、.000.00021.1902.000.00020.713.00020.290b1.000.000.000.000123Pearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesValuedfAsymp. Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)PointProbability0 cells (.0%) have expected count less than 5. The minimum expec

11、ted count is 10.33.a. The standardized statistic is -4.504.b. 下面为SPSSSPSS对于table7.savstable7.savs数据产生的下面二维列联表相关分析的输出opinion * income Crosstabulationopinion * income CrosstabulationCount71519414525128252403112301opinionTotal123incomeTotal利用crosstabscrosstabs处理三维列联表问题的SPSSSPSS选项利用crosstabscrosstabs处理三

12、维列联表问题的输出income * opinion * sex Crosstabulationincome * opinion * sex CrosstabulationCount22527715229716184765520258101810515233558123incomeTotal123incomeTotalsex0101opinionTotal利用crosstabscrosstabs处理三维列联表问题的输出Chi-Square TestsChi-Square Tests12.252a2.002.00212.9932.002.00312.340.00212.064b1.001.000.

13、000.000658.782c2.012.0129.0582.011.0128.706.0128.624d1.003.005.003.00258Pearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesPearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid Casessex01ValuedfAsymp. Sig.(2-sided)Exact

14、Sig.(2-sided)Exact Sig.(1-sided)PointProbability1 cells (16.7%) have expected count less than 5. The minimum expected count is 4.43.a. The standardized statistic is -3.473.b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5.95.c. The standardized statistic is -2.937.d.

15、利用crosstabscrosstabs处理三维列联表问题的输出123incomeincome0510152025CountCountopinion01sex=0sex=0123incomeincome05101520CountCountopinion01sex=1sex=1高维列联表和( (多项分布) )对数线性模型前面例子原始数据是个三维列联表，对三维列联表的检验也类似。但高维列联表在计算机软件的选项可有所不同，而且可以构造一个所谓( (多项分布) )对数线性模型(loglinear model)来进行分析。利用对数线性模型的好处是不仅可以直接进行预测，而且可以增加定量变量作为模型的一部

16、分。对数线性模型现在简单直观地通过二维表介绍一下对数线性模型，假定不同的行代表第一个变量的不同水平，而不同的列代表第二个变量的不同水平。用mij代表二维列联表第i行，第j列的频数。人们常假定这个频数可以用下面的公式来确定：ln()ijijm这就是所谓的多项分布对数线性模型。这里 i i为行变量的第i个水平对ln(mln(mijij) )的影响，而 j j为列变量的第j个水平对ln(mln(mijij) )的影响，这两个影响称为主效应（main effect）。( (多项分布) )对数线性模型这个模型看上去和回归模型很象，但由于对于分布的假设不同，不能简单地用线性回归的方法来套用( (和Lo

17、gisticLogistic回归类似) )；计算过程也很不一样。当然我们把这个留给计算机去操心了。只要利用数据来拟合这个模型就可以得到对于 i i和 j j的“估计”。有了估计的参数，就可以预测出任何i i，j j水平组合的频数m mijij了（通过其对数）。注意，这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的, ,因此, ,只有事先固定一个参数值( (比如 1 1=0=0),),或者设定类似于SSi i=0=0这样的约束，才可能估计出各个的值。没有约束，则这些参数是估计不出来的。（多项分布）对数线性模型二维列联表的更完全的对数线性模型为ln()()ijijijm 这里的(

18、 (ijij代表第一个变量的第i i个水平和第二个变量的第j j个水平对ln(mln(mijij) )的共同影响( (交叉效应) )。即当单独作用时，每个变量的一个水平对ln(mln(mijij) )的影响只有 i i( (或 j j) )大，但如果这两个变量一同影响就不仅是 i i+ + j j，而且还多出一项。这里的交叉项的诸参数的大小也是相对的，也需要约束条件来得到其“估计”；涉及的变量和水平越多，约束也越多。注意，无论你对模型假定了多少注意，无论你对模型假定了多少种效应，种效应，并不见得都有意义并不见得都有意义；有；有些可能是多余的。本来没有交叉些可能是多余的。本来没有交叉影响，但如

19、果写入，也没有关系，影响，但如果写入，也没有关系，在分析过程中一般可以知道哪些在分析过程中一般可以知道哪些影响是显著的，而那些是不显著影响是显著的，而那些是不显著的。的。两种对数线性模型前面介绍的多项分布对数线性模型假定所有的可能格子里面的频数满足多项分布。另一类为PoissonPoisson对数线性模型. .它假定每个格子里面的频数满足一PoissonPoisson分布（后面再介绍）. .统计软件的选项中有关于分布的选项高维表的检验统计量和二维表一样也包含了Pearson c c2统计量和似然比c c2统计量。用table7.savtable7.sav数据拟合对数

20、线性模型假定（多项分布）对数线性模型为这里 i为收入（i1,2,31,2,3代表收入的低、中、高三个水平）， j为观点（j1,21,2代表不赞成和赞成两个水平），g gk为性别（k1,21,2代表女性和男性两个水平）, , mijk代表三维列联表对于三个变量的第ijk水平组合的出现次数。而从相应的参数估计输出结果，可以得到对 i i的三个值的估计为0.5173, 0.2549,0.0000,0.5173, 0.2549,0.0000,对 j j的两个值的估计为-0.6931,0.0000,-0.6931,0.0000,对g gk k的两个值的估计为 0.1139,0.00000.1139

21、,0.0000。( (多项对数线性模型常数无意义，输出的常数项仅仅是数学意义) )ln()ijkijkmgSPSS输出就这里的三维列联表问题，如只考虑各个变量单独的影响，而不考虑变量组合的综合影响，其SPSS输出的Pearson c c2统计量和似然比c c2统计量得到的p-值分别为0.0029和0.0011。 Goodness-of-Fit TestsGoodness-of-Fit Testsa,ba,b24.1377.00122.5417.002Likelihood RatioPearson Chi-SquareValuedfSig.Model: Multinomiala. Design:

22、 Constant + income + opinion + sexb. Parameter EstimatesParameter Estimatesc,dc,d2.277a.517.2272.279.023.073.962.255.2391.065.287-.214.7240b.-.693.191-3.624.000-1.068-.3180b.114.181.631.528-.240.4680b.ParameterConstantincome = 1income = 2income = 3opinion = 0opinion = 1sex = 0sex = 1EstimateStd. Err

23、orZSig.Lower BoundUpper Bound95% Confidence IntervalConstants are not parameters under the multinomial assumption. Therefore, theirstandard errors are not calculated.a. This parameter is set to zero because it is redundant.b. Model: Multinomialc. Design: Constant + income + opinion + sexd. SPSS输出ln(

24、)2.277.517.693.114 income=1,opinion=0,sex=0ln()2.277.255.693.114 income=2,opinion=0,sex=0ln()2.2770.693.114 income=3,opinion=0,sex=0ln()2.277.5170.114 income=1,opinion=1ijijijijmmmm,sex=0ln()2.277.2550.114 income=2,opinion=1,sex=0ln()2.27700.114 income=3,opinion=1,sex=0ln()2.277.517.6930 income=1,op

25、inion=0,sex=1ln()2.277.255.6930 income=2,opinion=0,seijijijijmmmmx=1ln()2.2770.6930 income=3,opinion=0,sex=1ln()2.277.51700 income=1,opinion=1,sex=1ln()2.277.25500 income=2,opinion=1,sex=1ln()2.277000 income=3,opinion=1,sex=1ijijijijmmmmSPSS的的实现实现数据table7.sav 假定已经加权 (加权一次并存盘了既可) 这时的选项为AnalyzeLoglin

26、earGeneral, 首先选择格子中频数的分布,这里是多项分布 (其默认值是Poisson对数线性模型). 然后把三个变量(sex,opinion,income)选入Factors(因子); 再选Model(模型)，如果选Saturated(饱和模型),那就是所有交叉效应都要放入模型;但如果不想这样,可以选Custom(自定义),在Building Terms(构造模型的项)选Main effect(主效应),再把三个变量一个一个地选进来(如果两个或三个一同选入，等于选入交叉效应). 如果想要知道模型参数，在 O p t i o n s 中选择Estimates。

27、最后Continue-OK即可得出结果. 在计算机输出的结果中可以找到我们感兴趣的结果。如果SPSS的Viewer输出不完全，可以选中不完全的输出，利用Edit-Copy Objects来复制到例如记事本那样的文件中，就可以看到完整输出了 Poison Poison对数线性模型有的时候，类似的高维表并不一定满足多项分布对数线性模型。下面看一个例子。这是关于哮喘病人个数和空气污染程度，年龄和性别的数据（asthma.sav）后面表格为某地在一段时间记录的60组在不同空气污染状态的不同年龄及不同性别的人的发生哮喘的人数。其中性别为定性变量S(sex, 1代表女性，2代表男性)，空气污染程

28、度P也是定性变量（polut, 1、2、3分别代表轻度、中度和严重污染），年龄A (age)为定量变量，为那一组人的平均年龄；还有一列计数C (count)为这一组的哮喘人数。这个表格和前面的列联表的不同点在于每一格的计数并不简单是前面三个变量的组合的数目(某个年龄段，某种性别及某种污染下的人数)，而是代表了某个年龄段，某种性别及某种污染下发生哮喘的人数。 Poisson对数线性模型简对数线性模型简介介在某些固定的条件下在某些固定的条件下, 人们认为某些事件人们认为某些事件出现的次数服从出现的次数服从Poisson分布分布, 比如在某比如在某一个时间段内某种疾病的发生病数一个时间段内某种

29、疾病的发生病数, 显微显微镜下的微生物数镜下的微生物数, 血球数血球数, 门诊病人数门诊病人数, 投投保数保数, 商店的顾客数商店的顾客数, 公共汽车到达数公共汽车到达数, 电电话接通数等等话接通数等等. 然而然而, 条件是不断变化的条件是不断变化的. 因此因此, 所涉及的所涉及的Poisson分布的参数也随分布的参数也随着变化着变化.PoissonPoisson对数线性模型假定哮喘发生服从PoissonPoisson分布；但是由于条件不同，PoissonPoisson分布的参数l l也应该随着条件的变化而改变。这里的条件就是给出的性别、空气污染程度与年龄。当然，如何影响以及这些条件影响是否

30、显著则是我们所关心的。这个模型可以写成这里m m为常数项， i i为性别（i=1,2i=1,2分别代表女性和男性两个水平）， j j为空气污染程度（j=1,2,3j=1,2,3代表低、中高三个污染水平），x x为连续变量年龄，而g g为年龄前面的系数，e eijij为残差项。 ln( )ijijxlmgePoissonPoisson对数线性模型从对于数据(asthma.sav)(asthma.sav)的PoissonPoisson对数线性模型的相应SPSSSPSS输出，可以得到对m m的估计为4.98204.9820，对 i i的两个值的“估计”为-0.0608-0.0608、 0.000

31、00.0000，对 j j的三个值的“估计”为-0.1484-0.1484，0.12230.1223、0.00000.0000，对g g的估计为 0.01260.0126。注意，这里的对主效应 I I和 j j的估计只有相对意义；它们在一个参数为0 0的约束条件下得到的。从模型看上去，年龄和性别对哮喘影响都不那么重要。轻度污染显然比中度污染和严重污染哮喘要好。但是似乎严重污染时哮喘稍微比中度污染少些( (差别不显著) )。通过更进一步的分析（这里不进行），可以发现，中度和严重空气污染（无论单独还是一起）和轻度空气污染比较都显著增加哮喘人数，而中度及严重污染时的哮喘人数并没有显著区别。Pa

32、rameter EstimatesParameter Estimatesb,cb,c4.9821.9162.600.0091.2268.738-.013.043-.294.769-.097.071-.148.142-1.048.295-.426.129.122.1081.135.256-.089.3340a.-.061.153-.398.691-.361.2390a.ParameterConstantagepolut = 1.00polut = 2.00polut = 3.00sex = 1.00sex = 2.00EstimateStd. ErrorZSig.Lower BoundUpper Bound95% Confidence IntervalThis parameter is set to zero because it is redundant.a. Model: Poissonb. Design: Constant + age + polut + sexc. ln( )4.982.061 .148.013 sex=1, polut=1ln( )4.982.061 .122.013 sex=1, polut=2ln( )4.982.0610.013 sex=1, polut=3ln( )4.9820.148.013 sex=2

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

列联表c检验和对数线模型

文档简介

温馨提示

最新文档

评论

列联表c检验和对数线模型

文档简介

温馨提示

最新文档

评论

相关文档