配合度检验、独立性检验与同质性检验_第1页
配合度检验、独立性检验与同质性检验_第2页
配合度检验、独立性检验与同质性检验_第3页
配合度检验、独立性检验与同质性检验_第4页
配合度检验、独立性检验与同质性检验_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、配合度检验、独立性检验与同质性检验2 2检验(检验(chi-square test)是专门用于)是专门用于数据的统计方法。数据的统计方法。由于这类数据在整理时,常常以由于这类数据在整理时,常常以(contingency table)或交叉表()或交叉表(cross tabulation)呈现,因此这种分析方法又被称为列联表分呈现,因此这种分析方法又被称为列联表分析或交叉表分析。析或交叉表分析。 2 2检验用于对点计而来的检验用于对点计而来的数据资料数据资料进行假设检验,对总体的进行假设检验,对总体的不做要求,也不不做要求,也不对总体对总体进行推论进行推论, ,因此属于自由分布的非参数因此属于自

2、由分布的非参数检验。检验。(151) eefff202配合度检验配合度检验独立性检验独立性检验同质性检验同质性检验把实得的点计数据只按一种分类标准编制把实得的点计数据只按一种分类标准编制成表就是单向表。对单向表的数据所进行的成表就是单向表。对单向表的数据所进行的2 2检验,称为单向表的检验,称为单向表的2 2检验,也称为配合度检检验,也称为配合度检验(验(goodness of fit testgoodness of fit test)。)。独立性检验主要用以两个或两个以上因素多项分类的计数独立性检验主要用以两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量的关联性和依存性问题。如人

3、资料分析,也就是研究两类变量的关联性和依存性问题。如人的血型和人的性格是否有关联。的血型和人的性格是否有关联。把两个因素实得的点计数据按两种分类标准编制成的表就把两个因素实得的点计数据按两种分类标准编制成的表就是双向表。对双向表的数据所进行的是双向表。对双向表的数据所进行的2 2检验,叫作双向表的检验,叫作双向表的2 2检验,即双因素的检验,即双因素的2 2检验。两个以上因素形成的表称为多检验。两个以上因素形成的表称为多维列联表。重点是两因素的独立性检验。维列联表。重点是两因素的独立性检验。假如双向表中横行所分的组数用假如双向表中横行所分的组数用R R表示,纵列所分的组数表示,纵列所分的组数用

4、用C C表示,那么,双向表的表示,那么,双向表的2 2检验也称为检验也称为R RC C表的表的2 2检验。检验。 在双向表的在双向表的2 2检验中,如果要判断两检验中,如果要判断两种分类特征,即两个因素之间是否有依从关种分类特征,即两个因素之间是否有依从关系,这种系,这种2 2检验称为检验称为。如果是。如果是判断几次重复实验的结果是否相同,这种判断几次重复实验的结果是否相同,这种2 2检验称为检验称为。1理论频数的计算双向表双向表2 2检验中,理论频数的计算公式为检验中,理论频数的计算公式为Nfffyixie(161) 公式中,公式中,fxi表示横行各组实际频数的总和表示横行各组实际频数的总和

5、 fyi表示纵列各组实际频数的总和表示纵列各组实际频数的总和 N表示样本容量的总和表示样本容量的总和表10-6 不同家庭经济状况学生报考师范大学的不同态度家庭家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上上中中下下18201827197102011555936总和总和565341150解:1.提出假设H H0 0:学生是否愿意报考师范大学与家庭经济状况无关:学生是否愿意报考师范大学与家庭经济状况无关H H1 1:学生是否愿意报考师范大学与家庭经济状况有关:学生是否愿意报考师范大学与家庭经济状况有关 2.选择检验统计量并计算对计数数据进行差

6、异检验对计数数据进行差异检验, ,可选择可选择2 2检验检验计算理论频数允许有小数,因为计算理论频数允许有小数,因为2 2分布已被作分布已被作为连续型的分布看待。为连续型的分布看待。表10-7 不同家庭经济状况学生报考师范大学的不同态度家庭家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上中下1820182719 710201155=fx159=fx236=fx3总和总和56=fy153=fy241=fy3150=N20.5312.7222.0313.4419.4320.8515.0316.139.84表10-8 学生报考师范大学的态度与家庭

7、经济状况的2检验计算表愿意愿意- -上上1820.53-2.53 6.40090.3118愿意愿意- -中中2022.03-2.03 4.12090.1871愿意愿意- -下下1813.44 4.5620.79361.5471不愿意不愿意- -上上2719.43 7.5757.30492.9493不愿意不愿意- -中中1920.85-1.85 3.42250.1641不愿意不愿意- -下下712.72-5.7232.71842.5722未定未定- -上上1015.03-5.0325.30091.6834未定未定- -中中2016.13 3.8714.97690.9285未定未定- -下下119

8、.84 1.16 1.34560.1367总总 和和15015010.4802ofefeoff 2eoff eeofff2双向表的自由度双向表的自由度: : df=(R=(R -1)(-1)(C-1)-1)查查2 2值表,当值表,当 df =(3-1)(3-1)=4 =(3-1)(3-1)=4 时时49. 9205. 0)4(3 .13201. 0)4(计算结果为:计算结果为: 2=10.48*9.49 2= 10.48 13.3,则 0.05 P 0.01结论:学生是否愿意报考师范大学与家结论:学生是否愿意报考师范大学与家庭经济状况有显著关系。庭经济状况有显著关系。公式中,公式中,foi 表

9、示双向表中每格的实际频数表示双向表中每格的实际频数122yixioifffN(162) =10.48=10.48家庭家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上上中中下下18201827197102011555936总和总和565341150表10-8 不同家庭经济状况学生报考师范大学的不同态度122yixioifffN141361141592041551053367535919535527563618565920565518150222222222双向表的双向表的2 2检验和检验和2 2检验,只检验,只是检验的是检验的,而,而。对于同

10、一组数据所进行的对于同一组数据所进行的2 2检验,有时既可检验,有时既可以理解为独立性以理解为独立性2 2检验,又可以理解为同质性检检验,又可以理解为同质性检验,两者无根本区别。验,两者无根本区别。 1样本对总体的代表性,既涉及到样本对总体的代表性,既涉及到,又涉又涉及到及到。2运用运用及及数据处理的准确性数据处理的准确性3样本对总体的样本对总体的在收集数据的过程中控制选择恰当的方法通过抽样设计控制抽样设计的要求是样本对研究总体有良好的抽样设计的要求是样本对研究总体有良好的,即样本的构成与总体保持一致。为了保证这,即样本的构成与总体保持一致。为了保证这一点,抽样时必须遵循一点,抽样时必须遵循(

11、randomizationrandomization)的)的基本原则。基本原则。 所谓随机化原则,是指在抽样时,样本中的每所谓随机化原则,是指在抽样时,样本中的每一个体都是按照随机的原理被抽取的,总体中每一一个体都是按照随机的原理被抽取的,总体中每一个体被抽到的可能性是相等的。个体被抽到的可能性是相等的。 1 1简单随机抽样(simple random sampling)简单随机抽样就是按照随机原则直接从总体中简单随机抽样就是按照随机原则直接从总体中抽取出若干个单位作为样本。抽取出若干个单位作为样本。简单随机抽样法能保证总体中的每一个对象都有同等简单随机抽样法能保证总体中的每一个对象都有同等的

12、被抽取到的可能性,并且个体之间都相互独立。这是在的被抽取到的可能性,并且个体之间都相互独立。这是在总体异质性不是很大而且所抽取的样本较小时经常采用的总体异质性不是很大而且所抽取的样本较小时经常采用的一种形式。一种形式。 简单随机抽样法的局限是:当样本规模小时,简单随机抽样法的局限是:当样本规模小时,样本的代表性较差。样本的代表性较差。 简单随机取样有两种基本方式:抽签法(drawing lots) 随机数字表法(random number table) 等距抽样等距抽样(interval sampling)也称为机械也称为机械抽样或系统抽样。实施时,先把总体中的所有个抽样或系统抽样。实施时,先

13、把总体中的所有个体按一定顺序编号,然后依固定的间隔取样。体按一定顺序编号,然后依固定的间隔取样。等距抽样可以保证样本的成分与总体一致,等距抽样可以保证样本的成分与总体一致,但随机性不如单纯随机抽样法。应用中可将两但随机性不如单纯随机抽样法。应用中可将两种方法结合使用。种方法结合使用。 分层随机取样简称分层抽样分层随机取样简称分层抽样(stratified sampling 或或 hierarchical sampling),是进行大规模研究时常常使),是进行大规模研究时常常使用的抽样方法。用的抽样方法。先将总体按照一定标准分先将总体按照一定标准分为若干类型(统计上称为层),再根据各层对象为若干

14、类型(统计上称为层),再根据各层对象的数量在总体数量中所占的比例,确定从每一种的数量在总体数量中所占的比例,确定从每一种类型(层)中抽取样本的数量,然后按随机原则类型(层)中抽取样本的数量,然后按随机原则和所确定的各层取样的数量,从各层中取样。和所确定的各层取样的数量,从各层中取样。分类的标准要科分类的标准要科学,要符合实际情况。各层内的差别要小,而层学,要符合实际情况。各层内的差别要小,而层与层之间的差异则越大越好。与层之间的差异则越大越好。 NNnnii公式中,公式中,ni为第为第i i层中被抽取的个体数量层中被抽取的个体数量 n为整个研究样本中个体的总数量为整个研究样本中个体的总数量 N

15、i i为第为第i i层中对象的数量层中对象的数量 N为总体内个体的数量为总体内个体的数量 (221):为了调查某区重点中学为了调查某区重点中学720720名高一学名高一学生的视力,首先按视力的情况将他们分成生的视力,首先按视力的情况将他们分成(108(108人人) )、(360360人)、人)、(252252人)三种水人)三种水平。若用分层抽样法抽取平。若用分层抽样法抽取120120人进行调查,问各人进行调查,问各层应抽多少人?层应抽多少人?计算Nnn好好60720360120NNnn中中42720252120NNnn差差最佳配置法不仅考虑各层的人数比例,而且考最佳配

16、置法不仅考虑各层的人数比例,而且考虑到了各层的标准差。当各层内的标准差已知,应虑到了各层的标准差。当各层内的标准差已知,应该在标准差大的层内多分配而在标准差小的层内少该在标准差大的层内多分配而在标准差小的层内少分配抽样数量。分配抽样数量。最佳配置法可以使得到的样本具有较好的最佳配置法可以使得到的样本具有较好的。 公式中,公式中,ni i表示从某一层所抽个体数表示从某一层所抽个体数 n表示样本容量表示样本容量 Ni i表示某层个体总数表示某层个体总数 i i表示某层标准差表示某层标准差 iiiiiNNnn(222)当各个当各个没有现成资料可以应用时,可以没有现成资料可以应用时,可以先从该层抽一个

17、小样本,由这一小样本计算先从该层抽一个小样本,由这一小样本计算出的样本标准差出的样本标准差S对对进行估计。进行估计。iiiiiSNSNnn(223)分层随机取样法的分层随机取样法的是代表性和推论是代表性和推论的精确性较好。它适用于总体单位数量较多,的精确性较好。它适用于总体单位数量较多,并且内部差异较大的研究对象。并且内部差异较大的研究对象。分层随机取样法的分层随机取样法的性是要求对总体各性是要求对总体各单位的情况有较多的了解,否则就难以作出科单位的情况有较多的了解,否则就难以作出科学的分类。学的分类。 当总体容量很大时,直接以总体中的所有个当总体容量很大时,直接以总体中的所有个体为对象,从中

18、进行抽样,在实际调查或研究中体为对象,从中进行抽样,在实际调查或研究中存在很大困难。存在很大困难。采用分阶段的抽样方法,可以缩小实际采用分阶段的抽样方法,可以缩小实际抽样的范围,使实际抽样工作能够按研究设抽样的范围,使实际抽样工作能够按研究设计的要求顺利进行。计的要求顺利进行。两阶段随机抽样(两阶段随机抽样(two-stages random two-stages random samplingsampling)的一般过程是:先将总体分成)的一般过程是:先将总体分成个部个部分;分;从这从这个部分中随机抽取个部分中随机抽取m个部分个部分作为第一阶段样本作为第一阶段样本;是分别从这是分别从这m个部

19、分中抽取一定数个部分中抽取一定数量(量(ni i)的个体构成第二阶段样本。)的个体构成第二阶段样本。整群随机抽样是先将总整群随机抽样是先将总体各单位按一定的标准分成体各单位按一定的标准分成许多群(小组),然后按随许多群(小组),然后按随机原则从这些群中抽取若干机原则从这些群中抽取若干群作为样本。群作为样本。整群随机取样法的整群随机取样法的是样本比较集中,适是样本比较集中,适宜于某些特定的研究,尤其是在教育实验中常用宜于某些特定的研究,尤其是在教育实验中常用此法。此外,在规模较大的调查研究中,整群随此法。此外,在规模较大的调查研究中,整群随机取样易于组织,可节省人力、物力和时间。机取样易于组织,

20、可节省人力、物力和时间。整群随机抽样法的整群随机抽样法的是样本分布不均匀,是样本分布不均匀,代表性较差。代表性较差。 在应用中应根据研究所要求的精确度及经费在应用中应根据研究所要求的精确度及经费情况确定样本容量。如果样本容量过小,会影响情况确定样本容量。如果样本容量过小,会影响样本对总体的代表性,增大抽样误差而降低研究样本对总体的代表性,增大抽样误差而降低研究推论的精确性;样本容量过大,虽然减小了抽样推论的精确性;样本容量过大,虽然减小了抽样误差,但可能增大过失误差,并且增加不必要的误差,但可能增大过失误差,并且增加不必要的人力物力资源的浪费。人力物力资源的浪费。样本容量与抽样误差并不是直样本

21、容量与抽样误差并不是直线关系。线关系。确定容量的基本原则是:在尽确定容量的基本原则是:在尽量节省人力、经费和时间的条件下,量节省人力、经费和时间的条件下,确保用样本推断总体达到预定的可确保用样本推断总体达到预定的可行度及准确性。行度及准确性。nXZ222dZn其中,最大允许误差为其中,最大允许误差为 ,可信度为,可信度为1。 Xd由由有有(224)可以看到,当可以看到,当确定之后,总体标准差和最确定之后,总体标准差和最大允许误差大允许误差d d是决定样本容量的两个因素。是决定样本容量的两个因素。由nSXt222dStn有当样本容量当样本容量n n 未确定时,未确定时,t t 值无法确定,值无法

22、确定,因此一般采用尝试法。因此一般采用尝试法。 (225). .将将df的的 t 值代入公式求出值代入公式求出n1 1,. .将将n1 1 的的 t 值代入公式求出值代入公式求出n2 2, . .直至前后两次求出的直至前后两次求出的n 相同为止。相同为止。 也可据也可据S/dS/d查附表查附表2020求出样本容量求出样本容量 拟估计某市高校四级英语考试成绩的拟估计某市高校四级英语考试成绩的总体平均分数。以往考试成绩的标准差为总体平均分数。以往考试成绩的标准差为13,这,这次的估计最大允许误差为次的估计最大允许误差为2分,可信度为分,可信度为95%,问应抽取多大的样本?问应抽取多大的样本?221

23、396. 11633 .16222dZn拟对某市初中升入高中入学考试语文成拟对某市初中升入高中入学考试语文成绩的总体平均数进行估计。根据以同等难度的试题绩的总体平均数进行估计。根据以同等难度的试题对同等教育水平的另一城市部分初中升入高中入学对同等教育水平的另一城市部分初中升入高中入学考试语文成绩算出的考试语文成绩算出的S= =11.4。若要求估计的最大。若要求估计的最大允许误差为允许误差为d=d=3,可信度为,可信度为99%,问样本容量应为,问样本容量应为多少?多少?1.由由t分布表查得分布表查得 自由度自由度df=时,时,t1 1= =2.576 968 .9534 .11576. 2222

24、1dStn2.由由t分布表查得分布表查得 自由度自由度df= =96-1-1时,时,t2 2= =2.629 1008 .9934 .11629. 22222dStn3.由由t分布表查得分布表查得 自由度自由度df=100-1=100-1时,时,t3 3= =2.627 1007 .9934 .11627. 22221dStn前后两次算出的样本容量相等,因此前后两次算出的样本容量相等,因此 n= =100当估计出的样本容量比较大时,可以直接按公式当估计出的样本容量比较大时,可以直接按公式(22.4)计算而不必采用尝试法。)计算而不必采用尝试法。 在假设检验中,要同时考虑在假设检验中,要同时考虑

25、错误和错误和错误,因此错误,因此 nXZ02nXZ将以上两式相加为:将以上两式相加为: ZZn20ZZn2单侧检验:2ZZn双侧检验:22ZZn(226)(227)式中的式中的和和由研究者预先确定,由研究者预先确定,值要比值要比值小。一般值小。一般为为0.05或或0.01,而,而值一般确定值一般确定为为0.10、0.20或或0.30。对同一个。对同一个值,单侧和双值,单侧和双侧时的侧时的Z Z临界值是不一样的。临界值是不一样的。 当样本容量已知,当样本容量已知, 值及其他条件也已确值及其他条件也已确定,则定,则就是确定值。这时可以利用有关公式计算就是确定值。这时可以利用有关公式计算值,从而对检

26、验的统计力作出评价。值,从而对检验的统计力作出评价。可以看到,在平均数的假设检验中,当确可以看到,在平均数的假设检验中,当确定了定了和和之后,样本的容量之后,样本的容量n取决于总体标准差取决于总体标准差和假设的总体差异和假设的总体差异。与参数估计相比,多。与参数估计相比,多考虑了一个考虑了一个因子,并且因子,并且与参数估计中的具与参数估计中的具有不同的涵义。有不同的涵义。 某市高中入学考试数学平均分数历年来某市高中入学考试数学平均分数历年来的标准差为的标准差为8.6分。某校欲估计今年该校学生入学分。某校欲估计今年该校学生入学考试数学成绩是否与全市一致,希望可信度达到考试数学成绩是否与全市一致,希望可信度达到95%,估计误差不超过,估计误差不超过2分,而分,而为为0.100.10,问需,问需抽取多大的样本?抽取多大的样本?22ZZn108095.10736 .

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论