卡方检验法在检验学生成绩中的应用_第1页
卡方检验法在检验学生成绩中的应用_第2页
卡方检验法在检验学生成绩中的应用_第3页
卡方检验法在检验学生成绩中的应用_第4页
卡方检验法在检验学生成绩中的应用_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、. 检验法在检验学生成绩中的应用摘 要在对学生成绩分析时,采用数理统计中的检验法可以方便有效地得出相关数据。以某初中全体学生的数学成绩为总体,采用卡方拟合检验法来检验初三学生的数学成绩近似的服从正态分布,以及检验其相应的方差是否正确,完成对考试成绩客观准确的分析,充分了解学生的学习情况。利用卡方分布检验中重要应用列联表独立检验对学生数学成绩与学校对其所培养的重视程度的关系进行研究,这可以帮助我们去发现教育教学中所要发生的问题,为教育质量的认定与评价提供有效的保障。关键词: 检验法;假设检验;卡方分布精品.the application of -test in test scores of st

2、udentsabstractin the analysis of student achievement, using the test statistics can be conveniently and effectively get the relevant data. a junior high school student with math scores for overall, using the chi-squared fit to test the students mathematical results approximately obey the normal dist

3、ribution, and test the corresponding variance is correct, complete analysis of test scores of objective and accurate, the full understanding of students learning. using the card application distribution test of contingency table test for students to study mathematics achievement and school emphasis

4、on its culture, which can help us to discover what happens in education and teaching, to provide an effective guarantee for the monitoring and evaluation of the quality of education.keywords: -test, hypothesis testing, distribution精品.目 录中文摘要 i英文摘要ii引 言11. 常用统计量 21.1 中值21.2 平均值21.3 标准差 21.4 区域 21.5 模

5、式 22.假设检验的基本概念 42.1 问题的提法 42.2 假设检验的基本思想 42.3 假设检验的定义与步骤53.检验法在检验学生成绩中的应用 73.1 参数检验73.2 非参数检验 103.3 列联表独立性检验 164 结语 19精品.参考文献 20精品.引 言在现实生活中,我们经常遇到一些现象可以利用数学知识进行解释与解决的。面对一堆数据我们可以应用数理统计的知识去进行分析,然后找到它们的规律,这对我们生活工作有着理论指导作用。现实中有很多数据可以建立数据模型进行分析利用,如学生成绩、股票收益、人的身高体重等等。在教学过程中考试是必不可少,它能够检验与反映学生所掌握的知识水平,也是检验

6、教师所实施的教学方式所达到的效果的一种重要方法。通过考试,我们可以将学生的成绩看成数据资源,然后运用所学数理统计中知识,进行利用分析这些数据。在分析这些数据之前我们是不知道它们的总体是如何分布的,所以我们就需要利用样本对总体进行假设检验,而这种假设检验称为非参数检验1。非参数检验方法有很多,如拟合检验法、t检验、柯尔莫哥洛夫检验、符号检验、秩检验等。这里采用检验法来检验初三学生的数学成绩近似的服从正态分布。通过理统计分析之后,我们能够对教育教学中效果得到一定了解,这对今后教育教学工作有一定的借鉴作用。精品.1. 常用统计量为了方便对数据分析的说明以及建立模型的需要,我们将成绩视为总体随机变量,

7、记作,而学生成绩里的数据就可视为总体的一组样本,那么利用统计学中经常用的统计量对样本作出数据分析,就能够得出一些相关的教育教学的结论2。在平时教育教学工作中,我们经常运用以下几个统计量进行数据分析:1.1 中值中值是表示对总学生成绩按照高低进行排序之后,处于在总成绩中间位置的分数。它是用来反映全体学生考试成绩的具有代表性的数值,在一定程度上可以反映学生成绩整体水平,且不受到学生成绩两极分化的影响。它的主要不足之处是不具有很强的可靠性,不能客观的说明学生成绩的水平。1.2 平均值平均值用来反映学生学习成果的平均水平,运用它的主要的意义在于方便学生知道自己在班级的地位,教师也可以利用在各个班级间作

8、比较。它的不足之处是易受到个别数据的影响,使其不具有客观的代表性,从而无法客观的反映学生的成绩情况。1.3 标准差标准差是在数理统计中经常使用并作为统计分布程度上的测量。标准差定义是总体各单位标志值与其平均数离差平方的算术平均数的平方根,它反映组内个体间的离散程度3。而标准差运用在教育教学中就是用来反映了学生成绩的分布相对于总体的均值的离散程度。如果标准差越大,则说明学生成绩的高低相差越大,由此可看出学生间学习成绩相距较大。1.4 区域区域是指一段数据的分布范围,而运用到学生成绩中是指学生成绩的最高分与最低分之差,它是用来反映总体学生的学习成绩上的所分布的范围,运用它可以让我们对学生成绩的有一

9、个大体的了解。1.5 模式精品.模式运用到学生成绩中去,主要是指总体成绩中出现次数最多的一个分数,它是用来反映学生成绩主要分布在什么地方。利用它我们能够大体知道学生水平在什么位置,它的不足之处在于不具有客观的可靠性。精品.2.假设检验的基本概念2.1 问题的提法在数学学习中,我们常常遇到“假设正确”、“假设函数单调递增”之类的语句。而在数理统计假设中的“假设”与这些的意义是不同的。它不是一个正确的命题出现的,而是作为一个陈述,其是否正确,我们是否愿意认可它,这些都是需要依据样本分析才能做出最后的决定。而这做出决定的过程,我们称作对该假设进行检验4。在统计学中,我们把需要根据样本去推断命题是否正

10、确的称为一个假设,通过样本对一个假设做出“是”或“不是”的一个判断的过程,称这为检验这个假设,具体的判断规则称为该假设的一个检验,检验的结果若是肯定该命题,则称为接受该假设,反之则是否定或拒绝该假设5。利用统计假设检验处理实际问题时,我们一般可以分为四条:(1)明确所需处理的问题,其答案只能是“不是”或“是”。(2)取得样本并知道样本的分布。(3)把回答是“是”的转化到样本分布上所得命题称为假设。(4)根据样本数据,进行分析计算,得到“拒绝”、“接受”的假设的决定。2.2 假设检验的基本思想为了方便理解假设检验的基本思想,我们先说明相应的问题。例 假设小明说他的袋子里装了10个大小相同的球,其

11、中5个白球,5个黑球。现在我们进行有放回的摸球试验,每次摸一个球后记录颜色,试验结果是全部是黑色的球,那么我们对小明的说法两种看法:一种是他的说的是对的,我们的试验只是运气好而已;另一种看法是认为他是说谎,我们运气哪有这么好,而这只是我们自己的想法,这还需要一个科学客观的分析论证。现在我们对上面问题进行分析论证:现在我们假设“一半为黑球”是真命题,那么在有放回的试验中,我们可以知道其概率分布为 得出这次试验中黑球总数为根据以前所学知识我们随机变量精品. (2.2.1)显然这是一个小概率的事件,也就是说100人中大约只有3个人才会出现这样的结果。然而我们就是三人中的一个人,而现实生活经验告诉我们

12、这个可能性太低。当然我们也不能否认这种事件可能出现的,所以我们得出一个比较科学结论:冒着的错误来不赞成他的说法。以上的分析论证就是数理统计学中假设检验的基本思想,它有点像中学数学证明中的反证法,首先需要假设一个命题为真的,然后根据这命题和已知的条件进行推理,最后得到一个矛盾的结果,这就可以说该命题不成立,从而确定反命题成立。而在统计学中这种“矛盾”跟我们以前学习的“矛盾”不同,这里我们指小概率事件,还有一点需要说明的是在以前数学证明中一旦命题不成立时,我们就认为其反命题成立,而我们在数理统计中否定一个假设是指“冒多大”的风险6。2.3 假设检验的定义与步骤1.零假设与对立假设在检验假设中,常把

13、一个被检验的假设称作为零假设(原假设),记为,未知的总体参数等于某个特殊的常数值,记作,而与零假设的对立面叫作对立假设(备择假设)7。2.检验统计量在检验一个假设时所要使用的统计量称为检验统计量,使原假设得到接受的那些样本所在的区域,称为该假设检验的接受域,而使原假设被否定的那些样本所成德区域,则称为该检验的否定域8。3.假设检验的步骤(1)根据相关的问题做出相应的零假设,同时也给出它的对立假设;(2)在的前提下,选择相应的统计量,而统计量需要包含检验的参数,并且总体分布已知;(3)根据相应问题定出显著性水平,然后根据对立假设和总体统计量的分布,计算出其小概率事件及其概率表达式。精品.(4)按

14、照样本值计算出需要的数值;(5)判断小概率事件是否发生,需要综合(3)(4)就可以看出。根据实际推动原理:若小概率事件在一次实验中发生就认为原假设不合理,于是就拒绝。若小概率事件不发生,就认为原假设合理,即接受9.精品.3.检验法在检验学生成绩中的应用3.1 参数检验我们这里仅介绍母体的分布为正态时的检验方法,正态分布含有两个参数和,因此,这里的假设都是对这两个参数的假设,现在我们讨论有关方差假设的显著性检验问题10。设是取自正态分布的母体的子样。现在需要检验假设.下面分别对已知和未知两种情况说明与论证。1. 是已知的常量。由于样本的方差是母体方差的无偏估计,那么统计量为当是真命题时,那么统计

15、量应该在1的附近随机的分布,那么当假设成立时,统计量 (3.1.1)服从自由度为的分布11。而现在对于给定的显著性水平,那么怎么去确定临界域?因为统计量的值是在一个闭区间内,设存在与,使得上述可知,临界域的结构形式是。定出和的方法有很多。这是由于我们把分成任意两个,;分别由确定和。通常和的选取,都是有犯第二类错误的发生概率来确定的。这就需要选定和使得出现第二类错误的可能性尽量小。可是在实际中计算最优的和很麻烦。通常就选取。那么这时和分别是自由度为精品.的分布的和分位点,即,这样我们就得到临界域当样本观测值时,就拒绝零假设,不然就接受零假设。或者通过样本观测值算出的统计量的值,若它小于或大于时,

16、就拒绝原假设,否则就接受原假设12。2. 为未知常数。这时(3.1.1)式所表示的已经不是一个统计量。因为它含有的未知数。运用前面的方法,利用样本的均值来替代未知的总体均值。零假设成立时,根据定理可以知道统计量 (3.1.2)服从自由度为的分布。确定相应的后,可以跟前面一样,通过确定出两个临界值。不过此时的和都是通过查自由度为的分布表得出的。上这种通过统计量(3.1.1)和(3.1.2)给出的检验法则称作检验。例 某班级学生进入高中前的中考成绩服从正态分布。现在随机从中抽取10个学生的参加中考的成绩,具体抽样分数如下:568,570,578,570,572,572,570,596,572,58

17、4在检测水平为情况下,我们能不能相信该班学生成绩方差为64呢?解:根据题目的意思,可以知道是要进行检验假设 由于未知,所以检验统计量是而,然后计算得。由此可知精品.因为,根据检验法,应该接受,即认为这个班级的学生成绩的方差为64。精品.3.2 非参数检验在前面一节中,介绍了总体分布形式是在已知的条件下来进行假设检验相应问题,但是在很多地方,我们常常事先并不知道总体的分布类型,而这时我们就需要根据样本的分布对总体的分布类型提出相应假设并进行相应检验,而这种检验得方法一般被称为分布拟合检验或非参数检验。例如,我们需要考察一个产品的可靠性从而打算运用指数分布的模型,在此之前可能有些理论或检验上的依据

18、,但是这可不可行呢?通常我们就需要根据样本对总体进行检验。那么现在我们说明其中一种分布拟合检验的方法非参数检验。现设离散型总体只能选取个数值,现在需要进行检验 (3.2.1)其中,=1且已知。可令事件,则式(1)可以写成 (3.2.2)设为取自总体的样本,记为样本中取值为的个数且为生的频率。由于频率的稳定性,故当较大时,两者应比较接近,所以在成立时,应与非常接近。由此可知,与的差异的大小就可以反映的真伪。皮尔逊提出用= (3.2.3)作为检验的统计量,利用可以均衡两者的差异的程度,当不真时,的值应较大,这时拒绝域可取为其中,为某正数,为了得到水平为的检验,还需要检验统计量在下的分布。下面我们介

19、绍下皮尔逊定理中指出了的渐近分布。(皮尔逊定理)若总体的真实分布已知。那么可以令 则(3.2.3)式所定义的统计量近似地服从自由度为的分布13。有时把(3.2.3)式中的和和分别称为(或第组的,因的具体值不起作用,它只是起一个标识的作用)经验频数和理论频数。精品.而有上述定理可知,假设检验(3.2.2)的一个水平为的拒绝域为注意到事件群满足:(1) 互不相容,即;(2) 。则称做为有限完备事件群,所以上述检验也可以叫作为有限完备事件群的检验。由于定理的结论为近似结果,应用时一般要求,且每个,否则相邻组要进行合并。而皮尔逊拟合检验法大体是根据检验各个小组服从的实测频数与理论频数之间的相距多少来判

20、断经验分布是否服从任何一个预先给定的分布。它就是通过用各个小组的实测数据与理论频数之间的差异构成了一个符合分布的统计量,并且利用这个统计量来进行相应的假设检验使用这种方法时要求选取的样本容量比较大,并在进行分组中,每组的理论频数至少不小于5。设总体分布为,选取总体中的样本为,那么现在我们就利用这组样本的数据来进行检验假设: ,其中是一个给定的分布函数14。具体的操作方法可以分为以下几条: (1) 数据分组:把样本值出现的范围划为组 , ,其中。(2) 先求出各个小组的频数,然后求出各个小组的频率为 (其中表示内的频数)。(3) 需要求理论频率为:当为真命题时,样本x出现在区间中的频率为:。精品

21、.(4) 计算出统计量: =.根据上述可以证明:无论是什么样的分布,当为真命题时,只要充分大那么统计量就近似的服从自由度为的分布对于给定的显著检验水平,可查得分布的分位数。(5) 具体进行相应计算:根据样本的数据进行分析计算出统计量的具体值(6) 作出相应的判断:当时,则拒绝假设命题;不然就接受假设不过需要注意的地方是,在进行计算时, 的分布必须全部知道。如果中还有个参数不能完全确定,那么可以利用这些参数的极大似然估计量来替代它,以此来使得分布函数能够完全确定下来,然后再根据上述方法进行检验,不过这时的自由度为15。例1 本文选定某个中学初三学生的数学成绩为进行研究,运用抽样调查法从该学校的学

22、生中随机地抽取200名学生作为样本,对这200名学生的数学成绩进行调查收取,通过对数据进行分析计算,观察其是否服从某种分布,从而来预测整个初三学生的数学成绩。调查数据表如下:图表3.2.4805661596563289056735768698865555833735087678657687258674563316543635869378578287549645272476986452351356354456930636148786453522596774776835737665573565475496558506659407898635365965870487562936536精品.61855

23、8296456643564676556687957545136927158453353524555 524153576748644364 5752425847583562574352375346646364626853574362374353645436634464466664536852624673576553766845637342634565746575638575647683857253那么我们现在对学生数学成绩进行假设检验:根据图表3.2.4中所列的数据为初三学生数学成绩的容量为的样本调查值,记为初三学生的数学成绩,那么我们现在对这些数据进行分析整理:(1)首先需要找出这些数据的最大

24、值与最小值,以此来确定成绩的分布区域:根据图表3.2.4我们得出: =23; =96,从而定出区间 ,区间的长度为: (2)然后确定需要分组的分组数,我们把区间分成个小的区间,使得每个小的区间上有不少于5个样本值,为了方便进行计算,可以选取=8(3)确定组距: ,则,则把分成8个小区间,即, ,。(4)根据上述数据做出相应的直方图,然后再根据图像来进行假设概率分布,从而进行验证将x的取值离散化,这里将的取值分成8组,如图表3.2.5所示。图表3.2.5组限频数6142951组限精品.频数6024115精品.图表3.2.6 (5)进行估计分布:我们通过观察样本的直方图可以得到,学生成绩的直方图基

25、本上是单峰对称的,根据外轮廓线可以估计总体可能服从正态分布(6)进行假设检验:假设初三学生的数学成绩的分布近似的服从正态分布,即首先,我们需要给出确定的显著水平,然后假设,其中为初三学生数学成绩的分布函数。现在我们对上述结论进行检验:在给出的显著水平下的情况下进行检验假设。因为中含有未知的参数,所以需要先进行参数的估计。然而我们可以知道和 的极大似然估计值分别为样本的均值与样本的方差 那么现在需要计算和。= =59.48, = 216.56,则= 14.72所以原假设可写成现在算每一个区间的理论概率值,随后计算出相应的理论频数与统计量的数值= -;-;通过进行计算我们得到的结果如图表3.2.7

26、中所列精品.图表3.2.7编号 160.0193.82.21.2736842140.07114.2-0.20.0028173290.16733.4-4.40.5796414510.25150.20.80.0127495600.24949.810.22.0891576240.15731.4-7.41.7439497110.06312.6-1.60.203175850.0163.21.81.01256.917671根据上面的表中计算得出的观测值为6.917671.然而在显著水平情况下,通过查阅的分布表,我们很容易得到相应的临界值: 因为,则不能拒绝原假设所以可以认为随机抽取的200名初三学生的数学

27、成绩的总体服从正态分布.因此可以推测整个初三全体学生的数学成绩服从正态分布。精品.3.3 列联表独立性检验检验的一个重要应用是列联表独立性检验,列联表是描述两个分类变量的频数分布表16。设每一个体可能具有或不具有属性或,而希望考察这两个属性是否关联。属性分成个等级,分成个等级。比如要考察学生的数学成绩与其所在的班级的受教育的培养程度是否有关联,可以把人按其数学成绩分成若干个等级,按其所在的班分成若干的等级。设在所考察的总体中随机抽出若干个体,比方说从特定的一群人中抽出若干人。在此假定总体所含个体数比于所抽出的人数是很大的,或者,在相反的情况,则设想抽样是有放回的试验。那么这样能假定所抽个体的类

28、别是独立同分布的。考虑二元总体可以有限离散化,不妨假定x与y的取值范围可以分成r和s个互不相交的子区间和记17 显然, 现在我们考虑到下面非参数假设检验的相关问题与y独立显然它可以转化为 可以设是总体的容量为的样本,记为样本中各个分量落入矩形区域的频数,且记, 显然 精品.表3.3.11212根据上述的方法,我们可以对其进行列联表的独立性检验操作。首先,我们可以进行论证,其中参数和的最大似然估计值为 其次,因为所以个参数和中仅有个独立参数。所以相应的统计量其中, ,渐近服从分布。拒绝域相应为上述检验通常称为联立表的独立性检验,它在实际应用中非常广泛。例2 某研究机构欲对学生数学成绩与所在班级关

29、系进行研究。为此将学生数学成绩分成了三个水平阶段:优秀、良好与合格,并且相应的将所在班级依学校培养重视程度分成了三个层次:普通班、重点班和实验班。现在有一个有500人 的样本资料,见表3.3.2,请在的情况下检验学生数学成绩与其所在的班级是否有关系。精品.表3.3.2 调查资料表数学成绩所在班级合计普通班重点班实验班优秀25211056良好828830200合格223165244合计33012545500解:本例要检验学生数学成绩与所在班级的关系,也即检验独立性问题,根据题意建立假设 本例中行与列相等,所涉及的一个的列联表,所以需要计算9个期望频数值。表3.3.3 经计算的调查资料数学成绩所在班级合计普通班重点班实验班优秀25(36.96)21(14)10(5.04)56良好 200合格223(161.04)16(61)5(21.96)244合计33012545500其中括号中的数字为的值计算统计量在给定的情况下,通过查阅的分布表,我们可以得到。由于,而其落在的是拒绝域上,故我们拒绝,从而接受,即认为学生数学成绩与其所在班级有关联。精品.4 结语对学生成绩及其相关内容进行分析时, 首先要分析的是这批学生成绩是否服从正态分布, 而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论