心理与教育统计学课件_第1页
心理与教育统计学课件_第2页
心理与教育统计学课件_第3页
心理与教育统计学课件_第4页
心理与教育统计学课件_第5页
已阅读5页,还剩724页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一讲心理与教育统计学绪论一、心理与教育统计学

及其研究对象1、统计学最初指的是对一个国家情况的描述。现代意义上的统计指的是对与随机现象有关的数据资料进行收集、整理、计算和分析的过程。统计学大致分为理论统计学和应用统计学两部分。理论统计学研究如何从局部的样本观测数据资料来推断总体的特征,并得出合乎规律的科学结论的原理和方法。应用统计学研究如何运用经理论统计学证明的各种原理和方法解决实际问题。2、心理与教育统计学心理与教育统计学属于应用统计学。心理与教育统计学就是用统计学的原理和方法来研究心理与教育现象,对有关的数字资料进行收集、整理、计算、分析的一门基础学科。心理与教育研究的发展不断充实着统计学的方法。3、心理与教育研究数据的特点心理与教育科学研究数据与结果多用数字形式呈现。心理与教育科学研究数据具有随机性和变异性。心理与教育科学研究数据具有规律性。心理与教育科学研究的目标是通过部分数据来推测总体特征。心理与教育统计使我们能以最少的样本含量,达到我们所需要的精确度,对总体的有关参数等作出判断,同时又给出发生错误的可能性。它保证了科学研究的精确性、可靠性和经济性。

二、心理与教育统计学的历史发展最初的统计是统治者用以治国的方法,对于人口、土地、物产、贡赋、士兵与战车等都需要统计。这类统计是记录或描述已经发生的各种现象,可以称为描述性统计。随着科学进步,近百年来,在概率论基础上逐步形成了推测性的数理统计。19世纪中期奠定了概率论的理论基础。1、理论统计学的发展历史统计学的理论基础是概率论与正态分布曲线方程的产生。一般认为理论统计学的发展经历了两个阶段:描述统计阶段和推论统计阶段。描述统计阶段描述统计学产生于20世纪年代之前,在描述统计方面做出重要贡献的是英国的优生学家高尔顿(F.Galton)和统计学家皮尔逊(K.pearson)。推论统计阶段

推论统计的先驱是英国统计学家格赛特(W.Gosset

),对推断统计做出重要贡献的是英国统计学家费舍尔(R.A.Fisher)。二次世界大战以后,各种非参数统计方法、小样本理论都得到发展和完善,同时多元统计的理论和方法也得到了广泛的应用,统计学形成了许多分支应用学科。2.心理与教育统计的产生和发展心理与教育统计作为数理统计的一门应用学科,是随着数理统计的发展而发展的。最初应用统计方法于教育与心理方面研究的是高尔顿。对教育统计做出重要贡献的是心理学家斯皮尔曼(Ch.E.Spearman)。

随着科学研究中心的转移,心理与教育统计的研究也移向美国。为心理与教育统计学做出较大贡献的是美国教育与心理学家桑代克(Thorndikt)、瑟斯顿(Thurstone)和卡特尔(Cattell)。3.我国心理与教育统计学的发展概况

心理与教育统计学在辛亥革命以后传到我国。当时心理与教育统计、心理与教育测量都作为高等、中等师范院校的必修课程,有一大批专家、学者从事这方面的研究、讲授工作,出版了不少关于教育统计方面的译著、专著。20世纪年代以后,心理与教育统计学开始复苏。在二十多年中,我国的心理与教育统计学科在教学、研究、培养人才等各方面取得了非常丰硕的成果。目前,心理与教育统计学的教学和研究进入稳步快速发展时期。三.学习心理与教育统计学的意义数学化是自然科学成熟的标志。心理与教育科学也必然会向数学化的方向发展,而心理与教育统计就是用数学方法研究心理与教育现象的重要工具。学习心理与教育专业的诸课程需要统计学知识。从事心理与教育工作的实践需要统计学知识。进行心理教育科学研究需要统计学知识。科学的思维需要统计学知识。

四、学习心理与教育统计

应注意的事项学习心理与教育统计学要克服畏难情绪,注重掌握各种方法的使用条件,多做练习。应用心理与教育统计方法时要克服“统计无用”和“统计万能”的思想,遵守科研道德。正确选择和使用统计方法,防止误用和乱用。五、心理与教育统计学的研究内容描述统计推论统计实验设计心理与教育统计学1、描述统计对已获得的数据进行整理、概括,显现其分布特征的统计方法,称为描述统计。描述统计的目的是将大量零散的、杂乱无序的数字资料进行整理、归纳、简缩、概括,使事物的全貌及其分布特征清晰、明确地显现出来。2、推论统计根据样本所提供的信息,运用概率的理论进行分析、论证,在一定可靠程度上,对总体分布特征进行估计、推测,这种统计方法称为推论统计。推论统计的内容包括总体参数估计和假设检验两部分。推论统计的目的在于根据已知的情况,在一定概率的意义上估计、推测未知的情况。3、实验设计实验者为了揭示实验中自变量与因变量之间的关系,在实验之前所制订的实验计划,称为实验设计。包括选择怎样的抽样方式;如何计算样本容量;确定怎样的实验对照形式;如何实现实验组和对照组的等组化;如何安排实验因素和如何控制无关因素;用什么统计方法处理及分析实验结果,等等。六、心理与教育统计学基础知识1、数据类型分类数据等级数据等距数据比率数据计数数据离散型数据测量数据连续型数据2、变量、随机变量、观测值变量是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。用来表示随机现象的变量,称为随机变量。一般用大写的X或Y表示随机变量。随机变量所取得的值,称为观测值。一个随机变量可以有许多个观测值。3、总体、个体和样本需要研究的同质对象的全体,称为总体。

每一个具体研究对象,称为一个个体。从总体中抽出的用以推测总体的部分对象的集合称为样本。样本中包含的个体数,称为样本的容量n。一般把容量n≥30的样本称为大样本;而n

<30的样本称为小样本。4、统计量和参数统计指标统计量参数平均数μ标准差Sσ相关系数rρ回归系数bβ5、统计误差误差是测得值与真值之间的差值。测得值=真值+误差统计误差归纳起来可分为两类:测量误差与抽样误差。由于使用的仪器、测量方法、读数方法等问题造成的测得值与真值之间的误差,称为测量误差。由于随机抽样造成的样本统计量与总体参数间的差别,称为抽样误差。心理与教育的研究不可能避免误差,只可能减少误差。抽样设计的目的,就是保证研究达到所需要的精确度,同时在兼顾投入的人力、物力和财力条件下尽量减小抽样误差。本学期学习要求形式:分组学习(全班分为十个专家组)专家组的任务:运用专题统计方法处理自己收集的数据;组织同学之间的学习交流;解答和反馈同学的问题;建立本专题的资料站;对全班同学本专题的学习情况作出评估。成绩考核:平时成绩30+期中考试30+期末考试40其中平时成绩为:出勤10分+小组活动贡献10分+期末作业10分上课纪律要求:不迟到;不在上课时吃东西第二讲数据整理与图表呈现一、数据的整理1、数据的整理心理和教育研究中收集的各种原始资料杂乱无章,只有经过整理分析才能从中提取出有用的信息。在对资料进一步分析之前,需要进行认真的整理。1.审核资料审核资料的目的,是为了剔除不合格的资料,以确保资料的可靠性和可信性。审核是对原始资料进行初步的审查和核实。不符合要求的数据主要有三种:缺失、可疑、失误。缺失:指数据不全或缺项未填;例如一份资料中未回答的问题占10%以上,或者缺少关键性资料。

可疑:指难以辨认或怀疑其真实性的数据;例如,有的被试填答的问卷全部选同一个选项(如全选A或全选B);有的被试填答的结果可以看到是一种规则的排列方式(如ABCDEDBCABCDE……)。失误:指存在明确差错的数据或答案。在剔除不合格问卷的过程中,注意不能把一些不符合自己主观假设的数据随意去掉。因此这项工作一定要非常慎重。对于个别极端数据是否该剔除,应遵循三个标准差法则。

2.数据的分组分组要以被研究对象的本质特性为基础分类标志要明确,要能包括所有的数据数据分组的标志性质类别:按事物的不同性质进行分类。数量类别:按数值大小进行分类,并排序。

数据类型分类数据等级数据等距数据比率数据计数数据离散型数据测量数据连续型数据变量、随机变量、观测值变量是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。用来表示随机现象的变量,称为随机变量。一般用大写的X或Y表示随机变量。随机变量所取得的值,称为观测值。一个随机变量可以有许多个观测值。总体、个体和样本需要研究的同质对象的全体,称为总体。

每一个具体研究对象,称为一个个体。从总体中抽出的用以推测总体的部分对象的集合称为样本。样本中包含的个体数,称为样本的容量n。一般把容量n≥30的样本称为大样本;而n

<30的样本称为小样本。统计量和参数统计指标统计量参数平均数μ标准差Sσ相关系数rρ回归系数bβ二、统计表统计表是用来表达研究变量与被说明的事物之间数量关系的表格。它可以将大量数据的分类结果清晰、概括、一目了然地表达出来,便于分析、比较和计算。

1、统计表的构成

横标目的总标目纵标目横标目数字表2-1统计表的格式顶线底线表线表号标题标目标目表注注:例:表2-2北京市四街道智力落后患者分布街道检查人数病人数患病率(‰)甲518411593.1乙760302633.5丙495081903.8丁517881703.3总计2291687823.4资料来源:见《心理学报》1979年第1期103页,选部分引用2.统计表的种类简单表:只按研究现象(或变量)的名称、地点、时序等列出数据的统计表。分组表:只按一个标志分组的统计表称为分组表。复合表:按两个或两个以上标志分组的统计表称为复合表。

简单表表2-3各校学生数一览表学校A校B校C校D校人数9857628931051分组表表2-4上海市区男幼儿20米跑步用时年龄组3岁~4岁~5岁~6岁~平均用时(秒)7.717.166.045.53资料来源:引自《华东师范大学学报》,1985年第2期第30页复合表表2-5某年级操行评定结果班别甲乙丙丁合计男女男女男女男女一班6588642140二班55910331137三班7698430138合计18162626131033115例:表2-6中学生心理烦恼调查被试分布三、统计图统计图是整理和呈现数据的另一种方法,它把研究变量与被说明事物之间的数量关系用图形表现,直观、形象地表达出事物的全貌及其数据的分布特征,使人一目了然,便于理解和记忆,印象深刻。1、统计图的构成统计图一般由图号、标题、标目、图形、图注等几部分构成。统计图中的标目由基线和尺度线构成。对于有纵、横轴的统计图,一般以基线表示被观察的现象,而尺度线则表示其数量。

2、统计图的分类条形图:用直条的长短来表示统计项目数值大小的图形,主要是用来比较性质相似的间断型资料。

圆形图:是用于表示间断型资料比例的图形。圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。

单式条形图图2-1某年级操行评定结果条形图

基线尺度线图形复式条形图图2-2某年级操行评定结果条形图例:图2-3三项影响较大的SARS信息对不同文化程度民众的影响

圆形图图2-4某年级操行评定结果圆形图基线尺度线绘制圆形图的步骤求出各组成部分所占的百分比求出各部分的中心角度以顺时针方向画出扇形标出不同颜色及百分比线形图

线形图用来表示连续型资料。它能表示两个变量之间的函数关系;一种事物随另一种事物变化的情况;某种事物随时间推移的发展趋势等。基于线形图,既可对有关统计变量进行数量比较,又可分析发展的趋势。

例如:对有意义的词汇,小学一年级至初中三年级学生视觉、听觉记忆再现率的情况。

图2-5有意义的材料再现率比较线形图学习专题1.集中量和差异量2.概率及其分布(包括二项分布和正态分布)3.抽样分布及参数估计4.假设检验的基本原理5.平均数的显著性检验6.平均数差异的显著性检验

7.方差分析

8.χ2检验及非参数检验

9.相关分析

10.回归分析

2005年9月再见!第三讲统计图表一、次数分布表次数分布表是对杂乱无序的数据进行整理的重要手段,它能使我们对样本情况有个初步的了解,为今后进一步分析和研究问题提供很大方便。1、简单次数分布表员工对主管尽职情况的评定人数①非常不尽职②不尽职③不置可否④尽职⑤非常尽职93010256总计80表3-180名员工对部门主管尽职程度调查结果2、分组次数分布表成绩组中值频数累积频数95~97.52290~92.52485~87.53780~52.551275~77.582070~72.5113165~67.594060~62.554555~57.544950~52.525145~17.5152合计5252表3-2某班学生数学成绩次数分布表编制分组次数分布表的步骤求全距R=Xmax-Xmin决定组距i和组数k列出分组区间登记次数计算每组数据的次数f抄录新表3.相对次数分布表将次数分布表中各组的实际次数转化为相对次数,即用频数比率(f/N)或百分比()来表示次数,就可以制成相对次数分布表。4、累加次数分布表

表3-3某班学生数学成绩累加次数分布表

成绩组中值频数累加频数累加百分比95~97.5223.8590~92.5247.6985~87.53713.4680~82.551254.0575~77.582038.4670~72.5113159.6265~67.594076.9260~62.554586.5455~57.544994.2350~52.525198.0845~47.5152100.0合计52525、双列次数分布表双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。所谓有联系的两列变量,一般是指同一组被试中每个被试两种心理能力的分数或两种心理特点的指标,或同一组被试在两种实验条件下获得的结果。

表3-431名学生视、听反应时测验结果听视100~120~140~160~180~200~220~Y230~210~190~170~150~130~110~1111211322331112111112478451X159843131二、次数分布图在编制次数分布表的基础上,可以绘制次数分布图,使一组数据特征更加直观和概括,而且还可以对数据的分布情况和变动趋势作粗略的分析。绘制次数分布图可以用已有的计算机程序,如EXCEL,也可以用专门的统计程序。1、频数分布直方图直方图(histogram)又称为等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。一般用纵轴表示数据的频数,用横轴表示数据的等距分组点,即各分组区间的上下限。直方图是统计学中常用而且又有特殊意义的一种统计图,有着重要的应用价值。例:根据第二讲中52个学生的数学成绩所作直方图图3-152名学生数学成绩分布的频数直方图4550556065707580859095100还可以做成下面这种形式图3-252名学生数学成绩次数分布直方图2、次数分布多边图次数分布多边形图(frequencypolygon)是一种表示连续性随机变量次数分布的线形图,属于次数分布图。凡是等距分组的可以用直方图表示的数据,都可用次数多边图来表示。绘制方法:以各分组区间的组中值为横坐标,以各组的频数为纵坐标,描点;将各点以直线连接即构成多边图形。图3-352名学生数学成绩分布图人数图3-452名学生数学成绩分布图人数成绩利用次数分布多边图还可以把几组资料放在一起进行比较。但需要注意的是,这时必须把数据的次数换算成百分比。图3-545页数据的次数分布图图3-6不正确的比较图3、累积次数分布图根据累积次数,可以绘制累积次数分布图。右图是累积次数分布直方图。累积次数分布曲线当数据的总数较多时,将累积次数分布图中的横坐标以每一分组区间的精确上限或精确下限表示,纵坐标以累积次数表示,则可绘制累积次数分布曲线,即累积曲线。图3-8累积次数分布曲线累积曲线可用于判断一组数据的大致分布形态。图3-9正态分布数据的累积曲线图3-10正偏态数据累积曲线图3-11负偏态数据累积曲线二、计算机制作统计图表在心理与教育研究中常用的基本统计程序主要有两个:SPSS和SAS。其中以SPSS应用最多。SPSS是专门用于社会科学研究的统计分析工具:StatisticsPackageforSocialScienceSAS的开发主要是商业用途,因此功能更强大,但SPSS包含一些特殊的社会科学应用程序。浏览网上资料,看看常用的有哪些统计图。请利用书上的数据或自己收集数据,试做几个漂亮的统计图。练习某大学四年级80名学生的毕业成绩如下:

5683766880926981627857817170596666756148845093827270498469669374706956746885539761525850739352746581685354956872948269606685905767758255466847895767755183685550试编制一个完整的次数分布表。2005年9月再见!第三讲集中量集中量用来表现数据资料的典型水平或集中趋势(centraltendency)。常用的集中量包括算术平均数、加权平均数、中位数和众数等等。一、算术平均数算术平均数(arithmeticaverage

)一般简称为平均数(average)或均数、均值(mean)。一般用M,或者用表示。算术平均数是最常用的集中量。1.算术平均数的计算公式原始数据计算公式(4.1)由上述公式可得算术平均数的几个重要性质连加和计算规则次数分布表计算公式(4.2)表4-152名学生数学成绩平均数计算表成绩组中值Xc频数fF*Xc计算95-97.5219590-92.5218585-87.53262.580-52.55262.575-77.5862070-72.511797.565-67.59607.560-62.55312.555-57.5423050-52.5210545-17.5117.5合计523595.02、算术平均数的意义算术平均数是应用最普遍的一种集中量。它是“真值”(truescore)的最佳估计值。真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响,真值往往很难得到。在实际测量中,往往采用“多次测量,取平均数”的方法,用平均数去估计真值。3、算术平均数的优缺点

算术平均数具备一个良好的集中量所应具备的一些特点:反应灵敏、有公式严密确定、简明易懂、适合代数运算等等,因此是一个最常用的集中量。主要不足:容易受两极端数值的影响;一组数据中有模糊不清的数值时无法计算。4、计算和应用算术平均数的原则同质性原则:算术平均数只能用于表示同类数据的集中趋势。平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据。平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离散程度。二、中位数中位数(median)又称为中数,是按顺序排列的一组数据中位于中间位置的数。中位数是常用集中量的一种。一般用Md或Mdn表示。1、中位数的计算方法原始数据计算法首先将一组数据按顺序排列次数分布表计算法由次数分布表计算中位数需要用到累积次数分布表。当表中数据的累积方向不同时,计算公式也不同。表4-252名学生数学成绩次数分布表成绩频数f累积频数95-25290-25085-34880-54575-84070-113265-92160-51255-4750-2345-11合计5274.457473.5573.172.6572.271.7571.370.8570.469.9569.51110987654321由下至上累积频数计算公式公式中:Lb为中位数所在组的精确下限

fb为中位数所在组下限以下的累积频数

n为数据总和

fMd为中位数所在组的频数

i为组距(4.3a)由上至下累积频数计算公式公式中:La为中位数所在组的精确上限

fa为中位数所在组上限以上的累积频数

n为数据总和

fMd为中位数所在组的频数

i为组距(4.3b)表4-352名学生数学成绩中位数计算表成绩频数f累积频数计算95252902508534880545758407011326592160512554750234511合计522.百分位数百分位数的概念

百分位数是位于依一定顺序排列的一组数据中某一百分位置的数值,一般用表示。百分位数的计算方法公式中:Lb为百分位数所在组的精确下限

fb为百分位数所在组下限以下的累积频数

p为百分数

n为数据总和

fp为百分位数所在组的频数

i为组距(4.4)3.中位数的特点及应用中位数是根据全部数据的个数来确定其位置的,意义简明,对按顺序排列的数据来讲,计算中位数也比较容易。中位数不受两端极端数据的影响,但反应不灵敏,也不适合进一步代数运算的要求。一般用于下列情况:一组数据中有极端数据时;一组数据中有个别数据不确切、不清楚时;资料属于等级性质时。三.众数众数(mode)用Mo表示,有两种定义:理论众数是指与频数分布曲线最高点相对应的横坐标上的一点;粗略众数是一组数据中出现次数最多的那个数。众数也是一种集中量,也可用来表示一组数据的集中趋势。1.众数的计算方法

观察法寻找粗略众数未分组数据中出现次数最多的数即为众数。次数分布表中,频数最多那一组数据的组中值,即为众数。公式法计算理论众数的近似值用公式计算的众数称为理论众数。一般在心理与教育统计中常用的公式有皮尔逊的经验公式和金氏插补法公式。皮尔逊经验公式金氏插补法(4.5)(4.6)皮尔逊经验公式只有当数据分布呈正态或接近正态时才能使用。当数据分布呈偏态时,一般用金氏插补法计算众数。2.众数的优缺点众数的概念简单易懂,但比较粗略,不能灵敏地反映一组数据的变化,而且不适合进一步代数运算。一般用于类别变量或等级变量的资料。4.算术平均数、中位数、众数三者的关系在正态分布中:在正偏态分布中:在负偏态分布中:四、其它集中量除了算术平均数、中位数和众数以外,在应用中还有一些其它集中量。这些统计指标可以从其它角度描述一组数据的集中趋势。1.加权平均数加权平均数是不同比重数据(或平均数)的平均数,一般用表示。其计算公式有两种:

(4.7)(4.8)2.几何平均数几何平均数(geometricmean)是n个数值连乘积的n次方根,用或表示。计算公式为当数据的分布呈偏态时,可用几何平均数表示该组数据的集中趋势。(4.9)几何平均数的变式两边取对数,得注意:几何平均数计算的是平均的变化情况,如果要计算平均增长率,需要从几何平均数中减去基数1。(4.10)练习与思考第86页和87页的各练习题。注意观察和收集我们生活中的资料,分析在集中量的使用中,哪些是正确的,哪些是错误的?2005年9月再见!第五讲差异量描述数据离散程度的统计量称为差异量。差异量越大,表明数据越分散、不集中;差异量越小,表明数据越集中,变动范围越小。一组数据的离散程度,常常通过数据的离中趋势特点进行分析。一、全距、四分位距和百分位距全距R(range)全距是一组数据中的最大值(maximum)与该组数据中最小值(minimum)之差,又称极差。R=Xmax-Xmin百分位差(百分位距)

百分位差是指两个百分位数(percentile)之差。常用的百分位距有两种:

P90-P10和P93-P7。用几个百分位距能较好地反映一组数据的差异程度。计算公式公式中:fbp为某一百分位数所在组下限以下的累积频数

fp为某一百分位数所在组的频数

Lbp为某一百分位数所在组的精确下限四分位距四分位距是第一个四分位数与第三个四分位数之差的一半,计算公式为(5.1)其中:(5.2a)(5.2b)用中位数作集中量时,常用四分位距作差异量。二、平均差平均差(averagedeviation

或者meandeviation)是指一组数据中,每一个数据与该组数据的平均数离差的绝对值的算术平均数,通常用AD或MD表示。本书中均以AD表示。原始数据计算公式次数分布表计算公式(5.3)(5.4)平均差意义明确,计算容易,反应灵敏。但计算时要用绝对值,不适合代数运算,因此在进一步统计分析中应用较少。三、方差和标准差方差(又称为变异数、均方)。是表示一组数据离散程度的统计指标。一般样本的方差用

表示,总体的方差用表示。标准差(standarddeviation)是方差的算术平方根。一般样本的标准差用S表示,总体的标准差用表示。标准差和方差是描述数据离散程度的最常用的差异量。1.方差和标准差的定义

(5.5)(5.6)2.方差和标准差的计算公式原始数据计算公式(5.7)(5.8)公式(5-5)、(5-6)等价于(5-7)、(5-8),当两个公式计算结果有出入时,应以原始数据计算公式的结果更准确。次数分布表计算公式(5.9)(5.10)表5-152名学生数学成绩方差和标准差计算表成绩组中值Xc频数fF*XcF*XC2计算95-97.5219519012.590-92.5218517112.585-87.53262.522968.7580-82.55412.534031.2575-77.586204805070-72.511797.557818.7565-67.59607.541006.2560-62.55312.519531.2555-57.542301322550-52.521055512.545-47.5147.52256.25合计5237752805253.总标准差的合成

方差具有可加性的特点。当已知几个小组数据的方差或标准差时,可以计算几个小组联合在一起的总的方差或标准差。需要注意的是,只有在应用同一种观测手段,测量的是同一种特质,只是样本不同的数据时,才能计算合成方差或标准差。计算公式公式中:为总方差,为总标准差

Si为各小组标准差

ni为各小组数据个数(5.11)(5.12)4.方差和标准差的性质方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。标准差是一组数据方差的算术平方根,它不可以进行代数计算,但有以下特性:如果则如果则5.方差和标准差的意义方差与标准差是表示一组数据离散程度的最好指标,是统计分析中最常用的差异量。标准差具备一个良好的差异量应具备的条件,如:反应灵敏,有公式严密确定,简明易懂,适合代数运算等等。应用方差和标准差表示一组数据的离散程度,须注意必须是同一类数据(即同一种测量工具的测量结果),而且被比较样本的水平比较接近。四.相对差异量1.差异系数的概念及计算公式差异系数(coefficientofvariation)是指标准差与其算术平均数的百分比,它是没有单位的相对数。常以CV表示,其计算公式为(5.13)2.差异系数的作用比较不同单位资料的差异程度比较单位相同而平均数相差较大的两组资料的差异程度可判断特殊差异情况根据经验,一般CV值常在5%-35%之间。如果CV大于35%时,可怀疑所求得的平均数是否失去了意义;如果CV小于5%时,可怀疑平均数与标准差是否计算有误。

例1:比较计量单位不同的数据资料的差异程度1975年上海市区6岁男童体重与身高数据:平均数标准差差异系数体重19.39千克2.16千克11.14%身高115.87厘米4.86厘米4.19%例2:比较单位相同而平均数相关较大的两组资料的差异程度。

1975年上海市区两组女童体重的数据:

平均数标准差差异系数2个月组5.45千克0.62千克11.38%6岁组19.02千克2.12千克11.15%3.差异系数的应用条件差异系数主要应用于平均数不等于零的连续数据。学科成绩可以勉强计算差异系数。练习与思考107页的有关练习题。对一组数据进行描述时,应怎样选择合适的集中量和差异量?2005年9月再见!第六讲概率及其二项分布一、概率的定义后验概率(或统计概率)

随机事件的频率当n无限增大时,随机事件A的频率会稳定在一个常数P,这个常数就是随机事件A的概率。(6.1)先验概率(古典概率)古典概率模型要求满足两个条件:⑴试验的所有可能结果是有限的;⑵每一种可能结果出现的可能性相等。(6.2)二.概率的公理系统1.任何随机事件A的概率都是在0与1之间的正数,即0≤P(A)≤12.不可能事件的概率等于零,即P(A)=03.必然事件的概率等于1,即P(A)=1

三.概率的加法定理和乘法定理概率的加法定理若事件A发生,则事件B就一定不发生,这样的两个事件为互不相容事件。两互不相容事件和的概率,等于这两个事件概率之和,即(6.3)(6.4)概率的乘法定理若事件A发生不影响事件B是否发生,这样的两个事件为互相独立事件。两个互相独立事件积的概率,等于这两个事件概率的乘积,即(9.5)(9.6)例1:某一学生从5个试题中任意抽取一题,进行口试。如果抽到每一题的概率为1/5,则抽到试题1或试题2的概率是多少?如果前一个学生把抽过的试题还回后,后一个学生再抽,则4个学生都抽到试题1的概率是多少?

计算抽到第一题或第二题的概率应为抽到第一题的概率和抽到第二题的概率之和,即四个学生都抽到第一题即四个学生同时抽到第一题,其概率应为抽到第一题的概率的乘积,即例2:从30个白球和20个黑球共50个球中随机抽取两次(放回抽样),问抽出一个黑球和一个白球的概率是多少?抽出一个白球的概率为3/5,抽出一个黑球的概率为2/5。抽出一个黑球和一个白球的情况应包括先抽出一个黑球、后抽出一个白球和先抽出一个白球、后抽出一个黑球两种情况。因此:四、概率分布类型概率分布(probabilitydistribution)是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。依不同的标准,对概率分布可作不同的分类。1、离散型分布与连续型分布依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。心理与教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。

2、经验分布与理论分布依分布函数的来源,可将概率分布分为经验分布与理论分布。经验分布(empiricaldistribution)是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。理论分布(theoreticaldistribution)是按某种数学模型计算出的概率分布。3、基本随机变量分布与抽样分布依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(samplingdistribution)。基本随机变量分布是随机变量各种不同取值情况的概率分布,抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。五.二项分布二项分布(bionimaldistribution)是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。1.二项试验满足以下条件的试验称为二项试验:一次试验只有两种可能的结果,即成功和失败;各次试验相互独立,即各次试验之间互不影响;各次试验中成功的概率相等,失败的概率也相等。2.二项分布函数二项分布是一种离散型随机变量的概率分布。用n次方的二项展开式来表达在n次二项试验中成功事件出现的不同次数(X=0,1…)的概率分布,叫做二项分布函数。二项展开式的通式(即二项分布函数):(6.7)二项展开式的要点:项数:二项展开式中共有n+1项。方次:p的方次,从n→0为降幂;q的方次从0→n为升幂。每项p与q方次之和等于n。系数:各项系数是成功事件次数的组合数。例3:从男生占2/5的学校中随机抽取6个学生,问正好抽到4个男生的概率是多少?最多抽到2个男生的概率是多少?解:将n=6,p=2/5,q=3/5,X=4代入(6.7)式,则恰好抽到4个男生的概率为最多抽到2个男生的概率,等于1个也没有抽到、抽到1个和抽到两个男生的概率之和,即3.二项分布图以成功事件出现的次数为横坐标,以成功事件出现不同次数的概率为纵坐标,绘制直方图或多边图,即为二项分布图。二项分布是离散型分布,其概率直方图是跃阶式。二项分布的性质从概率直方图可以看到,二项分布有如下性质:①.当p=q时,图形是对称的。②.当p≠q时,直方图呈偏态。p>q与p<q时的偏斜方向相反。4.二项分布的平均数和标准差如果二项分布满足p>q且nq≥5(或者p<q且np≥5时,二项分布接近于正态分布。可用下面的方法计算二项分布的平均数和标准差。二项分布的平均数为二项分布的标准差为(6.8)(6.9)5.二项分布的应用二项分布函数除了用来求成功事件恰好出现X次的概率之外,在教育中主要用来判断试验结果的机遇性与真实性的界限。例如,一个学生凭猜测做10个是非题,平均可以猜对5题。什么情况下可以说他是真会而不是猜测呢?这种问题需要用累积概率来算。当做对8题或8题以上时,累积概率为0.989,也就是说,猜对9题或10题的概率不足0.05。表6-1一个学生做10个正误题做对不同题数的概率分布做对题目数出现方式数概率P(X)累积概率010.0010.0011100.0100.0112450.0440.05531200.1170.17242100.2050.37752520.2460.62362100.2050.82871200.1170.9458450.0440.9899100.0100.9991010.0011.000总和10241.000例题:一个教师对8个学生的作业成绩进行猜测,如果教师猜对的可能性为1/3,问:⑴.平均能猜对几个学生的成绩?⑵.假如规定猜对95%,才算这个教师有一定的评判能力,那么这个教师至少要猜对几个学生?解:⑴.⑵.练习与思考第194页和196页的有关习题。观察我们的生活,看看哪些现象是服从二项分布规律的?2005年9月再见!第六讲正态分布及其应用一、标准分数标准分数(standardscore),又称为基分数或Z分数(Z-score),是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。1.标准分数的计算标准分数的计算公式为(7.1)

或Z分数可以表明原始分数在团体中的相对位置,因此称为相对位置量数。把原始分数转换成Z分数,就把单位不等距的和缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的分数。2.标准分数的性质Z分数无实际单位,是以平均数为参照点、以标准差为单位的相对量。一组原始分数得到的Z分数既有正值,也有负值,所有原始分数的Z分数之和为零。一组原始数据中,各个Z分数的标准差为1。标准正态分布的平均值为0,标准差为1。3.标准分数的优点

可比性:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。可加性:标准分数使不同的原始分数具有相同的参照点,因而具有可加性。明确性:标准分数较原始分数的意义更为明确。合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实。4、标准分数的应用用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。计算不同质的观测值的总和或平均值,以表示在团体中的相对位置。当研究需要合成不同质的数据时,如果已知这些不同质的观测值的次数分布为正态,这时可采用Z分数来计算不同质的观测值的总和或平均值。表示标准测验分数

经过标准化的心理和教育测验,常常用标准分数表示测验结果。如果其常模分数分布接近正态分布,为了克服标准分数出现的小数、负数和不易为人们所接受等缺点,常常是将其转换成正态标准分数。转换公式为:

(7.2)

例如:早期智力测验中运用智力商数表示智力测查的指标这种表示智力的方法后来被离差智商取代:异常值的取舍

在一个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数。±1σP=68.26%±2σP=95.45%±3σP=99.73%可以看到,在平均数上下各三个标准差的范围内,分布着全部数据的99.73%,反言之,在三个标准差之外的数据不足0.27%,因此常把“三个标准差”做为判断可疑值取舍的依据。二.正态分布正态分布(normaldistribution)也称为常态分布,是连续型随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。正态分布由棣.莫弗于1733年发现的。拉普拉斯、高斯对正态分布的研究也做出了贡献,故有时称正态分布为高斯分布。1.正态分布曲线函数正态分布曲线函数又称概率密度函数,其一般公式为公式所描述的正态曲线,由σ和μ两个参数决定。2.标准正态分布曲线将标准分数代入正态曲线函数并且,令σ=1则公式变换为标准正态分布函数:以Z为横坐标,以Y为纵坐标,可绘制标准正态分布曲线。标准正态分布曲线的纵线高度Y为概率密度,曲线下的面积为概率。3.标准正态分布曲线的特点⑴.曲线在Z=0处达到最高点⑵.曲线以Z=0处为中心,双侧对称⑶.曲线从最高点向左右缓慢下降,向两侧无限延伸,但永不与基线相交。⑷.标准正态分布曲线的平均数为0,标准差为1。从Z=-3至Z=+3之间几乎分布着全部数据。⑸.曲线的拐点为正负一个标准差处。三.标准正态分布表及使用1.标准正态分布表利用积分公式可求出正态曲线下任何区间的面积,但需要计算,非常麻烦。统计学家已编制好了标准正态分布表,使其使用非常方便。正态分布表的特点:

表中仅列有标准正态曲线下的面积,因此,查表前应先将原始变量X转换为Z。表中列出的数据,是从Z=0到右边某一Z值之间的面积,查表时应注意合理使用。2.已知Z值求概率⑴.求Z=0至某一Z值之间的概率:直接查表⑵.求两个Z值之间的概率两Z值符号相同:PZ1-Z2=PZ2-PZ1两Z值符号相反:PZ1-Z2=PZ2+PZ1⑶.求某一Z值以上的概率Z>0时,PZ-∞=0.5-PZZ<0时,PZ-∞=0.5+PZ⑷.求某一Z值以下的概率Z>0时,P-∞-Z=0.5+PZZ<0时,P-∞-Z=0.5-PZ3.已知面积(概率)求Z值⑴.求Z=0以上或以下某一面积对应的Z值:直接查表⑵.求与正态曲线上端或下端某一面积P相对应的Z值:先用0.5-PZ,再查表⑶.求与正态曲线下中央部位某一面积相对应的Z值:先计算P/2,再查表4.已知概率P或Z值,求概率密度Y直接查正态分布表就能得到相应的概率密度Y值。如果由概率P求Y值,要注意区分已知概率是位于正态曲线的中间部分,还是两尾端部分,才能通过查表求得正确的概率密度。四.正态分布

在测验记分方面的应用1.以标准分数表示考试成绩

比较学生的考试成绩时,使用原始分数有其不合理之处:⑴.原始分制度没有提示考生成绩在考生团体成绩中的位置。⑵.由于各科命题难度不同,导致各科原始分之间不能直接比较,造成分数解释上的困难。⑶.各科原始分相加不合理。采用标准分数,有如下特点:⑴.标准分的大小,既表明考生水平的高低,也表明该生在考生团体中的位置的高低。⑵.各科标准分都表示考生各科在同一团体中的位置,可根据标准分大小直接比较考生的各科成绩水平。⑶.各科标准分的参照点(平均分为500分)和单位(1个标准差为100分)都一样,具有可加性,克服了原始分的缺陷。目前我国一些省在高考中采用标准分数表示考生的成绩,为了使分数更适合一般习惯,对标准分数进一步做转换:2.确定等级评定的人数如要将某种能力的分数分成等距的几个等级,在确定各等级人数时,可将正态分布基线上Z=-3至Z=+3之间6个标准差的距离分成相等的几份,然后查表求出各段Z值之间的面积,再乘以总人数,即为各等级人数。3.品质评定数量化在心理与教育研究中,常常遇到等级评定的结果。但是不同评定者的评定结果往往不一致,无法综合他们的评定结果,而且等级分数不是等距数据,不同事物的评定结果不能直接比较。将品质评定的结果转化为数量结果,就可解决这些问题。具体方法根据各等级被评者的数目求各等级的人数比率;求各等级比率值的中间值;求各等级中点以上(或以下)的累积比率;用累积比率查正态分布表;求被评者所得评定等级的数量化值的平均值。练习与思考第195页的有关习题。标准分数的意义是什么?正态分布还有哪些应用?2005年10月再见!第八讲抽样分布与参数估计复习:正态分布

在测验记分方面的应用1.以标准分数表示考试成绩

比较学生的考试成绩时,使用原始分数有其不合理之处:⑴.原始分制度没有提示考生成绩在考生团体成绩中的位置。⑵.由于各科命题难度不同,导致各科原始分之间不能直接比较,造成分数解释上的困难。⑶.各科原始分相加不合理。采用标准分数,有如下特点:⑴.标准分的大小,既表明考生水平的高低,也表明该生在考生团体中的位置的高低。⑵.各科标准分都表示考生各科在同一团体中的位置,可根据标准分大小直接比较考生的各科成绩水平。⑶.各科标准分的参照点(平均分为500分)和单位(1个标准差为100分)都一样,具有可加性,克服了原始分的缺陷。例题:下表是两名高考学生的成绩,试分析哪一位考生的成绩更好?科目原始成绩全体考生Z分数甲乙平均分标准差甲乙语文858970101.51.9政治70626551-0.6外语6872698-0.1250.375数学53405060.5-1.67理化7287758-0.3751.5Σ3483502.51.505目前我国一些省在高考中采用标准分数表示考生的成绩,为了使分数更适合一般习惯,对标准分数进一步做转换:2.确定等级评定的人数如要将某种能力的分数分成等距的几个等级,在确定各等级人数时,可将正态分布基线上Z=-3至Z=+3之间6个标准差的距离分成相等的几份,然后查表求出各段Z值之间的面积,再乘以总人数,即为各等级人数。计算:今有1000人参加一项数学能力测验,欲将测验结果评为六个等级。问各等级评定的人数应是多少?3.品质评定数量化在心理与教育研究中,常常遇到等级评定的结果。但是不同评定者的评定结果往往不一致,无法综合他们的评定结果,而且等级分数不是等距数据,不同事物的评定结果不能直接比较。将品质评定的结果转化为数量结果,就可解决这些问题。具体方法根据各等级被评者的数目求各等级的人数比率;求各等级比率值的中间值;求各等级中点以上(或以下)的累积比率;用累积比率查正态分布表;求被评者所得评定等级的数量化值的平均值。P169例题3名教师对100名学生的评定结果等级评定结果(人数)教师甲教师乙教师丙A51020B252025C404035D252015E5102总数1001001001.960.940-0.94-1.961.650.840-0.84-1.651.280.45-0.32-1.15-1.96一、抽样分布区分三种不同性质的分布:总体分布:总体内个体数值的频数分布样本分布:样本内个体数值的频数分布抽样分布:某一种统计量的概率分布1.抽样分布的概念抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。抽样分布是一个理论的概率分布,是统计推断的依据。2.平均数抽样分布的几个定理

⑴.从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。⑵.容量为n的平均数在抽样分布上的标准差(即平均数的标准误),等于总体标准差除以n的平方根。(8.1)(8.2)⑶.从正态总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。⑷.虽然总体不呈正态分布,如果样本容量较大,反映总体μ和σ的样本平均数的抽样分布,也接近于正态分布。二.标准误某种统计量在抽样分布上的标准差,称为标准误。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。平均数标准误的计算1.总体正态,σ已知(不管样本容量大小),或总体非正态,σ已知,大样本平均数的标准误为:平均数标准误的计算2.总体正态,σ未知(不管样本容量大小),或总体非正态,σ未知,大样本平均数标准误的估计值为(8.3)三.平均数离差统计量的分布由样本的平均数对总体平均数进行估计,首先要了解平均数离差统计量的分布,才能根据一定的概率,由样本的平均数对总体的平均数做出估计。1.总体正态,σ已知(不管样本容量大小),

或总体非正态,σ已知,大样本平均数离差的的抽样分布呈正态分布(8.4)2.总体正态,σ未知(不管样本容量大小),

或总体非正态,σ未知,大样本平均数离差的的抽样分布呈t分布(8.5)t分布的特点⑴.形状与正态分布曲线相似⑵.t分布曲线随自由度不同而有一簇曲线⑶.自由度的计算:自由度是指能够独立变化的数据个数。⑷.查t分布表时,需根据自由度及相应的显著性水平,并要注意是单侧数据还是双侧。3.总体σ未知,大样本时的近似处理样本容量增大后,平均数的抽样分布接近于正态分布,可用正态分布近似处理:(8.6)四.总体参数估计的基本原理根据样本统计量对相应总体参数所作的估计叫作总体参数估计。总体参数估计分为点估计和区间估计。由样本的标准差估计总体的标准差即为点估计;而由样本的平均数估计总体平均数的取值范围则为区间估计。1.良好的点估计量应具备的条件无偏性

如果一切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估计量。有效性

当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。

良好的点估计量应具备的条件一致性当样本容量无限增大时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量。充分性一个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。2.区间估计以样本统计量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的置信区间的上下限。⑴要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的理论分布;⑵要求出该种统计量的标准误;⑶要确定在多大的可靠度上对总体参数作估计,再通过某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间的上下限。置信区间置信度,即置信概率,是作出某种推断时正确的可能性(概率)。置信区间,也称置信间距(confidenceinterval,CI)是指在某一置信度时,总体参数所在的区域距离或区域长度。置信区间是带有置信概率的取值区间。显著性水平对总体平均数进行区间估计时,置信概率表示做出正确推断的可能性,但这种估计还是会有犯错误的可能。显著性水平(significancelevel)就是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。

P=1-α3.平均数区间估计的基本原理通过样本的平均数估计总体的平均数,首先假定该样本是随机取自一个正态分布的母总体(或非正态总体中的n>30的样本),而计算出来的实际平均数是无数容量为n的样本平均数中的一个。根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的可能性。练习与思考平均数的抽样分布有哪些规律?什么是点估计?什么是区间估计?良好的点估计量应具备什么条件?下次学习内容:总体平均数的区间估计与假设检验的基本原理2005年10月再见!第九讲参数估计方法与假设检验的基本原理一.总体参数估计的基本原理根据样本统计量对相应总体参数所作的估计叫作总体参数估计。总体参数估计分为点估计和区间估计。由样本的标准差估计总体的标准差即为点估计;而由样本的平均数估计总体平均数的取值范围则为区间估计。1.良好的点估计量应具备的条件无偏性

如果一切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估计量。有效性

当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。

良好的点估计量应具备的条件一致性当样本容量无限增大时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量。充分性一个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。2.区间估计以样本统计量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的置信区间的上下限。⑴要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的理论分布;⑵要求出该种统计量的标准误;⑶要确定在多大的可靠度上对总体参数作估计,再通过某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间的上下限。置信区间置信度,即置信概率,是作出某种推断时正确的可能性(概率)。置信区间,也称置信间距(confidenceinterval,CI)是指在某一置信度时,总体参数所在的区域距离或区域长度。置信区间是带有置信概率的取值区间。显著性水平对总体平均数进行区间估计时,置信概率表示做出正确推断的可能性,但这种估计还是会有犯错误的可能。显著性水平(significancelevel)就是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。

P=1-α3.平均数区间估计的基本原理通过样本的平均数估计总体的平均数,首先假定该样本是随机取自一个正态分布的母总体(或非正态总体中的n>30的样本),而计算出来的实际平均数是无数容量为n的样本平均数中的一个。根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的可能性。二.总体平均数的区间估计1.总体平均数区间估计的基本步骤①.根据样本的数据,计算样本的平均数和标准差;②.计算平均数抽样分布的标准误;③.确定置信概率或显著性水平;④.根据样本平均数的抽样分布确定查何种统计表;⑤.计算置信区间;⑥.解释总体平均数的置信区间。2.平均数区间估计的计算①总体正态,σ已知(不管样本容量大小),或总体非正态,σ已知,大样本平均数离差的的抽样分布呈正态,平均数的置信区间为:(9.1)例题1:某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95%和99%置信区间。解:10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为σ=6.25。无论样本容量大小,一切样本平均数的标准分数呈正态分布。于是可用正态分布来估计该校10岁女童身高总体平均数95%和99%的置信区间。其标准误为当P=0.95时,Z=±1.96因此,该校10岁女童平均身高95%的置信区间为:当P=0.99时,Z=±2.58因此,该校10岁女童平均身高99%的置信区间为:②总体正态,σ未知(不管样本容量大小),

或总体非正态,σ未知,大样本平均数离差的抽样分布为t分布,平均数的置信区间为:(9.2)例题2:从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26。试估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。解:12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差σ未知,样本的容量较小(n=12<30),在此条件下,样本平均数与总体平均数离差统计量服从呈t分布。于是需用t分布来估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。由原始数据计算出样本统计量为当P=0.95时,因此,该校三年级学生阅读能力得分95%的置信区间为:当P=0.99时,因此,该校三年级学生阅读能力得分99%的置信区间为:③总体正态,σ未知,大样本

平均数的抽样分布接近于正态分布,用正态分布代替t分布近似处理:(9.3)例题3:从某年高考中随机抽取102份作文试卷,算得平均分数为26,标准差为1.5,试估计全部考生作文成绩95%和99%的置信区间。解:学生高考分数假定是从正态总体中抽出的随机样本,而总体的标准差σ未知,样本平均数与总体平均数离差统计量呈t分布。但是由于样本容量较大(n=120>30),t分布接近于正态分布,因此可用正态分布近似处理。其标准误为当P=0.95时,Z=±1.96因此,该年全部考生作文成绩95%的置信区间为:当P=0.99时,Z=±2.58因此,该年全部考生作文成绩99%的置信区间为:④总体非正态,小样本

不能进行参数估计,即不能根据样本分布对总体平均数进行估计。三、假设检验的基本原理利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。1.假设假设检验一般有两互相对立的假设。H0:零假设,或称原假设、虚无假设(nullhypothesis)、解消假设;是要检验的对象之间没有差异的假设。H1:备择假设(alternativehypothesis),或称研究假设、对立假设;是与零假设相对立的假设,即存在差异的假设。进行假设检验时,一般是从零假设出发,以样本与总体无差异的条件计算统计量的值,并分析计算结果在抽样分布上的概率,根据相应的概率判断应接受零假设、拒绝研究假设还是拒绝零假设、接受研究假设。2.小概率事件样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了。把出现概率很小的随机事件称为小概率事件。当概率足够小时,可以作为从实际可能性上,把零假设加以否定的理由。因为根据这个原理认为:在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的。3.显著性水平统计学中把拒绝零假设的概率称为显著性水平,用α表示。显著性水平也是进行统计推断时,可能犯错误的概率。常用的显著性水平有两个:α=0.05和α=0.01。在抽样分布曲线上,显著性水平既可以放在曲线的一端(单侧检验),也可以分在曲线的两端(双侧检验)。图9-1正态抽样分布上α=0.05的三种不同位置αα4.假设检验中的两类错误及其控制对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误。表9-1假设检验中的两类错误H0为真H0为假拒绝H0α错误正确接受H0正确β错误为了将两种错误同时控制在相对最小的程度,研究者往往通过选择适当的显著性水平而对α错误进行控制,如α=0.05或α=0.01。对β错误,则一方面使样本容量增大,另一方面采用合理的检验形式(即单侧检验或双侧检验)来使β误差得到控制。在确定检验形式时,凡是检验是否与假设的总体一致的假设检验,α被分散在概率分布曲线的两端,因此称为双侧检验。双侧检验的假设形式为:H0:μ=μ0,H1:μ≠μ0凡是检验大于或小于某一特定条件的假设检验,α是在概率分布曲线的一端,因此称为单侧检验。单侧检验的假设形式为:H0:μ≥μ0,H1:μ<μ0或者H0:μ≤μ0,H1:μ>μ05.假设检验的基本步骤一个完整的假设检验过程,一般经过四个主要步骤:⑴.提出假设⑵.选择检验统计量并计算统计量的值⑶.确定显著性水平⑷.做出统计结论练习与思考书222页第1、3、5、6、7、8题。怎样由样本平均数对总体平均数进行区间估计?假设检验是怎样解决问题的?下次学习内容:平均数的显著性检验(第八章第二节)2005年10月再见!第十讲平均数的显著性检验一.总体平均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论