心理测量中的统计技术_第1页
心理测量中的统计技术_第2页
心理测量中的统计技术_第3页
心理测量中的统计技术_第4页
心理测量中的统计技术_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章心理测量中的统计技术孙海龙第一节

次数分布与集中量数描述统计的目的使得一组数据易于理解。图和表是很好的手段和方法一个例子一位研究者调查了151位大学生,问他们在过去一年中的应激程度,用的是0到10点量表。151个大学生的数据如下:4,7,7,7,8,8,7,8,9,4,7,3,6,9,10,5,7,10,6,8,7,8,7,8,7,4,5,10,10,0,9,8,3,7,9,7,9,5,8,5,0,4,6,6,7,5,3,2,8,5,10,9,10,6,4,8,8,8,4,8,7,3,8,8,8,8,7,9,7,5,6,3,4,8,7,5,7,3,3,6,5,7,5,7,8,8,7,10,5,4,3,7,6,3,9,7,8,5,7,9,9,3,1,8,6,6,4,8,5,10,4,8,10,5,5,4,9,4,7,7,7,6,6,4,4,4,9,7,10,4,7,5,10,7,9,2,7,5,9,10,3,7,2,5,9,8,10,10,6,8,3用次数分布表整理在应激量表每一点上的学生数目——————————————应激分数学生数目百分比

10149.39159.982617.273120.56138.651811.941610.63127.9232.0110.7021.3——————————————一、次数分布描述统计的目的:简化和整理数据的表达。次数分布(FrequencyDistribution):是指一批数据在某一量度的每一个类目所出现的次数情况组织此类数据的第一种方法是:建立次数分布表次数分布表和次数分布图就是表达一组数据是如何在某一度量上分布的例1:某个班的26个学生在一次测验中的分数如下(10分为满分):

9,2,3,8,10,9,9,2,1,2,9,8,2,5,2,9,9,3,2,5,7,2,10,1,2,9

将这些分数作成一个次数分布表

Xf1029782716052403228

12(一)简单次数分布表

次数分布表是将位于量数的每一个类目的个体的个数组织成表格的形式-

变量的值?-填充x列从大到小,每个可能的值-

每个值出现多少次(发生次数)?-填充f列3-

观察的总数?将次数行求和,将得到S

f=N4-

变量的总值?最简单的方法就是求(X)和(f)的乘积列,然后将结果求和S(Xf)例1:对于下面的次数分布表:

a)

此分布中共有几个分数(N=?)

b)

对这些分数求和∑XN=∑f=14∑X=∑xf=33

每个分数的比率和百分率Proportion=p=f/n分组次数分布表

当变量的值分布在一个较广的范围时,需要分组次数分布表简捷地描述数据常常以区间或类别的形式出现,而不是某一特定值.例如学生成绩,(A=90-99,B=80-89,...).编制分组次数分布表的步骤把所有数据按大小顺序排列求全距定组数定组距写出区间上下限统计每个区间的次数

分组的“惯常法则”1.分组次数分布表应该有大约10(5-15)个区间,目的是使这组数据易于直观感受和理解2.所有区间的宽度应该相等3.组距应该是个比较简单的数字,如2,5,10,204.每个区间开始的分数应该是组距的倍数例3:以下是22个同学的测验分数,编制分组次数分布表

94,92,82,87,81,74,75,78,76,76,63,60,62,54,51,56,59,43,32,36,25,18

例3:以下是22个同学的测验分数,编制分组次数分布表

94,92,82,87,81,74,75,78,76,76,63,60,62,54,51,56,59,43,32,36,25,18分数的分布范围是18-942为组距,分38组5为组距,分16组10为组距,分9组精确界限(RealLimits)对于一个连续型变量,每个分数实际对应量尺上的一段区间。分割这些区间的界限叫做精确界限(reallimits).

分割两个邻近分数的精确界限位于两个分数的中间。每个分数有两个精确界限,一个在区间的顶端,称为精确上限(upperreallimit),另一个在区间的底端,称为精确下限(lowerreallimit).注意一个区间的精确上限也是高一个区间的精确下限

次数分布图直方图(histogram)

用一些垂直条画在每个分数之上垂直条的高度代表次数垂直条的宽度代表分数的精确区间.临近的垂直条连接在一起只有数据是等距或等比量度(连续变量)时,才能用直方图绘制一个直方图来表达例2的分布

水平轴-X轴(abscissa)-X的值

垂直轴-Y轴(ordinate)-次数绘制直方图的一般规则X轴与Y轴的交叉点应该是0Y轴高度大约是X轴的2/3到3/4绘制直方图的方法用坐标纸绘制用Excel,SPSS等电脑软件绘制折线图(linegraph)

又称次数分布多边图(frequencydistributionpolygon)在每一分数上面画点点的高度代表次数一条连续折线将这些点连接在一起表达数据的变化趋势折线图(linegraph)如何准确地用图表达数据把复杂的观点传递得清晰,准确,高效.在最短的时间里用最少的笔墨和空间传递最多的信息.图形的实际差别与数据的差别成正比.标注清楚,详细,完全.测度单位要一致.误导读者的图仔细看看y轴,我们才发现,原来胆固醇水平不过降低了5%!次数分布的形状

用3个特征可以完整地描述一个分布:形状(shape)集中趋势(centraltendency)变异性(variability)对称分布可以画一条垂直线穿过分布的中央,使得分布的一边恰是另一边的镜象。偏态分布(skeweddistribution)

分数堆积在分布的一端,而另一端成为比较尖细的尾端(tail)

偏态分布尾端向右的称为正偏态(positivelyskewed

)(因为其尾端指向正数)偏态分布尾端向左的称为负偏态(negativelyskewed).百分位数(percentile)以上是描述观察的整体,而我们也可用次数分布来描述某一个别点在一个集合中的位置原始分数本身并不提供该点在一个集合中的位置的信息一个分数的等级(rank)或百分位数等级(percentilerank):某一分布中分数在某一值之下或等于该值的个体所占的百分比.当一个分数被其百分位数等级,该分数称为百分位数(percentile).累计次数分布cf=累积次数(cumulativefrequency)c%=cf/NX100%累积百分比(cumulativepercentage)如何确定百分位数对于连续型数据,必须考虑其精确上限和精确下限如何确定百分位数1)

-对于分数4,其对应的累积百分比是95%.但注意:分数4意味着一个人得分在3.5和4.5之间.累积百分比表明组距的精确上限。因此,95的百分位数是与4.5相对应(而不是4.0).2)

找出分布中4分的精确上限和精确下限的累积次数.

-对于分数4.5,其对应的累积百分比是95-

对于分数3.5,其对应的累积百分比是70

对于分数4.0,其对应的累积百分比是多少呢?

插值法(Interpolation)

有时你所感兴趣的值并未出现在表内。此时你需要做基于经验的猜测.插值法的假设是在所求解点的附近1个组距单位区间之内的分数和对应的百分比的变化是线性的。关键在于要找到距求解点最近的两个区间,对于较远的区间,则不满足分数和对应的百分比线性变化的假设。练习使用下表,求出第50个百分点解答14.5------60X------509.5-------30

(X-9.5)/(14.5-9.5)=(50-30)/(60-30)

X=12.83概念小测查:判断正误按照惯例,次数分布表从高到低列出分布类目(X的值).T当样本中的分数被列到次数分布表中时,你可以把f列加起来确定这些分数的数目T为了得到一个次数分布表中分数的总和,你需要做的只是将X列加在一起.F对于在X=61到X=68之间的一组分数,应当使用分组次数分布表而不是简单次数分布表.F按照惯例,分组次数分布表的组距是一个简单的数字,如2,5,10.T一个分组次数分布表列出一组分数是20-24.其组距是4.F在次数分布图中,分数(X值)被列在垂直轴上.F如果分数是等距量表,可以以直方图或次数多边图来表示次数分布.T在棒图中,两条棒之间有空间.T在负偏态分布中,分数堆积在分布右侧,而分布左侧分数稀薄T.(一)、算术平均数算术平均数一般简称为平均数,或均数,或均值。一般用字母M或表示。二、集中量数1.算术平均数的特点(或性质):1)2)3)受两极量数的影响较大4)5)6)算术平均数是“真值”的渐进估计值,最佳的估计量2、算术平均数的计算方法1)未分组数据计算平均数由次数分布表求平均数2)使用次数分布表计算平均数表3-1次数分组求平均数计算表分组组中值(Xc)次数(f)Xc×f计算80—70—60—857565692510675130合计1713153、平均数的优缺点1)优点1.反应灵敏2.计算严密3.计算简单4.简明易解5.适合于进一步代数运算6.较少受抽样变动的影响2)缺点1.易受极端数据影响修剪平均数:也称截尾平均数,是从一组数据中去除一定百分比(如5%)的最大值和最小值数据后,再次计算的算术平均数。2.若出现模糊不清的数据时,无法计算平均数4、小结如果一组数据是比较准确,可靠又同质,而且需要每一个数据都加入计算,同时还要作进一步代数运算时,这时就要用算术平均数表示其集中趋势。如果一组数据中出现两个极端的数目,或有一些数据不清楚,数据不同质时,就不宜使用算术平均数。在报告平均数时,要按特别指定的单位来表达。在书写平均数时,习惯上平均数保留的小数位数要比原来的测量数据多一位小数。(二)中数和众数1、中数

1)中数的意义和特点

a意义:

中数又称中点数,中位数,中值,是指按顺序排列在一起的一组数据中居于中间位置的数。符号为Md或Mdn。

b特点:不受两极量数的影响

2)中数的计算方法(1)a)量数未分组求中数的方法当量数不多时,先把数据排序,若数据个数为奇数时,则为中数;若数据个数为偶数时,则为中数。1.一组数据中无重复数值的情况①求数列4,6,7,8,12的中数?②有2,3,5,7,8,10,15,19共8个数,求其中数。2)中数的计算方法(2)一组数据中有重复数值的情况①当重复数值没有位于数列中间时求数列5,5,6,10,12,15,17的中数。②当重复数目位于数据中间,数据的个数为奇数时求数列11,11,11,11,13,13,13,17,17的中数。③当重复数目位于数列中间,数据的个数为偶数时求数列11,11,11,11,13,13,13,17,17,18的中数。2、众数1)众数的意义和特点

a意义:指在一组量数中,出现频数最多的量数。用符号表示。

b特点:获取容易;在一组量数中,众数可能不止一个;在次数分布中,众数受组距和组限的影响很大。

2、众数2)众数的求法a用观察法求众数例:求2,3,3,5,3,4,3,6这一组数据的众数。b用公式计算众数金氏(W.I.king)插补法(量数已分组归类,可用下列公式)::含众数这一区间的精确下限;:高于众数所在组一个组距那一分组区间的次数;:低于众数所在组一个组距那一分组区间的次数;i:组距。金氏插补法适合次数分布比较偏斜的情况,比较接近正态的分布也适用。2)众数的求法用公式计算众数皮尔逊(K.Person)近似公式

皮尔逊经验法只有当次数分布呈现正态或接近正态时,才能使用。众数的应用1.当需要快速而粗略地寻求一组数据的代表值时;2.当一组数据出现不同质的情况时;3.当次数分布中有两极端的数目时,除了一般用中数外,有时也用众数;4.当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标。5.当一组数据中同时有两个数值的次数都比较多时,即次数分布中出现双众数时,也多用众数来表示数据分布形态。平均数、中数与众数之间的关系在偏态分布中,平均数永远位于尾端。一般偏态情况下,中数离平均数较近,而距众数较远。第二节差异量数与标准分数差异量数是表示量数之间的差异程度的一些统计量的总称。差异量数包括:绝对差异量数、相对差异量数和相对位置量数。一、差异量数

(一)平均差⒈意义:⒉计算:⑴未归类量数求AD:可用定义式。⑵已归类量数求AD表4-3已分组归类求平均差组限f计算95—90—85—80—75—70—65—60—55—146912854197928782777267625719.714.79.74.70.35.310.315.320.319.758.858.242.33.642.451.561.220.3合计50358.03.平均差的优缺点优点:平均差是根据全部数值计算的,受极端值影响较全距小。缺点:由于采取绝对值的方法消除离差的正负号,应用较少。

(二)方差与标准差1方差与标准差的意义

1)方差:

2)标准差:

2标准差的计算

1)基本公式:

2)原始量数求标准差的公式:

3)由次数分布表求标准差:

a简单次数分布表求S:

1.性质方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性。统计实践中常利用方差的可加性去分解和确定属于不同来源的变异性(如组内、组间等),并进一步说明各种变异对总结果的影响,是以后统计推论中最常用的统计特征数。㈢方差与标准差的性质和意义(1)

1.性质标准差是一组数据方差的平方根,它不可以进行代数计算,但有以下特性。⑴每一个观测值都加上一个相同常数C之后,计算得到的标准差等于原标准差。⑵每一个观测值都乘以一个相同的常数C,则所得的标准差等于原标准差乘以这个常数。⑶以上两点相结合,每一个观测值都乘以同一个常数C(C≠0),再加上一个常数d,所得的标准差等于原标准差乘以这个常数C。㈢方差与标准差的性质和意义(2)2.方差与标准差的意义方差与标准差是表示一组数据离散程度的最好指标。其值越大,说明次数分布的离散程度越大,该组数据较分散;其值越小,说明次数分布的数据比较集中,离散程度越小。标准差具备一个良好的差异量数应具备的条件:①反应灵敏;②计算公式严密确定;③容易计算;④适合代数运算;⑤受抽样变动影响小;⑥简单明了。标准差与其他各种差异量数相比,具有数学上的优越性。㈢方差与标准差的性质和意义(3)二、标准分数

㈠标准分数的定义⒈定义:原始量数与其平均数的差数,除以标准差所得的商,称之为标准分数。又称为Z分数。用公式表示:

标准分数是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。㈡标准分数的求法X96908685838281807572137320-1-2-3-8-11

㈢标准分数的性质⑴Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量。⑵一组原始分数转换得到的Z分数可以是正值,也可以是负值。⑶所有原始分数的Z分数之和为0,Z分数的平均数也为0,即⑷一组数据的标准分数的标准差为1,即⑸若原始分数呈正态分布,则转换得到的所有Z分数值服从均值为0,标准差为1的标准正态分布。㈣标准分数转换的意义

把原始分数转换成Z分数,就是把单位不等距的和缺乏明确参照点的分数转换成以标准差为单位,以平均数为参照点的分数。因为在一个分布中,标准差所表示的距离是相等的,以标准差为单位就使单位等距了。以平均数为参照点,也就是以0为参照点,因为等于平均数的原始分数转换成标准分数后,其值为0.原始分数转换成Z分数,就是转换为以1为标准差,以0为参照点(平均值)的分数,从而可以明确各个原始分数的相对地位,并且分数间也有了相互比较的基础。正因为它以1(1个标准差)为单位,以0为参照点,故名标准分数。㈤标准分数的应用1.比较几个性质不同的观测值在各自数据分布中相对位置的高低例:测验一个班级的数学成绩,平均数为80分,标准差为8分;又测验了该班的语文成绩,平均数为70分,标准差为5分。甲生在数学测验中得81分,在语文测验中得78分,问该生哪一学科的成绩在班上比较优?解:㈤标准分数的应用2.计算不同质的观测值的总和或平均值,以表示在团体中的相对位置例16在招生考试时,有甲、乙两考生的各科成绩如下表4-14,如果这两个考生只录取一个,应录取哪位考生?表4-14标准分数在计算总成绩中的应用考试科目个人分数全体考生个人标准分甲乙平均分标准差甲乙语文数学外语政治历史748732787089825060657080357568128111070.3330.875-0.2720.30.2851.580.251.36-1.50-0.42合计3413461.5211.27㈤标准分数的应用3.表示标准测验分数㈤标准分数的应用4.异常值的取舍在一个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数。根据这个原理,整理数据时,常采用三个标准差法取舍数据,即如果数据值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值舍弃。以上时指数据较多的情况。㈤标准分数的应用4.异常值的取舍如果数据个数较少,则可依据下表所列的标准差数的一半(全距与标准差比率一半)乘以标准差,然后再求与平均数的和、差,并以这两个值为界取舍数据。表4-15全距与标准差的比率随N变化表N5101520405010020040050070010002.33.13.53.74.34.55.05.55.96.16.36.5第三节相关与回归一、相关相关(correlation)的概念两个变量之间不精确、不稳定的变化关系称为相关关系。相关系数(correlationcoefficient)用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一般用r表示。正相关positivecorrelation负相关negativecorrelation零相关相关系数相关系数不等距,只能比较,不能直接作加、减、乘、除。相关不等于因果:相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示二者之间的内在本质联系。

积差相关积差相关(PearsonProductMomentCorrelationCoefficient,r)的概念当两个变量都是正态连续变量,而且两者之间呈线性关系,表示这两个变量之间的相关称为积差相关。积差相关使用的条件两个变量都是由测量获得的连续性数据;两个变量的总体都是呈正态分布,或接近正态分布,至少是单峰对称分布;必须是成对的数据,而且每对数据之间是相互独立的;两个变量之间呈线性关系;排除共变因素的影响;大样本。积差相关系数的定义和计算协方差(covariance)是积差相关系数的基础,它是两个变量离差乘积之和除以n所得之商。其公式为:积差相关系数的定义和计算积差相关系数是协方差除以两个变量的标准差。其公式为:用原始数据直接计算,则例题为研究某测验的预测效度,在被录取的高考考生中随机抽取10人,测得他们的能力测验得分(X),对他们进行跟踪研究,求得他们大学一、二年级有关科目平均分数(Y),求该测验的效度。X74718085767777687474756Y82758189828988848087837相关系数的显著性检验相关系数的抽样分布只有当总体相关系数为0,或者相关系数接近于0且样本容量相当大(n>50或n>30)时,r的抽样分布才接近正态分布。相关系数显著性检验的步骤及方法(1)H0:ρ=0;(2)H0:ρ=ρ0;(3)H0:ρ1=ρ2

相关系数的显著性检验相关系数显著性检验的步骤及方法(1)H0:ρ=0;(2)H0:ρ=ρ0;(3)H0:ρ1=ρ2

二、回归将存在相关的两个变量,一个作为自变量,另一个作为因变量,并把二者之间不十分准确、稳定的关系,用数学方程式来表达,则可利用该方程由自变量的值来估计、预测因变量的估计值,这一过程称为回归分析

回归表示一个变量随另一个变量作不同程度变化的单向关系。

相关与回归是从不同角度对变量间关系的分析:相关关系是两个变量之间的双向关系,没有主从之分;而回归关系是两个变量之间的单向关系,是自变量对因变量的影响关系。相关关系用相关系数来表示,而回归关系用数学模型来表示,这种数学模型称为回归方程(regressionequation)二.一元线性回归方程的建立1.一元线性回归概念

线性回归(linearregression):自变量与因变量之间呈线性关系(linearrelationship)的回归关系。一元线性回归是指只有一个自变量的线性回归。一元线性回归又称为简单线性回归(simplelinearregression)。2.一元线性回归方程的通式式中:a为直线的截距;b为回归系数(也是回归直线的斜率)(20.1)

3.一元线性回归方程的建立建立回归方程的步骤一般包括:根据数据资料作散点图,判断直线关系;选定计算回归系数的方法并计算回归系数b和直线的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论