




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 差异量数measures of variation湖北医药学院第四章差异量数A、概念:表示一组数据的差异情况或离散程度的量数,反映数据分布的离中趋势。描述事物差异性的表现。 差异量越小,平均数的代表性越好。 差异量越大,平均数的代表性则差。B、种类: 绝对差异量,包括:全距、百分位差、四分位差、平均差、标准差、方差。 相对差异量,常见的有差异系数。内容第一节 全距与百分位数第二节 平均差、方差与标准差第三节 标准差的应用第四节 差异量数的选用理解差异量数的含义认识标准差的性质、作用掌握标准差的计算方法熟悉运用各种差异量数描述一组数据的特征及若干组数据的比较掌握标准分数及其运用对全距的评
2、价 优点:简单、容易理解、计算简单的差异量数。缺点:粗糙和不可靠,不稳定、不灵敏,明显受到抽样的影响。是一种低效的差异量数。应用:用于对数据作预备性检查,了解数据的大概范围,以便如何进行统计分组。P70表示70%的位数,它代表在按照从小到大顺序排列的一组数据中的一个可能数值,小于这个数值的数据个数占70%,大于这个数值的数据占30%。如:当P70=110,则表示在所有的数据中,有70%的数据小于110,而有30%的数据大于110。分组数据,百分位数的计算公式式中: b 为某一百分位数所在组的精确下限 Fb 为百分位数所在组下限以下的累积频数f 为某一百分位数所在组的频数n 为数据总的次数 i
3、为组距Fb.I , fLbX11步骤如果得到了向上累加频数分布表,求百分位数的步骤如下:1 找到P百分位数所对应的名次,即n*P%2 从累加频数中找到该名次所在的分组,及该组的频数f和组距i。3 找到该分组区间的精确下限值b和该组以下的累加频数Fb4 将上面的数据代入公式中即可计算出P值。百分位差百分位差是指两个百分位数之差,也叫百分位距。常用的百分位距有两种: P90P10和 P93P7。用几个百分位距能较好地反映一组数据的差异程度。但有一定的局限,只作为主要差异量数的辅助量数百位数的应用某招干考试分数如表,预定取考分居前10%的应考人员进行面试选拔,请划定面试分数线用累加次数分布曲线图求百
4、分位数是一种粗略的计算方法百分等级分数百分等级分数与百分位数相反,它是事先知道分布中的一个原始分数,再求这个原始分数在分布中所处的相对位置百分等级。百分等级分数指出原始数据在常模团体中的相对位置,百分等级越小,原始数据在分布中相对位置越低;百分等级越大,原始数据在分布中相对位置越高百分等级分数的计算公式式中:b 为某特定原始变量所在组的下限Fb 小于Lb的累积频数f 为某特定原始变量所在组的频数N 为数据总的次数i 为组距百分等级分数的应用例2 所列的考试分数分布中,已知某应试者的考分为82分,问在这次考试中低于该应试者的人数比例由一个原始分数求低于它的分数比例,是一个求百分等级的问题,利用公
5、式:82分的百分等级96.28,即有96.28%的应试者考分低于82分四分位距(差)四分位差,是百分位差的一种,四分位距是第一个四分位数与第三个四分位数之差的一半,即在一个次数分布中,中间50%的次数的距离的一半。 用四分位数间距可反映数据变异程度的大小.计算公式为: (公式4-4)四分位差的计算,基于P25、P75两个百分位数,这两个点值和中数一起把一组数据的次数等分为四部分。四分位数通常与中数联系起来共同应用,中数可以看作是第二四分位点。对于未分组数据求四分位差,Q1、Q3可依照未分组数据求中数的方法求得在分组数据中LQ:表示Q所在组的下限N:表示总频数fb:表示小于Q所在组下限的频数总和
6、i:表示组距用中位数作集中量时,常用四分位距作差异量。2 四分位数Q1、Q2、Q3之间的关系Q1 Q2 Q3Q1 Q2 Q325% 25% 25% 25%25% 25%Q=Q3-Q2=Q2-Q1=(Q3-Q1)/2四分位差特点优点:1 常与中数联系起来共同应用。2 对数据的离散程度的描述比全距好缺点:1 稳定性差2 反映不灵敏3 不能进行代数运算第二节、平均差、方差与标准差一、动差体系动差(moment)是物理学上测量力的旋转趋势的名称,旋转趋势的大小随力点与原点距离大小而变化,其大小是力与该距离的乘积。统计学借用力学上的动差概念来表示次数分布的离散情况。把各组次数当作力学上的力,用数值或组中
7、值与原点之差作为距离来计算动差。以平均数为原点的动差叫做中心动差,常见的中心动差:28常见的中心动差:一级动差二级动差三级动差四级动差因其总和等于0,故不能用来表示离散程度,一般采用平均差方差,最广泛的一种差异量数指标,用来表示一个分布中离中趋势的指标,其平方根是标准差用来表示一个分布中偏斜度或偏态性的指标用来表示一个分布中峰态性的指标29二、平均差 平均差(average deviation 或者 mean deviation)是指一组数据中,每一个数据与该组数据的平均数离差的绝对值的算术平均数,通常用AD或MD表示。301 原始数据计算公式2 次数分布表计算公式(公式4-5)(公式4-6)
8、xi为离均差313 评价优点:1 平均差意义明确,计算容易,反应灵敏。2 较好地反映了次数分布的离散程度。缺点:1 平均差计算时要用绝对值,不适合代数运算,因此在进一步统计分析中应用较少。2 属于一种低效差异量数。324 应用例子4-2: 有5名被试的错觉实验数据如下,求其平均差 解:已知n=5,M=18.6被试12345错觉量161820221733三、方差和标准差方差(variance)又称为变异数、均方。是表示一组数据离散程度的统计指标。一般样本的方差用 表示,总体的方差用 表示。标准差(standard deviation)是方差的算术平方根。一般样本的标准差用 S 表示,总体的标准差
9、用 表示。标准差和方差是描述数据离散程度最常用的差异量。341、离差平方和 把每一个原始数据与平均数之差的平方加起来,就得到离均差的平方和,也叫和方、均方和:35对原始数据公式的推算361.方差和标准差的定义(公式4-7)(公式4-8)方差是每个数据与该组数据平均数之差平方后的均值,即离均差平方后的平均数。方差的平方根是标准差372方差和标准差的计算公式方差的原始数据计算公式(公式4-9)其中: 是原始数据的平方和 是原始数据总和的平方 N 为数据个数38标准差的原始数据公式(公式4-10)公式(4-7)、(4-8)等价于(4-9)、(4-10),当两个公式计算结果有出入时,应以原始数据计算公
10、式的结果更准确。39例子:计算6,5,7,4,6,8这一组数据的方差和标准差用公式(4-7)、(4-8)求:1 求样本平均数: =62 求离均差的平方和: =103 代入公式(4-7)、(4-8)求方差=1.67标准差=1.2940例子:计算6,5,7,4,6,8这一组数据的访查和标准差用公式(4-9)、(4-10)求:1 求原始数据的平方和: 2 求离均差的平方和: 3 代入公式(4-9)、(4-10)求 S=1.2941次数分布表计算公式(公式4-11)(公式4-12)42表4-2 52名学生数学成绩方差和标准差计算表成绩组中值Xc频数ff*Xcf*XC2计 算9597.521951901
11、2.59092.5218517112.58587.53262.522968.758082.55412.534031.257577.58620480507072.511797.557818.756567.59607.541006.256062.55312.519531.255557.54230132255052.521055512.54547.5147.52256.25合计523775280525433总标准差的合成 方差具有可加性的特点。当已知几个小组数据的方差或标准差时,可以计算几个小组联合在一起的总的方差或标准差。需要注意的是,只有在应用同一种观测手段,测量的是同一种特质,只是样本不同的数
12、据时,才能计算合成方差或标准差。44计算公式公式中: 为总方差, 为总标准差 Si为各小组标准差 ni为各小组数据个数 (公式4-13)(公式4-14)参考P9045例子4-4计算过程:1 计算总数据个数和总平均数2 计算3 把上面数据代入公式4-13和4-14求得464方差与标准差的性质方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。统计实践中常利用方差的可加性和可分解性来确定不同来源的变异性,进一步说明各种变异对总结果的影响(在方差分析中应用)47标准差是一组数据方差的算术平方根,它不可以进行代数计算,但有以下特性:(1)每一个观测值都加上一个相同常数c之后,计算得到的标
13、准差等于原标准差如果则即一组数据中的每个数都加上一个相同的常数,则这组数据彼此的离散程度不改变 48(2)每一个观测值都乘以一个相同常数c之后,计算得到的标准差等于原标准差乘以这个常数(3)以上两点相结合,每一个观测值都乘以一个相同常数C之后再加一个常数d,所得的标准差等于原标准差乘以这个常数c如果则如果则495方差和标准差的意义方差与标准差是表示一组数据离散程度的最好指标,是统计分析中最常用的差异量。方差与标准差的值越大,说明次数分布的离散程度越大,该组数据越分散;反之,说明次数分布的数据比较集中,离散程度越小。50标准差具备一个良好的差异量应具备的条件反应灵敏计算公式严密确定,容易计算,简
14、明易懂适合代数运算受抽样变动影响小等等。应用方差和标准差表示一组数据的离散程度,须注意必须是同一类数据(即同一种测量工具的测量结果),而且被比较样本的水平比较接近。51切比雪夫定理对于任何一个数据集合,至少有1-1/h2的数据落在平均数的h(h为大于1的实数)个标准差之内。例子:一组数据的平均数为50,标准差为5,则至少有1-1/22=75%的数据落在502*5=40-60之间;至少有1-1/32=88.9%的数据罗在503*5=35-65之间。52第三节标准差的应用在心理与教育统计中,在一些情况下不能用绝对差异量来比较不同样本的离散程度,此时用相对差异量数。 以下是两种不能直接比较标准差的情
15、况:53(1)两个或两个以上样本所使用的观测工具不同,所测的特质不同,此时标准差单位不同,不能直接比较;比如:身高和体重的数据,两者的标准差不能直接比较54(2)两个或两个以上样本使用的同一种测量工具,所测特质相同,但样本间水平相差较大,标准差会随平均数增大而增大,因此不能直接比较。比如:小学二年级与大学一年级学生的智力数据,不能直接比较。55一、差异系数的概念及计算公式1 差异系数(coefficient of variation)也叫变异系数、相对标准差,是指标准差与其算术平均数的百分比,它是没有单位的相对数。常以CV表示,其计算公式为 (公式4-15)562.差异系数的作用1 同一团体不
16、同单位资料的差异程度比较2 比较单位相同而平均数相差较大的两组资料的差异程度3 可判断特殊差异情况 根据经验,一般CV值常在535之间。如果CV大于35时,可怀疑所求得的平均数是否失去了意义;如果CV小于5时,可怀疑平均数与标准差是否计算有误。 57例1:比较计量单位不同的数据资料的差异程度1975年上海市区6岁男童体重与身高数据:平均数标准差差异系数体重19.39千克2.16千克11.14%身高115.87厘米4.86厘米4.19%与教材例4-5同类型3.差异系数的应用 58例2:比较单位相同而平均数相关较大的两组资料的差异程度。 1975年上海市区两组女童体重的数据: 平均数标准差差异系数
17、2个月组5.45千克0.62千克11.38%6岁组19.02千克2.12千克11.15%与教材例4-6同类型594.差异系数的应用条件差异系数主要应用于平均数不等于零的连续数据。学科成绩可以勉强计算差异系数。604 应用差异系数应注意第一,测量的数据要保证具有等距尺度,这时计算的平均数和标准差才有意义,应用差异系数进行比较也才有意义。第二,观测工具应具有绝对零,这时应用差异系数去比较分散程度效果才更好。第三,差异系数只能用于一般的相对差异量的描述。61二、标准分数标准分数(standard score),又称为基分数或分数(Zscore),是以标准差为单位表示一个原始分数在团体中所处位置的相对
18、位置量数。62例假设你在一次统计考试中得到 x76分。你做得怎样?显然,为了预测你的成绩优良中差,你需要更多的信息。你的 x76分可能是班里最好的成绩,也可能是分布里面最差的。为了找到你的分数的位置,你必须知道关于分布中其他分数的信息。比如说,知道全班的平均数是有帮助的。如果平均数70,那么,你的情况将比平均数85 时好很多。显而易见,你在班里的相对位置依赖于平均数。63但是,仅仅有平均数还不足以告诉你你的分数的精确位置。假设你知道本次统计考试的平均数并70 ,你的分数 X=76 。此时,你知道你的分数比平均数高6分,但是,你仍然不知道其准确的位置。6分可能是一个很大的分数段,你可能是班里的最
19、高分之一,或者6分可能是一个很小的分数段,你只是比平均数高一点而已。下图显示了考试分数的两种可能分布。两种分布的平均数都是70 ,但是,对于其中一个分布来说,标准差3对于另外一个分布来说=12 。注意,在两种分布中, x76 的相对位置是显著不同的。当标准差3 时,你的分数X = 76在最右边的尾端,是分布中的最高分数之一,可是在另外一个分布中,当12时,你的分数仅仅稍高于平均数。因此,你的实际分数在分布中的相对位置依赖于平均数和标准差。6465标准分数从分数对平均数的相对地位、该组分数的离中趋势(即标准差)两个方面来表示原始分数的地位。有了标准分数,就可以确定和描述一个分数在分布中的精确位置
20、。 661.标准分数的计算标准分数的计算公式为(公式4-16) 或(对总体而言) 67分数可以表明原始分数在团体中的相对位置,与( )成正比,与S成反比,称为相对位置量数。Z分数的符号(+或-)表示这个分数比平均数高(正)或者比平均数低(负).Z分数的数值用从X到 有几个标准差指出了其到平均数的距离(如下图)。6869练习1.对于一个=50、=10 的总体,求以下分数的 z 分数: a.X=55 b.X=40 c.X=30 2.时于一个=50、=10的总体,求对应于以下z分数的X值: a.Z=+1.0 b.Z=-0.5 c.Z=+2.07071把原始分数转换成分数,就把单位不等距的和缺乏明确参
21、照点的分数转换成以标准差为单位、以平均数为参照点的分数。因此Z分数是以0为参照点,以1为标准差的分数。722.标准分数的性质1)分数无实际单位,是以平均数为参照点、以标准差为单位的相对量。2)一组原始分数得到的分数既有正值,也有负值,所有原始分数的分数之和为零。根据平均数公式和Z分数的公式可以证明: 733)一组原始数据中,各个分数的标准差为。根据Z分数的第二条性质可以证明。4)若原始数据分布呈正态,则转换得的标准正态分布的平均值为,标准差为。743.标准分数的优点 可比性:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。可加性:标准分数使不同的原始分数具有相同的参照点,因而具有
22、可加性。明确性:标准分数较原始分数的意义更为明确。稳定性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实(合理性)。754、标准分数的应用1)用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。【例】 已知某班期末考试中语文的平均分为80,标准差为10;数学的平均分70,标准差为15;英语的平均分为85,标准差为12.甲生的语文成绩为85分,数学成绩为82分,英语成绩为90分,问该生这三科成绩哪一科最好? 76Z语文=0.5Z数学=0.8 Z英语=0.42平均分标准差甲生得分语文801085数学701582英语851290772)计算不同质的观测值的总和或
23、平均值,以表示在团体中的相对位置。 当研究需要合成不同质的数据时,如果已知这些不同质的观测值的次数分布为正态,这时可采用分数来计算不同质的观测值的总和或平均值。78【例4-9】A、B两个学生在三种考试中的分数见下表,试比较二人的分数是否有差别?考试XsXAXBxAxBZAZB1708709002002.5255457512-40.5-1342545403-20.6-0.479【例4-10】下表是高等学校入学考试中两名考生甲与乙的成绩分数。试问根据考试成绩应该优先哪名考生?考试科目原始成绩全体考生Z分数甲乙平均分标准差甲乙语文858970101.51.9政治70626551-0.6外语68726
24、98-0.1250.375数学53405060.5-1.67理化7287758-0.3751.5求和3483502.51.505803) 表示标准测验分数 经过标准化的心理和教育测验,常常用标准分数表示测验结果。如果其常模分数分布接近正态分布,为了克服标准分数出现的小数、负数和不易为人们所接受等缺点,常常是将其转换成正态标准分数。转换公式为: (公式4-17) 81例如:早期智力测验中运用智力商数表示智力测查的指标这种表示智力的方法后来被离差智商取代:82Z分数的评价优点:应用广泛缺点:1 计算繁杂,有负值和零值,常带小数2 进行比较时需要要求原始数据分布形态相同。3 为了克服这些缺点,在使用
25、过程中常对Z分数进行线性转换,使其服从理论上的正态分布83三、异常值的取舍 在一个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数。1 P68.26%2 P95.45%3 P99.73%数据多时,采用加减3个标准差方法84可以看到,在平均数上下各三个标准差的范围内,分布着全部数据的99.73%,反言之,在三个标准差之外的数据不足0.27%,因此常把“三个标准差”做为判断可疑值取舍的依据。852 切比雪夫定理:对于任何一个数据集合,至少有 1-1/h2 的数据落在平均数的h(大于1的实数)个标准之内。例子:一组数据的平均数为50,标准差为5,则至少有1-1/22=75%的数据落在
26、502*5=40-60之间;至少有1-1/32=88.9%的数据罗在503*5=35-65之间。86当数据比较少时可以根据标准差数的一半(全距与标准差比率的一半)乘以标准差,然后求于平均数的和、差,以这两个值为界取舍数据:N510152020501002004005007001000全距/S2.33.13.53.74.34.55.05.55.96.16.36.5表4-2 全距与标准差的比率随N变化表87第四节 差异量数的选用一、优良差异量数具备的标准二、各种差异量数优缺点比较三、各种差异量数之间的关系 四、如何选用差异量数88一、优良差异量数具备的标准1 差异量数由客观数据获得,不是人为的主观估计决定2 根据全部观测值计算而来,不是个别数据计算的结果3 简明、容易理解,不应过于带有数学抽象性质4 计算应该方便、容易、迅速。5 应该少受到抽样变动的影响,在反复取样过程中具有相对恒常性。6 应当能够采用代数方法计算89二、各种差异量数优缺点比较1 标准差比较难以理解,运算较繁琐,容易受极端值的影响。2 方差的描述作用不大,但由于其具有可加性,是对一组数据造成各种变异的总和的测量,通常采用方差的可加性分解并确定属于不同来源的变异性。3 全距计算简
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度员工工资协议书及员工股权激励实施办法
- 二零二五年度房产分割与归属权协议
- 2025年度牛羊肉质量安全检测与追溯系统合作协议
- 婚后财产独立管理与2025年度家庭财务安全协议
- 2025年度饮用水产业链上下游合作合同书
- 二零二五年度国有企业员工就业协议书模板(含福利待遇)
- 二零二五年度生态住宅购房意向协议
- 2025年度施工合同变更免责责任合同
- 二零二五年度金属包装制品绿色包装认证合同
- 2025年度高校实习教师培养项目合同
- 2025年湖南高尔夫旅游职业学院单招职业技能测试题库附答案
- 2025年湖南大众传媒职业技术学院单招职业技能测试题库新版
- 北京房屋租赁合同电子版7篇
- 《园林机械使用与维修》课件-任务3.园林养护机械
- 项目式学习在小学数学教学中的应用
- 2024年3月-6月-9月-12月青少年软件编程Python等级考试二级真题试卷(全4套 含答案)
- 2024年05月山东威海市商业银行科技类社会招考笔试历年参考题库附带答案详解
- 2025中智集团下属单位公开招聘41人高频重点提升(共500题)附带答案详解
- 中医理疗馆路演
- 产后腹直肌分离治疗
- 【责任清单】医院系统纪检监察责任清单
评论
0/150
提交评论