第五讲 数据整理与描述_第1页
第五讲 数据整理与描述_第2页
第五讲 数据整理与描述_第3页
第五讲 数据整理与描述_第4页
第五讲 数据整理与描述_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五(d w)讲 描述性统计数据(shj)的描述性测度共五十四页内容提要(ni rn t yo)数据:随机性、大量性、变异性数据分布:次数(csh)分布、相对次数(csh)分布、累积次数(csh)分布、累积相对次数(csh)分布数据分布规律:分布中心、分布范围、对称性共五十四页次数(csh)分布表与图所谓次数分布(fnb),也叫频数分布(fnb),指的是一批数据中各个不同数值所出现的次数情况,或者是指一批数据在量尺上各等距区组内所出现的次数情况。把次数分布情况制成的统计图表就分别叫做次数分布图和次数分布表。 共五十四页次数分布(fnb)表的编制步骤求全(qiqun)距(极差)决定组数和组距决定

2、组限求组中值登记次数共五十四页共五十四页连续变量数据(shj)的实限连续变量的每一个值是代表数轴上的一段距离。这就出现了数据的实限问题。一个数据所代表的实际范围称为(chn wi)该数据的实限,包括从等于大于该数据的下实限至小于该数据的上实限。例子:5(下限为:4.5;上限为:5.5) 5.0 (下限为:4.95;上限为:5.05)共五十四页共五十四页相对次数(csh)分布表相对次数就是各组的次数f与总次数N之间的比值,若以Rf 表示,则Rf = f / N。相对次数分布表主要能反映各组数据(shj)的百分比结构。阅读相对次数分布表时,相对次数较大的组,则说明落入该组内的数据(shj)个数占全

3、部数据(shj)个数的比例也越多。反之,则越少。共五十四页累积次数(csh)分布表和累积相对次数(csh)分布表共五十四页次数(csh)分布图次数(csh)直方图共五十四页次数(csh)分布图次数(csh)多边图共五十四页共五十四页次数(csh)分布图累积(lij)次数分布图共五十四页练习(linx): 某校85班与86班统计学考试成绩(chngj)如表所示。要求对上述两个班的成绩(chngj)用两种分组办法进行分组,并利用两种分组的数据对两班成绩(chngj)进行比较和分析。 (1)以10分组距进行等组距分组;(2)如学校规定90100分为优、7589分为良、6074分为及格、59分以下为不

4、及格,按优、良、及格、不及格分组。共五十四页85班607948766758708277899510065647578558098887883548473809588687492856874726578897684488490856757896986班9174608493647881416160867262516084798082754253628282927675778583817683949490847881727085786392共五十四页数据(shj)的描述性测度中心(zhngxn)测度 平均数;中位数;众数变化测度 全距;方差与标准差; 四分位数和四分位距;极值形态测度 偏度;峰度共五

5、十四页(一)中心(zhngxn)测度 中心测度是指刻画数据集中趋势的数字,用来描述数据的中心位于何处(h ch)。 最常用的中心测度为平均数、中位数和众数,其中平均数和中位数只适用于定量数据,而众数既适用于定量数据,也适用于定性(分类)数据。共五十四页(1)算术(sunsh)平均数(M)总体算术(sunsh)平均数 样本算术平均数共五十四页算术(sunsh)平均数的特性所有观察值关于平均数的偏差(pinch)和为零,即对极值非常敏感。所有观察值关于平均数的偏差平方和最小。 共五十四页算术(sunsh)平均数的计算利用(lyng)原始数据进行计算利用频数分布表计算 共五十四页算术(sunsh)平

6、均数的优缺点优点 反应灵敏 严密确定(qudng) 简明易懂 适合代数运算 受抽样变动的 影响较小缺点 易受极端数值 的影响 一组数据中某 个数值的大小模 糊不清或不够确 切时无法计算共五十四页算术平均数的几个(j )特殊优点只知一组观察值的总和及总次数就可以求出算术平均数。用加权法可以求出几个平均数的总平均数。用样本数据推断总体集中量时,算术平均数最接近于总体集中量的真值,它是总体平均数的最好估计值。在计算方差、标准差、相关系数以及进行(jnxng)统计推断时,都要用到它。共五十四页(2)加权平均数加权平均数是不同(b tn)比重数据(或平均数)的平均数。用 表示。其计算公式有两种形式 共五

7、十四页(3)中位数定义:中位数是把按从小到大(从大到小)排列的一组数据一分为二的数值。中位数的计算: 1. 用原始数据计算(分奇数个数据和偶数个数据) 2. 利用(lyng)次数分布表计算 共五十四页利用次数(csh)分布表计算中位数(1)计算公式(由小向大计算) 表示(biosh)中位数所在组的下限; N表示总频数; 中位数所在组的频数; 表示小于中位数所在组下限的频数综合。共五十四页共五十四页中位数的优缺点与应用(yngyng)优点:不易受极端值影响缺点:不适合代数计算应用条件:一组数据中有特大或特小两极端数值时;一组数据中两端数据或个别数据不确切、不清楚时;当需要快速(kui s)估计一

8、组数据的代表值时;数据资料属于等级性质时。共五十四页(4)众数(zhn sh)众数的概念 理论众数是指与频数分布曲线最高点相对应的横坐标上的一点。 粗略众数是指一组数据(shj)中频数出现最多的那个数。共五十四页共五十四页众数的计算方法 (1)用观察法直接寻找众数 在频数(pn sh)分布表中,频数(pn sh)最多一组的组中值就是粗略众数。当两个相邻的组的频数(pn sh)都是最多时,那么两分组的分组点就是众数。 共五十四页(2)皮尔逊的经验法 当频数分布呈正态或接近正态时,皮尔逊发现众数近似(jn s)地等于3倍的中位数减去2倍的算术平均数。众数(zhn sh)的计算方法共五十四页众数(z

9、hn sh)的适用情况当需要快速而又粗略地找出一组数据的代表值时。当需要利用算术平均值、中位数、众数三者关系来粗略判断频数分布的形态时。利用众数帮助分析(fnx)解释一组次数分布是否确实具有两个次数最多的集中点时。共五十四页平均数、中位数、众数(zhn sh)三者之间的关系共五十四页常用中心测度(c du)概括测度特点使用注意事项众数适合于描述分类 变量或称名 变量的趋中程度 不准确、信息量有限、易产生误导 中数如果需要知道数据分布的中点或者数据分布明显偏态时,优先使用。对存在的极端高或极端低的数值不敏感平均数是最经常使用、最容易计算、容易理解的趋中测度对极值很敏感。如果数据中存在较多的极值,

10、或者分布明显偏态,可能产生误导加权平均数需要了解若干容量不同的子群体的总平均分权重的使用最为重要,尤其是子群体容量明显不同时共五十四页(二)变化(binhu)测度 变化测度是描述(mio sh)一组数据的变化程度或分散程度的数值。最常用的变化测度包括: (1)全距(全距=最高分-最低分) (2)方差与标准偏差 (3)四分位差 (4)极值共五十四页(2)平均差、方差(fn ch)与标准差 平均差(MD):就是每一个数据(shj)与该组数据(shj)的中位数(或算术平均数)离差的绝对值的算术平均数。共五十四页平均差的优缺点 与极差相比,平均差是利用全部数据信息计算的,意义明确,计算容易,较好地度量

11、了次数分布的离散(lsn)程度。但计算要用到绝对值,使它的应用大大受到限制。共五十四页方差(fn ch)方差是指离差平方和的算术平均数。用 表示。 方差虽然避免了绝对值的麻烦,但却又使变量(binling)的单位变成原单位的平方。共五十四页标准差标准差是指离差平方和平均后的方根,即方差(fn ch)的平方根。用 表示。共五十四页方差(fn ch)与标准差的优缺点优点:反映灵敏,严密确定,计算简单(jindn),用样本数据推断总体差异量时,方差与标准差是最好的估计量。缺点:易受极端数值的影响,有个别数据模糊不清时便无法计算。共五十四页(3)四分(s fn)位差百分位数:就是次数分布中相对于某个特

12、定百分点的原始分数。百分位数的计算公式如下:Pm第m百分位数;LPm所在(suzi)组的组下限;fPm所在组的次数;Fb小于L的累计次数。 共五十四页共五十四页百分位差百分位差:是指两个(lin )百分位数之差。常用的有:共五十四页四分(s fn)位差 若将从小到大排列的一组数据分成频数相等(xingdng)的四段,第一与第二段的分界点称为第一个四分位数。第三段与第四段的分界点称为第三个四分位数。则四分位差就是第三个四分位数(第75百分位数)与第一个四分位数(第25百分位数)的差。公式为:共五十四页极差、百分位差、四分(s fn)位差 极差:最简单、最易理解的差异量数,但也是最粗糙、最不可靠(

13、kko)的值。 级差明显地受取样变动的影响,一般情况下主要用于对数据做预备性检查,了解数据的大概散布范围,以便确定如何进行统计分组。 百分位差与四分位差:与极差相比,避免了极端数据的影响,但由于没有把全部数据考虑在内,其稳定性会差一些。 另外,它们也不适合代数方法运算,反应不够灵敏,应用不多。共五十四页(4)极值(j zh) 极值是指位于数据总体分布之外的一些(yxi)极端的数值。极值的产生可能主要有下列原因: (1)极值是真的测量结果; (2)可能是由于数据记录或录入误差造成的; (3)极值数据可能来自其他总体。共五十四页确定(qudng)极值的方法 统计学上通常(tngchng)用四分位数

14、和四分位距作为确定极值的工具,过程如下: (1)首先根据四分位数和四分位距确定数据分布的上、下限: 下限=Q1-.1.5IQR;上限=Q3+1.5IQR (2)小于下限和大于上限的观察值就是潜在的极值。 (3)确定了潜在的观察值后,可以用直方图、茎叶图等进一步检查这些观察值是否真的是极值。共五十四页(三)分布(fnb)形态测度偏度:是描述(mio sh)数据分布对称性的测度。共五十四页偏度数据(shj)呈对称分布,此时平均数与中数相等;数据呈正偏态,此时平均数大于中数;数据呈负偏态,此时平均数小于中数。共五十四页共五十四页峰度 峰度是描述数据围绕平均数分布的紧密(jnm)程度,或者分散程度。共五十四页峰度 与平均数、标准偏差一样,峰度对极端值的存在非常敏感。统计学上,将数据分布分为三种类型,即常峰态、低峰态和尖峰态。 数据呈常峰态。一般而言,钟型分布和正态分布都是常峰态的。 数据呈低峰态,即中间部分的数据较少,相当一部分数据分布在两端极端高或极端低的位置,而且(r qi)这种分布的偏度指数一般不太高。 数据呈尖峰态,即相当一部分数据分布在少数的位置,这个位置可以是靠中间的位置,也可以是靠某一端的位置,其他位置的数据分布明显较少。共五十四页共五十四页内容摘要第五讲 描述性统计。某校85班与86班统计学考试成绩如表所示。(1)以10分组距进行等组距分组。总体算术平均数。样本算术平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论