描述统计补充课件_第1页
描述统计补充课件_第2页
描述统计补充课件_第3页
描述统计补充课件_第4页
描述统计补充课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、描述性统计(descriptive statistics)研究数据收集、整理和描述的统计学分支 内容搜集数据整理数据展示数据描述性分析 目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x = 30 s2 = 105算数平均数(Mean)(计算公式)设一组数据为:X1 ,X2 , ,XN 简单均值的计算公式为设分组后的数据为:X1 ,X2 , ,XK 相应的频数为: F1 , F2, ,FK加权均值的计算公式为简单均值(算例)原始数据:10591368加权均值(算例)表1 某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi10511011011511

2、5120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计506160.0【例】根据表1中的数据,计算50 名工人日加工零件数的均值加权均值(权数对均值的影响) 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(X ): 0 20 100 人数分布(F ):1 1 8 乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1X甲01+201+1008n10i=1Xi 82(分)X乙08+20

3、1+1001n10i=1Xi 12(分)均值特点:1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5. 用于数值型数据,不能用于定类数据和定序数据(2)中位数 Me未分组数据的中位数(计算公式)数值型未分组数据的中位数 (5个数据的算例)原始数据: 24 22 21 26 20排 序: 20 21 22 24 26位 置: 1 2 3 4 5中位数 22数值型未分组数据的中位数 (6个数据的算例)原始数据: 10 5 9 12 6 8排 序: 5 6 8 9 10 12位 置: 1 2 3 4 5 6位置N+126+123.5中位数8 + 928.5数值型

4、分组数据的中位数(算例)表4 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50【例】根据表4中的数据,计算50 名工人日加工零件数的中位数中位数特点:集中趋势的测度值之一排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即四分位数(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置 =N+14上四分位数(QU)位置 =3(N+1)4下四分位

5、数(QL)位置 =N4上四分位数(QL)位置 =3N4数值型分组数据的四分位数(计算公式)上四分位数: 下四分位数: 数值型分组数据的四分位数(计算示例)QL位置50/412.5QU位置350/437.5表6 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50【例】根据表6中的数据,计算50 名工人日加工零件数的四分位数四分位数特点:1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3. 不受极端值的影响4. 主要用于定序数据,也可用于

6、数值型数据,但不能用于定类数据QLQMQU25%25%25%25%(4)众数 M0众数=出现次数最多的变量值无众数原始数据: 10 5 9 12 6 8一个众数原始数据: 6 5 9 8 5 5多于一个众数原始数据: 25 28 28 36 42 42数值型分组数据的众数(算例)表9 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50【例】根据表9中的数据,计算50名工人日加工零件数的众数数值型分组数据的众数(要点及计算公式)1. 众数的值与相邻两

7、组频数的分布有关4. 该公式假定众数组的频数在众数组内均匀分布2. 相邻两组的频数相等时,众数组的组中值即为众数Mo3. 相邻两组的频数不相等时,众数采用下列近似公式计算MoMo众数、中位数和均值的关系对称分布 均值= 中位数= 众数左偏分布均值 中位数 众数右偏分布众数 中位数 均值4、标志变异指标(离中趋势)(1)极差(2)四分位差(3)平均差(4)方差及标准差(5)标准差系数(6)均值标准误(1)全距(Range)1. 一组数据的最大值与最小值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布7891078910未分组数据 R = max(Xi) - min(Xi

8、).=组距分组数据 R 最高组上限 - 最低组下限5. 计算公式为(2)四分位差四分位差1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD = QU - QL4.反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性四分位差(定序数据的算例)【例】根据表中的数据,计算甲城市家庭对住房满意状况评价的四分位差解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2, QU = 一般 = 3四分位差: QD = QU = QL = 3 2 = 1表 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数

9、(户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300(3)平均差平均差(概念要点及计算公式)1. 离散程度的测度值之一2. 各变量值与其均值离差绝对值的平均数3. 能全面反映一组数据的离散程度4. 数学性质较差,实际中应用较少5. 计算公式为未分组数据组距分组数据平均差(计算过程及结果)表 某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)| Xi- X |Xi-X |Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5

10、132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计50312【例】根据表中的数据,计算工人日加工零件数的平均差(4)标准差与方差方差和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 12X = 8.3总体方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式总体标准差(计算过程及结果

11、)表 某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi- X )2(Xi- X )2Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计503100.5【例】根据表中的数据,计算工人日加工零件数的标准差样本方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方

12、差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!样本方差自由度(degree of freedom)一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量

13、样本方差(算例)原始数据: 10 5 9 13 6 8样本标准差(算例)样本标准差原始数据: 10 5 9 13 6 8方差(数学性质)各变量值对均值的方差小于对任意值的方差设X0为不等于X 的任意数,D2为对X0的方差,则(5)标准差系数标准差系数(离散系数)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5. 计算公式为离散系数(实例和计算过程)表 某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.

14、518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数(计算结果)X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)结论: 计算结果表明,V1 0为右偏分布4.偏态系数 0为左偏分布5. 计算公式为户数比重(%)252015105农村居民家庭村收入数据的直方图偏态与峰度(从直方图上观察)按纯收入分组(元)100050015002000250030003500400

15、045005000结论:1. 为右偏分布 2. 峰度适中偏态系数(计算过程)表 农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组(百元)组中值Xi户数比重(%)Fi(Xi- X ) Fi3(Xi- X ) Fi45以下5101015152020252530303535404045455050以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741

16、481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计1001689.2572521.25偏态系数(计算结果)根据上表数据计算得将计算结果代入公式得结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大 峰 度峰度(概念要点)1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数3为尖峰分布5. 计算公式为峰度系数系数(实例计算结果)代入公式得 【例】根据上表中的计算结果,计算农村居民家庭纯收入分布的峰度系数 结论:由于=3.43,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重 6、其他常用指标标准化值1. 也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论