




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第 2 2 章章 统计数据的描述统计数据的描述统计学2.1 数据的整理统计整理的步骤统计整理的步骤2.1.1 统计数据的分组统计数据的分组o 1 1、统计分组含义、统计分组含义n 按某个标志把总体划分为若干组,称为统计分按某个标志把总体划分为若干组,称为统计分组。组。分组标志是划分数据的标准或依据分组标志是划分数据的标准或依据n 分组的性质来:兼有分和合双重含义。分组的性质来:兼有分和合双重含义。o 2 2、统计分组的原则、统计分组的原则 穷尽原则穷尽原则 互斥原则互斥原则o 3 3、统计分组方法、统计分组方法 品质标志分组品质标志分组 数量标志分组数量标志分组o 品质分组品质分组品质标志:
2、性别、职业、所有制等。n 分组标志一经确定,组名和组数也随之确定分组标志一经确定,组名和组数也随之确定 n 品质分组所形成的数列称为品质数列品质分组所形成的数列称为品质数列如不同品牌饮料市场占有率如不同品牌饮料市场占有率饮料品牌饮料品牌人数人数百分比百分比(%)(%)可口可乐可口可乐旭日升冰茶旭日升冰茶百事可乐百事可乐汇源果汁汇源果汁露露露露15151111 9 9 6 6 9 930302222181812121818合计合计5050100100o 数量标志分组数量标志分组 首先,各组数量界限的确定必须能反映事物质的首先,各组数量界限的确定必须能反映事物质的差别。差别。其次,应根据总体的数量
3、特征,采用适当的分组其次,应根据总体的数量特征,采用适当的分组形式。形式。 数量标志:年龄、产量、利润等。 o变量(数量标志)分组单变量值分单变量值分组组组距分组单变量值分组(要点)o 1. 将一个变量值作为一组将一个变量值作为一组o2.2.适合于变量值较少的适合于变量值较少的 离散变量离散变量组距分组 (要点)1.将变量值的一个区间作为一组将变量值的一个区间作为一组2.适合于连续变量和变量值较多适合于连续变量和变量值较多的离散变量。的离散变量。3.需要遵循需要遵循“不重不漏不重不漏”的原则的原则4.有等距分组和不等距分组有等距分组和不等距分组组距分组组距分组(几个概念几个概念)1. 1. 下
4、限下限(low limit)(low limit) :2. 2. 上限上限(upper limit) (upper limit) :3. 3. 组距组距(class width) (class width) :4. 4. 组中值组中值(class midpoint) (class midpoint) :n 开口组的组距:以相邻组的组距代替。开口组的组距:以相邻组的组距代替。n 常以组中值来代表各组平均水平。常以组中值来代表各组平均水平。组距分组(步骤)1. 确定组数:确定组数:o斯特杰斯经验公式:斯特杰斯经验公式:组数组数=1+3.3 Lg=1+3.3 Lg N N 2.1.2 次数分配次数分
5、配 P17o 在分组的基础上,将所有单位归类并列出每一在分组的基础上,将所有单位归类并列出每一组组的次数的次数,称为次数分布或频数分布。,称为次数分布或频数分布。o 次数分布数列的两个要素次数分布数列的两个要素n 1 1)按某标志所分的组。)按某标志所分的组。n 2 2)各组所出现的单位数,即频数,亦称次数。)各组所出现的单位数,即频数,亦称次数。n 一般用一般用x x表示变量;用表示变量;用f f表示频数(次数)。表示频数(次数)。 2.1.3 次数分配图次数分配图o用直方形的宽度和高度来表示次数分用直方形的宽度和高度来表示次数分布的图形。布的图形。o绘制直方图时,横轴表示各组组限,绘制直方
6、图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方)。率(或频率,一般标在右方)。分组数据的图示直方图下的面积之和等于1o折线图:折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成分组数据的图示(折线图的绘制)折线图与直方图下的面积相等!o 曲线图:用平滑曲线连接各组次数坐标点即曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。得分布曲线。频数分布的类型频数分布的类型2.1.4 洛伦茨曲线与基尼系数洛伦茨曲线与基尼系数洛伦茨曲线洛伦茨曲线1.1. 2020世纪初美国经济学家、统计学家
7、洛伦茨世纪初美国经济学家、统计学家洛伦茨(M.E. (M.E. LorentzLorentz) )根据意大利经济学家巴雷特根据意大利经济学家巴雷特(V. Pareto)(V. Pareto)提出的收入分配公式绘制而成提出的收入分配公式绘制而成2.2. 描述收入和财富分配性质的曲线描述收入和财富分配性质的曲线3.3. 分析该国家或地区分配的平均程度分析该国家或地区分配的平均程度 AB基尼系数基尼系数 1.1. 2020世纪初意大利经济学家基尼世纪初意大利经济学家基尼(G. Gini(G. Gini) )根据洛根据洛伦茨曲线给出了衡收入分配平均程度的指标伦茨曲线给出了衡收入分配平均程度的指标2.
8、A A表示实际收入曲线与绝对平均线之间的面积表示实际收入曲线与绝对平均线之间的面积3.3. B B表示实际收入曲线与绝对不平均线之间的面积表示实际收入曲线与绝对不平均线之间的面积AB如果如果A=0A=0,则基尼系数,则基尼系数=0=0,表示收入绝对平,表示收入绝对平均均如果如果B=0B=0,则基尼系数,则基尼系数=1=1,表示收入绝对不,表示收入绝对不平均平均基尼系数在基尼系数在0 0 和和1 1之间取值之间取值一般认为,基尼系数若小于一般认为,基尼系数若小于0.20.2,表明分配,表明分配平均;基尼系数在平均;基尼系数在0.20.2至至0.40.4之间是比较适当之间是比较适当的,即一个社会既
9、有效率又没有造成极大的的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在分配不公;基尼系数在0.40.4被认为是收入分被认为是收入分配不公平的警戒线,超过了配不公平的警戒线,超过了0.40.4应该采取措应该采取措施缩小这一差距。施缩小这一差距。 2.2 2.2 集中趋势的测度集中趋势的测度一一. . 众数众数二二. . 中位数和分位数中位数和分位数三三. . 均值均值四四. .众数、中位数和均值的比较众数、中位数和均值的比较集中趋势集中趋势(central tendency)(central tendency)2.2.1 众数 (mode)1.集中趋势的测度值之一集中趋势的测度值之一2
10、.出现次数最多的变量值出现次数最多的变量值3.不受极端值的影响不受极端值的影响4.可能没有众数或有几个众数可能没有众数或有几个众数众数(不唯一性)o无众数无众数原始数据: 10 5 9 12 6 81 1、由单项数列求众数、由单项数列求众数 某某 车车 间间 工工 人人 日日 产产 情情 日产量(件)日产量(件)人数(人)人数(人)11501260139014251515合计合计2402.2.由组距数列计算由组距数列计算 首先确定次数最多的组,即众数组,然首先确定次数最多的组,即众数组,然后,用公式计算。后,用公式计算。dLM2110dUM2120下限公式:下限公式: 上限公式:上限公式:2.
11、2.2 2.2.2 中位数中位数 (median)(median)1.排序后处于中间位置上的值1 1、由未分组资料计算中位数、由未分组资料计算中位数 件)(5.122)1312(Me 设有六个工人的日产量设有六个工人的日产量(件件)依次排列为依次排列为10、11、12,13、14、15、则:、则: 中位数位次(中位数位次(n+1)2 6+123.5(1 1)由由单项数列单项数列求中位数求中位数2 2、由分组资料计算中位数、由分组资料计算中位数: :例例10:某生产车间:某生产车间120名工人生产某种零件的日产名工人生产某种零件的日产量如下表所示,计算该车间工人日产量的中位数。量如下表所示,计算
12、该车间工人日产量的中位数。按日产量分组(件)按日产量分组(件)工人数(人)工人数(人)累计次数(向上)累计次数(向上)2020222224242626303032323333101012122525303018181515101010102222474777779595110110120120合计合计120120fmmfLMes122.2.由组距数列求中位数,由组距数列求中位数,下限公式:下限公式:L为中位数所在组下限为中位数所在组下限sm1为中位数所在组以前各组的累计次数为中位数所在组以前各组的累计次数fm为中位数所在组的次数为中位数所在组的次数从某单位抽查从某单位抽查800户,取得人均收入
13、资料如下表,户,取得人均收入资料如下表,计算该单位人均收入的中位数。计算该单位人均收入的中位数。人均收入(元)人均收入(元)户数(户)户数(户)累计次数累计次数400-500500-600600-700700-800800-900900-10001000以上以上5451004301684210550150580748790800合计合计800中位数位次中位数位次f28002400,中位数组,中位数组在在700-800这一组中。由下限公式这一组中。由下限公式元)(14.75810043015040070012dfmSmfLMeo中位数的性质中位数的性质: :数据值与中位数之差的绝对值最小数据值与
14、中位数之差的绝对值最小. .2.2.3 四分位数 (quartile)1.排序后处于25%和75%位置上的值四分位数2.2.4 2.2.4 均值均值 (mean)(mean)1. 集中趋势的最常用的测度值简单算术平均数简单算术平均数(simple mean)(simple mean)加权算术平均数加权算术平均数(weighted mean)(weighted mean) (例题分析)o ffxfxfx(权数对均值的影响权数对均值的影响)P34o 甲组:甲组: 考试成绩(考试成绩(x ): 0 20 100o 人数分布(人数分布(f ):):1 1 8o 乙组:乙组: 考试成绩(考试成绩(x):
15、 0 20 100o 人数分布(人数分布(f ):):8 1 1算术平均数算术平均数(数学性质数学性质)o1.1.各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零调和平均数(harmonic mean)1.1. 均值的另一种表现形式均值的另一种表现形式调和平均数某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格( (元元) ) X X成交额成交额( (元元) ) X X f f成交量成交量( (公公斤斤) )f f甲甲乙乙丙丙1.201.200.500.500.800.8018000180001250012500640064001500015000
16、250002500080008000合计合计36900369004800048000几何平均数(geometric mean)1. n 个变量值乘积的 n 次方根2. 适用于对比率数据的平均3. 主要用于计算平均增长率【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。众数、中位数和均值的比较众数、中位数和均值的比较o 众数是分布最高峰的位置众数是分布最高峰的位置o 中位数从面积上将分布分成两等份中位数从面积上将分布分成两等份o 均值由于受极端值的影响,偏向极端值。均值由于受极端值的
17、影响,偏向极端值。众数、中位数和均值的关系众数、中位数和均值的关系众数、中位数和均值的特点和应用众数、中位数和均值的特点和应用1. 众数众数n 不受极端值影响不受极端值影响n 具有不唯一性具有不唯一性n 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2. 中位数中位数n 不受极端值影响不受极端值影响n 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3. 平均数平均数n 易受极端值影响易受极端值影响n 数学性质优良数学性质优良n 数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用2.3 分布离散程度的测度分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差
18、三、方差和标准差四、离散系数四、离散系数极差(range)1. 一组数据的最大值与最小值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布内距内距(Inter-Quartile Range,IQR)(Inter-Quartile Range,IQR) 1.1. 也称四分位差也称四分位差2.2. 上四分位数与下四分位数之差上四分位数与下四分位数之差o 内内 距距= = Q Q3 3 Q Q1 13.3. 反映了中间反映了中间50%50%数据的离散程度数据的离散程度4.4. 不受极端值的影响不受极端值的影响5.5. 可用于衡量中位数的代表性可用于衡量中位数的代表性方差和标准
19、差方差和标准差方差和标准差(Variance and Standard deviation)1.离散程度最常用的测度值2.反映了各变量值与均值的平均差异总体方差和标准差 (Population variance and Standard deviation)样本方差和标准差样本方差和标准差 (simple variance and standard deviation)(simple variance and standard deviation)样本方差P34 自由度(degree of freedom)1. 一组数据中可以自由取值的数据的个数2. 当样本数据的个数为 n n 时,若样本均值
20、x x 确定后,只有n n-1-1个数据可以自由取值,其中必有一个数据则不能自由取值3. 例如,样本有3个数值,即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则 x x = 5= 5。当 x x = 5 = 5 确定后,x x1 1,x x2 2和x x3 3有两个数据可以自由取值,另一个则不能自由取值,比如x x1 1=6=6,x x2 2=7=7,那么x x3 3则必然取2 2,而不能取其他离散系数离散系数(coefficient of variation)1. 标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同
21、组别数据离散程度的比较某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.02.5 2.5 统计表与统计图统计表与统计图2.5.1 2.5.1 统计表统计表o把统计数据按一定的顺序排列在表格把统计数据按一定的顺序排列在表格上,就形成了统计表。上,就形成了统计表。统计表的结构19992000年城镇居民家庭抽样调查资料年城镇居民家庭抽样调查资料项目项目单位单位1999年
22、年 2000年年 调查户数调查户数 平均每户家庭人口平均每户家庭人口 平均每户就业人口平均每户就业人口 平均每户就业面平均每户就业面 平均一就业者负担人数平均一就业者负担人数 平均每人全部年收入平均每人全部年收入 可支配收入可支配收入 平均每人消费性支出平均每人消费性支出户户人人人人%元元元元元元元元 400443.141.7756.431.775888.775854.024615.91 4222.0 3.13 1.68 53.67 1.86 6316.81 6279.98 4998.00资料来源:中国统计年鉴2001,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽
23、样调查材料。 统计表的设计(比较与选用)2.5.2 2.5.2 统计图统计图数值型数据的图示 未分组数据茎叶图(stem-and-leaf display)1. 显示显示未分组未分组的原始数据的分布的原始数据的分布2. 由由“茎茎”和和“叶叶”两部分数字组成两部分数字组成.3. 以高位数作树茎,低位数作树叶以高位数作树茎,低位数作树叶4. 树叶上只保留一位数字树叶上只保留一位数字5. 5. 茎叶图类似于横置的直方图,但茎叶图类似于横置的直方图,但又有区别又有区别 直方图可观察一组数据的分布状况,直方图可观察一组数据的分布状况,但没有给出具体的数值但没有给出具体的数值 茎叶图既能给出数据的分布状
24、况,又茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始能给出每一个原始数值,保留了原始数据的信息数据的信息未分组数据茎叶图(例题分析)未分组数据茎叶图(扩展的茎叶图)未分组数据箱线图(box plot)1.1. 用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布2.2. 箱线图由一组数据的箱线图由一组数据的5 5个特征值绘制而个特征值绘制而成,它由一个箱子和两条线段组成成,它由一个箱子和两条线段组成3.3. 其绘制方法是:其绘制方法是:n 首先找出一组数据的首先找出一组数据的5 5个特征值,即个特征值,即最最大值、最小值、中位数大值、最小值、中位数M Me e 和两个
25、和两个四分四分位数位数( (下四分位数下四分位数Q QL L和上四分位数和上四分位数Q QU U)n 连接两个四分(位)数画出箱子,再将连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接两个极值点与箱子相连接 未分组数据单批数据箱线图(箱线图的构成)未分组数据单批数据箱线图(例题分析)分布的形状与箱线图未分组数据多批数据箱线图 (例题分析)P43频数分布的类型计算分析题1.1.某厂某厂400400名职工工资如下名职工工资如下按月工资分组(元)按月工资分组(元)职工人数(人)职工人数(人)450-550550-650650-750750-850850-950601001406040合计合计
26、400根据上述资料计算该厂职工平均工资和标准差。解:职工人数职工人数f组中值组中值xxf60100140604050060070080090030000600009800048000360001944000640005600086400019360004002720005440000fxx2)((元)标准差平均工资62.1164005440000ffxx680400272000fxfx22.某县去年年粮食产量资料如下:按单位面积产量分组(千克公顷)播种面积比重3000以下3000-37503750-60006000以上0.050.350.400.20根据上表资料计算该县粮食作物平均单位面积产量
27、。解:x26253375487571250.050.350.40.2131.251181.251950.001425.001.004687.5ffffx5 .468720. 0712540. 0487535. 0337505. 02625ffxx3.某地甲、乙两个农贸市场三种主要蔬菜价格及销售资料如下:品种价格(元千克)甲销售额(万元)乙销售额(万元)ABC0.300.320.3675.040.045.037.580.045.0比较该地区哪个农贸市场蔬菜平均价格高?并说明原因。解:325.05005.163xmm32.0500160 xmm乙甲HH4. .某工厂生产一批零件共某工厂生产一批零件共1010万件,为了解这批产品的万件,为了解这批产品的质量,采取不重复抽样的方法抽取质量,采取不重复抽样的方法抽取10001000件进行检查,件进行检查,其结果如下,根据质量标准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度城市基础设施建设债权转让与融资合同
- 2025年度商铺转让三方合同附带品牌授权与培训支持
- 2025年度石料场生产承包环境保护与修复责任合同
- 2025年度教育培训机构兼职正式聘用教学合同
- 2025年度购房合同解除补偿协议范文
- 2025年度农村出租房租赁与农村养老服务业合作合同
- 二零二五年度股权代持协议书:文化娱乐股权代持与IP开发合作合同
- 2025年旅游行业现状分析:国内旅游人次预计达到63亿
- 2024-2025学年北京市二中高三上学期期中调研生物试卷
- 2025年吉林省吉林市单招职业适应性测试题库汇编
- (新版)网络攻防知识考试题库(含答案)
- 建筑工程资料档案盒侧面标签
- 工程设计变更工程量计算表
- 广东粤教版第3册上信息技术课件第5课神奇的变化-制作形状补间动画(课件)
- 动力工程及工程热物理专业英语课件
- 幼儿系列故事绘本课件达芬奇想飞-
- (中职)中职生礼仪实用教材完整版PPT最全教程课件整套教程电子讲义(最新)
- 出纳收入支出日记账Excel模板
- 给水排水用格栅除污机通用技术条件
- 一年级下册综合实践活动课件-身边的水果和蔬菜全国通用16张
- 市政工程主要施工机械设备
评论
0/150
提交评论