《统计学(第二版)》电子课件-第2章-数据的描述_第1页
《统计学(第二版)》电子课件-第2章-数据的描述_第2页
《统计学(第二版)》电子课件-第2章-数据的描述_第3页
《统计学(第二版)》电子课件-第2章-数据的描述_第4页
《统计学(第二版)》电子课件-第2章-数据的描述_第5页
已阅读5页,还剩149页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学主编:费宇,石磊(第二版)2/26/20251《统计学》第2章数据的描述第2章数据的描述2.1数据的计量与分类2.2数据的收集2.3数据的整理2.4集中趋势的度量2.5离散程度的度量2.6分布偏态与峰度2.7统计表2/26/20252《统计学》第2章数据的描述【引例2.0】统计数据2009年7月9日随机抽查了某大学50名任课教师的年龄,原始数据(周岁)如下:3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347

这一大堆数据可能使你眼花缭乱,也许你并不能够一下就记住所有数据。

假如我们感兴趣的是教师年龄的分布,那么,你认为对上述数据应该怎样分组才能显示教师年龄的分布特征?教师年龄的集中趋势如何?离散程度怎样?分布的偏态及峰度又应该如何测定呢?

2/26/20253《统计学》第2章数据的描述

数据的计量与分类

数据的计量尺度数据的类型2/26/20254《统计学》第2章数据的描述按照对现象计量程度的不同,可以将数据计量尺度分为四种,即:定类尺度、定序尺度、定距尺度、定比尺度。定类尺度(nominalscale)也称类别尺度或列名尺度,它是把事物按属性或类别分组。其计量的结果只是表现为某种类别,而对各类间的其它差别却无法测度。例如:人口按性别分为男、女两组。数据的计量尺度

2/26/20255《统计学》第2章数据的描述定序尺度定序尺度(ordinalscale)也叫顺序尺度,它是对事物之间等级差或顺序差别的测度,具有定类尺度的所有性能。例如:学生的考试成绩分为优、良、中、及格、不及格五组。2/26/20256《统计学》第2章数据的描述定距尺度(intervalscale)(也叫间隔尺度),是对事物间的类别或次序间的间距的测度,其计量结果表现为数值。

例如:三名学生考试成绩分别为60分、80分、90分。定距尺度2/26/20257《统计学》第2章数据的描述定比尺度定比尺度(ratioscale)(也叫比率尺度),它与定距尺度属于同一层次,其计量结果也表现为数值。

例如:3个工人的月收入分别为2000元、3000元、4000元。2/26/20258《统计学》第2章数据的描述四种尺度计量结果,形成三种数据:分类数据、顺序数据和数值型数据。分类数据(categoricaldata)——是定类尺度对现象计量的结果。例如人口按性别分类,则“男”、“女”即为分类数据。数据的类型2/26/20259《统计学》第2章数据的描述顺序数据顺序数据(rankdata)——是定序尺度对现象计量的结果。例如:人口按受教育程度分为“小学”、“初中”、“高中”、“大学及以上”组,则这里的“小学”、“初中”、“高中”、“大学及以上”即为顺序数据。分类数据和顺序数据合称为定性数据。2/26/202510《统计学》第2章数据的描述数值型数据数值型数据(metricdata)——是定距尺度和定比尺度对现象计量结果。例如学生的考试成绩70分、工人的月收入2000元均为数值型数据。数值型数据通常称为定量数据。2/26/202511《统计学》第2章数据的描述问题讨论前面例子中涉及的“性别”、“经济类型”、“受教育水平”、“考试成绩”、“月收入”能看作数据吗?如果它们不能看作数据,那么应该怎样正确理解这些概念?2/26/202512《统计学》第2章数据的描述数据的收集2.2.1数据的间接来源2.2.2数据的直接来源2/26/202513《统计学》第2章数据的描述2.2.1数据的间接来源间接来源的数据我们称之为第二手数据。可从各种公开出版物(如统计年鉴等)、报纸、杂志、图书、网络、新闻媒体等获取。2/26/202514《统计学》第2章数据的描述2.2.2数据的直接来源直接来源的数据我们称为第一手数据,主要依赖统计调查得到。2/26/202515《统计学》第2章数据的描述统计调查的分类统计调查按调查对象所包括的范围不同,分为全面调查与非全面调查。统计调查按登记事物的连续性不同,分为经常性调查和一次性调查。统计调查还可按组织方式不同分为统计报表和专门调查(专门包括普查、抽样调查、重点调查、典型调查)2/26/202516《统计学》第2章数据的描述常用的统计调查方式统计报表(statisticalreportforms)是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。统计报表目前是一种搜集数据的重要方式,但已不是主要方式。2/26/202517《统计学》第2章数据的描述普查普查(census):是为特定目的而专门组织的一次性全面调查。普查所搜集的是那种经常的、定期的统计报表所不能提供的更为详细的资料,主要是表明现象在某一时点上的情况,时间性要求很强。2/26/202518《统计学》第2章数据的描述普查的特点(1)需要规定统一的标准时间(资料所属时间),以避免调查数据的重复或遗漏;(2)通常是一次性或周期性的;(3)普查的数据一般较为准确,规范化程度较高;(4)普查适用的对象比较狭窄,只能调查一些最基本、最一般及特定的现象。2/26/202519《统计学》第2章数据的描述抽样调查抽样调查(samplingsurvey):是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。抽样调查的特点:经济性好、实效性强、适应面广、准确性高。2/26/202520《统计学》第2章数据的描述2.3数据的整理2.3.1分类数据和顺序数据的整理2.3.2数值型数据的整理2/26/202521《统计学》第2章数据的描述分类数据和顺序数据的整理对分类数据和顺序数据,我们可以计算出每一类别出现的频数或频率,通过频数分布表和图形来展示。2/26/202522《统计学》第2章数据的描述1.用频数分布表展示分类数据

和顺序数据用表格的形式将分类数据或顺序数据各分组极其相应的频(次)数全部罗列出来,就是频数分布表(或次数分布表)。分布在各组的单位数称为频数(frequency),也叫次数,各组次数与总次数之比称为频率,也叫比重(例)(proportion)。一组资料中,各组频率之和等于100%(或1)。2/26/202523《统计学》第2章数据的描述【例2.1】

——频数分布表的编制(数据文件为)对某高校经济系30名教师性别及职称登记结果,如表所示,试用SPSS分别编制教师性别及职称的频数分布表。2/26/202524《统计学》第2章数据的描述【例2.1】

——频数分布表的编制表2.1某高校30名教师性别及职称情况统计表序号性别职称序号性别职称序号性别职称1男讲师11男教授21男副教授2女助教12女副教授22女副教授3女副教授13女副教授23男讲师4女副教授14男讲师24女助教5男助教15男讲师25男副教授6男教授16男副教授26男讲师7女教授17女讲师27女教授8男讲师18男助教28男讲师9女副教授19女副教授29男副教授10男教授20女副教授30女教授原始数据:2/26/202525《统计学》第2章数据的描述【例2.1】

——频数分布表的编制解:首先将教师性别用代码0、1表示;将教师职称用代码2、3、4、5表示,然后在数据文件的“变量视图”窗口“值”栏定义变量值标签::0表示女性,1表示男性;2表示助教,3表示讲师,4表示副教授,5表示教授。2/26/202526《统计学》第2章数据的描述【例2.1】

——频数分布表的编制SPSS操作步骤:打开数据文件,点击“分析”→“描述统计”→“频率”→将“性别”与“职称”选入“变量(V)”框→点击“确定”,可得表及表。2/26/202527《统计学》第2章数据的描述2/26/2025《统计学实验》第2章数据的描述2-28表某高校30名教师性别分组频数分布表表2.3某高校30名教师职称分组频数分布表性别频率百分比有效百分比累积百分比有效女1446.746.746.7男1653.353.3100.0合计30100.0100.0职称频率百分比有效百分比累积百分比有效助教413.313.313.3讲师826.726.740.0副教授1240.040.080.0教授620.020.0100.0合计30100.0100.02/26/202528《统计学》第2章数据的描述2.用图形展示分类数据

和顺序数据适合分类数据和顺序数据的图形有条形图、饼图等。条形图:是用条形高度来表示数据多少的图形。饼图:又称圆图,它是以整个圆代表总体,按总体各部分占总体比重的大小将圆面积分割成若干扇形,从而用圆内扇形面积来直观反映各部分在总体中的比例。2/26/202529《统计学》第2章数据的描述【例2.2】

——条形图的绘制解:打开数据文件example2.1.sav;选择“图形”→点击“旧对话框(L)”→“条形图(B)”→“简单箱图”→在“图表中的数据为”中选“个案组摘要(G)→点击“定义”→在“条的表征”中选“个案数(N)”→将“职称”选入“类别轴()”(即横轴)→点击“确定”,可得图。(数据文件为)根据表资料,用SPSS绘制条形图。

2/26/202530《统计学》第2章数据的描述【例2.2】

——条形图的绘制图2.130名教师职称分布条形图2/26/202531《统计学》第2章数据的描述【例2.3】

——饼图的绘制(数据文件为)根据表资料,用SPSS绘制饼图。解:打开数据文件example2.1.sav;选择→“图形”→点击“旧对话框(L)”→“饼图(E)”→在“图表中的数据为”中选“个案组摘要(G)→点击“定义”→在“分区的表征”中选中“个案数(N)”→将“职称”选入“定义分区(B)”→点击“确定”,可得图。2/26/202532《统计学》第2章数据的描述【例2.3】

——饼图的绘制

图2.230名教师职称分布饼图2/26/202533《统计学》第2章数据的描述2.3.2数值型数据的整理用频数分布表(变量数列)展示数值型数据用图示展示数值型数据频数分布的类型2/26/202534《统计学》第2章数据的描述(变量数列)展示

数值型数据将数值型数据进行统计分组,就可以形成频数分布表(变量数列)。制作频数分布表时可用单变量值分组,也可用组距分组。单变量值分组通常适用于离散变量,且变量值变动幅度不大时;组距分组通常适用于变量值较多、且变动范围较大的离散型或连续型变量。2/26/202535《统计学》第2章数据的描述【例2.4】

——单变量值分组

某班学生按年龄(周岁)分组的结果如表所示:

表2.4某班学生按年龄(周岁)分组情况表按年龄分组(周岁)学生人数(人)比重(%)181920212236127210.0020.0040.0023.336.67合计30100.002/26/202536《统计学》第2章数据的描述组距分组中的几个基本概念组限:每个组两端的数值。分为上限和下限。组距:一个组的上限与下限两端的距离。全距:所有变量值中最大值与最小值之差。组中值:每个组的上限与下限的中点值。2/26/202537《统计学》第2章数据的描述组距分组的步骤第一,确定组数。

可以按斯特格斯的经验公式确定组数:

第二,确定各组的组距。

实际中先确定组数或先确定组距均可:

第三,整理成频数分布表。2/26/202538《统计学》第2章数据的描述【例2.5】

——组距分组

2009年7月9日随机抽查了某大学50名任课教师的年龄,原始数据(周岁)如下:3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347试对数据进行组距分组。

2/26/202539《统计学》第2章数据的描述【例2.5】

——组距分组解:此处采用先确定组距的方式。根据本例的数据水平及全距大小,组距拟定为10。确定组数:组数=全距/组距=(68-24)÷10=4.4

5(组)对原始数据分组,整理成频数分布表如表所示:2/26/202540《统计学》第2章数据的描述【例2.5】

——组距分组分组结果:表2.550名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)20~3030~4040~5050~6060~708112164162242128合计501002/26/202541《统计学》第2章数据的描述【例2.5】

——组距分组本例还可采用间断式组距形式分组,如表所示:表2.650名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)20~2930~3940~4950~5960~698112164162242128合计501002/26/202542《统计学》第2章数据的描述【例2.5】

——组距分组本例还可采用开口组形式分组,如表所示:表2.750名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)30以下30~4040~5050~6060以上8112164162242128合计501002/26/202543《统计学》第2章数据的描述累计次数与累计频率有时为了研究次数分布的状况,需要计算累计次数或累计频率,方法有两种:向上累计(积),也称较小制累计(积)或以下累计(积),即把各组次数或频率由变量值小的组向变量值大的组顺序逐组累计(积),截至各组的累计(积)次数或累计(积)频率表示小于该组变量值上限的次数或频率合计有多少。2/26/202544《统计学》第2章数据的描述累计次数与累计频率向下累计(积),也称较大制累计(积)或以上累计(积),即把各组次数或频率由变量值大的组向变量值小的组顺序逐组累计(积),截至各组的累计(积)次数或累计(积)频率表示大于该组变量值下限的次数或频率合计有多少。2/26/202545《统计学》第2章数据的描述累计次数与累计频率如对表计算累计次数或累计频率,可得累计频数(频率)分布表如表所示:表2.850名教师年龄分组累计频数(频率)分布表按年龄分组(周岁)频数(人)频率(%)向上累计向下累计频数(人)频率(%)频数(人)频率(%)20~3030~4040~5050~6060~708112164162242128819404650163880921005042311041008462208合计50100————2/26/202546《统计学》第2章数据的描述【例】

——SPSS制作频数分布表(数据文件为)2014年我国各地区农村居民家庭人均纯收入资料如表所示,试用SPSS制作频数分布表。2/26/202547《统计学》第2章数据的描述【例】

——SPSS制作频数分布表表2.92014年我国各地区农村居民家庭人均纯收入地区人均纯收入(元)地区人均纯收入(元)北京18867.3湖北10849.1天津17014.2湖南10060.2河北10186.1广东12245.6山西8809.4广西8683.2内蒙古9976.3海南9912.6辽宁11191.5重庆9489.8吉林10780.1四川9347.7黑龙江10453.2贵州6671.2上海21191.6云南7456.1江苏14958.4西藏2359.2浙江19373.3陕西7932.2安徽9916.4甘肃6276.6福建12650.2青海7282.7江西10116.6宁夏8410.0山东11882.3新疆8723.8河南9966.1——2/26/202548《统计学》第2章数据的描述【例】

——SPSS制作频数分布表解:首先将农村居民家庭人均纯收入用代码1、2、3、4、5表示,然后在数据文件的“变量视图”窗口“值”栏定义变量值标签,1表示人均纯收入在3000元以下(不含3000元),2表示人均纯收入在3000~4000元(不含4000元),3表示人均纯收入在4000~5000元(不含5000元),4表示人均纯收入在5000~6000元(不含6000元),5表示人均纯收入在6000元以上(含6000元)。2/26/202549《统计学》第2章数据的描述2/26/2025《统计学实验》第2章数据的描述2-50【菜单方式】打开数据文件example2.3.sav;选择→“分析”→点击“描述统计”→“频率”→将“分组代码”选入“变量(V)”框→点击“确定”,可得表。2/26/202550《统计学》第2章数据的描述【例】

——SPSS制作频数分布表表2.102014年我国各地区农村居民家庭人均纯收入的频数分布表分组代码频率百分比有效百分比累积百分比有效5000元以下(不含5000)13.23.23.25000元-10000元(不含10000元)1548.448.451.610000元-15000元(不含15000元)1135.535.587.115000元-20000元(不含20000元)39.79.796.820000元以上(含20000元)13.23.2100.0合计31100.0100.02/26/202551《统计学》第2章数据的描述适合数值型数据的图形有:直方图(histogram)箱线图(boxplots)线图(linecharts)茎叶图(stem-and-leafdisplay)…………2/26/202552《统计学》第2章数据的描述直方图直方图(histogram)是用矩形的宽度和高度来表示频数分布的图形。若是等距数列,一般用横坐标表示数据分组,而纵坐标表示次数或频数;若是不等距数列,则应按频数密度绘制直方图。2/26/202553《统计学》第2章数据的描述【例2.7】

——直方图沿用【例2.5】教师年龄原始数据,用SPSS绘制直方图。2/26/2025《统计学实验》第2章数据的描述2-54解:打开数据文件example2.0.sav;选择“图形”→点击“旧对话框(L)”→“直方图(I)”→将“教师年龄”选入“变量(V)”框→勾选“显示正态曲线(D)”→点击“确定”,可得图。2/26/202554《统计学》第2章数据的描述图2.3某大学50名教师年龄直方图2/26/202555《统计学》第2章数据的描述箱线图箱线图(boxplots)是用一组数据的五个特征值即最大值、最小值、中位数、上四分位数、下四分位数来表示频数分布状况的图形,它由一个箱子和两条线段组成。每个箱子的中间横线是数据的中位数。根据不同资料,可绘制简单箱线图或多批箱线图。2/26/202556《统计学》第2章数据的描述【例2.8】

——简单箱线图沿用【例2.5】教师年龄原始数据,用SPSS绘制简单箱线图。解:打开数据文件,点击“图形”→“旧对话框(L)”→“箱图(X)”→在“箱图”框中选中“简单”→在“图表中的数据为”框中选中“各个变量的摘要(V)”→点击“定义”→将“教师年龄”选入“框的表征(B)→单击“确定”,可得图。2/26/202557《统计学》第2章数据的描述图2.550位教师年龄箱线图2/26/202558《统计学》第2章数据的描述【例2.9】

——多批箱线图(数据文件为

.sav)现有某大学9名大一新生英语、语文、数学的考试成绩如表所示,试绘制多批箱线图,比较9名学生的各科成绩。表2.119名大一新生英语、语文、数学考试成绩学生编号考试成绩(分)英语语文数学123456789706589346678809356568033698587625078675498787080698575合计———2/26/202559《统计学》第2章数据的描述解:打开数据文件

.sav;选择“图形”→点击“旧对话框(L)”→“箱图(X)”→在“箱图”框中选“简单”→在“图表中的数据为”中选“各个变量的摘要(V)”→点击“定义”→将“英语”、“语文”、“数学”选入“框的表征(B)→点击“确定”,可得图。

【例2.9】

——多批箱线图2/26/202560《统计学》第2章数据的描述图2.69名学生各科成绩的箱线图2/26/202561《统计学》第2章数据的描述线图线图(linecharts)是用线条的延伸和波动来表明现象变动情况的图形,它主要用于表示现象在不同时间上的变化趋势。2/26/202562《统计学》第2章数据的描述【例2.10】

——线图

(数据文件为

.sav)2000~2014年我国农村居民人均纯收入及城镇居民人均可支配收入资料如表所示,试用SPSS绘制线图。表2.122000~2014年我国农村居民人均纯收入及城镇居民人均可支配收入时间(年)农村居民人均纯收入(元)城镇居民人均可支配收入(元)2000200120022003200420052006200720082009201020112012201320142253.42366.42475.62622.22936.43254.93587.04140.44760.65153.25919.06977.37916.68895.99892.06280.06859.67702.88472.29421.610493.011759.513785.815780.817174.719109.421809.824564.726955.129381.0合计——2/26/202563《统计学》第2章数据的描述2/26/2025《统计学实验》第2章数据的描述2-64解:打开数据文件example2.5.sav,选择“图形”→单击“旧对话框(L)”→“线图(L)”→在“线图”框中选中“多线线图”→在“图表中的数据为”框中选中“各个变量的摘要(V)”→点击“定义”→将“农村居民人均纯收入”及“城镇居民人均可支配收入”选入“线的表征(I)”框中→将“年份”选入“类别轴(X)“→点击”确定“,可得图。【例2.10】

——线图2/26/202564《统计学》第2章数据的描述图2.72000~2014年我国农村居民人均纯收入及城镇居民人均可支配收入线图2/26/202565《统计学》第2章数据的描述茎叶图茎叶图(stem-and-leafdisplay)又称“枝叶图”,它是将数组中变化不大的高位数作为一个主干(茎),将变化大的低位数作为分枝(叶),列在主干的后面,来表示频数分布的。茎叶图与直方图相类似,但又与直方图不同。茎叶图保留了原始资料的信息,而直方图则无原始资料的信息。2/26/202566《统计学》第2章数据的描述【例2.11】

——茎叶图根据【例2.5】某大学50名教师年龄原始数据绘制的茎叶图如图所示:树茎树叶数据个数23456477999990001334559901233444555666677777801235904788112164图2.8某大学50名教师年龄茎叶图2/26/202567《统计学》第2章数据的描述如果茎叶图显得过于拥挤,还可以把它扩展,将每个数茎分成两段,尾数0~4的在数茎后以“*”表示;尾数5~9的在数茎后以“·”表示。如将图扩展后,便形成如图所示的扩展的茎叶图:图2.9某大学50名教师年龄扩展的茎叶图树茎树叶数据个数2*2·3*3·4*4·5*5·6*6·47799999000133455990123344455566667777780123590478177481342222/26/202568《统计学》第2章数据的描述2/26/2025《统计学实验》第2章数据的描述2-69SPSS绘制茎叶图打开数据文件example2.0.sav,选择“分析(A)”→点击“描述统计”→“探索(E)”→将“教师年龄”选入“因变量列表(D)”→在“输出”框中勾选“图”→点击“确定”,可得图。2/26/202569《统计学》第2章数据的描述图2.10某大学50名教师年龄的茎叶图2/26/2025《统计学实验》第2章数据的描述2-70教师年龄(周岁)Stem-and-LeafPlotFrequencyStem&Leaf1.002.47.002.77999997.003.00013344.003.55998.004.0123344413.004.55566667777784.005.01232.005.592.006.042.006.78Stemwidth:10Eachleaf:1case(s)2/26/202570《统计学》第2章数据的描述常见的频数分布类型主要有钟形分布、J形分布和U形分布,如图所示:

图2.11几种常见的频数分布(a)正态分布(b)右偏分布(c)左偏分布(d)正J形分布(e)反J形分布(f)U形分布2/26/202571《统计学》第2章数据的描述钟形分布钟形分布的特点是靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少,即“两头小、中间大”。钟形分布又分正态分布、右偏分布和左偏分布,如图所示:图2.12钟形分布(a)正态分布(b)右偏分布(c)左偏分布2/26/202572《统计学》第2章数据的描述J形分布及U形分布J形分布其分布图象像英文字母“J”字,包括正J形分布和反J形分布两种类型。U形分布的特点是靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,即“两头大、中间小”。(d)正J形分布(e)反J形分布(f)U形分布图2.13J形分布与U形分布2/26/202573《统计学》第2章数据的描述集中趋势的度量均值几何平均数调和平均数众数中位数四分位数众数、中位数和均值的比较2/26/202574《统计学》第2章数据的描述均值均值(mean)是全部数据的算术平均,也称算术平均数。均值在统计分析中具有重要的地位,是集中趋势的最主要测度值。根据掌握的资料不同,均值有简单均值与加权均值两种计算形式。

2/26/202575《统计学》第2章数据的描述简单均值适用于未分组数据。计算公式:2/26/202576《统计学》第2章数据的描述【例2.12】

——简单均值沿用【例2.5】中某大学50名任课教师年龄的原始数据(周岁):

3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347

则教师的平均年龄为:2/26/202577《统计学》第2章数据的描述加权均值适用于分组数据。计算公式:2/26/202578《统计学》第2章数据的描述【例2.13】

——加权均值沿用“表2.5”教师年龄分组后的频数分布表资料,求教师的平均年龄。解:首先列计算表如表所示:按年龄分(周岁)组中值人数(人)比重(%)组中值×人数20~3030~4040~5050~6060~7025354555658112164162242128200385945330260合计—501002120表2.1350名教师的平均年龄计算表2/26/202579《统计学》第2章数据的描述【例2.13】

——加权均值表中的数据代入公式,计算得教师的平均年龄为:2/26/202580《统计学》第2章数据的描述问题讨论【例2.12】及【例2.13】的计算结果出现了偏差,哪一例计算结果是教师的实际平均年龄?加权均值大小受什么因素影响?加权均值中权数的实质内容是什么?2/26/202581《统计学》第2章数据的描述关于权数的进一步讨论加权均值中的权数还可以表现为相对数的形式,从而均值计算公式可变形为:以表资料为例,教师的平均年龄为:2/26/202582《统计学》第2章数据的描述均值的数学性质各变量值与均值的离差之和等于零各变量值与均值的离差平方和最小2/26/202583《统计学》第2章数据的描述几何平均数几何平均数(geometricmean)是个变量值乘积的次方根,记作。适用范围:变量值本身是比率(速度),而且各比率(速度)的乘积等于总的比率(速度),需计算平均比率或平均速度时使用。根据资料不同,几何平均数有简单几何平均数与加权几何平均数两种计算形式。2/26/202584《统计学》第2章数据的描述几何平均数计算公式简单几何平均数加权几何平均数式中:2/26/202585《统计学》第2章数据的描述【例2.14】

——简单几何平均数某企业某种产品须经过4个车间的流水作业才能完成,如果第一车间的产品合格率为90%,第二车间的产品合格率为97%,第三车间的产品合格率为95%,第四车间的产品合格率为98%。求平均合格率。解:各车间平均合格率为:2/26/202586《统计学》第2章数据的描述【例2.15】

——加权几何平均数某种产品的生产须经过10道工序的流水作业才能完成,有2道工序的合格率都为90%,有3道工序的合格率都为92%,有4道工序的合格率都为94%,有1道工序的合格率为98%。求平均合格率。解:各工序平均合格率为:

2/26/202587《统计学》第2章数据的描述【例2.16】

——加权几何平均数某笔投资的年利率资料如表所示:表2.14某笔投资的年利率资料年利率(%)年数2457813642已知年利率按复利计算。要求:求该笔投资的平均年利率。2/26/202588《统计学》第2章数据的描述【例2.16】

——加权几何平均数解:平均年利率=平均年本利率-12/26/202589《统计学》第2章数据的描述调和平均数调和平均数也称“倒数平均数”,它是对变量值的倒数求算术平均,然后再取倒数而得的平均数,记作。根据资料不同,分为简单调和平均与加加权调和平均两种计算形式。

2/26/202590《统计学》第2章数据的描述简单调和平均数计算公式:式中:2/26/202591《统计学》第2章数据的描述加权调和平均数计算公式式中:2/26/202592《统计学》第2章数据的描述【例2.17】

——简单调和平均数菜场上有一种蔬菜,价格分别为:早市元/公斤;午市2元/公斤;晚市1元/公斤。若早、中、晚各花1元钱买蔬菜,则一天中买到蔬菜的平均价格为:2/26/202593《统计学》第2章数据的描述【例2.18】

——加权调和平均数沿用【例】资料,若早、中、晚分别花元、4元和1元钱买蔬菜,则一天中买到蔬菜的平均价格为:2/26/202594《统计学》第2章数据的描述问题讨论简单调和平均数是否有独立应用的意义?加权调和平均数与加权算术平均数之间有何联系?2/26/202595《统计学》第2章数据的描述众数众数(mode)是指一组数据中出现次数最多的那个变量值。记为。对于未分组数据或单变量值分组数据,可直接寻找众数。对于组距分组数据,则需推算众数的近似值。2/26/202596《统计学》第2章数据的描述未分组数据求众数例如数据集2,5,4,5,5,6,5,7,8,5中,众数为5,5大体上可代表这组数据的平均水平。2/26/202597《统计学》第2章数据的描述组距数列求众数对于组距分组数据,可用比例插值法推算众数的近似值:

式中:2/26/202598《统计学》第2章数据的描述【例2.19】

——组距数列求众数沿用表教师年龄的分组资料,求教师年龄的众数。解:教师年龄的众数为:或:2/26/202599《统计学》第2章数据的描述众数小结众数是一个位置平均数。众数的优点是计算简便、意义明显,不受极端值的影响。众数的缺点:未使用所有变量值计算,因而灵敏度比较低。众数通常只适宜于变量数列的分布次数比较多,而且具有明显集中趋势的总体。2/26/2025100《统计学》第2章数据的描述中位数中位数(median)是将数据从小到大顺序排列后,处在最中间位置的那个数值,记为。中位数把全部数据分成两半,一半数据的值比中位数大,一半数据的值比中位数小,因此中位数也可以反映数据的平均水平。未分组数据和分组数据均可计算中位数。2/26/2025101《统计学》第2章数据的描述未分组数据求中位数在资料未分组的情况下,中位数的位置可由(n+1)/2来确定。例如有5个数值:4,6,9,10,13,则中位数的位置=(n+1/2=(5+1)/2=3,即为第3个数值,。若增加一个数值,变为4,6,9,10,13,16,则中位数的位置=(n+1)/2=(6+1),即为第3个数值与第4个数值中间,。2/26/2025102《统计学》第2章数据的描述组距数列求中位数在组距数列中求中位数时,先根据N/2确定中位数的位置,找出中位数所在组,然后用比例插值法计算中位数的近似值。计算公式:

2/26/2025103《统计学》第2章数据的描述【例2.20】

——组距数列求中位数沿用表教师年龄的分组资料,求教师年龄的中位数。解:教师年龄的中位数为:2/26/2025104《统计学》第2章数据的描述中位数小结中位数的优点也是计算简便、意义明显,当数据的分布为偏态时,中位数不受极端值的影响,它是一个位置代表值(位置平均数),具有较高的稳健性。局限性主要是中位数不是根据所有变量值计算出来的,因此它作为一般水平的代表值灵敏度也较差。2/26/2025105《统计学》第2章数据的描述四分位数四分位数(quartile):将一组数据由小到大(或由大到小)排序后,用三个点将全部数据分为四等分,每份有25%的数据,每个点上的数值称为四分位数。处于第50%位置的数值就是中位数,处于第25%位置的数值称为下四分位数,记为,处于第75%位置的数值称为上四分位数,记为。未分组数据和分组数据均可计算四分位数。2/26/2025106《统计学》第2章数据的描述未分组数据求四分位数在资料未分组的情况下,下四分位数的位置可由(n+1)/4来确定,上四分位数的位置可由3(n+1)/4来确定。数据个数为奇数或偶数两种情况下均可计算四分位数。2/26/2025107《统计学》第2章数据的描述【例2.21】

——未分组资料求四分位数有9个家庭的人均月收入分别为950、1080、1120、1350、1500、1550、1690、1830、2000元,则可求得下四分位数的位置在第2个与第3个数值之间,于是下四分位数为:上四分位数的位置在第7个与第8个数值之间,于是上四分位数为:

2/26/2025108《统计学》第2章数据的描述【例2.22】

——未分组资料求四分位数有10个家庭的人均月收入分别为875、950、1080、1120、1350、1500、1550、1690、1830、2000元,则下四分位数的位置为:(10+1),偏向第三个数值,这时下四分位数为:上四分位数的位置为:3(10+1),偏向第八个数值,这时上四分位数为:

2/26/2025109《统计学》第2章数据的描述组距数列求四分位数在组距数列中求四分位数时,可用以下公式求近似值:2/26/2025110《统计学》第2章数据的描述众数、中位数和均值的比较(1)众数、中位数和均值的关系如果数据具有单一众数,且分布是对称的,则众数、中位数和均值三者必定相等,三者之间的关系:2/26/2025111《统计学》第2章数据的描述众数、中位数和均值的关系

如果数据是左偏分布,说明数据存在极端小值,使均值偏低,三者之间的关系:如果数据是右偏分布,说明数据存在极端大值,使均值偏高,三者之间的关系:需注意的是,如果数据具有双众数或多众数,上述关系不一定成立。2/26/2025112《统计学》第2章数据的描述(2)众数、中位数和均值的特点和应用场合均值由全部变量值计算而来,因此易受极端值的影响,数据出现偏态时,均值代表性差;众数、中位数则不受极端值的影响。当数据呈对称分布或接近对称分布时,选择用均值比较好;当数据为偏态分布时,特别是当偏斜的程度较大时,应选择众数或中位数;当数据为定距尺度时,如商品(服装、鞋类)等的规格,用众数是较好的选择。2/26/2025113《统计学》第2章数据的描述离散程度的度量极差四分位差方差和标准差变异系数2/26/2025114《统计学》第2章数据的描述极差极差(rang)又称极值或全距,它是一组数据中最大值减去最小值之差,反映数据的最大变动范围。记为R。

极差的优点是计算简单,易于理解。极差的缺点是指标很粗略,未考虑数据分布,易受极端值的影响。2/26/2025115《统计学》第2章数据的描述四分位差

四分位差(inter-quartilerang):指一组数据中上四分位数与下四分位数之差,。计算公式:它反映了中间50%数据的离散程度。同时也可反映中位数对一组数据的代表性大小。2/26/2025116《统计学》第2章数据的描述四分位差在【例2.21】中:四分位差=1760-1100=660(元),表明有一半家庭的人均月收入在1100~1760之间,它们之间的最大差距为660元。2/26/2025117《统计学》第2章数据的描述方差和标准差方差(variance)和标准差(standarddeviation)是用于描述数值是如何在平均值周围波动的。一个数据集的方差是用诸观察值与它们平均值之间的偏差有多大来确定的,方差的平方根即是标准差。方差和标准差均可由总体数据或样本数据求得。2/26/2025118《统计学》第2章数据的描述样本方差样本方差计算公式未分组数据:

分组数据:

式中:2/26/2025119《统计学》第2章数据的描述样本标准差样本标准差计算公式未分组数据:

分组数据:

式中:2/26/2025120《统计学》第2章数据的描述【例2.23】

——未分组数据求方差求样本测量值3,7,2,1,8的方差。解:首先求出样本均值:然后计算方差如下:2/26/2025121《统计学》第2章数据的描述【例2.24】

——未分组数据求标准差试对例中的数据求标准差。解:标准差标准差等于,表明数据集中的每个数值与它们的均值相比,平均相差。2/26/2025122《统计学》第2章数据的描述【例2.25】

——由分组数据求方差及标准差沿用表教师年龄资料,求教师年龄的方差和标准差。解:首先列计算表如表所示:表2.1550位教师年龄的方差和标准差计算表按年龄分组(周岁)组中值人数(人)20~3030~4040~5050~6060~7025354555658112164302.7654.766.76158.76510.762422.08602.36141.96952.562043.04合计—50—6162.002/26/2025123《统计学》第2章数据的描述【例2.25】

——由分组数据求方差及标准差解:根据表资料,教师年龄的方差和标准差计算如下:结果表明,每个教师的年龄与他们的平均年龄相比,平均相差岁。2/26/2025124《统计学》第2章数据的描述总体方差总体方差计算公式未分组数据:

分组数据:

式中:2/26/2025125《统计学》第2章数据的描述总体标准差总体标准差计算公式未分组数据:

分组数据:

式中:2/26/2025126《统计学》第2章数据的描述变异系数变异系数(coefficientofvariation)是用来度量数据离散程度大小的相对数。变异系数通常是就标准差来计算的,称为标准差系数。计算公式如下:2/26/2025127《统计学》第2章数据的描述【例2.26】

——变异系数【例2.26】2/26/2025128《统计学》第2章数据的描述【例2.26】

——变异系数解:由于两个班的平均成绩不相同,所以应该用各自的标准差系数进行比较。2/26/2025129《统计学》第2章数据的描述分布偏态与峰度偏态及其测定峰度及其测定2/26/2025130《统计学》第2章数据的描述偏态及其测定偏态(skewness)一词是由统计学家皮尔逊于1895年首次提出的,它是对数据分布偏斜程度的测度。测度偏斜的程度需要计算偏态系数,记为。判断标准:2/26/2025131《统计学》第2章数据的描述由组距数列计算偏态系数计算公式:式中:2/26/2025132《统计学》第2章数据的描述【例2.27】

——偏态系数

已知2007年我国农村居民家庭按纯收入分组的有关数据如表所示,试计算偏态系数。表2.162007年我国农村居民家庭按纯收入分组的数据按纯收入分组(百元)户数(户)10以下10~2020~3030~4040~5050以上299396561337911940912421098合计68190注:本表为我国农村居民家庭收入抽样调查资料。资料来源:《中国统计年鉴2008》,本表对原始数据作了分组整理,抽样户数根据比重推算得。2/26/2025133《统计学》第2章数据的描述【例2.27】

——偏态系数首先列计算表如表所示:表2.172007年我国农村居民家庭纯收入偏态及峰度计算表按纯收入分组(百元)组中值户数(户)10以下10~2020~3030~4040~5050以上51525354555299396561337911940912421098-92837889.49-94897693.41-19926084.39-34187.665762980.37135325118.782916966487.662032708592.32227555883.8448546.4849446371.562514340706.35合计—68190-66607755.807741066588.212/26/2025134《统计学》第2章数据的描述【例2.27】

——偏态系数根据表数据计算均值及标准差如下:将上述结果代入偏态系数公式,得2/26/2025135《统计学》第2章数据的描述【例2.27】

——偏态系数由计算结果可看出,偏态系数为负值,但与零的差距不大,说明2007年我国农村居民家庭纯收入分布为轻微左偏分布,收入较高的家庭占有一定的比例,但偏斜程度不大。2/26/2025136《统计学》第2章数据的描述峰度及其测定峰度(kurtosis)一词是由统计学家皮尔逊于1905年首次提出的,它是对数据分布平峰或尖峰程度的测定。对峰度的测度需要计算峰度系数,记为。判断标准:2/26/2025137《统计学》第2章数据的描述由分组数据计算峰度系数计算公式:式中:2/26/2025138《统计学》第2章数据的描述【例2.28】

——峰度系数沿用【例2.27】数据,计算峰度系数。解:将表相关数据代入峰度系数公式,得:峰度系数为负值,说明2007年我国农村居民家庭纯收入分布为平峰分布,高收入家庭占一定比例,但高收入区域的集中程度并不很高。2/26/2025139《统计学》第2章数据的描述2/26/2025《统计学实验》第2章数据的描述2-140描述性统计分析【例2.29】(数据文件为example2.0.sav)沿用例某大学50名教师年龄原始数据,试用SPSS描述统计功能,对这些年龄的特征进行描述性统计分析。2/26/2025140《统计学》第2章数据的描述解:打开数据文件example2.0.sav;选择“分析(A)”→点击“描述统计”→“描述(D)”→将“教师年龄”选入“变量(V)”框→单击“选项(O)”→勾选“均值”、“标准差”、“最小值”、“最大值”、“方差”、“范围”、“峰度”、“偏度”→在“显示顺序”中选默认项“变量列表(B)→单击“继续”→点击“确定”,可得表。描述性统计分析

2/26/2025141《统计学》第2章数据的描述描述统计量N全距极小值极大值均值标准差方差偏度峰度统计量统计量统计量统计量统计量统计量统计量统计量标准误统计量标准误教师年龄(周岁)5044246842.2810.799116.614.405.337-.210.662有效的N(列表状态)50表2.1950位教师年龄的描述统计量2/26/2025142《统计学》第2章数据的描述统计表统计表的结构设计统计表应注意的事项2/26/2025143《统计学》第2章数据的描述统计表的结构统计表通常由四个主要部分组成,即:表头、行标题、列标题和数字资料。有的统计表下方还有表外附加。表头是指表的名称,它简单扼要地反映表的主要内容;行标题是指每一横行内数据的意义;列标题是指每一纵栏内数据的意义;数字资料是指各空格内按要求填写的数字;表外附加是指一些必要的注释、必要的说明等。2/26/2025144《统计学》第2章数据的描述行标题列标题数字资料表头→表我国农村居民家庭平均每人纯收入单位:元平均每人纯收入按收入来源分2005年2006年2007年工资性收入1174.531

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论