管理数量方法与分析第一章数据分析1_第1页
管理数量方法与分析第一章数据分析1_第2页
管理数量方法与分析第一章数据分析1_第3页
管理数量方法与分析第一章数据分析1_第4页
管理数量方法与分析第一章数据分析1_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、按计量层次按计量层次分分类类型型 数数据据顺顺序序型型数数据据数数值值型型数数据据按时间状况按时间状况截截面面的的数数据据时时序序的的数数据据按收集方法按收集方法观观察察的的数数据据试试验验的的数数据据 收集的统计数据往往是杂乱无章的,需收集的统计数据往往是杂乱无章的,需要进行整理,常用的方法是分组。要进行整理,常用的方法是分组。 根据变量自身变动的特点和研究问题的需根据变量自身变动的特点和研究问题的需要,可以将变量的取值分组,以便更好的研究要,可以将变量的取值分组,以便更好的研究变量取值(数据)分布的特征与变动规律。变量取值(数据)分布的特征与变动规律。分组方法分组方法等距分组等距分组异距分

2、组异距分组单项式分组单项式分组组距分组组距分组 组距分组组距分组 若变量是离散型变量或连续型变若变量是离散型变量或连续型变量,变量取值的个数较多时,采取组距分组量,变量取值的个数较多时,采取组距分组. .将将变量值的一个区间作为一组变量值的一个区间作为一组。组距分组。组距分组需遵循需遵循“不重不漏不重不漏”的原则的原则。见书见书P2P2表表1-21-2组距分组组距分组可采用等距分组可采用等距分组, ,也可采用不等距分组也可采用不等距分组变量数列变量数列-在在对变量值进行分组的基础上,将对变量值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成各组不同的变量值与其变量值出现的次数排列

3、成的数列称为变量数列的数列称为变量数列. .分为单项式数列与组距数分为单项式数列与组距数列列. .见书见书P2P2表表1-11-1,1-21-2。 构成变量数列两要素构成变量数列两要素 组别、组别、频数频数或频率或频率频数频数 变量值在该组出现的次数变量值在该组出现的次数. .是一个绝对量是一个绝对量频率频率 变量值在该组出现的次数与变量值的总次变量值在该组出现的次数与变量值的总次数之比,称为比率也称频率数之比,称为比率也称频率. .是一个相对量是一个相对量频数与频率在进行数据分析时起到权数的作用频数与频率在进行数据分析时起到权数的作用1.1.单项式变量数列的编制单项式变量数列的编制例例1.1

4、.11.1.1 某市场调查公司在某个城市居民区某市场调查公司在某个城市居民区的的2020户居民户居民进行一项调查,调查项目是每套住宅的房进行一项调查,调查项目是每套住宅的房间数,结果如下:间数,结果如下:3 3 2 2 4 4 4 4 1 1 6 6 3 3 6 6 6 6 6 6 5 5 7 7 5 5 2 2 7 7 5 5 4 4 6 6 8 8 4 4试根据上述资料对其原始数据按单项式数列进行编制试根据上述资料对其原始数据按单项式数列进行编制房间数房间数12345678频数频数12243521频率频率1/202/202/204/203/205/202/201/202) 2) 确定组数:

5、组数的确定应以能够显示数据确定组数:组数的确定应以能够显示数据的分布特征和规律为目的的分布特征和规律为目的. . 2. 2. 组距数列的编制组距数列的编制 在实际进行等距分组时在实际进行等距分组时, ,可以按可以按 Sturges Sturges 提提出的经验公式来确定组数出的经验公式来确定组数m mnnmlg322. 312lglg1 说明说明若每组组距相等称等距分组若每组组距相等称等距分组, ,否则称为异距分组。否则称为异距分组。一个组的最大值一个组的最大值一个组的最小值一个组的最小值4 4)统计出各组的上限、下限、组中值、频数并编)统计出各组的上限、下限、组中值、频数并编制变量数列制变量

6、数列. . 组距组距( (最大值最大值 - - 最小值最小值) ) 组数组数 下限与上限之间的中点值即组中值下限与上限之间的中点值即组中值=(=(上限上限+ +下限下限)/2)/2组限的表示方法组限的表示方法 若离散型变量若离散型变量, ,相邻两组中数值小的组相邻两组中数值小的组上限与数值大的组下限分别取相邻的两个整数;若是上限与数值大的组下限分别取相邻的两个整数;若是连续型变量或可取整数也可取小数的离散型变量连续型变量或可取整数也可取小数的离散型变量, ,相邻相邻两组中数值小的组上限与数值大的组下限用同一个值。两组中数值小的组上限与数值大的组下限用同一个值。但不违反互斥性原则但不违反互斥性原

7、则. .一般规定上限不包含在本组内,一般规定上限不包含在本组内,即即 ( )。)。例例1.1.21.1.2 书书P4 P4 例题例题1.11.1解解 将将6060位顾客的购物金额按从小到大的顺序位顾客的购物金额按从小到大的顺序排列排列( (略略) )minmin=12.0, =12.0, maxmax=151.0 =151.0 n n=60,=60,利用利用SturgesSturges的的经验公式来确定组数经验公式来确定组数m m760lg322. 31 m根据最大值、最小值与分组组数确定组距根据最大值、最小值与分组组数确定组距19.86712.0-151.0- 组数组数最小值最小值最大值最大

8、值d适当放大最大值或缩小最小值与分组组数使适当放大最大值或缩小最小值与分组组数使组距为组距为2020a a=10=10minmin=12,=12,将最大值将最大值151.0151.0归到最大组,此组归到最大组,此组是开口组即无上限。计算各组上下限、组中值。是开口组即无上限。计算各组上下限、组中值。再计算各组的频数与频率,编制变量数列。再计算各组的频数与频率,编制变量数列。购物金额购物金额顾客数顾客数(频数频数)比率比率(频率频率)%组中值组中值1030711.72030501525.04050701220.0607090813.38090110915.010011013058.3120130以

9、上以上46.7140合计合计60100例例1.1.3 1.1.3 某电脑公司某电脑公司20022002年前四个月各天的销售年前四个月各天的销售量数据量数据( (单位单位: :台台) )。试试编制变量数列。编制变量数列。 ( (等距分组等距分组) )解解 将将120120天的电脑销售量按从小到大的顺序排天的电脑销售量按从小到大的顺序排列列( (略略) ) minmin=141, =141, maxmax=237 =237 n n=120,=120,利用利用SturgesSturges的经验公式来确定组数的经验公式来确定组数m m10120lg322. 31 m根据最大值、最小值与分组组数确定组距

10、根据最大值、最小值与分组组数确定组距1069.10141-237- 组组数数最最小小值值最最大大值值d适当放大最大值或缩小最小值与分组组数使适当放大最大值或缩小最小值与分组组数使组距为组距为1010。 a a=140=140minmin=141, =141, b b=240=240maxmax=237.=237.计算各组计算各组上下限、组中值。再计算各组的频数与频率,编上下限、组中值。再计算各组的频数与频率,编制变量数列。制变量数列。1.1.累计频数累计频数( (频率频率) )分布数列分布数列累积频数累积频数 各各组组频数的逐级累频数的逐级累计计累积频率累积频率 各各组组频率频率( (比率比率

11、) )的逐级累的逐级累计计向下累向下累计频数计频数( (频率频率) ) 由变量值高的组向变量值由变量值高的组向变量值低的组依次累计频数低的组依次累计频数( (频率频率) )。 常用此。常用此。累计频数与累计频率有累计频数与累计频率有向上与向下累向上与向下累计频数计频数( (频率)频率)向向上上累累计频数计频数( (频率频率) ) 由变量值低的组向变量值由变量值低的组向变量值高的组依次累计频数高的组依次累计频数( (频率频率) ) 。 例例1.1.41.1.4 续例题续例题1.11.1,编制累计频数频率分布表,编制累计频数频率分布表房间数房间数12345678频数频数12243521频率频率1/

12、202/202/204/203/205/20 2/201/20向下累计向下累计频数频数2019171511831向下累计向下累计频率频率20/2019/2017/2015/2011/208/20 3/201/20购物金额购物金额顾客顾客数数(频频数数)比率比率(频率频率)%向下累计向下累计向上累计向上累计频数频数频率频率频数频数频率频率1030711.760100711.730501525.05388.32236.750701220.03863.33456.77090813.32643.3427090110915.01830.0518511013058.3915.05693.8130以上以上4

13、6.746.760100合计合计60100 例例1.1.51.1.5 书书P7 P7 续例题续例题1.21.22.2.累计频数累计频数( (频率频率) )分布曲线分布曲线 累积频数累积频数与与累积频率累积频率可以用分布表表示,可以用分布表表示,也可以用图表示,即分布曲线。也可以用图表示,即分布曲线。 累积分布曲线分为累积分布曲线分为向下累向下累计频数计频数( (频率频率) )分布分布图与图与向向上上累累计频数计频数( (频率频率) ) 分布图。分布图。横轴表示变量,纵轴表示累计频数与累计频率。横轴表示变量,纵轴表示累计频数与累计频率。 见书见书P8 图图1-1 表示例题表示例题1.5的累计频数

14、分布图的累计频数分布图. 3.3.变量数列的常用分布图变量数列的常用分布图 变量分布可以用频数频率分布表表示,也可变量分布可以用频数频率分布表表示,也可以用频数频率分布图表示。以用频数频率分布图表示。 常用的分布图有常用的分布图有 柱形图、直方图、折线图柱形图、直方图、折线图(1 1) 柱形图柱形图 横轴表示变量,纵轴表示频横轴表示变量,纵轴表示频数或频率。用顺序排列的柱状数或频率。用顺序排列的柱状( (线段、长方形、线段、长方形、长方体长方体) )的高低显示各组变量值的频数、频率的的高低显示各组变量值的频数、频率的大小。大小。 见书见书P10 图图1-3 表示频数柱形分布图表示频数柱形分布图

15、.(2) (2) 直方图直方图 横轴表示变量,纵轴表示各组频横轴表示变量,纵轴表示各组频数或频率,或各组频数密度、频率密度。用顺序数或频率,或各组频数密度、频率密度。用顺序排列的各区间上的直方条表示变量在各区间内取排列的各区间上的直方条表示变量在各区间内取值的频数、频率的大小的图形。值的频数、频率的大小的图形。 常用于组距分组的频数、频率分布图。常用于组距分组的频数、频率分布图。 频数密度频数密度= =频数频数/ /组距组距 频率密度频率密度= =频率频率/ /组距组距指各组距内单位区间上的频数与频率,两者常用于指各组距内单位区间上的频数与频率,两者常用于绘制异距分组的分布图。绘制异距分组的分

16、布图。 见书见书P11 图图1-4 表示频数直方图表示频数直方图.140 150210我一眼就看出我一眼就看出来了,销售量来了,销售量在在170170180180之之间的天数最多间的天数最多! !190 200180160 17025201510530220 230 240 (3 3) 折线图折线图也称频数多边形图也称频数多边形图 具体的做法具体的做法 是在直方图的基础上是在直方图的基础上, ,把直方图把直方图顶部的中点顶部的中点( (组中值组中值) )用直线连接起来用直线连接起来;第一个矩第一个矩形的顶部中点通过竖边中点形的顶部中点通过竖边中点( (即该组频数一半的位即该组频数一半的位置置)

17、 )连接到横轴连接到横轴, ,最后一个矩形顶部中点与其竖边最后一个矩形顶部中点与其竖边中点连接到横轴中点连接到横轴,折线图的两个终点要与横轴相折线图的两个终点要与横轴相交交, ,再把原来的直方图抹掉再把原来的直方图抹掉。 折线图下所围成的面积与直方图的面积相等,折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的二者所表示的频数分布是一致的。 与直方图类似用于组距分组的频数、频率分与直方图类似用于组距分组的频数、频率分布图。常用的是纵轴为频率密度的折线图。布图。常用的是纵轴为频率密度的折线图。 见书见书P12 图图1-5 表示频数折线图。表示频数折线图。折线图与直方图折线图与直

18、方图下的面积相等!下的面积相等!140 150210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190200180160 170220 230240频频数数(天天)25201510530续例题续例题1.1.3(直方图的绘制)(直方图的绘制) 4.4.洛伦兹曲线洛伦兹曲线 洛伦兹曲线洛伦兹曲线为了研究国民收入在国民之间为了研究国民收入在国民之间的分配问题的分配问题, ,美国统计学家美国统计学家M.O.M.O.洛伦兹(洛伦兹(Max Otto Max Otto LorenzLorenz,1901905 5年提出的年提出的。 洛伦兹曲线用以比较和分析一个国家在不同洛伦兹曲线用以比较和分析

19、一个国家在不同时代或者不同国家在同一时代的财富不平等时代或者不同国家在同一时代的财富不平等, ,该曲该曲线作为一个总结收入和财富分配信息的便利的图线作为一个总结收入和财富分配信息的便利的图形方法得到广泛应用。形方法得到广泛应用。 它先将一国它先将一国(地区)(地区)人口按收入由低到高排人口按收入由低到高排队队, ,然后考虑收入最低的任意百分比人口所得到然后考虑收入最低的任意百分比人口所得到的收入百分比的收入百分比。将这样的人口累计百分比和收入将这样的人口累计百分比和收入累计百分比的对应关系描绘在图形上累计百分比的对应关系描绘在图形上, ,即得到洛即得到洛伦兹曲线。伦兹曲线。 横轴横轴OHOH表

20、示人口表示人口( (按收入由低到高分组按收入由低到高分组) )的的累积百分比累积百分比, ,纵轴纵轴OMOM表示收入的累积百分比表示收入的累积百分比, ,弧线弧线OLOL为洛伦兹曲线。为洛伦兹曲线。 洛伦兹曲线的弯曲程度反映了收入分配的洛伦兹曲线的弯曲程度反映了收入分配的不平等程度。弯曲程度越大不平等程度。弯曲程度越大, ,收入分配越不平等;收入分配越不平等;反之亦然。反之亦然。 洛伦仑兹曲线的一般形式如图中这样向横轴洛伦仑兹曲线的一般形式如图中这样向横轴突出的弧线突出的弧线OLOL,尽管突出的程度有所不同。将洛,尽管突出的程度有所不同。将洛伦兹曲线与伦兹曲线与4545度线之间的部分度线之间的

21、部分A A叫做叫做“不平等面不平等面积积” ” 。 将将社会社会总总财富财富( (收入)收入)分为五等份分为五等份, , 每一等分为每一等分为2020% %的社会总财富的社会总财富(收入);(收入);将将100100的家庭从最贫者到最富者的家庭从最贫者到最富者至左向右排列,也分为至左向右排列,也分为5 5等分等分, ,第一个等份代表收入最低第一个等份代表收入最低的的2020的家庭的家庭。在这个矩形中,将每一百分的家庭所有拥在这个矩形中,将每一百分的家庭所有拥有的财富的百分比累计起来,并有的财富的百分比累计起来,并将相应的点画在图中将相应的点画在图中, ,便便得到了一条曲线就是洛伦兹曲线得到了一

22、条曲线就是洛伦兹曲线. . 洛伦兹曲线是累计频数、频率分布曲线洛伦兹曲线是累计频数、频率分布曲线 例例1.1.51.1.5 见书见书P8 P8 例题例题1.31.31.2.2 1.2.2 分布中心的测度指标与计算方法分布中心的测度指标与计算方法1.2.3 1.2.3 算术平均数、中位数、众数三者关系算术平均数、中位数、众数三者关系 一个变量数列不仅能够显示其在不同取值一个变量数列不仅能够显示其在不同取值时出现次数的多少,而且可以概括地反映其在时出现次数的多少,而且可以概括地反映其在取值整体上的分布状况,但现实中往往借助于取值整体上的分布状况,但现实中往往借助于一些分布特征以反映变量的分布在状况

23、,如分一些分布特征以反映变量的分布在状况,如分布中心、离散程度、偏度与散度等。布中心、离散程度、偏度与散度等。 分布中心分布中心 距离变量的所有取值最近的距离变量的所有取值最近的“位置位置” 分布中心是变量取值的一个代表,反映其取分布中心是变量取值的一个代表,反映其取值的一般水平,平均水平。揭示变量取值的频数值的一般水平,平均水平。揭示变量取值的频数分布的集中位置,反映变量分布密度曲线的中心分布的集中位置,反映变量分布密度曲线的中心位置,即对称中心或尖峰位置。位置,即对称中心或尖峰位置。描述分布中心的方式描述分布中心的方式 一种是从位置角度一种是从位置角度, ,另一另一种是数值角度。种是数值角

24、度。位置平均数主要有中位数、众数位置平均数主要有中位数、众数数值平均数主要有算术平均数、几何平均数、调数值平均数主要有算术平均数、几何平均数、调和平均数和平均数 . .主要介绍算术平均数主要介绍算术平均数. .1. 1. 算术平均数算术平均数也称均值,变量所有取值之和与变量值个数的比也称均值,变量所有取值之和与变量值个数的比值,是测度变量分布中心最常用的指标。值,是测度变量分布中心最常用的指标。算术平均数的计算方法算术平均数的计算方法 根据资料的不同有简根据资料的不同有简单算术平均数与加权算术平均数。单算术平均数与加权算术平均数。 (1) 简单算术平均数简单算术平均数 设变量取值设变量取值x1

25、 ,x2 , ,xn,则计算公式为,则计算公式为nxnxxxxniin121 例例2.2.12.2.1 见书见书P13 P13 例题例题1.41.4 (2 2) 加权算术平均数加权算术平均数如果资料是分组整理的变量数列,需使用加权算如果资料是分组整理的变量数列,需使用加权算术平均的方法。术平均的方法。( (a a) )单项式数列单项式数列 设变量设变量x x取值分别为取值分别为x x1 1 ,x x2 2 , ,x xn n的频数分别是的频数分别是f f1 1 ,f f2 2 , ,f fn n ,则计算公式为,则计算公式为 niiniiinnffxffffxfxfxx11212211的权重(

26、频率)的权重(频率)表示第表示第iffffxxniiiniiinii 111 例例2.2.22.2.2 见书见书P14 P14 例题例题5,5,例题例题6 6 说明说明 书例书例题题5 5 从权数(频数)角度计算从权数(频数)角度计算平均数;例题平均数;例题6 6从权重(比率、频率)角度计算从权重(比率、频率)角度计算平均数,两者计算的结果一致,但计算公式的形平均数,两者计算的结果一致,但计算公式的形式不同。式不同。( (b b) ) 组距数列组距数列 设变量设变量x x在各组的组中值分别在各组的组中值分别为为x x1 1 ,x x2 2 , ,x xn n,相应的频数分别是,相应的频数分别是

27、f f1 1 ,f f2 2 , ,f fn n ,则计算公式为,则计算公式为 niiniiinnffxffffxfxfxx11212211的的权权重重(频频率率)表表示示第第iffffxxniiiniiinii 111公式中的公式中的 x x1 1 ,x x2 2 , ,x xn n是是各组的组中值,各组的组中值,而非变量的真正取值,故所计算的平均数是而非变量的真正取值,故所计算的平均数是原始数据平均数的近似值。原始数据平均数的近似值。 例例2.2.32.2.3 见书见书P15 P15 例题例题1.71.7 (3) (3) 算术平均数需注意的问题算术平均数需注意的问题 ( (a a) ) 容

28、易受极端值的影响,为了避免此问容易受极端值的影响,为了避免此问题常常去掉极端值,再计算平均数。题常常去掉极端值,再计算平均数。 ( (b b) ) 计算加权平均数时,除了考虑变量值,计算加权平均数时,除了考虑变量值,还应该考虑每个变量值的权数。还应该考虑每个变量值的权数。 (4) (4) 算术平均数的性质算术平均数的性质 ( (a a) ) 变量值与算术平均数的离差之和等于变量值与算术平均数的离差之和等于0 0,即,即 ( (b b) )变量值与算术平均数的离差平方之和最小。变量值与算术平均数的离差平方之和最小。0)(1 xxnii的的任任意意实实数数xAAxxxniinii 2121)()(

29、 (c c) )变量线性变换的平均数等于变量平均数的线变量线性变换的平均数等于变量平均数的线性变换性变换. .设设 y y = = a + bx ,a + bx ,则则xbay ( (d d) )独立变量和的平均数等于变量平均数的和独立变量和的平均数等于变量平均数的和. .设设 y y = = x x1 1 + +x x2 2 + + +x xn n, ,则则nxxxy 21 (5) (5) 调和平均数调和平均数设变量设变量x x取值分别为取值分别为x x1 1 ,x x2 2 , ,x xn n的频数分的频数分别是别是f f1 1 ,f f2 2 , ,f fn n ,则加权调和平均数的计,

30、则加权调和平均数的计算公式为算公式为 niiiniinnnfxffxfxfxfffx112211211111设变量取值设变量取值x x1 1 ,x x2 2 , ,x xn n,则简单调和平均,则简单调和平均数的计算公式为数的计算公式为 niinxnxxxnx1211111 例例2.2.42.2.4 见书见书P17 P17 例题例题1.81.82. 2. 中位数中位数位置平均数位置平均数 将变量值按照从小到大或从大到小的将变量值按照从小到大或从大到小的排序排序排排列,处于列,处于中间位置上的那个变量值中间位置上的那个变量值, ,用用MeMe表示表示. .Me中位数不受极端值的影响。中位数不受极

31、端值的影响。21 nx2122 nnxx中位数中位数 =1080521921n位置 ( (a a) ) 单项式数列单项式数列 计算向上累计频数或向下计算向上累计频数或向下累计频数累计频数, ,然后用总频数然后用总频数f f 除以除以2,2,以确定中位以确定中位数所在的组的位置;该组位置上的变量值即为中数所在的组的位置;该组位置上的变量值即为中位数。位数。 例例2.2.62.2.6 见书见书P19 P19 例题例题1.101.10 (b) 分组数列分组数列 计算向上累计频数或向下累计频数计算向上累计频数或向下累计频数,然后然后用总频数用总频数f 除以除以2,以确定中位数所在的组的位以确定中位数所

32、在的组的位置;置; 按下列公式计算中位数按下列公式计算中位数.1/ 2mmfSMeLdf1/ 2mmfSMeUdf 例例2.2.72.2.7 见书见书P20 P20 例题例题1.111.113. 3. 众数众数位置平均数位置平均数 变量的全部取值中变量的全部取值中出现次数最多的变量值出现次数最多的变量值, ,称称为此变量的众数为此变量的众数, ,用用MoMo表示表示. . 众数众数适合于数据量较多时使用适合于数据量较多时使用;不受极端值的不受极端值的影响影响;一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数众数众数的的计算方法计算方法 观察法,插值法观察法,插值法. .续例续例2.2.62.2.6 见书见书P19 P19 例题例题1.10 1.10 计算人口数的计算人口数的众数众数解解 根据表根据表1-111-11众数的位置众数的位置次数最大的组是人次数最大的组是人口数为口数为3 3的组,则众数的组,则众数为变量值为变量值=3=3不同品牌饮料的频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论