第3章:数据的初步统计分析_第1页
第3章:数据的初步统计分析_第2页
第3章:数据的初步统计分析_第3页
第3章:数据的初步统计分析_第4页
第3章:数据的初步统计分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 第三章第三章 统计数据的初步分析统计数据的初步分析 第一节第一节: :统计特征数统计特征数 一、集中趋势的测度一、集中趋势的测度 集中趋势描述统计数据分布的集中度和分布中心,通常用以下统计特征数来测度: 均值均值(mean):是描述统计数据分布集中度最常用的统计特征数。 几何平均数几何平均数(geometric mean):适合于诸如指数、百分比和增长速度的平均。 中位数中位数(median):把统计数据按从小到大的顺序排列后,其位置处于中间的观测值。 众数众数(mode):在一系列统计数据当中频率出现最高的数值。 1231 . () n i ni x xxxx m x nn 123 n

2、gn xxxxx 2 c me d m n f xlh f 1 m od 12 xlh 2 l l表示中位数(众数)所在组的下限; l n表示总频数; l fc表示中位数所在组前所有各组的累积频数; l fm表示中位数所在组的频数; l h表示中位数所在所的组距; l 1表示众数所在组频数减紧邻众数组的前一组频 数的差值; l 2表示众数所在组频数减紧邻众数组的后一组频 数的差值。 3 调和平均数调和平均数(reciprocal meanreciprocal mean):):也称倒数平均数,它是对变量的倒数求平 均,然后再取倒数而得到的平均数。 有两种计算形式:有两种计算形式:简单调和平均数和

3、加权调和平均数。 简单调和平均数:简单调和平均数: 加权调和平均:加权调和平均: 1212 1 1111111 nn nn r xxxxxxx n 12 1212 1212 12 1 n nn nn n m mmm r mmmmmmm xxxxxxx mmm 4 例例1:2005年中国南方某城镇2800户家庭的平均每一劳动力年收入的频数分布情 况如下表所示,请计算其均值、中位和众数。 解:解: 均值均值: 中位数中位数 众数众数 年收入分组 (元) 组中值x (元) 频数f累积频数 7000-14000 14000-21000 21000-28000 28000-35000 35000-420

4、00 10500 17500 24500 31500 38500 800 1000 800 100 100 800 1800 2600 2700 2800 总计2800 1 1 ()1 9 4 6 5 k ii i k i i xf mx f 2 8 0 0 8 0 0 2 1 4 0 0 07 0 0 01 8 2 0 0 1 0 0 0 m e dx mod 1000800 14000700014350 10008001000800 x 5 例例2 2:1950年我国总人口为5.5亿,1985年达到了10.5亿,共计增长了1.9倍。 (1)测算1950-1985年,我国平均每5年的人口增长

5、速度; (2)测算1950-1975年,我国平均每5年的人口增长速度; (3)如果1975-1985年期间不实行计划生育政策,请测算1985年我国的人口总数 解:mg=(1.1141.077 1.096 1.144 1.144 1.0681.089 ) 1/7 =1.096 9.6% mg=(1.1141.077 1.096 1.144 1.144 ) 1/5 =1.1096 10. 9% p=92420 (1.109)2 = 113590(万人) 年度人口数(万人)增长速度 1950 1955 1960 1965 1970 1975 1980 1985 55196 61465 66207 7

6、2538 82992 92420 98705 104532 - 1.114 1.077 1.096 1.144 1.114 1.068 1.089 计划生育是国策 6 例例3 3:东方信托投资公司某笔投资的年收益率是按复利计算的,该笔投资的年收 益情况如下表所示,请测算该笔投资25年的平均年收益率。 解解:用几何平均数求该笔投资的年收益率 xg=(103%)1(104%)4(108%)8(110%)10(115%)2(1/25) =(7.6504)(1/25) =108.48% 则:该笔投资的年平均收益率为8.48% 年收益率 (%) 环比增长率 (%) 年数(f) 3 4 8 10 15 1

7、03 104 108 110 115 1 4 8 10 2 总计-25 诚信是发展之本 7 例例4 4:德国奔驰汽车公司某年1-12月份生产的平均成本和总成本如下,请测算 奔驰s600轿车 (1)该公司汽车的月平均生产量;(2)该公司某年汽车的平均生产成本。 解:解:(1)34,45,57,35,56,47,87,34,54,60,56,45 (2)41.9885(万元) 月份平均成本(万元)生产总成本(亿元) 1 2 3 4 5 6 7 8 9 10 11 12 41.8 41.4 42.7 41.2 41.6 43.7 42.5 41.6 41.1 42.5 41.6 41.3 1421.

8、2 1863 2433.9 1442 2329.6 2053.9 3697.5 1414.4 2219.4 2550 2329.6 1858.5 总计25613 8 二、离中趋势的测度二、离中趋势的测度 全距全距(range):):又称极差,是统计数据中最大值与最小值之差。 r=x(maximum)-x(minimum) 四分位差四分位差(quartile deviation):用来反映观测值在中位数周围的集中情况。四分位差越 大,统计数据的离散程度也越大。 平均差:平均差:指全部数据与平均数之差的绝对值的算术平均值。 标准差标准差(standard deviation):):它是测度统计数据

9、离散程度最常用的统计特征数。 变差系数:变差系数:通常用来测度计量单位不同的统计数据的离散程度。 31 () / 2 d qqq 11 () / kk iii ii a dxxff 2 1 ()/ n i i xxn ./cvx 9 三、偏斜度和峰度的测度三、偏斜度和峰度的测度 偏斜度偏斜度(skewness ):):是表征随机变量频数分布不对称程度的统计特征数。 1)当偏斜度等于0时,呈现对称分布 2)当偏斜度大于0时,呈现正偏态分布 3)当偏斜度小于0时,呈现负偏态分布 峰度峰度(kurtosis ):):描述统计分布所呈现的尖顶或平坦程度的统计特征数。 1)当峰度等于0时,呈现正态分布

10、2)当峰度大于0时,呈现顶尖峰分布 3)当峰度小于0时,呈现平坦分布 4)当峰度接近于-2.2时,分布曲线趋向一条水平线 3 3 31 3 / 2 2 1 () / n ii i kn i i fxx b s b f 42 2 114 2 2 11 ()() 3/ 3 nn iiii ii knn ii ii fxxfxx b e b ff 10 四、中位数、众数和算术平均数关系四、中位数、众数和算术平均数关系 k.pearson研究发现中位数、众数、算术平均数与频数分布之间存在如下特定关系: 当算术平均数大于中位数且大于众数时,频数分布呈现右偏态; 当算术平均数小于中位数且小于众数时,频数分

11、布呈现左偏态; 当频数分布的偏斜度不很明显时,中位数、众数和算术平均数存在如下关系:中位数 总是位于众数与算术平均数中间,中位数(xe)与众数(xo)之距离约为算术平均数(x)与 中位数(xe)之距离的2倍,即为: xe-xo=2(x-xe) xe=(xo+2x)/3 x=(3xe-xo)/2 xo=3xe-2x xoxexxxexo 11 频数分布的偏斜程度可以用下公式来测定: sk=(x-xo)/ sk=3(x-xe)/ 1)x为算术平均数; 2)xo 为众数; 3)xe为中位数; 4)为标准差 v当sk等于零时,频数分布为对称分布; v当sk大于零时,频数分布为正偏态分布; v当sk小于

12、零时,频数分布为负偏态分布。 例例5 5:通过对大众汽车公司员工月收入的抽样调查,发现该公司员工月收入的众数为3340 元,中位数为3800元。如果该公司员工月收入的频数分布的偏斜度不是很明显,且 得到员工收入标准差为800,请测算大众汽车公司员工月收入的算术平均数,并判 断其频数分布的形态特征,进而计算其偏斜度sk 。 解:解: x=(3xe-xo)/2=(3*3800-3340)/2=4030(元) 因为算术平均数大于中位数且大于众数 所以可判断该频数分布呈现正偏态 sk=(x-xo)/=(4030-3340)/800=0.8625 (正偏态) 我最忧虑是增加农民收入 12 第二节:统计数

13、据的整理第二节:统计数据的整理 例例: :2006年上海某大学管理学院博士研究生报考人数为200人,英语成绩统计如下表所示,请 计算相关的统计特征量,并把这些统计数据整理成统计图表。 80.00 90.00 75.00 85.00 65.00 74.00 53.00 82.00 87.00 68.00 75.00 80.00 72.00 83.00 74.00 70.00 93.00 74.00 82.00 62.00 68.00 45.00 82.00 75.00 84.00 70.00 93.00 74.00 82.00 62.00 76.00 84.00 85.00 82.00 89.0

14、0 72.00 78.00 85.00 68.00 60.00 88.00 70.00 60.00 67.00 72.00 85.00 95.00 76.00 80.00 72.00 80.00 90.00 75.00 85.00 65.00 82.00 86.00 79.00 78.00 68.00 72.00 78.00 85.00 68.00 60.00 75.00 80.00 72.00 83.00 74.00 73.00 78.00 76.00 81.00 67.00 88.00 70.00 60.00 67.00 72.00 70.00 75.00 85.00 84.00 74.0

15、0 79.00 82.00 86.00 72.00 69.00 64.00 68.00 35.00 80.00 79.00 78.00 62.00 64.00 68.00 76.00 64.00 68.00 35.00 80.00 79.00 82.00 86.00 79.00 78.00 68.00 84.00 82.00 78.00 76.00 72.00 68.00 45.00 82.00 75.00 84.00 80.00 84.00 88.00 70.00 74.00 73.00 78.00 76.00 81.00 67.00 79.00 82.00 86.00 72.00 69.0

16、0 80.00 84.00 88.00 70.00 74.00 78.00 62.00 64.00 68.00 76.00 76.00 84.00 85.00 82.00 89.00 83.00 84.00 87.00 90.00 88.00 85.00 95.00 76.00 80.00 72.00 63.00 65.00 71.00 77.00 79.00 83.00 84.00 87.00 90.00 88.00 84.00 82.00 78.00 76.00 72.00 70.00 75.00 85.00 84.00 74.00 84.00 82.00 78.00 76.00 72.0

17、0 84.00 82.00 78.00 76.00 72.00 74.00 53.00 82.00 87.00 68.00 63.00 65.00 71.00 77.00 79.00 13 frequency percent valid percentcumulative percent 35.0021.01.01.0 45.0021.01.02.0 53.0021.01.03.0 60.0042.02.05.0 62.0042.02.07.0 63.0042.02.09.0 64.0042.02.011.0 65.0042.02.013.0 67.0063.03.016.0 68.00147

18、.07.023.0 69.0021.01.024.0 70.00105.05.029.0 71.0021.01.030.0 72.00126.06.036.0 73.0021.01.037.0 74.00105.05.042.0 75.0084.04.046.0 76.00105.05.051.0 77.0021.01.052.0 78.00105.05.057.0 79.0084.04.061.0 80.00126.06.067.0 81.0021.01.068.0 82.00147.07.075.0 83.0042.02.077.0 84.00126.06.083.0 85.00105.0

19、5.088.0 86.0042.02.090.0 87.0042.02.092.0 88.0063.03.095.0 89.0021.01.096.0 90.0042.02.098.0 93.0021.01.099.0 95.0021.01.0100.0 total200100.0100.0 14 表2:200个学生英语成绩的统计特征量分析 n valid 200 mean 75.6300 std. error of mean .6875 median 76.5000a mode 68.00b std. deviation 9.7224 variance 94.5257 skewness -1

20、.033 std. error of skewness .172 kurtosis 2.499 std. error of kurtosis .342 range 60.00 minimum 35.00 maximum 95.00 sum 15126.00 percentiles 10 64.0000c 20 68.1250 30 71.1429 40 74.1111 50 76.5000 60 79.2000 70 81.6250 80 84.0000 90 86.5000 a calculated from grouped data. b multiple modes exist. the

21、 smallest value is shown c percentiles are calculated from grouped data. 15 图1:200名学生英语成绩频数分布条形( bars)图 x 93.00 89.00 87.00 85.00 83.00 81.00 79.00 77.00 75.00 73.00 71.00 69.00 67.00 64.00 62.00 53.00 35.00 count 16 14 12 10 8 6 4 2 0 16 图2:200名学生英语成绩累积频数分布条形( bars)图 x 93.00 89.00 87.00 85.00 83.00

22、 81.00 79.00 77.00 75.00 73.00 71.00 69.00 67.00 64.00 62.00 53.00 35.00 cumulative frequency 300 200 100 0 17 图3:200名学生英语成绩频率分布条形( bars)图 x 93.00 89.00 87.00 85.00 83.00 81.00 79.00 77.00 75.00 73.00 71.00 69.00 67.00 64.00 62.00 53.00 35.00 percent 8 6 4 2 0 18 图4:200名学生英语成绩累积频率分布条形( bars)图 x 93.0

23、0 89.00 87.00 85.00 83.00 81.00 79.00 77.00 75.00 73.00 71.00 69.00 67.00 64.00 62.00 53.00 35.00 cumulative percent 120 100 80 60 40 20 0 19 图5:200名学生的英语成绩频率分布线条图 x 93.00 89.00 87.00 85.00 83.00 81.00 79.00 77.00 75.00 73.00 71.00 69.00 67.00 64.00 62.00 53.00 35.00 count 16 14 12 10 8 6 4 2 0 20 图

24、6:200名学生的英语成绩累积频率分布线条图 x 93.00 89.00 87.00 85.00 83.00 81.00 79.00 77.00 75.00 73.00 71.00 69.00 67.00 64.00 62.00 53.00 35.00 cumulative frequency 300 200 100 0 21 图7:200名学生英语成语条形图 case number 191 181 171 161 151 141 131 121 111 101 91 81 71 61 51 41 31 21 11 1 value x 100 90 80 70 60 50 40 30 20 2

25、2 图8:200名学生的英语成绩线形图 case number 191 181 171 161 151 141 131 121 111 101 91 81 71 61 51 41 31 21 11 1 value x 100 90 80 70 60 50 40 30 23 x 95.0 90.0 85.0 80.0 75.0 70.0 65.0 60.0 55.0 50.0 45.0 40.0 35.0 x frequency 50 40 30 20 10 0 std. dev = 9.72 mean = 75.6 n = 200.00 图图9 9:200200名学生英语成绩带线型的频数分布直方图名学生英语成绩带线型的频数分布直方图 (histogramshistograms) 24 第三节:几种典型的统计分布曲线第三节:几种典型的统计分布曲线 二项分布(二项分布(binomial distribution) 如果随机变量x表示n重bernoulli试验中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论