版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计在线学习课件讲义
《统计与决策》
主讲人:袁卫
制作单位:北京市统计局
2007年5月
第一部分绪论
同志们,同学们,大家好!下面我们一起学习统计与决
策。这一部分共分3个单元,第一单元介绍统计的应用,我
把它称为绪论;第二单元介绍描述统讨,就是搜集数据、整
理数据的一些基本知识;第三单元介绍如何应用统计方法来
帮助我们进行管理,进行决策。
首先,我们看一下什么是统计。我们每一个人在做每一
项工作时都会有自己对统计的认识,比如,我们经常在报刊
上看到类似这样的消息:”思科公司(Cisco)在纳期达克周
一收盘时的市值为5550亿美元二这条信息就是一个统计分
析的结果,就是经济管理统计的一项工作。再比如,“50家
最大公司CEO的年均收入是930万美元”,这是2000年福布
斯报道的一个消息,这又是一个统计,里边含有一个概念,
即:什么是“平均收入二它反映了什么样的问题,能够带
给读者什么样的信息?再看第三个,”股票平均能够使75%
的投资者盈利”,这样的一条信息又意味着什么?我们在国
内的报刊上也经常看到这样一些信息,比如:股票的一个百
分比。对于每一位投资者,当你进行投资选择的时候,这小
百分比会有什么样的作用呢?
统计,简单地说就是搜集数据、整理数据、分析数据的
一些简单方法。如果用更简单的方法给它下个定义,统计就
是处理数据的一门科学。更简单地说.统计学就是数据的科
学。由于现在任何一项工作在信息时代都有很多数据,我们
在日常的工作和生活中都离不开数据,因而.统计离我们的
生活很近很近。
下面我就分别介绍统计在经济管理中的一些主要应用,
这里叫做统计在商务中的应用。
首先我举一个财务会计方面的例子。会计师事务所在对
某公司进行审计的时候,并不是要对它的每一笔流水都进行
核实,因为通常一个规模较大的公司,一年的经济往来会有
几万、甚至几十万笔,如果对每一笔业务都做逐项核对,会
花费大量的时间,精力、人力、物力。他们所做的工作是选
择一个抽样的方式,从有效的应收帐款账目中抽取一小部分
进行核实。但是,根据对这一小部分眯目核实的结果,他们
就能对这个公司整体的经济运行状况做出一个结论,即:这
个公司在财务方面是否合法,是否遵守规章制度,是否有财
经方面的问题。因此,从大量的数据中抽出一部分作为样本,
并且通过对样本的分析和计算,就能够推断出总体,正是统
计的科学性所在。
其次,看一下统计在营销方面的应用。举一个在零售付
款柜台上的例子。现在,中国无论是大型超市、百货商场,
还是小型零售商店,在收款时都用扫描仪对条型码进行扫
指。在扫描的同时.商品的所有信息就进入到计算机。在很
多大公司,特别是在国外.人们通常使用信用卡或银行借记
卡支付,在刷卡的同时,一些个人信息也就进入了数据库。
这些消费者的个人信息和购买商品的信息,无论是对生产
商、制造商还是对零售商,都非常有用。例如,作为国际知
名的数据供应商,A.C.Nielson和InformationResources,Inc.
的主要工作就是花钱从零售商店或超市购买刚才提到的顾
客购买商品时扫描的基础信息,进行加工后,再卖给制造商
或者零售商。一份关于啤酒这种商品的数据,大概可以卖到
30多万美元。由此可见,数据经过整理,就可以变成一种产
品,一种商品,制造商和零售商购买后,就可以为他们的生
产和服务做决策。例如,大型超市在掌握了这个信息后,就
能合理地安排超市的进货,甚至货架的摆放。众所周知,沃
尔玛作为世界知名的大型零售商.对自己客户的信息做了大
量分析,由专门的分析人员运用数据挖掘技术,对所有客户
信息进行分析,如:客户中有多少客户购买什么样的商品,
在什么时间购买,在购买某一种商品的同时是否还购买其他
商品等。所有这些信息,对像沃尔玛这样的零售商非常有用,
通过对大量数据进行分析,我们会发现经常买啤酒的顾客会
买一些熟食作为下酒食品,假定通过分析发现这两种商品具
有非常紧密的联系,零售商沃尔玛就会考虑两种设计:一种
设计是将啤酒专柜与熟食专柜放得非常近,好处是当顾客往
购物车上装入一箱啤酒后,可以到不远的地方很方便地购买
一些熟食:另一种设计是将这两种商品放得远一点.中间摆
放一些商品货架,顾客在买完啤酒再去购买熟食时,会路过
这些货架,在四处观看的过程中.也许会发现他原本没有准
备购买的东西,这样就增加了顾客购买商品的机会。所以,
现在很多大公司都对这样一些信息非常重视,会考虑什么样
的客户会在什么时间购买什么样的商品,购买某种商品的客
户群是什么等,并利用这样一些信息来做最好的安排,满足
客户的需要。这样的研究,对提高管理水平非常有效。最近,
我也在网上看到中国的一些商品信息。目前,中国的数据分
析公司巳经对彩电、洗衣机、冰箱等家用电器的数据做了整
理和分析,包括各个品牌的市场需求情况等,制造商和零售
商可付费购买。上述这些对统计的应用,在营销管理方面有
着非常好的前景。
第三,在金融领域,金融部门也通过利用统计信息来指
导他们的客户,包括他们自己进行投资。例如,如果把个股
信息和股票市场的均值进行比较,可以分析个股的价格是否
被高估。如果在Barron报告中,道琼斯30种股票的平均市
盈率是24.7,而其中一支股票PhilipMorris的市盈率是9,
假定这个信息的数据是准确的,投资者就会通过把这2个数
据进行比较来做投资决策,因为按照一般的常识,购买市盈
率低的股票,投资回报的周期就会比较短。所以,如果有适
当的统计知识,会应用这些统计知识。所有公布的信息对于
消费者、投资者和我们的客户都会有价值,它可以帮助我们
选择,帮助我们做更好的投资。
在现在的保险领域里,就更离不开统计。在保险业里有
一种特殊的职业——精算师。这一职业就是专门利用概率和
统计知识分析风险、计算风险、尽量回避或减少在投资和保
险业中的风险。这里是2006年我国保费的一些情况。首先,
我们来看寿险和健康险。保险可以分成寿险和非寿险两类。
在寿险里,精算师所做的统计分析有什么用呢?在寿险中,
所有健康险、医疗险和意外险,最重要的工作是怎样设计保
单、怎样设计保费。计算保费的根据是什么?在寿险中,最
基本的根据是生命表。生命表,简单地说就是不同性别的人,
在0岁到100岁之间每一个年龄的死亡率。通过这个死亡率,
就可以计算每个年龄不同性别人群的风险,进而计算合理的
保费。假如一个30岁的男性和一个60岁的男性都想购买一
年30万保献的保险,大家想一想,两个人支付的保费是不
是应该一样?一定是不一样的。那么谁应该多付一些保费
呢?是30岁的人还是60岁的人?显然应该是60岁的人。
为什么呢?就是因为60岁的死亡率比30岁的死亡率要高一
些,换而言之,就是60岁比30岁的风险要大一些,既然风
险大,他就应该多支付保险,因为他想得到同样的保险补偿,
因此,要想科学地制定人寿保险的保单和保费,最基本的就
是要有一个好的生命表。简单地回顾一下我们国家的人寿保
险。众所周知,我国在解放以后的50年代有保险业务,但
到了大跃进时期,似乎一切事务都要由国家承担风险,所以,
中国人民保险公司在大跃进后就停滞下来。直到文革结束以
后,我国实施了改革开放政策,随着社会主义市场经济的建
立,人们逐渐认识到,我们的国家、社会、企业、家庭,包
括我们个人.实际上无时无刻不面临着风险。国家有国家的
风险,个人有个人的风险,家庭有家庭的风险,国家不可能
把所有的风险全部承担下来。因此,到了1982年,我国的
保险业开始恢复。恢复人寿保险的第一件事情就是制定保
费,但由于保睑业已经停滞了20年,我国实际上已没有自
己的生命表。为了计算保费,我们借用了台湾地区和其他国
家的生命表。我国是一个拥有十几亿人口的大国,国土面积
达960万平方公里,南北东西城乡差异很大,而台湾作为我
国的一个地区,用他的生命表来计算大陆寿险的保费,显然
是不尽合理的。随着保险事业的开展,我们不断枳累了很多
数据.到90年代初,就开始着手进行生命表的编制。大概
在1993—1994年,我国第一张生命表编制完成,并且在90
年代开始使用。又经过大概10年的时间,我国对这张生命
表进行了完善,而且编制了第二张生命表。在第二张生命表
即将编制完成、准备使用时,社会上有一些人制造舆论,说
“新的生命表已经编出来了,如果使用新的生命表,保险产
品要涨价”,因而在那里煽动,“如果要购买保险,现在买是
合适的,因为一旦要实行新的生命表,保费要涨了:这里,
用我们的知识判断一下,如果其他条件不变,购买同样保额
的保险,用10年后的生命表取代10年前的生命表进行计算,
我们的保野应该是升还是降?显然,应该降。因为,随着杜
会经济的发展,随着医疗条件的改善,每个年龄组的死亡率
都在不断下降,人均的预期寿命在不断上升,在这样的条件
下,我们的保费不是应该升,而是应该降。这也说明,如果
有一些概率、统计、保险方面的知识,我们就不会被那些蛊
感人心的言论所左右。事后,也有一些专家出来澄清这一事
实,希望大家不要抢购,而应该根据自己的计划来购买保险.
在财产保险中,我们重点看一下抗空意外保险。大家在
坐飞机前通常要做一件事就是购买一份航空意外保险。过去
曾经是20元钱保20万,现在是20元钱保40万。利用我们
的知识可以做一点基本分析:如果暂时不考虑保险公司的利
润和管理费用,保险的保费价格应该和什么有关系?应该与
航空的风险有关,风险越高,你所支付的保费就应该越多。
请大家计算一下,现在用20元钱购买40万的保额,这就意
味着航空意外的风险应该是多少?二万分之一。中国民航的
实际风险是多少?这个数据大家可能不太在意。我国在计算
民航实际风险时,是以10年间所有的肮班作为一个统计周
期,即;10年间我国共有多少万次航班,航空意外事故有几
次。目前,我国民航的平均风险是二百万分之一。刚才已经
计算过,我国航空意外保险保责设计的风险是二万分之一,
而实际风险是二百万分之一,如果不考虑保险公司的利润和
管理费用,那么保险公司在航空意外险上的利润就是100倍。
正是因为航空意外险有如此大的利润空间,在过去的几年
里,我国航空意外险的保险市场非常混乱,出现了一些不规
范、不合法的保险公司和中介公司,甚至卖出一些假保单.
因为我国民航的风险非常低,所以,他们一旦把保单卖出去,
就可以净赚20元钱。为此,我国保监会、保监局等部门整
顿了航空保险市场。从技术层面讲,一般国外的保险公司,
其利润仅占所有保险产品的10V20%,据此分析,我国的航
空意外险应该降价,如果保额仍为40万元,保费不应该建
过1元钱,这个比例比较合理,也能够保证保险公司正常的
利润空间。这就是我们利用概率统计进行分析的结果。
生产管理是概率统计方法应用得最为经典,也最为成功
的领域。在生产过程中被广泛应用的SPC管理(Statistica)
ProcessControl),简称为统计过程控制,是在上个世纪30
年代.由美国的贝尔电话实脸室首先创建的。它是利用统计
方法制作控制图,运用统计分析技术对生产过程进行实时监
控,它的贡献是对整个工业企业的生产效率和产品质量的提
高起了板大作用,是一个非常伟大的应用。此外,还有大家
同样熟悉的6西格玛管理,从上个世纪80年代后期到今天,
一直在国际上的一些大公司,包括GC、摩托罗拉等世界级
大公司广泛使用,并且取得了成功。6西格玛管理运用了赞
率统计中关于正态分布标准差的理论,这是一种非常成功的
管理模式,巳成为现在国际化大公司进行管理的一种重要工
具。第三个重要应用是实验设计,它的作用是在生产之前,
用统计方法进行实验设计,从而保障企业在生产过程中可以
尽量少生产、甚至不生产不合格产品。以上三个例子,都是
利用统计进行生产管理的典型案例。作为经济的宏观管理部
n,包括政府管理部门.我们会应用到对经济的预测和分析,
也会应用到经济计量模型,这里会涉及到一些统计的指标和
概念,如:通货膨胀率、物价指数和失业率等。作为一个好
的管理者,我们应该熟悉一些在生活和管理中用得最多的一
些统计指标,了解其内涵、应用范围等。如果想更深入地做
一些研究,我们还会利用到回归分析和统计模型进行预测.
这种建立在比较准确的数据分析基础上的分析和预测,能使
管理者的工作效率更高,工作做得更好。
统计不仅在生产和管理中被广泛应用,而且在生活中也
有许多应用,比如:体育。首先,我们来看篮球比赛。由于
姚明加入了美国NBA,所以在NBA中我们的影响很大,NBA
还专匚建立了一个中文网站,网址为。该
网站中有两个关于统计数据的网页,分别是“数据”和“排
名”。2007年NBA的常规赛刚刚结束,目前正在进行季后赛。
在“数据”页面中,我们可以看到季后赛的得分情况,这就
是NBA球员的技术统计,它是按照球员平均每场的投篮命
中率和得分情况进行排序的。目前排在第一位的是洛杉矶湖
人队的科比布莱恩特,他平均每场得分为32.8分。排在第
二位的球员平均每场得分为32分。中国非常优秀的球员姚
明,在NBA季后赛中排在第8位,平均每场得分为25.1分。
在球员的技术统计数据中,还包括平均每场出场时间,投球
数,命中数。姚明平均每场投篮17.9个,平均命中7.9个.
命中率是44%,罚球的命中率是88%«这些观众和球迷都能
看到的数据,对球队管理者更为有用。NBA每一支球队的教
练员和教练组,都会利用这些数据安排技战术,球队的老板
和管理人员用更为具体的数据安排球员的奖金,甚至是出场
费。在国外,体肓比赛的数据搜集得非常详细。众所周知,
美国哥伦比亚大学经济系非常知名,去年诺贝尔奖金获得者
就是哥大经济系的教授,另外,该系的蒙黛尔教授、斯第格
里西教授等也都曾获得过诺贝尔经济学奖。有一位马丁教
授,除了在哥大经济系做教授外,还兼任西班牙巴塞罗那足
球队体育技术委员会的主席,其工作就是迸行统计数据的收
集和分析。该委员会把巴塞罗那队的每一场比赛进行录像,
把每一名队员的每一个动作作为数据输入到计算机里,用来
做分析、做管理。严格地说,他所做的工作是记录队员在球
场比赛的每一个动作,包括成功、失误、助攻、射门的次数
等,这些情况全部与队员的奖金挂钩,这就是一位经济学教
授在巴塞罗那足球队所做的管理性的工作。通过上述案例可
以看出,对数据的搜集、整理和分析,不仅在管理和工作中
非常有效,而且在生活中、在体育比赛中,甚至在娱乐中都
被经常用到。著名科学家爱因斯坦曾经说过,“数学定律不
能百分之百确实地用在现实生活中间;能够百分之百确实地
用数学定律描述的,就不是现实生活。”意思是说,我们的
现实生活是纷纭复杂的,不能简单地用数学公式进行描述,
如果需要做补充,统计的方法、概率的方法恰恰是能够从比
较纷纭复杂的现实生活中发现规律的一种方法和一种有效
工具。它能够从杂乱无章、无规律可循的数据中间发现事务
的内部规律,换而言之,统计方法就是要发现事务内部的、
规律性的数量关系和数置变化0
请看下面一组统计数据。第一,在正常情况下新生婴儿
的男女性别比率是106:100,其含义是,在大量的新生儿中,
男孩和女孩的比例是106;100o现实生活中,新生娶儿并非
是男孩和女孩一样多,而是平均每100个女孩就会有106个
男孩,即:新生婴儿中男孩比女孩要多,平均每206个新生
婴儿中,男孩就比女孩多6个。那么,人类是如何保持男女
性别的平衡、保证人类的遗传、社会的和谐发展呢?是什么
原因使人类具有这样一个基本规律呢?为什么在新生要儿
中是男孩比女孩多一些呢?因为男性比女性的死亡率高,不
仅在新生婴儿时期,在所有的年龄组中,男性的死亡率都比
女性要高。因而,在新生婴儿中男孩比女孩多一点,恰恰可
以保证人类社会能够和谐地、可持续地发展。虽然新生婴儿
男孩略多一些,但是由于男性在每一个年龄组的死亡率都比
女性要高一点,在中青年结陪生育的时候,男性与女性的人
数就基本相等了,从而保证了在生育时期人口性别的平衡.
随着人们进入中年、进入老年,由于男性的死亡率仍然比女
性高,就导致了真正长寿的女性要比男性多一些。由于处在
要幼儿时期的男性比女性多一点.中青年时男女大体持平,
年老时期的男性比女性要少,从人口的总规模来看.男女的
人口总量又俣持了另外的一个平衡,这就是人类社会几十万
年,几百万年甚至更长时间遗传变异的结果,就形成了一个
规律。在我国尚未实行计划生育政策时,多数家庭都有4—5
个孩子,也许有些家庭都是女孩,而有些家庭都是男孩.如
果到一些居委会去做统计,也许某一个居委会的女孩多、而
另一个居委会的男孩多,可一旦我们进行大量数据的搜集整
理,新生婴儿的男女性别比一定符合这个规律;106:100.
这个规律在古今中外,每一个国家、每一个大洲都基本相同.
这是我们对大量数据进行分析发现的规律。早在17世纪,
英国伦敦的统计学者就发现了这个规律,这也应该作为统计
学发展的源头之一。
笫二个数据来自于生活中常做的一种游戏:当陵机地投
掷一枚硬币时,出现正、反面的规律都应该是50%。这也是
经过大量实验得出的规律。同样.如果我们随机地投掷一个
骰子,其六面中每一面出现的可能性都是六分之一。这些规
律,对于现代人来说毋廊质疑,但在200-300年前,一些
数学家和学者为研究这一规律进行了大量的投掷,最多可达
2万多次。在这个过程中,他们发现,投掷的次数越多,现
币正、反两面出现的比率就越接近50%。
第三,美国越战时期通过“抓阉”征兵时出现的两个数
据:73/183和110/183。越南战争在60年代初期刚爆发时,
美国的年轻人非常踊跃地报名参军,但几年后,随着越市战
争被拖入一个没有尽头的泥潭,美国社会出现了反战情署。
虽然战争还没有结束,但美国的年轻人已不再愿意去当兵.
美国政府迫于无奈,由国会通过了一个征兵法案。因为美国
的立国之本就是平等,该法案为了保证每一个年轻人拥有平
等的当兵机会,采取了类似“折阉”的方式,其做法与我国
现在的体肓彩票、福利彩票相似,即:把一年中的每一天和
闰年的2月29日分别写在纸条上,把这366个纸条分别装
在蓝色小球中,再放到一个大的透明的玻璃罐中,像体育彩
票和福利彩票摇奖一样进行摇号。这项法案茯得美国国会通
过后,1969年在美国现场直播。当把366个生日小球放入一
个透明的大玻璃罐中搅拌均匀后,小球一个接一个地掉下
来,并被按照掉下来的顺序排队。如果某一个生日第一个掉
下来,在征兵时,这一天出生的人就要第一批去当兵。显然,
生日摇得越靠前,被征兵的机会就越大.如果某一个生日被
排在一年的一半以后,那么这一天出生的人去当兵的机会就
比较小,因为美国不会把他所有的年轻人都派去当兵。实际
上,如果某一个生日被排到了183以后,即一年的一半以后,
这一天出生的人就基本上不会去当兵。当时征兵的范围是18
至29岁的男性青年,只要身体健康,都要按照摇号的顺序
去当兵。为什么?因为这是公平的、这是随机的、这是合理
的。电视直播后,统计学家立即对这个数据进行了分析,正
如幻灯片上所讲,摇出的结果是,在前183个生日中,有73
个是上半年、有110个是下半年,而并非为各50%左右。因
为国会在逋过该法案的时候,就是要保证公平,保证每一个
生日被抽中的机会是相等的,但实际上,上半年出生的人征
兵的机会是73/183.而下半年出生的人去当兵的机会是
110/183o显然,下半年出生的人去当兵的机会要大一些。
统计学家对这个数据进行了假设检脸,结果是这两个数据之
间有显著的差异。因此,统计学家立刻对国会提出质疑:这
一次征兵过程中的摇号不随机,对下半年出生的人不公平,
他们去当兵的机会远远大于上半年出生的人,似乎对下半年
出生的人存在着歧视。国会为检验这个数据也请了学者,证
明统计学家是正确的。国会于是承认,”这一次的设计还不
够科学,366个小球放到一个大玻璃罐中应该完全摇匀,但
实际上还不够均匀,导致了在掉下来的前183个小球中,下
半年的生日多一些。明年我们会做得再好一些,今年就这样
了J从这个例子中可以看出,统计在我们的日常生活和工
作中,都可以被广泛地应用。
第四个是上个世纪50年代初期小儿麻痹症疫苗试卷的
数据。一般情况下,新药和新疫苗在研究过程中,都要经过
三个严格的试脸阶段。例子中的这组数据是在试脸的最后一
个阶段,服用疫苗和没有服用疫苗的孩子各有20万,服用
疫苗的孩子中有56人得了小儿麻痹症,而没有服用疫苗的
孩子中有138个孩子患病。根据对这一数据进行统计计算和
分析后,研究人员就可以得出这种疫苗是否有效的结论。目
前,所有新药都要经过这样严格的数据检验,包括中国正在
着力开发的非典疫苗、艾滋病疫苗等,都在做这样的检验。
最后是一个关于广告费用、企业知名度和销售额的一组
数据%如果能够搜集到充分的数据一,我们就可以描述出某一
个公司、某一个企业通过做广告.为提高企业知名度和销售
额所带来的变化e通过发现他们之间的数量关系,就可以制
定科学的广告策略。
从上述例子中可以看出,统计的方法,或者说是数据分
析的方法,是在各个领域里进行科学研究的一个基本工具,
既包括经济、管理、医疗、物理、天文等领域,也包括人文
社会科学的一些领域,如法律、历史等。在现在的法庭审判
中,越来越多地依赖于数据分析,数据分析作为法庭审判中
的证据,有非常好的应用。因而,作为一种数据分析的方法,
统计不仅渗透在几乎所有的学科领域里,而且在日常生活的
每一个角落,都可以找到很好的数据分析、统计分析的应用。
统计的方法可以分成两大类.一类是描述统计,一类是
推断统计。在推断统计中,又可以分为参数估计和假设检验。
实际上,幻灯片中的框图已非常简单地勾画出完整的统计体
系。
首先看播述统计。在幻灯片的右边是一个柱形图,我们
可以直观地看到数据变化的过程.每个柱形下面分别标有
QLQ2.Q3、Q4,这是英文和数字的缩写,大家很容易就可
以猜到这可能是反映一个公司、一个企业甚至一个行业季度
销售额或利润的变化,这里的Q代表季度。假定这反映的是
销售额的变化,我们从直观的柱形图中可以看到,这种商品
或服务具有在前三个季度逐渐上升、在第四季度下降的规律
或趋势。我们会很快联想到饮料、游泳衣或某地区旅游业等
情况,因为这些商品或服务都具有这样的规律。因此,凡是
看到这样的柱形图.如果我们有统计的知识,就可以很容易
地联想到这背后反映的是一类什么样的事务,这就是描述统
计。简单地说,描述统计就是怎样有效地搜集数据、整理数
据、显示数据,并且发现数据基本的、数量的特征。在此图
下边有两个数据,一个是平均数,用N表示;一个是方差,
用/表示。这两个数据是统计的核心数据,分别.表明数据的
平均水平和数据之间的一个平均的差异水平,有了这两个数
据一一平均值和方差(也叫标准差),我们就可以比较清造
地把握数据的规律。
其次是推断统计。推断统计的思路和原理就是幻灯片中
右边的这张图,其目的是了解一个总体的数量特征,并对总
体的数量特征做出科学的估计或推断。通常情况下,这个总
体非常大,有时是没有数量界限的一个无穷的总体,要对它
的特点做出估计或了解,就很难对总体里每一个单位都进行
调查。我们能够做的是从总体中抽出一个样本,通常是一个
很小的样本,通过对样本的分析或数据描述,就可以推断出
总体的特征。例如,美国在总统大选期间都要做民意测验。
美国总统大选的总体就是美国的全体选民,是18岁以上的
美国成年人。目前.美国的总人口巳经趣过3亿,选民在2
亿左右。如果通过对每一个选民都进行遍查的方式进行总统
大选预测,显然是不可能的,因为即使到了美国大选投票的
那一天,一般也只会有60%—7(用的选民去投票,而几千万甚
至更多的选民不会去投票。因此,美国一些大的新闻机构和
调查公司就采取随机抽样的方式,从2亿的选民总体中抽取
一个样本进行调查。如果想研究全部2亿人,并做出一个科
学的推断,估计的误差不越过2-3个百分点,即:误差不
超过2$或3乐那么,样本量应该是多少呢?盖洛普——美
国一个非常有名的调查机构,只调查1000-1500人,即:
从2亿的一个人口总体中,只调查其中的1000—1500人,
显然,与总体相比,这个样本是很小的。那么准确性如何呢?
盖洛普从1936年起至今,已有近70年的实践,在每四年一
次的总统大选中,其平均误差在2%左右,历史上只有一次做
了错误的推断和预测,其他都对了。其他一些大的新闻机构.
如:美国的CNN、CBS.ABC等,其调查的样本量都是1000
-1500o这个例子告诉我们,只要方法科学,就可以做到抽
取一个很小的样本,而得到非常精确的结果,这就是统计方
法的科学性所在。目前,在我们的许多调查中经常出现一个
问题:调查的样本量很大,可方法并不科学,有时调查了几
千甚至上万人,但得到的结果却与真实的情况相差很多。因
此,我们不能仅追求调杳的数量,而应追求调查的质量,要
掌握这一技术,统计方法非常之重要。
我们谈到了,在统计的方法体系里,主要是描述统计和
推断统计两部分。幻灯片中有一个框图.最左边是我们研究
事务的开始,是反映客观现象数据的开始,换而言之,统计
分析和统计研究必须要有数据,我们本身也应该做到科学地
搜集数据和整理数据。一旦有数据,我们就可以进行分析。
这里有两条路缓,如果我们得到的是总体的数据,经过描述
统计,我们就能达到目的,即:认识总体内在数量的规律性。
但90%以上的情况是,我们很难得到总侬的数据,而通常得
到的是样本的数据,因此,我们先要经过描逑统计,同时再
经过推断统计,在这个过程中,还要用到概,辜的一些知识.
作为统计知识的基础,我们特别强调两对基本强念,-
对概念就是刚才举例中提到的总体和样本。总体就是我们研
究事务的全部,英语叫做Population,也有人口的意思;跟
它对应的一个概念就叫做样本,是从总体中随机抽出来的一
部分。我们通常只研究样本,然后对总体进行推断。
第二对概念是参数和统计量。参数是描述总体数量特征
的,最关健的3个数据是总体的平均数、总体的标准差、总
体的百分比,分别用3个希腊字母表述为:口、。、P;另
外一个概念是描述样本数量特征的,称为统计量,最重要的
3个数据为样本的平均数、样本的标准差、样本的比率或百
分比。
我们可以把这两对基本概念用幻灯片中的图例表述出
来,左边是总体,描述总体的是参数:右边是总体的一部分,
可能是很小的一部分,我们称之为样本,描述样本的是统计
量,这里有三对主要的量.就是均值、标准差和比率。实际
上,我们在学习统计的时候,在掌握统计方法的时候,最最
核心的就是应该理解均值、标准差和百分比。这是我们做分
析计算用得最多的量。
既然要处理数据,自然离不开统计软件,在这里介绍5
种:排在前边3A$、SPSS.MINITAB和STATIST1CA都是
专业的统计分析软件,用于较高或较深层次的统计研究;对
于一般的应用者,我们只需要熟悉EXCEL软件即可,因为
它是一个非常简单的数据列表和分析软件e
第一部分绪论就到这里。通过绪论,希望大家能终了解,
统计作为一个数据分析的方法和基本工具,对我们的科学研
究,对我们的生产、管理和日常生活有着广泛的应用。在我
们生活和工作的所有方面都离不开数据丁有了数据就有了统
计,应用统计来分析数据,就可以帮助我们提高管理.使我
们的生活更加丰富多彩.
第二部分描述统计
下面我们简单的绐大家介绍描述统计部分的内容。描述
统计就是指怎样有效地收集数据,并通过图表形式对所收集
数据进行初步的加工整理和显示,进而分析得出结论。我们
有不同地获得数据的方法,这里主要介绍两种:第一是普查.
这是获得数据的一种主要方法,普查就是为某一个调查目的
组织的全面调查,一般只做一次或者是周期性的做一次,需
要动用很大的国情国力,通常只是对国家或地区的最基本
的、涉及到国计民生的、极其重要的数据才实施普查的方式。
就我国而言,通过普查获得数据的调查方法主要有两类:一
是人口普查,目的是了解我国的基本国情,每隔十年做一次,
2000年国家实施了第五次人口普查,2010年将进行第六次
人口普查。搞一次人口普查需要做很长时间的准备,需要动
用和培训大量的普查员,所获得的数据也是相当大的信息
量,普查是一次对整个国情国力的动员,国家要有很大的投
入,所以不是经常进行的。二是经济普查,除人口普查外,
我国还有第三产业普查、工业普查、基本单位巡查等等。01
年经国务院批准,把几个普查珠合成一个,就是经济普查.
第一次经济普查从03年开始准备,到04年底将普查结果向
社会公布。大家可能关注到一个数据,即普查后的GDP比普
查前增加了2.3万亿元人民币,总量增长了16.8K原因是
原来的第三产业统计还有很多不完善的地方,如一些服务业
企业没有纳入统计范围,造成数据缺失。所以增加的2.3万
亿元中约有90%以上来自于第三产业。因此,通过经济普查
也进一步完善了调查制度和数据收集方法。总之,普查是一
种重要的收集数据的方法,但由于它要动用大量的人力、物
力、财力,调查的周期也很长,因而只有关系到国计民生的
一些最基本的信息才采取普查的方式。而在实际工作中,我
们用的更多的是另外一种调查方式抽样调查。所谓抽样调
查,是指按照随机原则从调查总体中抽取一部分单位作为样
本进行调查,只要样本抽取的有代表性,就可以通过很小的
样本对总体,也就是我们所要研究的全部事物,做出一个科
学的推断。那么,什么叫随机原则?简单地说就是总体中的
每个单位都有同样被抽中的机会。只要能做到这点,调查就
有代表性。即使样本很小,都可以做得相当准确,抽样调查
如果做好了,应该是一种高效率的调查方式,它在科学研究
和日常管理中用得最多,具有经济实效性强、准确程度高的
特点。
前面介绍了普查和抽样调查两种主要调查方式,那么每
种调查方式都涉及到一个采用什么方法获取数据的问题。我
们可以有各种各样的收集数据的方法,譬如访问方式,就是
通过调查者和被访问者面对面的交谈获得数据.在早期调查
中用的比较多,现在主霎应用于一些深层次问题的调查,不
再作为一种普遍性的调查方式被调查业所实施.取而代之的
是邮寄问卷调查。即设计一个调查问卷.然后通过邮寄的方
式送到被调查者手中,由他们来填写。这种调查方式在一些
发达国家持续了50年左右,即从上个世纪的30年代到80
年代。邮寄问卷调查目前在我国仍是一种主要的调查方式.
之所以在国外不大被采用,主要由于以下原因:第一,回收
率越来越低,通常情况下不超过20%,甚至低于10肮第二,
回答的数据和没有回答的数据之同具有显著差异,因此仅仅
根据回答的数据做推断,不具有代表性。例如:1995年美国
ABC广播公司曾经在一个晚间节目中做调查,问美国的电视
观众:”联合国总部应不应该继续留在纽约?”调查对象是
电视观众,完全是自愿回答,电话反馈,回答结果是2/3的
电视观众认为联合国不应该继续留在美国,即联合国可以撤
到别的地方去。因此可以得到这样的结论;“美国多数人不
欢迎联合国留在美国而在同一年,某调查公司就此问题
做旗机调查,结果刚好相反,大约70%的美国人认为联合国
留在美国理所当然,只有不到30%的人反对。大家注意,这
两个调查结果完全相反,哪一个更准确呢?显然是随机调查
更准,原因在于大多数美国人认为这个问题用不着讨论,美
国在全世界经济最强大、最富有.而且是世界老大.联合国
不设在美国难道还应该在别的地方吗?所以这部分人在收
看电视后根本就不作回答.认为这个问题根本就不值得回
答,而愿意回答的人往往是带有比较强的情绪,即联合国设
在美国,美国要付比较高的联合国会费。这个案例告诉我们
当采取自愿回答的调查方式时,在搜集数据、分析数据的时
候要特别小心,由于邮寄问卷调查采取自愿回答的方式,故
有比较强的局限性,目前在国外已经被电话调查所取代。第
三就是电话调查方式。由于现在已经进入到了高度的信息社
会,电话的普及率相当高,特别是在城市,因而电话调查已
经取代邮寄问卷调查,成为获得数据最主要的方法。电话调
查比较简洁,效率较高,成本较低,但是在我国的实施过程
中碰到了很多困难.主要是我们的调查业立法、规章制度不
健全。很多各种各样的调查公司并没有经过批准,即相当多
的调查是不合法的,因而扰乱了调查市场。我们经常接到手
机、固定电话的调查,超过90%的人接到电话后还没有听清
楚要调查什么,就立刻拒绝了,所以电话调查在我国的实施
过程中有很大困难,但是专门的调查公司有专门的技术来解
决这些问题。总之,电话调查是目前调查业获得信息的非常
重要的方法。网络调查也是一种获得数据的方式,我们随便
打开一些网页,在首页上经常可以看到各种各样的调查,但
是我们要注意,这种调查有很强的局限性。被调查总体实际
上是经常上网、且愿意在河上回答问题的人群,他们并不代
表大多数,甚至不能代表所有网民,因此在使用调查结果时
一定要特别注意0我们也经常看到很多调查公司用网络调查
来发布调查信息,譬如说青年知识分子中70—80%的人都过
劳,甚至知识分子的过劳死、平均寿命比着逋老百姓要低等
等,实际上我们箱作分析,就会对这样的网络调查结果非常
慎重,因为公布的数据不是全部总体的代表性数值,而仅仅
是愿意回答的数据。例如:最近新浪网做了一个调查:“你
在工作中是不是经常加班加点?”他得出的信息是80%的人
都加班加点。大家想一想,一般人对这样的问题可能不屑一
顾,只有那些对加班加点有意见或者对这个问题有比较强烈
反映的人才愿意回答。所以回答的结果说现在的劳动者中间
有80%的人都加班,甚至都极度疲劳,不一定有代表性,所
以我们要特别注意这样的一个问题,即样本对总体有没有代
表性。另外,座谈会也是获得数据的一个重要方式,特别是
一些专业调查公司做某些深度访问的时候应用较多,这种方
法有专门的设计,通常以6—10人为宜。还有个别的深度访
问,如对那些特殊问题、敏感问题,不宜于以座谈会形式获
取信息的,可以此做为一种特殊的获得数据的方式,但是这
种方式也有一定的局限性,它主要应用于定性分析,而比较
难做定量推断。这里我们还特别要介绍另外一种获得数据的
方法一观察法,这个方法和前面所讲的不同之处在于调查者
和被调查者不直接接触,调查者站在一个客观中立的立场上
对所要进行调查的事物或一些调查对象进行客观的记录和
描述。我个人认为这种方法在获得数据的方式中应该有更广
泛的用途。
那么,什么是观察法的应用呢?以交通流量统计为例.
现在很多大城市,特别是北京,市政府和管理部门正在下大
的力气解决交通拥堵问题,在一些重要的十字路口或道路上
做一些改善,比如增加公共交通、开辟公共专用珞线等,其
中路口的管理还有很大的余地,这就可以利用到统讨观察
法。例如,长安街的某一个路口,东西向和南北向红绿灯间
隔时间的长短,是不是一旦设定了就不能更改?比如主干道
绿灯一分半钟,非主干道车流量少一点,绿灯的能行时间就
可以控制在40-45秒钟。是不是在一定的时间段里,东西
向的车流量较大,而另外一个时间段里南北向的车流量又更
多一些?要想做到以人为本的管理设计,就需要掌握一个路
口一天24小时、一周不同的时间段(比如平时和周末)的
交通流量变化,就需要用观察的方法来搜集路口车流量通过
的数据。掌握了比较科学准确的数据,就可以做非常好的管
理.我举一个国外交通管理的例子,美国纽约是一个岛,在
曼哈顿地区有很多大公司,白天会有几百万的人从长岛、新
泽西涌入曼哈顿,而在晚上又要返回他们在郊区的住所。曼
哈顿岛跟两边的联系主要靠几个铁桥和隧道,它的管理非常
人性化。铁桥是30年代建的,上下两层,每层有8个车道,
上层是进城.下层是出城,它根据每天车流量的大小来控制
道路通行的方向,早上可能有12条车道都是进城,因为上
午进城的人多:下午4一5点出城的人开始增多,可能会有
13条车道出城。靠什么来管理?就靠红绿灯,非常人性化。
我们经常看到它的道路按照流量的大小来分配路权。因此,
利用观察法掌握不同时间、不同方向车流量的数据时于透行
科学、高效地管理非常重要。我在日本访问的时候,就发现
日本地铁的效率非常高,它保证所有的乘客在任何一个车站
的等候时间不超过3-4分钟,怎么能够做到这点呢?原因
在于它对流量的数据掌握得非常细致。经常看到一些大学生
或志愿者拿着记数器,在地铁上、下入口统计人流量,再按
照这个流量的分布来安排地铁车量,人流量最密的时候每隔
2分钟就有一辆地铁通过,平时的6节车.厢也会加到10节,
在最短的时间内将乘客送走。这就是观察法的应用。另外,
还有观察实验法,是通过做一些特殊的实脸获取数据.在自
然科学中应用较多。刚才谈到的调查方法都是直接获得数据
的方式。在现代社会还有更多地获得数据的渠道,我们把通
过网络、出版物等得到的数据称为间接的数据来源。现在网
络非常方便,在国家统计局、北京市统讨局和各个地方统计
部门的网站都可以获得当地政府的公开数据,也可以通过这
些网站链接到世界各国的政府、大的国际组织、甚至大的公
司的网站获得数据。
有了数据,下面就简单绐大家介绍一下,怎么样对这些
数据做一些简单的整理和描述。例如:这里有某车间50名
工人日加工零件的50个数据(见PPT例24),原始数据很零
乱,看不出任何规律。最基本、最简单的整理是对这50个
数据进行分组,我们看到所有数据的最小值为105件.最大
值为140件,把所有加工零件分成7个组,每5件作为一组
的组距,形成组距数列(见PPT表2-1):中间这一列就是在
每一组里有多少小工人,称为频数,即次数,所有的频数之
和为50,即指一共有50个工人;最右的一列,是计算每组
工人的百分比,即6乐10%等。频数经过分组后对我们了解
数据有什么作用呢?为了观察更直观,我们可以把须数做成
直方图(见PPT图2-1)。直方图是分析数据、发现数据规律
非常有效的方式。在横轴上按105、110、115、120、125、
130.135,140等距离的进行标记,然后把每一个组里的次
数或是频数的多少作为纵轴或者说Y轴的标记,就得到一个
直方图。根据直方图就可以进一步对数据做出分析或判断:
这50个工人加工零件数类似于一个对称的分布,即两头小
中间大的分布。换句话说,就是50个工人中加工零件数在
120-125这个区间的人数是最多的,这就是加工零件最适
中、最中间的数值;而加工最多的、效率很高的130—140
这一组的人数并不多;加工数量比较少的105—110件的人
数也比较少,两头小中间大,这就称作对称分布,统计专业
术语称之为类似于正态分布。如果一个数列是这样分布的,
我们就可以做出进一步的判断,即50个工人平均加工件数
在120-125这个区间。如果不是对称分布,我们就很难做
出这样的判断,这就是直方图的作用。如果我们把直方图的
每一个柱形的上端中点相连接,就变成折线图(PPT图2-2).
同时我假定直方图下面的面积之和为1.我的问题是:直方
图下边的面枳和折线图下边的面枳是不是相等?答案是相
等。因为我们连接的是两个柱形的中点,在折线图外边的那
个三角形和里边的三角形的面积刚好是一样。利用这个性
质,在以后学习概率论时,就可以用曲线以下面积的一部分
计算每一个区间发生的概率。这里,还要绐大家介绍一种利
用计算机画出来的图一箱线图(见PPT图2-3),它是由一个
盒子和两条线段组成的图。作箱线图最重要的是找出一殂数
据的五个代表性的数值,这个图就画出来了。这五个数值就
是一组数据的最大值、最小值、中间值和两个四分位数。中
间值就是统计中的中位数,即把数据从大到小排列,形成一
个数列,如果是单数项就是中间的那个数;如果是偶数项就
是中间两个数值的平均数。两个四分位数是指中间值和最大
值之间的中间值(上四分位数),以及中间值和最小值之间
的中间值(下四分位数)。中间值和两个四分位值把数据的
个数四等分。有了这五个数值,就很容易将一组数据的分布
特征和特点用箱线图表现出来。大家可以看到,这就是前面
举例中的50个工人加工零件的箱战图(见PPT图2-4),最大
139件,最小107件,中间值123件,在123—139之间的中
间值是128,即上四分位数。】07—123之间的中位数称为下
四分位数,是117.75,117.75—123之间所包含的数据是50
个数据中的1/4,即12-13个数据,107-117.75之间有1/4
的数据。箱线图的两条线段和盒子的两半分别表示四个区
间,50个数据落在每一个区间里的个数是相等的。熟练的
人一看这个图.就应该反映出背后的分布是正态分布.还是
偏态分布?我们也请大家来考虑一下不同的箱线图背后的
分布态势是什么样?算是一个思考题.那么.箱线困有什么
用呢?我们学习的目的是为了理解、分析图形背后的含义。
举个例子:从某大学经济管理专业二年级学生中随机抽取11
人,分别记录下每一名同学8门主要课程的考试成绩,就形
成了演示文稿中的列联表或者数据表(见PPT例22,表22).
我们给11个同学每人一个编号,同时列出每个同学8门课
程的考试成绩,然后利用箱线图对这11个同学及8门课程
做一个分析。首先,用Statistic软件时8门课程绘出轴线图
(见PPT图2-5).横轴列出每门课程的名称;纵轴列出考试
成绩,从45分到]00分。大家看到这8个箱线图的形状是
不一样的,每一个箱线图的最高位置就表示这门课程的最高
分,最下沿就表示这门课程的最低分。箱线图上边、下边的
两条线段和箱线困中间的盒子的两个部分分别代表了四个
区域,每一区域里大概有三个学生的成绩(如果正好是12
个同学的话,就表示每一个区间里有3个同学的成绩八现
在请大家考虑,这8门课程,哪门课程对同学们来说最容易?
即同学们考试的分数都比较高:哪门课程相对最难?有人
说,西方经济学和英语最容易。好,我们对这两门课程做一
个比较。英语的最高分比西方经济学高,而且是所有8门课
程里最高的.英语的最低分也是8门课程最低分里最高的,
英语的平均分数,即余子中间的中位数的成绩也是8门课程
中最高的。在盒子的上沿.四分位数也是8个盒子上沿最高
的,唯一一点是英语盒子的下沿比西方经济学略低一点点.
所以,从总体上看,英语是最容易的.如果计算平均分,英
语的平均分一定是最高的。那么,哪门课程相对比较难呢?
一个是统计学,另一个是经济数学。比较一下,从所有成绩
的最低分来看,经济数学是最低的,但是经济数学的最高分
也是所有成绩里面相当高的(仅次于英语),再看它们金子
中间类似于平均成绩的中位数,会发现统计学的中位数成续
偏低,所以,由此得出统计学更难一点。另外,我们在判断
一门课程出题好与不好,按照教育统计或者说考试学的要
求,这门课程的成绩一定要服从正态分布。我们看基础会计
就明显不是正态分布,其中比较接近正态分布的是经济数学
和财务。但是这个例题数据量还是少了一些,只有11个.
大家还可以进一步分析这8门课程箱绘图的其它特点。我们
可以用同样的软件对11个同学8门课程的成绩做出11个箱
线图(见PPT图2-6),它们的形状差别就很大了,有的比较
短,也有的很长e按照现在的高考标准,总分最高就能上好
一些的学校,请大家考虑,几号同学最有可能上好学校?答
案是2号同学。因为他的箱线图位置很高,而且最高分和最
低分的距离很短,说明他不偏科,各科成绩都很好.而且分
数比较集中。再看3号同学,最高分和最低分都是他,他的
箱线图距离很长.这样的同学可能在某一科目上表现出优
势,而其它学科成绩就比较低.高考按总分录取,3号同学
就不大容易考上很好的学校,但是他很可能在某一学科上有
潜质,我们的教育应该给3号同学提供更多的发展空阿。
关于对数据进行整理,还可以再看一些例子。这里搜集
整理了我国1995-2005年城值居民和农村居民人均收入的
数据(见PPT例2,3.表2-3,摘自国家统计局的统计年鉴)。
如果仅是把数据列在这儿,不太容易看出它们的发展变化规
律。现在,我们用EXCEL画图功能把这些数据表现出来,
就会看到变化。黄色代表农村居民家庭的人均收入,粉色代
表城镇居民家庭的人均收入。我们看到1995—2005年11年
间,城乡居民的收入差距越来越大,它有一点像张开的剪刀
的口子。由此可以更直观地看到我们国家过去十几年间城乡
居民家庭收入差距的变化,尽管农村居民家庭收入也在增
加,但是和城镇居民家庭收入的增长速度比较,还是太慢了.
所以,可据此判断城乡之间的差距不是减少了,而是扩大了。
再看另外一组数据,1978年—2005年我国城乡居民的恩
格尔系数(见PPT表2-4)。什么是恩格尔系数?就是一个家
庭中用于吃的支出占总支出的百分比.我们看到,1978年改
革开放之初,农村居民家庭的恩格尔系数是67.7%,即收入
的2/3还多一点都用来吃了,城乡居民家庭的恩格尔系数是
57.5%,接近60%。到2005年,恩格尔系数都下降了20%以
上,农村居民家庭由67.7$降到了45%.城镇降到了36.7%,
这反映出随着收入的增加、生活水平的提高,消费结构发生
了变化。经济越发达,恩格尔系数就越低,发达国家的恩格
尔系数在10%左右.吃已经不是整个支出的主要部分了。我
们国家还处在发展中国家阶段,恩格尔系数还会不断地、持
续地下降。如果我们把上面的两列数据周折线,图来描述,就
可以看到从改革开放之初的1978年到2005年,前后大概都
相差20个百分点,但是中间的变化,特别是农村居民家庭,
在80年代中期的时候,恩格尔系数降低的速度特别快,有
一段时间城市和农村的恩格尔系数已经非常接近了,但后来
差距又扩大了,这描述了我国自80年代改革开放以来的一
段历史。改革是从农村开始的,在80年代初期和中期,农
民的受益是比较明显的,但是到了80年代末特别是90年代
初期.改革的重点推向了城市,城市受益更多,而农民建到
的改革的益处相对少了。
我们还可以用统计数据面很多很多图,时间的关系,只
列出来了两、三个,让大家理解,统计图如果做得好的话,
是非常有效的。
下面谈谈统计表。
统计表是表现统计资料的最有效的形式,也是政府工作、
管理工作最基本的工具.好的统计表应该是简单、直观、一
目了然,可在短附间内给人以明碓的疑念。但是我们生活中
经常看到的报纸、杂志上的很多统计表都很不规范,所以,
我们介绍一下统计表最基本的要素,强调政府机关、工作部
门都应该作规范的统计表。一张规范的统计表首先要有表
头,表头一般应包括表号、表的标题和表中数据的单位等内
容。表号如2—14.表明是第二章或第二部门的第14个表;
标题内容应表明统计数据的时间(When),地点(Where)
及数据内容(What),即满足3年的要求:如果表中的数据是
同一个计量单位,可在表的右上角标明,若不同,可单列出
一列标明。再看这张表,是1997-1998年城镇居民家庭抽
样调查资料(见PPT表2-5,摘自1999年中国统计摘要),
时间有了,地点是我国城镇居民家庭,内容是家庭抽样调查
资料。第二,表中要有横(行标题)的或竖(列标题)的标
题。上表中的列标题是时间、项目等,行标题包括调查户数、
每户人口数等,后边蓝色的部分是表的主要数据内容。第三,
表的下方要加上注释,称为附加,标明咨料来源,或者是自
己调查的,或者是引自年鉴、报刊,方便读者查阅使用。我
们还要特别强调编制统计表时应注意的几点规则:一是统计
表的左右两边不封口,通常只是上下两条粗横线,中间的其
它线要用细线,而且横、竖线越少越好;二是统计表中左上
角的单元格不能有斜线,真正规范的统计表中从不出现斜
线,大家可以从联合国或世界各国的年鉴、网上看一看统计
部门做出的规范的统计表。三是表中的数据一定要对齐,一
般是右对齐:没有数字的表格,一般用“一”表示,一张填
好的统计表不应该出现空白单元格。总之,统计表的设计应
符合科学,实用、简袜、美观的要求。
下面我举几个不太规范的、错误的例子,让大家进一步
明确如何正确的使用统计表。首先,请大家看图左边的这部
分(见PPT第二章31页)。这是一个柱形图,想反映某高校
大学四个年级考试成绩得A的人数,大一、大二、大三、大
四的英文缩写分别为FR,SO.JR.SR.柱形图给我们的感觉
好像是大一得A的人最多,大二得A的人最少,如果要相信
这个数据,可能得到这样的结论,即这个学校里大一的同学
素质比较高.大二相对来说弱一点。左边是用绝对数来做的
图,即用人数的多少。但有时用绝对数来表示可能会产生误
导,如果我们把四个年级得A的人数除以全部学生数,就得
到了右边的困,各年级得A的百分比,都是25凯结论是四
个年级学生之间的成绩没有什么差异。如果用绝对数(左边
的图)就有可能得到有差异的信息。所以,比较上述两种分
析,应该选择用相对数做分析。
第二个例子是一个季节销售蹶的数据(见PPT第二章32
页)。横轴是一季度、二季度、三季度、四季度;纵轴是以
100为一个单位,可能是万元,也可能是1。万元。左图绐我
们的感觉是四个季度的销售额差别不大;同样的数据用右图
表示,也是四个季度的销售额,给我们的直观感觉是差别比
较大,即一至三季度销售额不断地增长,四季度下降。左右
两图的差别在哪儿?仅仅在于纵轴的单位标准。左图是用
100作为一个单位,右图是用25作为一个单位。如果再用
10作为一个单位,大家设想会是什么样的结果?差距一定会
更明显。因而,我们在做图的时候,应该选择适当的标准和
适当的单位,否则就有可能会掩盖数据的差距,甚至是夸大
数据的差距。显然.以此题为例,如果要夸大数据的差距,
就把单位设的很小:如果要掩示数据的差距,就可以把单位
选得很大e而我们的目的是要把数据之间的差距客观公正地
表述出来,因此单位的选择非常重要。
再看一个例子,是12个月份的销售额资料(见PPT第二
章33页)。图中是12个月的销售额,分别用英文标识在下
面。左图给我们的感觉是月份的销售额之间变化非常之副
烈,先增加,然后又降下来,六、七月份时非常低,年底又
非常高。请大家看这个图有一个明显的错误,就是纵轴没有
从0开始,这是我们画图时最忌讳的,纵轴一定要从0开始,
因为那是比较的原点,对照的基准点。如果从0开始把同样
的数据做分析,就可以得到右边的图。尽管12个月份之间
有一些差距,但是差距也不过是在6-7个单位之间,和整
体来比,变化并不显著。以上的几个例子告诉我们,用统计
图或统计表直观地反映数据变化的规律非常重要,但是如果
我们操作时不慎重就有可能会得到一些错误的结论。因而,
在此引用美国著名统计学家Mos⑷ler的话:“要用统计骗人
是很容易的”。以上所举案例中的统计图有的是骗人的,如
果我们没有统计知识,就很容易上当受骗。所以,不管是作
为管理者,还是政策执行者,我们都应该掌握统计知识,用
好统计这个工具。
笫三部分统计决策
第二部分讲的是描述统计,我们非常简单地给大家介绍
了一些获得数据的方法,及对数据进行简单整理的方法,并
利用图和表把它们表示出来。第二部分还应包括计算数据的
主要的统计量,如均值和标准差等,由于时间关系没能展开
介绍。描述统计中搜集、整理数据和分析样本数据的目的在
于为决策提供依据,帮助我们进行决策。第三部分我们将讨
论统计决策的问题。
先看一个实例,这是某石油公司的决策。石油勘探是一
个高风险,高回报的行业,统计决策的方法在此类行业中都
有比较宽、比较广的用处。该石油公司掌握了一份石油开采
合同,公司有三种策略可以选择,第一,可以将合同实棹:
第二.合同先不卖,观察一段时间,比如说一年以后再考虑
把它卖掉;第三,现在就可以进行采掘。
我们有三种策略的结果。
第一,现在把合同卖出去,它的市场价格为125万元。
第二,把合同留下来,一年以后再出售。这就要看一年
以后的油价是升还是降,如果油价升,估计合同能卖到440
万;如果油价降,这个合同显然就卖不到现在的125万,估
计只能卖110万。同时还可以对一年以后油价升还是降做出
一个判断:油价升和降的概率分别为10%和90%,认为油价
升的概率小一点,油价降的可能性大一点。这个例子和现实
情况刚好相反.如果今天做未来一年的判断,相信多数人会
判断一年以后油价升的可能性大,油价降的可能性相对比较
小,因为上一年国际市场原油的价格波动剧烈,一桶原油的
最高价格接近80美元,最低降到60美元左右,现在大体维
持在这个水平。
第三,现在采掘。钻井的费用是200万元,打下去可能
发生的情况在讲稿PPT3-2中列出:首先,可能没有油,公
司搜集了自己几十年钻井的历史数据,如果历史很短,也可
以搜集别的石油公司的数据,比如说,一个石油公司可能打
了几千口井,大概有一半是没有油的,即打下去无油的可能
性是50%,这个概率称为先验概率.通常是历史的数据;其次,
开采有油的可能性又是多少呢?是40%,即打出一口一般的
油井,也就是比较正常情况下开采一口油井的回报率:另外
还有10%的可能性是打出一口高产油井。注意这里概率为
50%、,10转、10%的前提是这个石油公司有历史数据。如果没
有历史数据,可以搜集其他石油公司或已经公布的一些数
据,这是因为在做决策判断时要把风险加以考虑。显然如果
打的是一口没油的井,报偿值即收益为0;如果打出一口一
般的油井,按市场价值讨算其未来的收益是400万元;如果
打出一口高产的自喷井是最好的,将有1500万元的收益。
这就是摆在我们面前的一个实际的统计决策的例子,我
们应该怎么办?现在把合同卖掉?一年以后卖?或现在采
掘?决策时首先应考虑哪个策略对我们来说收益比较大,还
要考虑其他的问题。这是我们一会要进一步讨论的问题,在
此之前,给大家介绍一下决策的三要素。
我们换一个比较简单的例子。来看讲稿PPT3-3的表格,
某木罂厂对是否生产一种新型组合家具做出决策。影响
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度租赁合同违约责任条款
- 酒店营销策划与管理课件
- 2024年度房地产技术咨询服务合同
- 2024年度物联网项目开发分包合同2篇
- 安全用电施工协议书模板3
- 2024年度港口马拉松赛事承办承包合同
- 2024年度桥架工程设计与施工合同3篇
- 《华诞国寿金箔保单》课件
- 上海财经大学经济学课件m
- 九年级数学下册 28 锐角三角函数教案 (新版)新人教版
- 2024年糖尿病指南解读
- 二十届三中全会精神知识竞赛试题及答案
- 国家职业大典
- 大学生劳动教育概论智慧树知到期末考试答案章节答案2024年南昌大学
- 《生物安全培训》课件-2024鲜版
- 中国农业文化遗产与生态智慧智慧树知到期末考试答案章节答案2024年浙江农林大学
- 人教版小学数学六年级上册《百分数》单元作业设计
- 慢阻肺健康知识宣教完整版课件
- 神奇的大脑PPT课件
- 增值税预缴税款表电子版
- 宝钢冷轧产品包装现况调研及其优化探讨
评论
0/150
提交评论