版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学:思想、方法与应用第1章什么是统计学?如何运用统计学?统计学的基本概念数据的收集数据阵/数据文件统计学和数学、统计软件的关系学习目标用一句话说明统计学;理解我们为什么要学习统计学;懂得如何运用统计学;知道统计学的基本概念;什么是描述统计学和推断统计学;了解数据如何收集以及数据收集中存在的问题;知道常用的统计软件。
数据显示,2010年中国名义GDP为58786亿美元,GDP增速为
10%左右。而2010年日本名义GDP为54742亿美元,GDP增速为3.9%。中国GDP比日本多4044亿美元,这意味着中国超越日本
成为世界第二大经济体。尽管中国总量GDP超过日本,但中国人均GDP却只有日本1/10,在世界排名第100位左右,不到世界平
均水平的一半。这样的结果对我们意味着什么呢?毫无疑问,我们需要知道一些统计知识。1960到2009全球主要国家人均GDP的增长图表(来源:Google网站)
作为一名潜在的汽车购买者和一名有责任心的市民,你乐意为保护地球生态环境应有的贡献。根据最新的研究结果,消费者的行为对自然资源到底有怎样的影响呢?你应该买使用柴油发动机的汽车,还是购买电动车,或者干脆骑自行车呢?报纸、杂志或网络中的统计结果对于你的决定非常关键,这些结果建议你该有怎样的消费观。低碳社会要求汽车厂商根据他们的总产量生产一定比例的电动车,以减少机动车造成的空气污染,这已开始成为整个国家的趋势。对于立法者来说,统计信息在使他们相信并检测使用电动车在改进空气质量上的有效性方面起着关键性的作用。
在金融危机发生后,各国政府对于国家经济的现状和对未来经济走势的预测十分关注,每个月都要编制CPI等各类指数以评价通货膨胀情况。有关商品销售额、新开工的住宅、货币流通以及工业生产的信息仅仅是构成预测基础的成百上千类信息的一小部分。我们该如何解读这些数据呢?知道一些统计知识有助于我们知道这些数据是如何与我们的生活息息相关的。
假设你是市场部的新任经理,一次广告活动的统计结果摆到了你面前,声称某个结果是“统计显著”的。你如何解释这份报告而又不暴露你对该术语的无知呢?赶快学点统计,这对你和你的事业都非常有用。1.1什么是统计学在三百多年前,统计的英文单词Statistics首次被人们应用。统计学是研究收集数据,整理数据,分析数据以及由数据分析得出结论的方法,简称为“数据的科学”。2010年6月3日,第64届联合国大会第90次会议通过决议确定每年10月20日为“世界统计日”。
20
1年初,国务院学位委员会在新的研究生专业目录中将统计学上升为一级学科,为统计学科和统计教育的发展提供了更广阔的平台,也显示出统计对科学研究、经济增长和社会发展的重要性。人物小传:瓦尔德有人把统计学定义为数据处理的一门艺术,瓦尔德(A.Wald,1902—1950年)的事例就是明证。
瓦尔德是二战时期的统计学家,他发明的一些统计方法在战时被视为军事机密。
瓦尔德被咨询飞机上什么部位应该加强钢板时,他开始研究从战役中返航的军机上受敌军创伤的弹孔位置。他画了飞机的轮廓,并且标示出弹孔的位置。资料累积一段时间后,几乎把机身各部位都填满了。于是瓦尔德提议,把剩下少数几个没有弹孔的部位补强……因为这些部位被击中的飞机都没有返航。
这是一个简单但近乎完美的实例,简单的统计方法一旦融入了统计学家的智慧,便显得生动而唯美!1.2如何运用统计学统计在许多学科中得到广泛的应用。比如说,学术研究杂志就依赖于统计结果。在许多学科中,一篇文章是否能够发表在主要杂志上,在很大程度上取决于该文章是否能正确地使用统计方法。除了学术领域,统计在其他领域也被人们广泛使用。统计在工业中得到大量使用,尤其用于研究新产品、质量控制和市场开发中;市场调查也需要统计。读者文摘的总统选举调查这个故事有关一次著名的失败的统计调查。在1936年美国总统选举前,一份名为读者文摘(LiterαryDigest)的杂志曾进行了一次民意调查。调查的焦点是谁将成为下一届总统——是挑战者,堪萨斯州州长阿尔夫·兰登(AlfLandon),还是现任总统富兰克林·德拉诺·罗斯福(Franklin
Delano
Roosevelt)。为了了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽车在1936-年并不像现在这样普遍,但是这些名单比较容易得到)。尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回的调查表中,兰登非常受欢迎。于是,该杂志预测兰登将赢得选举。你可能对声称兰登将赢得选举的预测结果有疑问。正如你所怀疑的,在经济大萧条时期调查拥有电话和汽车的人们,并不能够很好地反映全体选民的观点。此外,只有少数的调查表被收回,这一点也是值得怀疑的。事实表明,最终是罗斯福而不是兰登赢得了这次选举。由此可见,那次的调查结果有多么错误了。当前大多数应用统计不会像这个例子错得那样厉害,但即便在今天,我们也很容易发现统计被误用的情况,尤其在需要考虑选择正确的样本时。1.3统计学的基本概念1.3.1随机性和规律性当我们不能预测一件事情的结果时,这件事就和随机性联系起来了。例如,掷硬币,参加统计考试是否会达到预期的分数。当把大量随机事件放在一起时,就表现出令人惊奇的规律性。比如,考察掷硬币这样的随机事件,如果你将同样的硬币掷
100次,经验告诉我们差不多50次正面朝上,50次反面朝上。类似地,尽管每个人死于二手烟的可能性很小,但是全球每年有60万人死于二手烟,这个恐怖的数字却令人难以置信地稳定。通过对看起来随机的现象进行统计分析,统计知识能够帮助我们把随机性归纳于可能的规律性中。统计从我们如何观察事物和事物本身如何真正发生这两个方面帮助我们理解随机性和规律性的重要性。因此,统计可以看做是一项对随机性中的规律性的研究。1.3.1随机性和规律性规律也表现出某种随机性。如果你再掷100次硬币,正面朝上的次数几乎不会和前100次完全一样。在第一个100次中,也许有52次硬币的正面朝上,然而在第二个100次中,也许就有49次正面朝上。这种偏差不仅仅发生于掷硬币时,而且发生于调查、实验和其它任何一种方式的数据收集中。比如在某次调查中,如果对两个不同群的人做同样的调查,则有不同的比例的人支持这一观点。这两个比例之间的差异主要是由于数据本身的随机性引起的。在这种意义下来说,统计就成了对数据中的偏差问题的研究。根据作为统计基础的数学理论,我们可以确定一项调查中的某一比例有多大的随机性,以及在下一次的重复调查中,这个比例可能有多大的偏差。我们还可以指出,两个比例之间的差异是否大到了随机性本身所不能解释的地步。我们将在以后章节中详细讨论这些思想。1.3.2概率因为涉及到随机性,统计学还需要一个很重要的概念——概率(probability)。概率是一个0到1之间的数,它告诉我们某一事件发生的机会有多大。概率为统计学的第三个方面——如何从数据中得出结论——奠定了基石。我们可能永远不能确定两个数字的差异是否超出了随机性本身所预期的范围,但是我们可以确定,这种差异发生的概率是大还是小。根据这个基本思想,在很多情况下,我们可以得出关于我们所处的这个世界的重要结论。我们将在第四章及其后章节中详细阐述。1.3.3变量变量(variable)是指一个可以取两个或更多个可能值的特征、特质或 属性。比如,性别是取两个值的变量,因为一个人只可能是男性或女性。还有其它变量的例子,如人的寿命,体重,以及汽车每升汽油所能行驶的距离,等等。图1.1变量及其取值1.3.3变量变量的值(value)通常是对某一特定个体的度量,特定个体可能是指一个人,一个家庭,一个地区,或一个国家。表1.1列出了一些变量、变量的取值及其所测量的个体的例子。从表中可知,性别变量是以人为个体的观测,孩子的数目是以家庭为个体的观测。表1.1变量,值和个体1.3.3变量
上面介绍的是经验变量(empirical
variables),级处理的对像是我们周围可观测到的物质世界中的事物。
用数学方法推导的变量称为理论变量(theoreticalvariables)——z,t,和F变量。与变量相对的概念是常数(constant)。在统计中经常使用的一种被称做参数(parameter)的常数。1.4数据的收集1.4.1定义变量数据收集的第一个准则是要清楚测量的是什么。换句话说,变量必须有一个明确的适合研究目的的定义。这有时是说起来容易做起来难。如果我们对问题考虑得不全面,那么就没理由指望回答问题的人(一般称为响应者)能按照我们期望的回答问题。在我们做研究之前,对变量必须要有一个清晰、详尽的定义。1.4数据的收集1.4.1定义变量假定我们在一次食品企业的市场调查中包含了这样的问题"在您的家庭中有多少个孩子?"我们也许认为自己知道想要了解的是什么,但是,没有理由期待响应者和我们有同样的想法。1.4数据的收集1.4.1定义变量我们也许不加考虑地认为,"孩子"应定义为一个不满18岁并和他(她)的亲生父母一起生活的人。但如果一个家庭中包含大于18岁的亲生子女、前妻或前夫的孩子、养子或养女、过继子女或者其他年轻的亲戚,那该怎么办呢?对于不和亲生父母生活在一起的孩子怎么算呢?对于父母离了婚而共同抚养的孩子怎么算呢?这有很多种发生混淆的可能。因此,我们在调查之前首先需要明确"孩子"的定义。1.4.2观测数据数据收集有两种主要方法,其中一种是当我们观测现实世
界时收集到的数据,如在不同城市中的流动人口数量。观测数据(observational
data)是指仅通过对世界的观察(而没有操纵或控制它)所得到的数据。收集观测数据的研究者们尽量不干涉研究对象的行为模式。例如,证券分析人员可能会记录某即将被收购的公司在被收购的前一天的股市收盘价格,并与其宣布被收购的当天的收盘价比较。总体和样本收集数据是为了从收集的个体中得出结论。
所有我们感兴趣的个体就组成了总体(population)。比如,你读本教材这一时刻,我国所有居民就构成了一个总体。有时我们能够收集到总体中所有个体的数据。在这种情况下,我们就是对总体做了普查(census)。我国进行的第六次全国人口普查就是希望确定我国所有居民数。然而,在苛刻的现实生活中,由于资金、时间有限以及不断变化的环境条件,普查通常是很困的。此时,我们需要把收集数据限制在总体的一个样本(sample)上,样本是总体的中的一个被选中的部分。样本的选择统计研究者所面临的一个关键问题是如何选择样本。我们希望基于样本得出的结论能够适用于该样本所属的总体,这依赖于获得一个"好"的样本,否则这是不可能实现的。以烹调为例子来帮助你理解为什么一个好的样本如此重要。当我们品尝一勺我们做的汤时,我们关心的不是这勺汤怎样,而是整个锅里的汤味道如何。如果锅里的汤被充分搅拌了,我们只需品尝一勺即可知道整锅汤的味道。我们品尝的这一勺汤无论是来自家庭厨房中的一个小锅,还是来自一个更大的锅,我们都可以窥一斑而知全豹。这正如我们从总体中选择一个样本,从某种意义上来说,需要选择一个来自"搅拌均匀"的总体的样本。如果总体能被搅拌均匀,那么一个包含1000个个体的样本,不管它是以整个国家为总体,还是以一个城市为总体,都可以告诉我们同样多的内容。样本的选择我们可以把这个例子应用于样本调查。某产品上市之前的市场调查表明,有70%的人喜该产品。如果样本选择正确,这个比例将和整个市场中的消费者中的比例大致相同。类似地,在对大学毕业生就业状况的研究中,检查毕业生的某个样本的目的,不是要看这些抽查到的毕业生是否能顺利就业,而是要要看所有大学毕业生组成的总体能否顺利就业。选择的这个样本应该能够很好地反映总体,因此也就能够很好地反映大学毕业生就业状况。如果不能正确地选择样本,那么对于"整锅汤"的判断可能导致错误的结论。如果市场调查专家们只对他们的家人和朋友提问,那么将可能产生坏样本。如果只对已经就业的毕业生进行调查,而忽略校漂族,那么此样本将产生错误的结论。由于样本选择对于结果的可信度有重要作用,所以根据正确的统计原理选择样本是非常必要的。随机样本随机样本(random
sample)指一个合适的、能够被推广应用 于更大的总体的统计样本。从一个纸箱子中抽签对学生点 名回答问题,是选择随机样本的最简单的例子。叠好的写 有学生名字的纸签是组成整个总体的个体,每一个个体都 有相等的被选中的机会。从这种意义上说完全可能实现总 体中所有的群体在某样本中的代表的数量比例大致等于这 些群体在总体中的比例。比如,如果一个工科院系的班级 有25个男生和5个女生,那么在该班级的一个随机样本中, 每5个男生应该对应着大约1个女生。当一个总体中的名字或代码被放进一个纸箱子里,搅拌均匀,并随机抽取,其结果就是一个简单随机样本(simplerandom
sample)。本书中每一章末尾的所有公式都基于简单随机样本的使用。方便样本:如何产生一个"坏的"样本研究者们经常习惯于研究手头方便的总体中的个体。例如,医学研究者经常对他们自己的病人做研究;市场调查者研究被他们说服进行合作的消费者。能够很容易、很经济地得到的样本称为方便样本
(convenience
sample)。从方便样本中得出的结果有时候很难推广到整个总体。有时候大型商场会要求他们的顾客回答某些问题并收回问卷,由此得到一些样本。根据随机取样的原则,我们可以对此提出疑问:不在该商场买东西的人显然不包含在样本中,而回答问卷的人构成了方便样本,从他们那儿得到的数据是不能够作为该样本以外的其他人的推广的;即使对于该商场的顾客总体本身而言,它们也不一定是典型的。这些数据只是很好地描述了那些花了时间和精力回答问卷的顾客,仅此而已。抽样的其它形式抽取比简单随机样本更复杂的样本也是可能的。其中一种抽样方法是随机选取若干小的地区,然后随机选取居住在这个地区的一些人进行直接调查。这是得到样本的一种有效途径。通过调查每一地区居住相临的一些人,研究者们就避免了走好远的路从一个居住区到另一个居住区。任何一种抽样程序的一个普遍的困难是,很少能完全包含属于某一特定总体的所有样本。1.4.3收集观测数据时的错误和误差
研究抽样技术使我们意识到,很多因素可使样本中的数据产生错误并导致错误结论。若仅凭某一样本中有55%的人认为他们的生活很幸福,我们还不能够得出结论说全国人口中的55%的人生活很幸福。从刚开始决定调查到最后报告结果,任何一件事情都有可能出错。大部分调查也的确犯了这样或那样的错误。抽样误差:并非错误的"误差"调查中的有些误差纯粹是统计上的,主要的统计误差即所谓的抽样误差(sampling
error)。这并不是某件事出错造成的误差,而是指这样的一个事实:如果研究被再做一遍,结果未必会和上次一模一样。例如,前面提到过的在第二个100次掷硬币中,也许就有49次正面朝上,即正面朝上的比例为49%,不同于第一个100次掷硬币中正面朝上的比例52%。又例如,在下一次的抽样中,也许并不是60%的人赞同政府开征的房地产税,而是57%或63%或其它相近比例的人赞同房地产税。但是,即便不同的样本会产生不同的答案,大部分答案仍都位于总体中的真正比例的某一变化范围内。例如,通过每次大约1000个响应者的多次抽样,大部分样本(95%)得出的比例和实际的比例至多相差3个百分点。也就是说,抽样误差等于加或减三个百分点
(±3%)。这种结果仅仅是每一个统计研究所固有的随机性的反映。别忘了这些比例是来自不同的样本,我们没有理由相信一个样本的结果会和另一个样本的结果一模一样。并且,没有理由相信某一特定样本的结果恰好等于从整个总体可能得到的结果。抽样误差:并非错误的"误差"图1.2表明当实际的总体比例为50%时,计算机产生的数据的情况。其中,
100个不同样本中的95个样本比例位于47%和53%之间。在这种情况下,我们说有±3%的抽样误差——53%比50%多(+)3个百分点,47%比50%少(-)3个百分点。•图1.2实际的总体比例和抽样误差为±3%的例子这一例子是基于实际的总体比例为50%的基础之上的。而现实中,我们几乎从来不知道这个数字。实际上,我们之所以做调查,就是要估计总体比例。然而,我们通过样本依然可以计算出抽样误差有多大。在第5章和第6章的参数估计和假设检验中会给出一些计算抽样误差的公式。抽样误差的大小依赖于得到样本的方式和样本中包含的观测的个数。样本越大,误差越小。如果样本等于整个总体,则样本比例就等于总体比例。在总体变化以前,对整个总体做重复研究,就会得到相同的结果。在这种情况下,抽样误差是0。抽样误差:并非错误的"误差"在公布任何一次抽样调查的结果时都应说明抽样误差的大小,不管是比例、均值还是其它形式。抽样误差告诉我们,样本离总体的实际值可能有多远。我们将在第5章和第6章的参数估计和假设检验中再次提到抽样误差。未响应误差另外一种影响抽样调查结果的误差是未响应误差(
nonresponse
error)。未响应误差是指由于包含在样本中的一部分人未回答调查而造成的误差。这可能是由于某一选定的电话号码拨了多次也没有反应或接通后那人拒绝回
答问题。邮寄调查通常比电话调查有更多的未响应误差,
因为不理会一封信比不理会一个响着的电话容易得多,而
且信被寄错地址的可能性也要比拨一个无人使用的电话号
码的可能性大得多。有时,一次好的电话调查,通常会有
85%至90%的响应率;而一次邮寄调查的响应率很少有到达50%的.对研究者来说,高拒绝率是一个很大的问题,因为他们对于被选中但未参与调查的人了解很少。于是出现许多无法回答的问题:是什么使得人们有了不响应和响应的区别?相对响应者来说,未响应者是富有还是贫穷?保守还是自由?有影响力还是缺乏影响力?如果他们响应,他们的回答会怎样影响研究结果?未响应误差
我们通过一个最坏的假设情况来表明未响应误差的影响可能有多大。假定我们计划调查1200个人,却只有1000人接受了调查,这意味着我们缺了200人的数据。在1000个我们调查的响应者中,我们发现600人(或60%)赞成某事物而其余人反对它。如果我们假定另外200人也赞成,那么在1200人中就有800人赞成,比例为67%。但另一方面,如果我们假定那200人反对,那么1200人中只有600人赞成,比例为
50%。因此,仅仅由于未响应误差,观测样本中60%的赞成比例有可能实际只是50%和67%之间的一个随机数。这就可能给我们的研究结论带来很大的差别。一些经验表明,在大部分情况下,未响应者和响应者并无多大差别。如果我们开始时有一个高的响应率,那么可假定未响应者也依同样的比例作出回答。但是如果响应率很低,例如不超过50%,那么不响应的影响可能会很大。响应误差
如果研究者小心一点的话,由调查得来的数据是有可能避免响应误差(response
error)的。
响应误差是在调查过程中,由于问题的提问方式、问题所处的位置或访员的影响而使得响应者在回答问题时产生的偏差。我们在这里讨论其中的一部分(而不是全部)情况。即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是他们实际上做的、感觉的或想的。当我们在报纸上读到,在最近的一次调查中有55%的人认为他们的生活很幸福,那么我们应该知道这句话其实是这个意思:被调查并回答了问题的人在当时有55%对访员说他们认为生活很幸福。1.4.4实验数据:寻找造成结果的原因收集数据的另一种办法是在实验中控制一个或多个变量并测量操纵的结果。例如,如果我们给一组植物施肥,另外一组不给施肥,那么我们就是在控制植物土壤的成分。我们可以测量像增长率、成活率等变量。实验数据(experimental
data)是指在实验中控制实验对 象而收集到的变量的数据。实验是检验变量间因果关系的
一种方法。在实验中,研究者试图控制某一情形的所有相
关方面,操纵少数感兴趣的变量,然后观察实验结果。1.5数据阵/数据文件
数据表通常叫做数据阵或数据文件。表1.2是一个根据抽样调查得来的数据生成的小数据阵的例子。表1.2一次抽样调查的原始数据1.5数据阵/数据文件在计算机分析数据时,需要把数据文件中的描述性文字转化成数字。每一个人都被分配一个身份号码作为名字。年龄变量本来就是用数字测量的,因此不需要任何转化。性别变量的两个取值是“女”或“男”,因此,“女”用数字0代替,“男”用数字1代替。当然还可以使用任何两个别的数字,比如用17代替“女”,用23代替“男”。“态度”这个值可以用三个等级数1、2和3表示反对、中立和赞成。表1.3适合计算机处理的一次抽样调查的数据1.6统计学和数学、统计软件的关系统计学的基础是数学,尤其是统计推断牢牢地建立于数学基础之上。但是,没有数学知识也是有可能学会统计,这是本书的讲述方式。
在本教材中,我们同时使用Excel和SPSS17.0或PASW作为应用软件,这将有助于你摆脱枯燥的计算,使你能够更好的专注于对数据的分析。因此,理解计算机的输人和输出的内容比知道计算机软件如何计算重要得多。
但是,我们在这里要强调的是,你要学会基本的统计思想——某些专业术语,数据如何被收集、演示、分析,结果意味着什么,及它们何时该或不该应用于实际生活——而不至于深陷于公式和计算细节的泥潭中。
在使用统计软件进行数据分析时也应该特别留神,因为只要数据格式无误、选项不矛盾而且不用零作为除数,统计软件就一定给你结果,而且几乎没有任何警告。另外,统计软件输出的结果太多。即使是同样的方法,不同软件输出的内容还不一样,甚至有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此,你要明白自己是在干什么,不要在得到一堆毫无意义的垃圾之后还沾沾自喜。常用统计软件简介(1)SPSS:这是一个很受欢迎的统计软件,它容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。2009年4月,SPSS公司被IBM收购后将其重新命名为PASW(PredictiveAnalytics
Software,预测分析软件),不过本书仍然使用SPSS名称。(2)Excel:严格说来并不是统计软件,但作为数据表格软件有一定统计计算功能。而且凡是装有Microsoft
Office的计算机,基本上都有Excel。但要注意,有时在安装Office时没有安装数据分析的功能,则必须安装该功能后才能进行数据分析。当然,画图功能
是默认具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用宏命令来编程,这时就没有相应的简单选项了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。(3)SAS:这是功能非常齐全的软件,尽管价格相当不菲,但是许多公司,特别是美国制药公司偏爱使用。尽管现在已经尽量“傻瓜化”,但仍然需要一定的训练才可以进入。也可以对它编程,但对于基本统计课程则不那么方便。(4)Eviews:这是一个处理回归和时间序列等问题很方便的经济计量学软件,能够处理以时间序列为主的多种类型数据,进行包括描述统计、回归分析、传统时间序列分析等基本数据分析以及建立条件异方差、向量自回归等复杂的计量经济模型。(5)R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,使用很方便。还有不少统计学家和爱好者不断在R网站提供他们编写的各种最新方法的统计软件包和程序。它的所有计算过程和代码都是公开的,不像多数“傻瓜
”软件“黑盒子”式的模块。它的函数还可以被用户按需要改写,容易举一反三。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。统计学:思想、方法与应用第2章分类数据的描述方法数据分析的三个原则频数表统计图列联表学习目标用频数表描述数据的分布;用条形图、饼图、百分条图等图形来展示数据;用列联表分析两个分类指标之间的关系;相关理论在统计软件中的应用;相应统计分析结果的解读。
在收集好数据之后,我们必须在数据中寻找所包含的信息。
虽然我们在电子表格或其他数据文件中可以直接看到数据,但是数据如此之多,以至于我们无法把他们全部理解。
因此,我们必须使用一些方法从数据中提取信息,并转化成可用的形式。
数据分析包括三种形式:为数据画一个图,制作一个表或者计算一些我们感兴趣的东西。
这可以帮助我们对数据进行简化。简化使得理解数据和从数据中提取信息变得容易了。
但是数据简化有一个不足之处,就是难以从简化的形式中恢复原始数据,因此,当我们分析数据时,几乎总会丢失某些信息。2.1数据分析的三个原则一幅好图胜千言。数据分析有三个原则:1、绘制一个图。图像可以帮助你看到从数据表里看不到的信息,有助于你选择分析的方法,帮你明确思考隐藏在数据背后的模式和关系。2、绘制一个图。精心设计的图像在分析工作中很重要。它能够展现重要的特征和模式,有时候可以揭示出你意想不到的事情:值得注意的(可能是错误的)数据或意想不到的模式。3、绘制一个图。使用一个精心挑选的图像是向其他人汇报你的数据分析结果的最佳方式。2.2频数表
频数表(frequency
table)或频数分布表(frequencydistribution
table)可以帮助了解变量取值的分布状况。频数表是遵循既不重叠又不遗漏的原则,按变量(数据特征)的取值归类分组,把总体的所有单位按组归并排列,其各个组别所包含的数据数目(频数)的汇总表格。简而言之,频数表包括两个要素:总体按其标志所分的组和各组所分布的单位数量。2.2频数表
表2.1是KEEN网站的访问者使用的搜索引擎的频数表,“Direct”表示直接输入网址访问。
该表给出了搜索引擎的类别名称,每个类别的访问数量以及合计数量。表2.1访问KEEN网站的访问者使用的搜索引擎的频数表2.2频数表
表2.2是访问KEEN网站的访问者使用的搜索引擎的相对频数表,表中展示了每个类别的访问比例。通过这种方式,我们可以描述分类变量的分布。表2.2相对频数表2.3统计图如果想获得更生动的展示,我们可以使用统计图。
统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。
统计图既可以节省大量文字叙述,又可便于数据的对比分析与积累。利用统计图表现统计数据,能更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。
按照图形的形式,统计图大体上可以分为几何图、象形图和统计地图三种。2.3统计图几何图。几何图是利用几何的形和线来表明统计数据的图形,包括条形图、饼图等。象形图。象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。例如用油桶的大小表示的某地1990年、
2000年和2005年三年的原油产量如左图所示:(3)统计地图。统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及规律,用以显示不同地域事物数量的分布情况。例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。如右图所示:2.3.1面积原则
在得到频数表之后,我们就可以按照数据分析的三个原则来对数据进行绘图。但是不能随便做图,因为一个糟糕的图像反而会歪曲我们对数据的认识。
例如,尽管大部分的人都是通过Google来访问KEEN网站,但是图2.1展示的情况是浏览者似乎全部是通过Google来访问
KEEN网站。问题出在哪里呢?图2.1一个容易让人迷惑的图2.3.1面积原则
图2.1中的凉鞋的长度对应着频数表中的数据,但是我们的眼睛更容易被凉鞋的“面积”或者“体积”迷惑。
通过Google来访问KEEN网站的人数是直接输入网址来访问的人数的2倍多,代表通过Google来访问KEEN网站的凉鞋的长度就是代表直接输入网址来访问的2倍多,但是前者的面积是后者的4倍多,于是我们从这个图上就会有错误的认识。获得最佳数据展示的一个基础原则就是面积原则,即图像一部分所占的面积应该与数据的量级对应。2.3.2条形图和柱形图
分类数据的一个常用统计图是条形图(bar
chart,bar
plot,bar
graph)。
条形图是用等宽直条的长短来表示各个相互独立的指标大小的图形,适用于相互独立的数据(数据有明确分组,不连续)。条形图可以描述那些已经用频数或频率汇总了的定性变量。一个坐标轴代表定性变量的各个取值,在每个变量位置的条的长度和其所代表的水平的频数或频率成比例。
条形图分为单式和复式两种,单式适用于只有一组观察数据,复式适用于有若干组观察数据。
条形图有很多变种。比如,纵轴和横轴可以互换,这决定条形是垂直放置(柱形图)还是水平放置。条形图还可以描述离散定量变量数据的频数、频率或概率分布。2.3.2条形图和柱形图
图2.2是通过搜索引擎访问的条形图,该图遵守了面积原则。
做法:在Excel中使用“插入图表”工具按钮,选择柱形图或条形图。图2.2通过搜索引擎访问的条形图2.3.2条形图和柱形图如果我们想了解搜索引擎的频率,还可以画出相对频数条形图(relative
frequency
bar
chart),如下图2.3所示。图2.3通过搜索引擎访问的相对频数的条形图2.3.3帕累托图帕累托图(pareto
chart)是以意大利经济学家V.帕累托(1848---1923年)的名字命名的,又称主次因素分析、排列图。帕累托图是根据“关键的少数和次要的多数”的原理而制做的。根据表2.1中不同类型搜索引擎的频数分布表绘制的帕累托图如图2.8所示。图2.8不同类型搜索引擎的频数分布表绘制的帕累托图该帕累托图表明:对网站的访问主要途径依靠Google和Direct,KEEN公司需要在这两个途径上进行加强和改进。2.3.4饼图饼图(pie
chart)又叫圆形图,是一个圆面积为100%,由许多扇形组成的圆,各个扇形的大小比例等于变量各个水平(或
类别)的频率或比例,即表示了不同组成部分的相对重要性。饼图对描述定类尺度的数据特别有用。Excel中使用“插入图表”工具按钮,选择饼图。饼图比条形图简单,描述比例较直观。但是当变量太多时,饼图就不那么好看了。2.3.4饼图
图2.8是搜索引擎访问的相对频数表的饼图。饼图中列出了每个类别的名称、频数和频率。从饼图可以比较不同类别之间的差异。但是,有时候我们不容易看出不同类别之间的差异。比如,从饼图能看出通过Yahoo访问量大还是通过其他方式访问的量大?这很难讲,因为这两块的面积看起来似乎一样大。而这个比较在条形图中是很容易看出来的,在条形图2.2中我们很容易看出来自于Yahoo的访问量较小。2.4列联表
为了了解不同地区或市场对这款新凉鞋款式的接受程度,调查了5个国家769名顾客,收集了两个变量:态度和国家,数据见表2.5。
这些变量每个都有两个或更多的可能取值,这些取值称为变量的水平。
表2.5中对新凉鞋的态度就有“完全赞成、有些赞成、既不反对也不赞成、有些不赞成、完全不赞成、不知道”六个水平,国家类别包括了五个国家,表示该变量有5个水平。
为了分析的方便,我们往往用水平用符号或数字代码来表示这些变量,例如:对新凉鞋的六种态度就可以用代码1、2、3、4、5、6表示;五个国家可以用代码1、2、3、4、5或者A、B、C、D、E表示。2.4列联表
根据表2.5,整理得到这些顾客对新凉鞋的态度如下表2.6:表2.6对新凉鞋的接受态度的调查数据表2.4列联表
对表2.6,可以通过前面介绍的饼图和条形图来了解顾客对新凉鞋款式的接受状况。
下面的饼图反映出有一半的顾客赞成新款式(包括有些赞成和完全赞成两部分)。2.4列联表
不同国家的顾客对该鞋款式的态度是怎么样的,有没有区别?
换句话说,对该鞋新款式的态度是否随着国家的改变而变化。
为了获得答案,我们需要把根据两个分类变量(即“对新凉鞋的态度”和“国家”)汇总得到的数据放在一个二维列联表里面,见表2.7。2.4列联表表2.7对新凉鞋的接受态度的调查数据表(列联表)2.4列联表
列联表(contingencytable)是由两个或两个以上变量进行交叉分类得到的频数分布表。
列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。比如表2.7中的“中国”这一行的数字52,表明有52名中国顾客完全赞成新凉鞋的款式。
构成列联表的变量都是定性变量或定序变量。一个r
行c
列的列联表称为r×c
列联表,一般的把2×2的二维列联表又称为交叉表(cross
table)。列联表可以有很多维。维数多的叫做高维列联表。2.4列联表
注意到表2.7还展示了每一行人数的总和及每一列的总和,分别放在最后一列和最后一行中。
实际上,最后一行就是表2.6中的数据,即对新凉鞋态度的频数分布。
列联表的最后一列反应的是变量“国家”的频数分布。
在统计上就把列联表的这两部分数据称为对应变量的边际分布(marginal
distribution)。2.4列联表
我们可能还想知道哪个国家的顾客更赞成新凉鞋的款式,哪个国家的顾客更反对新凉鞋的款式,或者哪个国家的顾客觉得无所谓
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 赣西科技职业学院《互联网发展历程》2023-2024学年第一学期期末试卷
- 赣南医学院《企业仿真综合实验》2023-2024学年第一学期期末试卷
- 赣南卫生健康职业学院《固体废物处理及利用课程设计》2023-2024学年第一学期期末试卷
- 甘肃中医药大学《国际贸易综合实训》2023-2024学年第一学期期末试卷
- 七年级道德与法治上册第一单元成长的节拍第一课中学时代第2课时少年有梦教案新人教版
- 三年级科学下册第一单元植物的生长变化第2课种植我们的植物教学材料教科版
- 九年级化学上册第六单元碳和碳的氧化物课题3二氧化碳和一氧化碳第1课时二氧化碳导学案新版新人教版
- 《如何做好动物实验》课件
- 培训设备课件
- 汽车交通安全课件下载
- 行进间单手低手上篮教案
- 简约中国风兰花信纸背景模板
- 安利培训体系介绍
- 推荐-挖掘机检验报告精品
- 排洪沟工程设计说明
- 关于矿棉装饰吸声板检验报告加图标版
- 23、PFMEA检查表
- 机房巡检记录表.doc
- [初一数学]初一数学上册期末复习测试
- CSX购倂Conrail之后能够产生的综效(synergy)列示
- 煤矿机电事故影响考核管理办法
评论
0/150
提交评论