Chapter 1统计学导论_第1页
Chapter 1统计学导论_第2页
Chapter 1统计学导论_第3页
Chapter 1统计学导论_第4页
Chapter 1统计学导论_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学:思想、方法与应用统计学:思想、方法与应用袁卫袁卫 刘超刘超 第第1章章1. 1. 什么是统计学?什么是统计学?2. 2.如何运用统计学?如何运用统计学?3. 3. 统计学的基本概念统计学的基本概念4. 4.数据的收集数据的收集5. 5.数据阵数据阵/ /数据文件数据文件6. 6.统计学和数学、统计软件的关系统计学和数学、统计软件的关系学习目标学习目标 用一句话说明统计学;用一句话说明统计学; 理解我们为什么要学习统计学;理解我们为什么要学习统计学; 懂得如何运用统计学;懂得如何运用统计学; 知道统计学的基本概念;知道统计学的基本概念; 什么是描述统计学和推断统计学;什么是描述统计学和推

2、断统计学; 了解数据如何收集以及数据收集中存在的问题;了解数据如何收集以及数据收集中存在的问题; 知道常用的统计软件。知道常用的统计软件。 数据显示,数据显示,2010年中国名义年中国名义GDP为为58786亿美元,亿美元,GDP增速为增速为10%左右。而左右。而2010年日本名义年日本名义GDP为为54742亿美元,亿美元,GDP增速为增速为3.9。中国。中国GDP比日本多比日本多4044亿美亿美元,这意味着中国超越日本成为世界第二大经济体。尽管中元,这意味着中国超越日本成为世界第二大经济体。尽管中国总量国总量GDP超过日本,但中国人均超过日本,但中国人均GDP却只有日本却只有日本1/10,

3、在世界排名第在世界排名第100位左右,不到世界平均水平的一半。这样位左右,不到世界平均水平的一半。这样的结果对我们的结果对我们意味着意味着什么呢?毫无疑问,我们需要知道一些什么呢?毫无疑问,我们需要知道一些统计知识。统计知识。1960到到2009全球主要国家人均全球主要国家人均GDP的增长图表(来源:的增长图表(来源:Google网站)网站) 作为一名潜在的汽车购买者和一名有责任心的市民,你作为一名潜在的汽车购买者和一名有责任心的市民,你乐意为保护地球生态环境应有的贡献。你应该买使用柴油发动乐意为保护地球生态环境应有的贡献。你应该买使用柴油发动机的汽车,还是购买电动车,或者干脆骑自行车呢?报纸

4、、杂机的汽车,还是购买电动车,或者干脆骑自行车呢?报纸、杂志或网络中的志或网络中的统计结果统计结果对于你的决定非常关键,这些结果建议对于你的决定非常关键,这些结果建议你该有怎样的消费观。你该有怎样的消费观。 低碳社会要求汽车厂商根据他们的总产量生产一定比例的低碳社会要求汽车厂商根据他们的总产量生产一定比例的电动车,以减少机动车造成的空气污染,这已开始成为整个国电动车,以减少机动车造成的空气污染,这已开始成为整个国家的趋势。对于立法者来说,统计信息在使他们家的趋势。对于立法者来说,统计信息在使他们相信相信并检测使并检测使用电动车在改进空气质量上的有效性方面起着关键性的作用。用电动车在改进空气质量

5、上的有效性方面起着关键性的作用。 在金融危机发生后,各国政府对于国家经济在金融危机发生后,各国政府对于国家经济的现状和对未来经济走势的预测十分的现状和对未来经济走势的预测十分关注关注,每个,每个月都要编制月都要编制CPI等各类指数以评价通货膨胀情况。等各类指数以评价通货膨胀情况。有关商品销售额、新开工的住宅、货币流通以及有关商品销售额、新开工的住宅、货币流通以及工业生产的信息仅仅是构成预测基础的成百上千工业生产的信息仅仅是构成预测基础的成百上千类信息的一小部分。我们该如何解读这些数据呢类信息的一小部分。我们该如何解读这些数据呢?知道一些统计知识?知道一些统计知识有助于有助于我们知道这些数据是我

6、们知道这些数据是如何与我们的生活息息相关的。如何与我们的生活息息相关的。 假设你是市场部的新任经理,一次广告活动假设你是市场部的新任经理,一次广告活动的统计结果摆到了你面前,声称某个结果是的统计结果摆到了你面前,声称某个结果是“统计统计显著显著”的。你如何解释这份报告而又不暴露你对该的。你如何解释这份报告而又不暴露你对该术语的无知呢?赶快学点统计,这对你和你的事术语的无知呢?赶快学点统计,这对你和你的事业都非常有用。业都非常有用。1.11.1什么是统计学什么是统计学 在三百多年前,统计的英文单词在三百多年前,统计的英文单词Sta atistics首次被人首次被人们应用。们应用。 统计学是研究收

7、集数据、整理数据、分析数据以及统计学是研究收集数据、整理数据、分析数据以及由数据分析得出结论的方法,简称为由数据分析得出结论的方法,简称为“数据的科学数据的科学” 2010 2010年年6月月3日,第日,第64届联合国大会第届联合国大会第90次会议通过次会议通过决议确定每年决议确定每年10月月20日为日为“世界统计日世界统计日”。 2011年初,国务院学位委员会在新的研究生专业目年初,国务院学位委员会在新的研究生专业目录中将统计学上升为录中将统计学上升为一级学科一级学科,为统计学科和统计教,为统计学科和统计教育的发展提供了更广阔的平台,也显示出统计对科学育的发展提供了更广阔的平台,也显示出统计

8、对科学研究、经济增长和社会发展的重要性。研究、经济增长和社会发展的重要性。人物小传:瓦尔德人物小传:瓦尔德 有人把统计学定义为数据处理的一门艺术,有人把统计学定义为数据处理的一门艺术,瓦尔德瓦尔德(A. WaldA. Wald,1902190219501950年)年)的事例就是明证。的事例就是明证。 瓦尔德是二战时期的统计学家,他发明的一些统计方瓦尔德是二战时期的统计学家,他发明的一些统计方法在战时被视为法在战时被视为军事机密军事机密。 瓦尔德被咨询飞机上什么部位应该瓦尔德被咨询飞机上什么部位应该加强加强钢板时,他开钢板时,他开始研究从战役中返航的军机上受敌军创伤的始研究从战役中返航的军机上受

9、敌军创伤的弹孔位置弹孔位置。他。他画了飞机的轮廓,并且标示出弹孔的位置。资料累积一段画了飞机的轮廓,并且标示出弹孔的位置。资料累积一段时间后,几乎把机身各部位都填满了。于是瓦尔德时间后,几乎把机身各部位都填满了。于是瓦尔德提议提议,把剩下少数几个没有弹孔的部位补强把剩下少数几个没有弹孔的部位补强因为这些部位被因为这些部位被击中的飞机都没有返航。击中的飞机都没有返航。 这是一个简单但近乎完美的实例,简单的统计方法一这是一个简单但近乎完美的实例,简单的统计方法一旦融入了统计学家的智慧,便显得生动而唯美!旦融入了统计学家的智慧,便显得生动而唯美! 1.21.2如何运用统计学如何运用统计学 统计在许多

10、学科中得到广泛的应用统计在许多学科中得到广泛的应用。 比如说,学术研究杂志就依赖于统计结果比如说,学术研究杂志就依赖于统计结果。在许多学科中,一篇文章是否能够发表在主要杂在许多学科中,一篇文章是否能够发表在主要杂志上,在很大程度上志上,在很大程度上取决于取决于该文章是否能正确地该文章是否能正确地使用统计方法使用统计方法。 除了除了学术领域,统计在其他领域也被人们广学术领域,统计在其他领域也被人们广泛使用。泛使用。 统计在工业中得到大量使用,尤其统计在工业中得到大量使用,尤其用于用于研究研究新产品、质量控制和市场开发中;市场调查也需新产品、质量控制和市场开发中;市场调查也需要统计。要统计。读者文

11、摘的总统选举调查读者文摘的总统选举调查 这个故事有关一次著名的失败的统计调查。这个故事有关一次著名的失败的统计调查。 在在19361936年美国总统选举前,一份名为读者文摘年美国总统选举前,一份名为读者文摘( (Literry Digest)Literry Digest)的杂志曾进行了一次民意调查。的杂志曾进行了一次民意调查。调查的焦点是谁将成为下一届总统调查的焦点是谁将成为下一届总统是挑战者,堪是挑战者,堪萨斯州州长阿尔夫萨斯州州长阿尔夫兰登兰登( (Alf Landon)Alf Landon),还是现任总,还是现任总统富兰克林统富兰克林德拉诺德拉诺罗斯福罗斯福( (Franklin Del

12、ano Franklin Delano Roosevelt)Roosevelt)。 为了了解选民意向,民意调查专家们为了了解选民意向,民意调查专家们根据根据电话簿电话簿和车辆登记簿上的名单给一大批人发了简单的调查表和车辆登记簿上的名单给一大批人发了简单的调查表( (电话和汽车在电话和汽车在1936-1936-年并不像现在这样年并不像现在这样普遍普遍,但是这,但是这些名单比较容易得到些名单比较容易得到) )。尽管发出的调查表大约有一。尽管发出的调查表大约有一千万张,但收回的千万张,但收回的比例比例并不高。在收回的调查表中,并不高。在收回的调查表中,兰登兰登非常受欢迎。于是,该杂志预测兰登将赢得选

13、举非常受欢迎。于是,该杂志预测兰登将赢得选举。 读者文摘的总统选举调查读者文摘的总统选举调查 你可能对声称兰登将赢得选举的预测结果有疑问你可能对声称兰登将赢得选举的预测结果有疑问。正如你所怀疑的,在经济大萧条时期调查拥有电话。正如你所怀疑的,在经济大萧条时期调查拥有电话和汽车的人们,和汽车的人们,并不能并不能够很好地反映全体选民的观点够很好地反映全体选民的观点。此外此外,只有少数的调查表被收回,这一点也是值得,只有少数的调查表被收回,这一点也是值得怀疑的。事实表明,怀疑的。事实表明,最终最终是罗斯福而不是兰登赢得了是罗斯福而不是兰登赢得了这次选举。这次选举。 由此可见,那次的调查结果有多么错误

14、了。当前由此可见,那次的调查结果有多么错误了。当前大多数应用统计不会像这个例子错得那样厉害,但即大多数应用统计不会像这个例子错得那样厉害,但即便在今天,我们也很容易发现统计便在今天,我们也很容易发现统计被误用被误用的情况,尤的情况,尤其在需要考虑选择正确的样本时。其在需要考虑选择正确的样本时。1.3 1.3 统计学的基本概念统计学的基本概念 1.3.1随机性和规律性随机性和规律性 我们不能预测我们不能预测某某事情的结果时,它就和事情的结果时,它就和随机性随机性联系起来了。联系起来了。例如,掷硬币,参加统计考试是否会达到预期的分数。例如,掷硬币,参加统计考试是否会达到预期的分数。 把大量随机事件

15、放在一起时,就表现出令人惊奇的把大量随机事件放在一起时,就表现出令人惊奇的规律性规律性。 比如,考察掷硬币这样的随机事件,如果你将同样的硬币掷比如,考察掷硬币这样的随机事件,如果你将同样的硬币掷100100次,次,经验经验告诉我们差不多告诉我们差不多5050次正面朝上,次正面朝上,5050次反面朝上。次反面朝上。 类似地,尽管每个人死于二手烟的可能性很小,但是全球每类似地,尽管每个人死于二手烟的可能性很小,但是全球每年有年有6060万人死于二手烟,这个数字却令人难以置信地万人死于二手烟,这个数字却令人难以置信地稳定稳定。 通过对看起来随机的现象进行统计分析,统计知识能够帮助通过对看起来随机的现

16、象进行统计分析,统计知识能够帮助我们把随机性我们把随机性归纳于归纳于可能的规律性中可能的规律性中。统计从我们如何观察事统计从我们如何观察事物和事物本身如何真正发生物和事物本身如何真正发生这两个方面这两个方面帮助我们理解随机性和帮助我们理解随机性和规律性的重要性。规律性的重要性。 统计可以看做是一项对随机性中的规律性的统计可以看做是一项对随机性中的规律性的研究研究。1.3.11.3.1随机性和规律性随机性和规律性 规律也表现出某种规律也表现出某种随机性随机性。 如果你再掷如果你再掷100100次硬币次硬币,正面朝上的次数正面朝上的次数几乎几乎不会和前不会和前1 10000次完全一样。在第一个次完

17、全一样。在第一个100100次中,也许有次中,也许有5252次硬币的正面朝上次硬币的正面朝上,然而在第二个,然而在第二个100100次中,也许就有次中,也许就有4949次正面朝上。次正面朝上。 这种偏差发生于调查、实验和其它任何一种方式的数据收这种偏差发生于调查、实验和其它任何一种方式的数据收集中集中。 比如在某次调查中,如果对两个不同群的人做同样的调查比如在某次调查中,如果对两个不同群的人做同样的调查,则有不同的比例的人支持这一观点,则有不同的比例的人支持这一观点。这这两两个个比例之间的差比例之间的差异主要是由于数据本身的随机性异主要是由于数据本身的随机性引起引起的。的。 在这种意义下来说,

18、统计就成在这种意义下来说,统计就成了对了对数数据中的偏差问题的据中的偏差问题的研研究究。根。根据作为统计基础的数学理论,我们可以确定一项调查据作为统计基础的数学理论,我们可以确定一项调查中的某一比例有多大的随机性,以及中的某一比例有多大的随机性,以及在在下一次的重复调查中下一次的重复调查中,这个比例可能有多大的偏差。我们还可以指出,两个比例,这个比例可能有多大的偏差。我们还可以指出,两个比例之间的差之间的差异异是否大到了随机性本身所是否大到了随机性本身所不能解释不能解释的地步。我们的地步。我们将在以后章节中详细讨论这些思想将在以后章节中详细讨论这些思想。比如人的寿命在比如人的寿命在70-90岁

19、岁之间。某人的寿命为之间。某人的寿命为130岁,则不能用随机性解释岁,则不能用随机性解释1.3.21.3.2概率概率 因为涉及到随机性因为涉及到随机性,统计学还需要统计学还需要一一个很重要个很重要的概念的概念概率概率(probability) (probability) 。 概率是一个概率是一个0 0到到1 1之间的数,它告诉我们某一事之间的数,它告诉我们某一事件发生的机会有多大件发生的机会有多大。 概率为统计学的第三个方面概率为统计学的第三个方面如何从数据中如何从数据中得出结论得出结论奠定了奠定了基石基石。 我们我们可能可能永远不能确定两个数字的差异是否超永远不能确定两个数字的差异是否超出了

20、随机性本身所预期的范围,但是我们可以出了随机性本身所预期的范围,但是我们可以确确定定,这种差异发生的概率是大还是小。根据这个,这种差异发生的概率是大还是小。根据这个基本思想,在很多情况下,我们可以得出关于我基本思想,在很多情况下,我们可以得出关于我们所处的这个世界的重要结论们所处的这个世界的重要结论。 我们我们将在将在第四章及其后章节中详细阐述。第四章及其后章节中详细阐述。1.3.31.3.3变量变量 变量变量(variable)(variable) 是是指指一个可以取两个或一个可以取两个或更多个可能值的特征、特质或属性。更多个可能值的特征、特质或属性。 比如,比如,性别是取两个值的变量,因为

21、一性别是取两个值的变量,因为一个人只可能是男性或女性个人只可能是男性或女性。还有其它变量的还有其它变量的例子例子,如人的寿命,体重,以及汽车每升汽如人的寿命,体重,以及汽车每升汽油所能行驶的距离,等等油所能行驶的距离,等等。1.3.31.3.3变量变量图图1.1 1.1 变量及其取值变量及其取值1.3.31.3.3变量变量变量的值值(value)通常是对某一特定个体的度量,特定个体可能是指一个人,一个家庭,一个地区,或一个国家。表1.1列出了一些变量、变量的取值及其所测量的个体的例子。从表中可知,性别变量是以人为个体的观测,孩子的数目是以家庭为个体的观测。表表1.1 1.1 变量,值和个体变量

22、,值和个体变量变量变量的值变量的值个体个体性别男,女人学历小学,中学,本科,硕士,博士人失业有工作,无工作人孩子数0, 1, 2, 3,家庭贫困程度严重,一般,边缘,没有地区1.3.31.3.3变量变量上面介绍的是经经验验变量变量(empirical variables) ,级处理的对像是我们周围可观测到的物质世界中的事物。用数学方法推导的变量称为理论变量理论变量(theoretical variables)z,t, 和F变量。 与变量相对的概念是常数常数(constant)(constant)。在统计中经常使用的一种被称做参数参数(parameter)(parameter)的常数。1.4 1

23、.4 数据的收集数据的收集 1.4.1 定义变量定义变量 数据收集的第一个准则是要清楚测量的是什么。换句话说,变量必须有一个明确的适合研究目的的定义。 这有时是说起来容易做起来难。如果我们对问题考虑得不全面,那么就没理由指望回答问题的人(一般称为响应者)能按照我们期望的回答问题。 在我们做研究之前,对变量必须要有一个清晰、详尽的定义。1.4 1.4 数据的收集数据的收集 1.4.1 定义变量定义变量 假定我们在一次食品企业的市场调查中包含了这样的问题在您的家庭中有多少个孩子?我们也许认为自己知道想要了解的是什么,但是,没有理由期待响应者和我们有同样的想法。1.4 1.4 数据的收集数据的收集

24、1.4.1 定义变量定义变量 我们也许不加考虑地认为,孩子应定义为一个不满18岁并和他(她)的亲生父母一起生活的人。但如果一个家庭中包含大于18岁的亲生子女、前妻或前夫的孩子、养子或养女、过继子女或者其他年轻的亲戚,那该怎么办呢?对于不和亲生父母生活在一起的孩子怎么算呢?对于父母离了婚而共同抚养的孩子怎么算呢?这有很多种发生混淆的可能。因此,我们在调查之前首先需要明确孩子的定义。1.4.2 1.4.2 观测数据观测数据 数据收集有两种主要方法,其中一种是当我们观测现实世界时收集到的数据,如在不同城市中的流动人口数量。观观测数据测数据(observational data)(observatio

25、nal data)是指仅通过对世界的观察是指仅通过对世界的观察( (而而没有操纵或控制它没有操纵或控制它) )所得到的数据所得到的数据。收集观测数据的研究者们尽量不干涉研究对象的行为模式。 例如,证券分析人员可能会记录某即将被收购的公司在被收购的前一天的股市收盘价格,并与其宣布被收购的当天的收盘价比较。总体和样本总体和样本收集数据是为了从收集的个体中得出结论。所有我们感兴趣的个体就组成了总体总体 (population) (population) 。比如,你读本教材这一时刻,我国所有居民就构成了一个总体。 有时我们能够收集到总体中所有个体的数据。在这种情况下,我们就是对总体做了普查普查(cen

26、sus)(census)。 我国进行的第六次全国人口普查就是希望确定我国所有居民数。 然而,在苛刻的现实生活中,由于资金、时间有限以及不断变化的环境条件,普查通常是很困的。此时,我们需要把收集数据限制在总体的一个样本样本(sample)(sample)上,样本是总体的中的一个被选中的部分。样本的选择样本的选择 统计研究者所面临的一个关键问题是如何选择样本。 我们希望基于样本得出的结论能够适用于该样本所属的总体,这依赖于获得一个好的样本,否则这是不可能实现的。 以烹调为例子来帮助你理解为什么一个好的样本如此重要。 当我们品尝一勺我们做的汤时,我们关心的不是这勺汤怎样,而是整个锅里的汤味道如何。如

27、果锅里的汤被充分搅拌了,我们只需品尝一勺即可知道整锅汤的味道。我们品尝的这一勺汤无论是来自家庭厨房中的一个小锅,还是来自一个更大的锅,我们都可以窥一斑而知全豹。 这正如我们从总体中选择一个样本,从某种意义上来说,需要选择一个来自搅拌均匀的总体的样本。如果总体能被搅拌均匀,那么一个包含1000个个体的样本,不管它是以整个国家为总体,还是以一个城市为总体,都可以告诉我们同样多的内容。样本的选择样本的选择 我们可以把这个例子应用于样本调查。某产品上市之前的市场调查表明,有70%的人喜该产品。如果样本选择正确,这个比例将和整个市场中的消费者中的比例大致相同。类似地,在对大学毕业生就业状况的研究中,检查

28、毕业生的某个样本的目的,不是要看这些抽查到的毕业生是否能顺利就业,而是要要看所有大学毕业生组成的总体能否顺利就业。选择的这个样本应该能够很好地反映总体,因此也就能够很好地反映大学毕业生就业状况。 如果不能正确地选择样本,那么对于整锅汤的判断可能导致错误的结论。如果市场调查专家们只对他们的家人和朋友提问,那么将可能产生坏样本。如果只对已经就业的毕业生进行调查,而忽略校漂族,那么此样本将产生错误的结论。由于样本选择对于结果的可信度有重要作用,所以根据正确的统计原理选择样本是非常必要的。 随机样本随机样本 随机样本随机样本(random sample)指一个合适的、能够被推广应用于更大的总体的统计样

29、本。从一个纸箱子中抽签对学生点名回答问题,是选择随机样本的最简单的例子。叠好的写有学生名字的纸签是组成整个总体的个体,每一个个体都有相等的被选中的机会。从这种意义上说完全可能实现总体中所有的群体在某样本中的代表的数量比例大致等于这些群体在总体中的比例。比如,如果一个工科院系的班级有25个男生和5个女生,那么在该班级的一个随机样本中,每5个男生应该对应着大约1个女生。 当一个总体中的名字或代码被放进一个纸箱子里,搅拌均匀,并随机抽取,其结果就是一个简单随机样本单随机样本(simple (simple random sample)random sample) 。本书中每一章末尾的所有公式都基于简单

30、随机样本的使用。方便样本:如何产生一个方便样本:如何产生一个 坏的坏的 样本样本 研究者们经常习惯于研究手头方便的总体中的个体。例如,医学研究者经常对他们自己的病人做研究;市场调查者研究被他们说服进行合作的消费者。 能够很容易、很经济地得到的样本称为方便样本方便样本(convenience sample)(convenience sample) 。 从方便样本中得出的结果有时候很难推广到整个总体。 有时候大型商场会要求他们的顾客回答某些问题并收回问卷,由此得到一些样本。根据随机取样的原则,我们可以对此提出疑问:不在该商场买东西的人显然不包含在样本中,而回答问卷的人构成了方便样本,从他们那儿得到

31、的数据是不能够作为该样本以外的其他人的推广的;即使对于该商场的顾客总体本身而言,它们也不一定是典型的。这些数据只是很好地描述了那些花了时间和精力回答问卷的顾客,仅此而已。抽样的其它形式抽样的其它形式 抽取比简单随机样本更复杂的样本也是可能的。其中一种抽样方法是随机选取若干小的地区,然后随机选取居住在这个地区的一些人进行直接调查。这是得到样本的一种有效途径。通过调查每一地区居住相临的一些人,研究者们就避免了走好远的路从一个居住区到另一个居住区。任何一种抽样程序的一个普遍的困难是,很少能完全包含属于某一特定总体的所有样本。1.4.3 1.4.3 收集观测数据时的错误和误差收集观测数据时的错误和误差

32、 研究抽样技术使我们意识到,很多因素可使样本中的数据产生错误并导致错误结论。若仅凭某一样本中有55%的人认为他们的生活很幸福,我们还不能够得出结论说全国人口中的55%的人生活很幸福。从刚开始决定调查到最后报告结果,任何一件事情都有可能出错。大部分调查也的确犯了这样或那样的错误。抽样误差:并非错误的抽样误差:并非错误的 误差误差 调查中的有些误差纯粹是统计上的,主要的统计误差即所谓的抽抽样误差样误差( (sampling error)sampling error)。这并不是某件事出错造成的误差,而是指这样的一个事实:如果研究被再做一遍,结果未必会和上次一模一样。例如,前面提到过的在第二个100次

33、掷硬币中,也许就有49次正面朝上,即正面朝上的比例为49%,不同于第一个100次掷硬币中正面朝上的比例52%。又例如,在下一次的抽样中,也许并不是60%的人赞同政府开征的房地产税,而是57%或63%或其它相近比例的人赞同房地产税。但是,即便不同的样本会产生不同的答案,大部分答案仍都位于总体中的真正比例的某一变化范围内。例如,通过每次大约1000个响应者的多次抽样,大部分样本(95%)得出的比例和实际的比例至多相差3个百分点。也就是说,抽样误差等于加或减三个百分点( 3%)。 这种结果仅仅是每一个统计研究所固有的随机性的反映。别忘了这些比例是来自不同的样本,我们没有理由相信一个样本的结果会和另一

34、个样本的结果一模一样。并且,没有理由相信某一特定样本的结果恰好等于从整个总体可能得到的结果。抽样误差:并非错误的抽样误差:并非错误的 误差误差 图1.2表明当实际的总体比例为50%时,计算机产生的数据的情况。其中,100个不同样本中的95个样本比例位于47%和53%之间。在这种情况下,我们说有3%的抽样误差53%比50%多( +)3个百分点,47%比50%少( -)3个百分点。图1.2 实际的总体比例和抽样误差为3%的例子这一例子是基于实际的总体比例为50%的基础之上的。而现实中,我们几乎从来不知道这个数字。实际上,我们之所以做调查,就是要估计总体比例。然而,我们通过样本依然可以计算出抽样误差

35、有多大。在第5章和第6章的参数估计和假设检验中会给出一些计算抽样误差的公式。抽样误差的大小依赖于得到样本的方式和样本中包含的观测的个数。样本越大,误差越小。如果样本等于整个总体,则样本比例就等于总体比例。在总体变化以前,对整个总体做重复研究,就会得到相同的结果。在这种情况下,抽样误差是0。抽样误差:并非错误的抽样误差:并非错误的 误差误差 在公布任何一次抽样调查的结果时都应说明抽样误差的大小,不管是比例、均值还是其它形式。抽样误差告诉我们,样本离总体的实际值可能有多远。我们将在第5章和第6章的参数估计和假设检验中再次提到抽样误差。未响应误差未响应误差 另外一种影响抽样调查结果的误差是未响应误差

36、未响应误差( ( nonresponnonrespons se error)e error) 。未响应误差是指由于包含在样本中未响应误差是指由于包含在样本中的一部分人未回答调查而造成的误差。的一部分人未回答调查而造成的误差。这可能是由于某一选定的电话号码拨了多次也没有反应或接通后那人拒绝回答问题。邮寄调查通常比电话调查有更多的未响应误差,因为不理会一封信比不理会一个响着的电话容易得多,而且信被寄错地址的可能性也要比拨一个无人使用的电话号码的可能性大得多。有时,一次好的电话调查,通常会有85%至90%的响应率;而一次邮寄调查的响应率很少有到达50%的. 对研究者来说,高拒绝率是一个很大的问题,因

37、为他们对于被选中但未参与调查的人了解很少。于是出现许多无法回答的问题:是什么使得人们有了不响应和响应的区别?相对响应者来说,未响应者是富有还是贫穷?保守还是自由?有影响力还是缺乏影响力?如果他们响应,他们的回答会怎样影响研究结果?未响应误差未响应误差 我们通过一个最坏的假设情况来表明未响应误差的影响可能有多大。假定我们计划调查1200个人,却只有1000人接受了调查,这意味着我们缺了200人的数据。在1000个我们调查的响应者中,我们发现600人(或60%)赞成某事物而其余人反对它。如果我们假定另外200人也赞成,那么在1200人中就有800人赞成,比例为67%。但另一方面,如果我们假定那20

38、0人反对,那么1200人中只有600人赞成,比例为50%。因此,仅仅由于未响应误差,观测样本中60%的赞成比例有可能实际只是50%和67%之间的一个随机数。这就可能给我们的研究结论带来很大的差别。 一些经验表明,在大部分情况下,未响应者和响应者并无多大差别。如果我们开始时有一个高的响应率,那么可假定未响应者也依同样的比例作出回答。但是如果响应率很低,例如不超过50%,那么不响应的影响可能会很大。响应误差响应误差如果研究者小心一点的话,由调查得来的数据是有可能避免响应误差响应误差(response error)(response error)的。响应误差是在调查过程中,由于问题的提问方式、问题所

39、响应误差是在调查过程中,由于问题的提问方式、问题所处的位置或访员的影响而使得响应者在回答问题时产生的处的位置或访员的影响而使得响应者在回答问题时产生的偏差。偏差。我们在这里讨论其中的一部分(而不是全部)情况。即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是他们实际上做的、感觉的或想的。当我们在报纸上读到,在最近的一次调查中有55%的人认为他们的生活很幸福,那么我们应该知道这句话其实是这个意思:被调查并回答了问题的人在当时有55%对访员说他们认为生活很幸福。1.4.4 1.4.4 实验数据:寻找造成结果的原因实验数据:寻找造成结果的原因 收集数据的另一种办法是在实验中

40、控制一个或多个变量并测量操纵的结果。例如,如果我们给一组植物施肥,另外一组不给施肥,那么我们就是在控制植物土壤的成分。我们可以测量像增长率、成活率等变量。 实验数据(实验数据(exexp pe erimental datarimental data)是指在实验中控制实验对象而收集到的变量的数据。实验是检验变量间因果关系的一种方法。在实验中,研究者试图控制某一情形的所有相关方面,操纵少数感兴趣的变量,然后观察实验结果。1.5 1.5 数据阵数据阵/ /数据文件数据文件数据表通常叫做数据阵或数据文件。表1.2是一个根据抽样调查得来的数据生成的小数据阵的例子。 表表1.21.2一次抽样调查的原始数据

41、一次抽样调查的原始数据序号年龄性别态度120男反对223男赞成317女反对438女中立525女赞成643男赞成738男中立851女赞成935男赞成1.5 1.5 数据阵数据阵/ /数据文件数据文件在计算机分析数据时,需要把数据文件中的描述性文字转化成数字。每一个人都被分配一个身份号码作为名字。年龄变量本来就是用数字测量的,因此不需要任何转化。性别变量的两个取值是“女”或“男”,因此,“女”用数字0代替,“男”用数字1代替。当然还可以使用任何两个别的数字,比如用17代替“女”,用23代替“男”。“态度”这个值可以用三个等级数1、2和3表示反对、中立和赞成。表表1.3 1.3 适合计算机处理的适合计算机处理的一次抽样调查的数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论