版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章绪论分为十章,包括绪论、统计调查、图表描述、描述性统计量、参数估计、假设检验、列联分析、方差分析、回归分析和时间序列分析等内容全套可编辑PPT课件引导案例大数据时代带来的大变革国际数据公司定义了大数据的特征:海量的数据规模、快速的数据流转、动态的数据体系、多样的数据类型和巨大的数据价值。仅从海量的数据规模来看,全球IP流量达到1EB所需的时间,在2001年需要1年,在2013年仅需1天,到2016年则仅需半天。全球新产生的数据年增40%,全球信息总量每两年就可翻番。而根据2012年互联网络数据中心发布的《数字宇宙2020》报告,2011年全球数据总量已达到1.87ZB(1ZB=10万亿亿字节),如果把这些数据刻成DVD,排起来的长度相当于从地球到月亮一个来回的距离,并且数据以每两年翻一番的速度飞快增长。预计到2020年,全球数据总量将达到35~40ZB。需要强调的是,所谓大数据并不仅仅是指海量数据,而更多的是指这些数据都是非结构化的、残缺的、无法用传统方法进行处理的数据。基于互联网技术而发展起来的大数据应用,将会对人们的生产过程和商品交换过程产生颠覆性的影响。大数据的本质是基于互联网基础的信息化应用,其真正的“魔力”在于信息化与工业化的融合,使工业生产效率得到大规模提升。肯尼思•库克耶和维克托•迈尔•舍恩伯格指出,数据出现了三大变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人们通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系并利用这些信息来解决问题。我们急需拥有从各种数据中快速获得有价值的信息的能力,统计学就是培养这种能力的学科。第一节统计指数概述第三节统计学的基本概念第二节统计数据的类型第一节统计指数概述第三节统计学的基本概念第二节统计数据的类型一、统计与统计学的概念统计学是指收集、处理、分析、解释数据,并从数据中得出结论的科学。统计学是关于数据的科学,统计研究的是来自各领域的数据。大量观察法(一)二、统计学的研究方法所谓大量观察法,是指对所研究的事物的全部或足够多的数量进行观察的方法。社会现象或自然现象都受到各种社会规律或自然规律的相互交错作用的影响。在现象总体中,个别单位往往受偶然因素的影响,如果任选其中之一进行观察,其结果不足以代表总体的一般特征。只有观察全部或足够多的单位并加以综合,影响个别单位的偶然因素才会相互抵消,现象的一般特征才能显示出来。实验设计法(二)实验设计法是指根据统计研究的目的,事先设计合理的实验程序,在实验过程中排除可控因素的差异,显示出不可控(随机)因素的差异,使得收集到的统计数据符合统计分析方法的要求,以便有效地揭示客观现象的特征。实验设计法主要适用于工程技术、生物医药、心理学、教育学、管理学等领域的统计数据的收集。321与匹配原则随机化原则重复性原则统计分组法(三)统计分组法是指根据统计研究的目的和统计总体的内在特点,按一定的统计标志将总体划分为性质不同的组或类的方法。统计总体的变异性是统计分组的前提条件,由于研究现象本身的复杂性、差异性及多层次性,需要对研究现象进行分组或分类研究,以期在同质的基础上探求不同组或类之间的差异性。综合指标法(四)综合指标法是指运用各种统计指标来反映和研究客观总体现象的一般数量特征和数量关系的方法。统计研究现象的数量方面的特征是通过统计综合指标来反映的。通过综合指标的计算,可以显示出现象在具体时间和地点条件下的总量规模、相对水平、集中趋势、变异程度,并进一步从动态上研究现象的发展趋势和变化规律。如何最真实客观地记录、描述和反映所研究现象的数量特征和数量关系,是统计指标理论研究的一大课题。指数分析法(五)指数分析法主要用于描述和分析事物数量方面的相对变化程度。由于现象的总体非常复杂,发展变动受其构成要素变动的影响,而这些构成要素往往具有不同的性质而不可以直接相加,因此不能进行直接的比较观察。指数分析法正是通过同度量因素,把不能直接相加的要素转化为可以相加的现象总量,并计算出指数来反映复杂现象的总量的变动。另外,还可以对现象的各个构成要素进行因素分析,以显示它们的变动对总体变动的影响程度和方向。抽样推断法(六)统计学在研究现象的总体数量特征时,需要了解的总体对象的范围往往是很大的,有时甚至是无限的。而由于经费、时间和精力等各方面的原因,以致在客观上难以实现,往往只能对部分单位或有限单位进行计算和分析,根据局部观察结果来推断总体。统计模型法(七)在以统计指标反映所研究现象的数量特征的同时,还需要经常对相关现象之间的数量变动关系进行定量研究,以了解某一(些)现象数量变动与另一(些)现象数量变动之间的关系及变动的影响程度。统计模型法是综合指标法的扩展,是指根据一定的理论和假定条件,用数学方程模拟客观现象相互关系的一种研究方法。
统计学与数学的关系(一)三、统计学与其他学科的关系统计学与数学有着密切的关系。由于现代统计学用到了较多数学知识,研究理论统计学的人需要有较深的数学功底,应用统计方法的人也要具备良好的数学基础,这就给人造成了一种错觉,似乎统计学是数学的一个分支,这种理解是不妥当的。实际上,数学只是为统计理论和统计方法的发展提供了数学基础,而统计学的主要特征是研究数据;另一方面,统计方法与数学方法一样,并不能独立地直接研究和探索客观现象的规律,而是给各学科提供了一种研究和探索客观规律的数量方法。
统计学与会计学的关系(二)统计学和会计学都是具有典型计量特征的应用科学,二者都是以数据为语言,揭示其研究对象的特征,并实行有效的监督或管理。但是,会计学主要应用于社会经济领域,而统计学的应用领域更为广阔。社会经济的数量信息主要分为会计信息和统计信息两大类,会计学主要提供货币尺度方面或价值指标的信息,统计学则提供多种指标尺度方面的信息。但是,统计学中所处理的货币方面的信息,又是由会计学提供的;会计学中所用的实物量指标等,又是由统计学提供的。第一节统计指数概述第三节统计学的基本概念第二节统计数据的类型一、按所采用的计量尺度划分分类数据是指只能归于某一类别的非数字型数据,是对事物进行分类的结果。分类数据表现为类别,是用文字表述的。顺序数据是指只能归于某一有序类别的非数字型数据。顺序数据也是对事物进行分类的结果,且这些类别具有顺序。(一)分类数据(二)顺序数据数值型数据是指使用自然或度量衡单位对事物进行计量的结果,其结果表现为具体的数值。(三)数值型数据二、按数据收集方法划分观测数据是指通过调查或观测而收集到的数据。有关社会经济现象的统计数据几乎都是观测数据,这类数据是在没有对事物进行人为控制的条件下得到的。实验数据是指通过在实验中控制实验对象而收集到的数据。自然科学领域的数据大多都是实验数据,如生物实验数据、产品性能实验数据、药物实验数据等。随着实验方法在其他领域的拓展,心理学、教育学、经济学、管理学等领域也出现了实验数据。(一)观测数据(二)实验数据三、按描述对象与时间的关系划分截面数据是指在相同或近似相同的时间点上收集的数据,它所描述的是现象在某一时刻的变化情况。例如,2016年我国各地区的地区生产总值就是截面数据。时间序列数据是指在不同时间点上收集到的数据,它所描述的是现象随时间变化而变化的情况。例如,2010~2016年我国城镇和农村居民年平均收入就是时间序列数据。(一)截面数据(二)时间序列数据第一节统计指数概述第三节统计学的基本概念第二节统计数据的类型一、总体和样本总体(一)总体又称样本空间,是指包含研究者感兴趣的全部个体(数据)的集合。总体通常由所研究的许多个体组成,组成总体的每一个元素称为个体。总体是随着统计研究目的的不同而确定的不同集合。例如,研究某企业生产的十万只灯泡的使用寿命,那么这十万只灯泡就是一个总体,这十万只灯泡中的每一只为一个个体;如果想进行某种科学实验从而得到某个结论,那么所有的实验数据就是一个总体,而每一次的实验数据就是一个个体。样本(二)样本是与总体相对应的概念,几乎所有的统计理论和方法都是建立在样本之上,而统计实践研究现象的数据也总是由样本开始的。所谓样本,是指从总体中按随机原则抽取的一部分个体的集合,也称子样。构成样本的个体的数目称为样本量。从理论上看,样本可以大到与总体容量相同,也可以小到只包括一个个体。但在实践中,样本大小总是处于总体容量和1之间,因此,样本是一个来自总体的有限小总体。一般来说,当样本量达到30时,称为大样本;若样本量小于30,则称为小样本。总体和样本的关系(三)首先,总体是要观测的全部数据的集合,而样本是要观测的部分数据的集合。统计数据的规律性着眼于总体,但由于多数情况下不可能或没必要进行全面观测,所以只能从样本着手,期望通过样本的数据特征来认识总体的数据特征,也就是通过样本来研究总体。其次,样本是用来推断总体的。对样本进行观测的目的是要对总体特征进行估计和判断,即通常所说的用样本来估计和推断总体。最后,总体和样本的角色是可以改变的。根据不同的研究目的,一个总体也可以成为另一个研究意义上某个总体的一个样本。二、参数和统计量参数是用来描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。研究者所关心的参数主要有总体均值、总体标准差、总体比例等。在统计中,总体参数通常用希腊字母表示。例如,总体均值用表示,总体标准差用表示,总体比例用表示。
参数(一)统计量是用来描述样本特征的概括性数字度量,是根据样本数据计算出来的一些量,是样本的函数。研究者所关心的样本统计量有样本均值、样本标准差、样本比例等。在统计中,样本统计量通常用小写英文字母表示。例如,样本均值用表示,样本标准差用s表示,样本比例用p表示。
统计量(二)三、标志和指标每个个体都有许多独特的特征和属性,而标志就是说明个体特征和属性的名称。例如,A市一家民营企业作为个体,其企业性质、企业类型、生产能力、年产值、销售收入、职工人数、工资总额等都是标志。
标志(一)标志的分类11)按性质划分按性质划分,标志可分为品质标志和数量标志。品质标志:是说明个体属性特征的名称。品质标志只能用文字表示,而不能用数值表示。数量标志:是说明个体数量特征的名称。数量标志既可以用文字表示,也可以用数值表示。2)按总体中各单位表现划分按总体中各单位表现划分,标志可分为不变标志和可变标志。标志表现2标志表现是指在标志名称后面所表明的属性或数值。标志表现可分为品质标志表现和数量标志表现。因为数量标志表现都是用数值表示的,所以又称为标志值。例如,某职工的性别是“女”,婚姻状况是“已婚”,这里的“女”和“已婚”分别是品质标志“性别”和“婚姻状况”的属性。又如,某职工的年龄是20岁,则“20岁”就是数量标志“年龄”的数值表现。指标(二)指标的构成1单就指标本身而言,其由指标名称和指标数值两部分构成。由于社会经济现象中的事物都是具体的,都是在一定的地点、时间、条件下发生的,其量的表现就必然带有特定场合和特定历史的痕迹。所以,一个完整的统计指标除了包括指标名称和指标数值外,还应包括计量单位、时间范围、空间范围及计算方法等要素。指标的分类2(1)按对象性质划分按对象性质划分,统计指标可分为实体指标和行为指标。(2)按取值依据划分按取值依据划分,统计指标可分为客观指标和主观指标。(3)按功能划分按功能划分,统计指标可分为描述指标、评价指标和预警指标。(4)按内容划分按内容划分,统计指标可分为数量指标和质量指标。
标志与指标的关系(三)区别1(1)标志是说明个体特征的,而指标是说明总体特征的。(2)标志中的数量标志可以用数值表示,品质标志不能用数值表示;而所有的指标都是用数值表示的,不存在不能用数值表示的指标。(3)标志中的数量标志不一定经过汇总,可以直接取得;而指标是由数量标志汇总得来的。(4)标志一般不具备时间、地点等条件;而一个完整的统计指标一定要有时间、地点、范围。联系2(1)有许多统计指标的数值是从个体数量标志值汇总而来的,它既可是各单位标志值的总和,也可是个体数的总和。(2)指标和数量标志之间存在一定的变换关系。由于研究目的的不同,当原来的总体变成个体时,相应的统计指标也就变成数量标志了(这时,指标名称变成数量标志名称,指标数值变成标志值);反之亦然。四、变量变量是说明现象某种特征的概念,其特点是从一次观测到另一次观测会出现不同的结果,而把观测的结果记录下来就是变量的值。变量按照不同的标志可划分为不同的类型。按照计量尺度的不同,可分为分类变量、顺序变量和数值型变量三种。按照数据变化是否连续划分,变量可分为离散型变量和连续型变量。第二章统计调查引导案例我国人口平均预期寿命达到74.83岁人口平均预期寿命是指同时出生的一批人若按某一时期各个年龄死亡率水平度过一生平均能够存活的年数,是综合反映人们健康水平的基本指标。2010年第六次全国人口普查资料表明,随着我国社会经济的快速发展、人民生活水平的不断提高及医疗卫生保障体系的逐步完善,我国人口平均预期寿命继续延长,国民整体健康水平有较大幅度的提高。一、平均预期寿命比2000年提高3.43岁根据2010年第六次全国人口普查详细汇总资料计算,我国人口平均预期寿命达到74.83岁,比2000年的71.40岁提高3.43岁,如表2-1所示。这表明,在我国人口平均预期寿命不断提高的过程中,女性提高速度快于男性,并且两者之差也进一步扩大。这与世界其他国家平均预期寿命的变化规律是一致的。
2010年世界人口的平均预期寿命为69.6岁,其中高收入国家及地区为79.8岁,中等收入国家及地区为69.1岁。可见,我国人口平均预期寿命不仅明显高于中等收入国家及地区,也大大高于世界平均水平,但比高收入国家及地区低5岁左右。从提高幅度看,2000~2010年我国人口平均预期寿命提高3.43岁,比世界平均提高2.4岁高1岁左右。一般来说,平均预期寿命越高,提高速度越慢。但随着医药技术的发展和改善,一些平均预期寿命已处于较高水平的国家同期提高的速度也比较快,如韩国提高4.9岁、新加坡3.6岁、巴西3.0岁、越南2.9岁、英国2.7岁、法国2.4岁、澳大利亚2.5岁、德国2.1岁等。二、婴儿死亡率继续呈下降趋势人口平均预期寿命的提高是各年龄死亡率水平下降综合作用的结果,而婴儿死亡率(同时出生的一批婴儿未能存活到1岁的比例)的下降起着尤为重要的作用。2010年我国婴儿死亡率为13.93‰(见表2-2),比2000年的28.38‰下降14.45‰,平均每年下降1.45‰。而1990~2000年10年间,我国婴儿死亡率下降4.51‰,平均每年下降0.45‰。可见,随着我国经济的发展、人民生活水平和妇幼保健服务水平的提高,我国的婴儿死亡率不仅继续呈下降趋势,而且下降速度加快。第一节统计调查概述第三节统计调查的方法第二节统计调查的组织方式第四节统计调查问卷第一节统计调查概述第三节统计调查的方法第二节统计调查的组织方式第四节统计调查问卷一、统计调查的概念统计调查就是统计资料的收集,是指根据统计研究的目的和要求,有组织、有计划地向调查对象收集统计资料的过程。统计调查过程中收集的统计资料可分为原始资料和次级资料。原始资料又称初级资料,是指直接向调查单位收集的未经加工、整理的资料。原始资料是统计资料的直接来源,主要包括调查资料和实验资料。其中,调查资料是通过统计调查方法获得的资料,通常是对社会现象而言的,一般取自有限总体;实验资料是通过实验方法获得的资料,通常是对自然现象而言的,也被广泛运用于社会科学领域中。二、统计调查的意义统计调查过程就是收集统计资料、加工整理数据,而后展开分析研究的过程。在整个统计工作过程中,统计调查担负着提供基础资料的任务,所有的统计计算、研究和分析都建立在统计调查的基础上。因此,统计调查是整个统计工作过程的基础,是统计整理、分析、预测和决策的前提,关系到整个统计工作的成败。统计调查是决定整个统计工作质量的首要环节,调查工作的好坏、获得的资料是否完整与正确,将直接影响以后各阶段工作的好坏,影响整个统计工作任务的完成。第一节统计调查概述第三节统计调查的方法第二节统计调查的组织方式第四节统计调查问卷一、普查普查的适用范围普查的特点普查适用于调查一定时点的社会经济现象的总量,如全国人口、全部生产设备、科技人员总数、第三产业状况等。普查也可以用来反映一定时期的现象的总量。普查是非经常性的调查。普查的工作量很大,涉及的调查单位很广,调查者队伍庞大,调查经费开支较大,每隔较长一段时间才进行一次。普查是全面调查,即对调查对象中包括的所有调查单位无一遗漏地进行调查。普查的组织方式一种是建立专门的普查机构,配备大量的普查人员,对调查单位进行直接登记。另一种是利用调查单位的原始记录和核算资料,颁发调查表,由报告单位填报,如物资库存普查等。普查的注意事项(1)规定统一的普查标准时点。(2)规定统一的普查期限。(3)规定统一的普查项目和指标。二、重点调查实践中,重点调查一般有两种实施方案:一是一次性调查,即对重点单位的某些标志值,组织专门机构进行调查;二是经常性调查,即向重点单位布置定期统计报表,定期观察这些重点单位的主要指标完成情况及其变动。重点调查的实施方案重点调查的关键是确定重点单位,重点单位就是在总体中具有举足轻重的地位或单位数虽少但其标志值在总体标志值中占有很大比重的调查单位。(1)根据调查任务确定重点单位。(2)根据调查总体的实际情况确定重点单位数量。(3)选中的重点单位应是管理健全、统计基础工作较好的单位,以便于统计调查的实施。(4)适时调整重点单位。重点单位的确定三、典型调查(1)典型调查是一种深入细致的调查研究。(2)调查单位是有意识地选取的。(3)典型调查通过对有代表性的少数典型单位的了解,可以指导一般,这是符合我们认识事物的一般规律的。典型调查的特点(1)根据统计调查的目的和调查对象的特点,正确划分社会经济现象的类型和确定所选典型单位的类别。(2)要注意典型单位的代表性,从事物的联系中去挑选典型单位。(3)根据总体单位之间的差异程度确定典型单位数目的多少。典型单位的选择四、抽样调查随机抽样(一)随机抽样也称概率抽样,是指按照随机原则从调查对象中抽取部分单位进行调查,并根据所获得的样本数据对总体特征作出估计和推断。随机抽样具有三个特点:首先,抽样时是按一定的概率以随机原则抽取样本。其次,每个单位被抽中的概率是已知的,或是可以计算出来的。最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。这就是说,估计量不仅与样本的观测值有关,也与其入样概率有关。简单随机抽样1简单随机抽样是指从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的。简单随机抽样需要抽样框,抽样框通常包括所有总体单位的信息,如企业名录(抽选企业)、学生名册(抽选学生)或住房门牌号(抽选住房)等。分层抽样2分层抽样是指将抽样单位按某种特征或规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。分层抽样具有以下优点:首先,分层抽样能保证样本中包含各种特征的抽样单位,使样本的结构与总体的结构比较接近,从而提高估计的精度;其次,分层抽样在一定条件下为组织实施调查提供了方便;最后,分层抽样既可以对总体参数进行估计,也可以对各层的目标量进行估计。整群抽样3整群抽样是指将总体中的若干个单位合并为群(组),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。与简单随机抽样相比,整群抽样在抽样时只需群的抽样框,从而大大简化了编制抽样框的工作量;而且群通常是由那些地理位置邻近或隶属于同一系统的单位构成,所以调查的地点相对集中,从而节省了调查费用,方便了调查的实施。系统抽样4系统抽样是指将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先制定的规则确定其他样本单位。典型的系统抽样是先从数字1~k之间随机抽取一个数字r作为初始单位,以后依次取、等单位。系统抽样的主要优点是操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效提高估计的精度。其缺点是对估计量方差的估计比较困难。多阶段抽样5二阶段抽样先抽取群,但并不是调查群内的所有单位,而是再进行一次抽样,从选中的群中抽取若干个单位进行调查。将这种方法推广,使抽样的阶段数增多,就称为多阶段抽样。多阶段抽样具有整群抽样的优点,保证样本相对集中,从而节约了调查费用。多阶段抽样中并不需要包含所有低阶段抽样单位的抽样框;同时,由于实行了再抽样,调查单位可在更广泛的范围内展开。在较大规模的抽样调查中,多阶段抽样是经常被采用的方法。
非随机抽样(二)非随机抽样又称非概率抽样,是指调查者根据自己的认识和判断,从调查对象中有意识地抽取部分单位作为样本,进行观察研究,以认识总体的统计调查方式。非随机抽样可分为以下几种类型。方便抽样1方便抽样是指调查过程中由调查者依据方便的原则,自行确定入抽样本的单位。例如,调查者在街头、公园、商店等公共场所进行拦截调查;厂家在出售产品的柜台前对路过顾客进行调查等。方便抽样最大的优点是容易实施,调查成本低,但这种抽样方法也有明显的弱点。判断抽样2判断抽样是指调查者根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本。判断抽样的主观性较大,样本选择的好坏取决于调查者的判断、经验、专业程度和创造性。其抽样成本较低,也容易操作,但由于样本是人为确定的,因此调查结果不能用于推断总体。自愿样本3自愿样本是指被调查者自愿参加,成为样本中的一分子,向调查者提供有关信息。例如,被调查者参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本。自愿样本与抽样的随机性无关,样本往往集中于某类特定的人群,尤其集中于对调查活动感兴趣的人群,所以样本是有偏的。自愿样本不能用于推断总体,但可以反映某类群体的一般看法,因此自愿样本仍可以给调查者提供许多有价值的信息。滚雪球抽样4滚雪球抽样是指选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查者根据所提供的线索进行此后的调查。这个过程持续下去,就会形成滚雪球效应。滚雪球抽样的主要优点是容易找到那些属于特定群体的被调查者,调查成本也比较低,适合于对稀少群体和特定群体进行研究。配额抽样5配额抽样是指将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。配额抽样类似于随机抽样中的分层抽样,在市场调查中的应用比较广泛。这种抽样方式操作简单,而且能保证总体中不同类别的单位都包括在所抽的样本之中,使得样本的结构和总体的结构类似。但配额抽样在抽取样本单位时,不是依据随机原则,因此依然属于非随机抽样。第一节统计调查概述第三节统计调查的方法第二节统计调查的组织方式第四节统计调查问卷一、直接观察法直接观察法又称现场观察法,是指由调查者到现场对调查对象进行直接点数和计量。例如,要了解商品的库存量,调查者亲自到仓库中观察计量;要测量农作物的产量,调查者到地块中进行实割实测等。这种方法能够保证所收集的统计资料的准确性,但经济性差,要花费较多的人力、物力和时间。由于受到观测、计量等方面的能力和手段的限制,直接观察法只能观察到表面现象或现场实际数量,无法了解调查对象的内部状态。二、报告法报告法是指被调查者按调查机构统一制定的调查方案,按时向调查者报告有关资料的调查方法。我国现行的统计报表制度就是采用报告法收集统计资料的。报告法的实施必须带有强制性,即被调查者必须按规定准确、及时地向有行政权力和法律手段支持的调查者报告统计资料。相对于直接观察法,报告法具有经济性和及时性的优点。由于采用报告法时调查者和被调查者不直接接触,因此方案要简明准确、通俗易懂,以防误解而影响统计质量。三、采访法座谈会也称集体访谈法,是指将一组被调查者集中在调查现场,让他们对调查的主题发表意见,从而获得资料的方法。参加座谈会的被调查者应是所调查问题的专家或有经验者,人数不宜太多,通常为6~10人,调查者应对被调查者进行严格的甄别和筛选。座谈会问卷调查法是指为特定目的,以问卷形式提问,发给被调查者,由被调查者自愿、自由回答的一种调查方法。问卷调查法个别深度访问是一种一次只有一名被调查者参加的特殊的定性研究。“深度访问”暗示着要不断深入到被调查者的思想中,努力发掘其行为的真实动机。调查者运用大量的追问技巧,尽可能让被调查者自由发挥,表达他的想法和感受。个别深度访问四、通讯法邮寄调查是指通过邮寄、宣传媒体等将调查问卷送至被调查者手中,由被调查者填写,然后将调查问卷寄回或投放到收集点的一种调查方法。这是一种标准化调查,调查者和被调查者没有直接的语言交流,信息的传递完全依赖于调查问卷。邮寄调查电话调查是指调查者利用电话与被调查者进行语言交流,从而获得信息的一种调查方法。该方法具有时效快、费用低等优点,故被广泛应用。进行电话调查时,可以按照事先设计好的问卷进行,也可以针对某一专门问题进行电话采访,但所提问题必须明确,而且数量不宜过多。电话调查网络调查是指利用互联网作为媒介的调查方法。调查者在网上发布问卷,被调查者通过网络完成调查。网络调查一般有三种途径:第一种是将问卷放置在WWW站点上,等待访问者访问时填写问卷;第二种是通过E-mail将问卷发送给被调查者,被调查者完成后将结果通过E-mail返回;第三种是主题调查法。网络调查五、实验调查法实验调查法是指通过某种实践活动的验证去收集有关资料的一种调查方法,现在广泛应用于社会科学领域。社会经济现象采用实验调查法是以社会为“实验室”,以实践为基础,常用于收集某种新产品、新工艺或新方法的使用效果的资料。采用实验调查法要注意三个问题:一是人的意愿,当研究对象是人时,若按随机原则划分实验组和对照组,会面临一些问题;二是心理问题,人们被调查时会非常敏感,这使得他们更加注意自我,从而走到事物的另一个极端;三是道德问题,当某种实验涉及道德问题时,人们会处于进退两难的尴尬境地。第一节统计调查概述第三节统计调查的方法第二节统计调查的组织方式第四节统计调查问卷一、调查问卷的类型按完成方式划分,调查问卷可分为自填式问卷和访问式问卷。其中,自填式问卷是指由被调查者自行填写、作答的问卷;访问式问卷是指由调查者当面或通过电话向被调查者提出问题,然后由调查者根据被调查者的回答来填写的问卷。按完成方式划分结构式问卷又称标准式问卷,是指按照调查目的和内容精心设计的具有结构的问卷;无结构式问卷是指问卷中的问题没有进行严格设计和安排,只是围绕研究目的提出问题,调查者在实施调查时,可根据实际情况适当变动问题和顺序。按结构划分按设置问卷的目的划分,调查问卷可分为主体问卷和甄别问卷。其中,主体问卷是指所设计的问题必须能表达主要调查内容的问卷;甄别问卷是指为了过滤调查对象而专门设计的问卷。按设置问卷的目的划分二、调查问卷的内容问卷的名称问卷前言调查甄别内容被调查者的基本情况二、调查问卷的内容问卷的主体内容问卷的编码问卷说明作业证明的记载第三章图表描述引导案例
260名毕业生就业意向的调查某财经大学学生就业指导处每年都要吸引许多企业来校园参加招聘工作洽谈会。为了吸引招聘企业工作的重点,就业指导处专门在应届毕业生中做了一项调查,询问每一位学生的就业意向,并获得表3-1所示的原始数据。
2010年世界人口的平均预期寿命为69.6岁,其中高收入国家及地区为79.8岁,中等收入国家及地区为69.1岁。可见,我国人口平均预期寿命不仅明显高于中等收入国家及地区,也大大高于世界平均水平,但比高收入国家及地区低5岁左右。从提高幅度看,2000~2010年我国人口平均预期寿命提高3.43岁,比世界平均提高2.4岁高1岁左右。一般来说,平均预期寿命越高,提高速度越慢。但随着医药技术的发展和改善,一些平均预期寿命已处于较高水平的国家同期提高的速度也比较快,如韩国提高4.9岁、新加坡3.6岁、巴西3.0岁、越南2.9岁、英国2.7岁、法国2.4岁、澳大利亚2.5岁、德国2.1岁等。第一节品质型数据的图表描述第三节双变量关系的图表描述第二节数值型数据的图表描述第四节运用SPSS进行图表描述第一节品质型数据的图表描述第三节双变量关系的图表描述第二节数值型数据的图表描述第四节运用SPSS进行图表描述一、单项式频数分布表表3-1中的原始数据涉及一个变量,即“就业意向”,这是一个定类变量,有5个变量值,即会计、金融、管理、营销、其他。尽管260个观测值之间存在差异,但这种差异并不是漫无边际的,它们分别归属5个不同变量值中的一个。如果先将260个观测值按所属变量值划分为5组,再汇总得出各组观测值的个数,原本大量、零散的原始数据就会在不损失任何原有细节的前提下得以简化,并显示出一种条理化的结构,如表3-2所示。观察表3-2中的数据,可以得出以下结论:260名应届毕业生中,就业意向倾向于会计的人数为76,占总人数的29.2%;倾向于金融的人数为54,占总人数的20.8%;倾向于管理的人数为33,占总人数的12.7%;倾向于营销的人数为68,占总人数的26.2%;其他为29人,占总人数的11.1%。二、条形图与饼形图绘制条形图时,通常以横轴表示变量及其分组,以纵轴表示频数。每个条形的长短代表该组频数的多少;条形的宽窄及各条形之间的间隔没有实际含义,考虑到图形美观和避免引起歧义,通常取相等的宽窄和间隔。条形图的纵轴也可以表示频率,采用频率所绘制的条形图与采用频数所绘制的条形图的整体形状没有差别。图3-1所示给出了260名毕业生就业意向的频数分布条形图。在饼形图中,整个圆的面积代表频数的100%,各个扇形的面积代表各组的频率。饼形图的扇形面积也可以表示频数,但在实际工作中,人们一般习惯于在条形图中采用频数,在饼形图中采用频率。图3-2所示给出了260名毕业生就业意向的频数分布饼形图。实际工作中,如果对各组频数高低的顺序感兴趣,还可以在条形图中重新排列各个条形的位置,如图3-3所示。图3-3称为帕累托图,它是按照各组频数高低排序绘制的条形图,由此图可以清楚地看到频数高低变化的整体情况。以上是围绕定类数据所介绍的图表描述方法,这些方法同样适用于定序数据。例如,为评价某城市的空气质量状况,研究人员在该城市中测定了300个采样点,并获得表3-3所示的测定结果。表3-3中的数据是定序变量数据,根据此数据所绘制的频数分布条形图及饼形图如图3-4和图3-5所示。表3-3中的数据是定序变量数据,根据此数据所绘制的频数分布条形图及饼形图如图3-4和图3-5所示。由于定序数据的取值是具有顺序性的,所以其频数分布表及频数分布图中的分组数据不可随意调换位置,分组次序的混乱意味着原始数据中的信息损失。对于定序数据,如果需要直接从表中读出某一变量以上或以下累积频数的多少,则需要在频数分布表的基础上进一步绘制累积频数分布表。累积频数的计算分为向上累积与向下累积两种情况,向上累积回答某一变量值以下的累积频数是多少,向下累积回答某一变量值以上的累积频数是多少。此外,还可以根据累积频数计算出累计频率,如表3-4所示。第一节第三节第二节第四节品质型数据的图表描述双变量关系的图表描述数值型数据的图表描述运用SPSS进行图表描述一、组距式频数分布表组距式频数分布表概述(一)如果数据中的变量值个数不是很多,可以参照与品质型数据相同的方法,以单个变量值作为分组标准来编制频数分布表。但在日常数据处理活动中所遇到的数值型数据,其变量值与观测值的个数往往很多,如果仍以单个变量值作为分组标准,最终得出的频数分布表就会由于组数太多而拖得很长,这样反倒不便于对频数分布状态进行整体性观察。例如,为科学考核教学效果,任课教师每学期期末都要对自己所担任课程的学生考试成绩进行统计分析。表3-5所示为某班级60名学生统计学课程的期末考试成绩数据。表3-5中共有60个观测值,其变量值个数多达31个。若以单个变量值来确定组别,就会有31组,组数太多,已经失去了用来进行整体性观察的意义。实践中,规模比较大、变量值个数比较多的数值型数据采用组距式频数分布表,能够更好地概括显示频数分布状态。表3-6是根据表3-5中的原始数据所编制的组距式频数分布表,该表概括地描述了60名学生统计学课程期末考试成绩的频数分布状态。一般来讲,学生期末考试成绩的频数分布呈现出“两头小,中间大”的特征是合理的。组距式频数分布表不是以单个变量值来确定组别,而是以表示一定取值范围的两个变量值来确定组别,并以此为标准进行各组频数的汇总。在组距式频数分布表中,每一组较小的那个变量值称作该组的下限;较大的那个变量值称作该组的上限;下限与上限之间的距离称作该组的组距;下限与上限之间的中点距离称作该组的组中值。组距式频数分布表具有很强的概括性,无论数据规模多大,都可以通过组距的延伸加以分组和汇总。但它也有一个严重的缺陷,即组距越大,原始数据中的细节损失就越多。组距式频数分布表的编制步骤(二)确定组数时应以能够充分显示频数分布的整体特征为原则。组距过长,组数过少,会损失原始数据中的大量细节;组距过短,组数过多,又不便于对数据的频数分布特征进行整体性观察。在实际工作中,很难找到一个确定组数的可操作的客观标准,数据分析人员往往根据自身的经验来确定组数。表3-6中将数据分为5组,从整理的结果上看,还是比较直观地显示了频数分布的整体特征。确定组数1在表3-5的原始数据中,最大观测值为99,最小观测值为51,如果组数确定为5,则各组的组距,四舍五入,组距可确定为10。确定组距2有了组距之后,只要确定了最小组的下限,则其余各组的组限也将随之确定。确定最小组的下限也带有一定的主观性,但必须遵循一个重要原则:最小组的下限必须包含数据中的最小观测值。考虑到表3-5数据中的最小观测值为51,组距为10,可将最小组的下限确定为50。于是,各组的组限依次为“50~60”“60~70”“70~80”“80~90”“90~100”。实践中所遇到的数值型变量多为连续型的,对于连续型变量数据来说,任何两个变量之间都存在着无数个可能的观测值,为避免频数汇总过程中的遗漏,相邻两组之间,较小组的上限应当与较大组的下限重合。例如,在“60~70”与“70~80”两组之间,较小组的上限“70”与较大组的下限“70”是重合的。对于离散型数据,则没有这种硬性规定。确定组限3频数汇总过程中要遵循“不重不漏”的原则。其中,“不重”是指同一个观测值在频数汇总过程中不能重复统计;“不漏”是指原始数据中的全部观测值必须包含在最小组的下限与最大组的上限所界定的范围之内。例如,如果某一观测值为80,则不得在“70~80”与“80~90”两组中同时统计频数。实际工作中一般遵循“上限不计入本组内”的原则,即取值为80的观测值要计入以80为下限的“80~90”这一组的频数之内,而不应计入以80为上限的“70~80”这一组的频数之内。频数汇总4频数汇总4二、直方图组距式频数分布表所描述的频数分布状态可以通过直方图更为直观地显示出来。图3-6所示即为根据表3-6绘制的60名学生统计学课程期末考试成绩频数分布直方图。直方图是直接根据组距式频数分布表绘制出来的,通常以横轴表示变量分组,纵轴表示各组的频数。直方图与条形图的形状类似,但两者之间有着本质区别。条形图的宽窄是没有含义的,直方图的宽窄则表示各组的组距;制作条形图时,通常要使各个条形之间保持一定的间隔,在直方图中各组之间则是没有间隔的。直方图是以面积来显示数据的,当某一组的频数为零时,代表该组数据的条形高度为零。相应地,条形面积也为零。为强调频数分布的整体特征,还可以在直方图的基础上进一步加工制作出频数分布折线图或曲线图。折线图是将直方图中各个条形上端的中点用直线连接起来所形成的图形,它可以通过折线与横轴所围成的面积来显示数据。图3-7所示是根据图3-6的直方图所绘制的折线图。假定数据规模无限扩大,同时组距无限缩小,而组数又无限增多,那么折线图就将趋近于一条平滑的曲线,从而形成频数分布曲线图。图3-8所示是根据图3-6的直方图所绘制的曲线图。三、盒形图盒形图也称箱线图,是利用数据中的最小观测值、下四分位数、中位数、上四分位数和最大观测值五个统计量来描述数据的方法。将数据中的全部观测值按照从小到大的顺序排成一列,处于第一位置上的观测值即为该数据的最小观测值;处于第1/4位置上的观测值即为下四分位数;处于第1/2位置上的观测值即为中位数;处于第3/4位置上的观测值即为上四分位数;处于最后位置上的观测值即为该数据的最大观测值。依此定义,可得表3-5中的五个统计量分别为51、67、72.5、79、99,据此可绘制出60名学生统计学课程期末考试成绩频数分布盒形图,如图3-9所示。图3-9中,方盒的左侧边界对应下四分位数,右侧边界对应上四分位数。从下四分位数到上四分位数之间的距离称为四分位差,也就是说,方盒的宽窄代表四分位差的大小。方盒内的竖线对应中位数。四、茎叶图叶图又称枝叶图,其基本思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面有几个数,每个数具体是多少。图3-10是根据表3-5中的数据所绘制的频数分布茎叶图。茎叶图包括“茎”与“叶”两个要素。图3-10中竖向排列的茎,显示各个观测值的十位数;对应每一节茎向右横向排列的叶,显示各个观测值的个位数。图形右侧由全部观测值的个位数堆积形成的外部轮廓线,正好显示了频数分布的整体特征。与此同时,原始数据的全部细节并没有任何损失。五、频数分布的类型钟形分布(一)这是最常见的频数分布类型,其频数分布的图形轮廓好像一座倒扣过来的钟,呈现出“两头小,中间大”的特征。变量的取值越靠近中间,频数就越高;越靠近两边,频数就越低。钟形分布又可分为正态分布、左偏分布和右偏分布三种情况,如图3-11所示。五、频数分布的类型
U形分布(二)U形分布的特征刚好与钟形分布相反,变量的取值越靠近中间,频数越低;越靠近两边,频数越高。频数分布的图形轮廓好像字母“U”,如图3-12所示。五、频数分布的类型
J形分布(三)J形分布的特征是:随着变量取值的增大或减小逐渐增高,频数分布的图形轮廓像字母“J”。J形分布又可分为正J形分布和反J形分布两种情况,如图3-13所示。第一节第三节第二节第四节品质型数据的图表描述双变量关系的图表描述数值型数据的图表描述运用SPSS进行图表描述一、交叉频数分布图若要通过图形来观察两个品质型变量之间的关系,可以根据样本数据绘制交叉频数分布图。例如,为开展诺基亚、摩托罗拉、爱立信、三星四种品牌手机的广告设计活动,广告公司经理需要知道四种品牌手机在学生群体中的市场占有情况。为此,专门针对不同身份的学生进行了一次关于手机使用情况的调查。被调查的学生需要回答他们愿意购置哪种品牌的手机,并说明他们是初中生、高中生还是大学生。调查获得的数据如表3-8所示。表3-8是由原始数据加工整理所获得的一个交叉频数分布表,涉及手机品牌与使用者身份两个品质型变量。观察表中的数字,可以得出有关手机市场占有情况的初步判断。若要进一步观察两个变量之间的内在关联情况,可以绘制交叉频数分布图,如图3-14所示。从图3-14中可以清楚地看到,初中生、高中生和大学生手机使用者在不同品牌手机中的分布是有所差异的。交叉频数分布图实际上是对单变量条形图的一种组合应用,借助此图可以直观地观察两个品质型数据的交叉频数分布情况。二、散点图某家具销售商认为家具销售与住宅面积密切相关,为证实这一想法,专门收集了其所在地区近10年来的相关统计数据,如表3-9所示。表3-9中的数据涉及新增住宅面积与家具销售额两个数值型变量,仅观察数字,难以对两个变量之间的关联性作出明确判断。此时,可以用散点图加以描述。散点图是通过样本数据判断两个变量之间关联性的图形工具,适用于描述两个数值型变量之间的关系。图3-15所示是根据表3-9中的数据所绘制的散点图。图3-15中的横轴表示新增住宅面积的取值,纵轴表示家具销售额的取值,这两个变量在样本数据中的每一对取值决定了图中的一个点。观察这些点的分布状况,可以帮助判断和把握两个变量之间的关系类型及其相互关联的密切程度。从图3-15中不难看出,新增住宅面积与家具销售额之间具有一种正向的线性关联,各点整体上沿着一条向上的直线上下波动。散点图具有一个明显的优点,就是在图形的绘制过程中没有损失原始数据的任何细节。取每个点在横轴和纵轴上的投影,即可重新完整获得原始数据。第一节第三节第二节第四节品质型数据的图表描述双变量关系的图表描述数值型数据的图表描述运用SPSS进行图表描述一、运用SPSS制作简单频数分布表根据260名毕业生就业意向调查数据制作单项频数分布表的主要操作步骤如下:(1)打开表3-1对应的SPSS数据集“data3.1”。在SPSS菜单栏中选择【Analyze】→【DescriptiveStatistics】→【Frequencies】菜单命令,弹出如图3-16所示的“Frequencies”对话框。(2)选择变量“就业意向[jyyx]”,单击按钮,将其移到“Variable(s)”列表框中。选中“Displayfrequencytables”复选框,单击【OK】按钮。系统输出260名毕业生就业意向单项频数分布表,如图3-17所示。二、运用SPSS制作条形图根据260名毕业生就业意向调查数据制作频数分布条形图的主要操作步骤如下:(1)打开表3-1对应的SPSS数据集“data3.1”。在SPSS菜单栏中选择【Graphs】→【LegacyDialogs】→【Bar...】菜单命令,系统弹出如图3-18所示的“BarCharts”对话框。(2)单击【Define】按钮,系统弹出如图3-19所示的“DefineSimpleBar”对话框。(3)选择变量“就业意向[jyyx]”,单击第二个按钮,将其移到“CategoryAxis:”列表框中,单击【OK】按钮。系统输出260名毕业生就业意向频数分布条形图,如图3-20所示。三、运用SPSS制作饼形图根据260名毕业就业意向调查数据制作频数分布饼形图的主要操作步骤如下:(1)打开表3-1对应的SPSS数据集“data3.1”。在SPSS菜单栏中选择【Graphs】→【LegacyDialogs】→【Pie…】菜单命令,系统弹出如图3-21所示的“PieCharts”对话框。四、运用SPSS制作直方图根据60名学生统计学课程的期末考试成绩数据制作直方图的主要操作步骤如下:(1)打开表3-5对应的SPSS数据集“data3.5”。在SPSS菜单栏中选择【Graphs】→【LegacyDialogs】→【histogram…】菜单命令,系统弹出如图3-24所示的“histogram”对话框。(2)选择变量“期末成绩[qmcj]”,单击第一个按钮,将其移到“Variable:”列表框中,单击【OK】按钮。系统输出60名学生统计学课程的期末考试成绩频数分布直方图,如图3-25所示。需要指出的是,可以根据实际需要对SPSS输出结果的坐标轴刻度、背景色、分组数进行相应的调整。五、运用SPSS制作盒形图根据60名学生统计学课程的期末考试成绩数据制作盒形图的主要操作如下:(1)打开表3-5对应的SPSS数据集“data3.5”。在SPSS菜单栏中选择【Graphs】→【LegacyDialogs】→【Boxplot…】菜单命令,系统弹出如图3-26所示的“Boxplot”对话框。(2)在“DatainChartAre”栏内选择“Summariesofseparatevariables”单选按钮,单击【Define】按钮,系统弹出如图3-27所示的“Definesimpleboxplot:summariesofseparatevariables”对话框。(3)选择变量“期末成绩[qmcj]”,单击第一个按钮,将其移到“BoxesRepresent:”列表框中,单击【OK】按钮。系统输出60名学生统计学课程的期末考试成绩频数分布盒形图,如图3-28所示。六、运用SPSS制作茎叶图根据60名学生统计学课程的期末考试成绩数据制作茎叶图的主要操作步骤如下:(1)打开表3-5对应的SPSS数据集“data3.5”。在SPSS菜单栏中选择【Analyze】→【DescriptiveStatistics】→【Explore】菜单命令,系统弹出如图3-29所示的“Explore”对话框。(2)选择变量“期末成绩[qmcj]”,单击第一个按钮,将其移到“DependentList:”列表框中。在“Display”栏内选中“Plots”单选按钮,单击【Plots…】按钮,系统弹出如图3-30所示的“Explore:Plots”对话框。(3)在“Boxplots”栏内选择“None”单选按钮,在“Descriptive”栏内选择“Stem-and-leaf”复选框,依次单击【Continue】和【OK】按钮。系统输出60名学生统计学课程的期末考试成绩频数分布茎叶图,如图3-31所示。七、运用SPSS制作交叉频数分布表和交叉频数分布图针对表3-8中四种品牌手机在学生手机市场占有情况的调查数据制作交叉频数分布图的主要操作步骤如下:(1)打开表3-8对应的SPSS数据集“datd3.8”。在SPSS菜单栏中选择【Data】→【WeightCases】菜单命令,系统弹出如图3-32所示的“WeightCases”对话框。在此对话中选中“Weightcasesby”单选按钮,并选择变量“交叉频数[f]”,单击按钮,将其移到“FrequencyVariable”列表框中,然后单击【OK】按钮。此项操作是一个赋权过程,适用于已分组数据集的操作。如果是未分组的数据集,则无须此项操作。(2)在SPSS菜单栏中选择【Analyze】→【DescriptiveStatisties】→【crosstabs…】菜单命令,系统弹出如图3-33所示的“Crosstabs”对话框。(3)选择变量“手机品牌[sj]”,单击第一个按钮,将其移到“Row(s):”列表框中;再选择变量“学生身份[xs]”,单击第二个按钮,将其移到“Column(s):”列表框中。系统输出如图3-34所示的交叉频数分布表和如图3-35所示的交叉频数分布图。八、运用SPSS制作散点图根据表3-9中的某地区近10年新增住宅面积与家具销售额数据制作散点图的主要操作步骤如下:(1)打开表3-9对应的SPSS数据集“data3.9”。在SPSS菜单栏中选择【Graphs】→【LegacyDialogs】→【Scatter/Dot…】菜单命令,系统弹出如图3-36所示的“Scatter/Dot”对话框。(2)选中“SimpleScatter”选项,并单击【Define】按钮,系统弹出如图3-37所示的“SimpleScatterplot”对话框。(3)选择变量“新增住宅面积[x]”,单击第二个按钮,将其移到“XAxis:”列表框中,再选择变量“家具销售额[y]”,单击第一个按钮,将其移到“YAxis:”列表框中,单击【OK】按钮,系统输出新增住宅面积与家具销售额散点图,如图3-38所示。第四章描述性统计量引导案例
100袋食品重量的统计资料某食品加工厂新增一条可以自动封装袋装食品的生产线。每袋食品的重量是50克,过于偏离这个标准,即被视为不合格品。为检验生产线的运转状况,质检人员随机从生产线上抽取了100袋食品,测得的重量数据如表4-1和图4-1所示。观察图4-1可知,100袋食品的重量存在差异,有的偏大一些,有的偏小一些,整体上呈现出一种离散状态;但这种离散又不是没有限度的,靠近中间的重量频数较高,偏离中间的重量则频数逐渐降低,整体上具有向中间某一确定位置集中的趋势;频数分布整体形态并不是完全对称的,而是略有向右侧偏斜的倾向;从集中速度的变化上看,左侧从第二组开始速度加快,右侧从第三组开始速度加快,从而使频数分布图的形状开始变得陡峭起来。
观察频数分布图,有助于对频数分布趋于集中的位置、离散程度的大小、分布图的对称性及集中速度变化的快慢形成粗略的判断,但远未达到精确的测定。集中位置在哪里?离散程度有多大?是否对称?偏斜了多少?集中速度变化是快还是慢?这些问题单凭肉眼观察是无法解决的,因此需要一种尺度,用以测量频数分布所表现出来的上述特征,这在数据处理活动中就形成了一系列描述性统计量的计算。第一节第三节第二节第四节集中趋势描述性统计量分布形态描述性统计量离散程度描述性统计量运用SPSS进行统计量描述第一节集中趋势描述性统计量第三节分布形态描述性统计量第二节离散程度描述性统计量第四节运用SPSS进行统计量描述一、均值均值反映了同类现象在特定条件下所达到的平均水平。将数据中的全体观测值求和,再除以观测值的个数,即可得到该数据的均值,记作。其计算公式如下:
式中,n代表样本量,即观测值的个数;代表第i个观测值。根据式,可计算表4-1中100袋食物重量样本数据的均值:
均值是用算术平均的方法,将各个观测值之间的差异抽象化,从而测定数据分布趋于集中的具体位置,同时也给出了全体观测值的一个代表性水平。实践中可能遇到各种形式的数据,计算均值时要注意根据具体情况灵活变通地加以运用。如果用代表分组的变量值,代表各组频数,可总结出分组数据计算均值的公式如下:尽管式(4-2)是根据式(4-1)变换而来的,但它在统计计算中已经从形式上被固定下来,称为加权均值。通过观察可知:如果将式中的看作被平均对象,则对平均的结果起着权衡轻重的作用,哪一个变量值所对应的频数大,计算结果就有向其靠近的倾向。因此,频数在公式中又被称作权数。如果数据未被分组,则每一个被平均对象所对应的权数就是相等的,即都为1,此时加权均值的公式就会转换为原来的形式比较简单的均值定义公式。所以,也可以将式(4-2)看作是均值的一个代表性公式。此外,在式(4-1)中,假如被平均对象xi的变化是均匀或对称的,则公式又可进一步简化为:式(4-3)称作中距,式中的代表最小的观测值,代表最大的观测值。式(4-1)(4-2)和(4-3)是计算均值的三种不同形式的公式,但它们所反映的内容是完全一致的。在一定条件下,三者之间可以互相转换,因此它们在实践中经常是结合起来运用的。均值计算公式有两个重要的数学性质:第一,所有观测值与其均值的离差之和等于0,即
;第二,所有观测值与其均值的离差平方和最小,即最小。第一个数学性质表明,全体观测值与均值的正负离差可以相互抵消,从而使均值处于一个具有充分代表性的平衡的位置上;第二个数学性质表明,均值实现了与全体观测值之间的最佳拟合,全体观测值与任意一个不是均值的数值的离差平方和都要大于均值的离差平方和。均值的这两个数学性质从数理上说明了其作为全体观测值代表性水平的合理性,也正是由于这个原因,才使得均值成为最重要也是最常用的集中趋势描述性统计量。二、中位数将全体观测值按照从小到大的顺序排成一列,处于中间位置的观测值就是该数据的中位数,记作。例如,9个家庭的人均月收入原始数据如表4-4所示,排序结果如表4-5所示。由表4-5可知,中位数为排序后的第5个观测值,即1180元。由此可见,计算中位数的关键是确定其所在位置。当观测值个数n为奇数时,中位数的位置为
;当观测值个数n为偶数时,可采用以下公式计算中位数:同理,可计算出表4-1中100袋食品重量样本数据的中位数为51克。三、众数尽管根据同一数据所计算出来的均值、中位数和众数可能略有差异,但都不失为寻找和确定数据分布集中位置的合理方法。均值是通过计算得出的,中位数与众数则是通过寻找特定位置而确定下来的。因此,均值通常被称为计算平均数,而中位数与众数则被称为位置平均数。全体观测值都参与了均值的运算,因此,一般情况下均值要比中位数和众数具有更好的综合性。然而,均值的这一优点同时却又是它的缺点,当数据中存在偏大或偏小的极端值时,均值的计算结果也将随之偏大或偏小,这样反倒会降低其代表性。中位数与众数都是由位置确定的,因此不受极端值的影响。数据分布集中趋势明显并存在偏斜情况时,中位数与众数有时比均值更具有说服力。因此,在数据处理活动中,均值、中位数和众数通常都是视具体情况而相互参照使用的。可以这样来概括:均值是全体观测值的重心,中位数是全体观测值的中心,众数是全体观测值的重点。四、均值、中位数和众数的比较不同观测值在样本数据中出现的次数是不尽相同的,出现次数最多的观测值就是该数据的众数,记作。例如,在表4-2所示的车间工人日产零件数的数据中,日产零件数为7件的人数最多,为50人,因此7件就是该数据的众数。需要注意的是,一个样本数据中有时可能有不止一个众数。例如,在表4-6所示的球员身高数据中,出现次数最多的观测值有两个,即178cm和188cm,因此该数据有两个众数。另外,一个样本数据中有时可能没有众数。例如,在表4-4所示的9个家庭人均月收入的数据中,每个观测值都只出现了一次,因此该数据没有众数。因此,在实际数据处理活动中,众数一般只适用于数据规模较大且具有明显集中趋势的情况。在表4-1所示的数据中,经过清点可以确定,出现次数最多的观测值是53克,因此该数据的众数为53克。此外,在钟形分布下,均值、中位数和众数之间一般还具有以下比较确定的关系:对称分布下,均值=中位数=众数;左偏分布下,均值<中位数<众数;右偏分布下,均值>中位数>众数,如图4-3所示。经验表明,频数分布偏斜程度较低时,三者之间的关系大体为:。第一节集中趋势描述性统计量第三节分布形态描述性统计量第二节离散程度描述性统计量第四节运用SPSS进行统计量描述一、极差、四分位差与平均差极差(一)极差是指数据中的最大观测值与最小观测值之差,记作R。其计算公式为:(4-5)式中,和分别代表最大观测值与最小观测值。根据式(4-5),表4-1中100袋食品重量的最小观测值为40克,最大观测值为61克,所以该数据的极差为21克。极差给出了全体观测值的最大变动范围,一般情况下,极差越大,表明频数分布的离散程度越大。极差计算简便、含义直观,通常情况下也可以说明离散程度大小的问题,但极少被单独使用,这主要是因为其计算过程仅仅是基于数据中的两个特殊观测值,所以极易受极端值的影响。一旦最小观测值过小或最大观测值过大,就会出现夸大离散程度的情况。四分位差(二)四分位差就是数据中的上四分位数与下四分位数之差,记作。其计算公式为:
(4-6)式中,和分别代表上四分位数和下四分位数。将全体观测值按照从小到大的顺序排成一列,处于第1/4位置上的观测值就是该数据的下四分位数,处于第3/4位置上的观测值就是该数据的上四分位数。与确定中位数的方法类似,确定下四分位数位置的公式为:(4-7)确定上四分位数位置的公式为:(4-8)四分位差的计算1将全体观测值按照从小到大的顺序排成一列,则中位数将该数列分成数量相等的两组数。当观测值个数n为奇数时,每组有个数,为第一组个数的中位数,为第二组个数的中位数;当观测值个数n为偶数时,每组有个数,为第一组个数的中位数,为第二组个数的中位数。当数据量很大时,可应用Excel统计函数中的QUARTILE(array,quart)函数计算四分位数。其中,array参数用于指定要计算四分位数值的数组或数值型单元格区域;quart参数用于指定返回哪一个四分位值,其可取值为0(返回最小值)、1(返回第一个四分位数,即下四分位数)、2(返回第二个四分位数,即中位数)、3(返回第三个四分位数,即上四分位数)、4(返回最大值)。依照上述说明,表4-1中100袋食品重量的下四分位数为47克,上四分位数为53.75克,因此该数据的四分位差为6.75克。四分位差的计算1四分位差给出了全体观测值中处于中间位置的50%观测值的变动范围。一般情况下,四分位差越大,表明中间50%观测值的离散程度越大,从而间接地反映出数据整体的离散程度也越大。四分位差避免了极差的缺陷,不再受最大观测值与最小观测值极端情况的影响。而且,由于中位数处于上下四分位数之间,所以它能够在一定程度上说明中位数代表性的强弱。但由于四分位差也是基于数据中的两个特殊观测值而得出的,所以它与极差一样,缺乏对全体观测值离散状态的全面概括能力。四分位差的作用2平均差(三)平均差是各个观测值与其均值离差的绝对值的均值,记作。其计算公式为:表4-1中100袋食品重量的均值为50.76克,根据式(4-9)计算100袋食品重量的平均差为:(4-9)平均差以均值作为衡量各个观测值离散程度的标准,计算出各个观测值相对于均值的离差并取绝对值,再就离差绝对值取均值,其计算结果可理解为全体观测值相对于均值的平均离散程度。与极差和四分位差相比,平均差全面而完整地反映了数据整体离散程度的高低,应当说,已经算是比较完美的尺度了,但由于其计算过程中包含着取绝对值的步骤,这非常不便于进一步的数学推导,所以仍有加以改进的必要。二、方差与标准差样本方差与标准差(一)样本方差是各个观测值与其均值离差平方的均值,记作。其计算公式为:
(4-10)根据式(4-10),计算表4-1中100袋食品重量样本数据的方差为:这一计算结果也可以理解为全体观测值相对于均值的平均离散程度。样本方差保持了平均差全面而完整的优点,又通过取离差平方的方式避免了取绝对值的过程,因而方便了今后的数学推导。如果仅仅是单纯描述样本数据的离散程度,以离差平方和除以样本量n来计算样本方差也是合理的。但如果要以样本方差来推断总体方差,则分母必须取样本自由度。因为,数理统计的研究表明,分母为自由度的样本方差是总体方差的无偏估计量;而分母为样本量n的样本方差则是有偏的。有关这方面的具体内容,请参见第五章参数估计。样本标准差是样本方差的平方根,记作s。其计算公式为:根据式(4-11),表4-1中100袋食品重量样本数据的标准差为:
(4-11)总体方差与标准差(二)计算样本方差或样本标准差,有时是为了估计总体方差或总体标准差。总体方差是用以描述总体数据离散程度的参数。其计算公式为:(4-12)式中,代表总体方差;代表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度学校教师学生国际交流与合作聘用合同3篇
- 二零二五年度信息技术产品软件售后服务合同书模板2篇
- 2025年度个人法律咨询委托书范本4篇
- 二零二五年度厨房电气设备安装与维护承包协议4篇
- 2025版实习合同模板:实习期间解约与补偿3篇
- 二零二五版旧机动车交易车辆售后配件供应合同3篇
- 2025版实习期员工劳动合同-实习期间合同解除与续签3篇
- 二零二五年度商业写字楼租赁合同样本
- 二零二五年度外语翻译公司兼职外教资源合作与管理合同
- 2025版投资框架协议模板下载与投资法律法规咨询3篇
- 反骚扰政策程序
- 运动技能学习与控制课件第十一章运动技能的练习
- 射频在疼痛治疗中的应用
- 四年级数学竖式计算100道文档
- “新零售”模式下生鲜电商的营销策略研究-以盒马鲜生为例
- 项痹病辨证施护
- 职业安全健康工作总结(2篇)
- 怀化市数字经济产业发展概况及未来投资可行性研究报告
- 07FD02 防空地下室电气设备安装
- 教师高中化学大单元教学培训心得体会
- 弹簧分离问题经典题目
评论
0/150
提交评论