[数学]统计方法_第1页
[数学]统计方法_第2页
[数学]统计方法_第3页
[数学]统计方法_第4页
[数学]统计方法_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计方法第一章统计和数据第一节 统计学的含义一.什么是统计学统计学是一门研究数据的科学,按大百科全书的定义:统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据分两种:描述统计和推断统计描述统计是研究数据搜集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。统计描述是指对由实验或调查而得到的数据进行登记、审核、整理、归类、计算出各种能反映总体数量特征的综合指标,并加以分析,从中抽出有用的信息,用表格或图像把它表示出来。是统计研究的基础。它通过对分散无序的原始资料

2、的整理归纳,运用分组法和综合指标法得到现象总体的数量特征,揭露客观事物内在数量规律性,达到认识的目的。分组法是研究总体内部差异的重要方法,通过分组可以研究总体中不同类型的性质以及它们的分布情况综合指标法是指运用各种统计指标来反映和研究客观总体现象的一般数量特征和数量关系的方法统计模型法是综合指标法的扩展。它是根据一定的理论和假定条件,用数学方程去模拟现实客观现象相互关系的一种研究方法。推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。所谓统计推断就是以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理的方法。统计推断是逻辑归纳法在统计推理的

3、应用,所以称为归纳推理的方法。(1)参数估计法:当总体的界限已划定,总体某一数量特征(如总体平均数、方差等)的数值就是唯一确定的,所以把总体的数量特征称为总体参数。但是总体参数通常不知道,这就需要通过样本数据计算样本统计量,并以此作为总体参数的估计量来估计总体参数的取值或取值区间,这种方法称之为参数估计法。(2)假设检验法:假设检验的特点是,由于对总体的变化情况不了解,不妨先对总体的状况作某种假设,然后根据样本实际观察的资料对所作假设进行检验,来判断这种假设的真伪,以决定行动的取舍。假设检验的方法是统计推断常用的方法。二统计的应用(一)统计的应用领域统计是适用于所有学科领域的通用数据分析方法,

4、是一种通用的数据分析语言。(二)统计的误用与滥用统计常常被人们有意或无意地滥用。如,错误的统计定义、错误的图表提示、一个不合理的样本、数据的遗漏或逻辑错误等。这些误用有些是常识性的,有些是技术性的,有些则是故意的。作为从数据中寻找事实的统计,却被有人变成了歪曲事实的工具。第二节 数据类型统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时,可以从不同的角度进行采集,从而得到不同类型的数据。一变量与数据变数或变量,是指没有固定的值,可以改变的数。变量的具体数值称为变量值,即数据。统计数据就是统计变量的具体表现。二数据类型(一)定性变量(数据)与定量变量(数据)1.定性变量

5、:反映“职业”、“教育程度”等现象的属性特点的变量,不能说明具体量的大小和差异。分类变量:没有量的特征,只有分类特征。这种只反映现象分类特征的变量又称分类变量。分类变量的观测结果就是分类数据。说明事物类别的一个名称。如“性别”就是一个分类变量。顺序变量:如果类别具有一定的顺序,如,“教育类别”,这样的变量称为顺序变量,相应的观察结果就是顺序数据。说明事物有序类别的一个名称,这类变量的具体表现就是顺序数据。2.数值(定量)变量:反映“天气温度”、“月收入”等变量可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。这些变量就是定量变量也称数值变量,定量

6、变量的观察结果成为定量数据。说明事物数字特征的一个名称。分类变量没有数值特征,所以不能对其数据进行数学运算。分类数据只能用来区分事物,而不能用来表明实物之间的大小、优劣关系。顺序变量比分类变量向前进一步,它不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。显然,顺序数据的功能比分类数据要强一些,对事物的划分也更精细一些。但顺序数据的数据之间虽然可以比较大小,却无法计算相互之间的大小、高低或优劣的距离。只是反映事物在性质上的差异,而不能用来反映事物在数量上的差异。因此,从本质上,顺序数据仍然是定性数据中的一种。数值型数据作为统计研究的主要资料,其特征在于它们都是以数

7、值的形式出现的,有些数值型数据只可以计算数据之间的绝对差,而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差。其计量精度远远高于定性数据。在统计学研究中,对数值型数据的研究是定量分析的主要内容。从上述三种数据的基本特点可以看出,这三类数据对事物的描述是由定性到定量、由低级到高级,从粗略到精细。在统计研究中,需要明确各种数据所适用的统计方法,正确的选择和应用,这是正确进行统计研究的基本要求。(二)观测数据和实验数据按获取数据的方法不同,可分为观测数据和实验数据。观测数据可能是全面数据也可能是样本数据(局部),实验数据一般都是样本数据。1. 观测数据。观测数据是对客观现象进行

8、实地观测所取得的数据,在数据取得的过程中一般没有认为的控制和条件约束。在社会经济问题研究中,观测是取得数据最主要的方法。2. 实验数据。实验数据一般是在科学实验环境下取得的数据。在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。在自然科学研究中实验的方法应用非常普遍。 第三节 数据来源与搜集数据的方法一数据的来源从使用者的角度看,统计数据资料的来源主要有两种渠道:一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称为原始或第一手统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称为次级数据或第二手间接的统计数据。一切间接的

9、统计数据都是从原始的、第一手数据过渡而来的。(一) 数据的直接来源原始数据搜集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行实验就是统计数据的直接来源。1. 统计调查统计调查是指根据统计研究预定的目的、要求和任务,运用科学的方法,有计划、有组织地向客观实际搜集资料的过程。通过统计调查得到的数据,一般称为观测数据。2. 实验法实验法是直接获得统计数据的又一重要来源。通过实验法得到的数据就是实验数据。实验法不仅是一种搜集数据的方式,也是一种重要的研究方式。它是通过有意识地改变或控制某些输入变量,观察其他输出变量的变化,从而达到对事物本质或相互联系的认识。未来观察对输入变量的控制是否

10、导致了输出变量的改变,在实验中,往往需要将研究对象分为两个组,一个是实验组,一个是对照组,对实验组的输入变量加以控制或改变,而对照组则不加控制,根据两组的输出结果,可以看到输入变量对输出变量的影响。运用实验法要注意的是:首先,实验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到实验组或对照组,而不应是经过有意识的挑选的。其次,实验组和对照组还应当匹配的,也就是研究对象的背景资料应当是大体相同的,至少不要差异太大。不论是统计调查还是实验,所搜集的数据都是原始数据,这是统计数据最基本的来源。(二)数据的间接来源次级数据虽然统计数据的搜集主要是指对原始数据的搜集,后面介绍的统计调查

11、的方法也是围绕搜集原始资料展开的,但数据的收集实际上不仅包括对原始数据的收集也包括对次级数据(第二手收据)的收集,在很多情况下,统计研究都是在掌握次级数据的基础上进行的。次级数据是指由其他人搜集和整理得到的统计数据。这种来自他人调查整理基础上的数据我们把它称为数据的间接来源。数据的间接来源有:(1)公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校、科研机构。(2)尚未公开发表的统计数据,如各企业的经营报表数据、专业调查咨询机构为公开发布的调查结果数据。需注意的是,如果公开引用未公开发表的数据需要征得数据所有者的同意,同时要为自己发布的数据负责。恰当地运用间接数据在实际中往往能够节约

12、时间和费用,取得较好的成果和效益,因此,成为许多统计研究人员在进行实证分析时的首选数据来源。但在应用时要注意:(1)是否了解并正确理解了间接数据中变量的含义、计算口径、计算方法,以防止误用、错用他人的数据。(2)引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权。二搜集数据的方法统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织第搜集统计数据资料的过程。常用的统计调查种类有:(一) 普查普查:普查是专门组织一次性的全面调查,用来调查属于一定时点或时期内的社会经济现象的总量。它适用于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。如,人口普

13、查、农业普查、经济普查、全国第三产业普查等。普查的特点:它是一种全面调查,具有资料包括范围全面、详尽、系统的优点;它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一般不宜经常举行。普查要遵循以下几点:a确定普查的标准时间:普查的标准时间是指登记调查单位项目所依据的统计时点。所有的调查资料都必须是反映这一时点上的情况。例如,我国第四人口普查,1990年7月1日零时为普查登记的标准时点。凡是在这个时点以前死亡和这个时点以后出生的,都不能计入这次普查的人口数内。这样才可避免所登记重复或遗漏。b普查的登记工作应在整个普查范围内同时进行,以保证普查资料的实效性、准确性,避免资料的搜集工

14、作拖的太久c同类普查的内容和时间在历次普查中应尽可能保持连贯性。普查的组织形式有两种:一种是组织专门的普查机构,派专门的调查人员对被调查单位直接进行登记;另一种是利用一定的组织系统,由被调查单位根据本单位的原始记录和实际情况,填写调查表,然后上报。(二) 抽样调查抽样调查:抽样调查是按随机原则,从总体中抽取一部分单位作为样本来进行观察,并根据其观察的结果来推断总体数量特征的一种非全面调查方法。抽样调查具有的特点:第一,样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响。第二,能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断,从而达到对调查总体的认识。第三,在抽样调查中会存在

15、抽样误差,但是这个误差可以事先计算并加以控制。随机抽样一般是指每个总体单位都有同等被抽中的机会,但是在实际调查中,并不完全是这种情况。通常采用的抽样组织形式主要有以下几种:a.简单随机抽样:又称纯随机抽样,它是指对总体不作任何处理,不进行分类也不进行排除,而是完全按随机的原则,直接从总体中抽取样本单位加以观察。从理论上说,是最符合抽样调查的随机原则,是抽样调查的最基本形式。具体方法有:直接抽选法、抽签法和随机数表法。b分层抽样:又称类型抽样或分类抽样。是先将总体各单位按主要标志加以分层,而后在各层中按随机的原则抽取若干样本单位,由各层的样本单位组成一个样本。c等距抽样:又称机械抽样或系统抽样。

16、它是将总体全部单位按某一标志排队,而后按固定的顺序和相等间隔在总体中抽取若干样本单位,构成一个容量为n的样本。d整群抽样:是将总体各单位划分为若干群,然后以群为单元,从总体中随机抽取一部分群,对被抽中的群内所有单位进行全面调查。整群抽样对总体划分群的基本要求是:第一,群与群之间不重叠,即总体中的任一单位只能属于某个群;第二,全部总体单位毫无遗漏,即总体中的任一单位必须属于某个群。e多阶段抽样:当总体很大时,可把抽样过程分成几个过渡阶段,到最后才具体抽到样本单位。(三) 统计报表统计报表制度:它是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法等)自下而上的提供统计资料的一种报表制度。

17、在官方统计的经常调查中目前依然发挥着一定的作用。按照报送范围,统计报表分为全面报表和非全面报表。按报送周期,统计报表主要有月报、季报、年报组成,月报内容简单,时效性强,年报则内容比较全面。统计报表的内容包括表式和填表说明。对于大型、国有企业来说,利用统计报表搜集数据,具有时间快、成本低的优点,但对于大量的小型、非国有经济单位,则难以全面采用统计报表调查。(四) 重点调查重点调查:是一种非全面调查,它是在调查对象中选择一部分对全局具有决定性作用的重点单位进行调查。适用于调查任务只要求掌握调查总体的基本情况,调查标志比较单一,调查标志表现在数量上集中于少数单位,而这些少数单位的标志值之和在总体中又

18、占绝对优势的情况。重点调查组织方式有两种:一是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。其优点是花费较少人力、物力,在较少时间内及时取得有关的基本情况。(五) 典型调查典型调查:根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行调查,主要作用是:第一,补充全面调查的不足;第二,在一定条件下可以验证全面调查数据的真实性。其优点是灵活机动、通过少数典型即可取得深入详实的统计资料,缺点是受“有意识地选出若干有代表性”的限制,易受人们主观认识上的影响,必须同其他调查结合起来使用,才能避免出现片面性。表一 各类

19、统计调查方法的特点调查范围调查时间收集资料的方法普查全面一次采访、报告或空间遥感抽样调查非全面经常或一次直接观察或采访统计报表全面或非全面经常报告重点调查非全面经常或一次报告典型调查非全面一次采访统计方法 第二章数据描述第一节 用图表展示定性数据本节主要介绍定性数据的图表展示方法。定性数据包括分类数据和顺序数据,它们的图表展示方法基本相同。通常可以用频数分布表和图形来描述。一.生成频数分布表定性数据本身是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计出每一类别的频数,就是一张频数分布表。频数分布表中落在某一特定类别的数据个数称为频数。频数分布包含了很多有用的信息,通过它可以观察不

20、同类型数据的分别情况。二定性数据的图形表示定性数据(分类数据和顺序数据)可以描绘出它们各类的比例,常用饼图和条形图表示。(一) 饼图饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。(二) 条形图条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观察不同类别数据的多少或分布情况。绘制时,各类别可以放在纵轴,也可以放在横轴。(三) 环形图饼图只能显示一个变量(如年龄变量)各部分所占的比重。如果我们想比较不同变量之间的结构差异,就可以通过环形图来实现。首先,利用产生频数表的方法先做出分性别的年龄分布表然后,根据上表再绘

21、制出环形图。 第二节 用图表展示定量数据定性数据的图示表示方法,也都适用于定量数据。但定量数据还有一些特定的图示方法,它们并不适用于定性数据。一生成频数分别表生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的数据频数即可。首先,要对数据进行分组,一般的分组个数在515之间。其次,要确定组距。所谓组距是指每个组变量值中的最大值与最小值之差。每组最大值称为该组上限,最小值称为该组下限。则组距等于上限与下限之差,即组距=上限-下限在确定组距是,一般应掌握的原则:一是要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。如果不能正确反映各部分质的差异,必须重新分组。二是要能准确

22、地清晰地反映总体单位的分布特征。在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,例如急剧的增长或急剧的下降,波动的幅度很大时,则一般采用不等距分组。在实际工作中,要结合实际情况确定各组的组距。最后,统计出各组的频数及频数分布表。在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。二定量数据的图形表示常用来表述定量数据统计图形有:直方图、折线图和散点图。(一) 直方图对于一个定量数据,直方图是一个常见的而且非常重要的图形。它的横坐标代表变量分组,纵指标代表各变量值出现的频数,这样,各组与相应的频数就形

23、成了一个矩形,即直方图。(二) 折线图折线图是利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的分配情况、现象在时间上的变化和两个现象之间的依存关系等。(三) 散点图散点图能反映两个变量的关系,判断其变化的方向是否相同应特别注意各种图表的生成方式和运用。第三节 用统计表来表示数据统计表和统计图是显示统计数据的两种方式。在现实生活中,统计表和统计图形一样充斥在我们的生活总。它通过对枯燥数据的整理,利用一些简单的表格,让我们一目了然地了解某些事物的现象。统计表是一种用密集的形式归纳数据的方法,它主要利用行和列中的数据来表述现象特征。人们利用统计表的主要目的有:一是在文章中使用它以支持自

24、己的观点;二是利用它组织数据。把整理汇总得出的统计数据资料,按照一定的结构和顺序,有系统地排列在一定的表格内,就形成一张统计表。统计表的主要优点是:能使统计资料条理化、系统化,能清晰的表达统计资料的内容,且简明易懂、节省篇幅,便于对表中资料进行对比,并易于检查数字的完整性和正确性。(1) 统计表的结构统计表一般由五个部分组成,即表头、行标题、列标题、数字资料和表外附加构成。总标题:统计表的名称。简明扼要,一般放在表格上方中间位置横行标题和纵栏标题:纵栏:表明标志和指标的名称,一般置于表格上方;横行标题:表明调查单位和分组的名称,一般置于表格左边。统计数字(指标数值)。主词栏:表中资料所说明的对

25、象,位于表的左边;宾词栏:各种指标,位于表的右侧。(2)统计表的种类按用途不同分类a. 调查表:用来搜集统计资料的表格;b. 整理表:用于汇总或整理调查资料,以及表现统计汇总或整理结果的表格;c. 分析表:用于对整理所得的统计资料进行定量分析的表格。按总体分组不同分类a. 简单表:对总体未经任何分组,仅是简单地列出统计资料所属时间或单位的表格。b. 简单分组表:对总体仅按一个标志进行分组的统计表。c. 复合分组表:对总体按两个或两个以上标志进行层叠分组。按统计资料的时间和空间分类a. 空间数列表:指同一时间条件下,不同空间范围的统计表。它说明在静态条件下,客观社会经济现象在不同空间范围的分布状

26、况。b. 时间数列表:指同一空间条件下,不同时间范围的统计表。它说明在动态条件下,客观社会经济现象发展变动状况。c. 时空结合表:是同时反映社会经济现象在不同空间和不同时间内的数量分布的统计表。(3)统计表的设计总的要求:简练、明确、实用、美观,便于比较。统计表设计应注意事项a. 统计表应设计成由纵横交叉线条组成的长方形表格,长与宽之间保持适当的比例。b. 线条绘制。表的上下端应以粗线绘制,表内纵横线以细线绘制。表格左右两端一般不划线,采用“开口式”。c. 合计栏的设置。统计表各纵列若须合计时,一般应将合计列在最后一行,各横行若须要合计时,可将合计列在最前一栏或最后一栏。d. 栏数的编号。如果

27、栏数较多,应当按顺序编号,习惯上主词栏以“甲、乙、丙、丁”为序号,宾词栏编以(1)、(2)、(3)、(4)为序号。统计表内容设计应注意事项a. 标题设计:标题简明扼要。b. 指标数值:数字填写整齐,对准位数。当数字因小可略而不计时,可写上“0”;当缺某项数字资料时,可用“”表示;不应有数字时用符号“”表示。c. 计量单位:当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中各栏的指标数值计量单位不同,可以横行标题后添一列计量单位。d. 注解或资料来源。 第四节 用数字来概括数据针对一组数据的分布特征,我们可以从两个方面来考查它:一是该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程

28、度。二是该组数据的离散程度,它反映的是该组数据的各个数值远离其中心的趋势和程度。一定性数据的数字特征由于定性数据主要是计数,比较简单,对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。中位数是将总体各单位标志值按大小顺序排列,处于中间位置的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。众数就是数据中出现次数或出现频率最多的数值。在定性数据中,由于记录的是频数,因此众数用得多些。二定量数据的数字特征反映定量数据特征的统计量常用的有:反映数据集中趋势的水平度量:平均数、中位数、众数和分位数等反映数据离散程度的差异度量:极差、四分位差、标准差和方差(一) 水

29、平的度量1. 平均数平均数也称为均值,是把某一组数据进行算术平均,用以表述某一事物的平均水平,它在统计中叫做均值。简单平均数:把一个变量的所有观测值相加再除以观测值的数目加权平均数:如果原始数据为分组数据,则采用加权平均数公式计算,其中的权数f为各组的频数。2. 中位数数字按顺序排列后,处于中间位置的数即是。如总位数为奇数,中间数即是;若为偶数,则是中间两位数的平均值。3. 众数数组中出现次数最多的数。4. 用哪个值代表一组数据平均数、中位数和众数是描述数据水平的三个主要统计量,要合理使用则需要了解它们的不同特点和应用场合。平均数易为多数人理解和接受,实际中用的也较多,但主要缺点是更容易受少数

30、极端数值的影响,对于严重偏态分布的数据,平均数的代表性较差。中位数和众数提供的信息不像平均数那样多,但它们也有优点,比如不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。(二) 差异的度量对社会经济现象不仅需要对现象的集中趋势进行分析(平均数、中位数、众数),而且还需要进行差异程度分析即离散程度分析。研究事物现象的差异性,从差异性的事物现象中,寻求解决差异性的一些方法。1. 极差( Range)极差又称全距,是最简单的离散指标,它是一组数据中的最大值和最小值之差。计算极差非常简单,含义也很直观。但是,它仅仅受最

31、大值和最小值的影响,不能反映一组数据分布的情况,而且它非常容易受数据中极端值的影响。因此,它不能准确地描述数据的分散程度。2. 方差和标准差为了反映数据中的每一个观察值与平均水平的差异程度就必须引入方程和标准差的概念。方差:将各个变量值和其均值离差平方的平均数,作为样本数据,它反映了样本中各个观测值到其均值的平均离散程度。其计算公式为:标准差是方差的平方根,它与方差相比更具量纲性,而且与变量值的计量单位相同,使用的范围比方差更广泛。其计算公式为:式中是总体标准差,s为样本标准差。总体自由度为n,样本自由度为n-1,两种有差异,是因为,自由度是指一组数据中可以自由取值的个数,当样本数据的个数为

32、n时,其样本均值 是确定的,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。所以,样本的标准差只能除以n-1 ,而不能除以n .在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。反之,其标准差越小,说明它的各个观测值分布的越集中,它的趋中程度就越好。3. 离散系数离散系数也称变异系数、标准差系数,它是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。其计算公式为:4. 标准分数标准分数也称标准化值或Z分数,它是变量值与其平均数的离差除以标准差后的值,用以测定某一个数据在该组数据中的相对位置。其计算公式为:标准分数最大的用途是可以把两组数据

33、中的两个不同均值,不同标准差的数据进行对比,以判定它们在各组中的位置。见课本P271例题.标准分数对比的两个数据在各自数组中的相对位置。统计方法第三章参数估计第一节 抽样分布一.总体分布与总体参数总体分布是总体中所有观测值所形成的分布。总体参数是对总体特征的某个概括性的度量。通常有总体平均数( )、总体方差( )、总体比例()等。二.统计量和抽样分布总体参数是未知的,但可以利用样本信息来推断。统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。统计量是样本的函数,如样本均值( )、样本方差(s2 )、样本比例(p)等。构成统计量的函数中不能包括未知因素。由于样本是从总

34、体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。抽样分布是样本统计量所形成的概率分布,如样本均值的分布、样本比例的分布等。在现实中,一个样本的统计量我们可以观察到,但不能观察到所有可能的统计量值,抽样分布是一种理论分布。统计量的取值是依据样本而变化的,不同的样本可以计算出不同的统计量值。那么,根据统计量来推断总体参数就必然具有某种不确定性。但我们可以给出这种推断的可靠性,而度量这种可靠性的依据是统计量的概率分布,并且我们确知这种分布的某些性质。因此,统计量的概率分布提供了该统计量长远而稳定的信息,它构成了推断总体参数的理论基础。(一)样本均值的抽样分布设总体共有N个元素,

35、从中随机抽取一个容量为n的样本,在重置抽样时,共有Nn 种抽法,即可以组成Nn不同的样本,在不重复抽样时,共有 个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:即样本均值的均值就是总体均值。在重置抽样时,样本均值的方差为总体方 的1/n,即 在不重置抽样时,样本均值的方差为其中, 为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,N比较大而n/N5% 时,修正系数可以简化为1-n/N,当N比较大,而n

36、/N5%时,修正系数可以近似为1,即可以按重置抽样计算。当总体服从正态分布时,样本均值一定服从正态分布,即有XN( , )时, 若总体为未知的非正态分布时,只要样本容量 n足够大(通常要求n 30),样本均值仍会接近正态分布。样本分布的期望值为总体均值,样本方差为总体方差的1/n 。这就是统计上著名的中心极限定理。该定理可以表述为:从均值为 ,方差为 的总体中,抽取样本量为n的随机样本,当n充分大时(通常要求n 30),样本均值的分布近似服从均值为 ,方差为 的正态分布。如果总体不是正态分布,当n为小样本时(通常n30),样本均值的分布则不服从正态分布。(二)样本比例的抽样分布比例是指具有某种

37、属性的单位占全部单位数的比重。总体比例(通常用表示)是总体中具有某种属性的单位数占全部总体单位数的比例,是一个参数,通常是未知的,也是我们想通过抽样得到的说明总体特征的数据。样本比例(通常用p表示)是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例,是一个样本统计量,是随机变量,对于一个已经抽取出来的样本来讲,是可以观察到的。描述所有可能样本比例的概率分布就是样本比例的抽样分布。当样本容量比较大时,样本比例p近似服从正态分布,且有p的数学期望就是总体比率 ,即 ;而P的方差与抽样方法有关,在重置抽样下为 ,在不重置抽样下为 ;即在重置抽样时, p的分布为pN;在不重置抽样时, p的分

38、布为pN一般讲,当 np5,并n(1-p) 5时,就可以认为样本容量足够大。对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,当N比较大,而n/N 5%时,修正系数可以近似为1,这时也可以按重置抽样计算。从上述分析可以看出,随着样本容量的增大,样本比例的方差愈来愈小,说明样本比例随样本容量增大,围绕总体比例分布的峰度愈来愈高。三.统计量的标准误差统计量的标准误差也称为标准误,是指样本统计量分布的标准差。可用于衡量样本统计量的离散程度。在参数估计中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。样本均值的标准误差计算公式为:当总体标准差 未知时,可用样本标准差s代替

39、计算,这时计算的标准误差称为估计标准误差。相应地,样本比例的标准误计算公式为同样,当总体比例的方差 (1-)未知时,可用样本比例的方差p(1-p)代替。第二节 参数估计参数估计是用样本统计量去估计总体的参数。用样本统计量来估计总体参数有两种方法:点估计和区间估计一点估计与区间估计点估计,是用样本统计量的实现值来近似相应的总体参数。区间估计,是根据估计可靠程度的要求,利用随机抽取的样本的统计量确定能够覆盖总体参数的可能区间的一种估计方法。区间估计是包括样本统计量在内(有时是以统计量为中心)的一个区间,该区间通常是由样本统计量加减估计标准误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽

40、样分布,可以对统计量与总体参数的接近程度给出一个概率度量。标准正态分布为N(0,1)分布,将概率分布标准化的公式为: 将z所对应的概率称为置信度或置信水平,将 表示的范围称为置信区间。以68.73%的置信水平推断总体参数推断总体参数 的置信区间为(z=1)以95.45%的置信水平推断总体参数推断总体参数 的置信区间为(z=2) 以99.73%的置信水平推断总体参数推断总体参数 的置信区间为(z=3)二评价估计量的标准用于估计总体参数的估计量可以有很多,如何选择估计效果最好的那种估计量,评价估计量的好坏的标准具体有:1.无偏性,是指估计量抽样分布的期望值等于被估计的总体参数。2.有效性,是指估计

41、量的方差尽可能小。有效性是指估计量的方差尽可能小。对同一个总体参数的两个无偏估计量,有更小方差的估计量更有效。3.一致性,是指随着样本量的增大,点估计量的值越来越接近被估计总体的参数。即大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。从这个意义上说,样本均值是总体均值的一个一致估计量。三一个总体均值的区间估计在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知,用于估计的样本是大样本还是小样本等情况。但不管哪种情况,总体均值的置信区间都是由样本均值加减估计误差得到的。一般将置信水平表示为1- ,统计量分布两侧面积各为 /2的分为数值,它取决于事先所要求的置信度

42、(或可靠程度)。因此总体均值在1- 置信水平下的置信区间可一般性地表达为:( -分为数值* 的标准误差, +分为数值* 的标准误差)(一)大样本的估计(二)小样本的估计小样本(n30)情况下,对总体均值的估计都是建立在总体服从正态分布的假定前提下。当总体方差 已知时,样本均值经过标准化后仍服从标准正态分布,此时总体均值 在1- 置信水平下的置信总体比例的置信区间是由样本比例和估计误差两部分组成的。第三节 样本量的确定在进行参数估计时,样本量要适当。样本量过大会增加调查费用,花费更多的人力;样本量过小,样本没有足够的代表性,统计量的标准误差会增大,对总体参数的估计会不准确。一估计总体均值时,样本

43、量的确定在重置抽样条件下,设E代表允许的估计误差,则样本量计算公式为:如果总体比例 的值不知道,可以用样本比例s来代替,或者取 =0.5,使得 (1- )达到最大。统计方法第四章假设检验统计方法第五章相关分析与回归分析相关分析是研究两个或两个以上变量之间相关关系的方法论,而回归分析是研究变量之间相关关系类型,进而掌握其发展变化规律,预测未来的方法论。第一节 相关关系一相关关系在现实世界中,任何事物或现象都不是孤立存在的,而是相互联系、相互制约、相互依存的。当某些现象发生变化时,另一现象也会随之发生变化。如商品价格的变化会刺激或抑制商品销售量的变化;劳动力素质的高低会影响企业的效益;直接材料、直

44、接人工的价格变化会对产品销售成本有直接的影响;居民收入的高低会影响对该企业产品的需求量等等。研究这些现象之间的依存关系,找出它们之间的变化规律,是对经搜集、整理过的统计数据进行数据分析,为客观、科学地统计提供依据。现象间的依存关系大致可以分成两种类型: 一类是函数关系,另一类是相关关系。(1)函数关系。函数是指现象之间有一种严格的确定性的依存关系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定的值与之相对应。例如,银行的1年期存款利率为年息1.98,存入的本金用x表示,到期本息用y表示,则y=x+1.98%x(不考虑利息税);(2)相关关系。相关关系是指客观现象之间确实存在的,但数量

45、上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。例如成本的高低与利润的多少有密切关系,但某一确定的成本与相对应的利润的数量关系却是不确定的。这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜好等因素以及其他偶然因素的影响相关关系和函数关系既有区别,又有联系。有些函数关系往往因为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常通过相关关系表现出来;而在研究相关关系时,当对其数量间的规律性了解得越深刻的时候,其相关关系就越有可能转化为函数关系或借助函数关系来表现。(3)相关关系的两个特点现象之间确实存在着数量上的依存关系。就是

46、说,一个现象发生数量上的变化,另一个现象也会相应地发生数量上的变化。现象间的数量依存关系值是不确定的。就是说,一个现象发生数量上的变化,另一个现象会有几个可能值与之对应,而不是唯一确定的值。相关分析的主要内容:(1)确定现象之间有无关系。(2)确定相关关系的表现形式,运用相应的回归分析方法进一步分析现象之间的数量依存关系。用一个数学表达式,来反映有相关关系的变量之间的数值变化关系,据此由一个或若干个自变量的数值推断出因变量的可能值,这种分析称为回归分析。相关分析与回归分析既有区别又有联系,两种分析构成了相关关系分析的基本内容。(3)测定相关关系的密切程度。二相关关系的描述-散点图对于两个变量x

47、和y,通过观察或实验,我们可以得到若干组数据,记为(xi,yi)(i=1,2,n)将这些数据按x值由大到小(或由小到大)以序列表表示,即构成相关表。将一一对应的(xi,yi)描点于坐标轴上,即构成散点图,又称相关图。通过散点图所反映出的坐标点的分布状况可以直观地判断变量之间是否存在相关关系,以及相关的形态、方向。例如:散点图是相关关系的一种描述方法,它直观、形象,通过散点图可以观察到现象的关系类型以及相关方向、程度。1. 相关的形态按照相关形式不同分为:线性相关和非线性相关。线性相关又称直线相关,是指当一个变量变动时,另一变量随之发生大致均等的变动,从图形上看,其观察点的分布近似地表现为一条直

48、线;例如,人均消费水平与人均收入水平通常呈线性关系。非线性相关一个变量变动时,另一变量也随之发生变动,但这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一条曲线,如抛物线、指数曲线等,因此也称为曲线相关。例如,工人加班加点在一定数量界限内,产量增加,但一旦超过一定限度,产量反而可能下降,这就是一种非线性关系。2. 相关的方向按照相关的方向不同分为:正相关和负相关。正相关当一个变量的值增加或减少,另一个变量的值也随之增加或减少。如工人劳动生产率提高,产品产量也随之增加;居民的消费水平随个人所支配收入的增加而增加。负相关当一个变量的值增加或减少时,另一变量的值反而减少或增加。如商品流转额

49、越大,商品流通费用越低;利润随单位成本的降低而增加。三相关程度的测定:在直线相关的类型中,人们使用相关系数测定变量之间的相关关系。第六章时间序列分析时间序列是指经济现象按时间顺序排列形成的数列。时间序列分析就是根据这样的数列分析经济现象的发展规律,进而预测其未来水平。第一节时间序列的分析指标时间数列是统计学中一种非常重要的数据类型,是一种以时间为坐标轴的动态数列。一.时间数列的概念时间数列是一种统计数列,它是将反映某一现象的统计指标在不同时间上的数值按时间先后顺序排列所形成的数列。表现了现象在时间上的动态变化,故又称为动态数列。从上表看出,一个完整的时间数列包含两个基本要素:一是被研究现象或指

50、标所属的时间;另一个是该现象或指标在此时间坐标下的指标值。同一时间数列中,通常要求各指标值的时间单位和时间间隔相等,如无法保证相等,在计算某些指标时就涉及到“权”的概念。研究时间数列的意义:了解与预测。二增长量分析(水平分析)1.水平指标水平指标是用来反映社会经济现象在某一时期或时点上发展变化的水平,它包括发展水平、平均发展水平、增长量等指标。(1)发展水平发展水平是指客观现象在一定时期内(或时点上)发展所达到的规模、水平。在绝对数时间数列中,发展水平就是绝对数;在相对数时间数列中,发展水平就是相对数或平均数。几个概念:期初水平a0,期末水平an,期间水平(a1,a2,.an-1);报告期水平

51、(研究时期水平),基期水平(作为对比基础的水平)(2)增长量增长量是报告期发展水平与基期发展水平之差,增长量的指标数值可正可负,它反映的是报告期相对基期增加或减少的绝对数量,用公式表示为:增长量报告期水平基期水平根据基期的不同确定方法,增长量可分为逐期增长量和累计增长量。固定的、系统性的因素造成的。代表着研究对象的总发展方向,它既可以是线性的,也可以是曲线的。季节波动:时间数列在一年内重复出现的周期性波动称为季节波动。季节波动中“季节”一词不仅仅是指一年中的四季,其实它是广义的指任何一种周期性的变化。循环变动:时间数列呈现出来的围绕长期趋势的一种波浪形或震荡式变动称为循环变动,也称作周期变动。

52、周期性变动没有固定规律,其循环的幅度和周期的波动性很强,而且其周期短的一般也要3-5年,长的可达几十年。不规则变动:由各种偶然的、突发的或不可预见的因素引起的,称为不规则变动或随机变动。(二)时间数列的分解模型时间数列分析的一项主要内容就是把这几个影响因素从时间数列中有目的的分离出来,或者说对数据进行分解、清理,并将他们的关系用一定的数学关系式予以表达。加法模型:假定四种变动因素相互独立,时间数列各时期发展水平是各个构成因素的总和。用数学表达为:YT+S+C+I乘法模型:假定四种变动因素彼此间存在着交互作用,时间数列各时期发展水平是各个构成因素的乘积,其数学表达式:YTSCIT代表长期趋,S代

53、表季节变动,C代表循环变动,I代表不规则变动。需要说明:加法模型中,各个因素都是绝对数,乘法模型中,除了长期趋势是绝对数外,其他因素都是以相对数或指数的形式出现的。二、长期趋势分析方法(一)回归方程法回归方程法就是利用回归分析方法,将时间作为解释变量,建立现象随时间变化的趋势方程。建立趋势性方程之前,首先要确定趋势的形态,最常用的方法是先画散点图。若散点图属直线趋势形态,可拟合直线方程;若为曲线形态,则拟合曲线方程。线性趋势是指现象随着时间的推移,时间数列的逐期增减量大致相等,从而呈现出稳定增长或下降的线性变化规律。数移动,首尾要各少(k-1)/2项数值,按偶数时期项数移动,首尾要各少(k/2)项数值。因此,用移动平均法只便于求时间数列各期的趋势值和观察长期趋势,而不便直接根据派生数列进行预测。(三)指数平滑法是对移动平均法做的一次改进。第三节 季节变动分析季节变动即经济现象在一年内随季节的转变而呈现出周期性变动。季节变动有三个特点:一是季节变动每年重复进行;二是季节变动按一定的周期进行;三是每个周期变化强度大体相同。一、不考虑长期趋势的季节指数法:季节指数法:是一种通过计算各月(或季)的季节指数(又称季节比率),来反映季节

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论