




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计方法笔记第一章 统计和数据第一节:统计的含义一、什么是统计学 统计是用来处理数据的,是关于数据的一门学问。1、统计学:是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。2、统计分析数据的方法分为:(1)描述统计 (2)推断统计描述统计:是研究数据搜集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。推断统计:是研究如何利用样本数据来推断总体特征的统计学方法。内容包括参数估计和假设检验两大类;推断统计包括:(1)参数估计 (2)假设检验二、统计的应用(一)统计的应用领域统计是
2、适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。第二节、数据类型一、变量与数据变量的特点是从一次观察到下一次观察会出现不同的结果,把观察数据记录下来就是数据。二、数据类型(一)定性变量(数据)与定量变量(数据)(1)定性变量定性变量的观察结果称为定性数据。定性变量的特点:只反映现象的属性特点,不能说明具体量的大小和差异;定性变量包括分类变量和顺序变量。分类变量:只反映现象分类特征的变量称分类变量。分类变量没有数值特征,所以不能对其数据进行数学运算。分类变量 观察结果就是分类数据;分类数据只能用来区分事物,不能用来表明事物之间的打下、优劣关系。顺序变量:如果类别具有一定的顺序,这
3、样的变量称为顺序变量。顺序变量不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。顺序变量的观察结果就是顺序数据。顺序数据最主要的特征在于不论它的数据是用数值表示还是文字表示,都存在一定的客观顺序,一定可以按照大小、高低、优劣进行排序。顺序虽然可以比较大小,却无法计算相互之间大小、高低或优劣的距离,不能用来反映事物在数量上的差异,因此,从本质上将,顺序数据仍然是定性数据的一种;2、定量变量定量变量也称为数值变量,定量变量的观察结果称为定量数据。定量变量的特点:可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。 数值型数
4、据的特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差(绝对距离),而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差(相对距离)。显然,数值型数据的计量功能要远大于前面介绍的两种定性数据,其计量精度也远远高于定性数据,因此在统计研究中,数值型数据有着最广泛的用途。由数值型数据的特点决定了对数值型数据可以运用多种不同的数学方法进行计算,从而给统计学各种分析方法的应用奠定了基本的数据基础,在统计学研究中对数值型数据的研究是定量分析的主要内容。(二)观测数据和实验数据不论是哪一类数据,根据获取数据的方法不同,都可以分为观测数据和实验数据。观测数据可能
5、是全面数据也可能是样本数据,实验数据一般都是样本数据。1、观测数据:是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。观测是取得数据最主要的方法。很多社会经济问题不适合应用实验的方法,职能通过向实际做调查得到数据,用各种调查方法得到的数据都属于观察数据。2、实验数据:一般是在科学实验环境下取得的数据,在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。在自然科学研究中实验的方法应用非常普遍,因此,自然科学研究中所用的数据多为实验数据。第三节 数据来源于收集数据的方法一、数据的来源从使用者的角度看,统计数据资料的来源主要有两种渠道:(1)
6、是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称之为原始或第一手统计数据;(2)是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为次级数据或第二手简洁的统计数据。一切简洁的统计数据都是从原始的、第一手数据过渡而来。(一)数据的直接来源原始数据收集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行试验就是统计数据的直接来源。1、统计调查:是根据统计研究预定的目的,要求和任务,运用科学的方法,有计划、有组织地向客观实际收集资料的过程。通过统计调查得到的数据,一般称为观测数据。2、实验法:是直接获得统计数据的重要来源。通过实验法得到的数据就是实验数据
7、。通过有意识地改变或控制某些输入变量,观察其他输出变量的变化,从而达到对事物本质或相互联系的认识。为了观察对输入变量的控制是否导致了输出变量的改变,在实验中往往需要将研究对象分两个组,一个实验中,一个对照组,对实验组的输入变量加以控制和改变,而对照组则不加控制,根据两组的输出结果,可以看到输入变量对输出的影响。运用实验法要注意的是:(1)首先实验组和对照组的产生应当是随机的;(2)其次实验组合对照组还应当是匹配的;(二)数据的间接来源次级数据(1)公开出版的统计数据:主要来自官方的统计部门和政府、组织、学校、科研机构。如中国统计年鉴、人口普查资料汇编、北京市统计年鉴、世界发展报告、某大学、科研
8、机构发布的研究数据、专业调查咨询机构发布的调查结果数据,各种媒体和图书中发布的统计数据等;(2)尚未公开发表的统计数据:如各企业的经营报表数据、专业调查咨询机构未公开发布的调查结果数据。如果公开引用未公开发表的数据需要征得数据所有者的同意,同时要为自己发布的数据负责。恰当的运用间接数据,需要注意一下几点:是否了解并正确理解简洁数据中变量的含义、计算口径、计算方法、以防止误用错用他人的数据;引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权;二、搜集数据的方法统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织地收集统计数据资料的过程。(1)普查:是专门组织的一次性的全面调
9、查,用来调查属于一定时点上或一定时期内的社会现象总量。他适于收集某些不能或不适宜于定期的全面统计报表收集的统计资料,以摸清重大的国情、国力。特点:它是一种全面调查,具有资料包括范围全面、详尽、系统的优点;缺点:它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一般不宜经常举行。(2)抽样调查:是一种非全面调查,它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究,以抽取样本的指标去推算总体指标的一种调查。随机原则要求所有调查单位都有一定的概率被抽取。特点:样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响;能够根据部分调查的实际资料对调查对象的总体的数量特征进行推
10、断,从而达到对调查总体的认识。在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制;优点:既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较正确的全面的统计资料,具有许多优点。抽样方法主要有两种:概率抽样和非概率抽样;(1)概率抽样:是根据一个已知的概率随机选取被调查者。从理论上讲,概率抽样是最科学的抽样方法,它能保证抽出来的部分单位(样本单位)对总体单位的代表性,而且它能将抽样误差限制在一定范围之内。常用的概率抽样形式为:简单随机抽样:是最基本的形式,是完全随机地选择样本。分层抽样:是首先将总体分成不同的层(或组),然后在每一层内进行抽样。整群抽样:是将一组被调查者视
11、为一个抽样单位,每次抽取时抽出来的是一组(群),而不是一个个体单位。调查者将对被抽中的某个居委会中的美甲每户进行调查。系统抽样:又称等距抽样,是在总体的名录框中每隔一定距离抽选一个被调查者。(2)非概率抽样:是没有完全按照随机原则选取样本单位。缺点:理论上讲,不能保证抽出来的部分单位(样本单位)对总体单位的代表性;不能由样本的特征准确地推断总体的特征;优点:方法简单、经济,所以也是人们常用的方法。(三)统计报表 :是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法等)自上而下地提供统计资料的一种调查方式。国家利用它定期地取得全社会的国民经济和社会发展情况的基本统计资料,是国家取得调查
12、资料的方法之一。按照报送范围,统计报表有全面报表和非全面报表之分:全面报表:要求调查对象汇总的每一个单位均要填报;非全面报表:要求一部分调查单位填报;按照报送周期,统计报表主要有月报、季报、年报组成。月报内容简单,时效性强,年报则内容比较全面;统计报表的内容:(1)表式:是由国家统计部门根据研究的任务和目的而专门设计制定的统计报表表格,用于收集统计资料,它是统计报表制度的主体。(2)填表说明:它是对统计表的统计范围、指标等作出的规定,具体有:填报范围、指标解释、分类目录、其他有关事项的规定;优点:对于大型、国有企业来说,利用统计表收集数据,具有时间快、成本低的优点; ( 对于小型、非国有经济单
13、位,则难以全面采用统计报表调查。)(四)重点调查:是在调查对象中选择一部分对全局具有决定性作用的重点单位进行的一种非全面调查。特点:这些重点单位虽然数目不多,但它们所研究的现象总量在总体总量中占据绝大部分;当调查的任务只要求掌握事物的基本状况与基本的发展趋势,而不要求掌握全面的准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。优点:重点调查可以节省人力、财力、而且及时,所以当调查任务只要求掌握事物的基本情况时,采用重点调查为好。(五)典型调查:是一种非全面的调查,是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的
14、调查。典型调查的作用:(1)补充全面调查的不足(2)在一定条件下可以验证全面调查数据的真实性。特点:典型调查具有灵活机动、通过少数典型即可取得深入详实的统计资料的优点,但是易受人们主观认识上的影响,必须同其他调查结合起来使用,才能避免出现片面性。第二章 数据描述第一节 用图表展示定性数据定性数据包括分类数据和顺序数据,它们的图表展示方法剧本相同,通常可以分为频率分布表和图形来描述;一、生产频数分布表定性数据本身就是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计处每一类别的频数,就是一张频数分布表。二、定性数据的图形表示有:(1)饼图 (2)条形图 (3)环形图饼图是利用圆形及圆内
15、扇形面积来表示数值大小的图形。条形图是用宽度相同的条形的高度或长度来表述数据多少的图形。如果想比较不同变量之间的结构差异,可以通过环形图来实现。第二节 用图表展示定量数据定性数据的图示表示方法,也都适用于定量数据。但定量数据还有一些特定的图示方法,它们并不适用于定性数据。一、生产频数分布表生成定量数据的频数分布表的步骤:(1)对数据进行分组 ,一般一组个数在5-15之间; (2)确定组距(所谓组距指每个组变量值中最大值和最小值之差。大值称为上限,小值称为下限。组距=上限-下限)(3)统计出各组的频数及频数分布表在确定组距时应掌握的原则:(1)要考虑各组的划分是否能区分总体内部各个组成部分的性质
16、差别。(2)要能准确地清晰地反映总体单位的分布特征。在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,一般采用不等距分组。频数:是指频数分布表中落在某一特定类别的数据个数。在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。二、定量数据的图形表示常用来表述定量数据统计图形:直方图、折线图和散点图。此外还有茎叶图、箱线图等;(一)直方图它的横坐标代表变量分组,纵坐标代表各变量值出现的频数。(二)折线图利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的分配情况,现象在时间上的变化和两个现象之间
17、的依存关系等。(三)散点图第三节 用统计表来表示数据统计表的五个组成部分:(1)表头 :放在表的上方,说明表的主要内容;(2)行标题 :放在第一行,表示所研究问题的类别名称(3)列标题 :放在第一列,表示所研究问题的指标名称(4)数字资料 (5)表外附加:通常放在统计表的下发,用来说明资料来源、指标注释和必要的说明等内容。通常情况下,统计表的左右两边不能封口。第四节 用数字来概括数据数据的分布特征:(1)集中趋势,即一组组数据的数值向其中心值的靠拢程度(2)离散程度,即一组数据的各个数值远离其中心的趋势和程度一、定性数据的数字特征定性数据主要是计数,比较简单,对定性数据的集中趋势常用的方法就是
18、计算百分比、中位数和众数;(1)百分比 (2)中位数:它是数据按照大小排列之后位于中间的那个数。如果样本量为偶数,则是中间两个数的平均。(3)众数:就是数据中出现次数或出现频率最多的数值。在定性数据中由于记录的是频数,因此众数用得多些。二、定量数据的数字特征反映数据集中趋势的水平度量:平均数、中位数、众数和分位数等反映数据离散程度的差异度量:(1)极差 (2)四分位差 (3)标准差 (4)方差(一)水平的度量1、平均数 :也称均值,是把某一组数据进行算术平均,用以表述某一事物的平均水平,它在统计中也叫均值。2、中位数 :它是数据按照大小排列之后位于中间的那个数。如果样本量为偶数,则是中间两个数
19、的平均。3、众数 :就是数据中出现次数或出现频率最多的数值。在定性数据中由于记录的是频数,因此众数用得多些。4、用哪个值代表一组数据平均数在实际应用中较多,但主要确定是更容易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较差;中位数和众数提供的信息不像平均数那样多,但它们也有优点,比如不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性比平均数好。(二)差异的度量1、极差:又称全距,是一组数据中的最大值和最小值之差。缺点:但是它仅仅受最大值和最小值的影响,不能反映一组数据变量分布情况,而且它非常容易受数据中极端值
20、的影响,不能准确的描述数据的分散程度。极差是从一个范围反映数据的差异程度,比较粗略。2、方差与标准差为了能反映数据中的每一个观察值和平均水平的差异程度就必须引入方差和标准差(1)方差试讲各个变量值和其平均值离差平方的平均数作为样本数据,它反映了样本中各个观测值到其均值的平均离散程度。 (2)标准差是方差的平均根,它与方差相比更具量纲性,而且与变量值的计量单位相同,使用的范围也比方差更广泛。方差用表示,总体标准差用表示,样本标准差用表示,离散系数用表示,标准分数用表示。在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。反之,其标准差越小,说明它的各个观测值分布的
21、越集中,它的趋中程度就越好。标准差的大小会受到数据本身数值大小的影响。两个数列的标准差相同,但是两数列的差异程度却不同。为了更准确地反映差异程度,要计算离散系数。3、离散系数:是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。为了更准确地反映研究现象的差异程度,我们要计算离散系数。4、标准分数:是变量值与其平均数的离差除以标准差的值,用以测定某一个数据在该组数据中的相对位置。标准分数最大的用途可以吧两组数据中的两个不同均值、不同标准差的数据进行对比,以判定它们在组中的位置。例如:某男176CM,某女170CM,两位同学的相对身高更高一些?我们了解到男生的身高均值172,标准差2.8
22、女生身高的均值是164,标准差2.5某男身高的标准分数:Zi=Xi-X/S=176-172/2.8=1.43某女身高的标准分数:Zi=Xi-X/S=170-164/2.5=3.2显然某女在女生中的身高要高于某男在男生中的身高。第三章 参数估计依据样本数据对总体数据特征进行估计、判断的过程就是统计推断。统计推断包括参数估计和假设检验;第一节 抽样分布一、总体分布于总体参数总体分布:是总体中所有观测值所形成的分布。由于总体中的观察值是有差别的,可以视为随机变量,如果我们用X表示,X的分布就是总体分布。总体参数:是对总体特征的某个概括性的度量。总体参数指标有:(1)总体平均数()(2)总体方差()
23、(3)总体比例()等。二、统计量与抽样分布统计量是样本的函数。构成统计量的函数中不能包含未知因素。由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出来的统计量也是随机的。所以在抽取样本前,理论上统计量是一随机变量;由样本统计量所形成的概率分布就是抽样分布,如样本均值的分布,样本比例的分布等。样本统计量指标有:(1)样本均值() (2)样本方差() (3)样本比例()统计量的概率分布构成了推断总体参数的理论基础。(一)关于样本均值的抽样分布:(1)设总体共有个元素,从中随机抽取一个容量为的样本,在重置抽样时,共有种抽法;在不重复抽样时,共有个样本。(2)样本均值的抽样分布就是指所有可
24、能抽出来的样本的分布。(3)样本均值的均值就是总体均值,即。(4)重置抽样时,样本均值的标准差为总体标准差的,即;不重置抽样时,样本均值的方差为。(5)当总体服从正态分布时,样本均值一定服从正态分布,即有:时,。(6)若总体为未知的非正态分布时,只要样本容量足够大(通常要求30),样本均值仍会接近正态分布,其分布的期望值为总体均值,样本方差为总体方差的 。(7)如果总体不是正态分布,当为小样本时(通常<30),样本均值的分布则不服从正态分布。(二)关于样本比例的抽样分布:(1)当样本容量比较大时,样本比率近似服从正态分布,且有的数学期望就是总体比率,即。(2)在重置抽样时,的方差为。(3
25、)在不重置抽样时,的方差为。(4)在重置抽样时,的分布为(5)在不重置抽样时,的分布为三、关于统计量的标准误差:(1)统计量的标准误差也称标准误,它是指样本统计量分布的标准差。标准误差是用于衡量样本统计量的离散程度。在参数估计中,用于衡量样本统计量与总体参数之间差距的一个重要尺度;(2)样本均值的标准误计算公式为:(3)当总体标准差未知时,可用样本标准差代替计算,这时计算的标准误差称为估计标准误差。(4)样本比例的标准误计算公式为:(5)当总体比例的方差未知时,可用样本比例的方差代替。第二节 参数估计参数估计:就是用样本统计量去估计未知的总体参数。一、点估计与区间估计用样本统计量估计总体参数的
26、两种方法:(1)点估计 (2)区间估计常用的点估计有:(1)用样本均值估计总体均值 (2)用样本比例估计总体比例(3)用样本方差估计总体方差(例如:你花510元情况,你可以说花500元情况,但是付款却要付510;)区间估计:就是根据估计可靠程度的要求,利用随机抽取的样本的统计量值确定能够覆盖总体参数的可能区间的一种估计方法;区间估计是包括样本统计量在内的一个区间,该区间通常是由样本统计量加减估计标准误差得到的。关于区间估计:(1)标准正态分布(0,1)的均值为0,标准差为1。(2)标准化的公式为:(观测值-均值)÷标准差(3)以68.27%的置信水平推断总体参数的置信区间为:(4)以
27、95.45%的置信水平推断总体参数的置信区间为:(5)以99.73%的置信水平推断总体参数的置信区间为:(例如:经常说这个人有1.7-1.8米高,有70-80斤)二、评价估计量的标准有:(1)无偏性 (2)有效性 (3)一致性无偏性是指估计量抽样分布的期望值等于被估计的总体参数。、分别是总体均值、总体比例、总体方差的无偏估计量。有效性是指估计量的方差尽可能小。对同一个总体参数的两个无偏估计量,有更小方差的估计量更有效。一致性是指一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。样本均值是总体均值的一个一致估计量。三、一个总体均值的区间估计:(1)在对总体均值进行区间估计时,需要
28、考虑总体是否为正态分布、总体方差是否已知、用于估计的样本是大样本()还是小样本()等情况。(2)大样本情况下,总体服从正态分布,总体方差已知,总体均值在置信水平下的置信区间为(3)大样本情况下,总体服从正态分布,总体方差未知,总体均值在置信水平下的置信区间为(4)小样本情况下,总体服从正态分布,总体方差已知,总体均值在置信水平下的置信区间为(5)小样本情况下,总体服从正态分布,总体方差未知,总体均值在置信水平下的置信区间为四、一个总体比例的区间估计在大样本条件下,若,则二项分布可用正态分布近似,在的置信水平下的置信区间为。样本量与置信水平成正比关系,与总体方差成正比,与允许的估计误差的平方成反
29、比。如果总体比例的值不知道可以用样本比例代替,或者取=0.5,使得达到最大。第四章 假设检验假设检验:是依据样本信息推断未知的总体参数,而假设检验是先对总体参数或分布形式提出某种假设,然后利用样本信息和相关统计量的分布特征去检验这个假定,做出是否拒绝原来假设的结论。第一节 假设检验的基本理论如何进行假设检验小概率事件:是指在一次事件中几乎不可能发生的事件,一般称为“显著性水平”,用表示。显著性水平一般取值为=0.05或=5%。假设检验的过程:(1)提出原假设和备择假设(2)确定检验统计量(3)确定显著性水平(4)根据数据计算检验统计量值和与这个统计量值对应的概率值值,并进行决策原假设也称为零假
30、设,记为;备则假设也称为备选假设,记为。在对总体的均值进行检验时,大样本应用正态分布检验,计算统计量,小样本一般用分布检验,计算统计量。拒绝正确零假设的错误称为第一类错误或弃真错误();当备选假设正确时反而说零假设正确的错误称为第二类错误或取伪错误()。对假设检验的总结:(1)假设检验依据的是小概率原理(2)小概率标准在抽样前依需要确定(3)假设检验的结果只能是拒绝或不拒绝原来假设,而不能证明原假设成立(4)统计假设检验的结果不是绝对正确关于总体均值的假设检验:(1)在对总体均值进行假设检验时,采用什么检验统计量,取决于所抽检的样本是大样本()还是小样本(),还需要考虑总体是否为正态分布、总体
31、方差是否已知等情况。(2)大样本情况下,当总体方差已知时,总体均值检验的统计量为:(3)大样本情况下,当总体方差未知时,总体均值检验的统计量为:(4)小样本情况下,当总体均值服从正态分布,总体方差已知时,总体均值检验的统计量为:(5)小样本情况下,当总体均值服从正态分布,总体方差未知时,总体均值检验的统计量为:总体比例的检验的三种基本形式:(1)双侧检验:,(2)左侧检验:,(3)右侧检验:,总体比例的假设检验,在大样本时,样本比例会近似服从正态分布,所以检验统计量仍用统计量,其基本形式为:第五章 相关分析与回归分析对现象之间数量关系的研究,统计上是从两个方面进行的:一方面分析现象之间关系的密
32、切程度相关分析另一方面是找出现象之间数量变化依存关系回归分析第一节 相关分析一、相关关系:是存在着密切的联系但又不是严格的、确定的关系。相关分析的主要内容包括以下几个方面:(1)确定现象之间有无关系,这是相关分析的起点,只有存在相关依存关系,才有必要进行进一步的分析。(2)确定相关关系的表现形式,只有判明了现象之间相关关系的具体表现形式,才能运用相应的回归分析方法进一步分析现象之间的数据依存关系,如果把曲线相关误认为是直接相关,按直线相关来分析,便会出现认识上的偏差,导致错误的结论。(3)测定相关关系的密切程度。现象之间的相关关系是一种不严格的数量关系,因此给人的感觉是松散的,相关分析就是要从
33、这种松散的数量关系中,判定其相关关系的密切程度。二、相关关系的描述散点图对于两个变量X和Y,通过观察或实验,我们可以得到其若干组数据,记为(Xi,Yi)(i=1,2,.n),将这些数据按X值由大到小(或由小到大)以序列表表示,即构成相关表。通过相关表可以粗略地看出两个变量之间存在着相关关系,并且两者之间是变化方向是一致的,即存在着正相关。将一一对应的(Xi,Yi)描点于坐标系上,即构成散点图,又称为相关图。(一)相关的形态分为:(1)线性相关:若变量Y和变量X的相关关系表现为线性组合,或绘制的散点图近似地表现为一条直线或直线带;(2)非线性相关:若Y和X是非线性组合,或绘制的散点图近似地表现为
34、一条曲线,则称之为非线性相关或曲线相关。(二)相关的方向分为:(1)正相关 :当两个变量的变动方向总体上相同,即一个变量增加,另一个变量也相应地增加,或一个变量减少,另一个变量也相应地减少,两个变量之间的关系属于正相关。(2)负相关:当两个变量的变动方向总体上相反,即一个变量增加,另一个变量也相应地减少,两个变量之间的关系属于负相关。正相关是两个变量的变动方向总体上相同,负相关是两个变量变动的方向总体上相反。三、相关程度的测定(一)相关系数的计算相关系数:是测定变量之间关系密切程度的量,它能够以数字准确地描述变量之间的相关程度。Pearson相关系数是反映定量变量之间相关程度;Spearman
35、等级相关系数是反映定序变量Pearson相关系数是用来度量两个定量变量X与Y之间的线性相关程度。相关系数具有如下性质:(1)的取值范围为-11。r>0表明与之间存在正线性相关关系;r<0表明与之间存在负线性相关关系;r值越接近1(或-1)就越正(或负)相关,越接近0就越不相关。r=1或r=-1表明与之间为完全相关关系(实际上就是函数关系)(2)具有对称性。与之间的相关系数和与之间的相关系数相等。(3)r数值大小与和的数据原点及计量尺度无关。改变和的数据原点或计量尺度,并不改变r数值的大小。(4)r仅仅是与之间线性关系的一个度量,它不能用于描述非线性关系。折旧意味着=0只表示两个变量
36、之间不存在线性相关,并不表明变量之间没有任何关系。(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着与一定有因果关系。根据经验可将相关程度分为以下几种情况:当|r|0.8时,可视为高度相关;当0.5|r|<0.8时,可视为中度相关;当0.3|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度较弱。(二)相关系数的检验检验的步骤:(1)确定原假设(2)计算统计量t值(3)利用其对应的概率值进行判断,如果概率值小于或等于指定的显著性水平(一般a=0.05),则我们可以拒绝原假设,接受备择假设,即两变量之间存在线性的相关关系。第二节 一元线性回归
37、分析相关分析旨在测度变量之间关系的密切程度,它所使用的测定工具就是相关系数。回归分析是考察若干自变量X与因变量Y之间的数量变化规律的统计方法和技术。回归分析的主要内容:(1)从样本数据出发,确定变量之间的数学关系式;(2)估计回归模型参数(3)对所确定的关系式进行各种统计检验,并从影响某一特定变量的诸多变量中找出影响显著的变量。回归方程的拟合程度分析最常用的指标是判定系数。的取值范围在0,1,=1时,拟合是完全的,即所有观测值都在直线上。越接近于0,回归直线的拟合程度越差。估计标准误差也是说明回归直线拟合程度的指标,越小,根据回归方程进行预测就越准确。第六章 时间序列分析 时间序列:是指反映社
38、会、经济、自然现象的数据按时间先后顺序记录形成的数列。时间序列的两个构成要素:(1)现象所属的时间 (2)对应不同时间的统计指标数值第一节 时间序列的分析指标一、增长量分析时间数列的增长量分析主要有:增长量和评价增长量分析。(一)发展水平:是时间数列中对应某个时期(或时点)的指标数值,说明现象在各个时期(或时点)上所达到的规模和水平,一般用符号Yt(t=1,2,n)表示,其中t表示所对应的时间。(二)增长量:是指时间数列中两个不同时期的发展水平之差,反映社会经济现象报告期比基期增加或减少的数量,即:增长量=报告期水平-基期水平由于采用的基期不同,增长量有以下两种:逐期增长量:它是报告期水平与前
39、一期水平之差,说明报告期比前一时期增长的绝对数量。可以表示为:y2-y1,y3-y2,yn-yn-1累计增长量:它是报告期水平与某一固定时期水平之差,它说明本期比某一固定时期增长的绝对数量,也说明某一较长时期内总的增长量。两者的关系:逐期增长量之和等于相应时期的累计增长量。(三)平均增长量:是某种社会经济现象在一定时期内平均每期增长(或减少)的绝对数量。一般用累计增长量除以增长的时期数目计算。二、增长率分析反映时间序列增长率的指标主要有:发展速度、增长速度、平均发展速度和平均增长速度;(一)发展速度:是表明现象发展程度的动态相对自次奥,它是两个不同时期的发展水平对比的结果。发展速度=报告期水平
40、/基期水平*100%由于采用的基期不同,发展速度可分为环比发展速度和定基发展速度。环比发展速度 :是报告期水平与前一期水平之比,反映现象逐期发展变化情况;定基发展速度:是报告期水平与某一固定时期水平之比,表明现象在较长时期内总的发展变化速度,又称总速度;环比发展速度与定基发展速度存在如下关系:(1)环比发展速度的连乘积等于对应的定基发展速度。(2)相邻时期的两个定基发展速度相除的商,等于相应的环比发展速度。(二)增长速度增长速度是表明现象增长程度的动态相对指标。它是增长量与基期水平的结果。其计算公式:增长速度=增长量/基期发展水平增长速度与发展速度有着密切的关系,两者只相差一个基数,即:增长速
41、度=增长量÷基期发展水平=发展速度-1(三)平均发展速度和平均增长速度平均发展速度是一定时期内各个环比发展速度的平均数,它说明某种现象在一定时期内逐期平均发展变化的程度。平均增长速度是各个环比增长速度的平均数,但它不是根据各个环比增长速度计算的,而是根据平均发展速度计算的。它说明某种现象在一个较长时期内逐期平均增长变化的程度。平均发展速度和平均增长速度的关系:平均增长速度=平均发展速度-1第二节 长期趋势分析一、时间数列影响因素的分解时间数列的四个影响因素:(1)长期趋势 (2)季节变动 (3)循环变动 (4)不规则变动(一)长期趋势:是指时间数列在一段长时期的变动,若将其用图形表示
42、,可得一长线趋势,将其分解,其中长期趋势因素就可画出趋势图,如趋势图是直线,则称为直线趋势,若趋势线是曲线,则根据其曲线形式称为某种曲线趋势,如二次曲线趋势、长期趋势等。(二)季节变动:季节变动是时间数列有季节性原因而引起的周期性变动,许多经济领域的时间数列都受这种变动的支配。当反映时间数列的数据时按照周、月、即的时间间隔记录时,季节变动很明显。(三)循环变动:是以年度记录的时间数列所表现出来的某种周期性变动。如某些经济活动序列表现出的以8年或9年为一个周期的循环,这种循环通常也称为商业周期。(四)不规则变动:是时间数列除去长期趋势、季节变动和循环变动止呕余留下来的变动;这种变动细分为两个类型
43、:一是严格的随机变动,它是由许多细小的原因综合引起的;二是不经常出现的某些孤立的或不规则的、但却是强有力的突发性活动。如政治动荡,战争爆发,大的自然灾害产生的影响。上述四种因素的变化构成事物在一定时期的变动,它们是如何相互结合与相互作用的,通常有两种分解形式:加法模式和乘法模式。加法模式是假定四种变动因素是相互独立的,则时间数列各期发展水平是各个影响因素相加的总和;乘法模式是假定四种变动因素存在着某种相互影响关系,互不独立。因此,时间数列各期发展水平是各个影响因素相乘之积。二、长期趋势分析方法(1)回归方程法:就是利用回归分析法,将试讲作为解释变量,建立现象随时间变化的趋势方程。首先要确定趋势
44、的形态,最常用的方法是先画散点图。若散点图属直线趋势形态,可拟合直线方程,若为曲线形态,则可拟合曲线方程;还可以根据动态分析指标判断,若时间数列的逐期增长量近似一个常量,则趋势近似一条直线;若时间数列中的二级增长量大体相同,则趋势近似一条抛物线;若时间数列中各环比发展速度大体相同,则趋势近似一条指数曲线。直线趋势方程的一般公式:式中:表示时间数列的长期趋势;表示时间数列中指标所属的时间;、为待定参数。(2)简单移动平均法 :是一种用来测定时间数列长期趋势的最基本方法。它将时间数列的数据逐项移动,依次计算包含一定骑术的序时平均数,形成一个新的时间数列的方法。(3)指数平滑法:是对时间数列由近及远采取具有逐步衰减性质的加权处理,对移动平均法做出了改进;根据指数平滑次数的不同,指数平滑法又一次指数平滑、二次指数平滑等;一次平滑法:也称简单指数平滑法,简记为SES 第三节 季节变动分析季节变动的三个特点:(1)季节变动每年重复进行 (2)季节变动按一定的周期进行(3)每个周期变化强度大体相同季节变动的方法:一是不考虑长期趋势的季节指数法;二是考虑长期趋势的回归方程法消除法;一、不考虑长期趋势季节指数法季节指数法:是一种通过计算各月(或季)的季节指数(又称季节比率),来反映季节变动的一种分析方法。季节比率的计算方法是:首先计算出各年同期发展水平的序时平均数,然
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鞋服产品成列培训
- 蜗牛花园美术课件
- 预防学生沉迷网络
- 执勤器材操作使用
- 数学-2022年成都市外国语学校小升初数学真题模拟卷
- 2025年安全员A证理论考试题及答案
- 面试会议准备工作流程
- 网购行业分析报告
- (高清版)DB5101∕T 157-2023 成都市人力资源社会保障智慧治理体系 数据应用服务技术规范
- 面部清洁梳头流程
- 旅游风景区旅游规划方案
- 吉林省吉林市高职单招2021-2022年语文模拟练习题一及答案
- 一次函数的综合应用分段函数
- 思想道德与法治课件:专题五在实现中国梦的实践中放飞青春梦想
- ISO28580-2018汉译版完整版
- 浙江省2018版计价依据建筑面积计算规则解读变化
- 颈椎骨折伴脊髓损伤护理查房
- 工业建筑设计统一标准2023年
- 2023年安徽职业技术学院单招职业适应性测试题库及答案解析
- 广州国际创新城南岸起步区控制性详细规划
- 新BOOK3-Unit-4-Imagination-and-Creativity想象力和创造力
评论
0/150
提交评论