统计学基本概念_第1页
统计学基本概念_第2页
统计学基本概念_第3页
统计学基本概念_第4页
统计学基本概念_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、聚类分析

1.概念:聚类分析的职能是建立i种分类方法,它是将一批样品或变量,按

照它们在性质上的亲疏程度进行分类。或者说,聚类分析就是要找出具有相近程

度的点或类聚为一类;

距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:

2.步骤:应用系统聚类法进行聚类分析的步骤如下:

①确定待分类的样品的指标;

②收集数据;

③对数据进行变换处理(如标准化或规格化);

④使各个样品自成一类,即n个样品一共有n类;

⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并

成一类;

⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并

类,直至所有样品归为…类为止;

⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出

不同的分类结果。

3.聚类分析的种类

二、ARIMA模型

(一)ARMA模型三种基本形式:自回归模型(AR:Auto-regressive),移动

平均模型(MA:Moving-Average)和混合模型(ARMA:Auto-regressive

Moving-Average)。

ARMA模型全称为自回归移动平均模型(AutoregressiveMovingAverage

Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一

著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。其中

ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;

MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。

ARIMA模型的基本思想

ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为

一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后

就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、计量经济模

型在某种程度上已经能够帮助企业对未来进行预测。

ARIMA模型预测的基本程序

(1)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根

检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,

经济运行的时间序列都不是平稳序列。

(2)对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一

定的增长或下降趋势,则需要对数据进行差分处理,如果数据存在异方差,则需

对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著

地异于零。

(3)根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相

关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序

列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模

型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模

型。

(4)进行参数估计,检验是否具有统计意义。

(5)进行假设检验,诊断残差序列是否为白噪声。

(6)利用已通过检验的模型进行预测分析。

白噪声(Whitenoise):白噪声一个平稳的随机过程满足下列条件的随机过程称

为白噪声,记为:

(1)矶与)=0,"1,2...

2

(2)Var(st)=a,t=1,2,...

(3)Cov区“+”0,t=1,2,...;/:0

注:所谓时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而

发生变化。直观上,一个平稳的时间序列可以看作一条围绕其均值上下波动的

曲线。根据平稳时间序列分析的理论可知,当1时<1时,该序列{Yt}

是平稳的,此模型是经典的Box-Jenkins时间序列AR⑴模型。

因此,检验序列的非平稳性就变为检验特征方程是否有单位根,这就是单位

根检验方法的由来。

时间序列的非平稳性:是指时间序列的统计规律随着时间的位移而发生变

化,即生成变量时间序列数据的随机过程的特征随时间而变化。

DF检验:统计学家Dickey、Fuller得至UDF检验的临界值,并编制了DF

检验临界值表供查。在进行DF检验时,比较t统计量值与DF检验临界值,就

可在某个显著性水平上拒绝或接受原假设。

ADF检验:AugmentedDickey-Fuller检验(ADF检验):DF检验存在的问

题是,在检验所设定的模型时,假设随机扰动项不存在自相关。但大多数的经济

数据序列是不能满足此项假设的,当随机扰动项存在自相关时,直接使用DF检

验法会出现偏误,为了保证单位根检验的有效性,人们对DF检验进行拓展,从

而形成了扩展的DF检验(AugmentedDickey-FullerTest),简称为ADF检验。

DF和ADF检验的步聚:

计算在原假设成立的条件下t统计量值,查DF检验临界值表得临界值,然

后将t统计量值与DF检验临界值比较:

若t统计量值小于DF检验临界值,则拒绝原假设,说明序列不存在单位

根;说明是平稳序列。

若t统计量值大于或等于DF检验临界值,则接受原假设,说明序列存在

单位根;有单位根说明非平稳。

(二)平稳性检验方法

1.单位根方法

2.自相关函数法

3.DF检验方法

4.如果该特征方程的所有根在单位圆外(根的模大于1),则AR(p)模型是

平稳的。特征根z=l/(p,当加|<1,则表示特征根大于1,说明是平稳的,否则是

非平稳的。

三、灰色系统关联度

四、描述性统计与推断统计学

1.描述性统计学是指研究如何取得反映客观规律的数据,并通过图表形式

对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观

现象的规律性数量特征。其内容包括数据收集方法,数据的加工处理方法、数据

显示方法,数据分布特征的概括与分析、解释方法.

2.推断统计学。是指研究如何根据样本数据去推断总体数量的特征的方法,

它是在对样本数据进行描述的基础上,对统计总体的未知数量做出以概率的形式

表述的推断(既利用样本信息和概率论对总体的数量特征进行估计和检验)。

五、数据类型(StatisticalData)

统计数据它是采用某种计量尺度对事物进行计量的结果采用不同的计量尺

度会得到不同类型的统计数据。可以将统计数据分为以下四种类型:

定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。例如

将国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济

等类,并用(01)代码表示国有经济,(02)表示集体经济,(03)表示私营经

济,(04)表示个体经济。

定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。定序尺度

不但可以用数表示量的不同类(组)别,而且也反映量的大小顺序关系,从而可

以列出各单位、各类(组)的次序。这种尺度的主要数学特征是“>”或。

例如对合格产品按其性能和好坏,分成优等品、一等品、合格品等等。

定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。

它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差

距是多少。例如,学生某门课程的考分,可以从高到低分类排序,形成90分、

80分、70分,直到零分的序列。它们不仅有明确的高低之分,而且可以计算差

距,90分比80分高10分,比70分高20分等等。定距尺度的计量结果表现为

数值,可以进行加或减的运算,但却不能进行乘或除的运算,

定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量

形成的。

前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类

别,也称为定性数据或品质数据(Qualitativedata);后两类数据说明的是现

象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据

(Quantitativedata)□由于定距尺度和定比尺度属于同一测度层次,所以可

以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。

区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用

不同的统计方法来处理和分析。比如,对定类数据,通常计算出各组的频数或频

率,计算其众数和异众比率,进行列联表分析和x2检验等:对定序数据,可以

计算其空位数和四分位差,计算等级相关系数等非参数分析;对定距或定比数据

还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验

等。我们所处理的大多为数量数据。

这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高

层次的测量数据,因为后者具有前者的数学特性。比如:在描述数据的集中趋势

时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定

比数据同样也可以计算众数和中位数。反之,适用于高层次测量数据的统计方

法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的

数学特性。比如,对于定距和定比数据可以计算平均数,但对于定类数据和定序

数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。

六、数据的分布特征与测度

(-)集中度测度:是指一组数据向某一中心值靠拢的倾向。

1.定类数据的测度指标:众数(mode):是指一组数据中出现次数最多的变

量值。用Mo表示。

2.定序数据的测度指标:中位数(median):处于中间位置上的变量值,用

ME表示。

3.定距数据和定比数据的测度指标:均值(mean):它在统计学具有重要地

位,是集中度测度值的最重要指标。

(1)当三者相等时,表示数据分布是对称分布的;

(2)当均值<表示是左偏分布或负偏。

(3)当均值〉ME〉M。表示左偏或正偏分布。

在实际利用统计软件中,常常看偏态值(Skewness)来判断数据的偏态方向。

其计算公式是:

当偏态值=0时,表示对称分布;

当偏态值>0表示正偏;

当偏态值<0时表示负偏。

同时为了得到数据分布集中趋势的高峰的形状,还需要另一个指标:峰度

(Kurtosis),若分布形状比正态分布还要高则称为尖峰分布,若比正态分布更

矮则表示平峰分布。

判断准则:由于正态分布的峰度系数等于3,所以当峰度(Kurtosis)>3,

表示尖峰分布,当峰度(Kurtosis)<3表示平峰分布。

在E-VIEWS软件中,JB统计量值用来检验观测值是否服从正态分布,统计

量的公式—=巴吆卜2+1化—3)2],它服从/⑵,其中n为样本容量,S为偏

态值,K为峰度值,在此假设检验中,原假设H0:变量服从正态分布

H1:变量不服从正态分布,

当P值大于0.05时,则接受原假设,否则拒绝原假设。

(二)离散程度的测度:它反映的是各变量运离中心值的程度。

1.定类数据的离散程度的测度指标:异众比率(Variationration),是指非

众数组的频数占总频数的比率。

2.定序数据的离散程度的测度指标:四分位差。

3.定距和定比数据的测度指标:方差和标准差,还有极差

极差=max(Xi)-min(Xi)

离散系数(Coefficientofvatiation):对于平均水平不同或计量单位

不同的不同组别的变量值,是不能用方差和标准差、极差等测度值进行比较的,

为削除变量值水平高低和计量单位的不同对离散程度的影响,引入了离散系数

,它标准差与均值的之比。离散系数=£

X

七、数据标准化的方法(NormalizationMethod);标准化数值

(Z-Score)

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信

用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要

对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。一般常用

的有以下几种方法。

L统计标准化:z-score规范化也称零-均值规范化:它是最广泛的使用方法,

计算公式为:=肛工

ax

其中Xi是原值,丸是均值,6是标准差。

2.极值标准化(rang):==---"'""-----

max(X)-min(Xi)

3.定基与环比转换:此种方法主要用于构造时间序列指数的指标转换。

=—*100%

定基转换工。

=旦*100%

环比转换

八、权数的构造方法

权重的构造方法一般有两种,一是主观构权法:它是指根据研究者的主观

判断来指定指标权重的一种方法,主要有专家评判法、层次分析法(The

analytichierarchyprocess,简称AHP)。

另一种方法是客观构权法,它是指根据原始信息通过数学或统计方法处理后

获得的权数的一种方法,具体有:主成成分分析法、因子分析法、相关法、回归

法。

九、特征值(eigen)

应用:1.在多个变量之间计算其协整关系,其检验就要用到特征值。

2.时间序列平稳性的理论识别条件。

十、假设检验

统计学中,假设检验是对我们所关心的却又是未知的总体参数先作出假设,

然后抽取样本,利用样本所提供的信息对假设的正确性进行判断的过程。

(-)假设检验的步骤

1.提出假设(原假设和备择假设)。假设检验实践中,大家都在执行这样…

个原则:把最关心的问题作为原假设提出,从而将后果较严重的错误放在a上,

事先加以控制。

2.确定检验统计量一般来说,检验统计量的计算公式是

一样本统计量-被假设假设

统计量的标准差

3.确定显著性水平

4.计算统计量:其基本计算公式是Z-士乂

一b/6

式中,文为样本均值,〃为被假设的参数值,。为总体标准差,n为样

本容量。

5.作出统计决策

根据显著性水平a和统计量的分布查出临界值,用计算出来的检验统计量

与临界值进行比较。

决策规则:当计算出来的统计量》大于临界值,则拒绝原假设,接受备择

假设。

当计算出来的统计量〈大于临界值,则接受原假设,拒绝备择假设。

(-)假设检验的基本思想

就是利用了小概率原理,它是指发生概率的很小的随机事件在一次实验中是

几乎不可能发生的。

(三)双侧检验和单侧检验

1.双侧检验:一般形式Ho:〃=某一数值表示没有显著差异

Hi:〃。某一数值表示有显著差异

决策规划就是:若统计量|Z|Y|Z%|,则接受HO,拒绝HI

则拒绝Ho,接受HI

2.左则检验。如果希望考察的值越大越好,其一般形式是

A。:〃>某一数值

H’RY某一数值

决策规划就是:|Z|Y|Za|则接受Ho.拒绝Hi

团卜㈤,则拒绝Ho,接受H]

3.右则检验:如果希望考察的值越小越好,则用右则检验。一般形式是:

H0://<某一数值"〃A某一数值

决策规划与左则检验的决策规划是•样的。

(四)一个正态总体的参数检验

1.总体方差已知的均值检验。因为知道了总体方差,此时就用Z检验统计量

2.总体方差未知的均值检验,因为不知道总体方差。此时,不能用Z检验统

计量,此时需要用样本方差S2替代。2,用服从自由度n-1的T分布,其计算公

式是/=三式

5/vn

(在计量经济学,系数显著性与此不一样)

(五)两个正态总体的参数检验。也称为两个均值差异的显

著性检验——T检验。

T检验通常用于比较两个均值是否相同,或者说两个均值之差是否等于0以

此推断两个样本是否来自同一个样本,或者两个样本是否存在显著差异。

T检验包括两个:一个是独立样本的T检验(Independent-samplesTTest)和

配对样本的T检验。

5.1.独立样本的T检验

目的思想:按随机原则确定的两个相互独立的样本,然后检验两个样本的平

均值是否存在显著差异,并借此推断两个样本是否所属的总体。

三个前提假设:

(1)样本是正态性的。

(2)方差齐性。方差齐性检验用“Levene飞testfor”.其原假设是:方

差非齐性;

(3)独立样本。

5.2配对样本的T检验

目的思路:适用于只有两个处理水平的单因素随机区设计,然后判断他们是

否存显著差异。

(六)假设检验中的P值

当原假设为真时,样本可能结果不低于实际观测值(右侧检验),或不高于实

际观测结果(左侧检验)的概率。或简单地概括为:当原假设为真时,却拒绝的

概率;或者说是犯第--类错误的概率。

决策规划:

当p>显著性水平时,则接受原假设,拒绝备择假设

p<显著水平时,则拒绝原假设,接受备择假设。

概括地说,当P值非常小时,则拒绝原假设,接受备择假设,当P值较大

时,则接受原假设,拒绝备择假设。所以,在假设检验时,要注意原假设和备择

假设。

事实上,P值可以提供更多的信息,不仅可以用P值与规定的显著性水平比

较进行检验决策,而且P值显示了样本值在一定范围内出现的概率。在统计软件

SPSS中,sig就是P值。

(七)正态性检验

检验数据的分布是否正态性-一般有三种方法,•是残差直方图(Histogramof

Residuals),它是一种粗略但灵活方便的方法。

二是正态概率图(Normalprobabilityplot)是专门研究随机变量的概率密

度的函数的形状。

三是雅克一贝拉检验(Jarque-beratest):其计算公式是:

其中,S代表偏态,K代表峰度,N代表样本容量。对于正态分布来说是偏

态等于0,且峰度等3.

判断方法,如果一项应用中算出来的力2统计量的P值很小,说明数据非正

态分布,如果P较大,就可以认为是正态分布。

(八)原假设和备择假设设置原则与各类设置集

在各类假设检验中,弄清楚原假设和备择假设是至关重要的,如果弄反了往

往会得出相反的结论。在假设检验中,把需要通过样本去推断其正确与否的命题

称为原假设,一般的原则是::H0:两者之间没有显著差异

H1:两者之间有显著差异。

1.T检验中:

H0:两个样本同属于一个总体,即没有显著差异

H1:两个本不属于同一个总体,即存在显著差异。

2.方差齐性检验

Levene〜stestforequalityofvariances

HO:方差非齐性

Hl:方差齐性。

3.KMO值

KMO检验的目的:Kaiser-Meyer-OlkinMeasureofSamplingAdequacy是用于比

较观测相关系数值与偏相关系数值的一个指标,其值愈逼近1,表明对这些变量

进行因子分析的效果愈好。一般认为KMO检验值大于0.5就可以进行因子分析。

kmo值越大,因子的贡献率也就越高。

4.巴特利检验

其与KMO检验是•样的,都是用来判断是否可以做因子分析

H0:相关矩阵是单位阵(说明不可做因子分析)

H1:相关矩阵是非单位阵(说明可以做因子分析)

5.相关分析的检验

在SPSS中,关于相关分析在三个选项:l.Pearson积差相关系数;2.Kendall's

tau-b;3.Speraman等级相关检验。

H0:相关系数为0(即不相关)

H1:相关系数不为0(即存在相关)

6.单位根方法(ADF检验)

在此检验中,HO:p=\,即时间序列是非平衡的。

7.DW检验

其原假设是不存在自关,即H0:P=0

8.正态检验

H0:数据分布是正态的

H1:数据分布是非正态的

(九)单样本T检验(one-sampleTtest)

基本功能:检验样本所在总体的均值是否与已知的总体相同,用以判断样本

与总体是否存在显著差异,或者样本是否来自总体。

HO:样本与总体没有显著差异

H2:样本与总体有显著差异

卜一、方差分析

(-)概念与基本原理:

在实际问题中,经常对两个以上的正态总体进行均值比较,即检验两个样本

是否取自同一总体。方差分析是对多个总体均值是否相等这一假设进行检验。这

一检验要思想就是对TSS进行分解分析。可以说,T检验是方差分析的一个特例。

方差分析所使用的检验统计量是F统计量,它是方差估计值之比。这里不

是根据用途而是根据分析方法来命名的。

2.在方分析中,常用F统计量=组间方差/组内方差。一般来说F越大越好,

越大说明拒绝原假设,接受备择假设。

人的组间估计量ES%_1

人的组内估计量一心“

/n-K

在方程显著性检验(TestingtheOverallSignificance)中也常用F统计

ESS/

量,其计算公式是尸=J尸

Rss/

/n-k

其中,K代表自变量(独立变量)个数(independent),N代表样本个数。因

变量也称被解释变量(dependent)

(-)单因素方差分析

1.基本思想:就是研究单个因素(Factor)是否对被解释变量(dependen)产生

影响。

2.前提假设:数据的正态性、方差齐性和数据独立性。

3.基本步骤:

第一•步:建立假设

第二步:计算样本均值

第三步:计算总样本均值

第四步:计算样本方差

第五步:计算总体方差的组间估计

第六步:计算总体方差的组内估计

第七步:计算F统计量

第八步:编制方差分析表

第九步:做出统计决策

4.在SPSS的实现方法步聚:选择[Analyze]二>[CompareMeans]=>[One-Way

ANOVA...],打开[One-WayANOVA]主对话框,然后设置因变量和因素。

(三)单因素分析中的多重分析

若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较

或称多重比较(multiplecomparison)o

基本思想:例子:如果分析颜色对饮料销售量有无影响,则属于单因素分析。

如果进一步分析颜色中哪一个颜色(黄色、红色、粉色等)对销售量的影响最大,

则需要进行多重比较分析。最常用的方法就是最显著性差异法(LSD)。假设检验

也常用T检验。

(四)双因素方差分析

基本思想:对两个因素对因变量的影响程度进行分析,称为双因素分析。

实际上这些计算用SPSS是十分容易解决的。因此读者完全没有必要去记表

中繁琐的公式,只需掌握其主要思想并学会应用SPSS就可以了。

步骤:

第一步:建立假设

第二步:计算样本均值和总样本值

第三步:计算离差平方和

第四步:计算均方值

第五步:计算F统计量

第六步:编制双因素方差分析表

第七步:做出统计决策

在SPSS中的实现方法

选择[Analyze]=>[GeneralLinearModel]=>[Univariate...],打开[Univariate]

主对话框。从主对话框左侧的变量列表中设定因变量,单击按钮使之进入

[DependentList]框,再选定变量自因变量,单击按钮使之进入[FixedFactor(s)]

框。

资料"在GLM(Generallinealmodel),用Univariate你可以做多因素方

差分析,Mutivariate可以做多应变量方差分析,RepeatedMeasure...可以做

重复测量方差分析,等等

十二、统计学中的常用概念

A=--2A

1.均值(算术平均数Arithmeticmean)Ni=\,在计算

公式中一般用E{(X-小)(丫-小)}表示。均值在统计学中具有重要的地位,它

.二cov(x,y)

(JxG"y

是进行统计分析和统计推断的基础,首先从统计思想上看,它是一组数据的重心

所在,其次均值具有一些重要数学性质。

(1)各变量值与其均值的离差这和等于0

即^(X,-X)=0

/=1

(2)各变量值与其均值的离差平方和(即方差)最小,即

„_2

Z(X-X)=(min)

i=l

2.儿何平均数(Geometricmean)

G=必与……'=^TTY="nxf

3.方差和标准差:方差就是各变量值与其均值的离差平方和,它是测度离

散程度的主要方法,方差越大说明数据波动程度越大或离散程度越高,方差越小

说明数据集中度越高。方差分为总体方差和样本方差,标准差也分为总体标准差

和样本标准差。

总体方差(在方差分析中称为TSS)和标准差

2,=£仝(x------x->上(万差)

N

l£(X一亍)2,尸泊至、

=J-----(标准差)

样本方差和标准差:

S二屈

3.协方差和相关系数

令X和Y为两个随机变量,其均值是人和小,于是协方差的定义为

Cov(X,Y)=E{(X-}=E(XY)w

当x和y独立时,则Cov(X,Y)=E(x)E(y)-分内=0

可见,协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的

作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差

异。所以又引入的相关系数的概念。其计算公式是:/?=c°v(x,y)

(7x(7y

所以,COV(X,y)=R*(JxOTy

4.数学期望:又称期望或均值,是平均数的一种推广。是随机变量按概

率的加权平均,表征其概率分布的中心位置,即用以测量数据的平均水平或集中

程度。

E(X)=Zxf(x)

(1)离散随机变量X的期望值E(X)

£(X)=fxf(x)dx

(2)连续随机变量X的期望值E(X)J-00

5.残差:表示实际观察值与估计值之差。

,2

6.总离差平方和(TSS):7ss=^(yi-y)

7.残差平方和(RSS):ESS反映样本观测值与估计值偏离的大小,

RSS=WT)2

8.解释平方和(ESS)(ExplainedSumofSquares),反映由模型中解释变

量所解释的那部分离差的大小;ESS^Y-Y)2

9.众数(MODE):众数是一组数据中出现次数最多的变量值。主要用于分类

数据,也可用于顺序数据和数值型数据。

10.中位数(Median):中位数是一组数据按一定顺序排列后,处于中间位

置上的变量值。

1L平均差(M。:是各单位实际值对其算术平均数的离差绝对值的算术平

均数,反映的是各标志值与其平均数的平均差异程度。Z|x-司

dN

12.均方(meansquare):(与标准差是同一个概念)平方和除以对应的

自由度。这个量用于F比以判断均值之间是否有显著差异。

13.最小显著性差异法(leastsignificantdifference简写LSD法):

用于方差分析中的多重比较的一种均值相等性的检验方法。

十三、计量经济学中常用统计量

十四、非参数检验(nonparametric

statistics)

许多统计分析方法的应用对总体有特殊的要求,如t检验要求总体符合正态

分布,F检验要求误差呈正态分布且各组方差整齐,等等。这些方法常用来估计

或检验总体参数,统称为参数统计。

但许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统

计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),

这类方法称非参数统计(Nonparametrictests)o

(一)单样本配合度检验Chi-Square

基本功能:调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于

配合度检验,主要用于分析实际频数与某理论频数是否相符。(SPSS中自带了

一个例子:cars,sav),

HO:实际频数与理论频数没有显著差异

H1:实际频数与理论频数有显著差异

(二)二项分布(Binomal)

基本功能:适用于二分变量时的情况,常需要检验一个事件在特定的条件下

发生的概率是否与已知结论相同,如某地区出生的婴儿的性别比例与通常男女各

半的结论是否相符,在这个情况下可用此方法。

H0:特定事件与特定结论没有显著差异

H1:特定事件与特定结论有显著差异

例如:某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28

名(定Sex=l)o问这个地方出生婴儿的性比例与通常的男女性比例(总体概率

约为0.5)是否不同?

(三)RUN检验(游程检验)

基本功能:用于一个变量的两个值的出现顺序是否随机。

依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分称

为一个游程。调用Runs过程可进行游程检验,即用于检验序列中事件发生过程

的随机性分析。

H0:数据是随机出现的

H1:数据是非随机的

(四)samplesk-s检验

称为:单样本柯尔莫哥诺夫一斯米尔诺夫检验柯尔莫哥诺夫一斯米尔诺夫检

验。

基本功能:调用此过程可对单样本进行Kolmogorov-SmirnovZ检验,它将

一1个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分

布(Poisson)进行比较。

零假设H0:经验分布与理论分布没有显著差别。

H1:经验分布与理论分布有显著差别

(五)两个独立样本检验(2-independentsamples)

基本功能:当总体分布不清楚时,可检验两个随机样本是事来自同一总体。

H0:两个独立样本来自相同的总体(两个样本没有显著差异)

H1:两个独立样本来自不同的总体(两个样本没有显著差异)

(六)多个独立样本检验(K-independentsamples)

H0:多个独立样本来自相同的总体(两个样本没有显著差异)

H1:多个独立样本来自不同的总体(两个样本没有显著差异)

(七)两个相关样本检验(2-relatedsamples)

基本功能是:当总体分布不清楚时,检验两个相关样本是否来自同一总体。

与参数检验中的Paired-samples

HO:两个相关样本来自相同的总体(两个样本没有显著差异)

H1:两个相关样本来自不同的总体(两个样本没有显著差异)

(八)多个相关样本检验(K-relatedsamples)

基本功能是:当总体分布不清楚时,检验多个相关样本是否来自同一总体。

H0:多个相关样本来自相同的总体(两个样本没有显著差异)

H1:多个相关样本来自不同的总体(两个样本没有显著差异)

十五、几种重要检验统计量

l.F-stat.(F-distribution;F-test)F检验的思想来自于总离差平方和的分解式:

TSS=ESS+RSS由于回归平方和ESS是解释变量X联合体对被解释变量Y的线

性作用的结果,所以,如果ESS/RSS的比值较大,则X的联合体对Y的解释程

度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。

ESS/

其计算公式是F=/k

RSS/

7(〃-k)

其中K代表变量个数,N代表样本容量,记为则该统计量服从自由度为(k,

n-k-1)的F分布。

因此F值有时也叫均方差比,即尸=不能解释的均方差/可以解释的均方差

在统计学上,这个假设检验的假设原理是:

H0:口严口2=口3,即它们不存在显著差别。

Hl:Ui7口27口3它们不完全相等,即总体均值之间存在差异。

2.力2(卡方分布,Chi—squaredistribution,test;72统计量

在统计学中,72统计量常用于列联表中变量之间是否相关的检验,特别适

用于两个定类变量之间是否相关的检验。卡方检验是对样本的频数分布所来自的

总体分布是否服从某种理论分布或某种假设分布所作的假设检验。即根据样本的

频数分布来推断总体的分布。它属于自由分布的非参数检验。它可以处理一个因

素分为多种类别,或多种因素各有多种类别的资料”所以,凡是可以应用比率进

行检验的资料,都可以用卡方检验。其计算公式是

其中,/o表示观察值的频数(observedfrequency);1表示给定单元中的频

数理论值,其计算公式是:%=「一;RT表示给定单元所在行的总和(行:

Rank),CT表示给定所在列的总和.(列:Contingency)0

X2的自由度的确定:=(行数-1)*(列数-1).记为x2a2n为自由度,a为显

著性水平。

如同T分布一样,在不同自由度条件下,卡方分布也不相同,但随着自由

度的增加(即样本容量的支扩大)卡方分布趋于对称性的正态分布。检验程序与

假设检验理论是一样的。

对变量之间的相关程度的测度主要用相关系数来表示,但对于定类数据之间

的相关程度的测定,要借助于32,对于定类数据之间的相关程度的测度常用到

以下几种:

(1)W相关系数,它是描述2*2列联表数据中相关程度最常用的一种相关

系数,计算公式是W忙,取值在0到1之间。

vn

(2)列联相关系数(简称Coefficientofcontingency)。主要用于大于2*2

列联表的情况。计算公式是c=|自二,取值在0到1之间。

V/2+n

在SPSS中实现卡方检验:Analyze->descriptivestatistics->Crosstab,

或在“非参数检验中”可以实现。

如何描述两个分类变量间的关系

3.T-stat(T-distribution;T-test)

(1)

(2)在计量经济学中,T检验常称参数显著性检验

其计算公式是:”A_估计值

Se(A)标准误

原假设:Ho:A=O即参数不显著

备择假设:邙件0即参数显著

4.DW检验(d统计量):D-W检验是杜宾(J.Durbin)和瓦森(G.S.Watson)

于1951年提出的一种检验序列自相关的方法,这种检验方法是基于残差生和e,」

之间的一阶自相关系数P提出来的,所以它只适用于检验残差序列的是否存在一

阶自相关性的统计量。这从公式中可以看出来。注:残差:模型计算值与资料

实测值之差为残差。

£(乙-乙-)2

O.W.二--------------------------

n

t=1

n

Zeiet-\

P'=W----------------

Ze2一

t=2

it

当碟陶加耶浮烟椭,"*)可如战

0表示一阶自关系数,

所以,d^2(1-p)

当功=0时,d=2,表明不存在自相关;

当夕=1时,d=0,表示存在完全正相关;

当"=/时,d=4,表示存在完全负自相关。

经验表明当1.7YdY4,表明不存在自相关。

4.拟合优度检验(TestingtheSimulationLevel):y的理论预测值和真实的样

本值的距离越小,拟合度越好。公式是:R2=交士=1_2_

TSSTSS

5.Q-statistiCo在文献上的Q统计量有二种版本,Box-PierceQ统计量,另

一种是适用于样本较小的修正版本Ljung-BoxQ统计量。这两种版本的Q统计

量有些微的不同。LB的Q统计量的计算公式是:

n____

Q=^=

A/,

1

其中,E,代表从一阶差分中回归中所得到的OLS残差(注意:没有包含截距

项的一阶差分形式),而。则是水平值形式得到的残差(含有截距项的回归形

式)。

6.协整检验(cointegrationTEST)

定义:定义(协整):设Yts|⑴,xt-l(1)o如果存在常数b,使得Yt—bXt

为l(0)(平稳时间序列)时,称丫t和Xt之间存在协整关系。

基本思想:Johansen检验的思想就是检验ut和vt是否存在相关的典型变量

和有儿对相关性较大的典型变量。

协整的检验方法一•般有两种,Engle-Granger方法检验方法。E-views提供一

个叫约翰森(Johansen)检验提供了确定协整变量个数的方法,其方法的理

论基础是典型相关分析。

步聚:第一步,拟合模型AArA工

=N+「八匕_1+r2Ayt_2+••-+「p_|Ay_p+1+£t

第二步,拟合模型

yt-i=K+niAy”i+H2Ayt_2+…+岂p_]Ay.p+i+

第三步:Johansen检验二这不是单独的一个检验,而是系列的检验,检验从尸0

开始。

十六、问卷的信度与效度检验

(一)信度(Reliabilty)

社会测量中,作为测量工具的问卷,如果设计不周密、题意不确切、含混或

具某种倾向性,其信度必定不高。信度是指可靠性、可信性,指统计结果的稳定

性或一致性,可表示在N次调查或度量中有多少次是正确的,或每次调查属于

正确的概率是多少。

信度的度量通常是以相关系数表示的,又称信度系数。信度可以分为重(再)

测信度(Test-RetestReliability)>复本信度(Alternate-formReliability)^内

容一致性信度(InternalConsistencyCoefficient)、折半信度和同质信度【计

算a系数】。

同质信度(Homogeneityreliability)代表所有测验题目的一致性,当各个测

验题目得分是正相关时是同质的,当相关性很低时为异质。最常用克朗巴哈

(Cronbach)a系数法和Speraman-brown的折半信度S。

a系数法其计算公式是:

国……

ST2IN+2r\

式中,N为题总数,Si?为第I题内方差,S/为总分方差,I•题间的相关系数的总和

一般要求问卷的a系数大于0.70。

可信度Cronbacha系数

不可信Cronbach«系数VO.3

勉强可信0.3=Cronbacha系数VO.4

可信0.4=Cronbacha系数VO.5

很可信(最常见)0.5=Cronbacha系数V0.7

很可信(次常见)0.7=Cronbacha系数V0.9

十分可信0.9=Cronbacha系数

信度分析在SPSS中的操作步骤:

step1:AnalyzeaScaleReliabilityaAnalysis

step2:于变量清单中点选题目的变量置入左项目中aModel模式选择

Alpha

step3:按Statisticsa在里面点选Scaleifitemdeleteda按ContinueaOK

(split-halfcoefficient)信度,也称折半信度s法,常用于态度、意见式问卷的

信度分析,它系指采用分半会计所测得的信度系数,通过在调查问卷分为等值的

两半、或将项目的单又序号分两半,求这两个各半测验总分之相关系数。斯皮尔

曼-布朗(Spearman-Brown)

(二)问卷调查的效度检验(Va1idity)

效度指测量结果与试图达到的目标之间的接近程度,评价的是偏倚和系统误

差问题。分为内容效度、结构效度和表面效度。效度值越高越能反映所要测量值

的对象的真正特征。效度应在0.7以上。

结构效度(constructvalidity)是指测量结果体现出来的某种结构与测值之间

的对应程度,它是最重要的评价指标。结构效度分析所采用的方法是因子分析。

内容效度(contentvalidity):问卷内容能在多大程度上覆盖研究目的要求达到的

各个方面和领域。与表面效度一样,同属主观指标。

表面效度(Facevalidity

资料:除此之外,你可以用因子分析里面Descriotives里面KM0和巴特利检验

(battele,不知道是不是这样写的),KMO的值如果>0.5,则说明因子分析的效

度还行,可以进行因子分析;另外,如果巴特利检验的P<0.001,说明因子的相

关系数矩阵非单位矩阵,能够提取最少的因子同时又能解释大部分的方差,即效

度可以。

用各变量间的相关检验量表的内容效度,根据各变量与总分的相关是否超过

各变量间的相关检验量表的结构效度。

标准:各项变量之间的相关大于.40;各因子分与总分的相关也大于.40,且均

大于各项因子之间的相关。表明问卷在本次调查中具有较好的内容效度和结构效

度。具体操作是analyze>correlate>bivariatecorrelationso

十七、相关分析(Correlationanalysis)与回归

分析(Regressionnanlysis)

(-)相关的概念

事物或现象之间存相互联系、相互制约关系,而且所有各种现象之间的相互

关系可以通过数量关系反映出来。现象之间的有关系可以通过两种不同类型表示

出来,一是函数关系,这种关系是通过严格的数学方程表达出来。二是相关关系,

这种关系的具体关系值是不确定的。

(-)相关系数的计算与应用

相关图表对发了解现象之间的相互关系是有用的,但只是初步判断,为了说

明现象之间的关系密切程度必须计算相关系数,相关系数的计算方法有很多,最

常见的公式是R=

其实,相关系数可由拟合度R?得到,即R=

(三)相关系数的密切程度

当相关系数处于0.3到0.5之间表示是低度相关;

处于0.5到0.8之间是显著相关;

处于0.8以上是高度相关。

(四)回归分析

相关关系仅能说明变量之间相关关系的方向和紧密程度,而不能说明变量之

间的数量关系,即当给出某一自变量的数值时不能根据相关系数确定或估计因变

量发生的值。回归分析就是对具有相关关系的变量之间数量变化的一般关系进

行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。

(五)回归分析与相关分析的区别

回归分析和相关分析都是研究变量之间的关系,在实际应用中,两种分析方

法经常相互结合渗透和结合,但在研究重点方面却有所不同:(1)在回归分析中,

变量Y称为因变量,处在被解释的特殊地位,而在相关分析中,变量X和Y处于

相同的地位;(2)相关分析的重点是研究变量之间的关系及关系密切程度,而回

归分析中,不仅可以揭示变量x对变量Y的影响大小,还可以由回归方程进行

预测和控制。

(六)简单相关系数和偏相关系数(PAC)

只计算两个变量之间的线性关联程度的相关系数可以称为简单相关,对于三

个或三个以上变量之间关系的系数,就是引入偏相关系数(Partial

correalationcoefficient).

偏相关系数可以这样定义:

R23表示在X3不变的条件下,X,,X?的偏相关系数。

川,3,2表示在X?不变的条件下,X”儿的偏相关系数。

同理,尺.2.3.4表示在X3,X4不变的条件下,Xl,X2的偏相关系数。

计尊公式是,Ri->1---------------------------

7?1,32)-(1-7?2,32)

Rl,3—7?1,2尺3,2

^(1-/?!.22)-(1-7?2,32)

(七)自相关或序列相关

自相关(Autocorrelation)和序列相关(Serialcorrelation)在许多文

献中看作同义语,它所表达的意思是:按时间(在时间序列数据中)或空间(在

横截面数据中)的排序的观测值序列的误差项之间的存在相关。

在经典的线性模型中,假设在误差项Ui之间不存在自相关,用符号表示就是

E(Ui,Uy)=0或者是COV(Ui,Uy)=0,当E(Ui,Uy)WO,则表示存在

自关。

自相关检验,用以检测是否存在自相关用d统计量,DW统计量。

其计算公式是:"」二飞i=2中一.

它不外是相继残差的差异平方和与RSS之比,它有一个缺陷就是只能检验

一阶相关自相关,经验表明当L7YdY4,表明

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论