spss统计分析-三大检验-回归诊断-因子分析课件_第1页
spss统计分析-三大检验-回归诊断-因子分析课件_第2页
spss统计分析-三大检验-回归诊断-因子分析课件_第3页
spss统计分析-三大检验-回归诊断-因子分析课件_第4页
spss统计分析-三大检验-回归诊断-因子分析课件_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

T检验1.1比较均值/ANOVA1.2单样本T检验1.3两独立样本T检验1.4配对样本T检验T检验1.1比较均值/ANOVA11.1比较均值、ANOVA均值和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。这里我们考察身高的性别中的均值比较.1.1比较均值、ANOVA均值和标准差是描述数据资料集中趋2点击"分析(A)",再点击"比较均值(M)",选择"均值(M)".如下图所示点击"分析(A)",再点击"比较均值(M)",选择"均值(M3选择需要分析的对象,这里我们把"身高"作为因变量,"性别"作为自变量.如下图所示.选择需要分析的对象,这里我们把"身高"作为因变量,"性别"作4在步骤3中,我们可以根据自己的需要,选择要得到的相关数值,点击"选项",把"统计量"中自己需要的统计量点击到"单元格统计量"中,也可以在"第一层的统计量"中选择"Anova表和eta(A)"和"线性相关检验",我们这里只选择前者.如图所示.在步骤3中,我们可以根据自己的需要,选择要得到的相关数值,点5根据男性和女性两种性别观察其身高均值情况

单因素方差分析,

原假设H0:总体中男性和女性在身高无显著差异,即所有总体的均值都相等。由于sig=0.110大于0.05,就接受H0,认为两组身高无显著差异。根据男性和女性两种性别观察其身高均值情况

单因素方差分61.2单样本T检验单样本T检验,主要用于检验单个变量的均值与指定的检验值之间是否存在显著性差异,再者,样本均值与总体均值之间的差异显著性检验,也属于单样本T检验.以耐电压值的平均值与500之间的差异显著性的检验问题为例.1.2单样本T检验7点击"分析(A)",选择"比较均值(M)",点击"单样本T检验(S)",如图所示点击"分析(A)",选择"比较均值(M)",点击"单样本T检8将"耐电压值"放到"检验变量(T)"中,我们在这里将"检验值"设为"500",如图所示将"耐电压值"放到"检验变量(T)"中,我们在这里将"检验值9点击"选项(O)",我们会发现"置信区间百分比(C)"的默认值为"0.95",我们这里选择默认值点击"选项(O)",我们会发现"置信区间百分比(C)"的默认10通过结果我们可以看出:"单个样本统计量"包括检验的总体均值(304.68),标准差(224.18)以及t统计量(-3.896)等.

本例的双侧Sig值为0.000<0.05,因此认为在0.05的显著性水平下,拒绝虚无假设,接受对立假设,即耐电压值与500存在显著性差异。通过结果我们可以看出:"单个样本统计量"包括检验的总体均值(111.3独立样本t检验两独立样本t检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。首先进行婚姻状况(已婚、未婚)两个总体方差同质性检验。原假设(检验假设):H0:已婚、未婚两个总体方差具有同质性1.3独立样本t检验121)利用F检验判断两总体的方差是否相等;利用t检验判断两总体均值是否存在显著差异。

考察F检验,由0.865大于0.05,接受原假设,即在0.05显著水平下,样本数据显示,已婚、未婚两个总体方差具有同质性,满足均值检验的前提要求。考察T检验,原假设H0:已婚、未婚两个总体在家庭收入上无显著差异。由于SIG值0.566大于0.05,接受原假设,即在0.05显著水平上,样本数据显示,婚姻状况两个总体在家庭收入上无显著差异。1)利用F检验判断两总体的方差是否相等;利用t检验判断两总体131.4配对样本T检验两配对样本t检验的目的是利用来自两个总体的配对样本,推断两个总体的均值是否存在显著差异。和独立样本不同的是这两个整体是有联系的。其检验思路就是做差值,转化为单样本t检验,最后转化为差值序列,通过看总体均值是否与0有显著差异做检验。1.4配对样本T检验14找到分析->比较均值->配对样本T检验,将其单击打开。找到分析->比较均值->配对样本T检验,将其单击打开。15需要从原变量中选择成对变量进行配对。

如下图所示,根据成对的变量自定义进行选择配对。需要从原变量中选择成对变量进行配对。

如下图所示,根据成对的16单击选项,打开的是置信区间百分比,默认的是95%,缺失值的处理方法用第一种单击选项,打开的是置信区间百分比,默认的是95%,缺失值的处17第一个表格是数据的基本描述。

第二个是数据前后变化的相关系数,那个概率P值是相关系数的概率值,概率大于显著性水平0.05,则说明数据变化前后没有显著的线性变化,线性相关程度较弱。

第三个表格是数据相减后与0的比较,通过概率值为0,小于显著性水平0.05,则拒绝原假设,相减的差值与0有较大差别,则表明数据变化前后有显著的变化。第一个表格是数据的基本描述。

第二个是数据前后变化的相关系数18卡方检验(非参数检验)卡方检验是用来判断样本是否来自一种总体的检验方法。就是根据样本的频率来推断总体的分布是否具有显著差异。1.1变量独立性1.2总体同质性卡方检验(非参数检验)191.1变量独立性(两种特征是否在总体分布独立)先看到的第一个表格就是交叉表,婚姻状况为行、住房满意为列1.1变量独立性(两种特征是否在总体分布独立)先看到的第一个20变量独立性检验:

原假设H0:婚姻状况与住房满意度相互独立(总体中婚姻状况与住房满意度无显著影响)

由于SIG值均大于0.05,故接受原假设,即在0.05显著水平上,婚姻状况与住房满意度无显著影响影响关系。变量独立性检验:

原假设H0:婚姻状况与住房满意度相互独立211.2总体同质性检验原假设:H0:婚姻状况总体在住房满意度上无显著差异。

H1:婚姻状况总体在住房满意度上存在显著差异。

根据左表,由0.268、0.296、0.268均大于0.05,故接受原假设,即在0.05显著水平下婚姻状况在住房满意度上无显著差异。

1.2总体同质性检验原假设:H0:婚姻状况总体在住房满意度上22

F检验F检验在方差分析中的应用F检验在回归模型显著性中的应用

F检验23F检验在方差分析中的应用

方差分析:通过分析单个或多个因素是否在不同水平样本下的均值存在显著性差异。

单因素方差分析:用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量在因素各水平分组的均值之间的差异是否均有统计意义。首先剖析观察变量的方差。SST(总离差平方和)=SSA(组间)+SSE(组内)SSA占比较大即观察变量的变动主要是由因素的不同水平引起的,可有因素的变动来解释。利用假设检验推断因素的不同水平是否对观测变量产生显著影响。原假设H0是因素不同水平对观察变量不存在显著影响,采用的检验统计量是F统计量。F检验在方差分析中的应用

方差分析:通过分析单个或多个因素是24不同的地区可能是导致广告销售额不同。本例中,地区是因素,其中有18个不同水平,广告销售额是因变量(观测变量)这里的单因素方差分析主要研究在地区这一单一因素下,不同地区来源的广告销售额测度平均值是否相同,即进行如下假设检验。H0:不同地区对广告销售额均值无显著性影响H1:不同地区对广告销售额均值存在显著性影响不同的地区可能是导致广告销售额不同。本例中,地区是因素,其中25实例结果及分析方差齐性检验:Levene统计量等于2.881,由于P值0.078大于0.05,故认为数据的方差是相同的,满足方差分析的前提条件单因素方差分析表:第一列是方差来源,包括组间离差平方和、组内和总数;第二列势离差平方和;第三列是自由度df;第四列均方,是第二三列之比;第五列是F值32.66(组间均方与组内均方之比);第六列是F值对应的概率P值,其值等于0.000。由于概率P值小于0.05,故拒绝原假设,接受对立假设,认为不同地区对销售额测度平均值存在显著性影响。实例结果及分析方差齐性检验:Levene统计量等于2.88126F检验在回归模型显著性中的应用

实例分析:人均可支配收入和人均消费性支出利用回归分析来分析人均可支配收入和人均消费性支出的关系。建立回归模型:人均消费性支出=f(人均可支配收入)首先绘制两组变量的散点,图形显示呈线性关系,可建立一元线性回归模型:expenditure=b0+b1*incomei+eiF检验在回归模型显著性中的应用

实例分析:人均可支配收入和人27模型汇总即对方程拟合情况的描述,R方就是自变量所能解释的方差在总方差中所占的百分比,值越大说明模型的效果越好。案例计算的回归模型中R方等于0.994,模型拟合效果较好。方差分析表是对回归模型进行方差分析的检验结果,主要用于分析整体模型的显著性。可以看到方差分析结果中F统计量等于4123,概率p,0.000小于显著性水平0.05,所以该模型是有统计学意义的,人均可支配收入与人均消费性支出之间的线性关系是显著的。模型汇总即对方程拟合情况的描述,R方就是自变量所能解释的方差28回归系数表列出来本案例进行的医院回归模型常数项、回归系数的估计值和检验的结果。可见b0=158.512,b1=0.756,故回归方程如下:

年人均消费性支出=158.512+0.756*年人均可支配收入,即人均可支配收入每增加一个单位,年人均消费性支出增加0.756个单位。回归系数表列出来本案例进行的医院回归模型常数项、回归系数的估29因子分析:主成分分析的内在原理和过程方法概述:因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。基本思想:对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。这些综合指标就称为因子或公共因子,就能相对容易地以较少的几个因子反映原资料的大部分信息。因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。因子分析:主成分分析的内在原理和过程方法概述:因子分析法就是30因子分析的计算过程1.将原始数据标准化,以消除变量间在数量级和量纲上的不同。2.求标准化数据的相关矩阵3.求相关矩阵的特征值和特征向量4.计算方差贡献率与累计方差贡献率5.确定因子:设F1,F2,...,Fp个因子,其中前m个因子包含的数据信息总量,即其累计贡献率,不低于85%时,可取前m个因子来反映原评价指标。6.因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。7.用原指标的线性组合来求各因子得分8.综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。因子分析的计算过程1.将原始数据标准化,以消除变量间在数量级31实例分析:全国各地区不同所有制单位平均收入排名下图是全国各地区不同所有制单位平均收入情况,具体包括国有经济单位、集体经济单位、联营经济单位等7个部分。利用主成分分析探讨各地区按所有制类别分类的排名。实例分析:全国各地区不同所有制单位平均收入排名下图是全国各地32进行因子分析前,可以计算相关系数矩阵、巴特李特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。进行因子分析前,可以计算相关系数矩阵、巴特李特球度检验和KM33实例操作略,直接看实例结果及分析描述性统计表显示了国有经济单位、集体经济单位等七个指标的描述统计量。实例操作略,直接看实例结果及分析描述性统计表显示了国有经济单34因子分析共同度显示了所有变量的共同度数据。第二列是初始解,对原有七个变量如采用主成分分析法提取所有特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1,原有变量标准化后的方差为1。。因子个数小于原有变量的个数才是因子分析,所以不能提取全部。第三列列出来按指定条件提取特征根时的共同度。所有变量的绝大部分信息可被因子解释,变量信息丢失较少,因此本次因子提取的总体效果理想因子分析共同度显示了所有变量的共同度数据。第二列是初始解,对35上图为因子分析的总方差解释,是相关系数矩阵的特征值、方差贡献率及累计方差贡献率的计算结果。第一列是因子编号,后三列组成一组。第一组数据项描述了初始因子解的情况。可以看到,第一个因子的特征根值为5.502,解释了原有7个变量总方差的78%;前三个因子的累计方差贡献率为92.141%,说明前三个公因子基本包含了全部变量的主要信息,因此选择前三个因子为主因子即可。同时,被提取的载荷平方和旋转和的平方载荷数据组列出了因子提取后和旋转后的因子方差解释情况。上图为因子分析的总方差解释,是相关系数矩阵的特征值、方差贡献36因子碎石图:横坐标为因子数目,纵坐标为特征值。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,说明他们对解释原有变量的贡献很小。因子碎石图:横坐标为因子数目,纵坐标为特征值。可以看到,第一37该表显示了旋转钱的因子载荷矩阵,是因子分析的核心内容。通过过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。少部分指标解释能力较差,采用因子旋转方法使得因子载荷系数向0和1两极分化,是大的载荷更大,小的更小。该表显示了旋转钱的因子载荷矩阵,是因子分析的核心内容。通过过38旋转后的各个因子的含义更加突出。每个公因子都有反映几个方面的变动情况。第一个公因子反映交大载荷的有外商、国有、港澳台、股份制、集体经济单位;第二个有联营经济单位;第三个则是其他经济单位。旋转后的各个因子的含义更加突出。每个公因子都有反映几个方面的39该表列出来采用回归法估计得因子得分系数。根据表中的内容可写出因子得分系数。该表列出来采用回归法估计得因子得分系数。根据表中的内容可写出40在利用原数据文件增加的三个变量,乘以对应的方差贡献率权重,加总得到综合评价得分。在利用原数据文件增加的三个变量,乘以对应的方差贡献率权重,加41回归分析:五条假设,系数解读零均值假定:随机误差项ε均值为0(异方差)等方差假定:εi方差同为σ2且σ为常数正态性假定:随机误差项ε服从均值为0,方差为σ2的正态分布独立性假定:随机误差项ε不存在序列相关(自相关)。非共线性假定:解释变量间互不相关,且随机误差项ε与解释变量间也不相关(多重共线)。回归分析:五条假设,系数解读零均值假定:随机误差项ε均值为042回归分析的步骤(1)观察变量间是否有线性趋势(作散点图或线性相关分析)(2)考察因变量的正态性(3)作直线回归(4)回归模型显著性和变量的显著性检验(5)残差分析(独立性检验、正态性检验、方差齐性检验)(6)异常值与共线性诊断回归分析的步骤(1)观察变量间是否有线性趋势(作散点图或线性43线性趋势:自变量与因变量之间呈线性关系,可以以年人均可支配收入作为Y轴,人均使用面积和教育支出作为X轴,通过绘制散点图来加以判断是不是满足此要求。线性趋势:自变量与因变量之间呈线性关系,可以以年人均可支配收441.是否存在异方差先看pp图再看ks检验1.由pp图,残差图具有一定规律,分布在对角线左右,初步判断模型的误差项符合高斯马尔科夫前提关于误差项的分布。(h0:回归模型的误差项分布于标准化正态分布无显著差异)2.残差正态性检验:作残差的PP或QQ概率图,图中的点围绕在直线(0值)的周围。1.是否存在异方差先看pp图再看ks检验1.由pp图,残差45H0:模型的误差项分布与标准正态分布无显著差异,由下表可知,由于sig分别为0.829和0.969均大于显著性水平0.05,故说明模型的误差项与标准正态分布无显著差异。亦即,误差项分布满足高斯马尔科夫假设。H0:模型的误差项分布与标准正态分布无显著差异,由下表可知,462.误差项不存在序列相关因变量Y取值相互独立,即残差间相互独立,不存在自相关,否则应当采用自回归模型来分析。Y取值相互独立用的是残差间相互独立的检验方法,如图所示,我们使用线性回归过程中的DW检验,DW值Durbin-Watson检验的参数D的取值范围是0<D<4,与2越接近表示残差与自变量越独立。D-W值等于0.452偏离2,说明存在序列相关。2.误差项不存在序列相关因变量Y取值相互独立,即残差间相互独473.误差项与解释变量不能存在相关性

检验方法:spearman等级相关(标准化残差与标准化预测值)H0:总体中模型的解释变量与误差项显著不相关根据下表由于sig值0.995、0.994、0978均大于0.05,故原假设H0,即总体中模型的解释变量与误差项显著不相关。3.误差项与解释变量不能存在相关性

检验方法:spearma484.解释变量间不能存在共线性多重共线的诊断:一般用VIF值来诊断多重共线。方差膨胀因子(VarianceInflationFactors,简记作VIF):刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。VIF越大说明多重共线性问题越严重。从方差膨胀因子(VIF)输出结果来看,值为16.938大于10,说明存在多重共线问题。下表的第七列表明,变量教育支出和人均使用面积的容差都为0.059,都较小,即其他自变量共线性太强。4.解释变量间不能存在共线性多重共线的诊断:一般用VIF值来49模型对样本的代表性、对总体的代表性和结构。第一个表格输出的是模型拟合优度,为0.863。调整后的拟合优度为0.836。决定系数R2即相应的相关系数的平方,用R2表示。反映应变量y的全部变异中能够通过回归关系被自变量解释的比例。R2越接近1越好。多元回归时,决定系数缺乏可靠性,此时可参考调整的决定系数R2。模型对样本的代表性、对总体的代表性和结构。第一个表格输出的是50第二个是方差分析,可以说是模型整体的显著性检验。统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,拟合的回归直线没有意义,相反若概率值(SPSS中以sig表示,越小越好)。F统计量为31.576,SIG值为0.000,故拒绝原假设,认为模型是显著的。第二个是方差分析,可以说是模型整体的显著性检验。统计量F=平51第三个是模型的系数,constant代表常数项,年人均消费性收入的系数为1.315,两个自变量t检验的统计量分别0.871和1.075,SIG值分别为0.404和0.308,均大于0.05,故接受原假设。第三个是模型的系数,constant代表常数项,年人均消费性52T检验1.1比较均值/ANOVA1.2单样本T检验1.3两独立样本T检验1.4配对样本T检验T检验1.1比较均值/ANOVA531.1比较均值、ANOVA均值和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。这里我们考察身高的性别中的均值比较.1.1比较均值、ANOVA均值和标准差是描述数据资料集中趋54点击"分析(A)",再点击"比较均值(M)",选择"均值(M)".如下图所示点击"分析(A)",再点击"比较均值(M)",选择"均值(M55选择需要分析的对象,这里我们把"身高"作为因变量,"性别"作为自变量.如下图所示.选择需要分析的对象,这里我们把"身高"作为因变量,"性别"作56在步骤3中,我们可以根据自己的需要,选择要得到的相关数值,点击"选项",把"统计量"中自己需要的统计量点击到"单元格统计量"中,也可以在"第一层的统计量"中选择"Anova表和eta(A)"和"线性相关检验",我们这里只选择前者.如图所示.在步骤3中,我们可以根据自己的需要,选择要得到的相关数值,点57根据男性和女性两种性别观察其身高均值情况

单因素方差分析,

原假设H0:总体中男性和女性在身高无显著差异,即所有总体的均值都相等。由于sig=0.110大于0.05,就接受H0,认为两组身高无显著差异。根据男性和女性两种性别观察其身高均值情况

单因素方差分581.2单样本T检验单样本T检验,主要用于检验单个变量的均值与指定的检验值之间是否存在显著性差异,再者,样本均值与总体均值之间的差异显著性检验,也属于单样本T检验.以耐电压值的平均值与500之间的差异显著性的检验问题为例.1.2单样本T检验59点击"分析(A)",选择"比较均值(M)",点击"单样本T检验(S)",如图所示点击"分析(A)",选择"比较均值(M)",点击"单样本T检60将"耐电压值"放到"检验变量(T)"中,我们在这里将"检验值"设为"500",如图所示将"耐电压值"放到"检验变量(T)"中,我们在这里将"检验值61点击"选项(O)",我们会发现"置信区间百分比(C)"的默认值为"0.95",我们这里选择默认值点击"选项(O)",我们会发现"置信区间百分比(C)"的默认62通过结果我们可以看出:"单个样本统计量"包括检验的总体均值(304.68),标准差(224.18)以及t统计量(-3.896)等.

本例的双侧Sig值为0.000<0.05,因此认为在0.05的显著性水平下,拒绝虚无假设,接受对立假设,即耐电压值与500存在显著性差异。通过结果我们可以看出:"单个样本统计量"包括检验的总体均值(631.3独立样本t检验两独立样本t检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。首先进行婚姻状况(已婚、未婚)两个总体方差同质性检验。原假设(检验假设):H0:已婚、未婚两个总体方差具有同质性1.3独立样本t检验641)利用F检验判断两总体的方差是否相等;利用t检验判断两总体均值是否存在显著差异。

考察F检验,由0.865大于0.05,接受原假设,即在0.05显著水平下,样本数据显示,已婚、未婚两个总体方差具有同质性,满足均值检验的前提要求。考察T检验,原假设H0:已婚、未婚两个总体在家庭收入上无显著差异。由于SIG值0.566大于0.05,接受原假设,即在0.05显著水平上,样本数据显示,婚姻状况两个总体在家庭收入上无显著差异。1)利用F检验判断两总体的方差是否相等;利用t检验判断两总体651.4配对样本T检验两配对样本t检验的目的是利用来自两个总体的配对样本,推断两个总体的均值是否存在显著差异。和独立样本不同的是这两个整体是有联系的。其检验思路就是做差值,转化为单样本t检验,最后转化为差值序列,通过看总体均值是否与0有显著差异做检验。1.4配对样本T检验66找到分析->比较均值->配对样本T检验,将其单击打开。找到分析->比较均值->配对样本T检验,将其单击打开。67需要从原变量中选择成对变量进行配对。

如下图所示,根据成对的变量自定义进行选择配对。需要从原变量中选择成对变量进行配对。

如下图所示,根据成对的68单击选项,打开的是置信区间百分比,默认的是95%,缺失值的处理方法用第一种单击选项,打开的是置信区间百分比,默认的是95%,缺失值的处69第一个表格是数据的基本描述。

第二个是数据前后变化的相关系数,那个概率P值是相关系数的概率值,概率大于显著性水平0.05,则说明数据变化前后没有显著的线性变化,线性相关程度较弱。

第三个表格是数据相减后与0的比较,通过概率值为0,小于显著性水平0.05,则拒绝原假设,相减的差值与0有较大差别,则表明数据变化前后有显著的变化。第一个表格是数据的基本描述。

第二个是数据前后变化的相关系数70卡方检验(非参数检验)卡方检验是用来判断样本是否来自一种总体的检验方法。就是根据样本的频率来推断总体的分布是否具有显著差异。1.1变量独立性1.2总体同质性卡方检验(非参数检验)711.1变量独立性(两种特征是否在总体分布独立)先看到的第一个表格就是交叉表,婚姻状况为行、住房满意为列1.1变量独立性(两种特征是否在总体分布独立)先看到的第一个72变量独立性检验:

原假设H0:婚姻状况与住房满意度相互独立(总体中婚姻状况与住房满意度无显著影响)

由于SIG值均大于0.05,故接受原假设,即在0.05显著水平上,婚姻状况与住房满意度无显著影响影响关系。变量独立性检验:

原假设H0:婚姻状况与住房满意度相互独立731.2总体同质性检验原假设:H0:婚姻状况总体在住房满意度上无显著差异。

H1:婚姻状况总体在住房满意度上存在显著差异。

根据左表,由0.268、0.296、0.268均大于0.05,故接受原假设,即在0.05显著水平下婚姻状况在住房满意度上无显著差异。

1.2总体同质性检验原假设:H0:婚姻状况总体在住房满意度上74

F检验F检验在方差分析中的应用F检验在回归模型显著性中的应用

F检验75F检验在方差分析中的应用

方差分析:通过分析单个或多个因素是否在不同水平样本下的均值存在显著性差异。

单因素方差分析:用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量在因素各水平分组的均值之间的差异是否均有统计意义。首先剖析观察变量的方差。SST(总离差平方和)=SSA(组间)+SSE(组内)SSA占比较大即观察变量的变动主要是由因素的不同水平引起的,可有因素的变动来解释。利用假设检验推断因素的不同水平是否对观测变量产生显著影响。原假设H0是因素不同水平对观察变量不存在显著影响,采用的检验统计量是F统计量。F检验在方差分析中的应用

方差分析:通过分析单个或多个因素是76不同的地区可能是导致广告销售额不同。本例中,地区是因素,其中有18个不同水平,广告销售额是因变量(观测变量)这里的单因素方差分析主要研究在地区这一单一因素下,不同地区来源的广告销售额测度平均值是否相同,即进行如下假设检验。H0:不同地区对广告销售额均值无显著性影响H1:不同地区对广告销售额均值存在显著性影响不同的地区可能是导致广告销售额不同。本例中,地区是因素,其中77实例结果及分析方差齐性检验:Levene统计量等于2.881,由于P值0.078大于0.05,故认为数据的方差是相同的,满足方差分析的前提条件单因素方差分析表:第一列是方差来源,包括组间离差平方和、组内和总数;第二列势离差平方和;第三列是自由度df;第四列均方,是第二三列之比;第五列是F值32.66(组间均方与组内均方之比);第六列是F值对应的概率P值,其值等于0.000。由于概率P值小于0.05,故拒绝原假设,接受对立假设,认为不同地区对销售额测度平均值存在显著性影响。实例结果及分析方差齐性检验:Levene统计量等于2.88178F检验在回归模型显著性中的应用

实例分析:人均可支配收入和人均消费性支出利用回归分析来分析人均可支配收入和人均消费性支出的关系。建立回归模型:人均消费性支出=f(人均可支配收入)首先绘制两组变量的散点,图形显示呈线性关系,可建立一元线性回归模型:expenditure=b0+b1*incomei+eiF检验在回归模型显著性中的应用

实例分析:人均可支配收入和人79模型汇总即对方程拟合情况的描述,R方就是自变量所能解释的方差在总方差中所占的百分比,值越大说明模型的效果越好。案例计算的回归模型中R方等于0.994,模型拟合效果较好。方差分析表是对回归模型进行方差分析的检验结果,主要用于分析整体模型的显著性。可以看到方差分析结果中F统计量等于4123,概率p,0.000小于显著性水平0.05,所以该模型是有统计学意义的,人均可支配收入与人均消费性支出之间的线性关系是显著的。模型汇总即对方程拟合情况的描述,R方就是自变量所能解释的方差80回归系数表列出来本案例进行的医院回归模型常数项、回归系数的估计值和检验的结果。可见b0=158.512,b1=0.756,故回归方程如下:

年人均消费性支出=158.512+0.756*年人均可支配收入,即人均可支配收入每增加一个单位,年人均消费性支出增加0.756个单位。回归系数表列出来本案例进行的医院回归模型常数项、回归系数的估81因子分析:主成分分析的内在原理和过程方法概述:因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。基本思想:对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。这些综合指标就称为因子或公共因子,就能相对容易地以较少的几个因子反映原资料的大部分信息。因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。因子分析:主成分分析的内在原理和过程方法概述:因子分析法就是82因子分析的计算过程1.将原始数据标准化,以消除变量间在数量级和量纲上的不同。2.求标准化数据的相关矩阵3.求相关矩阵的特征值和特征向量4.计算方差贡献率与累计方差贡献率5.确定因子:设F1,F2,...,Fp个因子,其中前m个因子包含的数据信息总量,即其累计贡献率,不低于85%时,可取前m个因子来反映原评价指标。6.因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。7.用原指标的线性组合来求各因子得分8.综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。因子分析的计算过程1.将原始数据标准化,以消除变量间在数量级83实例分析:全国各地区不同所有制单位平均收入排名下图是全国各地区不同所有制单位平均收入情况,具体包括国有经济单位、集体经济单位、联营经济单位等7个部分。利用主成分分析探讨各地区按所有制类别分类的排名。实例分析:全国各地区不同所有制单位平均收入排名下图是全国各地84进行因子分析前,可以计算相关系数矩阵、巴特李特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。进行因子分析前,可以计算相关系数矩阵、巴特李特球度检验和KM85实例操作略,直接看实例结果及分析描述性统计表显示了国有经济单位、集体经济单位等七个指标的描述统计量。实例操作略,直接看实例结果及分析描述性统计表显示了国有经济单86因子分析共同度显示了所有变量的共同度数据。第二列是初始解,对原有七个变量如采用主成分分析法提取所有特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1,原有变量标准化后的方差为1。。因子个数小于原有变量的个数才是因子分析,所以不能提取全部。第三列列出来按指定条件提取特征根时的共同度。所有变量的绝大部分信息可被因子解释,变量信息丢失较少,因此本次因子提取的总体效果理想因子分析共同度显示了所有变量的共同度数据。第二列是初始解,对87上图为因子分析的总方差解释,是相关系数矩阵的特征值、方差贡献率及累计方差贡献率的计算结果。第一列是因子编号,后三列组成一组。第一组数据项描述了初始因子解的情况。可以看到,第一个因子的特征根值为5.502,解释了原有7个变量总方差的78%;前三个因子的累计方差贡献率为92.141%,说明前三个公因子基本包含了全部变量的主要信息,因此选择前三个因子为主因子即可。同时,被提取的载荷平方和旋转和的平方载荷数据组列出了因子提取后和旋转后的因子方差解释情况。上图为因子分析的总方差解释,是相关系数矩阵的特征值、方差贡献88因子碎石图:横坐标为因子数目,纵坐标为特征值。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,说明他们对解释原有变量的贡献很小。因子碎石图:横坐标为因子数目,纵坐标为特征值。可以看到,第一89该表显示了旋转钱的因子载荷矩阵,是因子分析的核心内容。通过过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。少部分指标解释能力较差,采用因子旋转方法使得因子载荷系数向0和1两极分化,是大的载荷更大,小的更小。该表显示了旋转钱的因子载荷矩阵,是因子分析的核心内容。通过过90旋转后的各个因子的含义更加突出。每个公因子都有反映几个方面的变动情况。第一个公因子反映交大载荷的有外商、国有、港澳台、股份制、集体经济单位;第二个有联营经济单位;第三个则是其他经济单位。旋转后的各个因子的含义更加突出。每个公因子都有反映几个方面的91该表列出来采用回归法估计得因子得分系数。根据表中的内容可写出因子得分系数。该表列出来采用回归法估计得因子得分系数。根据表中的内容可写出92在利用原数据文件增加的三个变量,乘以对应的方差贡献率权重,加总得到综合评价得分。在利用原数据文件增加的三个变量,乘以对应的方差贡献率权重,加93回归分析:五条假设,系数解读零均值假定:随机误差项ε均值为0(异方差)等方差假定:εi方差同为σ2且σ为常数正态性假定:随机误差项ε服从均值为0,方差为σ2的正态分布独立性假定:随机误差项ε不存在序列相关(自相关)。非共线性假定:解释变量间互不相关,且随机误差项ε与解释变量间也不相关(多重共线)。回归分析:五条假设,系数解读零均值假定:随机误差项ε均值为094回归分析的步骤(1)观察变量间是否有线性趋势(作散点图或线性相关分析)(2)考察因变量的正态性(3)作直线回归(4)回归模型显著性和变量的显著性检验(5)残差分析(独立性检验、正态性检验、方差齐性检验)(6)异常值与共线性诊断回归分析的步骤(1)观察变量间是否有线性趋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论