版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于统计学实验方差回归分析第一张,PPT共六十八页,创作于2022年6月1方差分析(Analysis of Variance,ANOVA)1928年由英国统计学家R.A. Fisher 首先提出,为纪念Fisher,以F 命名,故方差分析又称为 F检验。第二张,PPT共六十八页,创作于2022年6月2方差分析(ANOVA)检验多个总体均值是否相等研究一个或多个分类型自变量对一个数值型因变量的影响 有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量无交互作用的双因素方差分析;有交互作用的双因素方差分析;第三张,PPT共六十八页,创作于2022
2、年6月3 方差分析检验假定 总体是服从正态分布的; 总体方差是相等的; 随机样本是独立的。 第四张,PPT共六十八页,创作于2022年6月4单因素方差分析用于检验由单一因素影响的一个(或几个相互独立的)因变量按因素各水平分组的均值之间是否具有显著性差异,也可用于进行两两组间均值的比较;可通过One-Way ANOVA对话框实现。第五张,PPT共六十八页,创作于2022年6月建立的假设组为:提出假设H0 : 1 2 k 自变量对因变量没有显著影响,没有系统误差 H1 : 1 , 2 , ,k 不全相等自变量对因变量有显著影响 注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均
3、值都不相等 第六张,PPT共六十八页,创作于2022年6月6例1单因素方差分析某企业需要一种零件,现有三个不同的地区的企业生产的同种零件可供选择,为了比较这三个零件的强度是否相同,每个地区的企业抽出6件产品进行强度测试,其值如表所示。假设每个企业零件的强度值服从正态分布,试检验这三个地区企业的零件强度是否存在显著差异。 地区强度样本12311161108929810385310011899411510673583107976105116102第七张,PPT共六十八页,创作于2022年6月1、单击分析(Analyze) 比较均值(Compare Means) 单因素( One-Way ANOVA
4、),打开对话框。步骤:2、从左框中选择因变量”零件强度”进入因变量框内,选择“地区”进入因子框内。点击确定。第八张,PPT共六十八页,创作于2022年6月8可以得到方差分析表 由于F统计量值的P值明显小于显著性水平0.05,故拒绝假设H0,认为这三个地区的零件强度有显著差异。如果需要对各地区间的零件强度进行进一步的比较和分析,可以通过按纽选项Option选项,contrast对比,Post Hoc两两比较去实现。a F 分布F(k-1,n-k)0拒绝H0不能拒绝H0F第九张,PPT共六十八页,创作于2022年6月93、单击选项Option按纽,打开对话框如图所示,选择输出项。主要有不同水平下样
5、本方差的齐性检验,缺失值的处理方式及均值的图形。本例中选择描述性(Descriptive)进行基本统计描述,以及方差同质检验(Homogeneity of variance test)进行不同水平间方差齐性的检验。 在缺失值(Missing Value)栏中选择系统默认项。第十张,PPT共六十八页,创作于2022年6月10完成所有选择后返回主对话框,然后单击OK,就可以得到三个地区零件强度分析表。基本统计描述 方差齐性检验 P值大于0.05,所以因素变量的各水平间的方差是没有显著差异的。Levene检验是一种非参数检验方法,与F检验类似,但不依赖与正态性假设,比F检验更稳健。第十一张,PPT共
6、六十八页,创作于2022年6月114、如果需要将水平间两两比较,可以单击两两比较Post Hoc 按纽,打开多重比较对话框。如图所示:如果满足在水平间方差相等的条件,常用LSD(最小显著性差异法),用 t 检验完成各组均值间的配对比较。当方差不等的情况下,可以选择Tamhanes T2, 用t检验进行各组均值间的配对比较。第十二张,PPT共六十八页,创作于2022年6月12选择多重比较方式后,点击OK,得到输出结果。从表中可以看出,地区2与地区3之间的差异是非常显著的,它们均值差的检验的尾概率为0.005,明显小于显著性水平0.05。第十三张,PPT共六十八页,创作于2022年6月13某大型连
7、锁超市为了解不同促销手段对商品销售额的影响,在其下属五个分店中,对同一类日常生活用品分别采用不同促销方式进行了为期四个月的销售对比试验(销售对比试验结果见所附数据集SY-22)。试利用方差分析方法,检验不同促销方式下的商品销售量是否存在显著性差异(试验前该类商品在五个分店内的月销售额基本处于同一水平)。例2分析思路:这是单一因素影响下的方差分析问题,可以以月销售额为因变量,以促销方式为影响因素变量进行分析;分析过程利用SPSS软件中的One-Way ANOVA菜单实现。 第十四张,PPT共六十八页,创作于2022年6月14操作步骤:打开数据集SY-22,变量SALE和A分别表示月销售额和促销方
8、式 。 依次选择Analyze Compare Means One-Way ANOVA,展开单因素方差分析对话框,将变量SALE送入Dependent list框,将影响因素变量A送入Factor框。 单击Post Hoc项,在打开的对话框中,选中LSD复选框,以进行各组均值间的两两比较。继续单击Continue按钮,返回到主对话框。 单击OK按钮,即得出单因素方差分析的运行结果 。第十五张,PPT共六十八页,创作于2022年6月15单因素方差分析的输出结果输出结果第十六张,PPT共六十八页,创作于2022年6月16双因素方差分析双因素方差分析的应用范围很广;应用条件:因变量是数值型变量,且来
9、自或近似来自正态总体。自变量是分类变量,变量可以是数值型或字符型的。各水平下的总体假设服从正态分布,而且假设各水平下的方差是相等的。第十七张,PPT共六十八页,创作于2022年6月17双因素方差分析双因素方差分析过程:可以分析出每一个因素的作用;各因素之间的交互作用;检验各总体间方差是否相等;能够对因素的各水平间均值差异进行比较等。第十八张,PPT共六十八页,创作于2022年6月18例3双因素方差分析下表是某商品S在不同地区和不同时期的销售量(千件)表。已知数据服从正态分布,则要检验地区因素及时间因素对销售量的影响是否显著。(SY-23)地区时期1234516.514.213.42.46.22
10、1.87.19.41.54.833.610.87.21.74.943.78.98.62.34.657.612.67.52.85.2由于销售量受地区和时间两个因素的影响,这是一个双因素方差分析的问题。第十九张,PPT共六十八页,创作于2022年6月191、单击分析(Analyze) 一般线性模型(General linear Model) 单变量(Univariate),打开主对话框。 步骤:2、从左框中选择因变量“销售量 ”进入因变量框内,选择“地区”和“时期”进入固定因子框内。点击确定。第二十张,PPT共六十八页,创作于2022年6月203、单击模型(Model)按纽选择分析模型,得到对话框
11、如图。全因子选项为系统默认项,建立全模型,全模型中包括因素之间的交互作用。如果选择分析两个因素的交互作用,则必须在每种水平组合下,取得两个以上的实验数据,才能实现两个因素的交互作用的分析结果。如果不考虑因素间的交互作用时,应当选择设定模型。第二十一张,PPT共六十八页,创作于2022年6月21先从左边框中选择因素变量进入模型框中,然后选择类型。一般不考虑交互作用时,选择主效应,考虑交互作用时,选择交互。本例中选择主效应。平方和一般选取默认项类型。单击继续,返回主对话框,点击确定就可以得到相应的双因素方差分析表.第二十二张,PPT共六十八页,创作于2022年6月22从表中数据可以看出,F值对应概
12、率P值都小于显著性水平0.05,这说明地区和时期对销售量的影响都是显著的。第二十三张,PPT共六十八页,创作于2022年6月23实验4:相关与回归分析相关分析回归分析第二十四张,PPT共六十八页,创作于2022年6月24相关分析相关分析是研究变量间密切程度的统计方法,线性相关分析研究的是两变量间线性关系的程度,用相关系数表示;可以通过分析菜单进行相关分析; SPSS提供的相关分析功能有双变量相关分析(Bivariate);偏相关分析 (Partial);距离相关分析(Distance)。第二十五张,PPT共六十八页,创作于2022年6月25双变量相关分析(简单相关分析) 两个变量之间的相关关系
13、称简单相关关系。有两种方法可以反映简单相关关系: 通过散点图直观地显示变量之间关系; 通过相关系数准确地反映两变量的关系程度。第二十六张,PPT共六十八页,创作于2022年6月26双变量相关分析散点图例4数据库SY-31中的变量X表示山东省人均国内生产总值,Y表示山东省城镇居民的消费额(资料来源:山东省2003年统计年鉴),现画出散点图来观察两个变量的关联程度。具体操作步骤如下:首先打开数据SY-31; 然后单击图形Graphs 散点Scatter, 打开散点图Scatter plot对话框,选择需要的散点图,图中的5个选项如下:第二十七张,PPT共六十八页,创作于2022年6月273. 如果
14、只考虑两个变量,可选择简单的散点图Simple,然后点击定义Define,打开简单散点图Simple Scatterplot对话框,如左图所示。 4. 选择变量分别进入X轴和Y轴,点击OK后就可以得到右边的散点图 。第二十八张,PPT共六十八页,创作于2022年6月28双变量相关分析相关系数具体操作如下: 1. 打开数据库SY-31后,单击分析Analyze 相关Correlate双变量 Bivariate;如图所示。第二十九张,PPT共六十八页,创作于2022年6月29用于计算分类变量的秩相关,考虑结点的影响用于计算分类变量的秩相关适用于正态分布等间隔测度的变量分析变量2、从左边的变量框中选
15、择需要考察的两个变量进入 变量框内,选择相关系数的种类,选择检验方式,单击选项Options按纽。 第三十张,PPT共六十八页,创作于2022年6月303.选择输出项和缺失值的处理方式。本例中选择输出基本统计描述。成对剔除带有缺失值的观测量剔除所有带有缺失值的观测量第三十一张,PPT共六十八页,创作于2022年6月314.单击OK,可以得到相关分析的结果。见图所示。从表中可以看到两个变量相关性分析的结果:相关系数是0.996,相关程度非常高,且假设检验的P值远远地小于0.05,可以认为人均国内生产总值与城镇居民消费额存在线性正相关关系。第三十二张,PPT共六十八页,创作于2022年6月32偏相
16、关分析 简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。第三十三张,PPT共六十八页,创作于2022年6月33例5为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表。试求火柴销售量与煤气户数的偏相关系数. 年份火柴销售量(万件)煤气户数(万户)卷烟销量(百箱)蚊香销量(十万盒)打火石销量(百万粒)6823.6925.6823.610.14.186924.125.77
17、23.4213.312.437022.7425.8822.099.496.57117.8427.4321.4311.0925.787218.2729.9524.9614.4828.167320.2933.5328.3716.9724.267422.6137.3142.5720.1630.187526.7141.1645.1626.3917.087631.1945.7352.4627.047.397730.550.5945.323.083.887829.6358.8246.824.4610.537929.6965.2851.1133.8220.098029.2571.2553.2933.5721
18、.228131.0573.3755.3639.5912.638232.2876.685448.4911.17第三十四张,PPT共六十八页,创作于2022年6月34求解火柴销售量与煤气户数的偏相关系数具体操作如下:1、首先打开数据文件SY-32,单击分析Analyze 相关 Correlate偏相关 Partial,打开对话框,见图所示。要考察的变量 其它客观存在的变量 2、从左边框内选择要考察的两个变量进入变量框内,其它变量进入控制框内,如本例中考察煤气户数与火柴销量的偏相关系数进入变量框内,其它(除年份外)进入控制框内。第三十五张,PPT共六十八页,创作于2022年6月35Partial C
19、orrelations 对话框第三十六张,PPT共六十八页,创作于2022年6月36Partial Correlations 对话框(即:Pearson相关系数)本例中选择简单相关系数。第三十七张,PPT共六十八页,创作于2022年6月37输出结果:从表中可以看出,火柴销量与煤气户数的简单相关系数为0.826,自由度为13,检验的P值为0.00;而偏相关系数为0.605,自由度为10,检验的P值为0.037,表示煤气户数对火柴销量的真实影响是显著的。 表中的上半部分是简单相关系数,下半部分是偏相关系数。第三十八张,PPT共六十八页,创作于2022年6月38回归分析研究的是自变量与因变量之间的非
20、确定性的因果关系;SPSS提供的回归分析过程有: 线性回归(Linear)、曲线估计(Curve Estimation)、二分变量逻辑回归 (Binary Logistic)、多分变量逻辑回归(Multinomial Logistic)、序回归(Ordinal)、概率单位回归(Probit)、非线性回归(Nonlinear)、加权估计(Weight Estimation)、最优编码回归(optimal Scaling)和二阶段最小平方法(2-Stage Least Squares )。回归分析第三十九张,PPT共六十八页,创作于2022年6月39线性回归分析线性回归是统计分析方法中最常用的方法
21、之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象 (因变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。介绍SPSS软件的线性回归分析的操作方法,包括求回归系数,给出回归模型的各项检验统计量值及相应的概率,对输出结果的分析等相关内容。第四十张,PPT共六十八页,创作于2022年6月401、线性回归的假设理论(1)正态性假设:即所研究的变量均服从正态分布;(2)等方差假设:即各变量总体的方差是相等的;(3)独立性假设, 即各变量之间是相互独立的;(4)残差项无自相关性,即误差
22、项之间互不相关;2、线性回归模型的检验项目(1)回归系数的检验(t检验)。(2)回归方程的检验(F检验)。(3)拟合程度判定(可决系数R2)。(4)D.W检验(残差项是否自相关)。(5)共线性检验(多元线性回归)。(6)残差图示分析(判断异方差性和残差序列自相关)。线性回归模型假设条件与模型的各种检验第四十一张,PPT共六十八页,创作于2022年6月411、打开数据文件,单击分析Analyze 回归Regression 线性Linear,打开对话框如图所示。指定回归方法全部选入逐步回归强行剔除向后剔除向前选择加权最小平方法指定选择参与回归分析观测量的变量指定作为观测量标签的变量线性回归分析的具
23、体步骤:2、从左边框中选择因变量Y,选择一个或多个自变量。从方法 框内下拉式菜单中选择回归分析方法。第四十二张,PPT共六十八页,创作于2022年6月423.单击统计量Statistics,打开线性回归:统计量对话框,可以选择输出的统计量如图所示。 德宾-沃森检验提供判定系数、估计标准误、ANOVA表等显示每个自变量进入方程后对R2和F值的影响观测值诊断估计(系统默认): 包括回归系数,回归系数标准误、标准化回归系数、回归系数检验统计量(t值)及相应的检验统计量概率的P值(sig)。 描述性统计量第四十三张,PPT共六十八页,创作于2022年6月434、如果需要观察图形,可单击绘制Plots按
24、纽,打开线性回归:图对话框,如图所示。在此对话框中可以选择所需要的图形。标准化预测值标准化残差剔除残差调整预测值学生化残差学生化剔除残差输出标准化残差相对于因变量的散布图在左上角的源变量框中,选择Dependent 进入X(或Y)轴变量框,选择其它变量进入Y(或X)轴变量框,除因变量外,其客观存在变量依次是:ZPRED:标准化预测值,ZRESID:标准化残差,DRESID:剔除残差,ADJPRED:修正后预测值,SRESID学生化残差,SDRESID:学生化剔除残差。第四十四张,PPT共六十八页,创作于2022年6月445、单击选项Options按纽,打开线性回归:选项对话框,如图所示。可以从
25、中选择模型拟合判断准则及缺失值的处理方式。步行方法标准(Stepping Method Criteria )栏,设置变量引入或剔除模型的判别标准。使用F的概率(Use probability of F):采用F检验的概率为判别依据。使用F值(Use F value): 采用F值作为检验标准。Include constant in equation 回归方程中包括常数项。缺失值(Missing Values): 缺失值的处理方式。第四十五张,PPT共六十八页,创作于2022年6月456、如果要保存预测值等数据,可单击保存(Save)按纽打开对话框。选择需要保存的数据种类作为新变量存在数据编辑窗口
26、。其中有预测值、残差,预测区间等。7、当所有选择完成后,单击OK得到分析结果。 第四十六张,PPT共六十八页,创作于2022年6月46分析思路:绘制散点图,对两个变量之间相关关系的形式、方向做出大致判断;计算相关系数 ;若二者之间存在显著性线性相关,则建立回归方程;例6 已知某市10家百货商店职工的人均月销售额和利润率的数据(见数据SY33 ),试分析人均月销售额和利润率之间的关系,并建立利润率对人均月销售额的回归方程。第四十七张,PPT共六十八页,创作于2022年6月47操作步骤:打开数据集SY33,依次选择 图形 散点/点状,展开对话框。选中简单分布选项,单击定义按钮,进入对话框。将变量r
27、jxse送入“X 轴”框中,将变量lrl送入Y 轴框中。单击确定按钮,得到人均月销售额与利润率的散点图。依次选择 分析 相关双变量,展开对话框;将变量rjxse和lrl同时送入变量框中;单击确定按钮,得到人均月销售额与利润率的相关系数 。依次选择分析 回归 线性,展开对话框;将变量rjxse送入自变量框中,将变量lrl送入因变量框;单击确定按钮,得到回归过程运行结果 。第四十八张,PPT共六十八页,创作于2022年6月48输出结果 第四十九张,PPT共六十八页,创作于2022年6月49回归方程:输出结果 检验假设H0: 线性关系不显著第五十张,PPT共六十八页,创作于2022年6月50例7用数
28、据SY-32,考察火柴销售量与各影响因素之间的相关关系,建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。第五十一张,PPT共六十八页,创作于2022年6月511、打开数据文件SY-32,单击分析 回归 线性,打开线性对话框。2、从左边框中选择因变量和自变量。从方法框内下拉式菜单中选择逐步回归法。3、单击统计量,打开对话框,本例中选择估计、所有与模型拟合及拟合效果有关的选择项、D.W检验及奇异值诊断,选择标准差为2,即置信度约为95%。点击继续。4、单击绘制按纽,打开对话框。选择Dependent 进入X轴变量框,选择标
29、准化残差ZRESID变量进入Y(或X)轴变量框,绘制残差图 。5、单击选项按纽,打开对话框。选择默认项。6、点击确定,得到结果 。步骤:第五十二张,PPT共六十八页,创作于2022年6月52输出结果(部分):模型综合分析表 模型综合分析表中,有模型的复相关系数R,样本决定系数R2,修正的可决系数,估计标准误,模型变化导致的可决系数及F值的变化,D.W检验值等。由上表中知模型3的修正的可决系数为0.993,其模型的拟合程度最好, DW值为2.066(在2附近),显然通过DW检验,说明残差项不存在一阶自相关。序列相关检验第五十三张,PPT共六十八页,创作于2022年6月53方差分析表:方差分析表同
30、时给出了3个模型的方差分析表。其中模型3的F值最大,说明模型3的回归效果最显著。第五十四张,PPT共六十八页,创作于2022年6月54回归系数表:表中的Model栏中,模型1是先将卷烟销量作为自变量进入模型,模型2将卷烟销量与打火石销量两个自变量进入模型,模型3是将卷烟、打火石和煤气户数三个自变量进入模型。第四个自变量蚊香销量没有通过检验自动剔除。建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型第五十五张,PPT共六十八页,创作于2022年6月55回归系数表:回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在0.7以上,说明进
31、入模型的自变量对因变量的影响都比较显著。非标准化回归系数标准化回归系数第五十六张,PPT共六十八页,创作于2022年6月56由最后两列的容忍度Tolerance和方差膨胀因子VIF的值来看,自变量之间不存在强烈的共线性。共线性统计 方差膨胀因子其值介于1之间,其值越大,自变量之间存在共线性的可能性越大。检验表明,VIF10,说明解释变量与其余解释变量之间存在严重的多重共线性容忍度介于0-1之间,其值越小,自变量与其他自变量之间的共线性越强。使用容忍度作为共线性度量标准的条件比较严格,观测量一定要大致近似于正态分布。第五十七张,PPT共六十八页,创作于2022年6月57残差统计表: 残差统计表中表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。第五十八张,PPT共六十八页,创作于2022年6月58奇异值表(标准化残差值大于2)奇异值表中依次是序号,标准化残差值,实际观测值、预测值及残差值。表中给出的两个个体数据的标准化残差(数据号为12和14)超出了2。第五十九张,PPT共六十八页,创作于2022年6月59标准化残差图(异方差的检验): 由图中可以看出,残差图中的点分布是随机的,没有出现趋势性,所以回归模型是有效的。第六十张,PPT共六十八页,创作于2022年6月60最终得回归模型为:第六十一张,PPT
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度企业销售培训劳动合同范本(2024版)
- 人教版小学语文六年级上册教案全册教案
- 2024年度电气设备防雷保护系统升级改造合同
- 《上期期末家长会》课件
- 2024年度大型货车租赁安全管理合同2篇
- 2024中国移动福建公司招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国电建集团昆明勘测设计研究院限公司招聘100人易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国电信北京公司招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国交建招聘中交天航滨海公司专业人才71人易考易错模拟试题(共500题)试卷后附参考答案
- 2024东海航空深圳宝安区宝安机场招聘效益支持专员(广东)易考易错模拟试题(共500题)试卷后附参考答案
- 标准中介服务合同样本
- 河北省唐山市部分学校2024-2025学年高一上学期11月期中联考化学试卷(含答案)
- 肠道菌群与炎症性肠病
- 2024-2030年中国汽车模具行业竞争模式及投资战略分析报告
- 第14课《山水画的意境》跨学科教学设计+2023-2024学年初中语文统编版九年级下册
- 人教版四年级上册数学第六单元《除数是两位数的除法》测试卷含答案(完整版)
- 学校心理辅导谈话方案预案
- PMP项目管理师考试试卷及答案指导(2024年)
- 2024年-2025年《市场调查与预测》考试题库及答案
- 劳动通论学习通超星期末考试答案章节答案2024年
- 新高考背景下2025届高考英语完形和语填的命题实践和思考 课件
评论
0/150
提交评论