回归分析方差分析_第1页
回归分析方差分析_第2页
回归分析方差分析_第3页
回归分析方差分析_第4页
回归分析方差分析_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析方差分析第1页,共92页,2023年,2月20日,星期四主要内容线性回归曲线回归第2页,共92页,2023年,2月20日,星期四线性回归第3页,共92页,2023年,2月20日,星期四线性回归

一、相关分析与回归分析共性:都是研究两变量之间的关系差异:相关模型回归模型变量要求X,Y都是随机变量要求X为可控变量,Y变量是随机变量分布X,Y呈正态分布变量X的条件分布为正态分布第4页,共92页,2023年,2月20日,星期四二、回归方程的数学模型模型一元回归:用于分析两个变量之间的关系基本形式是:第5页,共92页,2023年,2月20日,星期四二、回归方程的数学模型模型求解:最小二乘法第6页,共92页,2023年,2月20日,星期四二、回归方程的数学模型模型多元回归:用于分析n个自变量和因变量y之间的关系基本形式第7页,共92页,2023年,2月20日,星期四二、回归方程的数学模型模型求解:即要使得分别对b0,b1,…,bn求导,并令其一阶导数为0,可求出各个系数第8页,共92页,2023年,2月20日,星期四二、回归方程的数学模型估计标准误差是估计y与对应观测值之间的离差平方和第9页,共92页,2023年,2月20日,星期四三、回归方程的选择

SPSS中可以提供多元回归分析,当有多个自变量时,不仅要求与因变量相关,且要求自变量之间彼此尽可能独立。SPSS中提供了五种选择:强制进入ENTER:进入“Enter”所选择的自变量将全部进入建立的回归方程中,该项为默认方式。强制退出REMOVE:后进入“Remove”将进入方程中的自变量同时剔除。第10页,共92页,2023年,2月20日,星期四向前选择FORWARD:条件进入“Forward”根据“Options”对话框中的设置,在方程中每次加入一个变量,直至加入所有符合条件的变量为止。

向后剔除BACKWARD:先进入“Backward”自变量框中所有的变量同时进入方程中,然后根据“Options”对话框中的设置,剔除某个变量,直到所建立的方程中不再含有可剔除的变量为止。逐步回归STEPWISE:逐步进入“Stepwise”根据“Options”对话框中的设置,在方程中加入或剔除单个变量直到所建立的方程中不再含有可加入或剔除的变量为止。第11页,共92页,2023年,2月20日,星期四

四、功能菜单 菜单“Analyze->Regression->Linear”

对话框设置因变量:

“Dependent”栏设置自变量:

“Independent(S)”框

“SelectionVariable”为控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。第12页,共92页,2023年,2月20日,星期四RegressionCoefficients复选框组:定义回归系数的输出情况,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidenceintervals输出每个回归系数的95%可信区间;选中covariancematrix会输出各个自变量的相关矩阵和方差、协方差矩阵。Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。Modelfit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:R,R2和调整的R2,标准误及方差分析表。第13页,共92页,2023年,2月20日,星期四Rsquaredchange复选框:显示模型拟合过程中R2、F值和p值的改变Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。Partandpartialcorrelations复选框:显示自变量间的相关、部分相关和偏相关系数。Collinearitydiagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)第14页,共92页,2023年,2月20日,星期四散点图“DEPENDNT”因变量。“ZPRED”标准化预测值。“ZRESID”标准化残差。“DRESID”删除残差。“ADJPRED”修正后预测值。“SRESID”学生氏化残差。“SDRESID”学生氏化删除残差。“StandardizedResidualPlots”设置各变量的标准化残差图形输出。其中共包含两个选项:

“Histogram”用直方图显示标准化残差。

“Normalprobabilityplots”比较标准化残差与正态残差的分布示意图。“Produceallpartialplot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。第15页,共92页,2023年,2月20日,星期四SAVE按钮①“PredictedValues”预测值栏选项:

Unstandardized非标准化预测值。在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回归模型拟合的预测值。

Standardized标准化预测值。Adjusted调整后预测值。S.E.ofmeanpredictions预测值的标准误。②“Distances”距离栏选项:

Mahalanobis:距离。Cook’s”:Cook距离。Leveragevalues:杠杆值。③“PredictionIntervals”预测区间选项:

Mean:区间的中心位置。

Individual:观测量上限和下限的预测区间。第16页,共92页,2023年,2月20日,星期四④“SavetoNewFile”保存为新文件:

选中“Coefficientstatistics”项将回归系数保存到指定的文件中。⑤“ExportmodelinformationtoXMLfile”

导出统计过程中的回归模型信息到指定XML文件。⑥“Residuals”

保存残差选项:

“Unstandardized”非标准化残差。“Standardized”标准化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentizeddeleted”学生氏化删除残差。⑦“InfluenceStatistics”

统计量的影响。

“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。“StandardizedDfBeta(s)”标准化的DfBeta值。“DiFit”

删除一个特定的观测值所引起的预测值的变化。“StandardizedDiFit”标准化的DiFit值。“Covarianceratio”删除一个观测值后的协方差矩阵的行列式和带有全部观测值的协方差矩阵的行列式的比率。第17页,共92页,2023年,2月20日,星期四设置回归分析的一些选项,有:SteppingMethodCriteria单选钮组:设置纳入和排除标准,可按P值或F值来设置。Includeconstantinequation复选框:用于决定是否在模型中包括常数项,默认选中。MissingValues单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(Excludecaseslistwise)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记录(Excludecasespairwise);将缺失值用该变量的均数代替(Replacewithmean)。第18页,共92页,2023年,2月20日,星期四

五、实例分析 考察Employeedata.sav文件中,当前工资水平与过去工资,受教育年数,来公司工作时间、工种、来公司前的工作经验和是否为少数民族的线性模型。第19页,共92页,2023年,2月20日,星期四结果分析第20页,共92页,2023年,2月20日,星期四回归模型统计量:R是相关系数;RSquare相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);AdjustedRSquare调整后的判定系数;Std.ErroroftheEstimate估计标准误差。第21页,共92页,2023年,2月20日,星期四方差分析表,F值为1622.118,显著性概率是0.000,表明回归极显著。第22页,共92页,2023年,2月20日,星期四第23页,共92页,2023年,2月20日,星期四第24页,共92页,2023年,2月20日,星期四曲线回归第25页,共92页,2023年,2月20日,星期四曲线回归的目标

选定某一用方程表达式的曲线,使得实际数据与理论数据之间的差异尽可能的小。÷第26页,共92页,2023年,2月20日,星期四自变量与因变量的关系÷注:本质线性关系又称为拟线性关系,可转换成线性关系,用最小二乘法的方法求出相关系数本质非线性关系不能转换成线性关系,仅能用迭代方法或分段平均值法求出第27页,共92页,2023年,2月20日,星期四SPSS功能本质线性关系

Analyze->Regression->CurveEstimation本质非线性关系

Analyze->Regression->NonLinear第28页,共92页,2023年,2月20日,星期四变量关系的基本研究方法做散点图,初步判断两变量的关系,曲线的形状从专业的知识分析,或长期积累的经验找出变量间的函数类型建立简单、适合的模型第29页,共92页,2023年,2月20日,星期四SPSS中的11种拟线性模型模型名称回归方程相应的线性回归方程Linear(线性)Y=b0+b1tQuadratic(二次)Y=b0+b1t+b2t2Compound(复合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生长)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对数)Y=b0+b1ln(t)Y=b0+b1mCubic(三次)Y=b0+b1t+b2t2+b3t3第30页,共92页,2023年,2月20日,星期四SPSS中的11种拟线性模型(续)模型名称回归方程相应的线性回归方程S型Y=eb0+b1/tLn(Y)=b0+b1/

tExponential(指数)Y=b0*

eb1*tLn(Y)=ln(b0)+b1tInverse(逆)Y=b0+b1/tY=b0+b1/tPower(幂)Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)第31页,共92页,2023年,2月20日,星期四曲线选择的一般准则如果因变量的一阶差分(Yi-Yi-1)接近常数,用直线拟合如果因变量的二阶差分(Yi-Yi-1)-(Yi-1-Yi-2)接近常数,用抛物线拟合如果一阶差分倾向于按固定的百分比Yi/Yi-1减少,用修改指数曲线对数一阶差分接近常数,用拟合指数函数对数二阶差分接近常数,用拟合指数抛物线若倒数的一阶差分几乎按固定的百分比变化,用逻辑曲线第32页,共92页,2023年,2月20日,星期四功能菜单菜单Analyze->Regression->CurveEstimation变量选择区因变量自变量模型选择第33页,共92页,2023年,2月20日,星期四Save按钮保存预报值保存残差保存预报区间第34页,共92页,2023年,2月20日,星期四实例分析数据Car.sav为有关汽车数据,试分析mpg(每加仑汽油行驶里程)与weight(车重)的关系?第35页,共92页,2023年,2月20日,星期四实例分析步骤先做散点图(Graphs->Scatter->Simple):weight(X)、mpg(Y),看每加仑汽油行驶里程数mpg(Y)随着汽车自重weight(X)的增加而减少的关系,也发现是曲线关系第36页,共92页,2023年,2月20日,星期四实例分析步骤建立若干曲线模型(可试着选用所有模型Models)Analyze->Regression->CurveEstimationDependent:mpgIndependent:weightModels:全选(除了最后一个逻辑回归)选Plotmodels:输出模型图形点击OK第37页,共92页,2023年,2月20日,星期四结果分析判定模型的优劣性:一般通过比较Rsquare和“F”值的大小,Rsquare值和“F”值越大,模型越优越。分析:比较各种模型的相关系数的平方值Rsquare和F值,结果是复合模型(Compound)的Rsquare最大

R2=0.70678方程为:mpg=60.15*0.999664weight说明:Growth和Exponential的结果也相同,也一样。第38页,共92页,2023年,2月20日,星期四练习对南瓜现货交易的收盘价进行曲线拟合,找出最佳拟合曲线。(使用时间作为自变量)数据见NG11.xls第39页,共92页,2023年,2月20日,星期四方差分析何帆第40页,共92页,2023年,2月20日,星期四本课主要内容方差分析概述单因变量单因素方差分析单因变量多因素方差分析协方差分析第41页,共92页,2023年,2月20日,星期四

方差分析概述

一、问题的提出通过参数检验可以解决两两总体均值的比较.多个总体均值的检验如何作?(如:北京、上海、广州周岁儿童平均身高的比较)可多次采用两样本t检验方法实现可以利用方差分析的方法来实现第42页,共92页,2023年,2月20日,星期四方差分析概述二、方差分析目的 方差分析是从数据间的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素.

例如:影响某农作物亩产量的因素(品种、施肥量、气候等)影响推销某种商品的推销额(不同的推销策略、价格、包装方式、推销人员的形象等)第43页,共92页,2023年,2月20日,星期四方差分析基本原理方差分析的前提:各样本相互独立各样本来自正态总体样本所属的总体方差相等,即方差齐性第44页,共92页,2023年,2月20日,星期四方差分析基本原理

认为不同处理组的均值间的差别基本来源有两个:

(1)随机误差:如抽取样本的随机性造成的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作SSE

(2)系统误差:由控制因素中不同水平造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作SSA第45页,共92页,2023年,2月20日,星期四方差分析基本原理(续)组内SSE

、组间SSA除以各自的自由度(组内dfE=n-m,组间dfA=m-1,其中n为样本总数,m为组数),得到其均方MSE和MSA一种情况是处理没有作用,即各组样本均来自同一总体,MSE/MSA≈1。另一种情况是处理确实有作用,那么,MSA/MSE(远远大于1,足以超过某个临界值)。F=MSA/MSE,服从F分布。用F值与其临界值比较,推断各样本是否来自相同的总体.第46页,共92页,2023年,2月20日,星期四方差分析的假设检验零假设H0:m组样本均值都相同,即μ1=μ2=....=μm如果经过计算结果组间均方远远大于组内均方(MSA>>

MSE

),F>F0.05(dfA,dfE),p<=0.05,拒绝零假设,说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义;否则,F<F0.05((dfA,dfE),p>0.05不能拒绝零假设,说明样本来自相同的正态总体,处理间无差异。第47页,共92页,2023年,2月20日,星期四F分布曲线第48页,共92页,2023年,2月20日,星期四F

分布曲线下面积与概率第49页,共92页,2023年,2月20日,星期四第50页,共92页,2023年,2月20日,星期四方差分析过程

1、One-Way过程:单因素简单方差分析过程。在CompareMeans菜单项中,可以进行单因素方差分析、均值多重比较和相对比较。

2、GeneralLinearModel(简称GLM)过程:GLM过程由Analyze菜单直接调用。这些过程可以完成简单的多因素方差分析和协方差分析,不但可以分析各因素的主效应,还可以分析各因素间的交互效应。第51页,共92页,2023年,2月20日,星期四GeneralLinearModel过程简称GLM,在GeneralLinearModel菜单项下有四项:Univariate:提供回归分析和一个因变量和一个或几个因素变量的方差分析。Multivariate:可进行多因变量的多因素分析RepeatedMeasure:可进行重复测量方差分析VarianceComponent:可进行方差成分分析。通过计算方差估计值,可以帮助我们分析如何减小方差。第52页,共92页,2023年,2月20日,星期四单因变量单因素方差分析也称为一维方差分析,对二组以上的均值加以比较。目的 检验某一个控制因素的改变是否会给观察变量带来显著影响.例如:考察不同肥料对某农作物亩产量是否有显著差异.考察不同学历是否对工资收入产生显著影响.考察不同的推销策略是否对推销额产生显著影响.第53页,共92页,2023年,2月20日,星期四单因变量单因素方差分析基本思路(1)入手点:

检验控制变量的不同水平下,各总体的分布是否存在显著差异,进而判断控制变量是否对观测变量产生了显著影响.(2)前提:

不同水平下各总体服从方差相等的正态分布.(3)H0:不同水平下,各总体均值无显著差异.即:不同水平下控制因素的影响不显著.第54页,共92页,2023年,2月20日,星期四单因变量单因素方差分析基本思路

(4)构造F统计量 因为:总变差=组间差异+组内差异 可证明:SST=SSA+SSE(设:k个水平)

考察平均的组间差异与平均的组内差异的比值,于是第55页,共92页,2023年,2月20日,星期四单因变量单因素方差分析基本思路

(5)结论: F值较大,F值的相伴概率<=用户给定的显著性水平a,则拒绝H0,认为不同水平下各总体均值有显著差异; F值较小,F值的相伴概率>用户给定的显著性水平a,则不能拒绝H0,可以认为不同水平下各总体均值无显著差异.第56页,共92页,2023年,2月20日,星期四应用实例某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别?(数据:石棉肺患者肺活量.sav)第57页,共92页,2023年,2月20日,星期四功能菜单方法一:使用功能菜单”Analyze->Comparemeans->One-WayANOVA”进行分析第58页,共92页,2023年,2月20日,星期四功能菜单方法二:使用功能菜单”Analyze->GeneralLinearModel->Univariate”进行分析点击该菜单,弹出对话框第59页,共92页,2023年,2月20日,星期四Model按钮用来指定模型类型自定义模型形式离差平方和第60页,共92页,2023年,2月20日,星期四Plot按钮第61页,共92页,2023年,2月20日,星期四PostHoc按钮选入用来做多个均值的比较因素假定方差齐的方法第62页,共92页,2023年,2月20日,星期四Option按钮可以显示的内容第63页,共92页,2023年,2月20日,星期四处理过程假设

H0:三组石棉矿工的用力肺活量无差别

H1:三组石棉矿工的用力肺活量有差别操作方法第64页,共92页,2023年,2月20日,星期四分析结果方差齐性检验方差分析表第65页,共92页,2023年,2月20日,星期四方差分析的多元比较第66页,共92页,2023年,2月20日,星期四

思考:调查不同水稻品种百丛中稻纵卷叶螟幼虫的数量,数据如表所示。

重复水稻品种12345141333837312393735393434035353834分析水稻品种对稻纵卷叶螟幼虫抗虫性是否存在显著性差异。第67页,共92页,2023年,2月20日,星期四单因变量多因素方差分析当分析某一事物的变化原因,影响因素的不只一个,可能是多个因素影响着事物的变化方向和程度时,单因素方差分析就无能为力了例如水稻的产量与光照强度和施肥量是否都有关系,如何检验?可采用多因素方差分析方法第68页,共92页,2023年,2月20日,星期四问题陈述研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表1。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。(a=0.05)第69页,共92页,2023年,2月20日,星期四表1不同温度与不同湿度粘虫发育历期表

相对湿度(%)温度℃重复12341002591.295.093.893.02787.684.781.282.42979.267.075.770.63165.263.363.663.3802593.289.395.195.52785.881.681.084.42979.070.867.778.83170.786.566.964.94025100.2103.398.3103.82790.691.794.592.22977.285.881.779.73173.673.276.472.5第70页,共92页,2023年,2月20日,星期四单因变量多因素方差分析总的离差平方和可表示为

SST=SSA+SSB+SS(AxB)+SSESSA:A因素产生的离差平方和SSB:B因素产生的离差平方和SS(AxB):A与B的交互作用产生的离差平方和SSE:抽样产生的随机差异第71页,共92页,2023年,2月20日,星期四单因变量多因素方差分析零假设:H0A:不同温度对粘虫发育历期无影响H0B:不同湿度对粘虫发育历期无影响H0(AxB):不同温度和湿度的交互作用对粘虫发育历期无影响第72页,共92页,2023年,2月20日,星期四单因变量多因素方差分析F检验:构造F统计量如下:第73页,共92页,2023年,2月20日,星期四实例分析研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表1。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。(a=0.05)第74页,共92页,2023年,2月20日,星期四准备分析数据在数据编辑窗口中输入数据。建立因变量历期“历期”变量,因素变量温度“A”,湿度为“B”变量,重复变量“重复”。然后输入对应的数值,如图。第75页,共92页,2023年,2月20日,星期四第76页,共92页,2023年,2月20日,星期四功能菜单点击主菜单“Analyze”项,在下拉菜单中点击“GeneralLinearModel”项,在右拉式菜单中点击“Univariate”项,系统打开单因变量多因素方差分析设置窗口如图。第77页,共92页,2023年,2月20日,星期四第78页,共92页,2023年,2月20日,星期四Model选择在“BuildTerm(s)”栏右面的有一向下箭头按钮(下拉按钮),单击该按钮可以展开一小菜单,在下拉菜单中有如下几项选择:Interaction选中此项可以指定任意的交互效应;Maineffects选中此项可以指定主效应;All2-way指定所有2维交互效应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论