第3讲-回归分析-方差分析_第1页
第3讲-回归分析-方差分析_第2页
第3讲-回归分析-方差分析_第3页
第3讲-回归分析-方差分析_第4页
第3讲-回归分析-方差分析_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主要内容 线性回归线性回归 曲线回归曲线回归线性回归 一、相关分析与回归分析共性:都是研究两变量之间的关系差异:相关模型回归模型变量要求X,Y都是随机变量要求X为可控变量,Y变量是随机变量分布 X,Y呈正态分布 变量X的条件分布为正态分布二、回归方程的数学模型u模型模型u一元回归一元回归:用于分析两个变量之间的关系用于分析两个变量之间的关系u基本形式是:基本形式是:和和斜斜率率分分别别是是回回归归直直线线的的截截距距1010,bbxbbYii 二、回归方程的数学模型二、回归方程的数学模型模型求解:最小二乘法模型求解:最小二乘法 2201miniiiiif xyyybb x0101201bb0i

2、iiiiinbbxybxbxx y为了求回归系数, 令一阶导为 ,得1201()()()iiixxyybxxbyb x从中解出:二、回归方程的数学模型二、回归方程的数学模型u模型模型u多元回归:用于分析多元回归:用于分析n个自变量和因变量个自变量和因变量y之间的关系之间的关系u基本形式基本形式niniiixbxbxbbY 22110二、回归方程的数学模型二、回归方程的数学模型模型求解:模型求解: 即要使得即要使得分别对b0,b1,bn求导,并令其一阶导数为0,可求出各个系数2201 122( )()()miniiiiiinnif xyyybb xb xb x二、回归方程的数学模型二、回归方程的

3、数学模型u估计标准误差估计标准误差 是估计是估计y与对应观测值之间的离差平方和与对应观测值之间的离差平方和222()()()TyyiiiiiERSSLyyyyyySSSSERSSSS其中为回归平方和为剩余变差三、回归方程的选择三、回归方程的选择SPSS中可以提供多元回归分析,当有多中可以提供多元回归分析,当有多个自变量时,不仅要求与因变量相关,个自变量时,不仅要求与因变量相关,且要求自变量之间彼此尽可能独立。且要求自变量之间彼此尽可能独立。SPSS中提供了五种选择: 强制进入强制进入ENTER: 进入进入 “Enter”所选择的所选择的自变量将全部进入建立的回归方程中,该项自变量将全部进入建立

4、的回归方程中,该项为默认方式。为默认方式。 强制退出强制退出REMOVE: 后进入后进入 “Remove”将将进入方程中的自变量同时剔除。进入方程中的自变量同时剔除。 向前选择向前选择FORWARD: 条件进入条件进入“Forward”根根据据“Options”对话框中的设置,在方程中每次加对话框中的设置,在方程中每次加入一个变量,直至加入所有符合条件的变量为止。入一个变量,直至加入所有符合条件的变量为止。 向后剔除向后剔除BACKWARD: 先进入先进入 “Backward”自自变量框中所有的变量同时进入方程中,然后根据变量框中所有的变量同时进入方程中,然后根据“Options”对话框中的设

5、置,剔除某个变量,直对话框中的设置,剔除某个变量,直到所建立的方程中不再含有可剔除的变量为止。到所建立的方程中不再含有可剔除的变量为止。 逐步回归逐步回归STEPWISE: 逐步进入逐步进入 “Stepwise”根据根据“Options”对话框中的设置,在方程中加入对话框中的设置,在方程中加入或剔除单个变量直到所建立的方程中不再含有可或剔除单个变量直到所建立的方程中不再含有可加入或剔除的变量为止。加入或剔除的变量为止。 四、功能菜单菜单“Analyze-Regression-Linear” 对话框 设置因变量:设置因变量: “Dependent”栏 设置自变量:设置自变量: “Independ

6、ent(S)”框 “Selection Variable”为控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。 Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals输出每个回归系数的95%可信区间;选中covariance matrix会输出各个自变量的相关矩阵和方差、协方差矩阵。 Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关

7、性检验、超出规定的n倍标准误的残差列表。 Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:R,R2和调整的R2, 标准误及方差分析表。 R squared change复选框:显示模型拟合过程中R2、F值和p值的改变 Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。 Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。 Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenval

8、ues)、方差膨胀因子(VIF)散点图 “DEPENDNT”因变量。 “ZPRED”标准化预测值。 “ZRESID”标准化残差。 “DRESID”删除残差。 “ADJPRED”修正后预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。 “Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项: “Histogram”用直方图显示标准化残差。 “Normal probability plots”比较标准化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一个自变量生成其残差对

9、因变量残差的散点图。SAVE按钮按钮 “Predicted Values”预测值栏选项:预测值栏选项: Unstandardized 非标准化预测值。在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回归模型拟合的预测值。Standardized 标准化预测值。 Adjusted 调整后预测值。S.E. of mean predictions 预测值的标准误。 “Distances”距离栏选项:距离栏选项: Mahalanobis: 距离。 Cooks”: Cook距离。 Leverage values: 杠杆值。 “Prediction Intervals”预测区间选项:预

10、测区间选项: Mean: 区间的中心位置。Individual: 观测量上限和下限的预测区间。 “Save to New File”保存为新文件:保存为新文件: 选中“Coefficient statistics”项将回归系数保存到指定的文件中。 “Export model information to XML file” 导出统计过程中的回归模型信息到指定XML文件。 “Residuals” 保存残差选项:保存残差选项: “Unstandardized”非标准化残差。 “Standardized”标准化残差。 “Studentized”学生氏化残差。 “Deleted”删除残差。 “Stud

11、entized deleted”学生氏化删除残差。 “Influence Statistics” 统计量的影响。统计量的影响。“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。 “Standardized DfBeta(s)”标准化的DfBeta值。 “DiFit” 删除一个特定的观测值所引起的预测值的变化。“Standardized DiFit”标准化的DiFit值。“Covariance ratio”删除一个观测值后的协方差矩阵的行列式和带有全部观测值的协方差矩阵的行列式的比率。设置回归分析的一些选项,有: Stepping Method Criteria单选钮组:设置纳入

12、和排除标准,可按P值或F值来设置。 Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。 Missing Values单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记录(Exclude cases pairwise);将缺失值用该变量的均数代替(Replace with mean)。五、实例分析考察Employee data.sav文件中,当前工资水平与过去工资,受教育年数,来公司工作时间、工种、

13、来公司前的工作经验和是否为少数民族的线性模型。 结果分析 回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。 方差分析表,F值为1622.118,显著性概率是0.000,表明回归极显著。 1928.206 1.909*yBeginningSalary曲线回归的目标选定某一用方程表达式的曲线,使得实际数据与理论数据之间的差异尽可能的小。自变量与因变量的关系 本本质质非非线线

14、性性关关系系本本质质线线性性关关系系非非线线性性关关系系简简单单线线性性关关系系注:注: 本质线性关系又称为拟线性关系,可转换成线性本质线性关系又称为拟线性关系,可转换成线性关系,用最小二乘法的方法求出相关系数关系,用最小二乘法的方法求出相关系数 本质非线性关系不能转换成线性关系,仅能用迭本质非线性关系不能转换成线性关系,仅能用迭代方法或分段平均值法求出代方法或分段平均值法求出SPSS功能 本质线性关系Analyze-Regression-Curve Estimation 本质非线性关系Analyze-Regression-NonLinear变量关系的基本研究方法 做散点图,初步判断两变量的关

15、系,曲线的形状 从专业的知识分析,或长期积累的经验找出变量间的函数类型 建立简单、适合的模型SPSS中的11种拟线性模型模型名称模型名称回归方程回归方程相应的线性回归方程相应的线性回归方程Linear(线性线性)Y=b0+b1tQuadratic(二次二次) Y=b0+b1t+b2t2Compound(复合复合) Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生长生长)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对对数数)Y=b0+b1ln(t)Y=b0+b1mCubic(三次三次)Y=b0+b1t+b2t2+b3t3SPSS中的11种拟线性模型

16、(续)模型名称模型名称回归方程回归方程相应的线性回归方程相应的线性回归方程S型型Y=eb0+b1/tLn(Y)=b0+b1 / tExponential(指数指数)Y=b0 * eb1*tLn(Y)=ln(b0)+b1tInverse(逆逆)Y=b0+b1/tY=b0+b1/tPower(幂幂)Y=b0(tb1 )Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑逻辑) Y=1/(1/u+b0b1t) Ln(1/Y-1/u)=ln(b0+ln(b1)t)曲线选择的一般准则 如果因变量的一阶差分如果因变量的一阶差分(Yi-Yi-1)接近常数,用接近常数,用直线拟合直线拟合 如果因变量

17、的二阶差分如果因变量的二阶差分(Yi-Yi-1)-(Yi-1-Yi-2)接接近常数,用抛物线拟合近常数,用抛物线拟合 如果一阶差分倾向于按固定的百分比如果一阶差分倾向于按固定的百分比Yi/Yi-1减减少,用修改指数曲线少,用修改指数曲线 对数一阶差分接近常数,用拟合指数函数对数一阶差分接近常数,用拟合指数函数 对数二阶差分接近常数,用拟合指数抛物线对数二阶差分接近常数,用拟合指数抛物线 若倒数的一阶差分几乎按固定的百分比变化,若倒数的一阶差分几乎按固定的百分比变化,用逻辑曲线用逻辑曲线功能菜单 菜单Analyze-Regression- Curve Estimation变量选择区变量选择区因变

18、量因变量自变量自变量模型选择模型选择 Save 按钮保存预报值保存预报值保存残差保存残差保存预报区间保存预报区间实例分析 数据Car.sav为有关汽车数据,试分析mpg(每加仑汽油行驶里程)与weight(车重)的关系?实例分析步骤 先做散点图(Graphs -Scatter-Simple):weight(X)、mpg(Y),看每加仑汽油行驶里程数mpg(Y)随着汽车自重weight(X)的增加而减少的关系,也发现是曲线关系实例分析步骤 建立若干曲线模型(可试着选用所有模型Models) Analyze-Regression- Curve Estimation Dependent: mpg I

19、ndependent: weight Models: 全选(除了最后一个逻辑回归) 选Plot models:输出模型图形 点击OK结果分析 判定模型的优劣性:一般通过比较R square和“F”值的大小, R square值和“F”值越大,模型越优越。 分析:比较各种模型的相关系数的平方值R square和F值,结果是复合模型(Compound) 的 R square最大R2=0.70678 方程为:mpg=60.15*0.999664weight 说明:Growth和Exponential的结果也相同,也一样。练习 对南瓜现货交易的收盘价进行曲线拟合,找出最佳拟合曲线。(使用时间作为自变量

20、) 数据见NG11.xls本课主要内容1. 方差分析概述方差分析概述2. 单因变量单因素方差分析单因变量单因素方差分析3. 单因变量多因素方差分析单因变量多因素方差分析4. 协方差分析协方差分析方差分析概述 一、问题的提出一、问题的提出通过参数检验可以解决两两总体均值的比较通过参数检验可以解决两两总体均值的比较.n 多个总体均值的检验如何作?多个总体均值的检验如何作?(如:北京、如:北京、上海、广州周岁儿童平均身高的比较)上海、广州周岁儿童平均身高的比较)l可多次采用两样本可多次采用两样本t检验方法实现检验方法实现l可以利用方差分析的方法来实现可以利用方差分析的方法来实现方差分析概述二、方差分

21、析目的二、方差分析目的方差分析是从数据间的差异入手,分析哪些因方差分析是从数据间的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素素是影响数据差异的众多因素中的主要因素.例如:例如:l 影响某农作物亩产量的因素影响某农作物亩产量的因素(品种、施肥量、品种、施肥量、气候等气候等)l 影响推销某种商品的推销额影响推销某种商品的推销额(不同的推销策略、不同的推销策略、价格、包装方式、推销人员的形象等价格、包装方式、推销人员的形象等)方差分析基本原理方差分析的前提:方差分析的前提: 各样本相互独立各样本相互独立 各样本来自正态总体各样本来自正态总体 样本所属的总体方差相等,即方差齐性样本所属

22、的总体方差相等,即方差齐性方差分析基本原理认为不同处理组的均值间的差别基本来源有两个认为不同处理组的均值间的差别基本来源有两个:(1)随机误差:如抽取样本的随机性造成的差)随机误差:如抽取样本的随机性造成的差异,称为组内差异,用变量在各组的均值与该组异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,内变量值之偏差平方和的总和表示, 记作记作SSE (2)系统误差:由控制因素中不同水平造成的)系统误差:由控制因素中不同水平造成的差异,称为组间差异。用变量在各组的均值与总差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作均值之偏差平方和表示,记作SSA方差

23、分析基本原理(续) 组内组内SSE 、组间、组间SSA除以各自的自由度除以各自的自由度(组内组内dfE =n-m,组间,组间dfA=m-1,其中,其中n为样本总数,为样本总数,m为为组数组数),得到其均方,得到其均方MSE和和MSA 一种情况是处理没有作用,即各组样本均来自同一种情况是处理没有作用,即各组样本均来自同一总体,一总体, MSE/MSA1。另一种情况是处理确实。另一种情况是处理确实有作用,那么,有作用,那么, MSA/MSE (远远大于远远大于1,足以超足以超过某个临界值过某个临界值)。 F =MSA/MSE,服从,服从F分布。用分布。用F值与其临界值值与其临界值比较,推断各样本是

24、否来自相同的总体比较,推断各样本是否来自相同的总体.方差分析的假设检验 零假设零假设H0:m组样本均值都相同,即组样本均值都相同,即1= 2=.= m 如果经过计算结果组间均方远远大于组内均方如果经过计算结果组间均方远远大于组内均方( MSA MSE ),),FF0.05(dfA,dfE), p=0.05,拒绝零假设,拒绝零假设, 说明样本来自不同的说明样本来自不同的正态总体,说明处理造成均值的正态总体,说明处理造成均值的差异有统计意差异有统计意义义;否则;否则, F0.05不能拒不能拒绝零假设绝零假设,说明样本来自相同的正态总体,处,说明样本来自相同的正态总体,处理间理间无差异无差异。F 分

25、布曲线分布曲线10,10215, 1215, 52122121122/22/12121121)(222)(FFFfF 分布曲线下面积与概率分布曲线下面积与概率方差分析过程1、One-Way过程:单因素简单方差分析过过程:单因素简单方差分析过程。在程。在Compare Means菜单项中,可以进行菜单项中,可以进行单因素方差分析、均值多重比较和相对比较。单因素方差分析、均值多重比较和相对比较。2、General Linear Model(简称简称GLM)过程:过程:GLM过程由过程由Analyze菜单直接调用。这些过程菜单直接调用。这些过程可以完成简单的多因素方差分析和协方差分析,可以完成简单的

26、多因素方差分析和协方差分析,不但可以分析各因素的主效应,还可以分析各不但可以分析各因素的主效应,还可以分析各因素间的交互效应。因素间的交互效应。General Linear Model过程简称简称GLM,在在General Linear Model菜单项下有四菜单项下有四项:项:nUnivariateUnivariate:提供回归分析和一个因变量和一个:提供回归分析和一个因变量和一个或几个因素变量的方差分析。或几个因素变量的方差分析。nMultivariate:Multivariate:可进行多因变量的多因素分析可进行多因变量的多因素分析nRepeated Measure:Repeated M

27、easure:可进行重复测量方差分析可进行重复测量方差分析nVariance ComponentVariance Component:可进行方差成分分析。通:可进行方差成分分析。通过计算方差估计值,可以帮助我们分析如何减小过计算方差估计值,可以帮助我们分析如何减小方差。方差。单因变量单因素方差分析 也称为一维方差分析,对二组以上的均值加以比较。 目的检验某一个控制因素的改变是否会给观察变量带来显著影响.例如: 考察不同肥料对某农作物亩产量是否有显著差异. 考察不同学历是否对工资收入产生显著影响. 考察不同的推销策略是否对推销额产生显著影响.单因变量单因素方差分析 基本思路(1)入手点:检验控制

28、变量的不同水平下,各总体的分布是否存在显著差异,进而判断控制变量是否对观测变量产生了显著影响.(2)前提:不同水平下各总体服从方差相等的正态分布.(3) H0:不同水平下,各总体均值无显著差异.即:不同水平下控制因素的影响不显著.单因变量单因素方差分析 基本思路(4) 构造F统计量因为:总变差=组间差异+组内差异可证明:SST= SSA+SSE(设:k个水平)考察平均的组间差异与平均的组内差异的比值,于是MSEMSAknSSEkSSAF )/()1/(单因变量单因素方差分析 基本思路(5)结论:F值较大,F值的相伴概率 用户给定的显著性水平a,则不能拒绝H0,可以认为不同水平下各总体均值无显著

29、差异.应用实例 某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别 ?(数据:石棉肺患者肺活量.sav)功能菜单方法一: 使用功能菜单”Analyze-Compare means-One-Way ANOVA”进行分析功能菜单方法二: 使用功能菜单”Analyze-General Linear Model-Univariate”进行分析 点击该菜单,弹出对话框Model按钮用来指定模型类型用来指定模型类型自定义模型形式自定义模型形式离差平方和离差平方和Plot按钮Post Hoc按钮选入用来做多个选入用来做多个均值的比较因

30、素均值的比较因素假定方差齐的方法假定方差齐的方法Option按钮可以显示的内容处理过程 假设 H0:三组石棉矿工的用力肺活量无差别 H1:三组石棉矿工的用力肺活量有差别 操作方法分析结果方差齐性检验方差分析表方差分析的多元比较 思考:调查不同水稻品种百丛中稻纵卷思考:调查不同水稻品种百丛中稻纵卷叶螟幼虫的数量,数据如表所示。叶螟幼虫的数量,数据如表所示。重复水稻品种12345141333837312393735393434035353834分析水稻品种对稻纵卷叶螟幼虫抗虫性是否分析水稻品种对稻纵卷叶螟幼虫抗虫性是否存在显著性差异。存在显著性差异。单因变量多因素方差分析 当分析某一事物的变化原因

31、,影响因素的不只当分析某一事物的变化原因,影响因素的不只一个,可能是多个因素影响着事物的变化方向一个,可能是多个因素影响着事物的变化方向和程度时,单因素方差分析就无能为力了和程度时,单因素方差分析就无能为力了 例如例如 水稻的产量与光照强度和施肥量是否都有关系,水稻的产量与光照强度和施肥量是否都有关系,如何检验?如何检验? 可采用多因素方差分析方法可采用多因素方差分析方法问题陈述 研究不同温度与不同湿度对粘虫发育历研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表期的影响,得试验数据如表1。分析不。分析不同温度和湿度对粘虫发育历期的影响是同温度和湿度对粘虫发育历期的影响是否存在着显著性

32、差异。(否存在着显著性差异。(a=0.05)表1不同温度与不同湿度粘虫发育历期表相对湿度(相对湿度(%) 温度温度 重重 复复 12341002591.295.093.893.02787.684.781.282.42979.267.075.770.63165.263.363.663.3802593.289.395.195.52785.881.681.084.42979.070.867.778.83170.786.566.964.94025100.2103.398.3103.82790.691.794.592.22977.285.881.779.73173.673.276.472.5单因变量多因

33、素方差分析 总的离差平方和可表示为总的离差平方和可表示为SST=SSA+SSB+SS(AxB)+SSE SSA:A因素产生的离差平方和因素产生的离差平方和 SSB:B因素产生的离差平方和因素产生的离差平方和 SS(AxB) :A与与B的交互作用产生的离差的交互作用产生的离差平方和平方和 SSE:抽样产生的随机差异抽样产生的随机差异单因变量多因素方差分析零假设: H0A:不同温度对粘虫发育历期无影响 H0B:不同湿度对粘虫发育历期无影响 H0(AxB):不同温度和湿度的交互作用对粘虫发育历期无影响单因变量多因素方差分析 F检验:构造检验:构造F统计量如下:统计量如下:MSEMSAlrsSSErS

34、SAFA) 1(/) 1/(MSEMSBlrsSSEsSSBFB) 1(/) 1/(MSEBAMSlrsSSEsrBASSFBA)() 1(/) 1)(1/()(实例分析 研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表1。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。(a=0.05)准备分析数据 在数据编辑窗口中输入数据。建立因变量历期“历期”变量,因素变量温度“A”,湿度为“B”变量,重复变量“重复”。然后输入对应的数值,如图。功能菜单 点击主菜单“Analyze”项,在下拉菜单中点击“General Linear Model”项,在右拉式菜单中点击“Univariate”项,系统打开单因变量多因素方差分析设置窗口如图。 Model选择 在“Build Term(s)”栏右面的有一向下箭头按钮(下拉按钮),单击该按钮可以展开一小菜单,在下拉菜单中有如下几项选择: Interaction 选中此项可以指定任意的交互效应; Main effects 选中此项可以指定主效应; All 2-way 指定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论