第11讲 回归概念、回归系数_第1页
第11讲 回归概念、回归系数_第2页
第11讲 回归概念、回归系数_第3页
第11讲 回归概念、回归系数_第4页
第11讲 回归概念、回归系数_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1相关概念 相关分析就是描述两个或两个以上变量间关系密切程度的统计方法,有效地揭示事物之间相关关系的强弱程度。 二元变量相关分析(散点图直观;相关系数精准) 偏相关分析(固定某些变量,研究其它变量之间的关系) 距离相关分析相关上节回顾上节回顾散点图、相关系数散点图、相关系数 散点图绘制Graphs Legacy Dialogs Scatter/Dot二元变量分析AnalyzeCorrelateBivariate偏相关分析 AnalyzCorrelate Partial上节回顾上节回顾零假设零假设H H0 0:两总体线性:两总体线性不相关(不相关(或相关系数与或相关系数与0 0无显著性差异无显著

2、性差异)3解释: 1.Sig.=0.0410.05,拒绝H0假设,表明两变量之间是相关的。 2.由于r=0.2290.3,为微弱正相关。相关系数取值范围r=0|r|0.8|r|=1相关程度无相关微弱相关低度相关显著相关高度相关完全相关4散点图散点图5第第11讲讲回归分析回归分析6基本概念基本概念7一、一、“回归回归”起源起源 “回归回归”一词是英国生物学一词是英国生物学家、统计学家高尔顿(家、统计学家高尔顿(F.GaltonF.Galton)在研)在研究父亲身高和其成年儿子身高关系时提究父亲身高和其成年儿子身高关系时提出的。出的。 从大量父亲身高和其成年儿子身高数据的散点图中,GaltonGa

3、lton发现了条贯穿其中的直线,它能描述父亲身高和其成年儿子身高的关系,并可用于根据父亲身高预测其成年儿子身高。 8一、一、“回归回归”起源起源 Galton通过上述研究发现儿子的平均身高一般总是介于其父亲与其种族的平均高度之间,即儿子的身高在总体上有一种“回归”到其所属种族高度的趋势,这种现象称为回归现象,贯穿数据的直线称为回归线。 回归概念产生以后,被广泛应用于各个领域之中,并成为研究随机变量与一个或多个自变量之间变动关系的一种统计分析技术。9二、回归的基本概念二、回归的基本概念1.1.回归分析的概念回归分析的概念 回归分析就是研究一个或多个变量的变动对另一个变量的变动的影响程度的方法。2

4、.相关分析与回归分析的关系相关分析与回归分析的关系u相关分析是根据统计数据,通过计算分析变量之间关系的方向和紧密程度,而不能说明变量之间相互关系的具体形式,无法从一个变量的变化来推测另一个变量的变化情况。 u 回归分析能够确切说明变量之间相互关系的具体形式,可以通过一个相关的数学表达式,从一个变量的变化来推测另一个变量的变化情况,使估计和预测成为可能。 相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。相关与回归10二、回归的基本概念二、回归的基本概念3.3.回归分析的目的回归分析的目的 根据已知的资料或数据,找出变量之间的关系表达式(找到回归线或回归方程),用自变量的已知值去推

5、测因变量的值或范围(进行预测),实际上是研究因果关系。(例如: )4.4.回归分析的基本过程回归分析的基本过程u确定自变量、因变量u确定回归模型u估计模型中的参数(建立回归方程)u对回归模型进行各种检验u模型应用(利用回归方程预测)xy1011二、回归的基本概念二、回归的基本概念回归分析可以回归分析可以解决的问题解决的问题确定因变量与若干个自变量之间联系的定量表达式,即回归方程或数学模型u通过控制可控变量的数值,借助数学模型来预测或控制因变量的取值和精度u进行因素分析,从影响因变量变化的自变量中区分出重要因素和次要因素5.5.分类分类 根据变量之间相关关系的根据变量之间相关关系的表现形式表现形

6、式分为分为u线性回归分析:变量之间的相关关系是线性关系u非线性回归分析:变量之间的相关关系是非线性关系 根据影响因变量的根据影响因变量的自变量的多少自变量的多少分为分为u一元回归分析u多元回归分析12二、回归的基本概念二、回归的基本概念6.6.回归分析的功能回归分析的功能 实现回归分析的功能主要在实现回归分析的功能主要在“AnalyzeAnalyzeRegression”Regression”命令菜单中,命令菜单中,主要分为:主要分为:l线性回归分析(Linear)l曲线估计分析(Curve Estimation)l二维逻辑分析l多维逻辑分析l顺序分析l概率分析l非线性回归分析l加权估计分析l

7、两阶最小二乘分析 13线性回归线性回归14三、线性回归三、线性回归1. 线性回归的线性回归的概念概念 线性函数是变量之间存在的各种关系中最简单的形式,具有这种关系的回归叫做线性回归。 线性回归根据自变量多少分为一元线性回归和多元线性回归15三、线性回归三、线性回归2.线性回归的模型线性回归的模型 下面以一元线性回归为例,解析线性回归模型。 一元线性回归的数学模型为: 多元线性回归的数学模型为: 在数学模型中 - 回归常数 -(偏)回归系数 - 随机误差xy100nnxxxy.22110n,2116三、线性回归三、线性回归2.线性回归的模型线性回归的模型 从数学模型可以看出因变量y的变化由两部分

8、组成u自变量x的变化所引起的y的线性变化,即u其他随机因素引起的y的变化,即 如果随机误差的期望为0,那么数学模型可以转化为: 称为一元线性回归方程 从几何意义上讲,一元线性回归方程是一条直线, 即回归线。 从一元线性回归方程可以看出,一元线性回归分析是在不考虑随机因素条件下进行分析的,所以是在比较理想状态下的分析xy10 xy1017三、线性回归三、线性回归3.线性回归方程的统计检验线性回归方程的统计检验 通过样本数据建立的回归方程,不能立即用于对实际问题的分析和预测,还需要进行各项统计检验。 回归方程的回归方程的拟合优度拟合优度检验检验 检验样本数据点聚集在回归线周围的密集程度,从而评价回

9、归方程对样本数据的代表程度。 拟合优度检验采用判定(决定)系数 (一元)和调整判定(决定)系数 (多元),来检验。其中R是自变量x和因变量y之间的相关系数。 和 取值范围是01,越接近1表示拟合优度越高,反之就越低。判定(决定)系数:反映了因变量y的全部变异中能够通过回归关系被自变量解释的比例。 2R2R2R2R18三、线性回归三、线性回归3.线性回归方程的统计检验线性回归方程的统计检验 回归方程回归方程的的显著性检验显著性检验 检验因变量与所有的自变量之间的线性关系是否显著 1.显著性检验H0假设是:回归系数与0无显著性差异。 2.检验采用F统计量,SPSS自动计算统计量的观测值和对应的伴随

10、概率。 3.如果伴随概率大于显著性水平= 0.05,接受H0假设,回归系数与0无显著性差异。表明自变量x和因变量y之间线性关系不显著,回归方程无实际意义。如果伴随概率小于等于显著性水平=0.05,拒绝H0假设,回归系数与0有显著性差异。表明自变量x和因变量y之间有线性关系,回归方程有实际意义。0.0211nxy1019三、线性回归三、线性回归3.线性回归方程的统计检验线性回归方程的统计检验 回归系数回归系数的的显著性检验显著性检验 检验每个自变量与因变量之间的线性关系是否显著,能否保留在方程中 1.显著性检验H0假设是:回归系数与0无显著性差异。 2.检验t 统计量,SPSS自动计算统计量的观

11、测值和对应的伴随概率。 3.如果伴随概率大于显著性水平= 0.05,接受H0假设,回归系数与0无显著性差异。表明自变量x和因变量y之间线性关系不显著,回归方程无实际意义。如果伴随概率小于显著性水平=0.05,拒绝H0假设,回归系数与0有显著性差异。表明自变量x和因变量y之间有线性关系,回归方程有实际意义。00i120三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 例一:一元线性回归分析例一:一元线性回归分析 9-linear_one.sav 一家地产公司调查了某城市的房地产销售价格与房产的评估价值的数据,请用一元线性回归分析,能否用房产的评估价值来预测房地产销售的

12、价格。分析:1.自变量:房产的评估价值;因变量:房地产销售价格2.散点图分析3.一元线性回归结果分析21三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 结果分析:结果分析: 从建立的散点图来看,自变量x和因变量y之间存在一定的线性关系,而且相关程度较高。 22三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析结果分析:结果分析:(1) 变量进入/移出表(表1) Enter表示选定变量全部进入模型(2) 模型综述表(表2) 相关系数R=0.916、判定系数R2=0.839、调整判定系数R2=0.830,说明变量之间相关程度高,回归方程的拟合

13、优度高。V Va ar ri ia ab bl le es s E En nt te er re ed d/ /R Re em mo ov ve ed db b房产评估价值a.EnterModel1VariablesEnteredVariablesRemovedMethodAll requested variables entered.a. Dependent Variable: 销售价格b. 表表1 123三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 结果分析:结果分析:(3) 方差分析表(表3) F检验统计量的观测值=93.567,伴随概率=0.0000.0

14、5,拒绝零假设,说明自变量x和因变量y之间线性关系显著,可以建立线性模型。(4)模型系数表(表4) 常数项Constant=895.020,回归系数=1.351 ;回归系数的伴随概率=0.000,拒绝零假设,说明自变量x和因变量y之间线性关系显著,可以建立线性模型。ANOVAANOVAb b82047704182047703.5593.567.000a1578397618876887.5809783168019RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 房产评估价值a.

15、表表3 3C Co oe ef ff fi ic ci ie en nt ts sa a895.020535.8331.670.1121.351.140.9169.673.000(Constant)房产评估价值Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 销售价格a. 表表4 424三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 结果分析:结果分析:结论: 根据上述分析结果,可以得到回归方程,用该方程来进行分析和预测实际

16、问题,结果较为准确。 举例:xy351. 102.89525三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 操作步骤:操作步骤: (1)根据数据建立散点图,进行初步分析 Graphs Legacy Dialogs Scatter/dot. 数据文件:9-linear_one.sav 保存文件:9-linear_one1.spv26三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 操作步骤:操作步骤: (2)一元线性回归 Analyze RegressionLinear 数据文件:9-linear_one.sav 保存文件:9-linea

17、r_one2.spv12自变量自变量因变量因变量27三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 例二:一元线性回归分析例二:一元线性回归分析 9-polishing.sav Nambe Mills公司生产5种金属餐具产品,分别是Bowl(碗)、Casserole(焙盘)、Dish(碟)、Tray(托盘)、Plate(盘子)。在生产过程中都有一个抛光的过程。为了有助于安排生产,记录了59个产品的抛光时间(time)、产品类型(type)和产品直径(diam)。 用一元线性回归分析能否用产品的直径来预测产品的抛光时间。28三、线性回归三、线性回归5.5.SPSSS

18、PSS操作及案例分析操作及案例分析 结果分析结果分析(1)散点图从建立的散点图来看,自变量x和因变量y之间存在一定的线性关系,但数据分布较为分散,所以相关程度不是很高。 29三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 结果分析结果分析(2)一元线性回归变量进入/移出方式表 表示选定变量全部进入模型模型综述表 反映了因变量和自变量之间的线性相关系数R=0.700, 判定系数R2=0.490,说明自变量diam可以解释因变量time49%的变异性。说明自变量与因变量之间的相关程度一般,回归方程的拟合优度不高。Variables Entered/RemovedVar

19、iables Entered/Removedb bdiama.EnterModel1VariablesEnteredVariablesRemovedMethodAll requested variables entered.a. Dependent Variable: timeb. 30C Co oe ef ff fi ic ci ie en nt ts sa a-1.9555.402-.362.7193.457.467.7007.407.000(Constant)diamModel1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCo

20、efficientstSig.Dependent Variable: timea. 三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析结果分析结果分析方差分析表 F检验统计量的观测值为54.865,F分布的伴随概率为0.000,从而拒绝零假设,即因变量和自变量的线性关系是显著的,可以建立线性模型。模型系数表 回归模型的常数项为-1.955,自变量回归系数为3.457 回归方程为:time=3.457*diam-1.955 回归系数的伴随概率=0.000,应拒绝t检验的零假设,说明因变量和自变量的线性关系是显著的,可以建立线性模型A AN NO OV VA Ab b10

21、287.173110287.17354.865.000a10687.51157187.50020974.68458RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), diama. Dependent Variable: timeb. 31三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 操作步骤:操作步骤: (1)绘制抛光时间和产品直径的散点图 (2)AnalyzeRegression Linear 数据文件:9-polishing.sav 保存文件:

22、9-polishing.spv三、线性回归三、线性回归33三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析 例三:例三:多元多元线性回归分析线性回归分析 9-Employee.sav 为了研究某公司职工当前工资水平,收集了影响职工当前工资水平的6个因素的数据。这些影响因素是:1职工的开始工资salbegin($)、 2工种jobcat、 3来本公司前的工作经验prevexp(月)、 4来公司工作时间jobtime(月)、 5受教育时间educ(年)、6是否为少数民族minority。 试用多元线性回归过程对该公司职工当前工资水平寻求一个恰当的回归模型。34三、线性回

23、归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析结果分析结果分析:(1)变量进入/移出方式表 从表中可以看出依次引入的变量:salbegin、jobcat、prevexp、jobtime 、educV Va ar ri ia ab bl le es s E En nt te er re ed d/ /R Re em mo ov ve ed da aBeginningSalary.Stepwise (Criteria: Probability-of-F-to-enter = .100).EmploymentCategory.Stepwise (Criteria: Probabi

24、lity-of-F-to-enter = .100).PreviousExperience(months).Stepwise (Criteria: Probability-of-F-to-enter = .100).Monthssince Hire.Stepwise (Criteria: Probability-of-F-to-enter = .100).Educational Level(years).Stepwise (Criteria: Probability-of-F-to-enter = .100).Model12345VariablesEnteredVariablesRemoved

25、MethodDependent Variable: Current Salarya. 输入顺序可以不同35三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析结果分析结果分析:(2)模型综述表从表中可以看出引进变量后,R2分别由0.774增加到0.805、0.826、0.835、0.839同时估计标准误差由$8,115.356减少到$6,856.795M Mo od de el l S Su um mm ma ar ry yf f.880a.775.774$8,115.356.898b.806.805$7,540.433.909c.827.826$7,127.040.9

26、14d.836.835$6,940.232.917e.840.839$6,856.795Model12345RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), Beginning Salarya. Predictors: (Constant), Beginning Salary, EmploymentCategoryb. Predictors: (Constant), Beginning Salary, EmploymentCategory, Previous Experience (months)

27、c. Predictors: (Constant), Beginning Salary, EmploymentCategory, Previous Experience (months), Months sinceHired. Predictors: (Constant), Beginning Salary, EmploymentCategory, Previous Experience (months), Months sinceHire, Educational Level (years)e. Dependent Variable: Current Salaryf. 36ANOVAANOV

28、Af f1E+01111.068E+0111622.118.000a3E+01047265858997.221E+0114731E+01125.557E+010977.312.000b3E+01047156858136.221E+0114731E+01133.801E+010748.392.000c2E+01047050794696.601E+0114731E+01142.883E+010598.577.000d2E+01046948166815.121E+0114731E+01152.318E+010493.084.000e2E+01046847015635.571E+011473Regre

29、ssionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel12345Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), Beginning Salarya. Predictors: (Constant), Beginning Salary, Employment Categoryb. Predictors: (Constant), Beginning Salary,

30、Employment Category, PreviousExperience (months)c. Predictors: (Constant), Beginning Salary, Employment Category, PreviousExperience (months), Months since Hired. Predictors: (Constant), Beginning Salary, Employment Category, PreviousExperience (months), Months since Hire, Educational Level (years)e

31、. Dependent Variable: Current Salaryf. 三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析结果分析结果分析:(3)方差分析表:从表中可以看出,F分布的显著性概率为0.000,说明因变量和自变量的线性关系是显著的,可建立线性模型37三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析结果分析结果分析:(4)模型系数表 表中显示回归模型中的常数项(Constant)非标准化的回归系数(Unstandardized Coefficients)B值及其标准误差(Std. Error)标准化的回归系数(standar

32、dized Coefficients)Beta值、t值以及显著性水平(Sig.)C Co oe ef ff fi ic ci ie en nt ts sa a1928.206888.6802.170.0311.909.047.88040.276.0001036.931832.0511.246.2131.469.067.67721.873.0005947.000683.430.2698.702.0003039.205829.7833.663.0001.467.063.67623.117.0006160.294646.577.2799.528.000-23.7493.139-.145-7.565.

33、000-10300.72707.813-3.804.0001.479.062.68223.911.0006060.446629.927.2749.621.000-23.7893.057-.146-7.781.000163.82631.739.0975.162.000-15038.62992.525-5.025.0001.365.069.62919.796.0005859.585624.945.2659.376.000-19.5533.250-.120-6.017.000154.69831.464.0914.917.000539.642152.735.0913.533.000(Constant)

34、Beginning Salary(Constant)Beginning SalaryEmployment Category(Constant)Beginning SalaryEmployment CategoryPrevious Experience(months)(Constant)Beginning SalaryEmployment CategoryPrevious Experience(months)Months since Hire(Constant)Beginning SalaryEmployment CategoryPrevious Experience(months)Months

35、 since HireEducational Level (years)Model12345BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Current Salarya. 第第5 5个模型个模型38三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析结论: 从表中可以得到5个回归模型的方程 其中,第5个回归方程为回归系数的伴随概率为0.000,调整的判定系数为0.839,说明回归方程解释了整个因变量变异程度的83.9%,说明变量之间相关程

36、度高,回归方程的拟合优度高。对当前工资影响较大的依次为:开始工资、工种、来本公司前的工作经验、来公司工作时间和受教育时间,主要考虑的是Beta值的大小。educjobtimeprevjobecatsalbeginsalary642.539698.154exp553.19585.5859365. 1574.1503839三、线性回归三、线性回归5.5.SPSSSPSS操作及案例分析操作及案例分析操作步骤Analyze Regression Linear数据文件:9-Employee.sav保存文件:9-Employee.spv变量筛选变量筛选Enter:所选变量全部进入方程:所选变量全部进入方程

37、(一元回归一元回归)Fordward:按照所选变量对因变量影响大小顺序依次引入,每引入一个变量,建立一个方程:按照所选变量对因变量影响大小顺序依次引入,每引入一个变量,建立一个方程Backward:先将所选变量一次引入,然后逐步剔除对因变量影响小的变量,每剔除一个变量,:先将所选变量一次引入,然后逐步剔除对因变量影响小的变量,每剔除一个变量,建立一个方程建立一个方程Stepwise:结合上述两种方法,先引入对因变量影响大的变量,然后马上剔除对因变量影响:结合上述两种方法,先引入对因变量影响大的变量,然后马上剔除对因变量影响小的变量,每一步建立一个方程小的变量,每一步建立一个方程(多元回归多元回

38、归)依次输入自变量依次输入自变量Educ(受教育时间受教育时间)Jobcat(工种工种)Salbegin(开始工资开始工资)Jobtime(工作时间工作时间)Prevexp(工作经验工作经验)Minority(少数民族少数民族)40曲线估计曲线估计41四、曲线估计四、曲线估计1.1.曲线估计的概念曲线估计的概念 现实生活中,变量之间的关系并非都是线性相关,实际上非线性相关关系更为常见,除了可以通过绘制散点图的方式粗略地考察这种非线性关系,还可以用曲线估计来进行拟合。 曲线估计(曲线拟合、曲线回归)是指选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。曲线选择得好的话,那么可

39、以揭示因变量与自变量的内在关系,并对因变量的预测有一定意义。2.2.曲线估计中需要解决的问题曲线估计中需要解决的问题一是选用哪种理论模型,即用哪种方程来拟合观测值 二是当模型确定后,如何选择合适参数,使得理论数据和实际数据的差异最小42四、曲线估计四、曲线估计3.曲线估计的基本研究方法曲线估计的基本研究方法 (1)做做散点图散点图来观察曲线形状来观察曲线形状 变量之间关系分线性相关和非线性相关 非线性相关分为本质线性关系和本质非相关关系 SPSS对本质线性关系采用曲线估计子模型;对本质非相关关系采用非线性子模型43四、曲线估计四、曲线估计3.曲线估计的基本研究方法曲线估计的基本研究方法 (2)

40、结合专业知识,或从长期积累的数据中找出变量之间的结合专业知识,或从长期积累的数据中找出变量之间的函数类型函数类型 在在SPSS中提供了中提供了11中本质线性模型中本质线性模型 应用应用SPSS进行曲线估计时,进行曲线估计时,l可以先选择几种模型,然后自动完成模型的参数估计l输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量l以判定系数为主要依据选择其中的最优模型,进行预测分析44四、曲线估计四、曲线估计4.4.SPSSSPSS操作及案例分析操作及案例分析 例四:9-advert.sav某产品零售商为某种产品做广告的投入资金advert(百万元)和因此而获得的销售额sales (百万元)的相关数据,试找出一种合适的回归函数。45四、曲线估计四、曲线估计4.4.SPSSSPSS操作及案例分析操作及案例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论