




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,SPSS基础与Access数据库,姓 名: 电 话: E - mail: 上课时间: 上课程点: 答疑地点: 答疑时间:,商务信息学院计算机教学部,2,相关分析 相关分析就是描述两个或两个以上变量间关系密切程度的统计方法,有效地揭示事物之间相关关系的强弱程度。 二元变量分析 偏相关分析 距离相关分析,上节回顾,3,第13讲回归分析,4,基本概念,5,一、“回归”起源,“回归”一词是英国生物学家、统计学家高尔顿(F.Galton)在研究父亲身高和其成年儿子身高关系时提出的。 从大量父亲身高和其成年儿子身高数据的散点图中,Galton发现了一条贯穿其中的直线,它能描述父亲身高和其成年儿子身高的
2、关系,并可以用于根据父亲身高预测其成年儿子身高。 Galton通过上述研究发现儿子的平均身高一般总是介于其父亲与其种族的平均高度之间,即儿子的身高在总体上有一种“回归”到其所属种族高度的趋势,这种现象称为回归现象,贯穿数据的直线称为回归线。 回归概念产生以后,被广泛应用于各个领域之中,并成为研究随机变量与一个或多个自变量之间变动关系的一种统计分析技术。,6,二、回归分析的基本概念,回归分析的概念 回归分析就是研究一个或多个变量的变动对另一个变量的变动的影响程度的方法。 相关分析与回归分析的关系 相关分析是根据统计数据,通过计算分析变量之间关系的方向和紧密程度,而不能说明变量之间相互关系的具体形
3、式,无法从一个变量的变化来推测另一个变量的变化情况。 回归分析能够确切说明变量之间相互关系的具体形式,可以通过一个相关的数学表达式,从一个变量的变化来推测另一个变量的变化情况,使估计和预测成为可能。 相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。,相关与回归,7,二、回归分析的基本概念,回归分析的目的 根据已知的资料或数据,找出变量之间的关系表达式(找到回归方程),用自变量的已知值去推测因变量的值或范围(进行预测),实际上是研究因果关系。(例如: ) 回归分析的基本过程 确定自变量 选择回归分析的模型 估计模型中的参数 模型检验 模型应用,8,二、回归分析的基本概念,回归分析
4、可以解决的问题 确定因变量与若干个自变量之间联系的定量表达式,即回归方程或数学模型 通过控制可控变量的数值,借助数学模型来预测或控制因变量的取值和精度 进行因素分析,从影响因变量变化的自变量中区分出重要因素和次要因素 分类 根据变量之间相关关系的表现形式分为 线性回归分析:变量之间的相关关系是线性关系 非线性回归分析:变量之间的相关关系是非线性关系 根据影响因变量的自变量的多少分为 一元回归分析 多元回归分析,9,二、回归分析的基本概念,回归分析的功能 实现回归分析的功能主要在“AnalyzeRegression”命令菜单中,主要分为: 线性回归分析 曲线估计分析 二维逻辑分析 多维逻辑分析
5、顺序分析 概率分析 非线性回归分析 加权估计分析 两阶最小二乘分析,10,线性回归分析,11,三、线性回归分析,线性回归的概念 线性函数是变量之间存在的各种关系中最简单的形式,具有这种关系的回归叫做线性回归。 线性回归根据自变量多少分为一元回归和多元回归 对数据的要求: 自变量和因变量必须是数值型变量 标志或范畴变量,如专业、性别,必须记录为二元的哑变量(虚拟变量)或者其他类型的对立变量 对于因变量的所有观测值(样本)应该认为是来自相互独立的等方差(方差齐性)的正态总体(正态分布),并且因变量和各自变量之间应有一定的线性关系,12,三、线性回归分析,线性回归的模型 下面以一元线性回归为例,解析
6、线性回归模型。 一元线性回归的数学模型为: 在数学模型中 分别称为回归常数和回归系数, 称为随机误差。 从数学模型可以看出因变量y的变化由两部分组成 自变量x的变化所引起的y的线性变化,即 其他随机因素引起的y的变化,即 如果随机误差的期望为0,那么数学模型可以转化为: 称为一元线性回归方程 从几何意义上讲,一元线性回归方程是一条直线, 即回归线。 从一元线性回归方程可以看出,一元线性回归分析是在不考虑随机因素条件下进行分析的,所以是在比较理想状态下的分析,13,三、线性回归分析,线性回归方程的统计检验 通过样本数据建立的回归方程,不能立即用于对实际问题的分析和预测,还需要进行各项统计检验。
7、回归方程的拟合优度检验 拟合优度检验采用判定(决定)系数 和调整判定(决定)系数 ,来检验。其中 是,自变量x和因变量y之间的相关系数。 和 取值范围是01,越接近1表示拟合优度越高,反之就越低。,14,三、线性回归分析,线性回归方程的统计检验 回归方程和回归系数的显著性检验 1.显著性检验H0假设是:回归系数与0无显著性差异。 2.检验采用F统计量和t统计量,SPSS自动计算统计量的观测值和对应的伴随概率。 3.如果伴随概率小于显著性水平(0.05),拒绝H0假设,回归系数与0有显著性差异,表明自变量x和因变量y之间有线性关系,回归方程有实际意义。 反之,接受H0假设,回归系数与0无显著性差
8、异,表明自变量x和因变量y之间线性关系不显著,回归方程无实际意义。,15,三、线性回归分析,线性回归方程的统计检验 残差分析 残差是指由回归方程计算所得的预测值与实际样本值之间的差距。 残差分析是回归方程检验的重要组成部分,如果回归方程能够较好地反映变量之间的变化规律,那么残差中不包含明显的规律性和趋势性。,16,三、线性回归分析,线性回归方程的统计检验 残差分析的主要内容 (1)残差均值为0的正态性分析 对应的残差有正负,但总体上应服从以0为均值的正态分布。可以通过绘制标准化(或学生化)残差的累计概率图来分析。 (2)残差的独立性分析 回归方程要求前期和后期的残差数值之间不存在相关关系,即不
9、存在自相关。可以通过绘制残差的序列图、计算残差的自相关系数和DW(Durbin-Watson)检验来分析,17,三、线性回归分析,线性回归方程的统计检验 残差分析的主要内容 (3)异方差分析 无论变量的取值如何变化,对应的残差分析的方差都应相等(齐性),否则认为出现了,异方差现象。可以通过绘制残差图和等级相关分析来分析。 (4)探测样本中的异常值 异常值对回归方程影响较大,可以利用残差分析探测样本中的异常值,加以排除。 对于探测因变量y中的异常值方法:标准化残差、学生化残差和剔除残差 对于探测自变量x中的异常值方法:杠杆值、库克距离、标准化回归系数和标准化预测值的变化,18,三、线性回归分析,
10、SPSS操作及案例分析 例一:一元线性回归分析 一家地产公司调查了某城市的房地产销售价格与房产的评估价值的数据,请用一元线性回归分析,能否用房产的评估价值来预测房地产销售的价格。 分析: 自变量x:房产的评估价值; 因变量y:房地产销售价格 散点图分析 一元线性回归结果分析,19,三、线性回归分析,SPSS操作及案例分析 操作步骤: (1)根据数据建立散点图,进行初步分析 (2) Analyze RegressionLinear 数据文件:9-linear_one.sav 保存文件:9-linear_one.spo,1,2,自变量,因变量,20,三、线性回归分析,SPSS操作及案例分析 结果分
11、析: 从建立的散点图来看,自变量x和因变量y之间存在一定的线性关系,而且相关程度较高。,21,表1,表2,三、线性回归分析,SPSS操作及案例分析 结果分析: (1)表1:变量进入/移出表 Enter表示选定变量全部进入模型 (2)表2:模型综述表 相关系数R=0.916、判定系数R2=0.839、调整判定系数R2=0.830,说明变量之间相关程度高,回归方程的拟合优度高。,22,三、线性回归分析,SPSS操作及案例分析 结果分析: (3)表3方差分析表 F检验统计量得观测值=93.567,伴随概率=0.0000.05,拒绝零假设,说明自变量x和因变量y之间线性关系显著,可以建立线性模型。 (
12、4)模型系数表 常数项Constant=895.020,回归系数=1.351 ;回归系数的伴随概率=0.000,拒绝零假设,说明自变量x和因变量y之间线性关系显著,可以建立线性模型。 结论: 根据上述分析结果,可以得到 回归方程,用该方程来进行分析和 预测实际问题,结果较为准确。,23,三、线性回归分析,SPSS操作及案例分析 例二:一元线性回归分析 Nambe Mills公司生产5种金属餐具产品,分别是Bowl(碗)、Casserole(焙盘)、Dish(碟)、Tray(托盘)、Plate(盘子)。在生产过程中都有一个抛光的过程。为了有助于安排生产,记录了59个产品的抛光时间(time)、产
13、品类型(type)和产品直径(diam)。 用一元线性回归分析能否用产品的直径来预测产品的抛光时间。,24,三、线性回归分析,SPSS操作及案例分析 操作步骤: (1)绘制抛光时间和产品直径的散点图 (2)AnalyzeRegression Linear 数据文件:9-polishing.sav 保存文件:9-polishing.spo,25,三、线性回归分析,SPSS操作及案例分析 结果分析: 从建立的散点图来看,自变量x和因变量y之间存在一定的线性关系,但数据分布较为分散,所以相关程度不是很高。,26,三、线性回归分析,SPSS操作及案例分析 结果分析 (1)变量进入/移出方式表 表示选定
14、变量全部进入模型 (2)模型综述表 反映了因变量和自变量之间的线性相关系数R=0.700, 判定系数R2=0.490,说明自变量可以解释因变量49%的变异性。说明自变量与因变量之间的相关程度一般,回归方程的拟合优度不高。,27,三、线性回归分析,SPSS操作及案例分析 结果分析 (3)方差分析表 F检验统计量的观测值为54.865,F分布的伴随概率为0.000,从而拒绝零假设,说明因变量和自变量的线性关系是显著的,可以建立线性模型。 (4)模型系数表 回归模型的常数项为-1.955,自变量回归系数为3.457 回归方程为:time=3.457*diam-1.955 回归系数的伴随概率=0.00
15、0,应拒绝t检验的零假设,说明因变量和自变量的线性关系是显著的,可以建立线性模型,28,三、线性回归分析,SPSS操作及案例分析 例三:多元线性回归分析 为了研究某公司职工当前工资水平,收集了影响职工当前工资水平的6个因素的数据。这些影响因素是:职工的开始工资salbegin($)、受教育时间educ(年)、来公司工作时间jobtime(月)、工种jobcat、来本公司前的工作经验prevexp(月)、是否为少数民族minority。 试用多元线性回归过程对该公司职工当前工资水平寻求一个恰当的回归模型。,29,三、线性回归分析,SPSS操作及案例分析 操作步骤 Analyze Regressi
16、on Linear 数据文件:9-Employee.sav 保存文件:9-Employee.spo,变量筛选 Enter:所选变量全部进入方程(一元回归) Fordward:按照所选变量对因变量影响大小顺序依次引入,每引入一个变量,建立一个方程 Backward:先将所选变量一次引入,然后逐步剔除对因变量影响小的变量,每剔除一个变量,建立一个方程 Stepwise:结合上述两种方法,先引入对因变量影响大的变量,然后马上剔除对因变量影响小的变量,每一步建立一个方程(多元回归),依次输入自变量 Educ(受教育时间) Jobcat(工种) Salbegin(开始工资) Jobtime(工作时间)
17、Prevexp(工作经验) Minority(少数民族),30,三、线性回归分析,SPSS操作及案例分析 结果分析: (1)变量进入/移出方式表 从表中可以看出依次引入的变量:salbegin、jobcat、prevexp、jobtime 、educ 在依次引入的变量过程中剔除了Minority(少数民族)变量。,变量引入的顺序 与输入顺序不同,31,三、线性回归分析,SPSS操作及案例分析 结果分析: (2)模型综述表 从表中可以看出引进变量后, 相关系数R分别由0.880增加到0.898、0.909、0.914、0.917 同时估计标准误差由$8,115.356减少到$6,856.795,
18、32,三、线性回归分析,SPSS操作及案例分析 结果分析: (3)方差分析表: 从表中可以看出,F分布的显著性概率为0.000,说明因变量和自变量的线性关系是显著的,可建立线性模型,33,三、线性回归分析,SPSS操作及案例分析 结果分析: (4)模型系数表 表中显示回归模型中的常数项(Constant) 非标准化的回归系数(Unstandardized Coefficients)B值及其标准误差(Std. Error) 标准化的回归系数(standardized Coefficients)Beta值、t值以及显著性水平(Sig.),34,三、线性回归分析,SPSS操作及案例分析 结论: 从表
19、中可以得到5个回归模型的方程 第5个回归方程为 回归系数的伴随概率为0.000,相关系数为0.917,判定系数为0.84,说明回归方程解释了整个因变量变异程度的84%,说明变量之间相关程度高,回归方程的拟合优度高。 对当前工资影响较大的依次为:开始工资、工种、来本公司前的工作经验、来公司工作时间和受教育时间,主要考虑的是Beta值的大小。,35,曲线估计,36,四、曲线估计,曲线估计的概念 现实生活中,变量之间的关系并非都是线性相关,实际上非相关关系更为常见,除了可以通过绘制散点图的方式粗略地考察这种非线性关系,还可以用曲线估计来进行拟合。 曲线估计(曲线拟合、曲线回归)是指选定一种用方程表达
20、的曲线,使得实际数据与理论数据之间的差异尽可能地小。 曲线选择得好的话,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定意义。 曲线估计中需要解决的问题 一是选用哪种理论模型,即用哪种方程来拟合观测值 二是当模型确定后,如何选择合适参数,使得理论数据和实际数据的差异最小,37,四、曲线估计,曲线估计的基本研究方法 (1)做散点图来观察曲线形状 变量之间关系分线性相关和非线性相关 非线性相关分为本质线性关系和本质非相关关系 SPSS对本质线性关系采用曲线估计子模型;对本质非相关关系采用非线性子模型 (2)结合专业知识,或从长期积累的数据中找出变量之间的函数类型 在SPSS中提供了11
21、中本质线性模型(P166 表9.10) 应用SPSS进行曲线估计时, 可以先选择几种模型,然后自动完成模型的参数估计 输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量 以判定系数为主要依据选择其中的最优模型,进行预测分析,38,四、曲线估计,SPSS操作及案例分析 例四:某产品零售商为某种产品做广告的投入资金advert(百万元)和因此而获得的销售额sales (百万元)的相关数据,试找出一种合适的回归函数。,39,四、曲线估计,SPSS操作及案例分析 操作步骤: 绘制散点图初步确定可能的曲线估计回归模型Graphics Scatter/Dot Analyze Regression Curve Estimation 数据文件:9-advert.sav 保存文件:9-advert.spo,1,3,2,11中本质线性模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国易分散级氧化铁数据监测报告
- 2025年中国无线滚球鼠标市场调查研究报告
- 2025年中国新型木制防火门市场调查研究报告
- 2025年中国数字测振仪数据监测研究报告
- 2025至2031年中国网盘行业投资前景及策略咨询研究报告
- 2025至2031年中国红外线防水型彩色摄像机行业投资前景及策略咨询研究报告
- 2025至2031年中国维氏显微硬度计行业投资前景及策略咨询研究报告
- 新疆生产建设兵团二中学2025年初三下学期月考(一)英语试题试卷含答案
- 2025至2031年中国移动布袋式烟尘净化器行业投资前景及策略咨询研究报告
- 2024-2025新员工入职安全培训考试试题B卷附答案
- 2025年吉林省民航机场集团长白山机场公司招聘笔试参考题库附带答案详解
- 小学生涯课件
- 目光礼仪培训
- 西藏拉萨中学2024-2025学年高三第二学期英语试题4月月考试卷含解析
- 设备验收方案
- 高中家长会 高三高考冲刺家长会课件
- 2025-2030中国触觉马达行业市场发展趋势与前景展望战略研究报告
- 修订版中小学生行为守则(2024版)
- (一模)临沂市2025届高三高考第一次模拟考试地理试卷
- 青岛 地块西海岸新区项目投标设计方案
- 【高考真题】河北省2024年普通高中物理学业水平选择性考试试卷(含答案)
评论
0/150
提交评论