




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计建模回归分析第一页,共六十二页,2022年,8月28日相关分析对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的,但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。第二页,共六十二页,2022年,8月28日相关分析发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。第三页,共六十二页,2022年,8月28日如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢?最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。第四页,共六十二页,2022年,8月28日不相关正线性相关负线性相关相关但非线性相关第五页,共六十二页,2022年,8月28日Pearson相关系数(Pearson’scorrelationcoefficient)又叫相关系数或线性相关系数Kendallt
相关系数(Kendall’st)Spearman秩相关系数(Spearmanrankcorrelationcoefficient或Spearman’sr)相关性的度量第六页,共六十二页,2022年,8月28日相关系数也是取值在-1和1之间当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关)当两个变量不那么线性相关时,相关系数就接近0。第七页,共六十二页,2022年,8月28日SPSS的相关分析相关分析(hischool.sav)利用SPSS选项:Analize-Correlate-Bivariate再把两个有关的变量(这里为j3和s1)选入,选择Pearson,Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了(零假设均为不相关)。第八页,共六十二页,2022年,8月28日例1有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。这两个成绩的散点图如下。第九页,共六十二页,2022年,8月28日但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步第十页,共六十二页,2022年,8月28日目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关?能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。第十一页,共六十二页,2022年,8月28日该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。第十二页,共六十二页,2022年,8月28日为研究家庭收入情况对学生成绩变化的影响,下面点出两个盒形图,左边一个是不同收入群体的高一成绩的盒形图,右边一个是不同收入群体的高一和初三成绩之差的盒形图。第十三页,共六十二页,2022年,8月28日到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响?是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?第十四页,共六十二页,2022年,8月28日初三和高一成绩的Pearson相关系数,Kendallt
相关系数和Spearman秩相关系数分别为0.795,0.595和0.758。这三个统计量相关的检验(零假设均为不相关)全部显著,p-值都是0.000。注意这种0.000的表示并不表示这些p-值恰好等于零,只是小数点前三位是0而已。第十五页,共六十二页,2022年,8月28日一元线性回归分析对例1中的两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图1中的那些点的趋势。首先需要确定选择这条直线的标准。这里介绍最小二乘回归(leastsquaresregression)。古汉语“二乘”是平方的意思。这就是寻找一条直线,使得所有点到该直线的豎直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。第十六页,共六十二页,2022年,8月28日
1.一元线性回归的基本概念一元线性回归可用来分析自变量x取值与因变量Y取值的内在联系,不过这里的自变量x是确定性的变量,因变量Y是随机性的变量。进行n次独立试验,测得数据如下:一元线性回归第十七页,共六十二页,2022年,8月28日由回归方程可以推出
根据样本及其观测值可以得到α、β及σ2的估计量及估计值
得到回归方程的估计式或经验回归方程
一元线性回归第十八页,共六十二页,2022年,8月28日有多种确定回归方程也就是确定未知参数
的方法,其中最常用的是最小二乘法,即求出,使下列函数最小一元线性回归第十九页,共六十二页,2022年,8月28日Regression菜单线性回归:
包括简单线性回归和多元线性回归,由Linear过程实现非线性回归
是线性趋势向非线性趋势的拓展,包括CurveEstimation过程和NonlinearRegression过程第二十页,共六十二页,2022年,8月28日分析步骤做出散点图,观察变量间的趋势。考察数据的分布,做必要的预处理
分析变量的正态性和方差齐性等问题。进行线性回归分析残差分析,检查残差的独立性和正态性强影响点的诊断和多重共线性问题的判断第二十一页,共六十二页,2022年,8月28日常用指标偏回归系数b
反映相应一个自变量上升一个单位时,应变量取值的变动情况决定系数R2
即相应的相关系数的平方,用R2表示。反映应变量y的全部变异中能够通过回归关系被自变量解释的比例。R2越接近1越好第二十二页,共六十二页,2022年,8月28日回归直线意义的F检验
统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,配合回归直线没有意义(但Sig越小越好)残差的独立性检验
Durbin-Watson检验的参数D的取值范围是0<D<4,与2越接近表示残差与自变量越独立第二十三页,共六十二页,2022年,8月28日SPSS的回归分析自变量和因变量都是定量变量时的线性回归分析(hischool.sav)
利用SPSS选项:Analize-Regression-Linear再把有关的自变量选入Independent,把因变量选入Dependent,然后OK即可。如果自变量有多个(多元回归模型),只要都选入就行。第二十四页,共六十二页,2022年,8月28日例1(继续)根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给出来截距(Constant)26.444和斜率(变量j3的系数)0.651。第二十五页,共六十二页,2022年,8月28日截距=26.444;斜率=0.651第二十六页,共六十二页,2022年,8月28日这个直线实际上是对所假设的下面线性回归模型的估计(这里的e是随机误差):我们得到的截距和斜率(26.444和0.651)是对b0和b1的估计。第二十七页,共六十二页,2022年,8月28日估计量是个随机变量,可以用它们的分布构造检验统计量来检验b0和b1是否显著。假设检验问题:计算机输出也给出了这个检验:t检验统计量为9.089,而p-值为0.000。第二十八页,共六十二页,2022年,8月28日
R2=0.632;这说明这里的自变量可以大约解释63%的因变量的变化。R2越接近1,回归就越成功。由于R2有当变量数目增加而增大的缺点,人们对其进行修改;有一修正的R2(adjustedRsquare)。第二十九页,共六十二页,2022年,8月28日此外,计算机还计算了一个在零假设下有F分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自变量没有关系)。第三十页,共六十二页,2022年,8月28日线性回归方程的残差分析(一)残差序列的正态性检验:绘制标准化残差的直方图或累计概率图(二)残差序列的随机性检验绘制残差和预测值的散点图,应随机分布在经过零的一条直线上下(三)残差序列的等方差性检验随机、等方差、独立随机、异方差、独立非独立第三十一页,共六十二页,2022年,8月28日线性回归方程的残差分析(四)残差序列独立性检验:残差序列是否存在后期值与前期值相关的现象,利用D.W(Durbin-Watson)检验d-w=0:残差序列存在完全正自相关;d-w=4:残差序列存在完全负自相关;0<d-w<2:残差序列存在某种程度的正自相关;2<d-w<4:残差序列存在某种程度的负自相关;d-w=2:残差序列不存在自相关.残差序列不存在自相关,可以认为回归方程基本概括了因变量的变化;否则,认为可能一些与因变量相关的因素没有引入回归方程或回归模型不合适或滞后性周期性的影响.第三十二页,共六十二页,2022年,8月28日线性回归方程的残差分析(五)异常值(casewise或outliers)诊断利用标准化残差不仅可以知道观察值比预测值大或小,并且还知道在绝对值上它比大多数残差是大还是小.一般标准化残差的绝对值大于3,则可认为对应的样本点为奇异值异常值并不总表现出上述特征.当剔除某观察值后,回归方程的标准差显著减小,也可以判定该观察值为异常值第三十三页,共六十二页,2022年,8月28日线性回归方程的预测(一)点估计y0(二)区间估计95%的近似置信区间:x0为xi的均值时,预测区间最小,精度最高.x0越远离均值,预测区间越大,精度越低.第三十四页,共六十二页,2022年,8月28日一元线性回归分析操作(一)基本操作步骤(1)菜单选项:Analyze->regression->linear…(2)选择一个变量为因变量进入dependent框(3)选择一个变量为自变量进入independent框(4)enter:所选变量全部进入回归方程(默认方法)(5)对样本进行筛选(selectionvariable)利用满足一定条件的样本数据进行回归分析(6)指定作图时各数据点的标志变量(caselabels)第三十五页,共六十二页,2022年,8月28日一元线性回归分析操作(二)statistics选项(1)基本统计量输出Estimates:默认.显示回归系数相关统计量.confidenceintervals:每个非标准化的回归系数95%的置信区间.Descriptive:各变量均值、标准差和相关系数单侧检验概率.Modelfit:默认.判定系数、估计标准误差、方差分析表、容忍度(2)Residual框中的残差分析Durbin-waston:D-W值casewisediagnostic:异常值(奇异值)检测(输出预测值及残差和标准化残差)第三十六页,共六十二页,2022年,8月28日一元线性回归分析操作(三)plot选项:图形分析.Standardizeresidualplots:绘制残差序列直方图和累计概率图,检测残差的正态性绘制指定序列的散点图,检测残差的随机性、异方差性ZPRED:标准化预测值ZRESID:标准化残差SRESID:学生化残差produceallpartialplot:绘制因变量和所有自变量之间的散点图第三十七页,共六十二页,2022年,8月28日多元线性回归人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂第三十八页,共六十二页,2022年,8月28日多元线性回归分析一般的有k个(定量)自变量x1,x2…,xk的对因变量y的线性回归模型称为多元回归,模型为这里b0,b1,…,bk称为回归系数。对统计软件来说,计算多个自变量的回归和计算一个自变量的情况类似。第三十九页,共六十二页,2022年,8月28日多元回归分析数据格式第四十页,共六十二页,2022年,8月28日多元线性回归分析的一般步骤
第四十一页,共六十二页,2022年,8月28日多元回归的假设检验第四十二页,共六十二页,2022年,8月28日自变量的挑选在多个自变量中,对因变量起决定性作用的往往只有少数一部分。系统可以根据因变量作用的大小,从选定的自变量中筛选出一部分变量作为回归模型的自变量留在模型中的自变量应该是对因变量的变化贡献较大的变量第四十三页,共六十二页,2022年,8月28日多元线性回归分析中的自变量筛选(一)自变量筛选的目的多元回归分析引入多个自变量.如果引入的自变量个数较少,则不能很好的说明因变量的变化;并非自变量引入越多越好.原因:有些自变量可能对因变量的解释没有贡献自变量间可能存在较强的线性关系,即:多重共线性.因而不能全部引入回归方程.第四十四页,共六十二页,2022年,8月28日多元线性回归分析中的自变量筛选(二)自变量向前筛选法(forward):即:自变量不断进入回归方程的过程.首先,选择与因变量具有最高相关系数的自变量进入方程,并进行各种检验;其次,在剩余的自变量中寻找偏相关系数最高的变量进入回归方程,并进行检验;默认:回归系数检验的概率值小于PIN(0.05)才可以进入方程.反复上述步骤,直到没有可进入方程的自变量为止. 第四十五页,共六十二页,2022年,8月28日多元线性回归分析中的自变量筛选(三)自变量向后筛选法(backward):即:自变量不断剔除出回归方程的过程.首先,将所有自变量全部引入回归方程;其次,在一个或多个t值不显著的自变量中将t值最小的那个变量剔除出去,并重新拟和方程和进行检验;默认:回归系数检验值大于POUT(0.10),则剔除出方程如果新方程中所有变量的回归系数t值都是显著的,则变量筛选过程结束.否则,重复上述过程,直到无变量可剔除为止.第四十六页,共六十二页,2022年,8月28日多元线性回归分析中的自变量筛选(四)自变量逐步筛选法(stepwise):即:是“向前法”和“向后法”的结合。向前法只对进入方程的变量的回归系数进行显著性检验,而对已经进入方程的其他变量的回归系数不再进行显著性检验,即:变量一旦进入方程就不会被剔除随着变量的逐个引进,由于变量之间存在着一定程度的相关性,使得已经进入方程的变量其回归系数不再显著,因此会造成最后的回归方程可能包含不显著的变量。逐步筛选法则在变量的每一个阶段都考虑剔除一个变量的可能性。第四十七页,共六十二页,2022年,8月28日线性回归分析中的共线性检测(一)共线性带来的主要问题高度的多重共线性会使回归系数的标准差随自变量相关性的增大而不断增大,以至使回归系数的置信区间不断增大,造成估计值精度减低.回归方程检验显著但所有偏回归系数均检验不显著偏回归系数估计值大小或符号与常识不符定性分析对因变量肯定有显著影响的因素,在多元分析中检验不显著,不能纳入方程去除一个变量,偏回归系数估计值发生巨大变化第四十八页,共六十二页,2022年,8月28日线性回归分析中的共线性检测(二)共线性诊断自变量的容忍度(tolerance)和方差膨胀因子容忍度:Toli=1-Ri2.其中:Ri2是自变量xi与方程中其他自变量间的复相关系数的平方.容忍度越大则与方程中其他自变量的共线性越低,应进入方程.(具有太小容忍度的变量不应进入方程,spss会给出警告)(据经验T<0.1一般认为具有多重共线性)方差膨胀因子(VIF):容忍度的倒数SPSS在回归方程建立过程中不断计算待进入方程自变量的容忍度,并显示目前的最小容忍度第四十九页,共六十二页,2022年,8月28日线性回归分析中的共线性检测(二)共线性诊断用特征根刻画自变量的方差如果自变量间确实存在较强的相关关系,那么它们之间必然存在信息重叠,于是可从这些自变量中提取出既能反映自变量信息(方差)又相互独立的因素(成分)来.从自变量的相关系数矩阵出发,计算相关系数矩阵的特征根,得到相应的若干成分.如果特征根中有一个特征根值远远大于其他特征根的值,则仅一个特征根就基本刻画所有自变量绝大部分信息,自变量间一定存在相当多的重叠信息如果某个特征根既能够刻画某个自变量方差的较大部分比例(如大于0.7),同时又可以刻画另一个自变量方差的较大部分比例,则表明这两个自变量间存在较强的多重共线性。第五十页,共六十二页,2022年,8月28日线性回归分析中的共线性检测(二)共线性诊断条件指标0<k<10无多重共线性;k>=30可能存在;k>=100严重第五十一页,共六十二页,2022年,8月28日多重共线性的对策增大样本量(不太可能)多种自变量筛选方法结合(选择最优方程)人为去除次要变量(定性分析为较次要,或无需分析)主成分回归分析(提取因子作为影响因素)第五十二页,共六十二页,2022年,8月28日多元线性回归分析操作(一)基本操作步骤(1)菜单选项:analyze->regression->linear…(2)选择一个变量为因变量进入dependent框(3)选择一个或多个变量为自变量进入independent框(4)选择多元回归分析的自变量筛选方法:enter:所选变量全部进入回归方程(默认方法)remove:从回归方程中剔除变量stepwise:逐步筛选;backward:向后筛选;forward:向前筛选(5)对样本进行筛选(selectionvariable)利用满足一定条件的样本数据进行回归分析(6)指定作图时各数据点的标志变量(caselabels)第五十三页,共六十二页,2022年,8月28日多元线性回归分析操作(二)statistics选项(1)基本统计量输出Partandpartialcorrelation:与Y的简单相关、偏相关和部分相关Rsquarechange:每个自变量进入方程后R2及F值的变化量Collinearitydignostics:共线性诊断.第五十四页,共六十二页,2022年,8月28日多元线性回归分析操作(三)options选项:steppingmethodcriteria:逐步筛选法参数设置.useprobabilityofF:以F值相伴概率作为变量进入和剔除方程的标准.一个变量的F值显著性水平小于entry(0.05)则进入方程;大于removal(0.1)则剔除出方程.因此:Entry<removaluseFvalue:以F值作为变量进入(3.84)和剔除(2.71)方程的标准(四)save选项:将回归分析结果保存到数据编辑窗口中或某磁盘文件中第五十五页,共六十二页,2022年,8月28日线性回归分析中的异方差问题(一)什么是异方差回归模型要求残差序列服从均值为0并具有相同方差的正态分布,即:残差分布幅度不应随自变量或因变量的变化而变化.否则认为出现了异方差现象(二)举例理解异方差收入水平和消费种类打字时间和出错类型第五十六页,共六十二页,2022年,8月28日线性回归分析中的异方差问题(三)异方差诊断可以通过绘制标准化残差序列和因变量预测值(或每个自变量)的散点图来识别是否存在异方差(四)异方差处理实施方差稳定性变换残差与yi(预测值)的平方根呈正比:对yi开平方残差与yi(预测值)呈正比:对yi取对数.残差与yi(预测值)的平方呈正比,则1/yi第五十七页,共六十二页,2022年,8月28日曲线估计(curveestimate)(一)目的:
在一元回归分析或时间序列中,因变量与自变量(时间)之间的关系不呈线性关系,但通过适当处理,可以转化为线性模型.可进行曲线估计.第五十八页,共六十二页,2022年,8月28日曲线估计(curveestimate)(二)曲线估计的常用模型:(t为时间,也可为某一自变量)y=b0+b1t (线性拟合linear)y=b0+b1t+b2t2 (二次曲线quadratic)y=b0+b1t+b2t2+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川达州山体喷浆施工方案
- 变压器现场吊芯施工方案
- 重庆地铁5号线施工方案
- 《大数据技术导论》-教学大纲
- 高埗写字楼杀虫施工方案
- 铁制容器防腐措施方案
- 八下南充数学试卷
- 太阳能发电安装 施工方案
- 熔盐炉拼接炉拱施工方案
- 黑龙江城镇亮化施工方案
- 工业机器人操作与安全防护培训
- 2024年新奥集团股份有限公司招聘笔试参考题库含答案解析
- 人格心理学导论- 课件全套 第1-8章-人格心理学概述-人格研究方法与应用
- 养成好习惯完整版PPT
- 《国歌法》、《国旗法》主题班会
- 修订《科学》(大象版)实验目录表
- 中药材的规范化生产的概况课件
- 首诊负责制度课件
- 知识库构建与应用PPT
- 模具部危险源辨识评价
- 部编版道德与法治四年级下册第四单元《感受家乡文化关心家乡发展》大单元作业设计
评论
0/150
提交评论