回归分析应用_第1页
回归分析应用_第2页
回归分析应用_第3页
回归分析应用_第4页
回归分析应用_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定义(dìngyì):现实世界中大多数现象表现相关关系,人们通过的大量观察,将现象之间的相关关系抽象概括为函数关系,并用函数形式或模型来描述与推断现象间的具体变动关系,用一或一组变量(biànliàng)的变化来估计与推算另一变量(biànliàng)的变化。这种分析方法成为回归分析。精品资料依据要素(yàosù)分类

一元线性回归分析一元回归分析幂函数一元非线性回归分析指数函数多元(duōyuán)线性回归分析对数函数多元(duōyuán)回归分析幂函数多元(duōyuán)非线性回归分析指数函数对数函数

精品资料回归分析的主要(zhǔyào)内容:①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。②对这些关系式的可信程度进行检验。③在许多自变量共同影响着一个因变量的关系中,判断(pànduàn)哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。精品资料线性回归(huíguī)的局限性:不应该使用(shǐyòng)这种方法来预测和建立模型时所使用(shǐyòng)的数据值相关差甚远的值。避免模型中自变量之间有较高的相关性。对噪声数据敏感。一般假设误差变量(

errorvariances或residuals)服从均值为0的正态分布。精品资料回归(huíguī)分析在地理学中的意义和作用:

主要研究地理系统各要素之间相互关系(guānxì),寻找出隐藏在随机性后面的统计规律。

有预测地理中要素的变化趋势。

精品资料回归分析(fēnxī)的一般步骤精品资料涉及一个自变量的回归;因变量y与自变量x之间为线性关系(guānxì);因变量(dependentvariable):被预测或被解释的变量,用y表示。自变量(independentvariable):预测或解释因变量的一个或多个变量,用x表示。因变量与自变量之间的关系(guānxì)用一条线性方程来表示;精品资料实例(shílì):气温是否会显著影响地温;降雨量是否会影响到粮食产量;航班(hánɡbān)正点率是否对顾客投诉次数有显著影响;广告费用支出是否对销售额有显著影响;北极熊数量是否会影响企鹅的出生率(不会,反例);植物生长是否受土壤、降水、阳光等因素影响。精品资料描述因变量y如何依赖于自变量x和误差项的方程称为回归模型一元线性回归模型:y=b0+b1x+ey是x的线性函数(部分)加上误差项线性部分反映了由于x的变化引起(yǐnqǐ)的y的变化误差项是随机变量反映了除x和y之间线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数一元(yīyuán)线性回归精品资料描述因变量y如何依赖于自变量x和误差项的方程称为回归模型一元线性回归模型:y=b0+b1x+ey是x的线性函数(部分)加上误差项线性部分反映了由于x的变化引起的y的变化误差项是随机变量反映了除x和y之间线性关系之外的随机因素对y的影响(yǐngxiǎng)是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数精品资料描述y的平均值或期望值如何依赖于x的方程称为回归方程;一元线性回归方程的形式如下:E(y)=0+1x方程表示一条直线,也称为直线回归方程;0是回归直线在y轴上的截距,是当x=0时y的期望值;1是直线的斜率,称为回归系数,表示当x每变动(biàndòng)一个单位时,y的平均变动(biàndòng)值精品资料估计(gūjì)的回归方程总体回归参数和是未知的,必须利用样本数据去估计;用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程;一元线性回归中估计的回归方程为:其中:是估计的回归直线在y轴上的截距,是直线的斜率(xiélǜ),它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值。精品资料最小二乘法(chéngfǎ)估计使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法(fāngfǎ)。即

用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小精品资料最小二乘估计(gūjì)(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^精品资料最小二乘法(chéngfǎ)根据最小二乘法的要求,可得求解和的公式(gōngshì)如下精品资料一元回归方程统计(tǒngjì)检验的主要内容精品资料变差因变量y取值的波动称为变差变差来源于两个方面:由于自变量x的取值不同造成;除x以外的其他因素(如测量误差等)的影响;对一个(yīɡè)具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。精品资料变差的分解(fēnjiě)(图示)xyy{}}精品资料离差平方和的分(三个平方和的意义(yìyì))总平方和(SST)用S表示反映因变量的n个观察值与其均值的总离差;回归平方和(SSR)用U表示反映自变量x的变化对因变量y取值变化的影响,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和;残差平方和(SSE)用Q表示反映除x以外的其他(qítā)因素对y取值的影响,也称为不可解释的平方和或剩余平方和;精品资料离差平方和的分解(fēnjiě)

(三个平方和的关系)SST=SSR+SSE或S=U+Q总平方和(SST){回归平方和(SSR)残差平方和(SSE){{精品资料判定(pàndìng)系数R2(coefficientofdetermination)回归(huíguī)平方和占总离差平方和的比例反映回归方程的拟合程度;取值范围在[0,1]之间;

R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差;一元线性回归中,判定系数等于y和x相关系数的平方,即R2=(r)2;精品资料线性关系的检验(jiǎnyàn)检验所有自变量与因变量之间的线性关系是否显著;将均方回归(MSR)同均方残差(MSE)加以(jiāyǐ)比较,应用F检验来分析二者之间的差别是否显著;均方回归:回归平方和SSR除以相应的自由度(自变量的个数K);均方残差:残差平方和SSE除以相应的自由度(n-k-1)。精品资料线性关系的检验(jiǎnyàn)(检验(jiǎnyàn)的步骤)提出假设H0:1=0所有回归系数与零无显著差异(chāyì),y与全体x的线性关系不显著计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:若F>F,拒绝H0;若F<F,不能拒绝H0精品资料线性关系的检验(jiǎnyàn)(sig值检验(jiǎnyàn))Sig值小于显著性水平a,拒绝零假设认为所有回归系数与零存在显著差异,被解释变量y与解释变量x的线性关系显著,可以(kěyǐ)用线性模型描述它们之间的关系;Sig值大于显著性水平a,不应拒绝零假设说明用线性模型描述x和y之间的关系是不恰当的。精品资料检验回归方程中的每个解释变量(biànliàng)x与被解释变量(biànliàng)y之间是否存在显著的线性关系;确定解释变量(biànliàng)能否保留在线性回归方程中。回归系数的显著性检验(jiǎnyàn)精品资料回归系数的检验(jiǎnyàn)(样本统计量的分布)是根据最小二乘法求出的样本统计量,服从正态分布;的分布具有(jùyǒu)如下性质数学期望:标准差:由于未知,需用其估计量se来代替得到的估计标准差精品资料回归系数的检验(jiǎnyàn)(检验(jiǎnyàn)步骤)提出假设H0:b1=0(没有线性关系)H1:b10(有线性关系)计算检验(jiǎnyàn)的统计量

确定显著性水平,并进行决策t>t,拒绝H0;t<t,不能拒绝H0Sig值小于a,拒绝H0精品资料利用回归方程进行(jìnxíng)估计和预测根据自变量x的取值估计或预测因变量y的取值估计或预测的类型点估计y的平均值的点估计y的个别(gèbié)值的点估计区间估计y的平均值的置信区间估计y的个别(gèbié)值的预测区间估计精品资料线性关系的检验(jiǎnyàn)检验(jiǎnyàn)所有自变量与因变量之间的线性关系是否显著;将均方回归(MSR)同均方残差(MSE)加以比较,应用F检验(jiǎnyàn)来分析二者之间的差别是否显著;均方回归:回归平方和SSR除以相应的自由度(自变量的个数K);均方残差:残差平方和SSE除以相应的自由度(n-k-1)。精品资料线性关系的检验(jiǎnyàn)(检验(jiǎnyàn)的步骤)提出假设H0:1=0所有(suǒyǒu)回归系数与零无显著差异,y与全体x的线性关系不显著计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:若F>F,拒绝H0;若F<F,不能拒绝H0精品资料线性关系的检验(jiǎnyàn)(sig值检验(jiǎnyàn))Sig值小于显著性水平a,拒绝零假设认为所有回归系数与零存在显著差异,被解释变量y与解释变量x的线性关系显著,可以用线性模型描述(miáoshù)它们之间的关系;Sig值大于显著性水平a,不应拒绝零假设说明用线性模型描述(miáoshù)x和y之间的关系是不恰当的。精品资料实例(shílì):精品资料精品资料(1)点击(diǎnjī)statistics在回归系数下拉框中估计,残差下拉框中选中Durbin-Waston

(2)点击(diǎnjī)在绘图在左选框中选中DEPENDNT,标准化残差图选中正态概率图

(3)点击(diǎnjī)选项中默认设置精品资料残差统计(tǒngjì)量方差分析模型(móxíng)汇总回归分析图精品资料在【模型汇总】中,主要显示回归模型中的相关系数、相关系数的平方、调整后的相关系数和估计(gūjì)的标准误值在【方差分析】中主要显示F检验值、显著性检验P值、平方和、自由度在【残差统计量】主要显示预测值、残差、标准预测值和标准残差精品资料Multivariatelinearregression概念(gàiniàn):多元线性回归分析也称复线性回归分析(multiplelinearregressionanalysis),它研究一组自变量如何直接影响(yǐngxiǎng)一个因变量。自变量(independentvariable)是指独立自由变量的变量,用向量X表示;因变量(dependentvariable)是指非独立的、受其它变量影响(yǐngxiǎng)的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariatelinearregressionanalysis)精品资料多元回归分析(fēnxī)数据格式精品资料多元线性回归必须满足的假定(jiǎdìng)条件因变量是服从正态分布的连续型随机(suíjī)变量;k个自变量是固定变量,即非随机(suíjī)或无度量误差的变量;k个自变量间不存在多重共线性;k个自变量与残差独立;残差是随机(suíjī)变量,均值为零,方差为常数;各残差间相互独立;残差服从正态分布。精品资料因变量是服从正态分布的连续型随机(suíjī)变量;k个自变量是固定变量,即非随机(suíjī)或无度量误差的变量;k个自变量间不存在多重共线性;k个自变量与残差独立;残差是随机(suíjī)变量,均值为零,方差为常数;各残差间相互独立;残差服从正态分布。统计检验(jiǎnyàn)结果偏倚结果失真结论的非唯一性模型中缺乏重要变量参数估计偏倚结果误导精品资料假定因变量Y与自变量间存在如下关系:式中,是常数项,称为偏回归系数(partialregressioncoefficient)。的含义为在其它自变量保持不变的条件下,自变量改变一个单位时因变量Y的平均改变量。为随机误差,又称残差(residual),它表示的变化中不能由自变量解释的部分。一、多元(duōyuán)线性回归方程模型精品资料x1x2y精品资料应用(yìngyòng)条件:注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于(duìyú)自变量是分类变量的情形,需要用广义线性回归模型分析。精品资料二、多元线性回归分析(fēnxī)的步骤(一)估计各项参数,建立多元线性回归方程模型(二)对整个模型进行假设检验,模型有意义的前提下,再分别(fēnbié)对各偏回归系数进行假设检验。(三)计算相应指标,对模型的拟合效果进行评价。精品资料(一)模型(móxíng)的参数估计精品资料27名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹(kōngfù)胰岛素(x3)、糖化血红蛋白(x4)、空腹(kōngfù)血糖(y)的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。例精品资料各变量的离差矩阵精品资料线性回归方程模型为:精品资料1、对模型的假设检验(jiǎnyàn)—F检验(jiǎnyàn)2、对偏回归系数的假设检验(jiǎnyàn)—F检验(jiǎnyàn)和t检验(jiǎnyàn)3、标准偏化回归系数(二)对模型及偏回归系数的假设检验精品资料1、对模型的假设检验(jiǎnyàn)—F检验(jiǎnyàn)精品资料SS回归=b1l1y+b2l2y

+b3l3y+b4l4y=0.1424×67.6962+0.3515×89.8025+0.2706×142.4347+0.6382×84.5570=133.7107;ν回归=m=4各变量的离差矩阵精品资料SS总=lyy=222.5519;ν总=n-1=26SS剩余(shèngyú)=SS总-SS回归=222.5519-133.7107=88.8412ν剩余(shèngyú)=n-m-1=22MS回归=SS回归/ν回归;MS剩余(shèngyú)=SS剩余(shèngyú)/ν剩余(shèngyú);F=MS回归/MS剩余(shèngyú)1、对模型的假设检验(jiǎnyàn)—F检验(jiǎnyàn)精品资料1、对模型的假设检验(jiǎnyàn)—F检验(jiǎnyàn)精品资料2、对偏回归系数的假设检验(jiǎnyàn)—F检验(jiǎnyàn)和t检验(jiǎnyàn)回归方程成立(chénglì)只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。①方差分析法②t

检验法精品资料①偏回归系数的假设检验--方差分析法精品资料①偏回归系数的假设检验--方差分析法精品资料ParameterSta

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论