R软件与统计分析_第1页
R软件与统计分析_第2页
R软件与统计分析_第3页
R软件与统计分析_第4页
R软件与统计分析_第5页
已阅读5页,还剩173页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验目的实验内容学习如何应用R软件解决统计问题1、统计模型、方法简介

2、应用实例3、实验作业S统计分析统计模型简介这一节我们简单介绍S的统计模型。S中实现了几乎所有常见的统计模型,而且多种模型可以用一种统一的观点表示和处理。这方面S-PLUS较全面,它实现了许多最新的统计研究成果,R因为是自愿无偿工作所以统计模型局部还相对较欠缺。事实上,许多统计学家的研究出的统计算法都以S-PLUS程序发表,因为S语言是一种特别有利于统计计算编程的语言。学习这一节需要我们具备线型模型、线型回归、方差分析的根本知识。第9章一元线性回归§9.1变量间关系的度量§9.2一元线性回归§9.3利用回归方程进行估计和预测§9.4残差分析函数关系是一一对应确实定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,那么称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上

xy§9.1变量间的关系函数关系

(几个例子)

函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px

(p为单价)圆的面积(S)与半径之间的关系可表示为S=

R2

企业的原材料消耗额(y)与产量(x1)

、单位产量消耗(x2)

、原材料价格(x3)之间的关系可表示为y=x1x2x3

相关关系

(correlation)变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量

x取某个值时,变量y的取值可能有几个各观测点分布在直线周围

xy相关关系

(几个例子)

相关关系的例子父亲身高(y)与子女身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系相关关系

(类型)散点图(scatterdiagram)

不相关

负线性相关

正线性相关

非线性相关

完全负线性相关完全正线性相关

相关关系的描述与测度散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,其业务主要是进行根底设施建设、国家重点工程建设、固定资产投资等工程的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的开展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的方法。下面是该银行所属的25家分行2002年的有关业务数据散点图(例题分析)散点图(例题分析)例1读取某公司雇员数据〔R数据文件〕,画出起始收入和现在收入的散点图。load('E:/R/Employeedata.Rdata');ls();[1]"Edata"attributes(Edata);$names[1]"ID""GENDER""BDATE""EDUC""JOBCAT""SALARY"[7]"SALBEGIN""JOBTIME""PREVEXP""MINORITY"plot(Edata$SALARY,Edata$SALBEGIN);相关系数(correlationcoefficient)对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数假设相关系数是根据总体全部数据计算的,称为总体相关系数,记为假设是根据样本数据计算的,那么称为样本相关系数,记为r相关关系的描述与测度相关系数

(计算公式)

样本相关系数的计算公式或化简为相关系数(取值及其意义)

r

的取值范围是[-1,1]

|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关

r=0,不存在线性相关关系相关

-1

r<0,为负相关

0<r

1,为正相关

|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切相关系数(取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加相关系数(例题分析)相关系数的显著性检验

(r的抽样分布)1. r的抽样分布随总体相关系数和样本容量的大小而变化当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数很小或接近0时,趋于正态分布的趋势非常明显。而当远离0时,除非n非常大,否那么r的抽样分布呈现一定的偏态。当为较大的正值时,r呈现左偏分布;当为较大的负值时,r呈现右偏分布。只有当接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量相关系数的显著性检验

(检验的步骤)1. 检验两个变量之间是否存在线性相关关系等价于对回归系数b1的检验采用提出的t检验检验的步骤为提出假设:H0:

;H1:

0

计算检验的统计量:确定显著性水平,并作出决策假设t>t,拒绝H0假设t<t,不拒绝H0相关系数的显著性检验

(例题分析)

对不良贷款与贷款余额之间的相关系数进行显著性检(0.05)提出假设:H0:

;H1:

0计算检验的统计量3.

根据显著性水平=0.05,查t分布表得t

(n-2)=2.0687由于t=7.5344>t

(25-2)=2.0687,拒绝H0,不良贷款与贷款余额之间存在着显著的正线性相关关系相关系数的显著性检验

(例题分析)各相关系数检验的统计量§9.2一元线性回归一元线性回归模型参数的最小二乘估计回归直线的拟合优度显著性检验什么是回归分析?(Regression)从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归一词是怎么来的??趋向中间高度的回归回归这个术语是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他开展的研究两个数值变量的方法称为回归分析。回归分析与相关分析的区别相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机确实定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制回归模型的类型一元线性回归涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示因变量与自变量之间的关系用一条线性方程来表示回归模型

(regressionmodel)答复“变量之间是什么样的关系?”方程中运用1个数字的因变量(响应变量)被预测的变量1个或多个数字的或分类的自变量(解释变量)用于预测的变量3. 主要用于预测和估计一元线性回归模型描述因变量y如何依赖于自变量x和误差项的方程称为回归模型一元线性回归模型可表示为y=b0+b1x+ey是x的线性函数(局部)加上误差项线性局部反映了由于x的变化而引起的y的变化误差项是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数一元线性回归模型(根本假定)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=

0+

1x对于所有的x值,ε的方差σ2都相同误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关回归方程

(regressionequation)描述y的平均值或期望值如何依赖于x的方程称为回归方程一元线性回归方程的形式如下

E(y)=

0+

1x方程的图示是一条直线,也称为直线回归方程

0是回归直线在y轴上的截距,是当x=0时y的期望值

1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值估计的回归方程

(estimatedregressionequation)一元线性回归中估计的回归方程为用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和

是未知的,必需利用样本数据去估计其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值

最小二乘估计使因变量的观察值与估计值之间的离差平方和到达最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小最小二乘估计(图示)xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法

(

和的计算公式)

根据最小二乘法的要求,可得求解和的公式如下估计方程的求法

(例题分析)【例】求不良贷款对贷款余额的回归方程回归方程为:y=-0.8295+0.037895x回归系数=0.037895表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元

估计方程的求法

(例题分析)不良贷款对贷款余额回归方程的图示用R进行回归分析变差因变量

y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示回归直线的拟合优度变差的分解(图示)xyy{}}

离差平方和的分解

(三个平方和的关系)SST=SSR+SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{离差平方和的分解

(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和判定系数r2

(coefficientofdetermination)回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

R2

1,说明回归方程拟合的越好;R2

0,说明回归方程拟合的越差判定系数等于相关系数的平方,即R2=(r)2判定系数r2

(例题分析)【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义

判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系估计标准误差

(standarderrorofestimate)实际观察值与回归估计值离差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项

的标准差

的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小

计算公式为注:例题的计算结果为1.9799线性关系的检验检验自变量与因变量之间的线性关系是否显著将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差异是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数p)残差均方:残差平方和SSE除以相应的自由度(n-p-1)显著性检验线性关系的检验

(检验的步骤)提出假设H0:

1=0线性关系不显著2.计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:假设F>F,拒绝H0;假设F<F,不拒绝H0线性关系的检验

(例题分析)提出假设H0:

1=0不良贷款与贷款余额之间的线性关系不显著计算检验统计量F确定显著性水平=0.05,并根据分子自由度1和分母自由度25-2找出临界值F=4.28作出决策:假设F>F,拒绝H0,线性关系显著线性关系的检验

(方差分析表)R输出的方差分析表回归系数的检验在一元线性回归中,等价于线性关系的显著性检验检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著理论基础是回归系数

的抽样分布回归系数的检验

(样本统计量的分布)

是根据最小二乘法求出的样本统计量,它有自己的分布的分布具有如下性质分布形式:正态分布数学期望:标准差:由于未知,需用其估计量sy来代替得到的估计的标准差回归系数的检验

(检验步骤)提出假设H0:b1=0(没有线性关系)H1:b1

0(有线性关系)计算检验的统计量确定显著性水平,并进行决策

t>t

,拒绝H0;t<t

,不拒绝H0回归系数的检验

(例题分析)

对例题的回归系数进行显著性检验(=0.05)提出假设H0:b1=0H1:b1

0计算检验的统计量t=7.533515>t=2.201,拒绝H0,说明不良贷款与贷款余额之间有线性关系回归系数的检验

(例题分析)

P值的应用P=0.000000<=0.05,拒绝原假设,不良贷款与贷款余额之间有线性关系R输出的局部回归结果§9.3利用回归方程进行估计和预测点估计区间估计利用回归方程进行估计和预测根据自变量x

的取值估计或预测因变量y的取值估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计点估计2.点估计值有y的平均值的点估计y的个别值的点估计在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中那么不同对于自变量x的一个给定值x0

,根据回归方程得到因变量y的一个估计值

y的平均值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计在前面的例子中,假设我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计。根据估计的回归方程得y的个别值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值,就是个别值的点估计比方,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,那么属于个别值的点估计。根据估计的回归方程得区间估计点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计对于自变量

x的一个给定值x0,根据回归方程得到因变量y的一个估计区间区间估计有两种类型置信区间估计(confidenceintervalestimate)预测区间估计(predictionintervalestimate)置信区间估计利用估计的回归方程,对于自变量x的一个给定值x0

,求出因变量y

的平均值的估计区间

,这一估计区间称为置信区间(confidenceinterval)

E(y0)

在1-

置信水平下的置信区间为式中:sy为估计标准误差置信区间估计

(例题分析)【例】求出贷款余额为100亿元时,不良贷款95%的置信区间解:根据前面的计算结果,n=25,sy=1.9799,t(25-2)=2.068置信区间为当贷款余额为100亿元时,不良贷款的平均值在2.1141亿元到3.8059亿元之间预测区间估计利用估计的回归方程,对于自变量x的一个给定值x0

,求出因变量y

的一个个别值的估计区间,这一区间称为预测区间(predictioninterval)

y0在1-

置信水平下的预测区间为注意!预测区间估计

(例题分析)【例】求出贷款余额为72.8亿元时,不良贷款95%的置信区间解:根据前面的计算结果,n=25,sy=1.9799,t(25-2)=2.0687置信区间为贷款余额为72.8亿元的那个分行,其不良贷款的预测区间在-2.2766亿元到6.1366亿元之间影响区间宽度的因素置信水平(1-

)区间宽度随置信水平的增大而增大数据的离散程度(s)区间宽度随离散程度的增大而增大3. 样本容量区间宽度随样本容量的增大而减小4. 用于预测的xp与

x的差异程度区间宽度随xp与

x的差异程度的增大而增大置信区间、预测区间、回归方程xpyx

x预测上限置信上限预测下限置信下限§9.4残差分析用残差证实模型的假定用残差检测异常值和有影响的观测值残差(residual)因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示反映了用估计的回归方程去预测而引起的误差确定有关误差项

的假定是否成立检测有影响的观测值用残差证实模型的假定残差图(residualplot)表示残差的图形关于x的残差图关于y的残差图标准化残差图用于判断误差

的假定是否成立检测有影响的观测值残差图

(形态及判别)残差图

(例题分析)标准化残差

(standardizedresidual)

残差除以它的标准差后得到的数值。计算公式为

ei是第i个残差的标准差,其计算公式为

标准化残差图用以直观地判断误差项服从正态分布这一假定是否成立假设假定成立,标准化残差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间标准化残差图

(例题分析)用残差检测异常值和

有影响的观测值异常值(outlier)如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点如果异常值是一个错误的数据,比方记录错误造成的,应该修正该数据,以便改善回归的效果如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比方非线性模型如果完全是由于随机因素而造成的异常值,那么应该保存该数据在处理异常值时,假设一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔出异常值(识别)异常值也可以通过标准化残差来识别如果某一个观测值所对应的标准化残差较大,就可以识别为异常值一般情况下,当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值有影响的观测值如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值一个有影响的观测值可能是一个异常值,即有一个的值远远偏离了散点图中的趋势线对应一个远离自变量平均值的观测值或者是这二者组合而形成的观测值,有影响的观测值(图示)不存在影响值的趋势不存在影响值的趋势存在影响值的趋势杠杆率点

(ieveragepoint)如果自变量存在一个极端值,该观测值那么称为高杠杆率点(highieveragepoint)在一元回归中,第i个观测值的杠杆率用hi表示,其计算公式为如果一个观测值的杠杆率就可以将该观测值识别为有高杠杆率的点一个有高杠杆率的观测值未必是一个有影响的观测值,它可能对回归直线的斜率没有什么影响高杠杆率点(图示)高杠杆率点本章小结变量间关系的度量回归模型、回归方程与估计的回归方程回归直线的拟合优度回归分析中的显著性检验估计和预测用R进行回归分析第10章多元线性回归§10.1多元线性回归模型§10.2回归方程的拟合优度§10.3显著性检验§10.4多重共线性§10.5利用回归方程进行估计和预测§10.6虚拟自变量的回归学习目标1. 回归模型、回归方程、估计的回归方程2. 回归方程的拟合优度回归方程的显著性检验多重共线性问题及其处理利用回归方程进行估计和预测虚拟自变量的回归问题用R进行回归分析§10.1多元线性回归模型多元回归模型与回归方程估计的多元回归方程参数的最小二乘估计多元回归模型

(multipleregressionmodel)一个因变量与两个及两个以上自变量的回归描述因变量y如何依赖于自变量x1

,x2

,…,

xp

和误差项

的方程,称为多元回归模型涉及p个自变量的多元回归模型可表示为

b0

,b1,b2

,,bp是参数

是被称为误差项的随机变量

y是x1,,x2

,xp

的线性函数加上误差项

包含在y里面但不能被p个自变量的线性关系所解释的变异性多元回归模型

(根本假定)误差项ε是一个期望值为0的随机变量,即E(

)=0对于自变量x1,x2,…,xp的所有值,

的方差

2都相同误差项ε是一个服从正态分布的随机变量,即ε~N(0,

2),且相互独立多元回归方程

(multipleregressionequation)描述因变量y的平均值或期望值如何依赖于自变量x1,x2

,…,xp的方程多元线性回归方程的形式为

E(y)=

0+

1x1

+

2x2

+…+

pxp

b1,b2,,bp称为偏回归系数

bi

表示假定其他变量不变,当xi

每变动一个单位时,y的平均变动值二元回归方程的直观解释二元线性回归模型(观察到的y)回归面

0

ix1yx2(x1,x2)}估计的多元回归的方程

(estimatedmultipleregressionequation)是估计值是y

的估计值用样本统计量估计回归方程中的参数

时得到的方程由最小二乘法求得一般形式为参数的最小二乘法求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和到达最小来求得。即参数的最小二乘法

(例题分析)【例】一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。试建立不良贷款(y)与贷款余额(x1)、累计应收贷款(x2)、贷款工程个数(x3)和固定资产投资额(x4)的线性回归方程,并解释各回归系数的含义用R进行回归§10.2回归方程的拟合优度多重判定系数估计标准误差多重判定系数

(multiplecoefficientofdetermination)

回归平方和占总平方和的比例计算公式为因变量取值的变差中,能被估计的多元回归方程所解释的比例修正多重判定系数

(adjustedmultiplecoefficientofdetermination)

用样本容量n和自变量的个数p去修正R2得到计算公式为防止增加自变量而高估R2意义与R2类似数值小于R2R输出结果的分析估计标准误差Sy对误差项

的标准差

的一个估计值衡量多元回归方的程拟合优度计算公式为R输出结果的分析§10.3显著性检验线性关系检验回归系数检验和推断线性关系检验检验因变量与所有自变量之间的是否显著也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差异是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系线性关系检验提出假设H0:

1

2

p=0线性关系不显著H1:

1,

2,,

p至少有一个不等于02.

计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F4.作出决策:假设F>F,拒绝H0R输出结果的分析回归系数的检验线性关系检验通过后,对各个回归系数有选择地进行一次或屡次检验究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定对回归系数检验的个数进行限制,以防止犯过多的第一类错误(弃真错误)对每一个自变量都要单独进行检验应用t检验统计量回归系数的检验

(步骤)提出假设H0:bi=0(自变量xi与

因变量y没有线性关系)H1:bi

0(自变量xi与

因变量y有线性关系)计算检验的统计量t3.

确定显著性水平,并进行决策

t>t

,拒绝H0;t<t

,不拒绝H0R输出结果的分析回归系数的推断

(置信区间)

回归系数在(1-)%置信水平下的置信区间为

回归系数的抽样标准差R输出结果的分析§10.4多重共线性多重共线性及其所产生的问题多重共线性的判别多重共线性问题的处理多重共线性

(multicollinearity)回归模型中两个或两个以上的自变量彼此相关多重共线性带来的问题有可能会使回归的结果造成混乱,甚至会把分析引入歧途可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们与其的正负号相反R输出结果的分析多重共线性的识别检测多重共线性的最简单的一种方法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验假设有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性如果出现以下情况,暗示存在多重共线性模型中各对自变量之间显著相关。当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著回归系数的正负号与其的相反。R输出结果的分析多重共线性

(例题分析)【例】判别各自变量之间是否存在多重共线性贷款余额、应收贷款、贷款工程、固定资产投资额之间的相关矩阵多重共线性

(例题分析)【例】判别各自变量之间是否存在多重共线性相关矩阵系数的检验统计量多重共线性

(例题分析)

t

(25-2)=2.0687,所有统计量t>t

(25-2)=2.0687,所以均拒绝原假设,说明这4个自变量两两之间都有显著的相关关系由表Excel输出的结果可知,回归模型的线性关系显著(Significance-F=1.03539E-06<=0.05)。而回归系数检验时却有3个没有通过t检验(P-Value=0.074935、0.862853、0.067030>=0.05)。这也暗示了模型中存在多重共线性固定资产投资额的回归系数为负号(-0.029193),与预期的不一致多重共线性

(问题的处理)将一个或多个相关的自变量从模型中剔除,使保存的自变量尽可能不相关如果要在模型中保存所有的自变量,那么应防止根据t统计量对单个参数进行检验对因变量值的推断(估计或预测)的限定在自变量样本值的范围内R输出结果的分析§10.5利用回归方程进行估计和预测软件应用置信区间估计

(例题分析)STATISTICA输出的不良贷款的置信区间预测区间估计

(例题分析)STATISTICA输出的不良贷款的预测区间§10.6虚拟自变量的回归含有一个虚拟自变量的回归用虚拟自变量回归解决方差分析问题虚拟自变量

(dummyvariable)用数字代码表示的定性自变量虚拟自变量可有不同的水平只有两个水平的虚拟自变量比方,性别(男,女)有两个以上水平的虚拟自变量贷款企业的类型(家电,医药,其他)虚拟变量的取值为0,1虚拟自变量的回归回归模型中使用虚拟自变量时,称为虚拟自变量的回归当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量比方,性别(男,女)一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个虚拟变量虚拟自变量的回归

(例题分析)【例】为研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生各8名,得到他们的市场营销学课程的考试成绩如下表虚拟自变量的回归

(例题分析)散点图y与x的回归男女虚拟自变量的回归

(例题分析)引进虚拟变量时,回归方程可写:E(y)=

0+

1x男(x=0):E(y)=

0—男学生考试成绩的期望值女(x=0):E(y)=

0+

1—

1女学生考试成绩的期望值注意:当指定虚拟变量0—1时

0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值

1总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即平均值的差值=(

0+

1)-

0=

1虚拟自变量的回归

(例题分析)【例】为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如下表y与x1的回归及分析y与x1、x2的回归及分析虚拟自变量的回归

(例题分析)引进虚拟变量时,回归方程可写:

E(y)=

0+

1x1+

2x2女(

x2=0):E(y|女性)=

0+

1x1男(x2=1):E(y|男性)=(

0+

2)+

1x1

0的含义表示:女性职工的期望月工资收入(

0+

2)的含义表示:男性职工的期望月工资收入

1含义表示:工作年限每增加1年,男性或女性工资的平均增加值

2含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(

0+

2)-

0=

2用虚拟自变量回归

解决方差分析问题方差分析的回归方法

(例题分析)引进虚拟变量建立回归方程:E(Y)=

0+

1x1+

2x2+

3x3用R进行回归

0—家电制造业投诉次数的平均值

(

0+

1)—零售业投诉次数的平均值

(

0+

2)—旅游业投诉次数的平均值

(

0+

3)—航空公司投诉次数的平均值

本章小结多元回归模型、回归方程、估计方程回归方程的拟合优度显著性检验多重共线性利用回归方程进行估计和预测虚拟自变量的回归方差分析的回归方法第11章实例分析§11.1统计模型的表示§11.2统计分析实例§11.1统计模型的表示很多统计模型可以用一个线型模型来表示:在S中模型是一种对象,其表达形式叫做一个公式,我们先举几个例子来看一看。假定y,x,x0,x1,x2,…是数值型变量,X是矩阵,A,B,C,…是因子。y~xy~1+x两个式子都表示y对x的简单一元线型回归。第一个式子带有隐含的截距项,而第二个式子把截距项显式地写了出来。y~-1+xy~x-1都表示y对x的通过原点的回归,即不带截距项的回归。log(y)~x1+x2表示log(y)对x1和x2的二元回归,带有隐含的截距项。y~poly(x,2)y~1+x+I(x^2)表示y对x的一元二次多项式回归。第一种形式使用正交多项式,第二种形式直接使用x的各幂次。y~X+poly(x,2)因变量为y的多元回归,模型矩阵包括矩阵X,以及x的二次多项式的各项。y~A一种方式分组的方差分析,指标为y,分组因素为A。y~A+x一种方式分组的协方差分析,指标为y,分组因素为A,带有协变量x。y~A*By~A+B+A:By~B%in%A

y~A/B非可加两因素方差分析模型,指标为y,A,B是两个因素。前两个公式表示相同的交叉分类设计,后两个公式表示相同的嵌套分类设计。y~(A+B+C)^2y~A*B*C-A:B:C表示三因素试验,只考虑两两交互作用而不考虑三个因素间的交互作用。两个公式是等价的。y~A*xy~A/x

y~A/(1+x)-1都表示对因子A的每一水平拟合y对x的线型回归,但三个公式的编码方式不同。最后一种形式对A的每一水平都分别估计截距项和斜率项。y~A*B+Error(C)表示有两个处理因素A和B,误差分层由因素C确定的设计在S中~运算符用来定义模型公式。一般的线型模型的公式形式为因变量~+-第一项+-第二项+-第三项…其中因变量可以是向量或矩阵,或者结果为向量或矩阵的表达式。是加号+或者减号-,表示在模型中参加一项或去掉一项,第一项前面如果是加号可以省略。公式中的各项可以取为:一个值为向量或矩阵的表达式,或1。一个因子一个“公式表达式”,由“公式运算符”把因子、向量、矩阵连接而成。公式中的各项可以取为:一个值为向量或矩阵的表达式,或1。一个因子一个“公式表达式”,由“公式运算符”把因子、向量、矩阵连接而成。每一项定义了要参加模型矩阵或从模型矩阵中删除的假设干列。一个1表示一个截距项列,除非显式地删除总是隐含地包括在模型公式中。“公式运算符”的定义和Glim、Genstat软件中的定义类似,不过那里的“.”运算符这里改成了“:”,因为在S中句点是名字的合法字符。资料中列出了各运算符的简要说明。每一项定义了要参加模型矩阵或从模型矩阵中删除的假设干列。一个1表示一个截距项列,除非显式地删除总是隐含地包括在模型公式中。“公式运算符”的定义和Glim、Genstat软件中的定义类似,不过那里的“.”运算符这里改成了“:”,因为在S中句点是名字的合法字符。下表列出了各运算符的简要说明。注意在函数调用的括号内的表达式按普通四那么运算解释。函数I()可以把一个计算表达式封装起来作为模型的一项使用。注意S的模型表示只给出了因变量和自变量及自变量间的关系,这样只确定了线型模型的模型矩阵,而模型参数向量是隐含的,并没有的模型公式中表达出来。这种做法适用于线性模型,但不具有普遍性,例如非线性模型就不能这样表示。线性回归模型拟合普通的线性模型的函数为lm(),其简单的用法为:>fitted.model=lm(formula,data=data.frame)其中data.frame为各变量所在的数据框,formula为模型公式,fitted.model是线性模型拟合结果对象〔其class属性为lm〕。例如:>mod1=lm(y~x1+x2,data=production)可以拟合一个y对x1和x2的二元回归〔带有隐含的截距项〕,数据来自数据框production。拟合的结果存入了对象mod1中。注意不管数据框production是否以用attach()连接入当前运行环境都可被lm()使用。lm()的根本显示十分简练:>mod1Call:lm(formula=y~x1+x2,data=production)Coefficients:(Intercept)x1x20.01220332.0094758-0.0005314只显示了调用的公式和参数估计结果。提取信息的通用函数lm()函数的返回值叫做模型拟合结果对象,本质上是一个具有类属性值lm的列表,有model、coefficients、residuals等成员。lm()的结果显示十分简单,为了获得更多的拟合信息,可以使用对lm类对象有特殊操作的通用函数,这些函数包括: add1 coef effects kappa predict residuals alias deviance family labels print summary anova drop1 formula plot proj下表给出了lm类〔拟合模型类〕常用的通用函数的简单说明。通用函数返回值或效果anova(对象1,对象2)把一个子模型与原模型比较,生成方差分析表。coefficients(对象)返回回归系数(矩阵)。可简写为coef(对象)。deviance(对象)返回残差平方和,如有权重则加权。formula(对象)返回模型公式。plot(对象)生成两张图,一张是因变量对拟合值的图形,一张是残差绝对值对拟合值的图形。predict(对象,newdata=数据框)predict.gam(对象,newdata=数据框)有了模型拟合结果后对新数据进行预报。指定的新数据必须与建模时用的数据具有相同的变量结构。函数结构为对数据框中每一观测的因变量预报结果(为向量或矩阵)。predict.gam()与predict()作用相同但适用性更广,可应用于lm、glm和gam的拟合结果。比如,当多项式基函数用了正交多项式时,加入了新数据导致正交多项式基函数改变,用predict.gam()函数可以避免由此引起的偏差print(对象)简单显示模型拟合结果。一般不用print()而直接键入对象名来显示。residuals(对象)返回模型残差(矩阵),若有权重则适当加权。可简写为resid(对象)。summary(对象)可显示较详细的模型拟合结果。方差分析方差方差分析是研究取离散值的因素对一个数值型指标的影响的经典工具。S进行方差分析的函数是aov(),格式为aov(公式,data=数据框),用法与lm()类似,提取信息的各通用函数仍有效。我们以前面用过的不同牌子木板磨损比较的数据为例。假设veneer数据框保存了该数据:>veneer首先我们把每个牌子的木板的磨损情况画盒形图并且放在同一页面中,作图如下:plot(Wear~Brand,data=veneer)这种图可以直观地比较一个变量在多个组的分布,或者比较几个类似的变量。从图中可以看出,AJAX牌子较好,TUFFY较差,其它三个牌子差异不明显。为了检验牌子这个因素对指标磨损量有无显著影响,只要用aov()函数:>aov.veneer=aov(Wear~Brand,data=veneer)>summary(aov.veneer)DfSumSqMeanSqFvaluePr(>F)Brand40.617000.154257.4040.001683**Residuals150.312500.02083---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1可见因素是显著的。§11.2统计分析实例下面我们以那个学生班的情况为例进行一些分析。我们希望了解体重、身高、年龄、性别等变量的根本情况及互相之间的关系。一、数据输入我们先把数据读入一个S数据框对象中:>load('E:/R/cl.Rdata');ls();cl二、探索性数据分析〔EDA〕首先我们先研究各变量的分布情况,看分布是否接近正态,有无明显的异常值,有没有明显的序列相关,等等。研究连续型变量的分布,可以使用直方图、盒形图、分布密度估计图和正态概率图。研究离散型变量分布只要画其分布频数条形图即可,分布频数用table函数计算。研究序列相关性可以作时间序列图和自相关函数图。因为这些图经常重复使用,我们把它们定义为函数,在同一页面画出:function(x){oldpar=par(mfrow=c(2,2),mar=c(2,2,0.2,0.2),mgp=c(1.2,0.2,0));hist(x,main="",xlab="",ylab="");boxplot(x);iqd=summary(x)[5]-summary(x)[2];plot(density(x,width=2*iqd),xlab="x",ylab="",type="l",main="");qqnorm(x,main="",xlab="",ylab="");qqline(x);par(oldpar);invisible()}function(x){oldpar<-par(mfrow=c(2,1),mar=c(2,2,1,0.2),mgp=c(1.2,0.2,0));plot.ts(x,main="",xlab="");acf(x,main="",xlab="");par(oldpar);invisible()}函数中最后的invisible()表示在命令行调用此函数时不要显示任何返回值。变量iqd计算的是函数的四分位间距。函数density用来作核密度曲线估计,其width参数为核估计的参数。现在调用这些函数来研究各数值型变量的分布情况。在调用前先把数据框cl连接入当前的搜索路径中以直接使用cl中的变量名:>attach(cl)>clfun1(Age)>clfun1(Height)>clfun1(Weight)>tab.sex<-table(Sex)>barplot(tab.sex)>clfun1(Age)>clfun1(Height)>clfun1(Weight)>tab.sex<-table(Sex)>barplot(tab.sex)因为数据是不同个体的观测所以不可能有序列相关,未画时间序列图。这里给出了身高的分布图及性别的频数直方图。可以看出,身高和体重都相当接近正态且无明显的异常点,体重因为取离散值所以直方图不接近正态,但从核密度估计曲线看仍可作为正态处理。要计算一些简单统计量,可以用summary()函数。为了研究数值型变量Weight、Height、Age间的关系,我们画它们的散点图矩阵:>pairs(cbind(Height,Weight,Age))从散点图矩阵〔图14〕可以看出三个变量之间都可能有线性相关关系。为了研究因子Sex对其它变量的影响,可以画Sex不同水平上各变量的盒形图,如:>par(mfrow=c(1,3))>boxplot(Weight~Sex,ylab="Weight")>boxplot(Height~Sex,ylab="Height")>boxplot(Age~Sex,ylab="Age")从图可以看出,男女的体重、身高有明显的差异,而年龄那么差异不明显。我们也可以分不同性别对某一变量分别作图或计算,这里只要使用向Weight[Sex=="F"],Weight[Sex=="M"]这样的取子集的方法就可以把观测分组。更进一步还可以用函数tapply直接按一个因子对观测分组然后作用某个函数:>tapply(Weight,Sex,hist)为了研究因子Sex的不同水平对其它变量间的相关关系的影响,可以作协同图:>coplot(Weight~Height|Sex)结果图没有反映明显的差异。$F$breaks[1]5060708090100110120$counts[1]1013112$intensities[1]0.011111110.000000000.011111110.033333330.011111110.011111110.02222222$density[1]0.011111110.000000000.011111110.033333330.011111110.011111110.02222222$mids[1]5565758595105115$xname[1]"X[[1]]"$equidist[1]TRUEattr(,"class")[1]"histogram"$M$breaks[1]8090100110120130140150$counts[1]3112111$intensities[1]0.029999990.010000000.010000000.020000000.010000000.010000000.01000000$density[1]0.029999990.010000000.010000000.020000000.010000000.010000000.01000000$mids[1]8595105115125135145$xname[1]"X[[2]]"$equidist[1]TRUEattr(,"class")[1]"histogram"三、组间比较我们来分析男女的身高有无显著差异,这是两组比较的问题。上面EDA局部的并排盒形图已经提示男女身高有明显差异,这里我们用统计假设检验给出统计结论。男女两组可以认为是独立的,而且每组内的观测也可以认为是相互独立的。根据EDA结果可以认为两组都来自正态总体。这样,我们可以使用两样本t检验。因为方差是否相等未知,我们干脆用不要求方差相等的近似两样本t检验:>t.test(Height[Sex=="F"],Height[Sex=="M"])t.test(Height[Sex=="F"],Height[Sex=="M"])WelchTwoSamplet-testdata:Height[Sex=="F"]andHeight[Sex=="M"]t=-1.4513,df=16.727,p-value=0.1652alternativehypothesis:truedifferenceinmeansisnotequalto095percentconfidenceinterval:-8.1550981.512875sampleestimates:meanofxmeanofy60.5888963.91000结果p值为0.1652,按我们一般采用的0.05水平是不显著的。所以从这组样本看男女的身高没有发现显著差异。t.test也可以进行方差相等的两组比较,以及成比照较,单总体的均值检验,详见随机文档。类似可以进行男女体重的比较,p值为0.06799,不显著。四、回归分析

下面我们研究对体重的预报。从散点图矩阵看,体重与身高之间有明显的线性相关,所以我们先拟合一个体重对身高的一元线性回归模型:>lm.fit1=lm(Weight~Height,data=cl)>lm.fit1Call:lm(formula=Weight~Height,data=cl)Coefficients:(Intercept)Height-143.0273.899plot(Weight,Height)>summary(lm.fit1)Call:lm(formula=Weight~Height,data=cl)Residuals:Min1QMedian3QMax-17.6807-6.06420.51159.284618.3698Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-143.026932.2746-4.4320.000366***Height3.89900.51617.5557.89e-07***---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1Residualstandarderror:11.23on17degreesoffreedomMultipleR-Squared:0.7705,AdjustedR-squared:0.757F-statistic:57.08on1and17DF,p-value:7.887e-07拟合的模型方程为Weight=-143.0269+3.8990×Height,复相关系数平方为0.7705,检验模型的斜率为0的p值为7.887e-007,可见模型是显著的。对于一元回归,我们可以在因变量对自变量的散点图上叠加回归直线来看回归拟合的效果〔图17〕:>plot(Weight~Height)>abline(lm.fit1)一般地,lm拟合结果对象的plot()函数可以作出假设干张检查拟合效果的图形,R可以作四个图:残差对拟合值图、残差的正态概率图、标准化残差对拟合值图、Cook距离图。>oldpar=par(mfrow=c(2,2),mar=c(2,2,1.5,0.2),mgp=c(1.2,0.2,0))>plot(lm.fit1)>par(oldpar)如果想每个图都用全窗口来看那么不要设置图形参数。四个图中,残差对拟合值图可以反映残差中残留的结构,如果模型充分的话残差应该是随机变换没有任何模式的。残差的正态概率图可以检验线性回归假设检验的重要假定――误差项服从正态分布是否合理,可以看出残差的分布重尾、轻尾、左偏、右偏等情况。标准化残差平方根对拟合值图可以发现残差的异常值点,即拟合最差的点。Cook距离衡量每一观测对拟合结果的影响大小,数值大的为强影响点。图中自动标出了最突出的点。从lm.fit1的回归诊断图看残差没有明显的模式,但残差分布有轻尾倾向。没有明显的异常值点。>add1(lm.fit1,~.+Age+Sex)SingletermadditionsModel:Weight~HeightDfSumofSqRSSAIC<none>2142.4993.78Age122.392120.1095.58Sex1184.711957.7794.07>add1的结果显示一个方差分析表,列出各行中<none>一行为不加变量的情况,Age一行为参加一个变量Age后的情况,Sex一行为参加一个变量Sex的情况。各列中DF为此变量的自由度,SumofSq为该变量对应的平方和,RSS为参加该变量后的残差平方和,AIC为参加该变量后的AIC统计量值。AIC较小的模型为较好的,所以如果参加某个变量后的AIC减小就可以参加此变量。这里参加Age和参加Sex都使AIC变大,所以不应参加这两个变量。如果一开始就参加了所有变量,可以用drop1()函数考察去掉一个变量后AIC是否可以变小:>lm.fit2=lm(Weight~Height+Age+Sex,data=cl)>summary(lm.fit2)Call:lm(formula=Weight~Height+Age+Sex,data=cl)Residuals:Min1QMedian3QMax-19.6540-6.57370.46027.670820.8515Coefficients:Esti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论