《多元统计分析-基于R(第3版)》课件全套 费宇 第1-13章-多元统计分析与R简介-多维标度分析_第1页
《多元统计分析-基于R(第3版)》课件全套 费宇 第1-13章-多元统计分析与R简介-多维标度分析_第2页
《多元统计分析-基于R(第3版)》课件全套 费宇 第1-13章-多元统计分析与R简介-多维标度分析_第3页
《多元统计分析-基于R(第3版)》课件全套 费宇 第1-13章-多元统计分析与R简介-多维标度分析_第4页
《多元统计分析-基于R(第3版)》课件全套 费宇 第1-13章-多元统计分析与R简介-多维标度分析_第5页
已阅读5页,还剩671页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析(multivariatestatisticalanalysis)就是把多个变量合在一起进行研究的统计学方法,在自然科学、经济学、管理学和社会科学等领域有广泛的应用.本章对多元统计分析和R软件作简要介绍什么是多元统计分析?2024/7/312主编:费宇1.1多元统计分析简介1.2R简介第1章多元统计分析与R简介3主编:费宇2024/7/311.1.1多元统计分析的含义(1)多元统计分析是研究多个(随机)变量之间相互关系和规律的统计学分支.(3)主要讨论:多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析和多维标度分析.(2)不讨论:多元正态分布的参数估计、均值的假设检验和协方差阵的假设检验问题.1.1多元统计分析简介2024/7/314主编:费宇1.1.2多元统计分析的用途(1)多变量的相关性分析:简单相关分析、偏相关分析、复相关分析、典型相关分析(2)预测分析:多元回归分析(3)分类和组合:聚类分析和判别分析(4)降维和数据简化:主成分分析和因子分析1.1多元统计分析简介2024/7/315主编:费宇1.1.3多元统计分析的内容(1)多元回归分析:研究一个因变量随多个自变量的变化而变化的情况,通过建立多元回归模型(线性模型和广义线性模型等)来分析二者之间的依赖关系

第5章,第6章(2)聚类分析:根据聚类对象的多个变量(指标)的测量值,按照某个标准把这写个体分成若干类

第7章(3)判别分析:在已知分类的前提下,将给定的新样品,按照某种分类规则判入某个类中

第8章1.1多元统计分析简介2024/7/316主编:费宇(4)主成分分析:一种降维分析方法,即将多个存在相关关系的变量化为少数几个综合变量

第9章(5)因子分析:用少数几个随机变量(称为因子)去描述多个随机变量之间的协方差关系

第10章(6)对应分析:把R型因子分析和Q型因子分析有机的结合起来,同时把变量和样品反映到相同的坐标轴(因子轴)的一张图上,来说明变量与样品之间的对应关系

第11章1.1.3多元统计分析的内容2024/7/317主编:费宇(7)典型相关性分析:研究两组随机变量之间的相互依赖关系的一种统计分析方法

第12章(8)多维标度法:以空间分布的形式表现对象之间相似性或亲疏关系的一种多元分析方法

第13章注意:在进行多元分析时,机器学习方法和经典多元统计分析方法各有优势,实际分析中建议采用两种方法处理,并比较分析的结果,再做出合理的解释.1.1.3多元统计分析的内容2024/7/318主编:费宇1.2.1为什么用R?R是一个数据处理和统计分析软件系统,是基于S语言的软件系统,免费的开源软件.免费和开放统计和分析功能完善作图功能强大可移植性强使用灵活1.2R简介2024/7/319主编:费宇1.2.2R的安装与运行

1.R的安装(Windows用户)(1)打开网址/.(2)点击“CRAN”获得一系列按照国家名称排序的镜像网站.(3)选择与你所在地相近的网站.(4)点击“DownloadandInstallR”下的“DownloadRforWindows”.(5)点击“base”.(6)点击链接下载最新版本的R软件(比如点击“DownloadR3.3.2forWindows”).1.2R简介2024/7/3110主编:费宇1.2.2R的安装与运行

2.R的运行安装完成后点击桌面上的R-x.x.x图标就可以启动R软件了,在RGui的命令窗口(RConsole)的命令提示符“>”后输入命令就可以完成相应的操作.如果要退出R系统,可以在命令行输入q(),也可以点击RGui右上角的“×”.退出时可以保存工作空间,比如将工作空间保存在“C:\Work\”目录下,名称为“W.RData”,保存后可以通过命令load("C:\\Work\\W.RData")来加载这个空间,或者通过菜单“文件”下的“载入工作空间”加载.1.2R简介2024/7/3111主编:费宇1.2.2R的安装与运行

3.R软件的程序包的安装:

(1)菜单方式:程序包

安装程序包

选择CRANMirror服务器

选择要安装的程序包

(2)命令方式:>install.package(MASS)

(3)本地安装:程序包

从本地zip文件安装程序包4.R的新装程序包载入方式:

(1)菜单方式:程序包

加载程序包

选择要加载的程序包

(2)命令方式:>library(MASS)1.2R简介2024/7/3112主编:费宇2008年12月,“第一届中国R语言会议”统计之都:/统计之都的微信二维码R在中国2024/7/3113主编:费宇1.2.3如何获取R的帮助?R的基本知识:在RGui的窗口中选择“帮助”菜单中的“RFAQ”(R的常见问题)获得R的特点、安装、使用、界面和编程规则等基本知识.“帮助”菜单中的“手册”提供的8本帮助手册:AnIntroductiontoR,RReferenceManual,RDataImport/Export,RLanguageDefinition,WritingRExtensions,RInternals,RInstallationandAdministration,SweaveUser,其中第一本“AnIntroductiontoR”是最基本的手册.通过命令“>help.start()”也可以获得类似的帮助.1.1R简介2024/7/3114主编:费宇有关函数的含义和使用方法1.help函数>help(lm)#获得名为lm()函数的帮助页面>?lm#此命令与上面的命令效果一样>?"<"#获得“<”运算符的帮助信息>?"for"#获得for循环的帮助信息>help(package="MASS")#MASS可以不加引号1.2.3如何获取R的帮助?2024/7/3115主编:费宇有关函数的含义和使用方法2.example函数>example(mean)#运行mean()函数的例子代码以下是运行结果mean>x<-c(0:10,50)mean>xm<-mean(x)mean>c(xm,mean(x,trim=0.10))[1]8.755.501.2.3如何获取R的帮助?2024/7/3116主编:费宇有关函数的含义和使用方法3.help.search函数如果不太清楚要查找什么,可以使用help.search()函数进行搜索.>help.search("multivariatenormal")>??"multivariatenormal"#??是help.search的快捷方式可以得到一个包含下面摘要的信息:MASS::mvrnormSimulatefromaMultivariateNormalDistribution1.2.3如何获取R的帮助?2024/7/3117主编:费宇(1)R的主页()上提供了R项目手册,点击Manuals即可浏览.(2)R的主页上的选项Search可以按类别来搜索R的相关资源.(3)R的主页上的选项GettingHelp可以帮助获得R的相关帮助信息.互联网上R的资源2024/7/3118主编:费宇1.2.4R的基本原理1.数值型向量的建立1.2R简介2024/7/3119主编:费宇>x1<-seq(2,6,by=1)#生成序列x1=(2,3,4,5,6),"<-"是赋值符号>x2<-c(1,3,5,8,10)#生成一个5维向量x2=(1,3,5,8,10)>x3<-rep(2:4,2)#生成序列x3=(2,3,4,2,3,4)>x4<-c(x1,x2)#生成10维向量x4=(2,3,4,5,6,1,3,5,8,10)>cbind(x1,x2)#将x1和x2按列合并得到如下数据:x1x2[1,]21[2,]33[3,]45[4,]58[5,]610>rbind(x1,x2)#将x1和x2按行合并得到如下数据:[,1][,2][,3][,4][,5]x123456x21358101.2R简介2024/7/3120主编:费宇1.2.4R的基本原理1.数值型向量的建立2.矩阵的建立1.2R简介2024/7/3121主编:费宇>A<-matrix(1,nr=2,nc=2)#建立一个所有元素都为1的2阶方阵

>B<-diag(3)#生成一个3阶单位阵>D<-diag(c(2,3,4))#生成一个对角元素是(2,3,4)的3阶方阵>X<-matrix(0,nr=2,nc=3)#建立一个所有元素都为0的2×3阶矩阵>x1<-c(2,3,4)>x2<-c(1,2,5)>X<-rbind(x1,x2)#生成一个第1行为x1,第2行为x2的矩阵X>X#显示矩阵X[,1][,2][,3]x1234x21253.数据框的建立(1)直接方式1.2R简介2024/7/3122主编:费宇>x1<-seq(2,6,by=1)#生成序列x1=(2,3,4,5,6)>x2<-c(1,3,5,8,10)#生成5维向量x2=(1,3,5,8,10)>z.df<-data.frame(x1,x2)#生成数据框>z.df#显示数据框z.dfx1x212123334545856103.数据框的建立(2)间接方式可以通过读取数据文件(文本文件、Excel文件或其他格式的文件)建立数据框,比如读取数据文件“c:\data\eg1.1.txt”中的观测值(即表1-1中的x和y的值)1.2R简介2024/7/3123主编:费宇>setwd("c:/data")#设定工作路径,R中路径的斜线符号为”/”,与Windows中的相应符号”\”不一样>dat<-read.table("exam1.1.txt",header=T)#从exam1.1.txt中读入数据,header=T表示将eg1.1.txt文件的第1行作为表头行,也可以写为header=TRUE,header=F或FALSE则表示文件的第1行不作为表头行表1-1城镇居民年人均可支配收入和年人均消费性支出数据例1.1(数据文件为eg1.1)2024/7/3124主编:费宇地区可支配收入消费性支出地区可支配收入消费性支出北

京52859.1736642.00湖

北27051.4718192.28天

津34101.3526229.52湖

南28838.0719501.37河

北26152.1617586.62广

东34757.1625673.08山

西25827.7215818.61广

西26415.8716321.16内蒙古30594.1021876.47海

南26356.4218448.35辽

宁31125.7321556.72重

庆27238.8419742.29吉

林24900.8617972.62四

川26205.2519276.85黑龙江24202.6217152.07贵

州24579.6416914.20上

海52961.8636946.12云

南26373.2317674.99江

苏37173.4824966.04西

藏25456.6317022.01浙

江43714.4828661.27陕

西26420.2118463.87安

徽26935.7617233.53甘

肃23767.0817450.86福

建33275.3423520.19青

海24542.3519200.65江

西26500.1216731.81宁

夏25186.0118983.88山

东31545.2719853.77新

疆26274.6619414.74河

南25575.6117154.30

假定数据文件为exam1.1.txt保存在“C:\data”子目录下,我们先读入数据,计算x与y的相关系数并绘制散点图。>setwd("c:/data")#设定工作路径>dat<-read.table("exam1.1.txt",header=T)#读入数据

>cor(dat)#计算x和y的相关系数xyx1.00000000.9736406y0.97364061.0000000>plot(y~x,data=dat)#绘制x和y的散点图例1.1(数据文件为eg1.1)2024/7/3125主编:费宇图1-1年人均可支配收入x和年人均消费性支出y的散点图2024/7/3126主编:费宇>lm.reg<-lm(y~x,data=dat)#建立y关于x的线性回归>summary(lm.reg)#输出回归分析的结果Call:lm(formula=y~x,data=dat)Residuals:Min1QMedian3QMax-2099.8-629.8138.5772.72628.6

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)179.43046920.594930.1950.847x0.686820.0298822.988<2e-16***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1238on29degreesoffreedomMultipleR-squared:0.948,AdjustedR-squared:0.9462F-statistic:528.4on1and29DF,p-value:<2.2e-16建立y关于x的线性回归模型2024/7/3127主编:费宇1.多元回归分析(1)函数lm():求解线性回归方程lm.reg<-lm(y~x,data=dat)#用dat中数据建立y关于x的线性回归(2)函数summary():给出模型的计算结果summary(lm.reg)#显示lm.reg的内容,即输出回归分析的结果(3)函数confint():求参数的置信区间confint(lm.reg,level=0.95)#求lm.reg回归参数的95%置信区间1.2.5本书相关的R程序包和函数2024/7/3128主编:费宇1.多元回归分析(4)函数predict():求预测值和预测区间x0<-data.frame(x=30000)#给定x0=x=30000predict(lm.reg,x0,interval="prediction",level=0.95)#求x=30000时y的置信度为95%的预测区间(5)函数step():完成逐步回归lm.sal<-lm(y~x1+x2+x3+x4,data=d2.1)#建立全变量回归方程lm.step<-step(lm.sal,direction="both")#用“一切子集回归法”来进行逐步回归1.2.5本书相关的R程序包和函数2024/7/3129主编:费宇1.多元回归分析注意:多元回归分析中用到的lm(),glm(),step(),confint()和predict()等函数都是程序包stats中的函数;而函数summary()是程序包base中的函数,因为程序包stats和base是安装时的基本程序包,所以可以直接使用,不必进行加载.第6章广义线性回归模型主要用到函数glm():g.logit<-glm(y~x,family=binomial,data=d6.1)#建立y关于x的logistic回归模型,数据为d6.1g.ln<-glm(y~x1+x2+x3,family=poisson(link=log),data=d6.2)#建立y关于x1,x2,x3的泊松对数线性模型,数据为d6.21.2.5本书相关的R程序包和函数2024/7/3130主编:费宇2.聚类分析第7章聚类分析介绍两种常用的聚类方法----系统聚类法和k均值聚类法.系统聚类法可以用函数dist()计算距离,然后用函数hclust()实现.d<-dist(d7.1,method="euclidean",diag=T,upper=F,p=2)#采用欧氏距离计算相似矩阵dHC<-hclust(d,method="single")#采用最小距离法(single)聚类plot(HC)#绘制聚类树状图1.2.5本书相关的R程序包和函数2024/7/3131主编:费宇2.聚类分析k均值聚类法可以用函数kmeans()实现.KM<-kmeans(d7.2,4,nstart=20,algorithm="Hartigan-Wong")#聚类的个数为4,随机集合的个数为20,算法为"Hartigan-Wong“注意:聚类分析中用到的dist()和hclust()函数都是程序包stats中的函数,可以直接使用,但判别分析中用到的lda()函数是程序包MASS中的函数,程序包MASS不是安装时的基本程序包,所以需要先从R镜像网站中下载并加载该程序包.1.2.5本书相关的R程序包和函数2024/7/3132主编:费宇3.判别分析第8章判别分析介绍Fisher判别法和Bayes判别法,将用程序包MASS中的函数lda()进行判别分析,具体见第8章.4.主成分分析第9章主成分分析将用程序包stats中的函数princomp()进行分析,具体见第9章.5.因子分析第10章因子分析将用程序包mvstats中的函数factpc()进行分析,具体见第10章.1.2.5本书相关的R程序包和函数2024/7/3133主编:费宇6.对应分析第11章对应分析将用程序包MASS中的函数corresp()进行分析,具体见第11章.7.典型相关分析第12章典型相关分析将用程序包CCA中的函数cc()进行分析,具体见第12章.8.多维标度分析第13章多维标度分析将用程序包stats中的函数cmdscale()和程序包MASS中的函数isoMDS()进行分析,具体见第13章.1.2.5本书相关的R程序包和函数2024/7/3134主编:费宇2024/7/31主编:费宇2024/7/31第2章多元数据描述与展示2024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/3169主编:费宇中国人民大学出版社2024/7/31第3章多元正态分布2024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/31148

2024/7/31第4章多元正态总体均值向量和协方差矩阵的假设检验2024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/312024/7/31204

5.1多元正态分布5.2多元线性模型5.3变量选择5.4回归诊断5.5回归预测第5章多元线性模型206主编:费宇2024/7/315.1.1多元正态分布的定义5.1多元正态分布2024/7/31207主编:费宇5.1.1多元正态分布的定义5.1多元正态分布2024/7/31208主编:费宇5.1.2多元正态分布的性质5.1多元正态分布2024/7/31209主编:费宇5.1.2多元正态分布的性质5.1多元正态分布2024/7/31210主编:费宇5.2多元线性模型5.2.1模型定义其中x1,…,xp是非随机的自变量,y是随机的因变量,β0是常数项,β1,…,βp是回归系数,ε是随机误差项.211主编:费宇2024/7/315.2.1.模型定义模型(5.1)的样本形式其中i=1,…,n,表示有n组观测值.212主编:费宇2024/7/315.2.1.模型定义模型(5.2)的矩阵形式其中213主编:费宇2024/7/31例5.1(数据文件为eg5.1)214主编:费宇表5-1抽样调查得到的36个学生的相关成绩2024/7/31yx1x2x3x4x5yx1x2x3x4x5858386909076456065608678909288879280768081758075787076738590888582868580807281829088828081868790………………………………928385908580627865608588788482739083878083857883模型(5.3)的参数的最小二乘估计的最小二乘估计

5.2.2模型的参数估计和检验2024/7/31215主编:费宇1.回归方程的显著性检验其中是回归平方和,而

是残差平方和,拒绝域为

5.2.2模型的参数估计和检验2024/7/31216主编:费宇5.2.2模型的参数估计和检验2024/7/31217主编:费宇例5.1续1(数据文件为eg5.1)218主编:费宇建立y关于x1、x2、x3、x4和x5的线性回归方程,并对方程和回归系数进行显著性检验.2024/7/31yx1x2x3x4x5yx1x2x3x4x5858386909076456065608678909288879280768081758075787076738590888582868580807281829088828081868790………………………………928385908580627865608588788482739083878083857883#例5.1回归分析:全变量回归setwd("C:/data")#设定工作路径d5.1<-read.csv("exam5.1.csv",header=T)#将exam5.1.csv数据读入到d5.1中lm.exam<-lm(y~x1+x2+x3+x4+x5,data=d5.1)#建立y关于x1,x2,x3,x4和x5的线性回归方程,数据为d5.1summary(lm.exam)#给出回归系数的估计和显著性检验等例5.1续1(数据文件为eg5.1)219主编:费宇R程序为:Call:lm(formula=y~x1+x2+x3+x4+x5,data=d5.1)Residuals:Min1QMedian3QMax-10.0696-1.7983-0.15352.93616.8726

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-32.7353415.35701-2.1320.0413*x10.162710.150311.0820.2877x20.227840.138351.6470.1100x30.881160.111087.9337.46e-09***x4-0.051360.15476-0.3320.7423x50.168870.143761.1750.2494回归分析结果为2024/7/31220主编:费宇---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:4.021on30degreesoffreedomMultipleR-squared:0.8945,AdjustedR-squared:0.877F-statistic:50.89on5and30DF,p-value:9.359e-14例5.1续(数据文件为eg5.1)2024/7/31221主编:费宇回归方程的F值为50.89,相应的p值为9.359

10-14,说明回归方程是显著的;但t检验对应的p值则显示:常数项和x3是显著的,而x1、x2、x4和x5不显著.最优模型一般满足2个条件(1)模型反映了变量间的真实关系

(2)模型包含的变量尽量少例5.1(续2)建立y关于x1、x2、x3、x4和x5的线性回归方程,并对方程和回归系数进行显著性检验(逐步回归建立“最优方程”).

5.3变量选择2024/7/31222主编:费宇>#例5.1回归分析:逐步回归>#假设exam5.1.xls中的数据已经读入到d5.1中>lm.exam<-lm(y~x1+x2+x3+x4+x5,data=d5.1)#建立全变量回归方程>lm.step<-step(lm.exam,direction="both")#进行逐步回归5.3变量选择2024/7/31223主编:费宇例5.1(续2)逐步回归程序Start:AIC=105.63y~x1+x2+x3+x4+x5

DfSumofSqRSSAIC-x411.78486.83103.76-x1118.95503.99105.01-x5122.31507.36105.25<none>485.05105.63-x2143.85528.90106.74-x311017.441502.49144.335.3变量选择2024/7/31224主编:费宇例5.1(续)回归结果Step:AIC=103.76y~x1+x2+x3+x5

DfSumofSqRSSAIC-x1117.91504.73103.06-x5120.57507.40103.25<none>486.83103.76-x2142.99529.81104.80+x411.78485.05105.63-x311112.961599.79144.595.3变量选择2024/7/31225主编:费宇Step:AIC=103.06y~x2+x3+x5

DfSumofSqRSSAIC-x5117.40522.14102.28<none>504.73103.06+x1117.91486.83103.76+x410.74503.99105.01-x2170.76575.50105.78-x311848.492353.23156.485.3变量选择2024/7/31226主编:费宇Step:AIC=102.28y~x2+x3

DfSumofSqRSSAIC<none>522.14102.28+x5117.40504.73103.06+x1114.74507.40103.25+x410.25521.89104.26-x2166.64588.78104.60-x311953.302475.43156.305.3变量选择2024/7/31227主编:费宇Call:lm(formula=y~x2+x3,data=d5.1)Residuals:Min1QMedian3QMax-10.4395-2.5508-0.44592.73677.2345

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-18.842907.58902-2.4830.0183*x20.249230.121442.0520.0481*x30.968040.0871311.1111.09e-12***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:3.978on33degreesoffreedomMultipleR-squared:0.8865,AdjustedR-squared:0.8796F-statistic:128.8on2and33DF,p-value:2.566e-16回归模型汇总信息:summary(lm.step)2024/7/31228主编:费宇5.4.1残差分析和异常点探测

残差向量e是模型中随机误差项

的估计,残差分析可以诊断模型的基本假定是否成立。

5.4

回归诊断2024/7/31229主编:费宇例5.2

计算例5.1得到的逐步回归模型lm.step的普通残差和标准化残差,判断可能存在的异常点,画出相应的残差散点图,并直观判断模型的基本假定是否成立.5.4

回归诊断2024/7/31230主编:费宇#例5.2#假设由例5.1已经得到逐步回归模型lm.stepy.res<-residuals(lm.exam)#计算模型lm.exam的普通残差y.rst<-rstandard(lm.step)#计算回归模型lm.step的标准化残差print(y.rst)#输出回归模型lm.step的标准化残差y.rsty.fit<-predict(lm.step)#计算回归模型lm.step的预测值plot(y.res~y.fit)#绘制以普通残差为纵坐标,预测值为横坐标的散点图plot(y.rst~y.fit)#绘制以标准化残差为纵坐标,预测值为横坐标的散点图5.4

回归诊断2024/7/31231主编:费宇分别采用residuals(),rstandard()和rstudent()来计算普通残差,标准化残差和学生化残差.123456-1.226479490.701233481.85465439-0.18487397-0.731575470.14591132789101112-0.651653781.37662024-0.28171298-0.96473838-0.798622470.81284419131415161718-0.48393343-1.176685880.913377160.564389020.658766891.49006874192021222324-2.871217390.527102680.81076269-0.668013511.20184149-1.040201892526272829300.32282704-0.04616114-0.159120010.21602487-0.21306706-0.23026109313233343536-0.24302334-2.03567204-0.33183300-0.073548931.804380090.737029325.4

回归诊断2024/7/31232主编:费宇回归模型lm.step的标准化残差y.rst如下第19号点是异常点2024/7/31233主编:费宇图5-1例5.2中的普通残差图(左)和标准化残差图(右)例5.3

通过方差稳定变换来更新例5.1得到的逐步回归模型lm.step,并计算更新后模型的标准化残差,画出相应的残差散点图,并直观判断模型的基本假定是否成立.5.4

回归诊断2024/7/31234主编:费宇#例5.3#假设由例5.1已经得到逐步回归模型lm.steplm.step_new<-update(lm.step,log(.)~.)#对模型进行对数变换y.rst<-rstandard(lm.step_new)#计算lm.step_new的标准化残差y.fit<-predict(lm.step_new)#计算lm.step_new的预测值plot(y.rst~y.fit)#绘制以标准化残差为纵坐标,预测值为横坐标的散点图(见图5-2)采用对数变换来解决方差非齐问题2024/7/31235主编:费宇对数变换后:第19号点是异常点2024/7/31236主编:费宇图5-2例5.3中的标准化残差图lm.exam<-lm(log(y)~x1+x2+x3+x4,data=d5.1[-c(19),])#去掉第19号观测值再建立全变量回归方程lm.step<-step(lm.exam,direction="both")#用一切子集回归法来进行逐步回归y.rst<-rstandard(lm.step)#计算回归模型lm.step的标准化残差y.fit<-predict(lm.step)#计算回归模型lm.step的预测值plot(y.rst~y.fit)#绘制以标准化残差为纵坐标,预测值为横坐标的散点图去掉19号观测值再回归2024/7/31237主编:费宇残差几乎全部落在[-2,2]区域内2024/7/31238主编:费宇图5-3例5.3中的标准化残差图:去掉19号观测值5.4.2回归诊断:一般的方法残差分析无法分析模型的影响点,即探测哪些点对模型的推断有重要影响,本节给出的回归诊断方法,可以诊断模型的基本假定是否成立,哪些值是异常点,哪些点是强影响点.在R中,函数plot()和influence.measures()可以用来绘制诊断图和计算诊断统计量.5.4

回归诊断2024/7/31239主编:费宇例5.4对例5.3得到的逐步回归模型lm.step_new进行回归诊断分析.5.4回归诊断2024/7/31240主编:费宇#例5.4#假定由例5.3已经获得模型lm.step_newpar(mfrow=c(2,2))#在一个2×2网格中创建4个绘图区plot(lm.step_new)#绘制模型诊断图influence.measures(lm.step_new)#计算各个观测值的诊断统计量运行上述程进行序可得回归诊断图(图5-4)和如下36个观测值对应的诊断统计量的值.第11,19和33号观测值被诊断为强影响点.2024/7/31241主编:费宇Influencemeasuresoflm(formula=log(y)~x2+x3,data=d5.1):dfb.1_dfb.x2dfb.x3dffitcov.rcook.dhatinf10.172353-0.052013-1.36e-01-0.291711.0522.82e-020.06622-0.0789410.0622346.53e-030.110451.1604.17e-030.069130.196029-0.049262-1.17e-010.373080.8364.31e-020.0383…110.014319-0.1934602.46e-01-0.270291.3462.49e-020.2065*12-0.0378780.0103993.07e-020.060361.1881.25e-030.0806…19-2.0235661.0016117.40e-01-2.218990.2329.50e-010.1645*20-0.0066640.071366-8.14e-020.147121.0937.33e-030.0419…33-0.0808070.140284-1.13e-01-0.152341.4647.96e-030.2556*第3,19和35号观测值可能是异常点和强影响点.2024/7/31242主编:费宇图5-4例5.4的回归诊断图回归预测分为点预测和区间预测两种,可以采用函数predict()来实现.例5.5

给定解释变量x2=80,x3=90,利用例5.1得到的回归模型对y进行点预测和区间预测(置信度为95%).5.5回归预测2024/7/31243主编:费宇#例5.5#假定由例5.1已经获得模型lm.steppreds<-data.frame(x2=80,x3=90)#给定解释变量x2和x3的值predict(lm.step,newdata=preds,interval="prediction",level=0.95)#进行点预测和区间预测5.5回归预测2024/7/31244主编:费宇点预测和区间预测的程序如下:>predict(lm.step,newdata=preds,interval="prediction",level=0.95)#区间预测fitlwrupr188.2190779.7974896.640675.5回归预测2024/7/31245主编:费宇运行上述程序可得y的点预测和区间预测的结果如下:程序中选项interval="prediction"表示要给出预测区间,选项level=0.95表示置信水平是95%.计算结果y的点预测为88.22,预测区间为[79.80,96.64].2024/7/31主编:费宇2024/7/31主编:费宇247

2024/7/31主编:费宇248第6章广义线性模型6.1广义线性模型的定义6.2Logistic模型6.3Probit模型6.4多项Logit模型6.5泊松对数线性模型6.6零膨胀计数模型6.7多项分布对数线性模型2024/7/31主编:费宇2496.1

广义线性模型的定义第5章我们研究了多元线性模型,该模型的一个重要假定是因变量是连续型的变量(通常假定服从正态分布),但在许多情况下,这种假定并不合理,例如下面这两种情况.(1)结果变量可能是类型变量.二值分类变量和多分类变量.(比如:是/否,差/一般/良好/优秀等)显然都不是连续型变量.2024/7/31主编:费宇2506.1广义线性模型概述(2)结果变量可能是计数型变量(比如:一周交通事故的数目)这类变量都是非负的有限值,而且它们的均值和方差通常是相关的(一般线性模型假定因变量是正态变量,而且相互独立).普通线性回归模型(5.3)假定因变量y服从正态分布,其均值满足关系式:μ=Xβ,这表明因变量的条件均值是自变量的线性组合.本章介绍六种常见的广义线性模型:Logistic模型、Probit模型、多项Logit模型、泊松对数线性模型、零膨胀计数模型和多项分布对数线性模型.2024/7/31主编:费宇2516.1广义线性模型的定义1.广义线性模型的定义:(1)随机成分:设y1,y2,…,yn是来自于指数分布族的随机样本,即yi的密度函数为其中ai(.),b(.),ci(.)是已知函数,参数αi是典则参数,ϕ是散度参数.2024/7/31主编:费宇2521.广义线性模型的定义:(2)连接函数:设yi的均值为μi而函数g(.)是单调可微的连接函数,使得其中是协变量,是未知参数向量.指数分布族正态分布二项分布泊松分布2024/7/31主编:费宇2532024/7/31主编:费宇2542.正态线性回归模型正态分布属于指数分布族,其密度函数为与(6.1)对照可知2024/7/31主编:费宇2552.正态线性回归模型只要取连接函数为,则正态线性回归模型满足广义线性模型的定义.类似的,容易验证,二项分布和泊松分布都属于指数分布族.下面介绍实际中应用广泛的Logistic模型、Probit模型、多项Logit模型、泊松对数线性模型、零膨胀计数模型和多项分布对数线性模型.2024/7/31主编:费宇2566.2Logistic模型1.模型定义 设yi服从参数为pi的二项分布,则μi=E(yi)=pi采用逻辑连接函数,即这个广义线性模型称为Logistic模型.2024/7/31主编:费宇257例6.1(数据文件为eg6.1)表6-1

某城市48个家庭的调查数据2024/7/31主编:费宇2582.模型的参数估计和检验采用R软件中的广义线性模型过程glm()可以完成回归系数的估计,以及模型回归系数的显著性检验.程序如下:#例6.1广义线性模型:Logistic模型setwd("C:/data")#设定工作路径d6.1<-read.csv("exam6.1.csv",header=T)#将exam6.1.csv数据读入到d6.1中glm.logit<-glm(y~x1+x2,family=binomial(link=logit),data=d6.1)#建立y关于x1,x2的logistic回归模型,数据为d6.1summary(glm.logit)#模型汇总注意逻辑连接函数是二项分布的典则连接函数,是默认的连接函数,因此代码中的(link=logit)可以省略.2024/7/31主编:费宇259运行以上程序可得如下结果:Call:glm(formula=y~x1+x2,family=binomial(link=logit),data=d6.1)DevianceResiduals:Min1QMedian3QMax-2.30297-0.198320.022830.202511.59258Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)-7.531152.56352-2.9380.00331**x10.439560.138643.1700.00152**x2-0.081031.24747-0.0650.94821---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1(Dispersionparameterforbinomialfamilytakentobe1)Nulldeviance:61.105on47degreesoffreedomResidualdeviance:17.643on45degreesoffreedomAIC:23.643NumberofFisherScoringiterations:82024/7/31主编:费宇260注意到x2对应的p值(0.948)比较大,即x2不显著,所以考虑采用逐步回归.glm.step<-step(glm.logit)#逐步回归summary(glm.step)#给出模型回归系数的估计和显著性检验等运行以上程序可得如下结果Start:AIC=23.64y~x1+x2

DfDevianceAIC-x2117.64721.647<none>17.64323.643-x1159.00863.008

Step:AIC=21.65y~x1

DfDevianceAIC<none>17.64721.647-x1161.10563.105>summary(glm.step)#给出模型回归系数的估计和显著性检验等2024/7/31主编:费宇261Call:glm(formula=y~x1,family=binomial(link=logit),data=d6.1)DevianceResiduals:Min1QMedian3QMax-2.28859-0.197030.022760.204001.60887

Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)-7.56822.5101-3.0150.00257**x10.43960.13873.1690.00153**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

(Dispersionparameterforbinomialfamilytakentobe1)

Nulldeviance:61.105on47degreesoffreedomResidualdeviance:17.647on46degreesoffreedomAIC:21.647

NumberofFisherScoringiterations:8模型预测如果要预测年收入为20万元(x1=20)、家里有孩子(x2=1)的家庭有购买住房的可能性,可以采用以下命令:>yp<-predict(glm.step,data.frame(x1=20))>p.fit<-exp(yp)/(1+exp(yp));p.fit#估计x1=20时y=1的概率10.7728122容易看出,当x1=20,x2=1时,估计y=1的概率约为0.77,即年收入为20万元、家里有孩子的家庭有购买住房的可能性约为77%.2024/7/31主编:费宇2626.3Probit模型2024/7/31主编:费宇2636.3Probit模型:例6.1(续)2024/7/31主编:费宇264运行以上程序可得如下结果:Call:glm(formula=y~x1,family=binomial(link=probit),data=d6.1)

DevianceResiduals:Min1QMedian3QMax-2.2493-0.15220.00180.17681.6024

Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)-4.340281.27539-3.4030.000666***x10.249890.069443.5990.000320***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

(Dispersionparameterforbinomialfamilytakentobe1)

Nulldeviance:61.105on47degreesoffreedomResidualdeviance:17.349on46degreesoffreedomAIC:21.349

NumberofFisherScoringiterations:92024/7/31主编:费宇2652024/7/31主编:费宇2666.4多项Logit模型2024/7/31主编:费宇267例6.2某城市48个家庭的调查数据2024/7/31主编:费宇268问题:根据这个数据建立多项分布回归模型并估计年收入为20万元、家里有孩子的家庭有购买住房但还在还贷款的可能性.解:采用nnet程序包中的multinom()可以完成多项logit模型的拟合.#例6.2广义线性模型:多项分布回归模型libr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论