版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R语言与回归分析R简介R语言分析一个简单的线性模型总结与展望作业R语言与回归分析R简介1R简介
1.S语言与R2.R的安装与运行3.R程序包的安装及使用4.R语言中的几点注意事项R简介
1.S语言与R2S语言与RR是一个有着强大统计分析及作图功能的软件系统R语言可以看作是贝尔实验室开发的S语言的一种实现或形式S语言主要内含在S-PLUS软件中,可将R和S-PLUS视为S语言的两种形式S/S-PLUS方面的文档都可以直接用于RS语言与RR是一个有着强大统计分析及作图功能的软件系统3R的安装与运行R的安装:从网址/下载R的安装程序和R程序包(R下载地址:/bin/windows/base/)
/,单击downloadR单击Windows,在单击base单击DownloadR2.11.1forWindows
R的安装与运行R的安装:从网址http://www.r-p4R程序包的安装(1)菜单方式:联网条件下,按程序包安装程序包选择CRAN镜像服务器选择程序包(2)命令方式:install.packages(“PKname”)(3)本地安装:下载需要的程序包及与之关联的程序包,再用“程序包”菜单中的“用本机的zip文件安装程序包”R程序包的安装(1)菜单方式:联网条件下,按程序包5R程序包的使用除R的标准程序包外,新安装的程序包使用前必须载入,两种载入方式:菜单方式:通过“程序包”菜单中的“载入程序包”,再从已有程序包中选定需要的一个加载;(2)命令方式:在命令提示符后键入>libiary(“PKname”)#或libiary(‘PKname’),libiary(PKname)R程序包的使用除R的标准程序包外,新安装的程序包使用前必须载6R语言中的几点注意事项R语言区分大小写,即A与a不同;正常情况下所有字母和数字都是可用的。命令由(;)分隔,或另起新行。基本命令由({和})合并成复合表达式注释以(#)开始,到行末结束。命令未结束,R给出提示符(+)。R语言中的几点注意事项R语言区分大小写,即A与a不同;正常情7R语言与线性回归线性回归模型的简单回顾如何应用R语言进行回归分析R语言与线性回归线性回归模型的简单回顾8线性回归模型的简单回顾Y通常称为因变量或响应变量,X称为自变量或预报变量。Y值由两部分组成,一部分由X决定是X的函数,记为f(X);另一部分由其他为考虑因素所产生的影响被称为随机误差,记为e。模型记为:Y=f(X)+e要求E(e)=0,特别的f(X)取为线性函数。线性回归模型的简单回顾Y通常称为因变量或响应变量,X称9线性回归模型的简单回顾回归分析的主要目的是探寻因变量与自变量之间的关系。最常用的函数形式是线性函数,含有p个自变量的一般线性模型:其中为常数项,为第j个解释型变量的回归系数,它意味着,若变化一个单位,可以预期变化多少单位。线性回归模型的简单回顾回归分析的主要目的是探寻因变量与自变量10线性回归模型的简单回顾对此普通线性模型做如下假定:(1)独立性:不同观测值之间相互独立的;残差项同解释性变量之间是独立的。(2)常方差:即残差的方差不依赖于自变量的取值,为一个常数。(3)正态性:即残差项是服从正态分布的。线性回归模型的简单回顾对此普通线性模型做如下假定:11案例介绍背景、目标、变量和分析案例介绍背景、目标、变量和分析12案例背景目前中国的资本市场逐渐成熟,投资于股市成为众多企业乃至个人的重要理财方式。因此利用上市公司当年的公开的财务指标对其来年盈利状况予以预测就成为投资人最重要的决策依据。本案例随机抽取深市和沪市2002年和2003年各500个样本,对上市公司的净资产收益率(returnonequity,ROE)进行预测。案例背景目前中国的资本市场逐渐成熟,投资于股市成为众多企业乃13案例目标与变量目标:盈利预测因变量:下一年的净资产收益率(ROE)自变量:当年的财务信息样本容量:2002年500;2003年500案例目标与变量目标:盈利预测14自变量ROEt:当年净资产收益率ATO:资产周转率(assetturnoverratio)LEV:债务资本比率(debttoassetratio)
反映公司基本债务状况PB:市倍率(pricetobookratio)
反映公司预期未来成长率ARR:应收账款/主营业务收入(accountreceivableovertotalincome)
反映公司的收入质量自变量ROEt:当年净资产收益率15对模型的进一步分析哪个自变量在预测方面最有用?哪个自变量是最重要的?如何使用模型进行预测?对模型的进一步分析哪个自变量在预测方面最有用?16描述分析获得对数据的整体性认识描述分析获得对数据的整体性认识17数据读取(1)使用函数read.table()创建数据框>rm(list=ls())#清理当前工作空间a<-read.table("D:\\暑期建模\\CH1\\roe.txt",header=T)(2)使用函数scan()比read.table()更灵活,并且可以指定变量的类型数据读取(1)使用函数read.table()创建数据框18Excel数据读取(1)利用剪切板:打开Excel电子表格,选中需要数据,复制到剪切板。然后键入命令>a<-read.delim("clipboard")(2)使用程序包RODBC>library(RODBC)b<-odbcConnectExcel("d:/暑期建模/CH1/roe.xls")a<-sqlFetch(b,"roe")Excel数据读取(1)利用剪切板:打开Excel电子表格,19数据保存>save(a,file="a.RData")load("d:\\我的文档\\a.RData")#调用以保存数据write.table(a,"a.txt")#保存为文本文档write.csv(a,"a.csv")a1=a[a$year==2002,-1]save(a1,file="a1.RData")数据保存>save(a,file="a.RData")20显示数据显示数据21变量的概括性度量a1=a[a$year==2002,-1]#从a中选出year为2002的数据,并删除第1列,然后赋值给a1Mean=sapply(a1,mean)#计算a1中各列的均值Min=sapply(a1,min)#计算a1中各列的最小值Median=sapply(a1,median)#计算a1中各列的中位数Max=sapply(a1,max)#计算a1中各列的最大值SD=sapply(a1,sd)#计算a1中各列的标准差cbind(Mean,Min,Median,Max,SD)#将均值、最小值、中位数、最大值、标准差集中在一起展示变量的概括性度量a1=a[a$year==2002,-1]22试验结果试验结果23变量间的相关性散点图是一种最简单的相关分析工具通过函数pairs()观察各个变量间的相关性命令:>pairs(a,panel=panel.smooth)随机变量样本的相关系数>round(cor(a),3)相关性检验,使用函数cor.test()变量间的相关性散点图是一种最简单的相关分析工具24《R语言与回归分析》课件分析25应用R语言命令:plot(a1$ROEt,a1$ROE)绘制散点图,可以看出ROEt与ROE的相关性应用R语言命令:plot(a1$ROEt,a1$ROE)26模型的建立模型、假设和参数估计模型的建立模型、假设和参数估计27模型形式及假设线性回归模型模型假设(1)独立性假设(2)同方差假设(3)正态性假设模型形式及假设线性回归模型28参数估计模型:最小二乘估计量:方差估计量:参数估计模型:29参数估计用矩阵形式表示线性模型记为
其中是回归系数变量,是因变量向量,是随机扰动向量,而X为设计矩阵。当存在时,回归参数的最小二乘估计为。参数估计用矩阵形式表示线性模型记为30参数估计的R软件实现R语句:使用函数lm()>lm1=lm(ROE~ROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1)summary(lm1)注:我们采用2002年数据拟合模型参数估计的R软件实现R语句:使用函数lm()31《R语言与回归分析》课件分析32拟合优度总平方和残差平方和
计算残差函数residuals()R-Square拟合优度总平方和33
显著性检验F检验、T检验显著性检验F检验、T检验34F检验假设检验统计量拒绝域F检验假设35T检验假设检验统计量拒绝域T检验假设36《R语言与回归分析》课件分析37各个结果的含义第一列:参数的估计值第二列:各个参数估计的标准差第三列:通过样本计算得T检验统计量的值第四列:通过T检验计算的p值Residualstandarderror(残差标准误)R-squared(判别系数)各个结果的含义第一列:参数的估计值38显著性检验的结论从F检验的结果看,模型的线性关系是显著的。从T检验的结果看,ROEt和LEV两个变量通过了检验,GROWTH变量在显著性水平降至0.1时也可以通过检验,因此这三个变量与因变量的线性关系较为显著。注意,这不说明应该删除其它变量!显著性检验的结论从F检验的结果看,模型的线性关系是显著的。39模型的诊断异方差性、非正态性、异常值模型的诊断异方差性、非正态性、异常值40同方差性检验正常的残差图同方差性检验正常的残差图41同方差性检验观测值不独立同方差性检验观测值不独立42同方差性检验方差齐性不成立(即方差相等假设不成立)同方差性检验方差齐性不成立(即方差相等假设不成立)43同方差性检验应改为曲线同方差性检验应改为曲线44正态性检验若,并且则有正态性检验若45正态性检验进一步,可得到以及所以在正态性假设下,残差与应该成线性关系。正态性检验进一步,可得到46正态性检验Q-Q图残差:将残差排序:Y:X:正态性检验Q-Q图47《R语言与回归分析》课件分析48《R语言与回归分析》课件分析49将上面的方法应用于本案例目标1:检验模型是否符合三个假设目标2:找出异常值R语句:
par(mfrow=c(2,2)) #设置画图为2x2的格式plot(lm1,which=c(1:4))#画出lm1中对应于模型检验的4张图,包括残差图、QQ图和Cook距离图检验发现47号数据为异常值,需要将其消除
语句:a1=a1(-47)将上面的方法应用于本案例目标1:检验模型是否符合三个假设50应用上述方法,绘制拟合模型的诊断图应用上述方法,绘制拟合模型的诊断图51异常点的识别一般把标准化残差的绝对值大于等于2的观测点认为是可疑点;而标准化残差的绝对值大于等于3的观测点认为是异常点。异常点的识别一般把标准化残差的绝对值大于等于2的观测点认为是52剔除异常点a1=a1[-47,]#删除a1中第47行的观测lm2=lm(ROE~ROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1)#用上一行命令得到的新数据a1再次拟合线型回归模型,结果赋值给lm2 plot(lm2,which=c(1:4)) #画出lm2中对应于模型检验的4张图,包括残差图、QQ图和Cook距离图剔除异常点a1=a1[-47,]#删除a1中第47行的观53拟合结果拟合结果5447为异常点去掉之后,拟合模型诊断图如下47为异常点去掉之后,拟合模型诊断图如下55多重共线性含义及检验多重共线性含义及检验56共线性含义共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或近似线性关系。自变量间的线性关系将隐蔽变量的显著性,增加参数估计的误差,会产生不稳定的模型共线性含义共线性问题是指拟合多元线性回归时,自变量之间存在线57一个例子假如有两个变量x1和x2,用最小二乘法得到如下参数估计量。一个例子假如有两个变量x1和x2,用最小二乘法得到如下参数估58《R语言与回归分析》课件分析59方差膨胀因子定义下面的回归形式为辅助回归令为辅助回归的判定系数则方差膨胀因子为:它反映了在多大程度上第i个自变量所包含的信息被其他自变量覆盖方差膨胀因子定义下面的回归形式为辅助回归60方差膨胀因子R语句:函数vif()所有的VIF值都小于10且接近1,所以没有多重共线性问题。注:VIF>10,表明模型中有很强的共线性问题方差膨胀因子R语句:函数vif()61变量选择AIC准则、BIC准则变量选择AIC准则、BIC准则62AIC和BICAIC方法比较保守,其中p为自变量个数,与RSS成反比。使AIC达到最小的模型是最优的BIC相对不那么保守,因此保留的变量可能会比较少。AIC和BICAIC方法比较保守,其中p为自变量个数,与63《R语言与回归分析》课件分析64《R语言与回归分析》课件分析65预测预测66预测值与置信区间预测值与置信区间67数据准备以2003年数据为检验数据,可以用如下方法对数据进行准备数据准备以2003年数据为检验数据,可以用如下方法对数据进行68预测预测69R语言的特点免费浮点运算功能强大不依赖于操作系统帮助功能完善作图功能强大R语言的特点70R的特点统计分析能力尤为突出可移植性强强大的拓展与开发能力灵活而不死板R的特点统计分析能力尤为突出71R语言与回归分析R简介R语言分析一个简单的线性模型总结与展望作业R语言与回归分析R简介72R简介
1.S语言与R2.R的安装与运行3.R程序包的安装及使用4.R语言中的几点注意事项R简介
1.S语言与R73S语言与RR是一个有着强大统计分析及作图功能的软件系统R语言可以看作是贝尔实验室开发的S语言的一种实现或形式S语言主要内含在S-PLUS软件中,可将R和S-PLUS视为S语言的两种形式S/S-PLUS方面的文档都可以直接用于RS语言与RR是一个有着强大统计分析及作图功能的软件系统74R的安装与运行R的安装:从网址/下载R的安装程序和R程序包(R下载地址:/bin/windows/base/)
/,单击downloadR单击Windows,在单击base单击DownloadR2.11.1forWindows
R的安装与运行R的安装:从网址http://www.r-p75R程序包的安装(1)菜单方式:联网条件下,按程序包安装程序包选择CRAN镜像服务器选择程序包(2)命令方式:install.packages(“PKname”)(3)本地安装:下载需要的程序包及与之关联的程序包,再用“程序包”菜单中的“用本机的zip文件安装程序包”R程序包的安装(1)菜单方式:联网条件下,按程序包76R程序包的使用除R的标准程序包外,新安装的程序包使用前必须载入,两种载入方式:菜单方式:通过“程序包”菜单中的“载入程序包”,再从已有程序包中选定需要的一个加载;(2)命令方式:在命令提示符后键入>libiary(“PKname”)#或libiary(‘PKname’),libiary(PKname)R程序包的使用除R的标准程序包外,新安装的程序包使用前必须载77R语言中的几点注意事项R语言区分大小写,即A与a不同;正常情况下所有字母和数字都是可用的。命令由(;)分隔,或另起新行。基本命令由({和})合并成复合表达式注释以(#)开始,到行末结束。命令未结束,R给出提示符(+)。R语言中的几点注意事项R语言区分大小写,即A与a不同;正常情78R语言与线性回归线性回归模型的简单回顾如何应用R语言进行回归分析R语言与线性回归线性回归模型的简单回顾79线性回归模型的简单回顾Y通常称为因变量或响应变量,X称为自变量或预报变量。Y值由两部分组成,一部分由X决定是X的函数,记为f(X);另一部分由其他为考虑因素所产生的影响被称为随机误差,记为e。模型记为:Y=f(X)+e要求E(e)=0,特别的f(X)取为线性函数。线性回归模型的简单回顾Y通常称为因变量或响应变量,X称80线性回归模型的简单回顾回归分析的主要目的是探寻因变量与自变量之间的关系。最常用的函数形式是线性函数,含有p个自变量的一般线性模型:其中为常数项,为第j个解释型变量的回归系数,它意味着,若变化一个单位,可以预期变化多少单位。线性回归模型的简单回顾回归分析的主要目的是探寻因变量与自变量81线性回归模型的简单回顾对此普通线性模型做如下假定:(1)独立性:不同观测值之间相互独立的;残差项同解释性变量之间是独立的。(2)常方差:即残差的方差不依赖于自变量的取值,为一个常数。(3)正态性:即残差项是服从正态分布的。线性回归模型的简单回顾对此普通线性模型做如下假定:82案例介绍背景、目标、变量和分析案例介绍背景、目标、变量和分析83案例背景目前中国的资本市场逐渐成熟,投资于股市成为众多企业乃至个人的重要理财方式。因此利用上市公司当年的公开的财务指标对其来年盈利状况予以预测就成为投资人最重要的决策依据。本案例随机抽取深市和沪市2002年和2003年各500个样本,对上市公司的净资产收益率(returnonequity,ROE)进行预测。案例背景目前中国的资本市场逐渐成熟,投资于股市成为众多企业乃84案例目标与变量目标:盈利预测因变量:下一年的净资产收益率(ROE)自变量:当年的财务信息样本容量:2002年500;2003年500案例目标与变量目标:盈利预测85自变量ROEt:当年净资产收益率ATO:资产周转率(assetturnoverratio)LEV:债务资本比率(debttoassetratio)
反映公司基本债务状况PB:市倍率(pricetobookratio)
反映公司预期未来成长率ARR:应收账款/主营业务收入(accountreceivableovertotalincome)
反映公司的收入质量自变量ROEt:当年净资产收益率86对模型的进一步分析哪个自变量在预测方面最有用?哪个自变量是最重要的?如何使用模型进行预测?对模型的进一步分析哪个自变量在预测方面最有用?87描述分析获得对数据的整体性认识描述分析获得对数据的整体性认识88数据读取(1)使用函数read.table()创建数据框>rm(list=ls())#清理当前工作空间a<-read.table("D:\\暑期建模\\CH1\\roe.txt",header=T)(2)使用函数scan()比read.table()更灵活,并且可以指定变量的类型数据读取(1)使用函数read.table()创建数据框89Excel数据读取(1)利用剪切板:打开Excel电子表格,选中需要数据,复制到剪切板。然后键入命令>a<-read.delim("clipboard")(2)使用程序包RODBC>library(RODBC)b<-odbcConnectExcel("d:/暑期建模/CH1/roe.xls")a<-sqlFetch(b,"roe")Excel数据读取(1)利用剪切板:打开Excel电子表格,90数据保存>save(a,file="a.RData")load("d:\\我的文档\\a.RData")#调用以保存数据write.table(a,"a.txt")#保存为文本文档write.csv(a,"a.csv")a1=a[a$year==2002,-1]save(a1,file="a1.RData")数据保存>save(a,file="a.RData")91显示数据显示数据92变量的概括性度量a1=a[a$year==2002,-1]#从a中选出year为2002的数据,并删除第1列,然后赋值给a1Mean=sapply(a1,mean)#计算a1中各列的均值Min=sapply(a1,min)#计算a1中各列的最小值Median=sapply(a1,median)#计算a1中各列的中位数Max=sapply(a1,max)#计算a1中各列的最大值SD=sapply(a1,sd)#计算a1中各列的标准差cbind(Mean,Min,Median,Max,SD)#将均值、最小值、中位数、最大值、标准差集中在一起展示变量的概括性度量a1=a[a$year==2002,-1]93试验结果试验结果94变量间的相关性散点图是一种最简单的相关分析工具通过函数pairs()观察各个变量间的相关性命令:>pairs(a,panel=panel.smooth)随机变量样本的相关系数>round(cor(a),3)相关性检验,使用函数cor.test()变量间的相关性散点图是一种最简单的相关分析工具95《R语言与回归分析》课件分析96应用R语言命令:plot(a1$ROEt,a1$ROE)绘制散点图,可以看出ROEt与ROE的相关性应用R语言命令:plot(a1$ROEt,a1$ROE)97模型的建立模型、假设和参数估计模型的建立模型、假设和参数估计98模型形式及假设线性回归模型模型假设(1)独立性假设(2)同方差假设(3)正态性假设模型形式及假设线性回归模型99参数估计模型:最小二乘估计量:方差估计量:参数估计模型:100参数估计用矩阵形式表示线性模型记为
其中是回归系数变量,是因变量向量,是随机扰动向量,而X为设计矩阵。当存在时,回归参数的最小二乘估计为。参数估计用矩阵形式表示线性模型记为101参数估计的R软件实现R语句:使用函数lm()>lm1=lm(ROE~ROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1)summary(lm1)注:我们采用2002年数据拟合模型参数估计的R软件实现R语句:使用函数lm()102《R语言与回归分析》课件分析103拟合优度总平方和残差平方和
计算残差函数residuals()R-Square拟合优度总平方和104
显著性检验F检验、T检验显著性检验F检验、T检验105F检验假设检验统计量拒绝域F检验假设106T检验假设检验统计量拒绝域T检验假设107《R语言与回归分析》课件分析108各个结果的含义第一列:参数的估计值第二列:各个参数估计的标准差第三列:通过样本计算得T检验统计量的值第四列:通过T检验计算的p值Residualstandarderror(残差标准误)R-squared(判别系数)各个结果的含义第一列:参数的估计值109显著性检验的结论从F检验的结果看,模型的线性关系是显著的。从T检验的结果看,ROEt和LEV两个变量通过了检验,GROWTH变量在显著性水平降至0.1时也可以通过检验,因此这三个变量与因变量的线性关系较为显著。注意,这不说明应该删除其它变量!显著性检验的结论从F检验的结果看,模型的线性关系是显著的。110模型的诊断异方差性、非正态性、异常值模型的诊断异方差性、非正态性、异常值111同方差性检验正常的残差图同方差性检验正常的残差图112同方差性检验观测值不独立同方差性检验观测值不独立113同方差性检验方差齐性不成立(即方差相等假设不成立)同方差性检验方差齐性不成立(即方差相等假设不成立)114同方差性检验应改为曲线同方差性检验应改为曲线115正态性检验若,并且则有正态性检验若116正态性检验进一步,可得到以及所以在正态性假设下,残差与应该成线性关系。正态性检验进一步,可得到117正态性检验Q-Q图残差:将残差排序:Y:X:正态性检验Q-Q图118《R语言与回归分析》课件分析119《R语言与回归分析》课件分析120将上面的方法应用于本案例目标1:检验模型是否符合三个假设目标2:找出异常值R语句:
par(mfrow=c(2,2)) #设置画图为2x2的格式plot(lm1,which=c(1:4))#画出lm1中对应于模型检验的4张图,包括残差图、QQ图和Cook距离图检验发现47号数据为异常值,需要将其消除
语句:a1=a1(-47)将上面的方法应用于本案例目标1:检验模型是否符合三个假设121应用上述方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022-2023学年浙江温州鹿城区五年级上册语文期末试卷及答案
- 2024年度地下室租赁与使用权转让合同3篇
- 2024年度智能代理公司注销服务及后续监管合同3篇
- 2019-2020学年湖南省娄底市双峰县四年级上学期期末数学真题及答案
- 2021-2022学年山东省日照市五莲县四年级下学期期末语文真题及答案
- 爱影响情绪插画课程设计
- 2020-2021学年江苏省盐城市滨海县一年级上册数学期中试题及答案
- 数据库与应用课程设计
- 2024年外研版七年级化学下册阶段测试试卷含答案369
- 2025年高考物理复习热搜题速递之功和能(2024年7月)
- 超市柜台长期出租合同范例
- 人教版三年级下册数学期中测试卷含答案(新)
- 2024政府采购评审专家考试题库附含答案
- 第24课《穿井得一人》公开课一等奖创新教学设计 统编版语文七年级上册
- 提高吸入剂使用正确率品管圈成果汇报
- 2024年全新七年级语文上册期末试卷及答案(人教版)
- 北京邮电大学《大数据技术与应用》2022-2023学年期末试卷
- 2024年沪教版一年级上学期语文期末复习习题
- 吉林高校新型智库建设实施方案
- 前台文员的工作灵活性与适应能力计划
- 第八届全国测绘地理信息行业职业技能竞赛理论考试题库及答案
评论
0/150
提交评论