版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计分析(multivariatestatisticalanalysis)就是把多个变量合在一起进行研究的统计学方法,在自然科学、经济学、管理学和社会科学等领域有广泛的应用.本章对多元统计分析和R软件作简要介绍什么是多元统计分析?2024/7/312主编:费宇1.1多元统计分析简介1.2R简介第1章多元统计分析与R简介3主编:费宇2024/7/311.1.1多元统计分析的含义(1)多元统计分析是研究多个(随机)变量之间相互关系和规律的统计学分支.(3)主要讨论:多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析和多维标度分析.(2)不讨论:多元正态分布的参数估计、均值的假设检验和协方差阵的假设检验问题.1.1多元统计分析简介2024/7/314主编:费宇1.1.2多元统计分析的用途(1)多变量的相关性分析:简单相关分析、偏相关分析、复相关分析、典型相关分析(2)预测分析:多元回归分析(3)分类和组合:聚类分析和判别分析(4)降维和数据简化:主成分分析和因子分析1.1多元统计分析简介2024/7/315主编:费宇1.1.3多元统计分析的内容(1)多元回归分析:研究一个因变量随多个自变量的变化而变化的情况,通过建立多元回归模型(线性模型和广义线性模型等)来分析二者之间的依赖关系
第5章,第6章(2)聚类分析:根据聚类对象的多个变量(指标)的测量值,按照某个标准把这写个体分成若干类
第7章(3)判别分析:在已知分类的前提下,将给定的新样品,按照某种分类规则判入某个类中
第8章1.1多元统计分析简介2024/7/316主编:费宇(4)主成分分析:一种降维分析方法,即将多个存在相关关系的变量化为少数几个综合变量
第9章(5)因子分析:用少数几个随机变量(称为因子)去描述多个随机变量之间的协方差关系
第10章(6)对应分析:把R型因子分析和Q型因子分析有机的结合起来,同时把变量和样品反映到相同的坐标轴(因子轴)的一张图上,来说明变量与样品之间的对应关系
第11章1.1.3多元统计分析的内容2024/7/317主编:费宇(7)典型相关性分析:研究两组随机变量之间的相互依赖关系的一种统计分析方法
第12章(8)多维标度法:以空间分布的形式表现对象之间相似性或亲疏关系的一种多元分析方法
第13章注意:在进行多元分析时,机器学习方法和经典多元统计分析方法各有优势,实际分析中建议采用两种方法处理,并比较分析的结果,再做出合理的解释.1.1.3多元统计分析的内容2024/7/318主编:费宇1.2.1为什么用R?R是一个数据处理和统计分析软件系统,是基于S语言的软件系统,免费的开源软件.免费和开放统计和分析功能完善作图功能强大可移植性强使用灵活1.2R简介2024/7/319主编:费宇1.2.2R的安装与运行
1.R的安装(Windows用户)(1)打开网址/.(2)点击“CRAN”获得一系列按照国家名称排序的镜像网站.(3)选择与你所在地相近的网站.(4)点击“DownloadandInstallR”下的“DownloadRforWindows”.(5)点击“base”.(6)点击链接下载最新版本的R软件(比如点击“DownloadR3.3.2forWindows”).1.2R简介2024/7/3110主编:费宇1.2.2R的安装与运行
2.R的运行安装完成后点击桌面上的R-x.x.x图标就可以启动R软件了,在RGui的命令窗口(RConsole)的命令提示符“>”后输入命令就可以完成相应的操作.如果要退出R系统,可以在命令行输入q(),也可以点击RGui右上角的“×”.退出时可以保存工作空间,比如将工作空间保存在“C:\Work\”目录下,名称为“W.RData”,保存后可以通过命令load("C:\\Work\\W.RData")来加载这个空间,或者通过菜单“文件”下的“载入工作空间”加载.1.2R简介2024/7/3111主编:费宇1.2.2R的安装与运行
3.R软件的程序包的安装:
(1)菜单方式:程序包
安装程序包
选择CRANMirror服务器
选择要安装的程序包
(2)命令方式:>install.package(MASS)
(3)本地安装:程序包
从本地zip文件安装程序包4.R的新装程序包载入方式:
(1)菜单方式:程序包
加载程序包
选择要加载的程序包
(2)命令方式:>library(MASS)1.2R简介2024/7/3112主编:费宇2008年12月,“第一届中国R语言会议”统计之都:/统计之都的微信二维码R在中国2024/7/3113主编:费宇1.2.3如何获取R的帮助?R的基本知识:在RGui的窗口中选择“帮助”菜单中的“RFAQ”(R的常见问题)获得R的特点、安装、使用、界面和编程规则等基本知识.“帮助”菜单中的“手册”提供的8本帮助手册:AnIntroductiontoR,RReferenceManual,RDataImport/Export,RLanguageDefinition,WritingRExtensions,RInternals,RInstallationandAdministration,SweaveUser,其中第一本“AnIntroductiontoR”是最基本的手册.通过命令“>help.start()”也可以获得类似的帮助.1.1R简介2024/7/3114主编:费宇有关函数的含义和使用方法1.help函数>help(lm)#获得名为lm()函数的帮助页面>?lm#此命令与上面的命令效果一样>?"<"#获得“<”运算符的帮助信息>?"for"#获得for循环的帮助信息>help(package="MASS")#MASS可以不加引号1.2.3如何获取R的帮助?2024/7/3115主编:费宇有关函数的含义和使用方法2.example函数>example(mean)#运行mean()函数的例子代码以下是运行结果mean>x<-c(0:10,50)mean>xm<-mean(x)mean>c(xm,mean(x,trim=0.10))[1]8.755.501.2.3如何获取R的帮助?2024/7/3116主编:费宇有关函数的含义和使用方法3.help.search函数如果不太清楚要查找什么,可以使用help.search()函数进行搜索.>help.search("multivariatenormal")>??"multivariatenormal"#??是help.search的快捷方式可以得到一个包含下面摘要的信息:MASS::mvrnormSimulatefromaMultivariateNormalDistribution1.2.3如何获取R的帮助?2024/7/3117主编:费宇(1)R的主页()上提供了R项目手册,点击Manuals即可浏览.(2)R的主页上的选项Search可以按类别来搜索R的相关资源.(3)R的主页上的选项GettingHelp可以帮助获得R的相关帮助信息.互联网上R的资源2024/7/3118主编:费宇1.2.4R的基本原理1.数值型向量的建立1.2R简介2024/7/3119主编:费宇>x1<-seq(2,6,by=1)#生成序列x1=(2,3,4,5,6),"<-"是赋值符号>x2<-c(1,3,5,8,10)#生成一个5维向量x2=(1,3,5,8,10)>x3<-rep(2:4,2)#生成序列x3=(2,3,4,2,3,4)>x4<-c(x1,x2)#生成10维向量x4=(2,3,4,5,6,1,3,5,8,10)>cbind(x1,x2)#将x1和x2按列合并得到如下数据:x1x2[1,]21[2,]33[3,]45[4,]58[5,]610>rbind(x1,x2)#将x1和x2按行合并得到如下数据:[,1][,2][,3][,4][,5]x123456x21358101.2R简介2024/7/3120主编:费宇1.2.4R的基本原理1.数值型向量的建立2.矩阵的建立1.2R简介2024/7/3121主编:费宇>A<-matrix(1,nr=2,nc=2)#建立一个所有元素都为1的2阶方阵
>B<-diag(3)#生成一个3阶单位阵>D<-diag(c(2,3,4))#生成一个对角元素是(2,3,4)的3阶方阵>X<-matrix(0,nr=2,nc=3)#建立一个所有元素都为0的2×3阶矩阵>x1<-c(2,3,4)>x2<-c(1,2,5)>X<-rbind(x1,x2)#生成一个第1行为x1,第2行为x2的矩阵X>X#显示矩阵X[,1][,2][,3]x1234x21253.数据框的建立(1)直接方式1.2R简介2024/7/3122主编:费宇>x1<-seq(2,6,by=1)#生成序列x1=(2,3,4,5,6)>x2<-c(1,3,5,8,10)#生成5维向量x2=(1,3,5,8,10)>z.df<-data.frame(x1,x2)#生成数据框>z.df#显示数据框z.dfx1x212123334545856103.数据框的建立(2)间接方式可以通过读取数据文件(文本文件、Excel文件或其他格式的文件)建立数据框,比如读取数据文件“c:\data\eg1.1.txt”中的观测值(即表1-1中的x和y的值)1.2R简介2024/7/3123主编:费宇>setwd("c:/data")#设定工作路径,R中路径的斜线符号为”/”,与Windows中的相应符号”\”不一样>dat<-read.table("exam1.1.txt",header=T)#从exam1.1.txt中读入数据,header=T表示将eg1.1.txt文件的第1行作为表头行,也可以写为header=TRUE,header=F或FALSE则表示文件的第1行不作为表头行表1-1城镇居民年人均可支配收入和年人均消费性支出数据例1.1(数据文件为eg1.1)2024/7/3124主编:费宇地区可支配收入消费性支出地区可支配收入消费性支出北
京52859.1736642.00湖
北27051.4718192.28天
津34101.3526229.52湖
南28838.0719501.37河
北26152.1617586.62广
东34757.1625673.08山
西25827.7215818.61广
西26415.8716321.16内蒙古30594.1021876.47海
南26356.4218448.35辽
宁31125.7321556.72重
庆27238.8419742.29吉
林24900.8617972.62四
川26205.2519276.85黑龙江24202.6217152.07贵
州24579.6416914.20上
海52961.8636946.12云
南26373.2317674.99江
苏37173.4824966.04西
藏25456.6317022.01浙
江43714.4828661.27陕
西26420.2118463.87安
徽26935.7617233.53甘
肃23767.0817450.86福
建33275.3423520.19青
海24542.3519200.65江
西26500.1216731.81宁
夏25186.0118983.88山
东31545.2719853.77新
疆26274.6619414.74河
南25575.6117154.30
假定数据文件为exam1.1.txt保存在“C:\data”子目录下,我们先读入数据,计算x与y的相关系数并绘制散点图。>setwd("c:/data")#设定工作路径>dat<-read.table("exam1.1.txt",header=T)#读入数据
>cor(dat)#计算x和y的相关系数xyx1.00000000.9736406y0.97364061.0000000>plot(y~x,data=dat)#绘制x和y的散点图例1.1(数据文件为eg1.1)2024/7/3125主编:费宇图1-1年人均可支配收入x和年人均消费性支出y的散点图2024/7/3126主编:费宇>lm.reg<-lm(y~x,data=dat)#建立y关于x的线性回归>summary(lm.reg)#输出回归分析的结果Call:lm(formula=y~x,data=dat)Residuals:Min1QMedian3QMax-2099.8-629.8138.5772.72628.6
Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)179.43046920.594930.1950.847x0.686820.0298822.988<2e-16***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1238on29degreesoffreedomMultipleR-squared:0.948,AdjustedR-squared:0.9462F-statistic:528.4on1and29DF,p-value:<2.2e-16建立y关于x的线性回归模型2024/7/3127主编:费宇1.多元回归分析(1)函数lm():求解线性回归方程lm.reg<-lm(y~x,data=dat)#用dat中数据建立y关于x的线性回归(2)函数summary():给出模型的计算结果summary(lm.reg)#显示lm.reg的内容,即输出回归分析的结果(3)函数confint():求参数的置信区间confint(lm.reg,level=0.95)#求lm.reg回归参数的95%置信区间1.2.5本书相关的R程序包和函数2024/7/3128主编:费宇1.多元回归分析(4)函数predict():求预测值和预测区间x0<-data.frame(x=30000)#给定x0=x=30000predict(lm.reg,x0,interval="prediction",level=0.95)#求x=30000时y的置信度为95%的预测区间(5)函数step():完成逐步回归lm.sal<-lm(y~x1+x2+x3+x4,data=d2.1)#建立全变量回归方程lm.step<-step(lm.sal,direction="both")#用“一切子集回归法”来进行逐步回归1.2.5本书相关的R程序包和函数2024/7/3129主编:费宇1.多元回归分析注意:多元回归分析中用到的lm(),glm(),step(),confint()和predict()等函数都是程序包stats中的函数;而函数summary()是程序包base中的函数,因为程序包stats和base是安装时的基本程序包,所以可以直接使用,不必进行加载.第6章广义线性回归模型主要用到函数glm():g.logit<-glm(y~x,family=binomial,data=d6.1)#建立y关于x的logistic回归模型,数据为d6.1g.ln<-glm(y~x1+x2+x3,family=poisson(link=log),data=d6.2)#建立y关于x1,x2,x3的泊松对数线性模型,数据为d6.21.2.5本书相关的R程序包和函数2024/7/3130主编:费宇2.聚类分析第7章聚类分析介绍两种常用的聚类方法----系统聚类法和k均值聚类法.系统聚类法可以用函数dist()计算距离,然后用函数hclust()实现.d<-dist(d7.1,method="euclidean",diag=T,upper=F,p=2)#采用欧氏距离计算相似矩阵dHC<-hclust(d,method="single")#采用最小距离法(single)聚类plot(HC)#绘制聚类树状图1.2.5本书相关的R程序包和函数2024/7/3131主编:费宇2.聚类分析k均值聚类法可以用函数kmeans()实现.KM<-kmeans(d7.2,4,nstart=20,algorithm="Hartigan-Wong")#聚类的个数为4,随机集合的个数为20,算法为"Hartigan-Wong“注意:聚类分析中用到的dist()和hclust()函数都是程序包stats中的函数,可以直接使用,但判别分析中用到的lda()函数是程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 疫情期间承包商合同范本
- 呼和浩特消防水泵合同范本
- 玻璃销售合同范本
- 人事主管聘用合同范本
- 《预防疾病》演讲讲稿
- 2024年个体养殖户鱼塘租赁协议
- 2024年影视摄制服务协议
- 2024年高效能玻璃钢化粪池销售协议
- 代办注销合同范本
- 2024年房地产企业劳动协议样式
- 细胞生物学主题知识讲座
- 小作坊食品安全管理制度(3篇)
- 孕期焦虑测评
- 光伏电站施工组织设计
- 全人教版四年级英语上册期中考试知识点汇总-必背的重点
- 2023年1月高三英语试题(浙江卷)+听力+答案+作文
- 体位引流课件
- 市政工程项目部管理制度及岗位职责
- 第9章-庭院生态工程
- 《特殊儿童早期干预》教学大纲
- GB/T 5456-2009纺织品燃烧性能垂直方向试样火焰蔓延性能的测定
评论
0/150
提交评论