R的简单介绍和线性回归.ppt_第1页
R的简单介绍和线性回归.ppt_第2页
R的简单介绍和线性回归.ppt_第3页
R的简单介绍和线性回归.ppt_第4页
R的简单介绍和线性回归.ppt_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、R学习的分享,目录,一、R的介绍 1.R的特点 2.R的界面 3.R的使用注意事项 二、R中数据创建 1.数据的输入 1.1. 向量 1.1.1向量的赋值 1.1.2有序向量的赋值 1.2.矩阵的创建 1.3.数据框的创建 1.3.1表格输入 1.3.2数据框的直接输入 2.数据读入,目录,三、统计分析方法简介 3.1方差分析和多重比较 3.1.1方差分析和多重比较的命令调用 3.2假设检验 3.2.1假设检验的命令调用 3.3主成分和因子分析 3.3.1主成分和因子分析的命令调用 3.4判别分析及命令 3.5聚类分析 3.5.1聚类分析函数的命令调用 3.6回归分析 3.6.1回归分析的详细

2、解释,R的介绍,R是什么: R是一个有着统计分析功能及强大作图功能的软件系统,是由奥克兰大学统计学系的Ross Ihaka和Robert Gentleman共同创立,并受到贝尔实验室s语言的影响。,R的特点,1.免费性:R是一个免费的统计分析软件; 2.运算能力强大:同Matlab一样不需要编译就可执行代码; 3.帮助功能完善:可通过help命令可随时了解R所提供的各类函数的使用方法或例子; 4.R有顶尖水准的制图:在可视化方面,R的效果特别好,并能保存为各种形式的文件; 5.统计分析能力尤为突出:R内嵌了许多统计分析函数,一些中间结果既可保存到专门的文件,也可直接用于进一步的分析。 6.,R

3、的界面,中文版的R界面,从后开始输入数据,代码等,R的使用注意事项,R的命令对大小写敏感,这在使用命令方式安装和载入程序包时应特别注意。 输入R的命令中尽量使用英文字符,避免使用中文字符。 同一行中可输入多个命令,需用 ; 隔开,# 认为是注释内容,不予执行。 R中所有的函数后都带圆括号 赋值一般用-来表示,也可以用assign()或者=来实现,不过在实际中很少这么用,因为容易。 在线帮助命令强大,比如查询有关线性回归lm的信息,可通过命令help(”lm”)或者是?lm 或者help.search(“lm”),输入数据 导入数据 在R中按照个人要求的格式来创建含有研究信息的数据,是进行任何数

4、据分析的第一步。在R中一般会有以下两种形式: 选择一种数据结构来存储数据 将数据输入或导入到这个数据结构中,二、R中数据创建,1.1.1向量的赋值,数据的类型有数值型,字符型,逻辑型三种 c()常见的一系列参量转为向量的函数 a a 1 1 2 3 4 5 b b 1 one two three four five“ d d 1 TRUE FALSE,1.1.2有序向量的赋值,生成有序的向量可以使用seq命令, s1 s1 1 -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 15 2.0 2.5 3.0 3.5

5、 4.0 4.5 5.0 还有其他的赋值向量的命令不再详细举例。,1.2.矩阵创建,创建一个矩阵: Mymatix cells rnames cnamesmymatrix mymatrix C1 C2 R1 1 26 R2 24 68,1.3.1表格输入,如果要输入以下表格的数据 可以使用矩阵,也可用数据框的形式 bloodtype jnbq cs xjt xjgs patientdata patientdata bloodtype jnbq cs xjt xjgs 1 zc 8.90 12.00 34.71 44.00 2 lj 10.63 18.05 46.18 67.24 3 yc 19

6、.84 30.55 73.06 116.82,1.3.2数据框的直接输入,同样的,可以在R中新建数据框,直接输入数据。 命令格式如下: 比如创建一个名为mydata的数据框,它含有三个变量,age(数值型)、gender(字符型)、weight(数值型)。 命令为: mydata mydata-edit(mydata),2.数据读入,R可以读取多种形式的形式。 以导入csv,xls,txt为例: mydataframemydataframeread.table(C:/Users/Administrator/Desktop/3.csv,header=TRUE,sep=t),2.其他读取,Exce

7、l读取: 1.一般可将Excel文件另存为csv格式,再读取。 2. 也可以使用命令(在32位系统中使用) library(RODBC) channel mydataframe odbcClose(channel) txt读取: mydata choose.dir()或者 file.choose()直接从弹出的对话框中了来查找文件。,三、统计分析方法简介,统计分析方法: 常用的主要方法有:线性回归,方差分析与多重比较,假设检验,主成分和因子分析,判别分析,聚类分析。,3.1方差分析,方差分析:用于分析分类型自变量与数值型自变量之间的关系,即分析多各总体均值是否相等的方法。具体根据影响因素的不同

8、,可以分为单因素方差分析,双因素方差分析 例:某城市从4个排污口取水,进行某种处理后检测大肠杆菌数量,单位面积内菌落数如下表所示,请分析各个排污口的大肠杆菌数量是否有差别。 排污口属于分类型自变量,大肠杆菌数量属于数值型因变量。 分析的问题是:不同排污口大肠杆菌的数量是否相等。,方差分析代码,X-c(9,12,7,5,20,14,18,12,12,7,6,10,23,13,16,21) A-factor(rep(1:4,each=4) fcfx-data.frame(X,A) fcfx aov.fcfx-aov(XA,data=fcfx) summary(aov.fcfx) plot(fcfx

9、$Xfcfx$A) pairwise.t.test(X,A,p.adjust.method=holm) TukeyHSD(aov(XA,fcfx),3.1多重比较,多重比较是在方差分析得到否定结论后,为确定是哪些组之间存在差异,两两之间进行的比较分析。 假设上述问题经分析得到的结果是四个排污口的大肠杆菌的数量是有差异的。那么具体是哪些排污口数量不同造成的,可进行多重比较。,3.1.1方差分析与多重比较命令,函数的调用格式: aov.miss-aov(formula,data=Null,projections=FALSE,qr=TRUE, contrast=NULL,) 多重比较的T检验命令 p

10、airwise.t.test(x,g,p.adjust.method=p.adjust.methods,poor.sd=TRUE,) x是影响变量构成的向量,g是分组向量(因子),方差分析的对象,数据框,是否返回逻辑预测值,是否返回QR分解,因素对比,合并方差,调整p值,3.2假设检验,假设检验是依据样本去推测总体特征。 思想:是基于小概率事件在一次试验中不发生的原理。 某车间用一台包装机包装精盐, 额定标准每袋净重500g, 设包装机包装出的盐每袋净重XN(,2) 某天随机地抽取9袋, 称得净重为490,506, 508, 502, 498, 511, 510, 515, 512. 问该包装

11、机工作是否正常? H0:=500 H1:500,3.2.1假设检验命令调用,z.test-function(x,n,sigma,alpha,u0=0,alternative=“two.sided”) 类似的可以调用t.test,chisq.var.test检验,3.3主成分和因子分析,主成分分析:将多个变量通过线性变换以选出较少个数重要变量,而又尽可能多的保留原始样本的信息。 因子分析:用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。,3.3.1主成分分析,随机抽取30名某年级中学生,测量其

12、身高(X1), 体重(X2), 胸围(X3), 坐高(X4), 数据如下表所示, 试对这30名学生身体四项指标作主成分分析。 序号 X1 X2 X3 X4 序号 X1 X2 X3 X4 1 148 41 72 78 2 139 34 71 76 3 160 49 77 86 4 149 36 67 79 5 159 45 80 86 6 142 31 66 76 7 153 43 76 83 8 150 43 77 79 9 151 42 77 80 10 139 31 68 74 11 140 29 64 74 12 161 47 78 84 通过对以上四项指标做主成分分析,可以构造由四个指

13、标的线性组合组成的主成分,来解释数据。 本例中经过主成分分析中可构造出一个反应学生魁梧成度的主成分y1和反应学生胖瘦的主成分y2。,主成分分析代码,x-read.csv(student.csv) student.pr-princomp(x,-1,cor=TRUE) summary(student.pr,loadings=TRUE) #主成分得分 predict(student.pr) #主成分的碎石图 screeplot(student.pr,type=lines),你的电脑没有这个数据,可以拿其他数据做测试,3.3. 1主成分分析的代码调用,三种格式调用: 格式一: princomp(for

14、mula,data=NULL,subset,na.action,) 格式二: princomp(x,cor=FALSE,scores=TRUE,covmat=NULL,subset=rep(TRUE,nrow) formula是没有响应变量的公式;x是用于主成分分析的数据;cor是逻辑变量,当 cor=TRUE表示用样本的相关阵R作主成分分析。,3.3.2因子分析:,从现有变量综合出少量的变量来解释信息 例:现有100名学生六门课(数学、物理、化学、语文、历史、英语)的成绩如下表。目前的问题是:数据中的6个变量能否用一两个综合变量来表示呢?怎么解释它们呢? 最终,经过因子分析,得到: Math

15、= -0.355f1+0.793f2 Phys= -0.201f1+0.713f2 Chem= -0.216f1+0.689f2 Literat=0.850f1-0.376f2 History= 0.854f1-0.235f2 English= 0.872f1-0.242f2 第一个因子f1主要和语文、历史、英语三科有很强的正相关性,而第二个因子主要和数学、物理、化学三科有很强的正相关系数,因此可以给第一个因子f1起名为“文科因子”,给第二个因子f2起名为“理科因子”,3.3.1因子分析函数的调用,基本的调用函数 factanal(x,factors=,data=NULL,n.obs=,rot

16、ate=,scores=,fm)r是相关系数矩阵或原始数据矩阵;factors设定提取的因子数(默认为1);n.obs是观测数(输入相关系数矩阵时需要填写);rotate设定放置的方法(默认互变异数最小法);scores设定是否计算因子得分(默认不计算);fm设定因子化方法(默认极小残差法)。,3.4.判别分析,判别分析是用于判别样品所属类型的一种分析方法,判别分析是对已知归类数据的建立由数值指标构成的归类准则,然后把这样的规则应用到未知样品的归类中。 例如:一个病人肺部有阴影,医生需要判断他患的是肺结核,肺部良性肿瘤还是肺癌。显然,肺结核病人,肺部良性肿瘤病人和肺癌病人组成了三个总体,病人可

17、能就来源于这三个总体之一,判别分析的目的就是通过病人的指标来判定他属于哪个总体。 library(mvstats) discrim.dist(cbind(Q,C,P),as.factor(G),3.5聚类分析,聚类分析也是研究分类的方法,但与判别分析有本质的不同。判别分析对事先总体类型的划分是已知的,在此基础上判定新样本属于哪个总体;聚类分析是寻求一种客观的方法将总体分成若干类(类型是未知的)。,3.5.1聚类分析函数的调用,系统聚类: data=iris,-5 dist.e=dist(data,method=euclidean) heatmap(as.matrix(dist.e),labRo

18、w = F, labCol = F) K均值聚类: model2=kmeans(data,centers=3,nstart=10),近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。对我国各地区普通高等教育的发展状况进行聚类分析。 定性考察反映教育发展状况的五个方面十项评价指标,可以看出来某些指标之间存在着较强的相关性。比如x3(每10万人口高等院校招生数),x4(每10万人口高等院校在校生数),x5(每10万人口高等院

19、校教职工数)。 通过聚类分析,可将这10类指标进行分类。,3.6回归分析,回归分析常用于解释数值型自变量与数值型因变量之间的关系。如下例: 例:某单位对8名女工进行体检,体检项目包括体重和肺活量,数据如下: 分析肺活量与体重的关系。,3.6.1线性回归详细讲解,数值型变量之间关系的一种研究方法,依据自变量因素多少分为:一元线性回归与多元线性回归。 以一元线性回归为例: 回归模型:y=0+1x+ 回归方程: E(y)=0+1x 估计回归方程: 进行回归分析,对于误差项的要求: N(0,2),独立同分布且期望E()=0,方差2都相同。,实例解析: 数据 在R中操作: 先做散点图,观察两者之间的大致关系。通过以下命令: weight fhl womendataplot(fhlweight, type=b,col=red,xlab=体重,ylab=肺活量,xlim=c(40,50)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论