版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.6基本统计计算在进行数据分析的时候,通常会用到统计分布和抽样,以下是一些基本的命令。
1.6.1抽样常用的是sample(x,size,replace=FALSE,prob=NULL)(总体,样本数,是否有放回,抽中的概率)sample(1:10,10)
x=sample(1:10,10,replace=T);xunique(x)#去重复的sample(c(0,1),10,replace=T,c(1/4,3/4))#0,1的概率为
1.6基本统计计算第一章R基础03(非参数统计新)课件n<-1000sample(c(-1,1),n,replace=T)n<-10001.6.2统计分布dnorm(x,mean=1,sd=2)#x~N(1,4)dnorm(0,0,1)#x~N(0,1),x=0x=seq(-2,-1,0,1,2)#五点的概率:dnorm(x,0,1)
常用函数:pnorm()#正态分布的累积分布函数qnorm()#分位数rnorm()#伪随机数1.6.2统计分布pnorm(0,0,1)qnorm(0.5,0,1)rnorm(10,0,1)
其他分布命名规则和正态分布相似,d,p,q,r表示概率密度,累积分布,分位数,伪随机数pnorm(0,0,1)图图描述性统计位置的度量:均值、顺序统计量、中位数、百分位数。均值计算:若x是向量、矩阵,则mean(x)返回其全部元素均值。若要返回数组某一维的均值:apply(x,dim,mean);dim=1计算行均值,dim=2计算列均值。若x是数据框,则mean(x)返回各列的均值Mean的一般用法:
mean(x,trim=0,na.rm=FALSE)trim指定去掉x两端数的比例;na.rm=TRUE允许有缺失值。类似又sum(x)函数可求x的和。描述性统计位置的度量:均值、顺序统计量、中位数、百分位数。顺序统计量将n个数据(观测值)按从小到大的顺序排列后,称其为顺序统计量.函数sort(x)给出了样本x的顺序统计量order()给出排序后的下标rank()给出了样本x的秩次统计量x<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5)sort(x)order(x)顺序统计量将n个数据(观测值)按从小到大的顺序排列后,称其为中位数中位数描述数据中心位置的数字特征.大体上比中位数大或小的数据个数为整个数据的一半.对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同.中位数的又一显著特点是不受异常值的影响,具有稳健性,因此它是数据分析中相当重要的统计量.在R软件中,函数median()给观测量的中位数.如x<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5)median(x)median(x,na.rm=TRUE)#若数据中有缺失值中位数中位数描述数据中心位置的数字特征.大体上比中位数大或小百分位数百分位数(percentile)是中位数的推广.将数据按从小到大的排列后,0<p<1,它的p分位点定义为:在R软件中,quantile()函数计算观测量的百分位数.如w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)quantile(w)一般用法:
quantile(x,probs=seq(0,1,0.25),na.rm=FALSE)百分位数百分位数(percentile)是中位数的推广.将数分散程度的度量表示数据分散(或变异)程度的特征量有方差、标准差、极差、四分位极差、变异系数和标准误等.在R软件中,用var()和sd()计算方差、标准差:var(x,na.rm=FALSE,)sd(x,na.rm=FALSE)分散程度的度量表示数据分散(或变异)程度的特征量有方差、标准极差与标准误样本极差(记为R)的计算:R=max(x)-min(x)样本上、下四分位数之差称为四分位差(或半极差),记为R1.它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据,它作为分散性具有稳健性,因此在稳健性数据分析中具有重要作用.半极差计算:R1=quantile(x,0.75)-quantile(x,0.25)样本标准误(记为sm)定义为s/sqrt(n)样本标准误计算:sm=sd(x)/sqrt(length(x))极差与标准误样本极差(记为R)的计算:R=max(1.7R的图形功能R提供了非常多样的绘图功能,可以通过R提供的两组演示例子进行了解:demo(graphics)demo(persp)注:不能把绘图结果赋值给一个对象,其结果将直接输出到一个“绘图设备”上,绘图设备是一个绘图的窗口或一个文件。
1.7R的图形功能14图
R绘制的图形14图R绘制的图形R绘图功能R具备卓越的绘图功能,通过参数设置对图形进行精确控制。绘制的图形能满足出版印刷的要求,可以输出Jpg、tiff、eps、emf、pdf、png等各种格式。通过与GhostScript软件的结合,可以生成600dpi,1200dpi的等各种分辨率和尺寸的图形。绘图是通过绘图函数结合相应的选项完成的。绘图函数包括高级绘图函数和低级绘图函数。R绘图功能R具备卓越的绘图功能,通过参数设置对图形进行精确控16高级绘图函数
plot()绘制散点图等多种图形,根据数据的类,调用相应的函数绘图hist()频率直方图boxplot()箱线图stripchart()点图barplot()柱状图dotplot()点图piechart()饼图matplot()数学图形16高级绘图函数plot()绘制散1.7.1plot函数#散点图plot(x,y,…)函数
x:图形中点的坐标,或者也可以表示一个单独的作图结构、函数或任何一个R语言对象
y:着是一个可选的参数,如果‘x’表示x轴坐标的话,则’y’表示图形中点的y轴坐标
…:其他图形参数
1.7.1plot函数#散点图18图
散点图与箱线图18图散点图与箱线图19低级绘图函数lines()添加线curve()添加曲线abline()添加给定斜率的线points()添加点segments()折线arrows()箭头axis()坐标轴box()外框title()标题text()文字mtext()图边文字19低级绘图函数lines()添加线curve()添加曲线a20绘图参数参数用在函数内部,在没有设定值时使用默认值。font=
字体,lty=
线类型,lwd=
线宽度,pch=
点的类型,xlab=
横坐标,ylab=
纵坐标,xlim=
横坐标范围,ylim=
纵坐标范围,也可以对整个要绘制图形的各种参数进行设定参见par()20绘图参数参数用在函数内部,在没有设定值时使用默认值。举例:绘图x=seq(0,10,.5)y=2*sin(0.2*x)+log(x^2+3*x+1)plot(x,y,xlab=“Xisacross”,ylab=“YisUp”)points(x^0.5,y,pch=3)points(x,8-0.7*y,pch=“m”)#usea“m”symbolpoints(rev(x),y,pch=5)lines(x,y,lwd=2)title(“TitlesareTops”)#见下图举例:绘图x=seq(0,10,.5)第一章R基础03(非参数统计新)课件分步绘图
1.打开绘图窗口,不绘制任何对象plot(x,y,type="n",xlab="",ylab="",axes=F)
2.添加坐标点
points(x,y)3.添加坐标轴axis(1);axis(at=seq(0.2,1.8,0.2),side=2)4.补齐散点图的边框box()5.添加标题、副标题、横轴说明、纵轴说明title(main="Maintitle",sub="subtitle",xlab="x-label",ylab="y-label")分步绘图1.打开绘图窗口,不绘制任何对象24图
分步绘图12345624图分步绘图12345625举例:绘图生成0到2之间的50个随机数,分别命名为x,yx<-runif(50,0,2)y<-runif(50,0,2)绘图:将主标题命名为“散点图”,横轴命名为”横坐标”,纵轴命名为“纵坐标”plot(x,y,main="散点图",xlab="横坐标",ylab="纵坐标")text(0.6,0.6,"textat(0.6,0.6)")abline(h=.6,v=.6)25举例:绘图生成0到2之间的50个随机数,分别命名为x,y26图
绘图举例26图绘图举例1.7.2多图显示
par()par(mfrow=c(2,2))x=rnorm(100,2,3)y=7:1pie(y,col=rainbow(7),radius=1)hist(x,col=3)boxplot(x)barplot(c(1,2,3))#如下图1.7.2多图显示第一章R基础03(非参数统计新)课件29在原有图形上添加元素举例:x<-rnorm(100)#生成随机数hist(x,freq=F)#绘制直方图curve(dnorm(x),add=T)#添加曲线h<-hist(x,plot=F)#绘制直方图ylim<-range(0,h$density,dnorm(0))#设定纵轴的取值范围hist(x,freq=F,ylim=ylim)#绘制直方图curve(dnorm(x),add=T,col="red")#添加曲线29在原有图形上添加元素举例:30图27在原有直方图上添加曲线30图27在原有直方图上添加曲线第一章R基础03(非参数统计新)课件1.8R帮助和包
1.8.1R帮助help(abs)#绝对值函数help(np)?np
1.8R帮助和包1.8.2R包install.packages(“np”)#安装非参包library(np)#使用非参包1.8.2R包34输入历史history输入的命令,在R中作为历史history保存,可输入函数history()#查看输入历史history(Inf)#查看打开R之后所有的输入可用向上或向下的箭头切换输入的行。34输入历史history输入的命令,在R中作为历史his1.6基本统计计算在进行数据分析的时候,通常会用到统计分布和抽样,以下是一些基本的命令。
1.6.1抽样常用的是sample(x,size,replace=FALSE,prob=NULL)(总体,样本数,是否有放回,抽中的概率)sample(1:10,10)
x=sample(1:10,10,replace=T);xunique(x)#去重复的sample(c(0,1),10,replace=T,c(1/4,3/4))#0,1的概率为
1.6基本统计计算第一章R基础03(非参数统计新)课件n<-1000sample(c(-1,1),n,replace=T)n<-10001.6.2统计分布dnorm(x,mean=1,sd=2)#x~N(1,4)dnorm(0,0,1)#x~N(0,1),x=0x=seq(-2,-1,0,1,2)#五点的概率:dnorm(x,0,1)
常用函数:pnorm()#正态分布的累积分布函数qnorm()#分位数rnorm()#伪随机数1.6.2统计分布pnorm(0,0,1)qnorm(0.5,0,1)rnorm(10,0,1)
其他分布命名规则和正态分布相似,d,p,q,r表示概率密度,累积分布,分位数,伪随机数pnorm(0,0,1)图图描述性统计位置的度量:均值、顺序统计量、中位数、百分位数。均值计算:若x是向量、矩阵,则mean(x)返回其全部元素均值。若要返回数组某一维的均值:apply(x,dim,mean);dim=1计算行均值,dim=2计算列均值。若x是数据框,则mean(x)返回各列的均值Mean的一般用法:
mean(x,trim=0,na.rm=FALSE)trim指定去掉x两端数的比例;na.rm=TRUE允许有缺失值。类似又sum(x)函数可求x的和。描述性统计位置的度量:均值、顺序统计量、中位数、百分位数。顺序统计量将n个数据(观测值)按从小到大的顺序排列后,称其为顺序统计量.函数sort(x)给出了样本x的顺序统计量order()给出排序后的下标rank()给出了样本x的秩次统计量x<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5)sort(x)order(x)顺序统计量将n个数据(观测值)按从小到大的顺序排列后,称其为中位数中位数描述数据中心位置的数字特征.大体上比中位数大或小的数据个数为整个数据的一半.对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同.中位数的又一显著特点是不受异常值的影响,具有稳健性,因此它是数据分析中相当重要的统计量.在R软件中,函数median()给观测量的中位数.如x<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5)median(x)median(x,na.rm=TRUE)#若数据中有缺失值中位数中位数描述数据中心位置的数字特征.大体上比中位数大或小百分位数百分位数(percentile)是中位数的推广.将数据按从小到大的排列后,0<p<1,它的p分位点定义为:在R软件中,quantile()函数计算观测量的百分位数.如w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)quantile(w)一般用法:
quantile(x,probs=seq(0,1,0.25),na.rm=FALSE)百分位数百分位数(percentile)是中位数的推广.将数分散程度的度量表示数据分散(或变异)程度的特征量有方差、标准差、极差、四分位极差、变异系数和标准误等.在R软件中,用var()和sd()计算方差、标准差:var(x,na.rm=FALSE,)sd(x,na.rm=FALSE)分散程度的度量表示数据分散(或变异)程度的特征量有方差、标准极差与标准误样本极差(记为R)的计算:R=max(x)-min(x)样本上、下四分位数之差称为四分位差(或半极差),记为R1.它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据,它作为分散性具有稳健性,因此在稳健性数据分析中具有重要作用.半极差计算:R1=quantile(x,0.75)-quantile(x,0.25)样本标准误(记为sm)定义为s/sqrt(n)样本标准误计算:sm=sd(x)/sqrt(length(x))极差与标准误样本极差(记为R)的计算:R=max(1.7R的图形功能R提供了非常多样的绘图功能,可以通过R提供的两组演示例子进行了解:demo(graphics)demo(persp)注:不能把绘图结果赋值给一个对象,其结果将直接输出到一个“绘图设备”上,绘图设备是一个绘图的窗口或一个文件。
1.7R的图形功能48图
R绘制的图形14图R绘制的图形R绘图功能R具备卓越的绘图功能,通过参数设置对图形进行精确控制。绘制的图形能满足出版印刷的要求,可以输出Jpg、tiff、eps、emf、pdf、png等各种格式。通过与GhostScript软件的结合,可以生成600dpi,1200dpi的等各种分辨率和尺寸的图形。绘图是通过绘图函数结合相应的选项完成的。绘图函数包括高级绘图函数和低级绘图函数。R绘图功能R具备卓越的绘图功能,通过参数设置对图形进行精确控50高级绘图函数
plot()绘制散点图等多种图形,根据数据的类,调用相应的函数绘图hist()频率直方图boxplot()箱线图stripchart()点图barplot()柱状图dotplot()点图piechart()饼图matplot()数学图形16高级绘图函数plot()绘制散1.7.1plot函数#散点图plot(x,y,…)函数
x:图形中点的坐标,或者也可以表示一个单独的作图结构、函数或任何一个R语言对象
y:着是一个可选的参数,如果‘x’表示x轴坐标的话,则’y’表示图形中点的y轴坐标
…:其他图形参数
1.7.1plot函数#散点图52图
散点图与箱线图18图散点图与箱线图53低级绘图函数lines()添加线curve()添加曲线abline()添加给定斜率的线points()添加点segments()折线arrows()箭头axis()坐标轴box()外框title()标题text()文字mtext()图边文字19低级绘图函数lines()添加线curve()添加曲线a54绘图参数参数用在函数内部,在没有设定值时使用默认值。font=
字体,lty=
线类型,lwd=
线宽度,pch=
点的类型,xlab=
横坐标,ylab=
纵坐标,xlim=
横坐标范围,ylim=
纵坐标范围,也可以对整个要绘制图形的各种参数进行设定参见par()20绘图参数参数用在函数内部,在没有设定值时使用默认值。举例:绘图x=seq(0,10,.5)y=2*sin(0.2*x)+log(x^2+3*x+1)plot(x,y,xlab=“Xisacross”,ylab=“YisUp”)points(x^0.5,y,pch=3)points(x,8-0.7*y,pch=“m”)#usea“m”symbolpoints(rev(x),y,pch=5)lines(x,y,lwd=2)title(“TitlesareTops”)#见下图举例:绘图x=seq(0,10,.5)第一章R基础03(非参数统计新)课件分步绘图
1.打开绘图窗口,不绘制任何对象plot(x,y,type="n",xlab="",ylab="",axes=F)
2.添加坐标点
points(x,y)3.添加坐标轴axis(1);axis(at=seq(0.2,1.8,0.2),side=2)4.补齐散点图的边框box()5.添加标题、副标题、横轴说明、纵轴说明title(main="Maintitle",sub="subtitle",xlab="x-label",ylab="y-label")分步绘图1.打开绘图窗口,不绘制任何对象58图
分步绘图12345624图分步绘图12345659举例:绘图生成0到2之间的50个随机数,分别命名为x,yx<-runif(50,0,2)y<-runif(50,0,2)绘图:将主标题命
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食品企业库存管理专题研究展望
- 北京十一校2024届中考押题物理预测卷含解析
- 山东省济宁市微山县达标名校2024年中考物理对点突破模拟试卷含解析
- 江西省庐山市重点中学2024年中考二模物理试题含解析
- 班主任实习大学生工作总结
- 江苏省宜兴市洑东中学2024年中考物理考试模拟冲刺卷含解析
- 我国药品带量采购政策实施效果及其优化建议
- 遵守严守工作纪律规章制度
- 福建省泉州市晋江市泉州五中学桥南校区达标名校2024届中考一模物理试题含解析
- 陕西省榆林市一中学分校2023-2024学年中考物理模拟预测题含解析
- 江苏省盐城市2023-2024学年高一下学期期末考试语文试题
- 惠州2024年广东惠州城市职业学院第一批合同制教职工招聘37人笔试上岸历年典型考题与考点剖析附带答案详解
- 2024-2029年中国木醋液行业市场现状分析及竞争格局与投资发展研究报告
- 浙江省台州市2022-2023学年八年级下学期语文期末试卷(含答案)
- 现代教育技术智慧树知到期末考试答案章节答案2024年济宁学院
- 奇异的仿生学智慧树知到期末考试答案2024年
- 24春国家开放大学《农业推广》调查报告参考答案
- 山东开放大学2024年《资源与运营管理》形成性考核1-4答案
- 印刷服务投标方案(技术方案)
- 2023届广东省深圳市宝安区数学六年级第二学期期末联考试题含解析
- 2022年山东省济南市历城区三下期末数学试卷
评论
0/150
提交评论