版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章
探索性数据分析内容要点1、掌握R语言中的描述性统计方法。2、掌握R语言中箱线图、直方图、散点图、饼图的制作方法。目录CONTENTS描述性统计方法数据可视化12描述性统计方法描述性统计是指运用制表、分类、图形及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布及一些基本的统计图形。常用统计指标描述性统计包含多种基本描述统计指标,让用户对于数据结构可以有一个初步的认识,包含以下几种。●基本信息:样本数、总和。●集中趋势:均值、中位数、众数。●离散趋势:方差(标准差)、变异系数、全距(最小值、最大值)、内四分位距(25%分位数、75%分位数)。●分布描述:峰度系数、偏度系数。描述性统计方法用户可选择多个变量同时进行计算,也可选择分组变量进行多组别的统计指标计算。R语言提供了不同统计指标的实现方式,见右。描述性统计方法数据总结:R语言提供了大量对数据集进行描述性统计的包,以方便用户调用。summary()函数summary()函数可以获取描述性统计指标,提供最小值、最大值、四分位距和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。例如,summary(iris)的输出结果为:描述性统计方法数据总结(续)psych包中的describe()函数psych包拥有一个名为describe()的函数,它可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误差。例如,describe(iris)的输出结果为:描述性统计方法数据总结(续)str()函数以简洁的方式显示对象的数据结构及内容,可以查看数据框中每个变量的属性。例如,str(iris)的输出结果为:描述性统计方法数据总结(续)attributes()函数可以提取对象除长度和模式以外的各种属性。例如,attributes(iris)的输出结果为:数据可视化数据可视化是关于数据视觉表现形式的科学技术研究。这种数据视觉表现形式被定义为一种以某种概要形式抽取出来的信息,包括相应信息单位的各种属性和变量。无论数据简单与否,观察数据是必不可少的一个步骤。R语言提供了数据可视化的各种函数,可以将变量进行可视化展示。箱线图箱线图是一种用来显示一组数据分散情况资料的统计图,包含5个数据节点,分别为数据的最大值、上四分位数、中位数、下四分位数和最小值。箱线图是能同时反映数据统计量和整体分布的图形。使用boxplot()函数绘制箱线图,其部分参数如表4-1所示(见后页),其语法格式为:数据可视化箱线图boxplot()函数其部分参数如表4-1所示:表4-1数据可视化箱线图(续)以usedcars数据集为例,绘制箱线图,如图4-1和图4-2所示(为了清晰展现箱线图的各组成部分,下列图上标注为手动添加),代码如下:数据可视化箱线图(续)以usedcars数据集为例,绘制箱线图,如图4-1和图4-2所示(为了清晰展现箱线图的各组成部分,下列图上标注为手动添加),代码如下:数据可视化直方图:直方图是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。它可用于整理统计数据,了解统计数据的分布特征,即数据分布的集中或离散状况。使用hist()函数绘制直方图,其参数和boxplot()函数相同,其语法格式为:以usedcars数据集为例,绘制直方图,用main参数设置直方图的标题,用xlab参数设置横坐标轴标题,运行结果如图4-3所示,代码如下:自定义分组数与颜色绘制直方图,用breaks指定组数,col指定颜色,结果如图4-4所示,代码如下:boxplot()函数语法格式代码数据可视化直方图:直方图是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。它可用于整理统计数据,了解统计数据的分布特征,即数据分布的集中或离散状况。自定义分组数与颜色绘制直方图,用breaks指定组数,col指定颜色,结果如图4-4所示,代码如下:代码数据可视化散点图:散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。使用plot()函数可以绘制散点图(plot()函数可以绘制多种图形),其参数如表4-2所示,其语法格式为:plot()函数语法格式表4-2数据可视化散点图(续)以usedcars数据集为例,进行散点图的绘制,结果如图4-5所示,代码如下:代码:绘制usedcars数据集散点图数据可视化散点图(续)abline()函数的功能是在一张图表上添加直线,lwd控制线条粗细,lty控制线的类型,用lm()函数来拟合线性回归模型,结果如图4-6所示,代码如下:代码:拟合线性回归模型数据可视化散点图(续)lines()函数的功能是制作连线图。用lowess()函数对usedcars数据集进行局部回归拟合,并用lines()函数对拟合结果制作连线图,结果如图4-7所示,代码如下:数据可视化饼图饼图主要用于表现不同类目的数据在总和中的占比,其中弧度表示数据数量的比例。饼图适合表现数据相对于总数的百分比等关系。使用pie()函数绘制饼图,其参数如表4-3所示(见后页),其语法格式为:数据可视化饼图(续)pie()函数参数如表4-3所示:表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淮阴师范学院《酒店人力资源管理》2023-2024学年第一学期期末试卷
- 淮阴师范学院《计算机组成原理》2022-2023学年期末试卷
- 黄山学院《查性报道》2022-2023学年第一学期期末试卷
- 淮阴师范学院《移动开发技术》2022-2023学年期末试卷
- 淮阴师范学院《消费者行为学》2022-2023学年第一学期期末试卷
- 淮阴师范学院《钢琴即兴弹唱(1)》2022-2023学年第一学期期末试卷
- 淮阴工学院《食品市场营销学》2021-2022学年第一学期期末试卷
- DB6103-T 74-2024高山生菜生产技术规范
- DB3711-T 154-2024茶园土壤酸化改良技术规程
- DB65T4818-2024番茄潜叶蛾监测技术规程
- 立体构成的基本要素及形式美法则备课讲稿课件
- 广东省房屋建筑工程概算定额说明及计算规则样本
- 汽车文化知识考试参考题库400题(含答案)
- WDZANYJY23低压电力电缆技术规格书
- 《水循环》-完整版课件
- 抗高血压药物基因检测课件
- 西游记 品味经典名著导读PPT
- 金坛区苏科版四年级心理健康教育第1课《我的兴趣爱好》课件(定稿)
- 心肌缺血和心肌梗死的心电图表现讲义课件
- 学历案的编写课件
- 旅游行政管理第二章旅游行政管理体制课件
评论
0/150
提交评论