论坛三节课数据分析师p1系列课程04r语言00r_第1页
论坛三节课数据分析师p1系列课程04r语言00r_第2页
论坛三节课数据分析师p1系列课程04r语言00r_第3页
论坛三节课数据分析师p1系列课程04r语言00r_第4页
论坛三节课数据分析师p1系列课程04r语言00r_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录模式笔记模式R 是专业的理解数据、探索数据和展示数据的语言,由于 R 的开源和,每个数据分析师在其中可发挥的作用都将被无限放大。那么,R在什么背景下被开发出来,其自身又有什么特点呢?语言到底是在课程的前几周,我们已经掌握了数据分析工具Excel、SQL以及数据可视化工具PowerBI。同学是否会有这样的疑惑:作为数据分析师为什么要学习R 语言呢?同样是编程语言,R 在数据分析的应用中有哪些问题反馈和 R 在数据分析工作上有哪些区别呢?独特的优势呢?R 和的比较(同学可以通过下方这张表区分和 R 的区别)目录模式笔记模式R 的安装(第 1 页/共 1 页)作业你需要重点掌握 3 个知识点:R

2、 的安装、变量赋值、R 的脚本,这将有助于你之后的学习。R 的安装在正式进入 R 语言的学习之前,你需要先做两件事情:R 的与安装 编程语言本身··RStudio 的与安装 R 的代码编辑器(用于编程的文本编辑器,编辑器可以大大提高编程效率)请参考下方安装文档,完成安装:Mac 版 R 的安装:Mac 版 RStudio 的安装:(感谢热心网友 道长助教提供 Mac 版 R 的安装文档)Windows 版 R 的安装:Windows 版 RStudio 的安装:问题反馈变量赋值在 R 中可以有“<-”、“->”、“=”三种赋值运算符为变量赋值。·

3、83;“->”和“=”有细微区别,他们赋值之后的程序作用范围有所不同;为了保持编程风格的一致,建议在赋值时候尽量用“<-”符号;R 的脚本R 脚本的概念很简单,它就是一个存有代码的文档,是以.R 为结尾的。在使用 R做分析的时候,有时我们会写很长的代码并且这个代码我们希望之后是可以反复修改使用的,那么我们就需要使用 R 的脚本来储存我们的代码。创建 R 的脚本:在 RStudio 中依次打开:“FileNew FileR Script”储存 R 的脚本:课间思考作业在确保 R 安装完成后,请执行以下操作:1.在安装的RStudio 中输出:Hello World!2.将写的代码保一

4、个 R 脚本里!目录模式笔记模式2. 基本数据类型(第 1 页/共 1 页)作业在开始学习编程语言 R 之前你需要先了解在 R 中有哪些基本的数据类型。在R 中有五种基本的数据类型,中除了五种基本数据类型,你还将了解到在 R 中常用的数据类型:日期和时间。(注意:本节课后有练习题!)同学如果看不清p示例可以示例代码:【基本数据类型】示例代码.zi注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正掌握哦!问题反馈练习题1、按照要求进行如下操作:重新敲一遍代码,多动手练1) 请你定义一个 POSIXlt 类型的时间变量 R 语言作业提交截

5、止时间:DDL“2019-08-01 23:59:59” 。2) 显示 POSIXlt 列表中 hour 对应的数值。目录模式笔记模式本小节含有练习题!在 R 语言中还有一个非常重要的知识点,就是 R 语言的运算符。下表中列了在数据分析的工作中最常见几种运算符。R 的运算符(第 1 页/共 1 页)作业在文档中,通过具体的示例来像大家展示 R 的运算符:o.im/docs/heDoLBfGQpkFCKyh/练习题2、计算 7+5、7-5、7*5 、7/5 以及 75的值。回答请输入您的代码1练习题3、分别输出 7 大于 5、7 小于 5、7 大于等于 5、7 小与等于 5 的值。回答请输入您的

6、代码1练习题4、请输出:(1)(5 > 7)、(6(2)(5 > 7)、(6* 7 = 42)* 7 = 42)结果的“和”运算。结果的“或”运算。回答请输入您的代码1重置代码运行重置代码运行练习题5、请完成以下操作:1) 将 12 赋值给变量 time.factor,并输出 time.factor。2)将 2.5 赋值给变量 time.in.years,并输出 time.in.years的乘积。与time.factor回答12目录模式笔记模式在基本数据类型的基础上,我们再来了解一下 R 中的基本数据结构。以基本数据类型为单元,可以组成各种 R 基本数据结构:向量、列表、因子、矩阵

7、、数据框。在这一节,你需要了解如何创建数据结构,以及每种数据结构之间的区别。3. 基本数据结构(第 1 页/共 1 页)作业重置代码运行(注意:本节课后有练习题!)同学如果看不清p示例可以示例代码:【基本数据结构】示例代码.zi注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正掌握哦!问题反馈练习题6、请完成以下内容:重新敲一遍代码,多动手练1)将向量(5,6,3),(2,6,4)分别赋值给变量 a、b。2)计算 a+b、a-b、a*b、a/b以及ab。回答请输入您的代码1练习题7、请完成以下操作:1) 将含有参数"Sean

8、"、"Louisa"、"Frank"、"Farhad"、 "Li"的向量赋值给变量s。2) 将含有参数 80、90、 93、 82、95 的向量赋值给变量 midterm。3)输出s。重置代码运行回答请输入您的代码1练习题8、请完成以下操作:1) 将向量(4,5,8)赋值给 a 变量,将向量(1,3,6)赋值给 b 变量。2) 分别输出 a 大于 b、a 小于 b、a 大于等于 b、a 小与等于 b 的值。回答请输入您的代码1练习题重置代码运行重置代码运行9、创建一个由 1-20 的数字组成的行数为 5,

9、列数为 4 的矩阵,将该矩阵赋值给变量 y 并输出。回答请输入您的代码1目录模式笔记模式在了解了 R 语言的基础知识即基本数据类型和基本数据结构之后,正式进入数据处理和分析的环节。你可以本周课程示例数据并到 R中。在数据分析师的日常工作中需要处理各种来源和格式的数据,中,你将会了解到不同格式的数据如何导入以及如何创建 R 的工作目录。(注意:本节课后有练习题!)同学如果看不清示例可以示例代码:【读写数据】示例代码.zip4. 读写数据(第 1 页/共 1 页)作业注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正掌握哦!问题反馈重新敲

10、一遍代码,多动手练本周示例数据:Shared Bike Sample Data (csv 文件)Shared Bike Sample Data.zip设置工作目录:RStudio,使用 setwd() 函数将 R 的工作目录,设在 Shared Bike Sample Dat·打开a .csv setwd ( "Shared Bike Sample Data.csv 所在地址 " ) 为文件所在目录Shared Bike Sample Data .csv 文件方便本课程使用,建议同学把到桌面并将工作目录设置为桌面;代码:···getw

11、d () setwd ()例如:#获取工作目录位置#设置新的工作目录位置数据:这里给大家提供了 R 中常用的几种文本文件的:R文件·遇到新类型文件需要时,你可以在网上相关资料。在需要的时候,类似于 w3cschool 的相关练习材料,可以帮助我们尽快了解如上文件格式的基本操作:https:/。戳开练习题10、按照要求完成下面操作:练习一下吧!1)“sanjieke-r”数据集,命名为“Cars”;2)查看数据前五行;回答1#提示:Cars<-.csv("sanjieke-r.csv")目录模式笔记模式在第一周我们已经学习过数据分析工作的流程:数据获取、数据、

12、数据转换、统计分析与建模、数据探索、分析呈现六个步骤,在每个步骤中其实都可以用 R 语言来实现。在这一节我们主要了解在数据骤中(统称为数据处理)R 语言可以有哪些常见的应用。取子集:选取特定数据子集;、数据转换步····强制类型转换:转换数据类型;数据排序:对数据进行排序;缺失值:处理缺失值及填补;(注意:本节课后有练习题!)重置代码运行5. R 的数据处理(第 1 页/共 1 页)作业同学如果看不清示例可以示例代码:【数据处理】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正

13、掌握哦!问题反馈重新敲一遍代码,多动手练在进行缺失值填补时,我们可以将多个步骤一行代码来完成,总体思路是用除去缺失值的数据的均值补齐数据中的缺失值。实现代码如下所示:datais.na<data$分数>,"分数"<-mean(data$分数,na.rm=TRUE)先看代码左侧,使用 is.na<data$分数>用来是否为缺失值,后放到数据框“data”下用于索引出含缺失值的子集,并且着重标注了“分数”这一列。左侧代码整体表示的就是对含缺失值子集的提取。再看代码右侧,我们想用均值对缺失值补值,使用均值函数 mean(),计算"d ata

14、$分数"的均值,na.rm=TRUE 表示除去缺失值。右侧代码整体表示的就是计算除去缺失值后"分数"的均值。将代码右侧赋值给代码左侧,就完成了用除去缺失值的均值对缺失值的填补。练习题11、按照要求完成下面操作:1)“sanjieke-r”数据集,命名为“Cars”2)用 3 种查看指定字段“价格”回答1#提示:Cars<-.csv("sanjieke-r.csv")练习题12、请将变量 x 转换成字符型数据。回答1x <- 0:6 #生成 0-6 所有的整数2#class(x)3#1 "ingeter"45重置代

15、码运行查看数据(第 1 页/共 1 页)作业重置代码运行目录模式笔记模式在使用 R 语言进行数据分析的时候,无论是在刚刚了数据,还是对数据进行了一定的处理之后,我们都希望对当前数据对象 内容和结构有一个清晰了解。在 R 语言中给我们提供了一些非常方便和快捷的函数,让我们可以马上查看当前的数据对象的重要(注意:本节课后有练习题!)。同学如果看不清示例可以示例代码:【查看数据】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正掌握哦!问题反馈重新敲一遍代码,多动手练对数据对象的快速查看··str() 查

16、看数据对象的结构摘要summary () 查看各种数据对象的内容摘要·练习题13、按照要求完成下面操作:1)“sanjieke-r”数据集,命名为“Cars”2)快速查看数据对象(可以使用 str()和 summary()函数)回答1#提示:Cars<-.csv("sanjieke-r.csv")23重置代码运行练习题14、按照要求完成下面操作:1)“sanjieke-r”数据集,命名为“Cars”2)统计数据集的行数、列数回答1#提示:Cars<-.csv("sanjieke-r.csv")目录模式笔记模式在使用 R 语言的过程中

17、,当数据分析的任务变得更复杂时,我们无法记住所有的函数和操作方式,此时作为一名数据分析师你就需要主动搜索解决问题。在 R 语言索引擎。问题反馈内部给同学提供了许多帮助功能,此外同学还用搜重置代码运行函数的搜索和使用(第 1 页/共 1 页)作业R cheetsheat 中文翻译版:建议同学可以将参照表 cheetsheat.pdf或打印,在之后的项目练习中方便使用。base-r同学在遇到新的问题时,要主动搜索解决问题哦!目录模式笔记模式在,我们学会了 R 语言中常见的数据处理的。中,你将通过函数的学习来处理一些更复杂的任务,这些函数分别是:数学类函数、分布类函数、A/B测试函数。节,你需要了解

18、并能够使用几种分析类函数,你可以参考课程中的示例在 RStudio 中进行练习。(注意:本节课后有练习题!)同学如果看不清p示例可以示例代码:【数据分析函数】示例代码.zi注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正掌握哦!问题反馈重新敲一遍代码,多动手练常用的数学类函数··max/min 最大值/最小值sum 求和6. R 的数据分析(第 1 页/共 1 页)作业····mean/median 平均值/中位数sd -qu标准方差le 求四分位数或百分位数round 进

19、行四舍五入保留数字有效位数其他几种分布的分布函数练习题15、按照要求完成下面操作:1)“sanjieke-r”数据集,命名为“Cars”2)为“价格”字段计算一下平均值、中位数、标准差、四分位数。分别命名为:avg, md, std, qule.25, qule.50, qule.753)构建一个数据框(data frame),将上述六个统计量结果放在一个一行六列的数据框中,并用 names()函数及向量 c("平均数","中位数","标准差","2 5%四分位数","50%四分位数",&quo

20、t;75%四分位数")为每一列命名,最后输出数据框回答1#提示:Cars<-.csv("sanjieke-r.csv")目录模式笔记模式知识回顾:A/B测试定义是统计学里双样品假设检验的一个应用;简单来说,就是为同一个目标制定两个方案(比如两个页面),让一部分用户使用 A 方案,另一部分用户使用 B 方案,方案的效果更好;下用户的使用情况,看哪个A/B 测试的步骤(以 Z 检验为例)步骤 1:选择原假设 H0 和备择假设 H1; 步骤 2:假设 H0 成立,计算 Z 值;步骤 3:计算 P 值(P value);步骤 4:比较 P 值和显著性水平?,下结论;

21、*练习题P 值 > 显著性水平?,原假设成立;P 值 < 显著性水平?,拒绝原假择假设成立;重置代码运行练习A /B 测试(第 1 页/共 1 页)作业16、按照要求完成下面操作:1)“sanjieke-r”数据集,命名为“Cars”2)单样品平均值检测:基于行业报告,市场平均价格是 16,样品平均价格是否统计显著大于市场平均价格?使用 t 检验对结论进行检验。回答1#提示:Cars<-.csv("sanjieke-r.csv")2#t.test 函数用法:3t.test(x, alternative = c("two.sided",

22、"less","greater"),4mu= 0,paired = FALSE, var.equal = FALSE,5conf.level = 0.95, .)6x:非空数据集向量7alternative:替代假设,双侧检验左侧检验右侧检验8mu:均值,默认 mu=0,可指定任意值测试一下【单选题】重置代码运行16、基于行业报告,市场平均价格是 16,检验样品平均价格是否统计显著大于市场平均价格。进行 t 检验,得到的结论是?练习题17、按照要求完成下面操作:1)“sanjieke-r”数据集,命名为“Cars”2)双样品平均值检测:产地为"

23、USA" / "non-USA"的车辆平均价格是否有统计显著的差异?使用 t.test()检验,使用"usa_price''、"nonusa_price"分别表示产地为"USA" / "non-USA"的车辆平均价格。回答1提示:Cars<-.csv("sanjieke-r.csv")2#t.test()函数使用:3t.test(x, y = NULL,alternative = c("two.sided", "less&q

24、uot;,"greater").)4x, y:非空数据集向量5alternative:替代假设,双侧检验左侧检验右侧检验重置代码A 样品平均价格大于市场平均价格B 样品平均价格没有大于市场平均价格运行提交测试一下【单选题】17、检验产地为"USA" / "non-USA"的车辆平均价格是否有统计显著的差异,进行 t 检验,得到的结论是?练习题18、按照要求完成下面操作:1)“sanjieke-r”数据集,命名为“Cars”2)单样品比例检验:基于行业报告,市场手排比例为 50%,样品手排比例与市场手排比例是否有统计显著的差异?使用 Z

25、 检验对假设进行检验。(样品:手排/所有= 61/93)回答1提示:Cars<-.csv("sanjieke-r.csv")2函数使用:3prop.test(x, n, p = NULL,alternative = c("two.sided", "less", "greater)4重置代码测试一下A 产地为"USA" / "non-USA"的车辆平均价格有统计显著的差异B 产地为"USA" / "non-USA"的车辆平均价格没有统计显著的

26、差异运行提交【单选题】18、基于行业报告,市场手排比例为 50%,检验样品手排比例与市场手排比例是否有统计显著的差异,进行 Z 检验,得到的结论是?练习题19、按照要求完成下面操作:1)“sanjieke-r”数据集,命名为“Cars”2)双样品比例检验:比较产地为"USA" 与"non-USA"的手排比例是否有统计显著的差异?使用 prop.test()进行 Z 检验回答1提示:Cars<-.csv("sanjieke-r.csv")重置代码测试一下【单选题】19、检验产地为"USA" 与"non

27、-USA"的手排比例是否有统计显著的差异,进行 Z 检验,得到的结论是?A 产地为"USA" 与"non-USA"的手排比例有统计显著的差异B 产地为"USA”与 "non-USA"的手排比例没有统计显著的差异A 样品手排比例与市场手排比例有统计显著的差异B 样品手排比例与市场手排比例没有统计显著的差异提交运行提交目录模式笔记模式来说,R语言的执行顺序是自上而下完成的。但在某些特定的分析任务中,你可能需要重复循环执行某些语句,在这种情况下, 和循环就可以发挥作用了。(注意:本节课后有练习题!)流即条件运算同学如果看

28、不清示例可以示例代码:【流】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正掌握哦!问题反馈练习题20、用 for 循环语句输出从 1 到 4 的值。重新敲一遍代码,多动手练1/17.流(第 1 页/共 1 页)作业回答请输入您的代码1练习题21、利用 for 循环,依次输出"Good Night and”、"Good "、"Good Night and Good Luck"。提示:可以使用 paste 函数进行字符串的拼接。NightandGood回答1# phra

29、se <- "Good Night" 将"Good Night"赋值给 phrase 变量2# paste(phrase, word) 作用是将 word 拼接到 phrase 后3重置代码运行练习题22、利用 while 循环,将变量 day 按照 1、2、30 依次输出回答请输入您的代码1重置代码运行1/1自定义函数与 R包(第 1 页/共 1 页)作业重置代码运行目录模式笔记模式R 语言最大的优点之一就是使用者除了可以使用 R 自带的丰富函数外,还可以根据分析需要自定义函数。你可以将常用的数据操作过程保存下来,再次重复类似操作时直接调用,省去

30、重复命令的时间提高工作效率。同时,R语言给使用者提供了非常多功能强大的包,在 R 官方的包库CRAN以及里,有约 13500 个包。节课程,你将掌握自定义函数的调用 R 的包的同学如果看不清示例可以示例代码:【自定义函数】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正掌握哦!重新敲一遍代码,多动手练注意!包安装命令:install.packages( "packagename" ), 要使用英文双引号。问题反馈包的名字需1/18.1 R 的可视化(ggplot2)(第 1 页/共 1 页)目录模

31、式笔记模式数据可视化主要旨在借助于图形化,清晰有效地传达与数据背后的。在第一周我们已经学习了 Excel 作图和使用 PowerBI 制作数据看板,这一周非常强大的重点学习 R 语言在数据可视化方面的独特功能。在 R 中有一个包叫做 ggplot2,你可以先将 ggplot2包安装到 R 中,便于接下来的学习。安装方式:install.packages("ggplot2")。同学如果看不清示例可以示例代码:【数据可视化】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处习才能真正掌握哦!问题反馈重新敲一遍代码,多动手练使用 Mac 的小伙伴看过来!Mac 系统可视化乱码问题解决方案:#使用一:"GBK" 格式文件:= TRUE, sep = ",",na.strings = "NA",encoding="GBK·.csv(file, header")#二:在可视化部分添加指定字体代码:··使用"ggplot2" 进行可视化:theme(text=element_text(family = "STKaiti")其他:par(family=&

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论