版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R语言大数据分析教与学(课程教学大纲)01课程基本信息02课程内容概述与教学目的简介(一)内容概述大数据分析包括查询型分析、描述性分析、探索性分析、挖掘型分析等。本书介绍基于R途径的大数据分析解决方案。第一篇R语言,介绍以交互方式和脚本方式使用R的方法,R的基本数据类型以及向量、矩阵、数据框、列表等类,还包括面向向量的程序设计方法。第二篇可视化,介绍R基本的绘图API,并重点解释如何应用ggplot2包绘制更为复杂的图形来展示大数据。从第三篇开始介绍三种类型的分析:查询型分析、统计分析和挖掘型分析。第三篇查询型分析讲述如何应用data.table查询“大表”。表是关系数据库中的概念,data.table在R中实现了这个概念,使得用户能够像增删查改数据库表一样操作R中的表。第四篇统计分析,主要介绍描述性统计和探索性分析。第五篇挖掘型分析介绍如何在R中实现分类、聚类、关联规则、序列模式等数据挖掘任务,并重点介绍如何检测离群值,另外还介绍了在文本挖掘中的应用。本课程不仅能够使学生掌握R语言基本技术和程序设计方法,而且能够使学生体验数据可视化以及大数据分析基本技术等。(二)教学目的通过本课程的学习,引导学生认识专注、敬业、责任、担当的职业道德,理解工匠精神;能够以社会主义核心价值观指导职业行为。使学生掌握R语言“面向向量”的程序设计范式、掌握R语言向量、矩阵、数据框、列表、数据表等基本数据对象的用法,能够针对不同的数据分析问题设计R的数据可视化方案,能够应用R语言完成大数据查询,能够实现描述性统计,通过实现探索性分析和挖掘型分析。03授课教师(教学团队)基本情况(序号1为课程负责人)04教材及参考书目05课程教案大纲第1篇R语言第1章R概览【目的要求】能够安装和更新R软件,能够安装和加载R包,能够设计工作文件夹,能够列出工作空间中的数据对象,能够保存工作空间。能够解释R包提供的常见数据集。【课时安排】2【讲授内容与方式】下载和安装R;安装和加载R程序包;R的基本使用;工作文件夹与工作空间;数据集。【其他】无第2章表达式【目的要求】能够解释R字面量、运算符和表达式,能够区分POSIXct、POSIXlt和Date类型日期,能够在不同尺度上计算日期类型的数据。【课时安排】2【讲授内容与方式】字面量;运算符和表达式;日期时间;保留字;空白符;程序设计风格。【其他】无第3章字符串与正规表达式【目的要求】能够使用基本的字符串操作函数对字符串查询和编辑,能够应用正规表达式实现查找和替换。【课时安排】2【讲授内容与方式】字符串处理,正规表达式。【其他】重点:字符串处理;难点:正规表达式第4章函数【目的要求】能够定义和调用函数,能够解释环境,能够应用分支、循环控制结构。【课时安排】2【讲授内容与方式】函数声明和调用;环境;控制结构【其他】重点:函数;难点:环境第5章向量【目的要求】能够通过枚举、数列和描述等方法创建向量,能够解释以向量为操作数的各类运算,能够设计条件查询和聚合查询完成特定需求,能够完成对向量集合运算,能够应用面向向量的程序设计范式设计R脚本。【课时安排】2【讲授内容与方式】创建向量;访问向量;算术运算;逻辑运算和关系运算;查询;面向集合的查询;面向向量的程序设计,能够定义和使用无序因子类型和有序因子类型。【其他】重点:创建和访问向量;难点:面向向量的程序设计范式第6章矩阵【目的要求】能够基于向量创建矩阵,能够通过行列的索引或者名字访问矩阵元素,能够完成对矩阵的加、减、数乘、转置等基本运算。【课时安排】2【讲授内容与方式】创建矩阵;访问矩阵;矩阵运算。【其他】第7章
数据框【目的要求】能够创建数据框,能够通过行列索引号或者名字访问数据框,能够解释tibble对象。【课时安排】2【讲授内容与方式】创建数据框;访问数据框;tibble数据对象。【其他】第8章
列表【目的要求】能够基于不同类型的分量创建列表,能够访问列表中的分量,能够遍历列表。【课时安排】2【讲授内容与方式】创建列表;访问列表;泛函数。【其他】第9章
面向对象程序设计【目的要求】能够定义类,能够解释保留字self和super的用法,能够解释继承现象,能够区分不同的私有、公共等不同的可访问性,能够区分静态成员和非静态成员。能够解释面向对象风格的R脚本程序构成与运行时刻行为。【课时安排】2【讲授内容与方式】类的定义;静态属性;面向对象的R脚本设计。【其他】第10章
数据存储【目的要求】能够通过文本文件、CSV文件、EXCEL文件导入数据,能够从R数据对象导出数据到各类文件,能够从ODBC数据源导入数据,能够直接保存R数据对象,能够通过formatC格式化输出;能够使用虚拟内存;能够在脚本中操作文件和文件夹。【课时安排】2【讲授内容与方式】导入导出;函数read.table和write.table;函数read.csv和write.csv;
函数readLines和writeLines;读取Excel工作表;ODBC数据源;持久化R数据对象;
格式化输出;虚拟内存;操作文件和文件夹。【其他】第11章
统计绘图【目的要求】能够列举不同的绘图设备;能够解释图的布局;能够解释基本绘图函数的功能,能够使用常用绘图函数绘制散点图、核密度图、箱线图、柱状图、条形图、饼图、直方图、折线图。能够识别不同类型的图适合的场景。【课时安排】2【讲授内容与方式】绘图设备;布局;绘图函数;常用绘图参数;散点图;核密度图;箱线图;柱状图与条形图;饼图;直方图;折线图。【其他】重点:图的布局;难点:图的应用场景第12章
图形文法ggplot2【目的要求】能够应用ggplot2绘制各类图形,能够设置统计变换,能够变换尺度,能够调整位置,能够应用切面,能够应用主题,能够针对离散数据和连续数据手工设置色彩,能够应用调色板设置色彩。【课时安排】2【讲授内容与方式】散点图、直方图、箱线图、柱状图、折线图的绘制;标注图形;统计变换;位置调整;尺度变换;切面;主题;色彩与构成;颜色与颜色的属性;色彩搭配;调色板;案例研究。【其他】重点:应用ggplot2绘制各类图形。难点:统计变换,尺度变换。第13章
数据分析【目的要求】能够解释对数据质量的度量,能够通过处理缺失值、重复值、有效性等技术对数据清洗变换,能够可视化不同类型数据的分布;能够解释查询型大数据分析、探索型大数据分析、挖掘型大数据分析的关键特征。【课时安排】2【讲授内容与方式】数据质量的度量;数据清洗变换,缺失值,重复,有效性,统计量;可视化分布;查询型大数据分析;探索型大数据分析;挖掘型大数据分析。【其他】第14章
查询型分析与数据表【目的要求】能够创建数据表;能够引用数据表;能够在数据表上完成各类查询;按行号查询、条件查询、分组汇总等。能够设置、应用键和索引,能够应用只读变量查询,能够按行或者按列连接数据表;能够完成基于数据表的集合运算;能够更新数据表中的元素;能够实现行列变换。【课时安排】2【讲授内容与方式】创建数据表;数据表引用;查询数据表;按行号查询;条件查询;查询结果的类型;分组汇总;键和索引;应用只读变量查询;去重;上卷;连接;集合运算;更新;行列变换。【其他】第15章
描述性统计与探索性分析【目的要求】能够报告描述性统计的过程和结果,能够报告探索性分析的过程与结果。【课时安排】2【讲授内容与方式】总体与样本;概率分布;联合分布;可视化分布;样本平均数的分布;描述性统计;集中趋势;变异性;探索性数据分析;Pearson相关;斯皮尔曼等级相关;Kendall相关;z分数;假设检验;卡方检验;抽样。【其他】第16章
挖掘型分析【目的要求】能够识别不同类型的数据挖掘任务,能够应用基本的算法解决挖掘任务,能够遍历列表。能够解释查准率、查全率、正确率、ROC曲线。能够区分标准化和归一化。【课时安排】2【讲授内容与方式】数据挖掘任务;决策树分类;朴素贝叶斯分类;K最近邻分类;一元线性回归;Logistic回归;分类算法的性能评估;查准率和查全率;ROC曲线;K均值聚类;标准化和归一化;EM聚类;Apriori关联规则;序列模式挖掘。【其他】第17章
离群点检测【目的要求】能够解释不同类型的离群点检测方法,能够在不同的场景下应用离群的检测算法。【课时安排】2【讲授内容与方式】基于统计的检测;基于近邻的方法;基于划分的算法;隔离森林算法;
扩展的隔离森林算法;基于聚类的方法;多变量离群点检测;单变量离群点检测;贡献分析。【其他】重点:隔离森林算法第18章
文本挖掘【目的要求】能够演示影评分类的挖掘过程与结果。【课时安排】2【讲授内容与方式】语篇分析;词嵌入;影评分类案例;基于词汇表的向量化;特征哈希。【其他】参考书籍《R语言大数据分析》ISBN:9787302677017作者:董东,高峰定价:79元内容简介大数据分析包括查询型分析、描述性分析、探索性分析、挖掘型分析等。本书介绍基于R语言的大数据分析解决方案。全书分3篇共18章。第1篇R语言,包括第1~10章,分别为R语言概览、表达式、字符串与正规表达式、函数、向量、矩阵、数据框、列表、面向对象程序设计、数据存储;第2篇可视化,包括第11、12章,分别为统计绘图、图形文法ggplot2;第3篇数据分析,包括第13~18章,分别为数据分析基础、查询型分析与数据表、描述性统计与探索性分析、挖掘型分析、离群点检测、文本挖掘。本书力求通俗易懂、简单实用,示例丰富,可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。目录向上滑动阅览第1篇R语言第1章R语言概览/31.1下载和安装R41.2安装和加载R程序包61.3R的基本使用71.4工作文件夹与工作空间101.5数据集12第2章表达式/182.1字面量182.2运算符和表达式202.3日期时间23第3章字符串与正规表达式/273.1字符串处理273.1.1字符个数273.1.2子串283.1.3拆分293.1.4连接303.1.5查找313.1.6替换313.1.7大小写转换323.1.8格式化323.2正规表达式33第4章函数/374.1函数声明和调用374.2环境404.2.1环境的嵌套404.2.2访问环境424.2.3与函数相关的环境444.3控制结构46第5章向量/515.1创建向量515.1.1枚举法515.1.2描述法525.1.3数列法535.1.4向量元素的命名545.1.5类型判断与类型转换545.2访问向量555.3算术运算575.4逻辑运算和关系运算605.5查询625.5.1条件查询625.5.2聚合查询635.6面向集合的查询665.7面向向量的程序设计675.8因子69第6章矩阵/726.1创建矩阵726.2访问矩阵756.3矩阵运算77第7章数据框/817.1创建数据框817.2访问数据框827.3tibble对象87第8章列表/908.1创建列表908.2访问列表918.3泛函数93第9章面向对象程序设计/1029.1类的定义1029.2静态属性1049.3面向对象的R脚本设计107第10章数据存储/11310.1导入导出11310.1.1函数read.table和write.table11310.1.2函数read.csv和write.csv11410.1.3函数readLines和writeLines11610.1.4读取Excel工作表11610.1.5ODBC数据源11710.2持久化R数据对象11910.3格式化输出12010.4虚拟内存12110.5操作文件和文件夹125第2篇可视化第11章统计绘图/13111.1绘图设备13111.2布局13311.3绘图函数13511.4常用绘图参数14511.5散点图14811.6核密度图15011.7箱线图15111.8柱形图15211.9饼图15511.10直方图15611.11折线图157第12章图形文法ggplot2/15812.1ggplot2简介15812.2散点图17012.3直方图17512.4箱线图18012.5柱形图18212.6折线图18712.7标注19212.8统计变换19712.9位置调整20012.10尺度变换20212.11切面21212.12主题21612.13色彩与构成21712.13.1颜色与颜色的属性21712.13.2色彩搭配21812.14调色板21812.15案例研究221第3篇数
据
分
析第13章数据分析基础/22913.1数据质量的度量22913.2数据清洗变换23013.2.1缺失值23013.2.2重复23213.2.3有效性23313.2.4统计量23313.3可视化23413.4查询型大数据分析24113.5探索性大数据分析24213.6挖掘型大数据分析245第14章查询型分析与数据表/24714.1数据表24714.2创建和引用数据表24814.2.1创建数据表24814.2.2引用数据表25014.3查询数据表25014.3.1按行号查询25014.3.2条件查询25114.3.3查询结果的类型25214.3.4分组汇总25414.3.5键和索引25614.3.6应用只读变量查询25814.3.7其他26014.4去重26314.5上卷26614.6连接26814.7集合运算27114.8更新27214.9行列变换276第15章描述性统计与探索性分析/27815.1总体与样本27815.2概率分布28015.3联合分布28115.4可视化分布28315.5样本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人财产抵押借款简易协议文本版A版
- 二零二四全新石灰石环保综合利用合同3篇
- 2024版特种设备吊装运输合同3篇
- 个人房产买卖规范协议2024版A版
- 2024年04月中国建设银行北京市分行度社会招考专业人才笔试历年参考题库附带答案详解
- 2025年农业科技推广合同会签纪要3篇
- 2024版轮胎承包合同协议书
- 二零二五年度物流并购保密及市场共享协议2篇
- 专业节电器产品销售协议规范2024版A版
- 2024年03月贵州贵州银行六盘水分行招考笔试历年参考题库附带答案详解
- GB/T 12914-2008纸和纸板抗张强度的测定
- GB/T 1185-2006光学零件表面疵病
- ps6000自动化系统用户操作及问题处理培训
- 家庭教养方式问卷(含评分标准)
- 城市轨道交通安全管理课件(完整版)
- 线缆包覆挤塑模设计和原理
- TSG ZF001-2006 安全阀安全技术监察规程
- 部编版二年级语文下册《蜘蛛开店》
- 锅炉升降平台管理
- 200m3╱h净化水处理站设计方案
- 个体化健康教育记录表格模板1
评论
0/150
提交评论