职业技术学院《Spark大数据计算技术》教学大纲_第1页
职业技术学院《Spark大数据计算技术》教学大纲_第2页
职业技术学院《Spark大数据计算技术》教学大纲_第3页
职业技术学院《Spark大数据计算技术》教学大纲_第4页
职业技术学院《Spark大数据计算技术》教学大纲_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Spark大数据计算技术》教学大纲课程名称:Spark大数据计算技术课程类别:必修适用专业:大数据技术类相关专业总学时:56学时(其中理论40学时,实验16学时)总学分:3.5学分课程的性质近年来,大数据、云计算、人工智能等数字技术与各行业加速融合,数字经济快速发展,数字经济深化发展的核心引擎是数据要素。企业急需具有数据分析技术能力的人才,以便在数字经济浪潮中保持竞争优势。然而,数据源多变、数据量巨大、处理速度缓慢和计算能力不足等问题,使得企业难以用传统的数据分析方法有效分析和利用海量数据。Spark作为一种快速、通用的大数据分析框架,具有兼容多种数据源、支持内存计算、支持分布式计算和可扩展性等优点,得到了广泛的认可和应用。为了推动我国大数据,云计算,人工智能行业的发展,满足日益增长的数据分析人才需求,特开设Spark大数据分析实务课程。课程的任务通过本课程的学习,使学生学会使用Spark进行数据读取、数据处理、分析与建模,并详细拆解学习广告流量检测违规识别企业案例,将理论与实践相结合,为将来从事数据分析挖掘研究、工作奠定基础。课程学时分配序号教学内容理论学时实验学时其它1项目1广告流量检测违规识别需求分析22项目2Spark大数据环境安装搭建243项目3基于Hive实现广告流量检测数据存储444项目4基于SparkSQL实现广告流量检测数据探索分析445项目5基于SparkSQL实现广告流量检测数据预处理666项目6基于SparkMLlib实现广告流量检测违规识别模型构建与评估667项目7基于Spark开发环境实现广告流量检测违规识别668项目8基于TipDM大数据挖掘建模平台实现广告流量检测违规识别22总计3232教学内容及学时安排理论教学序号章节名称主要内容教学目标学时1广告流量检测违规识别需求分析大数据的概念大数据的特征大数据分析的概念大数据分析的流程大数据分析的工具了解正常的广告投放流程了解广告流量违规现状了解广告流量常见违规方式了解识别虚假流量的常见维度广告流量检测违规识别流程分析了解大数据的概念和特征。了解常见的广告流量违规方式。了解广告流量检测违规识别项目的流程分析。能够根据项目目标进行流程分析。能够根据业务需求设计项目总体流程。22Spark大数据环境安装搭建Hadoop的发展历程Hadoop的特点Hadoop生态系统Hadoop的应用场景Hive简介Hive的特点Hive的应用场景Hive与关系数据库的区别Spark简介Spark的发展历程Spark的特点Spark生态系统Spark的应用场景安装搭建Hadoop集群安装搭建Hive安装搭建Spark集群了解Hadoop框架的历程、特点、生态系统、应用场景。了解Hive的特点、应用场景以及Hive与关系数据库的区别。了解Spark的发展历程、特点、生态系统、应用场景。熟悉Hadoop框架和Spark的架构组成。能够理解Hadoop、Hive、Spark组件的作用。能够完成Hadoop集群、Hive和Spark集群的搭建与配置。23基于Hive实现广告流量检测数据存储了解Hive中的数据类型创建数据库语法格式删除数据库语法格式更改数据库语法格式使用数据库语法格式创建内部表创建外部表创建分区表创建桶表修改表将文件系统中的数据导入Hive表通过查询语句向表中插入数据将Hive表中的数据导出至本地文件系统将Hive表中的数据导出至HDFS创建数据表导入数据至Hive表了解Hive中的数据类型。掌握创建和管理数据库的操作方法。掌握创建和修改表的操作方法。掌握Hive数据导入与导出的操作方法。能够认识Hive中的数据类型。能够完成数据库的创建与管理。能够根据要求创建表并导入相应的数据。44基于SparkSQL实现广告流量检测数据探索分析SparkSQL简介配置SparkSQLCLISparkSQL与Shell交互通过结构化数据文件创建DataFrame通过外部数据库创建DataFrame通过RDD创建DataFrame通过Hive表创建DataFrameprintSchema():输出数据模式show():查看数据first(head(take(takeAsList():获取若干行记录条件查询查询指定字段的数据信息查询指定行数的数据排序查询分组查询读取数据创建DataFrame对象简单查询DataFrame数据探索分析日流量特征探索分析IP地址的访问次数特征探索分析虚假流量数据特征了解SparkSQL框架的功能及运行过程。了解SparkSQL与Shell交互。掌握SparkSQL的可编程数据模型DataFrame的创建、查询等操作方法。能够配置SparkSQLCLI,提供SparkSQL与Shell交互环境。能够通过不同数据源创建DataFrame。能够实现DataFrame数据及行列表的查询操作。45基于SparkSQL实现广告流量检测数据预处理新增数据列删除数据列创建与使用用户自定义函数5种join()方法根据特定字段进行表联合操作指定类型进行表联合操作使用Column类型进行表联合操作保存为文件保存为持久化的表使用drop语句删除数据自定义函数构建关键特征保存DataFrame数据至Hive表中掌握DataFrame行列表的增、删操作方法。掌握用户自定义函数的创建与使用方法。掌握多种DataFrame表联合操作的方法。掌握DataFrame保存数据的多种方式。能够处理DataFrame中的缺失值。能够实现DataFrame表联合操作。能够创建和使用用户自定义函数。能够按照不同需求采用不同方式保存DataFrame数据。66基于SparkMLlib实现广告流量检测违规识别模型构建与评估了解机器学习算法SparkMLlib简介数据类型基本统计管道特征提取特征处理回归分类聚类关联规则智能推荐掌握SparkMLlib的评估器与模型评估使用spark.ml.classification模块构建分类模型使用评估器实现模型评估了解SparkMLlib算法库。熟悉SparkMLlib中的算法与算法包。掌握SparkMLlib的评估器与模型评估的使用方法。能够掌握SparkMLlib特征提取的方法。能够使用SparkMLlib回归与分类相关算法包构建模型。能够使用SparkMLlib评估器对模型进行评估。67基于Spark开发环境实现广告流量检测违规识别安装JDK8设置环境变量下载与安装IntelliJIDEAScala插件安装与使用在IntelliJIDEA中配置Spark运行环境运行Spark程序开发环境下实现流量数据违规识别模型应用掌握JDK8安装和环境配置。掌握IntelliJIDEA中创建Scala工程。掌握Spark运行环境配置。能够在本地环境下配置JDK环境,实现Java环境搭建。能够在IntelliJIDEA中配置相关插件和开发依赖包,实现Scala工程创建。能够在IntelliJIDEA中配置Spark运行环境,实现Spark程序运行。68基于TipDM大数据挖掘建模平台实现广告流量检测违规识别共享库数据连接数据集我的工程个人组件快速构建广告流量检测违规识别工程了解TipDM大数据挖掘建模平台的相关概念和特点。能够使用TipDM大数据挖掘建模平台完成广告流量检测违规识别项目总体流程的设配置。能够使用TipDM大数据挖掘建模平台完成项目流程的实现。2学时合计32实验教学序号实验项目名称实验要求学时1Spark大数据环境安装搭建创建Linux虚拟机设置固定IP地址远程连接虚拟机配置本地yum源及安装常用软件在Linux系统下安装Java修改配置文件克隆虚拟机配置SSH免密登录配置时间同步服务添加地址映射启动关闭集群安装MySQL下载和安装Hive修改Hive配置文件设置环境变量初始化元数据库与启动Hive解压并配置Spark集群启动Spark集群查看Spark监控服务42基于Hive实现广告流量检测数据存储创建数据库语法格式删除数据库语法格式更改数据库语法格式使用数据库语法格式创建内部表创建外部表创建分区表创建桶表修改表将文件系统中的数据导入Hive表通过查询语句向表中插入数据将Hive表中的数据导出至本地文件系统将Hive表中的数据导出至HDFS创建数据表导入数据至Hive表43基于SparkSQL实现广告流量检测数据探索分析配置SparkSQLCLISparkSQL与Shell交互通过结构化数据文件创建DataFrame通过外部数据库创建DataFrame通过RDD创建DataFrame通过Hive表创建DataFrame查看DataFrame数据printSchema():输出数据模式show():查看数据first(head(take(takeAsList():获取若干行记录条件查询查询指定字段的数据信息查询指定行数的数据排序查询分组查询读取数据创建DataFrame对象查询数据记录数查询数据缺失值探索分析日流量特征探索分析IP地址的访问次数特征探索分析虚假流量数据特征44基于SparkSQL实现广告流量检测数据预处理新增数据列删除数据列创建与使用用户自定义函数根据特定字段进行表联合操作指定类型进行表联合操作使用Column类型进行表联合操作保存为文件保存为持久化的表使用drop语句删除数据划分时间区间构建关键特征并保存至Hive表中保存DataFrame数据至Hive表中65基于SparkMLlib实现广告流量检测违规识别模型构建与评估基本统计管道特征提取特征处理回归分类聚类关联规则智能推荐数据归一化构建建模样本使用逻辑回归算法实现广告流量检测违规识别使用随机森林算法实现广告流量检测违规识别使用评估器实现模型评估66基于Spark开发环境实现广告流量检测违规识别安装JDK8设置环境变量下载与安装IntelliJIDEAScala插件安装与使用在IntelliJIDEA中配置Spark运行环境运行Spark程序集群连接参数设置封装代码运行Spark程序67基于TipDM大数据挖掘建模平台实现广告流量检测违规识别数据源配置数据处理模型构建与评估2学时合计32考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、分组聚合、数据合并、数据清洗、数据变换、模型构建等部分,题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论