PySpark大数据技术与应用 教案全套 第1-7章 PySpark数据分析概述-案例分析:基于PySpark的信用贷款风险分析_第1页
PySpark大数据技术与应用 教案全套 第1-7章 PySpark数据分析概述-案例分析:基于PySpark的信用贷款风险分析_第2页
PySpark大数据技术与应用 教案全套 第1-7章 PySpark数据分析概述-案例分析:基于PySpark的信用贷款风险分析_第3页
PySpark大数据技术与应用 教案全套 第1-7章 PySpark数据分析概述-案例分析:基于PySpark的信用贷款风险分析_第4页
PySpark大数据技术与应用 教案全套 第1-7章 PySpark数据分析概述-案例分析:基于PySpark的信用贷款风险分析_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章PySpark大数据分析概述教案课程名称:PySpark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:6学时材料清单《PySpark大数据分析与应用》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标(1)理解大数据的核心概念,掌握大数据分析的基本流程。(2)了解大数据分析在不同应用场景中的实际作用。(3)学习并介绍大数据技术体系的关键组成部分。(4)深入了解Spark大数据技术框架,包括其特点和运行架构。(5)掌握SparkRDD的概念和应用。(6)熟悉Spark生态圈内的各种工具和组件。(7)学习使用PySpark进行大数据分析的方法。基本要求学习并理解大数据的概念和重要性,了解大数据分析的流程和应用场景。学习并掌握Spark大数据技术框架的基本知识和特点,了解Spark的运行架构和流程。了解开源大数据各类框架。学习并熟悉SparkRDD的概念和操作,了解Spark生态圈中的各个组件和工具。学习并学会使用PySpark进行大数据分析,能够应用所学知识解决实际问题。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。什么是大数据?它在当今时代的重要性是什么?大数据分析的流程包括哪些步骤?有哪些常见的应用场景?说说开源大数据技术体系。Spark大数据技术框架有哪些特点?它的运行架构和流程是怎样的?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。如何利用大数据分析来帮助企业做出更好的决策?请举例说明。SparkRDD是什么?它与传统的数据处理方法相比有哪些优势?PySpark在大数据分析中的应用有哪些?请举例说明。拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。除了Spark,还有哪些常用的大数据处理框架?它们之间有什么区别和优劣?大数据技术在人工智能领域中有哪些应用?请举例说明。什么是Spark生态圈?企业如何运用Spark构建大数据架构?主要知识点、重点与难点主要知识点大数据的概念。大数据分析的概念。大数据分析的流程。大数据分析应用场景。大数据技术体系。Spark技术框架简介、特点、架构及运行流程。RDD产生背景、概念与特点、基本操作PySpark简介及各功能子模块。重点大数据分析的概念、流程与应用场景。Spark技术框架简介、特点、架构及运行流程。RDD概念与特点、基本操作。PySpark简介及各功能子模块。难点(1)Spark技术框架简介、特点、架构及运行流程。(2)RDD概念与特点、基本操作。(3)PySpark简介及各功能子模块。教学过程设计理论教学过程大数据概念。大数据分析概念。大数据分析流程。大数据分析应用场景。大数据分析技术体系。Spark简介。Spark特点。Spark运行架构与流程。SparkRDD。Spark生态圈。PySpark简介。PySpark子模块。实验教学过程关于本章的RDD操作,请在学完第二章后自行完成。教材与参考资料教材戴刚,张良均.《PySpark大数据分析与应用》[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 曾文权,张良均.Python数据分析与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[4] 张良均,谭立云.Python数据分析与挖掘实战(第2版)[M].北京:机械工业出版社.2019.第2章PySpark安装配置教案课程名称:PySpark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:8学时材料清单《PySpark大数据分析与应用》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标根据目前数据分析发展状况,将数据分析具象化。而后介绍数据分析的概念,流程,目的以及应用场景。阐述使用Python进行数据分析的优势。列举说明Python数据分析重要库的功能。紧接着阐述Anaconda简介,实现在Windows和Linux两个系统下Anaconda数据分析环境。最后展现Python数据分析工具JupyterNotebook的优异特性及使用方法。为后学课程学习搭建数据分析环境,首先介绍在windows系统中搭建单机模式的数据分析环境,能够运行PySpark程序代码;然后,介绍在Linux系统中搭建分布式模式的数据分析环境,了解Spark分布式模式的运行机理,进一步体会PySpark大数据处理能力。最后介绍Python中重要的数据结构(元组、列表、字典)和函数式编程。基本要求掌握单机模式和分布式模式下PySpark开发环境的搭建过程。熟悉Linux操作系统虚拟机的安装过程。掌握单机模式和分布式模式下Hadoop集群配置。掌握分布式模式下Spark集群配置。掌握Python重要的数据结构及函数编程。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。搭建单机模式的PySpark开发环境需要哪些组件。单机模式的PySpark开发环境有哪些优缺点。搭建分布式模式的PySpark开发环境需要哪些组件。分布式模式的PySpark开发环境有哪些优缺点。单机模式和分布式模式PySpark开发环境的应用场景。探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。单机模式中,安装Hadoop组件的作用?大数据分析中数据库与Hive的区别是什么?分布式模式中,计算机节点为什么要建立互信机制?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。分布式模式下,使用HDFS文件系统存储大文件的优势。Spark与Hadoop进行数据分析有哪些优缺点。使用Python语言进行数据分析的优势。主要知识点、重点与难点主要知识点掌握单机模式和分布式模式下PySpark开发环境的搭建过程。安装Linux操作系统虚拟机。开发环境中的各组件的安装与配置。掌握Python重要的数据结构及函数编程。重点搭建单机模式的PySpark开发环境。搭建分布式模式的PySpark开发环境。难点搭建分布式模式的PySpark开发环境。教学过程设计理论教学过程在Windows系统中安装JDK。在Windows系统中安装Anaconda。在Windows系统中安装Hadoop。在Windows系统中安装MySQL。在Windows系统中安装Hive。在Windows系统中配置PySpark模块。在Windows系统中安装Linux虚拟机。在Linux系统中安装Java。在Linux系统中搭建Hadoop分布式集群。在Linux系统中安装MySQL数据库。在Linux系统中安装Hive数据仓库。在Linux系统中搭建Spark完全分布式集群。Python中的常用数据结构。Python函数式编程基础。实验教学过程在Windows系统中安装JDK。在Windows系统中安装Anaconda。在Windows系统中安装Hadoop。在Windows系统中安装MySQL。在Windows系统中安装Hive。在Windows系统中配置PySpark模块。在Windows系统中安装Linux虚拟机。在Linux系统中安装Java。在Linux系统中搭建Hadoop分布式集群。在Linux系统中安装MySQL数据库。在Linux系统中安装Hive数据仓库。在Linux系统中搭建Spark完全分布式集群。教材与参考资料教材戴刚,张良均.《PySpark大数据分析与应用》[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 曾文权,张良均.Python数据分析与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[4] 张良均,谭立云.Python数据分析与挖掘实战(第2版)[M].北京:机械工业出版社.2019.第3章基于PySpark的DataFrame操作教案课程名称:PySpark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:10学时材料清单《PySpark大数据分析与应用》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标(1)了解SparkSQL的发展历程和主要功能。(2)了解DataFrame概念。(3)了解pyspark.sql模块及其核心类。(4)掌握基于PySparkSQL的DataFrame的创建方法。(5)掌握基于PySparkSQL的DataFrame的基础操作。2.基本要求学习并理解SparkSQL的基本概念和功能。掌握DataFrame的创建、查询和操作方法。学会使用pyspark.sql模块进行数据分析和预处理。能够通过实例应用所学知识解决实际问题。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。SparkSQL是如何集成关系数据库和数据仓库的查询分析功能的?DataFrame在SparkSQL中扮演什么样的角色?它有哪些优势?PySpark中的pyspark.sql模块可以完成哪些任务?它的核心类有哪些?SparkSQL编程从创建什么对象开始?并说明如何创建该对象。探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。SparkSQL与传统的关系型数据库相比有哪些优势和不足?在什么情况下应该选择使用DataFrame而不是RDD?为什么?如何利用PySparkSQL进行数据预处理?请举例说明。拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。除了SparkSQL,还有哪些其他工具或框架可以用于处理结构化数据?它们与SparkSQL有何异同?在SparkSQL中,如何实现对数据进行复杂的转换和清洗操作?请举例说明。在实施大数据分析项目时,如何确定数据的存储格式和处理框架?有哪些因素需要考虑?主要知识点、重点与难点主要知识点SparkSQL的起源与发展历程。SparkSQL主要功能。SparkSQL的数据抽象DataFrame。pyspark.sql模块及其核心类。SparkSQL编程步骤。pyspark.sql创建SparkSession对象。pyspark.sqlDataFrame的创建方法。pyspark.sqlDataFrame基本操作的各类API。重点pyspark.sql创建SparkSession对象。pyspark.sqlDataFrame的创建方法。pyspark.sqlDataFrame基本操作的各类API。难点(1)pyspark.sqlDataFrame的创建方法。(2)pyspark.sqlDataFrame基本操作的各类API。教学过程设计理论教学过程SparkSQL的起源与发展历程。SparkSQL主要功能。SparkSQL数据核心抽象DataFrame。pyspark.sql模块简介。pyspark.sql模块核心类。创建DataFrame对象。DataFrame基础操作(数据查看、数据处理、排序统计、合并、列操作等)。DataFrame输出操作。实验教学过程网站搜索热词统计分析。大数据岗位招聘信息统计分析教材与参考资料教材戴刚,张良均.《PySpark大数据分析与应用》[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 曾文权,张良均.Python数据分析与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[4] 张良均,谭立云.Python数据分析与挖掘实战(第2版)[M].北京:机械工业出版社.2019.第4章基于PySpark的流式数据处理教案课程名称:PySpark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:12学时材料清单《PySpark大数据分析与应用》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标(1)了解SparkStreaming的基本概念、工作原理和运行机制。(2)了解pyspark.streaming模块主要类及核心类。(3)掌握基于PySpark的DStream创建、转换、窗口和输出操作。(4)了解StructuredStreaming基本概念及编程模型。(5)掌握StructuredStreaming基础操作。(6)熟悉StructuredStreaming编程步骤。2.基本要求学习并理解SparkStreaming的基本概念、工作原理和运行机制。掌握pyspark.streaming模块的主要类及核心类,能熟练进行DStream的创建、转换、窗口和输出操作。学习并理解StructuredStreaming的基本概念及编程模型,掌握其基础操作和编程步骤。能够通过实例分析,提高对SparkStreaming和StructuredStreaming的实际应用能力。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。SparkStreaming的基本概念是什么?它的工作原理和运行机制是怎样的?pyspark.streaming模块的主要类有哪些?它们的核心功能是什么?如何进行DStream的创建、转换、窗口和输出操作?StructuredStreaming的基本概念是什么?它的编程模型是怎样的?StructuredStreaming的基础操作有哪些?它的编程步骤是怎样的?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。SparkStreaming与传统的批处理相比有哪些优势和不足?在什么情况下应该选择使用DStream而不是DataFrame或Dataset?为什么?StructuredStreaming与SparkStreaming相比有哪些优势?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。除了SparkStreaming和StructuredStreaming,还有哪些其他框架可以用于处理流式数据?它们与SparkStreaming有何异同?SparkStreaming可以从哪些类型的数据源中读取数据?请列举几个常见的数据来源,并简单描述它们的特点。讨论在什么样的业务场景下更适合使用SparkStreaming,而在什么情况下更倾向于选择StructuredStreaming。举例说明两者各自的优势和适用性。主要知识点、重点与难点主要知识点流数据概念、流计算概念、主流的开源流式计算框架对比。SparkStreaming基本概念。SparkStreaming工作原理。SparkStreaming运行机制。pyspark.streaming模块核心类StreamingContext。pyspark.streaming模块核心类DStream。DStream基本输入源。DStream转换操作(滑动窗口操作、有状态转化操作)。DStream输出操作。StructuredStreaming编程模型。StructuredStreaming输入操作。StructuredStreaming转换操作。StructuredStreaming输出操作。StructuredStreaming窗口聚合操作。重点SparkStreaming工作原理。pyspark.streaming模块核心类StreamingContext。pyspark.streaming模块核心类DStream。DStream基本输入源。DStream转换操作(滑动窗口操作、有状态转化操作)。StructuredStreaming编程模型。难点(1)DStream转换操作(滑动窗口操作、有状态转化操作)。(2)StructuredStreaming输入操作。(3)StructuredStreaming转换操作(4)StructuredStreaming输出操作。(5)StructuredStreaming窗口聚合操作。教学过程设计理论教学过程流计算简介。SparkStreaming基本概念。SparkStreaming工作原理。SparkStreaming运行机制。pyspark.streaming模块简介。pyspark.streaming模块核心类。DStream基础操作。StructuredStreaming概述。StructuredStreaming编程模型。StructuredStreaming基础操作。StructuredStreaming编程步骤。实验教学过程使用SparkStreaming实现菜品价格实时计算。使用SparkStreaming实时判别车辆所属地。教材与参考资料教材戴刚,张良均.《PySpark大数据分析与应用》[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 曾文权,张良均.Python数据分析与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[4] 张良均,谭立云.Python数据分析与挖掘实战(第2版)[M].北京:机械工业出版社.2019.第5章基于PySpark的机器学习库教案课程名称:PySpark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:12学时材料清单《PySpark大数据分析与应用》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标机器学习是一门多领域交叉学科,融合人工智能、概率统计、控制论、信息论等多门学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。本课程重点介绍机器学习中的常见算法和理论,并通过编程练习和典型应用实例加深理解;同时了解机器学习的一般理论,包括数据预处理、数据降维、数据标准化、无监督学习理论和强化学习理论。基本要求掌握机器学习的一般原理及相关概念。熟悉PySpark中的转化器对数据的处理和转换。掌握分类模型及使用PySpark构建分类模型。掌握回归模型及使用PySpark构建回归模型。掌握聚类模型及使用PySpark构建聚类模型。掌握智能推荐模型及使用PySpark构建智能推荐模型。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。计算机通过什么方法进行学习,获取人类的知识或经验。计算机进行机器学习时对数据有什么要求,数据是否需要提前处理。机器学习的度量标准有哪些?机器学习中的有监督学习、无监督学习。探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。机器学习中的容量、欠拟合和过拟合。机器学习前数据的预处理。机器学习不同算法的应用场景。机器学习不同模型的性能度量标准。机器学习中的超参数与验证集。拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。数据降维的方法。模型的正则化。为什么传统机器学习算法处理高维数据时,在新样本上泛化能力不强?传统机器学习中实现泛化的机制不适合学习高维空间中的复杂函数?神经网络、深度学习的优势。主要知识点、重点与难点主要知识点了解机器学习的一般理论。掌握PySpark中的转化器机制。掌握数据标准化的方法。使用PySpark构建分类、回归、聚类和智能推荐模型。重点使用PySpark构建分类模型。使用PySpark构建回归模型。使用PySpark构建聚类模型。使用PySpark构建智能推荐模型。难点使用PySpark构建智能推荐模型。教学过程设计理论教学过程介绍机器学习基本概念。介绍pyspark.ml模块。介绍pyspark.ml模块中的转化器。数据加载及数据集划分。数据降维。数据标准化。使用PySpark构建并评估分类模型。使用PySpark构建并评估回归模型。使用PySpark构建并评估聚类模型。使用PySpark构建并评估智能推荐模型。实验教学过程数据加载及数据集划分数据降维。数据标准化使用PySpark构建并评估分类模型。使用PySpark构建并评估回归模型。使用PySpark构建并评估聚类模型。使用PySpark构建并评估智能推荐模型教材与参考资料教材戴刚,张良均.《PySpark大数据分析与应用》[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 曾文权,张良均.Python数据分析与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[4] 张良均,谭立云.Python数据分析与挖掘实战(第2版)[M].北京:机械工业出版社.2019.6章案例分析:基于PySpark的网络招聘信息的职业类型划分教案课程名称:PySpark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:8学时材料清单《PySpark大数据分析与应用》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标本章基于Spark的PythonAPI,以非结构化的网络招聘信息为基础,从业务需求与系统架构分析开始介绍,然后介绍数据探索(包括数据说明、数据读取、重复数据与空值探索、异常数据探索),接着介绍数据预处理(包括处理空值、重复数据与异常值,分词与停用词过滤,词特征向量化),再介绍模型构建与评估,最终介绍制作词云图,可视化展示划分的结果,分析每种职业类型的岗位描述和能力要求,从而为求职者提供针对性的就业指导。基本要求了解网络招聘信息文本挖掘的步骤与流程。掌握数据探索、预处理的基本方法。熟悉TF-IDF的基本原理及其在SparkMLlib库中的实现过程。了解LDA聚类算法,并掌握SparkMLlib库的LDA聚类算法的使用方法。掌握LDA聚类模型的构建与部署方法。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。数据探索能够做什么?文本数据预处理的基本方法有哪些?TF-IDF算法的基本原理是什么,适用于哪些场景?LDA模型的原理是什么,其应用场景包括哪些?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。网络招聘信息文本挖掘的步骤与完整流程是怎样的?Spark数据分析的能够应用在那些场景?SparkMLlib库在大数据分析中有哪些应用场景,有哪些优缺点?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。Spark数据分析是不是万能的?Spark语言用于做数据分析有哪些优势?主要知识点、重点与难点主要知识点网络招聘信息文本挖掘的基本步骤与流程。数据探索的基本方法。数据预处理的基本方法。TF-IDF的基本原理。LDA聚类算法的基本原理。 重点网络招聘信息文本挖掘的基本步骤与流程。TF-IDF算法在SparkMLlib库中的实现过程。SparkMLlib库的LDA聚类算法的使用方法。难点网络招聘信息文本挖掘的步骤与流程。LDA聚类模型的构建与部署方法。教学过程设计理论教学过程网络招聘信息文本挖掘的步骤与流程。数据探索的基本方法。数据预处理的基本方法。中文分词与去停用词的基本方法。TF-IDF的基本原理。LDA聚类算法的基本原理。使用WordCloud绘制词云图的方法。实验教学过程网络招聘信息的数据探索。网络招聘信息的数据清洗,以及中文分词、去停用词等预处理实现。TF-IDF算法在SparkMLlib库中的实现过程。SparkMLlib库的LDA聚类算法的使用方法。教材与参考资料教材戴刚,张良均.《PySpark大数据分析与应用》[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 曾文权,张良均.Python数据分析与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[4] 张良均,谭立云.Python数据分析与挖掘实战(第2版)[M].北京:机械工业出版社.2019.第7章案例分析基于PySpark的信用贷款风险分析教案课程名称:PySpark大数据分析与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:8学时材料清单《PySpark大数据分析与应用》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标本章结合企业真实案例,培养学生运用所学知识解决问题的能力,提高分析、判断和创新能力。同时培养学生的合作精神和沟通能力。在案例教学过程中,引导学生根据所给的案例数据进行分析、推理和判断、找到解决问题的方法的策略,包括数据探索分析、数据预处理、数据特征选择,训练数据与测试数据划分、预测模型选择和训练、模型的验证。通过案例教学,培养学生解决问题的能力;通过编程练习和应用实例加深对机器学习理论的理解,更好地御用所学的知识和技能。基本要求掌握数据探索与数据预处理的操作过程。掌握使用PySpark编程实现分类模型。了解GBTs分类模型。掌握分类模型的评估。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论