大数据可视化 教案 6-1用户画像数据清洗_第1页
大数据可视化 教案 6-1用户画像数据清洗_第2页
大数据可视化 教案 6-1用户画像数据清洗_第3页
大数据可视化 教案 6-1用户画像数据清洗_第4页
大数据可视化 教案 6-1用户画像数据清洗_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据可视化》教案(学年第学期)课程名称: 大数据可视化所属专业: 大数据技术所属系部: 计算机与软件技术授课班级:课程总学时: 任课教师PAGEPAGE1序号:1一、教学分析课题名称Pandas数据清洗课程大数据可视化系部计算机与软件技术系任课教师教材《大数据可视化技术》课题类型理论+实践课课时2课时地点实训机房班级内容提要与时间分配:1、学习目标素质目标小组协作搜集、分析、归纳篇Pandas相关技术,初步了解Pandas技术,并收集用户画像相关数据。小组协作实现对用户画像数据的清洗,锻炼学生协作能力、人际关系处理能力以及归纳总结能力。知识目标掌握使用Pandashead()方法掌握使用Pandasinfo()方法掌握使用drop_duplicates()方法掌握使用dropna()方法掌握使用replace()方法掌握使用Pandas中的基本统计函数技能目标使用Pandashead()方法查看前5条使用Pandasinfo()方法查看数据摘要信息使用drop_duplicates()方法实现数据去重使用dropna()方法实现缺失值处理使用replace()方法实现数据替换使用Pandas中的基本统计函数2、教学内容内容布置:内容引入:我们已初步了解Plotly两个绘图模块的绘图步骤与绘图原理,现在对面积图、子图和多坐标轴图进行了解和学习。知识讲解:内容总结:总结本节课程中遇到的问题,并对涉及到的知识点进行梳理。3、本次课程内容特点:4、教学重点与难点重点:Pandas数据清洗难点:用户画像数据分析场景建模。5、学情分析1、学生在学习本课程之前已掌握了Plotly的部分图形绘制实现可视化,对数据清洗和用户画像场景分析建模不了解。6、教学设计基本原则:1、将教学内容与信息资源进行有机整合,利用实训平台创造一个同时具备项目式体验功能、教学实施功能、学习效果评测功能和实时互动交流功能的多功能信息化教学环境。2、充分利用教材、学习通教学平台、多媒体课件和实训室等信息化教学手段,调动学生积极性和主动性,促进学生自主学习和主动学习。7、教学方法、手段:1、案例教学法:本情境教学开始引入可视化案例,引出课程目标及重点和难点。2、过程互动教学法:教学过程中使学生积极回答问题,小组内展开讨论,并组间进行分享。3、“任务驱动”法,下发随堂任务,由学生独立完成,教师当堂进行考核和讲评,解决学生遇到的问题,并就共性问题进行点评。8、内容提要与时间分配环节一:课程总览(5分钟)环节二:Pandashead()方法(10分钟)环节三:Pandasinfo()函数(10分钟)环节四:drop_duplicates()函数(10分钟)环节五:dropna()函数(15分钟)环节六:replce()函数(15分钟)环节七:基本统计函数,如sum()等(15分钟)环节八:课程回顾(10分钟)9、教学材料教材《大数据可视化技术》二、教学组织方式按照“课程回顾→内容介绍→任务实施→任务点评与总结→布置课后作业”实施教学,并根据具体实施成效采用“思学练”多次循环完善课堂教学。利用多媒体教学平台、学习通,丰富课堂教学。任务驱动方式、结合专业教师引导,完善理实一体的教学环境及方法。三、学习资源使用多媒体教学平台完成课前复习、教学资源分发、作业评分。微课教学平台完成在线课自学、教师操作视频演示、及课程思政微课的展示。教学反馈平台完成学情调查、教学实施效果调查,了解学生学情和课堂教学反馈。四、教学实施环节一:课程回顾(思维导图)(5分钟)课程回顾:通过思维导图,对前一章节课程知识点进行回顾。环节二:head()函数显示数据的前5行(10分钟)通过调用head()函数观察数据的前5行,总结数据的特点。学生参考教师示例,输出本项目user.xls数据表的前5行数据,观察数据基本维度。学生实施过程中(根据教材给出的示例代码),遇到问题可随时向教师咨询,任课教师负责整体进度把控,及问题解决。绘制结果如下图所示。环节三:Pandasinfo()函数用于获取DataFrame的简要摘要(10分钟)info()函数用于获取DataFrame的简要摘要,功能:给出样本数据的相关信息概览:行数,列数,列索引,列非空值个数,列类型,内存占用。学生参考教师示例,输出本项目user.xls数据表的摘要信息,观察数据的样本个数、维度、缺失值情况。学生实施过程中(根据教材给出的示例代码),遇到问题可随时向教师咨询,任课教师负责整体进度把控,及问题解决。绘制结果如下图所示。环节四:drop_duplicates()函数数据去重(10分钟)教师指导学生判断数据是否存在重复值,若存在重复值,需要去除重复值。学生参考教师示例,完成本项目数据集的去重,学生实施过程中(根据教材给出的示例代码),遇到问题可随时向教师咨询,任课教师负责整体进度把控,及问题解决。绘制结果如下图所示。去除重复值后,总样本是3460条,数据的摘要信息如下图6-4所示,从此结果图中能够看出,数据的摘要信息和图6-3不相同,图6-3总样本是3463条,里面有四条重复数据,对于重复数据,只保留首次出现的行,其它3行删除。环节五:dropna()函数使用方法(15分钟)因样本有的特征缺失过多,并且本教材内容重点关注的是数据的可视化,所以我们这里直接删除含有缺失特征的样本,不再涉及缺失值填充的相关知识,对缺失数据填充的相关知识大家可以参考其他资料进行学习。教师指导学生判断数据是否存在空值,若存在,需要去除空值。学生参考教师示例,完成本项目数据集的空值删除,学生实施过程中(根据教材给出的示例代码),遇到问题可随时向教师咨询,任课教师负责整体进度把控,及问题解决。绘制结果如下图所示。环节六:replce()函数使用方法(15分钟)数据倒数第二列activity其值只有两种类别:“一周内非常活跃”与“一周内活跃”,此列中“一周内非常活跃”更能表达用户的购买倾向与购买意愿,为了便于后续的统计分析与可视化呈现,我们这里约定一个转变规则,就是将“一周内非常活跃”转变为数字“1”,一周内活跃”转变为数字“0”。教师指导学生完成特征数字化转换。学生参考教师示例,完成本项目数据集的特征转换,学生实施过程中(根据教材给出的示例代码),遇到问题可随时向教师咨询,任课教师负责整体进度把控,及问题解决。绘制结果如下图所示。环节七:基本统计函数sum()(15分钟)PandasDataFrame.sum()函数用于返回用户所请求轴的值之和。如果输入值是索引轴,则它将在列中添加所有值,并且对所有列都相同。它返回一个序列,其中包含每一列中所有值的总和。其中的常用的重要参数就是axis,若填0表示纵向求和,若填1代表横向求和。教师指导学生完成基本特征activity的求和统计。学生实施过程中(根据教材给出的示例代码),遇到问题可随时向教师咨询,任课教师负责整体进度把控,及问题解决。绘制结果如下图所示。环节八:课堂小结(10分钟)回顾总结pandas中重要的函数,本节主要学习数据预处理的重要函数,如数据去重、缺失值判断、数据特征转换等方法,还要掌握查看数据的摘要信息。通过本节课程的学习,培养学生动手实践的能力和团协作能力。布置作业:基于本项目用户数据表user.xls。通过业务操作实现数据的特征转换。练习时学生可以选取数据集中的任一一个离散特征。五、教学效果与课后反思1.教学效果通过多媒体教学平台,完成课前复习、任务分发、指导书下载、作业评分,方便学生实时学习。微课教学平台,完成在线课自学、教师操作视频演示、及课程思政微课的展示,培养并提高学生自主学习能力。教学反馈平台,完成学情调查、教学实施效果调查,了解学生学情和课堂教学反馈。运用兴趣导向教学方法,将知识点实例化,逐步构建学生创新思维,突出教学重点,解决教学难点,提高学生实训的兴趣。教师践行工匠精神,将职业精神内化于学生心里。通过信息化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论