《数据采集与处理:基于python》教学大纲- 含思政_第1页
《数据采集与处理:基于python》教学大纲- 含思政_第2页
《数据采集与处理:基于python》教学大纲- 含思政_第3页
《数据采集与处理:基于python》教学大纲- 含思政_第4页
《数据采集与处理:基于python》教学大纲- 含思政_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

附件课程思政案例设计申报专业名称:数据采集与处理课程性质:□公共课R专业课课程类别:□理论课□实践课R理论实践一体课授课对象:数据科学与大数据技术专业,信息管理与信息系统专业,数理统计专业一、课程简介数据采集与处理是大数据处理与分析的重要环节,对应课程也是数据科学与大数据技术专业培养的重要环节。本课程主要讲解数据科学与大数据应用中数据采集的各类数据来源、数据格式、数据表示和加工处理及数据存储的原理和技术,并以Python为主要开发语言,通过实战项目例子,带领学生完成从数据采集、数据表示、转换加工及到数据存储的完整开发过程,使学生掌握相关开发方法、工具和技巧。二、思政元素本课程属于理工科类课程,教学中把马克思主义立场观点方法的教育与科学精神的培养结合起来,提高学生正确认识问题、分析问题和解决问题的能力。深化职业理想和职业道德教育,注重强化学生工程伦理教育,培养学生精益求精的大国工匠精神,激发学生科技报国的家国情怀和使命担当。本课程设计主要包含的思政元素:元素1:职业理想和职业道德教育数据是否能够在合理、合规及合法的情况下进行采集、存储和使用,直接关系到大数据和人工智能技术是否能在各行各业有效发挥积极的作用。因此,课程设计不但要注意培养学生远大的职业理想,还要加强学生的职业道德教育。元素2:精益求精的大国工匠精神数据质量直接影响数据分析的准确性和有效性,从而影响基于数据决策的效果。因此,课程设计需要在数据处理环节中强调一丝不苟、严谨认真的态度,以加强培养学生精益求精的大国工匠精神。元素3:科学思维方法数据采集和存储有不同的技术和方案,需要根据数据需求、数据来源类型等进行科学分析、综合权衡确定。因此,课程设计中需要加强培养学生归纳总结、逻辑推理、逆向思维、突破创新等方面的科学思维方法。元素4:科技报国的家国情怀和使命担当通过国内外大数据技术进展的比较,既说明我国在相关产业和学术领域取得的成就,又明确自身不足和差距,以增强学生的民族自豪感和文化自信,同时激发学生科技报国的家国情怀和使命担当。本课程将分别从线下教学、上机和线上课程管理等方面加以设计,将上述思政元素融入到相应环节,努力实现全过程、全方位的育人新方案。1、教学环节的课程思政设计将思政元素穿插在各章节的知识点讲解中,有机融入课程教学,达到“春风化雨、润物无声”的育人效果。本课程的教学内容共分为8章,表1为对教学大纲进行改进后的具体方案。表1各章节中知识目标与思政教育的融合点教学章节知识目标与思政元素的案例设计第一章概述知识目标1.了解数据科学相关概念及数据分析完整过程;2.理解数据采集与处理与其他学科和课程关系;3.理解数据类型、数据存储和大数据相关技术;4.了解Python相关数据科学及数据采集与处理工具等。思政元素设计1.结合我国相关技术发展现状、成就和不足,激发学生爱国主义精神和学习动力。2.引申数据科学中的数据隐私、科学伦理等问题,培养学生树立职业道德和职业伦理意识。第二章Python基础知识目标1.了解Python语言的特点和相关开发环境;2.掌握Python基本语法、控制结构、异常与处理及函数的封装和使用等;3.理解Python常用数据类型和数据结构如列表、元组、字典和集合等的特点,熟练掌握其常用操作方式。思政元素设计通过函数和类的抽象与封装及编程错误常见解决方法,融入马克思辩证唯物主义和科学思考方法;并结合业界编程规范提醒学生要养成良好的编码习惯,逐步树立良好的职业素养。第三章第三章Numpy与Pandas基础知识目标1.了解Numpy和Pandas的常用数据结构、数据类型及其用途;2.掌握Numpy多维数组的创建、存取、运算及数组间的合并拆分等常见操作;3.理解Pandas中Series和Dataframe的特点及与Numpy多维数组的区别,掌握它们的创建、存取、运算等常用操作方法。思政元素设计Numpy和Pandas是数据科学中数据处理环节最常用的模块,通过这些模块与Python自身数据类型如列表和元组的比较,突出Numpy和Pandas在数据存取和处理方面的专业专注、精益求精的独特优点,强调“术业有专攻”的工匠精神。第四章数据可视化知识目标1.了解数据可视化概念、相关分类和应用;2.理解数据可视化在数据预处理和数据分析中的作用及模块功能差异;3.掌握数据可视化模块Matplotlib、Seaborn等的编程接口和使用方法;4.熟练使用Python编程进行不同类型的数据可视化展示和分析。思政元素设计通过古诗“横看成岭侧成峰,远近高低各不同”,启发学生理解不同的数据可视化类型和方法对应的效果存在差异,其视角和维度不同,可视化效果也存在差异;并通过具体的数据实例,课堂进行数据可视化分析展示,观察不同图形类型的展现效果差异,培养学生热爱中国传统文化并树立数据分析的科学探索和认真细致的工匠精神。第五章文件读写与操作知识目标1.了解不同的文件类型如CSV、XML、JSON、HDF等的数据组织格式;2.理解Python对象和数据的序列化与反序列化概念和方法;3.掌握Python中对本地文件的读写相关模块和使用方法;4.熟练编写文件读写相关模块和数据处理的应用程序。思政元素设计1.通过不同数据格式如HDF、JSON、XML、Excel等的介绍,提醒学生在数据交换的标准规范方面,我国虽然在相关行业定义了一些规范,但国际通用标准的话语权还相对缺乏,从而激发学生科技报国的责任感和使命感,培养家国情怀和使命担当。2.通过示例文件读取常见的乱码问题,进行汉字与西文字符的计算机编码比较,引入东西方文化差异,强调汉字表现的丰富性和语言魅力,引导学生自觉传承和弘扬中华优秀传统文化,加强爱国主义情怀培养。第六章统计与概率基础知识目标1.了解离散变量、连续变量类型及对应描述性统计;2.理解不同类型变量的统计分布特征和统计测量;3.掌握基于Python的查看数据特征分布及描述性统计方法;4.熟练掌握数据查看、统计和概率分布的Python编程。思政元素设计数据处理前需要观察数据的总体特征,对于不同类型变量有不同的观察数据特征方法,提醒学生注意比较和总结不同方法的优缺点,并引用《三国演义》中诸葛亮的“观其大略,不求甚解”,将其改为“观大略,求甚解”,强调在数据处理和分析中,需要首先查看数据总体特征、概率分布等以“观大略”,然后还要注重细节“求甚解”以便发现问题和规律,从而既让学生了解中国的传统文化,又培养了科学思维方法和工匠精神。第七章数据清洗与预处理知识目标1.了解数据清洗和预处理的一般方法和原理;2.掌握基于Python的数据清洗和预处理相关模块和方法;3.熟练掌握数据连接合并及聚合统计的Python模块和编程。思政元素设计案例教学:通过含有异常值、空值的实例数据,让学生进行异常值检测和空值填充操作,比较处理前后的统计和分析结果差异,引发学生思考数据处理和数据质量的重要性和影响,培养学生严谨求实、精益求精的大国工匠精神。第八章网络数据采集知识目标1.了解HTML、DOM数据组织形式和网络爬虫相关模块与技术;2.理解网站交互模式和网络爬虫的基本原理与流程;3.掌握常用网络爬取相关模块如Pandas、bs4、urllib、requests、selenium等的编程接口和使用方法;4.熟练编写网络数据爬取和HTML数据解析的Python程序。思政元素设计结合2021年国家颁布的《数据安全法》和《个人信息保护法》,引用古语“君子爱财,取之有道”,提示学生从网络“爬取数据”也要遵守法律和职业道德。通过比较不同网站如百度、京东、谷歌、搜狐的robots.txt,让学生了解网站公开的爬虫声明,提醒数据滥用可能造成的法律后果和社会影响,强化学生的职业操守和职业道德培养。第九章关系数据库连接与访问知识目标1.了解关系数据库的基本概念、原理、知识和常用SQL操作,理解关系数据库ACID特性和关系模型结构;2.了解嵌入式关系数据库SQLite的特点和访问方式,掌握基于Python语言访问SQLite数据库操作方法;3.了解网络关系数据库MySQL的特点和访问方式,掌握基于Python模块pymysql、SQLAlchemy及Pandas访问MySQL数据库操作方法。思政元素设计归纳和演绎是常用的科学方法,通过关系数据库的连接、查询和分组统计的SQL操作,提示学生比较基于Pandas的不同数据对象的连接和聚合统计方法的差异,并进行归纳总结,找出相似点和差异,从而在加深已有知识横向和纵向联系与理解基础上,培养学生科学的思维方法。通过提供的关系数据库和非关系数据库实例练习,提高学生正确认识问题、分析问题和解决问题的能力。第十章大数据存储与访问技术知识目标1.了解大数据相关概念、关键技术、计算模式和NoSQL数据库分类,理解非关系数据库NoSQL的CAP定理和BASE原则;2.了解NoSQL类数据库MongoDB的特点和存储模式,掌握基于Python的MongoDB操作步骤及相关模块和方法。思政元素设计大数据典型数据库MongoDB其中一项特点,是其关键字或属性能够动态修改和增删,通过容纳不同的属性和格式,使其应对互联网大数据的存取极其方便和灵活,并能灵活扩展以适应大规模数据的存取。“有容乃大”是中国的一项传统文化,结合MongoDB的“有容”带来的大数据高效存储特征,弘扬中华传统优秀文化,从而培养爱国主义情怀。第十一章数据集成与ETL技术知识目标1.了解数据集成基本概念、分类、常见方法和相关产品;2.了解ETL相关技术和常用ETL工具,理解常见ETL相关技术和基本操作方法。思政元素设计通过介绍我国各级政府的政务信息资源共享平台建设及国产优秀的相关ETL软件产品,培养学生的民族自豪感和爱国热情。2、上机环节的课程思政设计本课程特别强调实践动手和解决问题的能力,遵循循序渐进、前后联系、横向比较等原则和方法,根据课程进度每两周布置一个具有一定挑战性的上机编程题。题目的选择和数据实例选取更偏重中国情景,同时注重实用性、趣味性和复杂性,而且不提供标准答案,鼓励学生参考课程案例和综合比较已有技术方法独立解决问题,对与众不同的解决方法和创新思维给予高分奖励,对雷同和不符合规范要求的作业进行扣分惩罚,从而激发学生的科学思维方法和创新精神,并培养良好的编程习惯和精益求精的大国工匠精神。典型的上机编程题目设计思路如下:Python基本编程作业:要求对某一类计算实现函数或类封装,并参考编码规范编程实现,强化学生良好的编程习惯和抽象思维能力,从而加强科学思维方法和工匠精神培养。本地文件、网络爬虫、数据库存取作业:采集示例数据中包含中文字符编码、空值和异常值等,获取数据容易出现乱码、数据类型转换等错误问题,提示学生需要考虑中文编码原理和处理技术、代码错误跟踪定位方法等,提高学生正确认识问题、分析问题和解决问题的能力,并通过中国情景和中文文化特点,培养学生的爱国主义情怀。数据可视化作业:提供示例数据,要求使用不同的数据可视化模块和方法,实现不同类型的图形展示。通过比较不同的方法技术和可视化图形类型的特点和差异,加强学生的归纳和演绎的科学思维方法培养。3、线上课程管理的思政设计将教学课件、视频资料、题库、作业和练习等布置到泛雅网络教学平台,并设置学习任务点、练习作业和章节测验督促学生进行自主学习和练习。作业和章节测验都是通过线上发布、线上收集、线上批阅和回复,学生可以及时检查成绩和问题,并能够通过老师的批复意见了解自己问题所在;线上还可以发布一些活动,如抢答、讨论、问卷调研等,促进学生更多的参与课堂活动和课程建设。基于作业规范、实现复杂度和区别度等的奖惩机制,鼓励学生独立解决问题、创新思考不同方案、遵守编码规范和上机要求,并通过学生作业与老师批语的反馈机制,逐步培养学生的严谨认真、精益求精的工匠精神和勇于创新的科学思维方法。三、教案设计(一)教学目标通过讲解网络数据爬取(即网络爬虫)的相关技术和方法,使学生理解网页数据结构和交互访问模式,掌握常用的网络爬虫Python相关模块的编程接口和使用方法,并结合爬虫声明、反爬虫方法及不同数据存储技术,不断提高学生正确认识问题、分析问题和解决问题的综合能力,培养学生精益求精的大国工匠精神,并引导学生自觉实践数据科学伦理和社会主义职业道德。(二)教学内容教学内容:第七章中的网络爬虫技术,课程将分为两个案例进行讲授,即静态网页(如本校官网教务处网站等)和动态网页(如国际城市天气查询网站、京东商城等)的数据获取相关Python模块、技术和编程方法。教学重点:HTML网页的数据组织格式、网页交互模式和解析方法、动态网页技术和相关爬虫技术。教学难点:基于DOM模型解析HTML网页内容,对于动态网页内容如何正确获取内容并解决乱码和返回空值问题,需要培养学生仔细观察、耐心谨慎的科学素养和分析问题、解决问题的能力。(三)思政引入主要思政元素的融入方法如下:通过查看网站的robots.txt文件中的爬虫声明,引用中国古语“君子爱财,取之有道”,提醒学生从网络“爬取数据”也要遵守法律和职业道德,注意数据滥用可能造成的法律后果和社会影响,强化学生的职业操守和职业道德培养,并加强中华优秀传统文化教育。通过网页数据结构查看和解析过程,提醒学生注意中文和英文的不同编码方法和解析问题,说明中华汉字表示的丰富性和计算机处理的复杂性,需要仔细观察网页结构和编码方式,培养学生精益求精、严谨认真的大国工匠精神,并弘扬中华传统文化。通过介绍不同类型网页的解析方法和技术,引导学生进行横向和纵向比较,归纳总结并分析不同技术方法的优缺点和应用场景,培养学生的科学素养和创新思维能力。通过展示并比较国内外不同的网站开发和反爬虫技术,介绍互联网技术在我国的广泛应用和效果,与国外相比的技术应用不足和优势,激发学生科技报国的家国情怀和使命担当。(四)教学手段与方法课程采用线上线下相结合的教学方法,结合具体网站案例讲解静态和动态网页技术、交互模式和数据解析方法,并在爬虫声明、编码解析和问题处理等不同环节与多种“课程思政”元素相融合。线下采用PPT多媒体授课、案例和编程演示及学生同步练习方式,线上采用作业发布、问题测验方式加强学生实践和思考。(五)教学过程与详细设计课堂总体过程:先介绍相关理论知识和方法工具(10~15分钟),然后演示相关方法工具或播放视频资源(10分钟左右),接着学生根据听课与观察老师操作演示自行操作练习(10~15分钟),最后在网络教学平台发布1~2个问题启发学生思考总结(5~10分钟)。在课堂授课过程中,融入思政元素,并启发学生思考、比较和总结。HTML介绍与静态网页爬取(1)讲授内容HTML与DOM结构urllib.request获取网页方法BeautifulSoup解析网页内容其他模块解析网页内容方法和比较,如Pandas读取Table格式(2)案例引入网站爬取声明和职业道德分别查看百度学术和谷歌学术网站根目录下的robots.txt文件,内容如图1所示。介绍我国已在2021年颁布实施《数据安全法》和《个人信息保护法》,并引用中国古语“君子爱财,取之有道”,提醒学生从网络“爬取数据”也要遵守法律和职业道德,注意数据滥用可能造成的法律后果和社会影响。图1.中外网站爬取声明示例示例网站和HTML结构浏览器中打开学校教务处网站(),查看部门职责栏目网页的展示内容及网页源码和编码(或字符集charset),内容如图2所示。介绍中文和英文的不同编码方法和解析问题,而中文又有多种编码和字符集,如UTF-8、GB2312等,如果中文字符集和编码设置不当,则会导致获取内容乱码。因此,提醒学生需要仔细观察网页结构和编码方式,养成精益求精、严谨认真的学习和职业习惯。另外,提醒学生注意示例网页特殊的Table标签结构,除了可以使用urllib.request和BeautifulSouprequests模块基于DOM模型解析之外,还可以使用Pandas的read_html方法更

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论