《数据采集与处理:基于python》教学大纲(3套)、思政案例设计_第1页
《数据采集与处理:基于python》教学大纲(3套)、思政案例设计_第2页
《数据采集与处理:基于python》教学大纲(3套)、思政案例设计_第3页
《数据采集与处理:基于python》教学大纲(3套)、思政案例设计_第4页
《数据采集与处理:基于python》教学大纲(3套)、思政案例设计_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页课程名称(中文):数据采集与处理:基于Python课程名称(英文):DataAcquisitionandProcessingwithPython授课对象:信息管理与信息系统、数据科学与大数据与技术、数理统计等专业建议学时:48 学分:3先修课程:数据结构、数据库原理、Python语言程序设计与应用课程简介数据采集与处理是大数据处理与分析的重要环节,对应课程也是数据科学与大数据技术专业培养的重要环节。本课程主要讲解数据科学与大数据应用中数据采集的各类数据来源、数据格式、数据表示和加工处理及数据存储的原理和技术,并以Python为主要开发语言,通过实战项目例子,带领学生完成从数据采集、数据表示、转换加工及到数据存储的完整开发过程,使学生掌握相关开发方法、工具和技巧。通过本课程的学习使学生熟悉数据采集和处理的相关原理、技术和工具,能够独立进行基于Python语言开发数据采集、加工转换和存储的完整应用程序,从而为数据科学和数据分析提供基本的数据基础,完整掌握数据科学和数据分析的全部开发过程中的相关技术和方法。教学目标与教学内容本课程主要学习数据获取、数据表示、转换加工和数据存储的相关原理、技术和工具,开发语言以Python为主,使学生了解基于Python语言进行完整的数据获取和数据处理的相关开发过程和并掌握相关知识和技术。具体包括:数据获取技术,数据转换加工,数据集成ETL技术,数据存储,数据可视化,统计与概率,Python数据科学工具等。本课程各章教学内容、知识目标如下所示:表1.各章教学内容教学章节知识目标与教学内容第一章概述知识目标1、了解数据科学相关概念及数据分析完整过程;2、理解数据采集与处理与其他学科和课程关系;3、理解数据类型、数据存储和大数据相关技术;4、了解Python相关数据科学及数据采集与处理工具等。教学内容数据科学与数据采集及存储,数据采集概述,数据存储概述,数据集成ETL概述,Python相关数据科学工具第二章Python基础知识目标1、了解Python语言的特点和相关开发环境;2、掌握Python基本语法、控制结构、异常与处理及函数的封装和使用等;3、理解Python常用数据类型和数据结构如列表、元组、字典和集合等的特点,熟练掌握其常用操作方式。教学内容Python简介及Python开发和运行环境及相关工具,Python基本语法与命令,Python相关模块、安装与升级,Python运算符、表达式、内置对象与常用数据结构如列表、元组、字典和集合,Python常用函数及函数封装与调用,异常处理及断言语句第三章Numpy与Pandas基础知识目标1、了解Numpy和Pandas的常用数据结构、数据类型及其用途;2、掌握Numpy多维数组的创建、存取、运算及数组间的合并拆分等常见操作;3、理解Pandas中Series和Dataframe的特点及与Numpy多维数组的区别,掌握它们的创建、存取、运算等常用操作方法。教学内容Numpy简介、数据类型与多维数组,多维数组的创建、切片与检索、数组运算及拼接合并、矩阵运算等;Pandas简介与数据结构,Series和DataFrame创建与相关操作,索引对象及索引重建等第四章数据可视化知识目标1、了解数据可视化概念、相关分类和应用;2、理解数据可视化在数据预处理和数据分析中的作用及模块功能差异;3、掌握数据可视化模块Matplotlib、Seaborn等的编程接口和使用方法;4、熟练使用Python编程进行不同类型的数据可视化展示和分析。教学内容数据可视化简介、方法与组成、相关工具、图表类型等,Matplotlib可视化工具简介及其方法和使用,其他数据可视化工具如Pandas、Seaborn和pyecharts等简介与示例第五章文件读写与操作知识目标1、了解文件的基本概念、分类、常见文件格式和基本特点,理解不同类型文件的功能和适用范围;2、掌握Python基本的文件操作,了解对象序列化和反序列化操作及作用;3、掌握常见结构化数据文件如CSV、JSON、Excel和XML的Python基本读写操作方法,理解文件的内容结构和编码格式;4、了解常见非结构化数据文件如Word、PDF、图像等的内容组织格式和读写方法,理解用于科学数据存储的HDF文件格式、结构特点及读写方法。教学内容文件读写基本操作,Python对象和数据的序列化与反序列化简介及相关工具模块和使用方法,CSV、XML、JSON、HDF、Office、PDF、图像等文件类型简介、组织形式及Python相关工具模块和读写操作方法第六章统计与概率基础知识目标1、了解变量类型及其特点,理解不同类型变量描述性统计相关指标和含义,掌握Python计算变量描述性统计指标常用Numpy和Pandas方法;2、了解离散变量和连续变量相关分布函数及分布图形特点,掌握Python常用模块Numpy、Scipy、Matplotlib用于不同类型变量数据构造、分布及可视化方法;3、了解偏度、峰度的概念及分布特点,理解其计算方法及应用。教学内容变量类型与描述性统计相关指标,离散型随机变量与连续型变量的概率分布特征、概率密度或概率质量函数,常见变量分布如伯努利分布、二项分布、泊松分布、正态分布的特点与应用,偏度与峰度概念与相关指标,Python相关模块与方法和应用示例第七章数据清洗与预处理知识目标1、了解数据清洗与预处理相关概念、相关方法和技术,理解数据预处理的相关步骤和重要作用;2、了解数据异常数据、缺失数据及噪声数据处理方法和技术,掌握Python相关模块使用方法;3、了解数据整合面临问题和解决方法,掌握Python模块Pandas的常用数据连接合并方法;4、了解数据变换常用方法原理和特点,熟悉Python数据变换相关模块和函数方法;5、了解数据聚合与分组概念,熟悉Pandas模块DataFrame对象的分组与聚合运算方法;6、了解数据归约、数据降维的概念和相关方法,掌握基于sklearn和scipy模块的主成分分析PCA和奇异值分解相关方法。教学内容数据清洗相关概念及异常数据、缺失数据、噪声数据处理相关方法,数据整合、数据变换相关概念及常用方法,数据聚合、分组统计与Pandas相关方法和示例,数据归约相关概念及数据降维方法,Python相关工具模块如Pandas、sklearn、scipy模块相关方法和应用示例第八章网络数据采集知识目标1、了解爬虫相关概念与知识,理解网络数据交互过程和原理及HTML和JavaScript基本语法和结构;2、掌握静态网页内容常用Python模块的基本方法和操作,理解不同模块的功能特点和应用区别;3、了解动态网页技术,熟悉Selenium模块爬取动态网页方法;4、了解爬虫框架Scray基本结构和基本原理,理解Scrapy的开发方法和步骤。教学内容网络爬虫相关概念、知识和技术介绍,HTML与JavaScript基础知识,静态网页内容爬取与解析相关Python模块如urllib、BeautifulSoup、request、Pandas等模块的基本应用,正则表达式与网页内容解析,动态网页内容爬取相关技术如Selenium等基本应用和示例第九章关系数据库连接与访问知识目标1、了解关系数据库的基本概念、原理、知识和常用SQL操作,理解关系数据库ACID特性和关系模型结构;2、了解嵌入式关系数据库SQLite的特点和访问方式,掌握基于Python语言访问SQLite数据库操作方法;3、了解网络关系数据库MySQL的特点和访问方式,掌握基于Python模块pymysql、SQLAlchemy及Pandas访问MySQL数据库操作方法。教学内容关系数据库的基本概念、原理和知识,常用SQL操作及关系数据库ACID特性,嵌入式关系数据库SQLite简介与相关Python访问模块如sqlite3及Pandas的访问方法和示例,网络关系数据库MySQL简介及基于Python模块pymysql、SQLAlchemy和Pandas访问MySQL数据库操作方法。第十章大数据存储与访问技术知识目标1、了解大数据相关概念、关键技术、计算模式和NoSQL数据库分类,理解非关系数据库NoSQL的CAP定理和BASE原则;2、了解NoSQL类数据库MongoDB的特点和存储模式,掌握基于Python的MongoDB操作步骤及相关模块和方法。教学内容大数据相关概念、关键技术、计算模式和NoSQL数据库分类,非关系数据库NoSQL的CAP定理和BASE原则,NoSQL数据库分类及MongoDB的特点和存储模式,CAP定理,MongoDB数据库访问相关Python模块和方法及示例第十一章数据集成与ETL技术知识目标1.了解数据集成基本概念、分类、常见方法和相关产品;2.了解ETL相关技术和常用ETL工具,理解常见ETL相关技术和基本操作方法。教学内容数据集成概述、分类和常见方法,ETL相关技术和常用工具,ETL应用示例教学课时分配表2.教学课时分配章节号章节内容讲课实验其他合计第一章概述22第二章Python基础628第三章Numpy与Pandas基础426第四章数据可视化326第五章文件读写与操作324第六统计与概率基础22第七章数据清洗与预处理326第八章网络数据采集326第九章关系数据库连接与访问224第十章大数据存储与访问技术222第十一章数据集成与ETL技术22合计321648主要参考资料 [美]JakeVanderPlas著,陶俊杰,陈小莉译.Python数据科学手册.人民邮电出版社,2018.[美]WesMcKinney.利用Python进行数据分析(第2版).机械工业出版社,2018.黄源,蒋文豪,徐受蓉著.Python爬虫、数据清洗和数据可视化.清华大学出版社,2020.吕云翔,张扬.Python网络爬虫与数据采集.人民邮电出版社,2021.林子雨.数据采集与预处理.人民邮电出版社,2022.附件课程思政案例设计申报专业名称:数据采集与处理课程性质:□公共课R专业课课程类别:□理论课□实践课R理论实践一体课授课对象:数据科学与大数据技术专业,信息管理与信息系统专业,数理统计专业一、课程简介数据采集与处理是大数据处理与分析的重要环节,对应课程也是数据科学与大数据技术专业培养的重要环节。本课程主要讲解数据科学与大数据应用中数据采集的各类数据来源、数据格式、数据表示和加工处理及数据存储的原理和技术,并以Python为主要开发语言,通过实战项目例子,带领学生完成从数据采集、数据表示、转换加工及到数据存储的完整开发过程,使学生掌握相关开发方法、工具和技巧。二、思政元素本课程属于理工科类课程,教学中把马克思主义立场观点方法的教育与科学精神的培养结合起来,提高学生正确认识问题、分析问题和解决问题的能力。深化职业理想和职业道德教育,注重强化学生工程伦理教育,培养学生精益求精的大国工匠精神,激发学生科技报国的家国情怀和使命担当。本课程设计主要包含的思政元素:元素1:职业理想和职业道德教育数据是否能够在合理、合规及合法的情况下进行采集、存储和使用,直接关系到大数据和人工智能技术是否能在各行各业有效发挥积极的作用。因此,课程设计不但要注意培养学生远大的职业理想,还要加强学生的职业道德教育。元素2:精益求精的大国工匠精神数据质量直接影响数据分析的准确性和有效性,从而影响基于数据决策的效果。因此,课程设计需要在数据处理环节中强调一丝不苟、严谨认真的态度,以加强培养学生精益求精的大国工匠精神。元素3:科学思维方法数据采集和存储有不同的技术和方案,需要根据数据需求、数据来源类型等进行科学分析、综合权衡确定。因此,课程设计中需要加强培养学生归纳总结、逻辑推理、逆向思维、突破创新等方面的科学思维方法。元素4:科技报国的家国情怀和使命担当通过国内外大数据技术进展的比较,既说明我国在相关产业和学术领域取得的成就,又明确自身不足和差距,以增强学生的民族自豪感和文化自信,同时激发学生科技报国的家国情怀和使命担当。本课程将分别从线下教学、上机和线上课程管理等方面加以设计,将上述思政元素融入到相应环节,努力实现全过程、全方位的育人新方案。1、教学环节的课程思政设计将思政元素穿插在各章节的知识点讲解中,有机融入课程教学,达到“春风化雨、润物无声”的育人效果。本课程的教学内容共分为8章,表1为对教学大纲进行改进后的具体方案。表1各章节中知识目标与思政教育的融合点教学章节知识目标与思政元素的案例设计第一章概述知识目标1.了解数据科学相关概念及数据分析完整过程;2.理解数据采集与处理与其他学科和课程关系;3.理解数据类型、数据存储和大数据相关技术;4.了解Python相关数据科学及数据采集与处理工具等。思政元素设计1.结合我国相关技术发展现状、成就和不足,激发学生爱国主义精神和学习动力。2.引申数据科学中的数据隐私、科学伦理等问题,培养学生树立职业道德和职业伦理意识。第二章Python基础知识目标1.了解Python语言的特点和相关开发环境;2.掌握Python基本语法、控制结构、异常与处理及函数的封装和使用等;3.理解Python常用数据类型和数据结构如列表、元组、字典和集合等的特点,熟练掌握其常用操作方式。思政元素设计通过函数和类的抽象与封装及编程错误常见解决方法,融入马克思辩证唯物主义和科学思考方法;并结合业界编程规范提醒学生要养成良好的编码习惯,逐步树立良好的职业素养。第三章第三章Numpy与Pandas基础知识目标1.了解Numpy和Pandas的常用数据结构、数据类型及其用途;2.掌握Numpy多维数组的创建、存取、运算及数组间的合并拆分等常见操作;3.理解Pandas中Series和Dataframe的特点及与Numpy多维数组的区别,掌握它们的创建、存取、运算等常用操作方法。思政元素设计Numpy和Pandas是数据科学中数据处理环节最常用的模块,通过这些模块与Python自身数据类型如列表和元组的比较,突出Numpy和Pandas在数据存取和处理方面的专业专注、精益求精的独特优点,强调“术业有专攻”的工匠精神。第四章数据可视化知识目标1.了解数据可视化概念、相关分类和应用;2.理解数据可视化在数据预处理和数据分析中的作用及模块功能差异;3.掌握数据可视化模块Matplotlib、Seaborn等的编程接口和使用方法;4.熟练使用Python编程进行不同类型的数据可视化展示和分析。思政元素设计通过古诗“横看成岭侧成峰,远近高低各不同”,启发学生理解不同的数据可视化类型和方法对应的效果存在差异,其视角和维度不同,可视化效果也存在差异;并通过具体的数据实例,课堂进行数据可视化分析展示,观察不同图形类型的展现效果差异,培养学生热爱中国传统文化并树立数据分析的科学探索和认真细致的工匠精神。第五章文件读写与操作知识目标1.了解不同的文件类型如CSV、XML、JSON、HDF等的数据组织格式;2.理解Python对象和数据的序列化与反序列化概念和方法;3.掌握Python中对本地文件的读写相关模块和使用方法;4.熟练编写文件读写相关模块和数据处理的应用程序。思政元素设计1.通过不同数据格式如HDF、JSON、XML、Excel等的介绍,提醒学生在数据交换的标准规范方面,我国虽然在相关行业定义了一些规范,但国际通用标准的话语权还相对缺乏,从而激发学生科技报国的责任感和使命感,培养家国情怀和使命担当。2.通过示例文件读取常见的乱码问题,进行汉字与西文字符的计算机编码比较,引入东西方文化差异,强调汉字表现的丰富性和语言魅力,引导学生自觉传承和弘扬中华优秀传统文化,加强爱国主义情怀培养。第六章统计与概率基础知识目标1.了解离散变量、连续变量类型及对应描述性统计;2.理解不同类型变量的统计分布特征和统计测量;3.掌握基于Python的查看数据特征分布及描述性统计方法;4.熟练掌握数据查看、统计和概率分布的Python编程。思政元素设计数据处理前需要观察数据的总体特征,对于不同类型变量有不同的观察数据特征方法,提醒学生注意比较和总结不同方法的优缺点,并引用《三国演义》中诸葛亮的“观其大略,不求甚解”,将其改为“观大略,求甚解”,强调在数据处理和分析中,需要首先查看数据总体特征、概率分布等以“观大略”,然后还要注重细节“求甚解”以便发现问题和规律,从而既让学生了解中国的传统文化,又培养了科学思维方法和工匠精神。第七章数据清洗与预处理知识目标1.了解数据清洗和预处理的一般方法和原理;2.掌握基于Python的数据清洗和预处理相关模块和方法;3.熟练掌握数据连接合并及聚合统计的Python模块和编程。思政元素设计案例教学:通过含有异常值、空值的实例数据,让学生进行异常值检测和空值填充操作,比较处理前后的统计和分析结果差异,引发学生思考数据处理和数据质量的重要性和影响,培养学生严谨求实、精益求精的大国工匠精神。第八章网络数据采集知识目标1.了解HTML、DOM数据组织形式和网络爬虫相关模块与技术;2.理解网站交互模式和网络爬虫的基本原理与流程;3.掌握常用网络爬取相关模块如Pandas、bs4、urllib、requests、selenium等的编程接口和使用方法;4.熟练编写网络数据爬取和HTML数据解析的Python程序。思政元素设计结合2021年国家颁布的《数据安全法》和《个人信息保护法》,引用古语“君子爱财,取之有道”,提示学生从网络“爬取数据”也要遵守法律和职业道德。通过比较不同网站如百度、京东、谷歌、搜狐的robots.txt,让学生了解网站公开的爬虫声明,提醒数据滥用可能造成的法律后果和社会影响,强化学生的职业操守和职业道德培养。第九章关系数据库连接与访问知识目标1.了解关系数据库的基本概念、原理、知识和常用SQL操作,理解关系数据库ACID特性和关系模型结构;2.了解嵌入式关系数据库SQLite的特点和访问方式,掌握基于Python语言访问SQLite数据库操作方法;3.了解网络关系数据库MySQL的特点和访问方式,掌握基于Python模块pymysql、SQLAlchemy及Pandas访问MySQL数据库操作方法。思政元素设计归纳和演绎是常用的科学方法,通过关系数据库的连接、查询和分组统计的SQL操作,提示学生比较基于Pandas的不同数据对象的连接和聚合统计方法的差异,并进行归纳总结,找出相似点和差异,从而在加深已有知识横向和纵向联系与理解基础上,培养学生科学的思维方法。通过提供的关系数据库和非关系数据库实例练习,提高学生正确认识问题、分析问题和解决问题的能力。第十章大数据存储与访问技术知识目标1.了解大数据相关概念、关键技术、计算模式和NoSQL数据库分类,理解非关系数据库NoSQL的CAP定理和BASE原则;2.了解NoSQL类数据库MongoDB的特点和存储模式,掌握基于Python的MongoDB操作步骤及相关模块和方法。思政元素设计大数据典型数据库MongoDB其中一项特点,是其关键字或属性能够动态修改和增删,通过容纳不同的属性和格式,使其应对互联网大数据的存取极其方便和灵活,并能灵活扩展以适应大规模数据的存取。“有容乃大”是中国的一项传统文化,结合MongoDB的“有容”带来的大数据高效存储特征,弘扬中华传统优秀文化,从而培养爱国主义情怀。第十一章数据集成与ETL技术知识目标1.了解数据集成基本概念、分类、常见方法和相关产品;2.了解ETL相关技术和常用ETL工具,理解常见ETL相关技术和基本操作方法。思政元素设计通过介绍我国各级政府的政务信息资源共享平台建设及国产优秀的相关ETL软件产品,培养学生的民族自豪感和爱国热情。2、上机环节的课程思政设计本课程特别强调实践动手和解决问题的能力,遵循循序渐进、前后联系、横向比较等原则和方法,根据课程进度每两周布置一个具有一定挑战性的上机编程题。题目的选择和数据实例选取更偏重中国情景,同时注重实用性、趣味性和复杂性,而且不提供标准答案,鼓励学生参考课程案例和综合比较已有技术方法独立解决问题,对与众不同的解决方法和创新思维给予高分奖励,对雷同和不符合规范要求的作业进行扣分惩罚,从而激发学生的科学思维方法和创新精神,并培养良好的编程习惯和精益求精的大国工匠精神。典型的上机编程题目设计思路如下:Python基本编程作业:要求对某一类计算实现函数或类封装,并参考编码规范编程实现,强化学生良好的编程习惯和抽象思维能力,从而加强科学思维方法和工匠精神培养。本地文件、网络爬虫、数据库存取作业:采集示例数据中包含中文字符编码、空值和异常值等,获取数据容易出现乱码、数据类型转换等错误问题,提示学生需要考虑中文编码原理和处理技术、代码错误跟踪定位方法等,提高学生正确认识问题、分析问题和解决问题的能力,并通过中国情景和中文文化特点,培养学生的爱国主义情怀。数据可视化作业:提供示例数据,要求使用不同的数据可视化模块和方法,实现不同类型的图形展示。通过比较不同的方法技术和可视化图形类型的特点和差异,加强学生的归纳和演绎的科学思维方法培养。3、线上课程管理的思政设计将教学课件、视频资料、题库、作业和练习等布置到泛雅网络教学平台,并设置学习任务点、练习作业和章节测验督促学生进行自主学习和练习。作业和章节测验都是通过线上发布、线上收集、线上批阅和回复,学生可以及时检查成绩和问题,并能够通过老师的批复意见了解自己问题所在;线上还可以发布一些活动,如抢答、讨论、问卷调研等,促进学生更多的参与课堂活动和课程建设。基于作业规范、实现复杂度和区别度等的奖惩机制,鼓励学生独立解决问题、创新思考不同方案、遵守编码规范和上机要求,并通过学生作业与老师批语的反馈机制,逐步培养学生的严谨认真、精益求精的工匠精神和勇于创新的科学思维方法。三、教案设计(一)教学目标通过讲解网络数据爬取(即网络爬虫)的相关技术和方法,使学生理解网页数据结构和交互访问模式,掌握常用的网络爬虫Python相关模块的编程接口和使用方法,并结合爬虫声明、反爬虫方法及不同数据存储技术,不断提高学生正确认识问题、分析问题和解决问题的综合能力,培养学生精益求精的大国工匠精神,并引导学生自觉实践数据科学伦理和社会主义职业道德。(二)教学内容教学内容:第七章中的网络爬虫技术,课程将分为两个案例进行讲授,即静态网页(如本校官网教务处网站等)和动态网页(如国际城市天气查询网站、京东商城等)的数据获取相关Python模块、技术和编程方法。教学重点:HTML网页的数据组织格式、网页交互模式和解析方法、动态网页技术和相关爬虫技术。教学难点:基于DOM模型解析HTML网页内容,对于动态网页内容如何正确获取内容并解决乱码和返回空值问题,需要培养学生仔细观察、耐心谨慎的科学素养和分析问题、解决问题的能力。(三)思政引入主要思政元素的融入方法如下:通过查看网站的robots.txt文件中的爬虫声明,引用中国古语“君子爱财,取之有道”,提醒学生从网络“爬取数据”也要遵守法律和职业道德,注意数据滥用可能造成的法律后果和社会影响,强化学生的职业操守和职业道德培养,并加强中华优秀传统文化教育。通过网页数据结构查看和解析过程,提醒学生注意中文和英文的不同编码方法和解析问题,说明中华汉字表示的丰富性和计算机处理的复杂性,需要仔细观察网页结构和编码方式,培养学生精益求精、严谨认真的大国工匠精神,并弘扬中华传统文化。通过介绍不同类型网页的解析方法和技术,引导学生进行横向和纵向比较,归纳总结并分析不同技术方法的优缺点和应用场景,培养学生的科学素养和创新思维能力。通过展示并比较国内外不同的网站开发和反爬虫技术,介绍互联网技术在我国的广泛应用和效果,与国外相比的技术应用不足和优势,激发学生科技报国的家国情怀和使命担当。(四)教学手段与方法课程采用线上线下相结合的教学方法,结合具体网站案例讲解静态和动态网页技术、交互模式和数据解析方法,并在爬虫声明、编码解析和问题处理等不同环节与多种“课程思政”元素相融合。线下采用PPT多媒体授课、案例和编程演示及学生同步练习方式,线上采用作业发布、问题测验方式加强学生实践和思考。(五)教学过程与详细设计课堂总体过程:先介绍相关理论知识和方法工具(10~15分钟),然后演示相关方法工具或播放视频资源(10分钟左右),接着学生根据听课与观察老师操作演示自行操作练习(10~15分钟),最后在网络教学平台发布1~2个问题启发学生思考总结(5~10分钟)。在课堂授课过程中,融入思政元素,并启发学生思考、比较和总结。HTML介绍与静态网页爬取(1)讲授内容HTML与DOM结构urllib.request获取网页方法BeautifulSoup解析网页内容其他模块解析网页内容方法和比较,如Pandas读取Table格式(2)案例引入网站爬取声明和职业道德分别查看百度学术和谷歌学术网站根目录下的robots.txt文件,内容如图1所示。介绍我国已在2021年颁布实施《数据安全法》和《个人信息保护法》,并引用中国古语“君子爱财,取之有道”,提醒学生从网络“爬取数据”也要遵守法律和职业道德,注意数据滥用可能造成的法律后果和社会影响。图1.中外网站爬取声明示例示例网站和HTML结构浏览器中打开学校教务处网站(),查看部门职责栏目网页的展示内容及网页源码和编码(或字符集charset),内容如图2所示。介绍中文和英文的不同编码方法和解析问题,而中文又有多种编码和字符集,如UTF-8、GB2312等,如果中文字符集和编码设置不当,则会导致获取内容乱码。因此,提醒学生需要仔细观察网页结构和编码方式,养成精益求精、严谨认真的学习和职业习惯。另外,提醒学生注意示例网页特殊的Table标签结构,除了可以使用urllib.request和BeautifulSouprequests模块基于DOM模型解析之外,还可以使用Pandas的read_html方法更快捷地获取表格内容,引导学生注意观察和比较,归纳总结并分析不同技术方法的优缺点和应用场景,培养学生的科学素养和创新思维能力。图2.示例网页结构与字符集编码(3)线上活动--思考题爬取某些网页的中文内容,为何出现乱码?如何解决该问题?动态网页技术和数据爬取(1)讲授内容动态网页技术Selenium的安装与使用爬取动态网页方法(2)案例引入给出国外天气查询网站()和国内的百度指数()与京东网站()示例,查看其网页源码并进行比较,然后分别使用selenium对上述网站进行爬取数据,发现百度指数和京东产品评论数据更难以获取。借此介绍我国互联网技术的深入广泛应用,其技术应用与国外相比更普及和便利,而技术深度和难度也相对较高,从而激发学生科技报国的家国情怀和使命担当。(3)线上活动--思考题某些网页通过浏览器明明能看到的数据,为什么通过查看源码方式却看不到?如何解决该问题?(六)教学效果分析(1)通过学生常用熟悉的网站,循序渐进引导学生思考网站背后的网页内容组织格式、编码格式、访问模式和爬取数据方法等,提高了教学的实用性和趣味性,激发学生的学习探索兴趣。并通过国内外网站技术比较及爬虫技术难度和解析数据复杂度提高的过程中,提高学生分析问题和解决问题的能力,培养学生精益求精的大国工匠精神,激发学生科技报国的家国情怀和使命担当。(2)通过融入当前国家法律及行业规范,引导学生深刻理解并自觉实践数据科学伦理,遵纪守法,强化学生的职业操守和职业道德培养。(3)通过引用中国优秀古语和介绍汉字编码规范,弘扬了中华传统文化。(4)通过线上设置讨论问题和课堂留出的同步练习时间,避免单调的“填鸭式”教育方法,并通过有机融入国家当前实证和传统文化,达到思政元素的“润物无声”效果。《数据采集与处理》课程思政案例设计专业名称:数据采集与处理课程性质:□公共课R专业课课程类别:□理论课□实践课R理论实践一体课授课对象:数据科学与大数据技术、信息管理与信息系统、数理统计等专业本专科学生一、课程简介数据采集与处理是大数据处理与分析的重要环节,对应课程也是数据科学与大数据技术专业培养的重要环节。本课程主要内容涉及数据科学与大数据应用中数据采集的各类数据来源、数据格式、数据表示和加工处理及数据存储的原理和技术,并以Python为主要开发语言,通过实战项目例子,带领学生完成从数据采集、数据表示、转换加工到数据存储的完整开发过程,使学生掌握相关开发方法、工具和技巧。通过课程学习使学生熟悉国内数据采集与处理相关技术的发展状况及其应用,增强国有自主知识产权技术的自豪感和民族自信,并通过传统文化与现代科学方法的融合,培养学生的科学思维方法和精益求精的大国工匠精神。二、思政元素本课程属于理工科类课程,教学中把马克思主义立场观点方法的教育与科学精神的培养结合起来,提高学生正确认识问题、分析问题和解决问题的能力。深化职业理想和职业道德教育,注重强化学生工程伦理教育,培养学生精益求精的大国工匠精神,激发学生科技报国的家国情怀和使命担当。本课程设计主要包含的思政元素:元素1:职业理想和职业道德教育数据是否能够在合理、合规及合法的情况下进行采集、存储和使用,直接关系到大数据和人工智能技术是否能在各行各业有效发挥积极的作用。因此,课程设计不但要注意培养学生远大的职业理想,还要加强学生的职业道德教育。元素2:精益求精的大国工匠精神数据质量直接影响数据分析的准确性和有效性,从而影响基于数据决策的效果。因此,课程设计需要在数据处理环节中强调一丝不苟、严谨认真的态度,以加强培养学生精益求精的大国工匠精神。元素3:科学思维方法数据采集和存储有不同的技术和方案,需要根据数据需求、数据来源类型等进行科学分析、综合权衡确定。因此,课程设计中需要加强培养学生归纳总结、逻辑推理、逆向思维、突破创新等方面的科学思维方法。元素4:科技报国的家国情怀和使命担当通过国内外大数据技术进展的比较,既说明我国在相关产业和学术领域取得的成就,又明确自身不足和差距,以增强学生的民族自豪感和文化自信,同时激发学生科技报国的家国情怀和使命担当。三、教案设计以《数据采集与处理》课程中的第八章“网络数据采集”为例,结合网站开发和网络爬虫的课程专业知识,选择合适的内容切入点,有机融入中国传统文化、国家法律法规、现代职业道德等内容,达到润物无声的思政案例教学效果。第七章网络爬虫技术(一)教学目标通过讲解网络数据采集(即网络爬虫)的相关技术和方法,使学生理解网页数据结构和交互访问模式,掌握常用的网络爬虫Python相关模块的编程接口和使用方法,并结合爬虫声明、反爬虫方法及不同数据存储技术,不断提高学生正确认识问题、分析问题和解决问题的综合能力,培养学生精益求精的大国工匠精神,并引导学生自觉实践数据科学伦理和社会主义职业道德。(二)教学内容本章教学内容:网页原理与组织结构;网页编码与解析技术;Python爬虫相关模块与技术;静态网页和动态网页比较与爬取;爬虫、反爬虫与职业道德课堂设计思路:本章课堂设计思路如图1所示:图1课堂设计思路图教学重点:HTML网页的数据组织格式和网页交互模式;网页内容解析原理与方法;动态网页和相关爬虫技术。教学难点:基于DOM模型解析HTML网页内容;动态网页内容获取技术;内容解析与编码和乱码问题。(三)思政引入本章课程计划从两个方面引入课程思政,第一个方面是 HTML介绍与静态网页爬取,可以从中国传统文化、科学思维方法、工匠精神等多个点无缝融入课程思政内容。第二个方面是动态网页技术和数据爬取,可以从我国网络应用和网页技术提升角度,使学生了解我国的行业和技术发展现状,增强科技报国的使命感和自豪感,提高学习的能动性。HTML介绍与静态网页爬取思政案例:陶渊明与诸葛亮学习方法中国晋宋之际文学家陶渊明,在《五柳先生传》中写道:“好读书,不求甚解;每有会意,便欣然忘食”,提倡好读书,还要真正会意;而中国三国时期杰出的军事家诸葛亮读书也是“独观其大略”。到了现代,我们可将他们的读书学习方法,修改为“观大略,求甚解”,强调在数据处理和分析中,需要首先查看数据总体特征、概率分布等以“观大略”,然后还要分析具体的标签对、嵌套层次和内容构成等注重细节“求甚解”,以便发现问题和规律,正确解析网页内容,从而培养学生精益求精、严谨认真的大国工匠精神,掌握科学思维方法,弘扬中华传统文化。思政案例:学校示例网站和HTML结构浏览器中打开学校教务处网站(),查看部门职责栏目网页的展示内容及网页源码和编码(或字符集charset),内容如图2所示。提醒学生注意中文和英文的不同编码方法和解析问题,说明中华汉字表示的丰富性和计算机处理的复杂性,需要仔细观察网页结构和编码方式。同时,介绍中文和英文的不同编码方法和解析技术,而中文又有多种编码和字符集,如UTF-8、GB2312等,如果中文字符集和编码设置不当,则会导致获取内容乱码。另外,介绍我国对于汉字的解析和自然语言处理方面的技术,如百度语言处理技术,开源JIEBA模块等,对汉字的解析、编码与处理等都已基本成熟并得到广泛应用。通过中国传统文化和当前我国技术发展现状介绍,增强学生科技报国的使命感和自豪感。图2.示例网页结构与字符集编码另外,提醒学生注意示例网页特殊的Table标签结构,除了可以使用urllib.request和BeautifulSouprequests模块基于DOM模型解析之外,还可以使用Pandas的read_html方法更快捷地获取表格内容,引导学生注意观察和比较,归纳总结并分析不同技术方法的优缺点和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论