![《数据采集与清洗》课程教学大纲_第1页](http://file4.renrendoc.com/view9/M03/28/0D/wKhkGWc0H8-Ae7dsAAKMmd7A3Zo741.jpg)
![《数据采集与清洗》课程教学大纲_第2页](http://file4.renrendoc.com/view9/M03/28/0D/wKhkGWc0H8-Ae7dsAAKMmd7A3Zo7412.jpg)
![《数据采集与清洗》课程教学大纲_第3页](http://file4.renrendoc.com/view9/M03/28/0D/wKhkGWc0H8-Ae7dsAAKMmd7A3Zo7413.jpg)
![《数据采集与清洗》课程教学大纲_第4页](http://file4.renrendoc.com/view9/M03/28/0D/wKhkGWc0H8-Ae7dsAAKMmd7A3Zo7414.jpg)
![《数据采集与清洗》课程教学大纲_第5页](http://file4.renrendoc.com/view9/M03/28/0D/wKhkGWc0H8-Ae7dsAAKMmd7A3Zo7415.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《数据采集与清洗》教学大纲课程名称:数据采集与清洗课程编码:2101英文名称:DataCollectionandCleaning学时:48学时 学分:3学分开课学期:第2学期适用专业:数据科学与大数据技术课程类别:理论课课程性质:专业核心课先修课程:数据科学与大数据技术导论;Python程序设计一、课程的性质及任务《数据采集与清洗》课程是数据科学与大数据技术专业的核心课,通过本课程的学习,使学生能够了解大数据分析的工作原理和使用方法;使学生具有Python编码实现数据采集的能力如对互联网数据,业务系统数据等;使学生掌握数据预处理的步骤,并掌握数据清洗的方法;使学生学会综合运用大数据采集和清洗的思想解决实际问题,为将来从事大数据相关领域的工作打下坚实的基础。依据河北工程大学数据科学与大数据技术专业培养计划,本课程需要培养学生的能力是:具备能够将数据科学与大数据技术相关知识用于大数据工程问题解决方案的比较与综合(毕业要求指标1.4)能够基于数据科学相关科学原理和数学模型方法正确表达大数据应用领域的复杂工程问题(毕业要求指标2.1)能够对采集到的实验数据进行整理、分析和解释,并能通过信息综合、算法设计得出有效结论(毕业要求指标4.3)能够掌握基本的大数据开发环境的配置和应用,熟练掌握软件开发语言(如Python、Java语言等),并能够运用集成开发环境进行复杂程序设计(毕业要求指标5.1)具备使用大数据平台以及软件对复杂工程问题进行仿真的能力,理解其使用要求、运用范围和局限性(毕业要求指标5.3)二、课程目标与要求2.1课程目标能对大数据处理中的数据采集、清洗基本问题进行分析,运用数据采集和清洗的基本技术和方法制定解决方案。能使学生掌握python爬虫和分析的基本思想和技术,培养学生应用计算机解决和处理实际问题的思维方法和基本编码能力。能运用先修课程的理论知识,并结合该课程的方法和技术对数据采集和清洗阶段中的复杂问题、现象和数据进行分析、解释。能够针对大数据领域中的具体应用问题选择恰当的数据采集工具,并能够论证方法的有效性。能够针对大数据领域中的具体应用问题选择与使用恰当的数据清洗工具,对大数据工程问题进行模拟和实现。
数据采集与清洗课程教学大纲PAGE4PAGE1252.2课程目标与毕业要求对应关系课程目标毕业要求二级指标毕业要求12345678●●●●1.4能够将数据科学与大数据技术相关知识用于大数据工程问题解决方案的比较与综合1.具有扎实的数学与自然科学知识和工程基础,系统地掌握数据科学与大数据技术领域的基本理论、基础知识,并综合运用所学知识解决复杂工程问题。●2.1能够基于数据科学相关科学原理和数学模型方法正确表达大数据应用领域的复杂工程问题2.掌握统计与机器学习的基本方法,能够综合运用数学、自然科学和数据科学的基本原理,对复杂的工程系统,识别问题、描述问题并通过文献研究分析与大数据相关的工程问题,以获得有效结论。●4.3掌握大数据技术类复杂工程问题解决方案的全周期、全流程,了解影响设计目标和技术方案的各种因素4.能够基于数据科学与大数据技术原理并采用科学方法对大数据应用领域的复杂工程问题进行研究,包括设计实验、分析与解释数据、并通过信息综合得到合理有效的结论。●5.1能够掌握基本的大数据开发环境的配置和应用,熟练掌握软件开发语言(如Python、Java语言等),并能够运用集成开发环境进行复杂程序设计5.能够针对大数据应用领域的复杂工程问题,开发、选择与使用恰当的技术、资源、现代信息技术工具,包括对大数据应用领域的复杂工程问题的预测与仿真,并能够理解其局限性。●5.3具备使用大数据平台以及软件对复杂工程问题进行仿真的能力,理解其使用要求、运用范围和局限2.3课程目标与培养环节对应矩阵序号课程目标理论教学课内实验课后作业1能对大数据处理中的数据采集、清洗基本问题进行分析,运用数据采集和清洗的基本技术和方法制定解决方案。HL2能使学生掌握python爬虫和分析的基本思想和技术,培养学生应用计算机解决和处理实际问题的思维方法和基本编码能力。ML3能运用先修课程的理论知识,并结合该课程的方法和技术对数据采集和清洗阶段中的复杂问题、现象和数据进行分析、解释。HML4能够针对大数据领域中的具体应用问题选择恰当的数据采集工具,并能够论证方法的有效性。ML5能够针对大数据领域中的具体应用问题选择与使用恰当的数据清洗工具,对大数据工程问题进行模拟和实现。HMM注:H表示该能力的在此环节重点培养;M表示该能力在此环节有应用要求;L表示该能力在此环节有所涉及。离散数学课程教学大纲PAGE2PAGE1372.4目标达成度的评价课程目标1主要通过理论教学环节进行培养,在课后作业中有所涉及。主要通过课堂测试和课后作业中概念性、原理性问题进行考核。目标达成综合以上内容进行评价。课程目标2主要通过理论教学环节、课后作业进行培养,在课内实验有应用要求。主要通过学生课堂测试进行考核,在实验中体现为能根据作业要求,编写代码并完成作业。目标达成综合以上内容进行评价。课程目标3主要通过理论教学环节进行培养,在课后作业和课内实验中有应用要求。主要通过课堂测试、课后作业中数据分析类题目进行考核,在实验报告中体现为能给出符合要求的代码及结论。目标达成综合以上内容进行评价。课程目标4,5主要通过课内实验培养,在课后作业和撰写报告中涉及。在课后作业和撰写报告中体现为能够按照要求完成数据采集;在撰写的报告中要对采集的数据进行分析并评价实验结果。目标达成综合以上内容进行评价。三、教学方法及手段理论教学以课堂讲授为主,面向基础知识的准确、扎实掌握,突出对原理的分析、对方法的总结以及理论体系的完整建立;理论教学强调将数据采集方法和数据清洗方法与工程实现的实际情况紧密联系,面向知识的实际应用;理论教学注重本课程与数据科学与大数据技术导论、Python程序设计等先修课程的联系,以大数据分析需求作为本课程知识的应用背景,结合概率论和机器学习的相关理论解释本课程的有关概念和原理,基于Python的基础知识掌握数据采集和数据分析方法。理论教学与课内相结合,进行计算机的应用与训练。课程强调学生的自主学习,强调通过自学的方式消化、吸收课程的庞大知识量,并在此基础上举一反三。四、课程的基本内容与教学要求第1章绪论[教学目的与要求]:了解大数据的定义和大数据的战略意义以及大数据的发展趋势,掌握实用工程中对数据分析提出的主要要求,尝试了解大数据的产业链。[本章主要内容]:1.1讲授大数据的定义、原理与发展。1.2了解大数据的国家战略意义、大数据的企业意义以及我国大数据市场的预测。1.3大数据的产业链分析(技术分析和运营分析)。[本章重点]:大数据的定义。大数据原理和特征。大数据的国家战略意义。[本章难点]:大数据的原理及特征。第2章爬虫与大数据[教学目的与要求]:了解爬虫的定义;掌握Python开发运行的环境;会使用Python编写爬虫;能够肚子使用爬虫进行网页内容的抓取。[本章主要内容]:2.1爬虫的概述。2.2Python的开发环境、数据类型介绍。2.3爬虫相关知识介绍(了解网页结构、基础爬虫框架和正则表达式)。2.4利用爬虫抓取网页内容。[本章重点]:掌握Python的安装和开发环境。掌握基础爬虫框架。观察分析页面。编写python程序抓取网页内容。掌握python中的各种数据类型的转换。[本章难点]:对爬虫的原理理解。Python的安装与开发环境。熟练书写并运行python爬虫。第3章Scrapy爬虫了解Scrapy爬虫概念,掌握Scrapy爬虫框架的安装,了解Scrapy爬虫的原理和流程,能够掌握Scrapy爬虫框架的实现的方式。[本章主要内容]:3.1Scrapy爬虫概述。3.2Scrapy原理(支撑课程目标1、3)。3.3Scrapy的开发与实现(支撑课程目标2、4、5)。3.4掌握Request对象。3.5掌握Response对象。3.6掌握Select对象。3.7掌握Spider开发流程(支撑课程目标2、4、5)。[本章重点]:1.Scrapy爬虫的安装。2.Scrapy爬虫的架构。3.Scrapy爬虫的对象的应用。4.Spider的开发流程。[本章难点]:Scrapy爬虫的安装。Scrapy爬虫的架构。第4章大数据存储与清洗[教学目的与要求]:了解数据存储的基本概念,掌握数据清洗的注意工具,能够应用python对数据进行标准化。[本章主要内容]:4.1大数据存储(支撑课程目标1)。4.2数据清洗概述、原理、流程及数据清洗工具介绍(支撑课程目标2)。4.3数据标准化的概念、方法及实例讲解(支撑课程目标2、4、5)。[本章重点]:数据清洗的工具。掌握Kettle的使用。掌握Excel的使用。字符编码。[本章难点]:Kettle的安装和使用。Excel的使用。字符编码。第5章pandas数据分析和清洗[教学目的与要求]:掌握pandas的安装和运行方法,掌握pandas的基本语法,能够使用pandas读取数据,并对数据进行清洗,了解pandas绘图原理,掌握pandas绘图方法。[本章主要内容]:5.1认识pandas。5.2pandas语法与使用(支撑课程目标2、3、5)。5.3pandas读取与数据清洗(支撑课程目标2、5)。5.4pandas数据可视化(支撑课程目标5)。[本章重点]:Pandas的使用。Pandas的数据分析。[本章难点]:Pandas的数据和数据清洗。Pandas的数据可视化。五、课内实验5.1本课程实验教学的地位和作用上机实验是巩固和掌握课程理论知识的必要环节。理解数据采集和数据分析的基本原理和一般设计规则。掌握使用python对网页数据进行采集的几种方法。掌握python中爬虫模块的使用规则。学会使用python对不同数据格式之间进行转换。能够对采集的数据,使用pandas进行数据分析,并对清洗后的数据进行可视化分析。上机实验课程可充分锻炼学生分析问题能力、上机操作能力以及撰写实验报告的能力。5.2教学基本要求通过学习的网络爬虫相关概念及爬虫的实现原理,使用python语音编写爬虫(如使用Requests库编程爬虫,)来抓取网页数据或使用Scrapy框架对网站数据进行简单的爬虫;通过学习的大数据数据格式和编码的特点,学生能够进行简单的与大数据有关的数据转换操作;通过学习pandas相关知识和案例,学生能够使用pandas对采集得到的数据进行数据清洗操作。结合实际应用,学会使用python爬虫数据并对爬虫数据进行清洗,得到最终需要的数据。5.3实验内容及要求大纲基本内容包括三个实验项目,在16个学时内完成。实验一使用python编写爬虫本实验为使学生掌握爬虫的实现原理,掌握使用python语音编写爬虫。指导教师应概述实验的原理和目的等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容:掌握爬虫的运行原理。掌握使用Requests库来编写爬虫。掌握代码的书写与调试要求:使用Requests库来编写爬虫爬取百度网页的数据使用brllib访问百度翻译并输出翻译结果使用爬虫程序爬取网页壁纸使用python代码编写爬虫实现下载彼岸桌面网址所有的壁纸图片使用python代码编写爬虫实现下载PDB库2-8体蛋白质pdb文件实验二Kettle及数据格式转换本实验为使学生掌握大数据存储的数据格式与编码特征。指导教师应概述实验的原理和目的等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容大数据存储的数据格式Kettle安装和使用过程要求:将XLM文档转换为JSON文档书写XML文档,内容如下:<图书><书名>红楼梦<|书名><作者>曹雪芹<|作者><主要内容>撰写贾宝玉与林黛玉的爱情故事及大家族的没落<|主要内容>Unicode编码的转换将ASCII转成Unicode编码利用Python实现数据之间的转换使用Kettle工具实现数据之间的转换使用Python实现从CSV到JSON格式的转换实验三Pandas库使用本实验为使学生掌握pandas库。指导教师应概述实验的原理和目的等内容,并对典型问题作针对性指导,以及监督实验室安全运转。具体实验步骤和结果分析、处理由学生独立完成。实验内容要求如下:课前预习内容Pandas库的调用掌握Pandas常用处理数据的函数和方法掌握Series和DataFrame数据类型要求:使用pandas分析和统计随机数据(统计总个数、最大值、最小值等)使用pandas读取CSV文档中的数据,并进行分析和清洗书写CSV文档的内容,并保存为animal.csv使用pandas读取CSV文档内容,选择0-2行的数据使用pandas读取CSV文档内容,选择跳过第1行和第3行数据使用pandas读取CSV文档内容,选择while大于1的数据使用pandas读取CSV文档中的数据,并清洗重复数据使用pandas读取CSV文档中的数据,并填充空值NaN数据使用pandas绘制线性图形使用pandas绘制散布图形5.4教学文件及教学形式教学文件:《Python爬虫和数据清洗》。教学形式主要包括:预习、课堂指导与实验操作、撰写实验报告。实验报告学生自拟。实验报告包括:描述实验目的、python代码,运行结果及结果分析,总结实验中出现的问题及解决方法。5.5实验项目及学时分配序号实验项目实验学时实验类型实验类别实验性质1使用python编写爬虫6验证专业必修2Kettle及数据格式转换4验证专业必须3Pandas库使用6验证专业必修六、课程学时分配教学课次教学内容教学环节与计划时数教学环节计划时数1绪论理论课22爬虫基础(一)理论课23爬虫基础(二)理论课24爬虫基础(三)理论课25爬虫基础(四)理论课26爬虫基础(五)理论课27Scrapy爬虫(一)理论课28Scrapy爬虫(二)理论课29*实验1使用python编写爬虫实验课210*实验1使用python编写爬虫实验课211*实验1使用python编写爬虫实验课212数据存储理论课213Kettle抽取网页数据(一)理论课214Kettle抽取网页数据(二)理论课215Excel抽取网页数据(三)理论课216*实验2Kettle及数据格式转换实验课217*实验2Kettle及数据格式转换实验课218Pandas语法与使用理论课219Pandas数据分析与清洗(一)理论课220Pandas数据分析与清洗(二)理论课221Pandas数据可视化理论课222*实验3Pandas库使用实验课223*实验3Pandas库使用实验课224*实验3Pandas库使用实验课2注:实验课由实验教师负责协调安排时间,原则上安排在课堂理论教学结束后、考试之前一周以上完成。七、课程考核与成绩评定7.1考核方式考核环节包括课程学习过程考核和期末考核,其中课程过程考核占总成绩的40%,分别由课堂表现、课后作业、实验情况进行评定;期末考核成绩占总成绩的60%,主要以完成课程大作业报告和讲解情况进行评定。各环节的比重如下。考核环节比重合计过程考核(平时成绩)课堂表现20%40%作业20%期末考核(大作业)大作业的报告30%60%大作业讲解30%总计100%100%7.2考核内容及要求本课程为考察课。考核内容及分值分配如下。考核方式考核内容分值课程目标总分值期末考核60%爬虫基础15目标1、2、5100分Scrapy爬虫10目标2、3Kettle抽取网页数据15目标4、5Excle抽取网页数据15目标4、5Pandas数据分析与清洗30目标1、2、3、5Pandas数据可视化15目标4、5过程考核40%课堂表现课堂测试、出勤情况15目标1、2、515分课后作业作业完成情况15目标2、3、410分实验实验出勤、实验表现及实验报告10目标3、4、515分7.3成绩评定1.课堂表现课堂表现总分15分,由课堂测试与课堂出勤情况评定。其中,课堂测试满分10分,以展示自己作业代码为主,每学期随堂测试10次左右;课堂出勤满分5分,缺勤一次扣1分,迟到或请假扣0.5分。2.课后作业课后作业总分10分,由作业完成情况评定。每学期布置作业10次,每次作业占1分,评分标准如下;评分标准分值标准描述课后作业3能够按时认真完成作业、作业态度认真、书写清楚、分析计算正确。2能够按时完成作业、作业态度较好、书写较清楚、分析计算基本正确1能够按时完成作业、作业态度一般、书写不清楚、分析计算错误较多0不交作业或作业态度不认真、抄袭他人作业3.实验成绩实验成绩占所学课程的15%,即15分。根据学生的实验表现及实验报告结果,进行综合评定。具体评分标准如下表所示。评分标准分值标准描述实验表现(10)5无迟到、早退现象,态度端正,认真完成实验要求,实验结束后,按要求整理工作台。4有迟到、早退现象或实验过程不够认真。3有迟到、早退现象且实验过程不认真。1有迟到、早退现象,实验过程不动手,浑水摸鱼。0旷课实验报告(5)5有完整python代码清晰合理,按要求完成实验,书写认真。4有完整python代码,整体能按要求完成实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 如何做好辅导员工课件
- 第1节 透镜(备课讲义)-2021-2022学年八年级物理上册同步备课讲义和课后训练(人教版)
- 《运筹学最大流问题》课件
- 《勒诺特式园林》课件
- 《高效团队管理》课件
- 二零二五年度苗木种植项目融资担保服务合同
- 安徽省合肥市瑶海区2024-2025学年七年级上学期期末考试语文试卷
- 《目标市场营销》课件
- 2025至2031年中国小兔子行业投资前景及策略咨询研究报告
- 《现代教育》课件
- 神舟,飞船,建造过程案例
- 国际区号时区对照表
- GB/T 10095.2-2023圆柱齿轮ISO齿面公差分级制第2部分:径向综合偏差的定义和允许值
- 高教-离散数学(修订版)-耿素云-屈婉玲(全)课件
- 安全阀拆除与回装方案
- 为未知而教为未来而学2
- 道德与法治五年级下册-课程纲要课件
- 软件开发项目工作量及报价模板
- 八年级上册英语阅读还原50题-含答案
- 中国铝业股份有限公司巩义市齐兴铝土矿矿产资源开采与生态修复方案
- 腹膜透析相关性腹膜炎的护理查房
评论
0/150
提交评论