大数据分析教学大纲教案_第1页
大数据分析教学大纲教案_第2页
大数据分析教学大纲教案_第3页
大数据分析教学大纲教案_第4页
大数据分析教学大纲教案_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据分析》课程教学大纲【课程名称】大数据分析【课程类型】专业必修课【授课对象】大数据技术与应用、云计算技术与应用专业【学时学分】周学时6,共72学时,3学分【课程概况】《大数据分析》课程是大数据技术与应用、云计算技术与应用专业必修课,是计算机基础理论与应用实践相结合的课程,也是大数据专业的高核心课程,它肩负着系统、全方面地理解大数据,提高大数据应用技能的重任。

本课程的先修课为《Python程序设计》、《大数据导论》、《数据库设计》和《计算机网络基础》课程,规定学生掌握计算机软件范畴的算法构造设计和程序设计的办法,大数据体系构造和网络技术的基本使用办法。【课程目的】通过本课程的学习,让学生接触并理解大数据分析的工作原理和使用办法,使学生含有Python大数据分析、设计和可视化开发的能力,含有Kettle大数据清洗和存储的基本技能,并含有较强的分析问题和解决问题的能力,为将来从事大数据有关领域的工作打下坚实的基础。【课程内容及学时分布】

教学周教学内容学时第一周重要介绍大数据的基本原理、发展历程和大数据的特性。2第一周重要介绍大数据的意义、我国的大数据市场预测和大数据的产业链分析。2第一周上机实验一:大数据的环境安装与大数据的数据认识。2第二周重要介绍爬虫基本概念、爬虫的地位与作用。2第二周重要介绍使用Python开发的技巧1。2第二周重要介绍使用Python开发的技巧2。2第三周重要介绍网页构造与爬虫基本库。2第三周重要介绍爬虫爬取网页的过程与实现办法。2第三周上机实验二:爬虫库的使用办法并爬取图片。2第四周重要介绍Scrapy爬虫的原理与工作过程。2第四周重要介绍Scrapy爬虫的架构与办法。2第四周上机实验三:Scrapy爬虫爬取网页内容。2第五周重要介绍数据库设计原理与基本办法、MySql的基本使用方式。2第五周重要介绍Python连接MySql并操作数据库。2第五周上机实验四:Python操作MySql数据库。2第六周重要介绍数据可视化的概念与工具2第六周重要介绍数据可视化中matplotlib的基础知识2第六周上机实验五:matplotlib数据可视化基础与实现2第七周重要介绍存matplotlib绘制多种图形。2第七周上机实验六:matplotlib可视化应用。2第七周

重要介绍pyecharts可视化。2第八周上机实验七:pyecharts可视化应用2第八周重要介绍数据存储的基础概念。2第八周重要介绍数据清洗的基本概念与重要工具,数据原则化技术与实现。2第九周上机实验八:数据清洗应用。2第九周重要介绍数据格式与编码技术。2第九周重要介绍Kettle数据清洗与转换工具的使用。2第十、十一周重要介绍Kettle数据清洗与转换的使用6第十一、十二周重要介绍Kettle数据抽取与数据采集的使用4第十二周重要介绍pandas数据分析与清洗6第十二周综合训练:规定学生根据本课程所学的内容进行综合设计:(1)数据清洗与采集(2)数据可视化2【课程规定与成绩评定】

评定项目规定比例平时成绩课堂体现、出勤、作业60%期末考试上机考试40%

【使用教材及教学参考书】 《大数据分析Python爬虫、数据清洗和数据可视化》清华大学出版社黄源等《大数据分析》课程教案(首页)课程/项目名称大数据分析课程总学时:72学时理论:36学时实验:36学时学分4课程课程类别:专业必修

■专业必修

公共必修

□公共选修

授课教师授课专业授课班级教学目的和规定通过本课程的学习,让学生接触并理解大数据分析的工作原理和使用办法,使学生含有Python大数据分析、设计和可视化开发的能力,含有Kettle大数据清洗和存储的基本技能,并含有较强的分析问题和解决问题的能力,为将来从事大数据有关领域的工作打下坚实的基础。教学重点、难点教学重点:理解大数据的基本原理;熟悉Python语言,能够自行安装和使用Python扩展库;掌握Python连接MySQL、能纯熟运用游标操纵数据库;掌握可视化的基本图表,能够设计可视化图表;掌握数据存储的基本概念;掌握数据清洗的基本概念;掌握数据原则化的基本概念;掌握数据编码的基本概念;掌握数据清洗的基本概念能够使用Pandas进行数据分析与清洗。

教学难点:如何对Python爬虫技术进行较好的应用;能纯熟运用Kettle进行数据采集、抽取与转换;掌握可视化的解决环节;纯熟掌握Pandas数据分析的办法;认识并掌握其它大数据开源工具。教学资源多媒体课件习题答案其它教学资源:《大数据分析》黄源等主编,清华大学出版社教学环境多媒体教学,课堂教学与学生上机实践相结合第1次课

2学时授课内容认识大数据教学目的与规定介绍大数据的定义与特性。通过本课的学习,学生应当掌握以下知识:1)

大数据的定义2)

大数据的基本原理3)

大数据的特性4)

大数据的历程重点难点1)大数据的特性教学进程安排

教学导入:介绍介绍大数据发展与特性,举例阐明大数据的重要作用,逐步引入到课程的介绍内容中来。授课内容:一、《大数据分析》课程介绍介绍本门课程的学科地位、考核方式、学习内容安排、能够参考的学习资料。二、讲授大数据的定义、原理与发展1)讲授大数据的定义2)讲授大数据的原理3)讲授大数据的发展历程4讲授大数据的特性

课后学习任务布置尝试在自己的电脑中,自己动手查找大数据的资料重要参考资料《大数据分析》黄源等主编,清华大学出版社第2次课

2学时授课内容大数据的意义教学目的与规定介绍大数据的定义与特性。通过本课的学习,学生应当掌握以下知识:1)大数据的战略2)大数据战略的国家层面3)大数据战略的公司层面

重点难点1)大数据的战略意义

教学进程安排

授课内容:一、讲授大数据的战略意义1)讲授国家层面的意义2)讲授公司层面的意义3)讲授个人层面的意义二、讲授大数据的产业链

课后学习任务布置尝试理解大数据的产业链。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第3次课

2学时授课内容上机实验(一)教学目的与规定旨在介绍大数据的安装环境,学生能够事实上机动手安装。通过本课的学习,学生应当掌握以下知识:1)理解大数据的安装2)掌握数据的分类

重点难点1)掌握在Windows中通过安装虚拟机安装Linux系统的办法。2)能够识别不同的数据类型。

教学进程安排

实验内容1)拟定数据的不同类型。小明所在公司要对存储的多种类型的数据进行分类,请你协助小明对下列数据集分类,指出其中的构造化数据,非机构化数据和半构造化数据。2)编写XML与JSON程序并理解程序的不同。3)为了更加好的应用大数据技术,小明公司要安装Linux操作系统,请你协助小明按照下列环节帮他安装Linux系统。

课后学习任务布置课后自行在机器中安装虚拟机及装Linux系统。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第4次课2学时授课内容爬虫基础(一)教学目的与规定介绍爬虫基本概念、爬虫的地位与作用:1)掌握爬虫的基本概念。2)掌握爬虫的作用。3)理解爬虫的运行机制。4)掌握Python的安装与开发环境重点难点1)爬虫的原理2)Python的安装与开发环境教学进程安排

授课内容:一、认识爬虫二、爬虫的地位与作用三、Python3介绍四、Python3的安装与使用五、Python3的开发环境

课后学习任务布置在机器上安装Python3,熟悉开发环境重要参考资料《大数据分析》黄源等主编,清华大学出版社

第5次课

2学时授课内容爬虫基础(二)教学目的与规定旨在介绍Python3的书写与运行。通过本课的学习,学生应当掌握以下知识:1)

书写Python3程序2)

掌握Python3的书写风格

重点难点1)纯熟书写并运行Python3程序

教学进程安排

知识回忆:如何安装Python3?以Python3为例,采用边讲授边练习的办法,开展下列内容的授课。授课内容:一、如何书写并运行Python3程序二、Python3程序的风格Python的语句很特别,它没有像其它诸多语言那样把要执行的语句用成对的{}花括号包起来,而是把语句向右边缩进了,这就是

Python的风格,它是靠缩进语句来表达要执行的语句的。三、Python3程序的注释四、Python3程序的调试

课后学习任务布置书写并运行Python3重要参考资料《大数据分析》黄源等主编,清华大学出版社

第6次课2学时授课内容爬虫基础(三)教学目的与规定旨在介绍Python3的多种数据类型及转换方式。规定学生应当纯熟掌握以下知识的运用:1)掌握Python3中的多种数据类型2)掌握Python3中的多种数据类型的转换

重点难点1)多种数据类型的掌握2)多种数据类型的互相转换教学进程安排

知识回忆:回忆上节课讲授的Python3中的程序书写。授课内容:一、介绍某些

Python惯用的数据类型,包含整型、浮点型、布尔类型、字符串类型、列表类型、元组类型等多种不同的数据类型,同时介绍与数据类型有关的知识。

二、介绍几个跟数据类型紧密有关的函数:int()、float()和str()。int()的作用是将一种字符串或浮点数转换为一种整数。float()的作用是将一种字符串或整数转换成一种浮点数,也即是转换为小数。str()的作用是将一种数或任何其它类型转换成一种字符串。

课后学习任务布置书写实例将Python3中的多种数据类型进行转换,使用int()、float()和str()重要参考资料《大数据分析》黄源等主编,清华大学出版社

第7次课

2学时授课内容爬虫基础(四)教学目的与规定爬虫重要是与网页打交道的,因此理解某些Python、Web前端与爬虫的有关知识是非常有必要的。通过本课的学习,学生应当掌握以下知识:1)

掌握网页构造

2)

掌握爬虫的实现办法3)

掌握Python3中爬虫模块

重点难点1)urllib模块的应用2)Requests的应用

教学进程安排

知识回忆:如何Python3程序?以Python3为例,采用边讲授边练习的办法,开展下列内容的授课。授课内容:一、理解网页构造无论我们通过浏览器打开网站、访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。

二、掌握爬虫实现

三、掌握Python3中爬虫模块urllib是URL和lib两个单词共同构成的,URL就是网页的地址,lib是library(库)的缩写。Requests

是用Python语言编写,基于urllib,采用

Apache2Licensed

开源合同的

HTTP

库。它比

urllib

更加方便,能够节省开发者大量的工作,完全满足

HTTP

测试需求。课后学习任务布置安装Requests库,并使用Requests库爬取网页内容重要参考资料《大数据分析》黄源等主编,清华大学出版社

第8次课2学时授课内容爬虫基础(五)教学目的与规定旨在介绍Python3的爬虫爬取网页内容。规定学生应当纯熟掌握以下知识的运用:1)掌握爬虫的运行原理2)掌握网页构造3)掌握代码的书写与调试

重点难点1)网页构造2)代码的实现

教学进程安排

知识回忆:回忆上节课讲授的爬虫库的内容。授课内容:一、根据学生-课程数据库中的数据,完毕下列查询:实现对酷狗音乐网页内容的爬取

1)分析网页构造2)分析要抓取的内容3)抓取过程分析4)获取页面内容

代码见书

课后学习任务布置复习和巩固爬虫爬取网页内容的多种办法重要参考资料《大数据分析》黄源等主编,清华大学出版社

第9次课

2学时授课内容上机实验(二)教学目的与规定旨在通过本实验考察学生对网络爬虫的掌握状况。规定学生应当纯熟掌握以下知识的运用:1)使用Requests库来编写爬虫。2)使用爬虫程序爬取网页壁纸

重点难点1)

PL/SQL的有效字符集的类型2)

PL/SQL程序块的构成教学进程安排

实验:(1)使用Requests库来编写爬虫爬取百度网页的数据,代码以下:>>>importrequests>>>

r=requests.get("http://www.百度.com")>>>r.status_code200>>>r.encoding='utf-8'>>>r.text二、分析爬虫目的,本实训目的网址是/weimei/index.htm,目的是通过用Python语言编写爬虫下载该网站全部的壁纸图片爬取出的图片将保存在该Python程序所存储保存的文献包中。课后学习任务布置爬取网站上的页面内容并保存。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第10次课

2学时授课内容Scrapy爬虫(一)教学目的与规定旨在简要重要介绍Scrapy爬虫的原理与工作过程,规定学生应当掌握以下知识:1)理解Scrapy爬虫2)掌握Scrapy爬虫的安装3)掌握Scrapy爬虫的架构4)掌握Scrapy爬虫的工作过程

重点难点1)

Scrapy爬虫的安装2)

Scrapy爬虫的架构教学进程安排

知识回忆:回忆上节课讲授的Python3中的爬虫应用。本节课进行下列内容的授课。授课内容:一、讲授Scrapy爬虫Scrapy是一种使用Python语言编写的开源网络爬虫框架,是一种高级的Python爬虫框架。二、讲授在Windows7中安装Scrapy框架在安装Scrapy框架之前,必须依次安装twiste包、whl包、lxml包、erface包、pywin32包和pyOpenSSL包。并在上述包全部安装完毕后,运行命令:pipinstallscrapy来安装Scrapy框架。三、讲授Scrapy框架原理Scrapy框架由ScrapyEngine、Scheduler、Downloader、Spiders、ItemPipeline、Downloadermiddlewares以及Spidermiddlewares等几部分构成四、讲授Scrapy框架的工作流程

课后学习任务布置在本机上安装Scrapy框架。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第11次课

2学时授课内容Scrapy爬虫(二)教学目的与规定旨在简要介绍Scrapy爬虫的对象与Spider开发流程,规定学生应当掌握以下知识:1)掌握Request对象2)掌握Response对象3)掌握Select对象3)掌握Spider开发流程重点难点1)

Scrapy爬虫的对象的应用2)

Spider的开发流程教学进程安排

知识回忆:回忆上节课讲授的Scrapy爬虫的基础本节课进行下列内容的授课。授课内容:一、讲授Request对象和Response对象

Scrapy中的Request对象和Response对象普通用于爬取网站,普通,Request对象在爬虫程序中生成并传递到系统,直到它们达到下载程序,后者执行请求并返回一种Response对象,该对象返回到发出请求的爬虫程序。二、讲授Select对象

Scrapy的数组组织构造是Selector,它使用xpath选择器在Response中提取数据。在使用Selector对象的时候要先使用xpath或者css选择器选中页面中要提取的数据,然后进行提取。3)

三、讲授Spider开发流程对于大多数顾客来讲,Spider是Scrapy框架中最核心的组件,Scrapy爬虫开发时普通是紧紧围绕Spider而展开的。

课后学习任务布置打开并查看Scrapy爬虫源代码,理解Spider的开发流程。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第12次课2学时授课内容上机实验(三)教学目的与规定旨在通过本实验考察学生对Scrapy爬虫框架的掌握状况。规定学生应当纯熟掌握以下知识的运用:1)掌握Scrapy爬虫的基本框架与工作过程。2)掌握Scrapy爬虫的运用与代码的书写。重点难点1)Scrapy爬虫的运用与代码的书写教学进程安排

知识回忆:回忆上节课讲授的Scrapy爬虫的基本基本知识。本节课引导学生进行下列内容的实验练习。实验内容:一、创立Scrapy项目并查看构造

二、创立一种最简朴的Spider爬虫三、编写代码并运行爬虫四、使用Scrapy框架编写爬虫访问网页代码见书

课后学习任务布置应用Scrapy爬虫爬取网页,通过修改代码来运行重要参考资料《大数据分析》黄源等主编,清华大学出版社

第13次课2学时授课内容数据库分析(一)教学目的与规定重要介绍数据库设计原理与基本办法、MySql的基本使用方式。规定学生应当掌握以下知识:1

掌握数据库模型2)掌握MySql的安装3)掌握MySql的基本操作重点难点1)MySql的基本操作

教学进程安排

本节课进行下列内容的授课。授课内容:一、讲授数据库基本概念二、讲授数据库构造模型数据库系统在总体构造上普通都体现为三级模式,分别是:模式、外模式和内模式。三、讲授MySql的安装与使用MySql数据库的基本操作重要分为操作MySql数据库和操作MySql数据表(1)创立数据库:createdatabase

数据库名

(2)查看数据库:

showdatabases

(3)选择指定数据库:use数据库名

(4)删除数据库:dropdatabase

数据库名MySql数据表的基本操作重要有下列几个:(1)创立数据表:createtable

数据表名

(2)查看数据表:showtables

(3)查看数据表构造:describe数据表名

(4)往数据表中添加统计:insertinto

数据表名

values

(5)修改数据表中统计:update数据表名

课后学习任务布置创立数据库、创立数据表并往表中插入统计。重要参考资料《大数据分析》黄源等主编,清华大学出版社第14次课2学时授课内容数据库分析(二)教学目的与规定旨在简要介绍Python中想要连接与操作MySql数据库,规定学生应当掌握以下知识:1)Python中连接MySql数据库的基本原理。2)Python中连接与操作MySql数据库的基本办法。重点难点1)Python中操作MySql数据库的基本办法教学进程安排

知识回忆:回忆之前讲授的MySql数据库的基本操作方式。本节课引导学生进行下列内容的实验练习。授课内容::一.如何使用Python连接MySql数据库在Python中想要连接MySql数据库需要一种驱动,用于和数据库的交互。在Python3中能够使用pymysql库来实现这一功效。pymysql库是一种纯Python库,能够直接安装使用二.Python操作MySql数据库:1)

创立MySql数据库和创立数据表并使用Python查询表中统计想要使用Python连接MySql,可在命令

importpymysql后输入下列命令:

db=pymysql.connect(host="",user="

",passwd="",db="",charset="")

在该命令中db代表数据库,pymysql.connect

表达使用pymysql库来连接MySql数据库(1)建立连接(2)获取游标(3)查询统计(4)返回成果(5)打印数据课后学习任务布置使用Python往user数据表中插入新的统计重要参考资料《大数据分析》黄源等主编,清华大学出版社第15次课

2学时授课内容上机实验(四)教学目的与规定旨在通过本实验考察学生对Python中连接操作MySql数据库的掌握状况。规定学生应当纯熟掌握以下知识的运用:1)Python连接MySql数据库。

2)Python操作MySql数据库。

3)查询语句的书写与应用。重点难点1)Python连接MySql数据库,建立数据表并查询成果教学进程安排

知识回忆:回忆上节课讲授Python中想要连接与操作MySql数据库的基本知识。本节课引导学生进行下列内容的实验练习。实验内容:一、新建school数据库

二、新建student数据表三、查看student数据表信息四、使用Scrapy框架编写爬虫访问网页五、查看student数据表构造六、往student数据表中添加多条数据七、将表中score的每个数据值加10八、输出并显示修改后的数据表数据值

代码见书

课后学习任务布置新建数据库,并建立数据表,使用Python进行数据库管理。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第16次课

2学时授课内容数据可视化(一)教学目的与规定旨在简要介绍数据可视化的基本概念与办法的使用办法,规定学生应当掌握以下知识:1)掌握数据可视化的概念2)理解数据可视化的发展3)理解数据可视的办法与应用4)理解数据可视化的图表重点难点1)数据可视化的办法2)数据可视化的应用教学进程安排

授课内容:一、讲授数据可视化的概念1)

数据可视化系统并不是为了展示顾客的已知的数据之间的规律,而是为了协助顾客通过认知数据,有新的发现,发现这些数据所反映的实质。课堂练习题:二、讲授数据可视化的发展三、讲授数据可视化的办法与应用1)

数据可视化技术包含的概念2)

数据可视化的构成3)

数据可视化的原则4)

数据可视化的应用四、数据可视化的多种图表介绍课后学习任务布置理解数据可视化的作品,理解数据可视化的发展历程重要参考资料《大数据分析》黄源等主编,清华大学出版社

第17次课2学时授课内容数据可视化(二)教学目的与规定旨在简要介绍数据可视化的实现,规定学生应当掌握以下知识:1)认识numpy基础2)认识matplotlib库3)掌握matplotlib库的实现重点难点1)numpy中的数学基础2)matplotlib库的实现教学进程安排

知识回忆:回忆之前讲授的数据可视化的基本概念。本节课引导学生进行下列内容的实验练习。授课内容:一、讲授数据可视化的numpy库

1、numpy是Python做数据解决的底层库,是高性能科学计算和数据分析的基础,例如知名的Python机器学习库SKlearn就需要numPy的支持。掌握numPy的基础数据解决能力是运用Python做数据运算及机器学习的基础。

2、在Windows中进入cmd命令后,直接运行pipinstallnumpy即可完毕,安装完毕后输入importnumpy,如果没报错则表达成功。二、讲授数据可视化的matplotlib库

1、

matplotlib

是一种

Python

2D绘图库,它以多种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形

2、matplotlib库装与运行。在Windows中进入cmd后,直接输入命令python-mpipinstall--usermatplotlib-2.1.0-cp36-cp36m-win32.whl

来执行matplotlib程序的安装。课后学习任务布置安装numPy库和matplotlib库重要参考资料《大数据分析》黄源等主编,清华大学出版社

第18次课

2学时授课内容上机实验(五)教学目的与规定旨在通过上机实验练习

matplotlib中的可视化应用,通过本课的学习,学生应当掌握以下知识:1)掌握matplotlib库的导入2)掌握matplotlib库的可视化办法3)掌握matplotlib库的可视化实现重点难点1)matplotlib库的可视化办法

教学进程安排

知识回忆:回忆上一节课的重要内容,涉及matplotlib基础实验内容:一、使用matpotlib.pyplot绘图

二掌握matpotlib.pyplot绘图函数三、用numpy库和matplotlib库绘制图形

代码见书课后学习任务布置1、用numpy库和matplotlib库绘制图形重要参考资料《大数据分析》黄源等主编,清华大学出版社

第19次课

2学时授课内容数据可视化(三)教学目的与规定旨在简要介绍数据可视化的实现,规定学生应当掌握以下知识:1)认识numpy基础2)认识matplotlib库3)掌握matplotlib库的实现重点难点1)使用matplotlib库能够绘制多种图形教学进程安排

授课内容:一、讲授数据可视化使用matplotlib库能够绘制多种图形

1、使用matplotlib库能够绘制多种图形,其中最基本的是线性图形,重要由线条构成。

2、柱状图也叫作条形图,是一种以长方形的长度为变量的体现图形的统计报告图,由一系列高度不等的纵向条纹表达数据分布的状况,用来比较两个或以上的数值。3、直方图又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表达数据分布的状况。普通用横轴表达数据类型,纵轴表达分布状况。

4、散点图在回归分析中使用较多,它将序列显示为一组点。值由点在图表中的位置表达,类别由图表中的不同标记表达,因此散点图普通用于比较跨类别的聚合数据。

5、极坐标图是指在平面内由极坐标系描述的曲线方程图。极坐标是指在平面内由极点、极轴和极径构成的坐标系。极坐标图用于对多维数组进行直接的对比,多用在公司的可视化数据模型的对比与分析中。

6、饼图用于表达不同分类的占比状况,通过弧度大小来对比多种分类,饼图通过将一种圆饼按照分类的占比划分成多个区块,整个圆饼代表数据的总量,每个区块(圆弧)表达该分类占总体的比例大小。

二、讲授代码实现代码见书课后学习任务布置进一步练习使用matplotlib库能够绘制多种图形重要参考资料《大数据分析》黄源等主编,清华大学出版社第20次课

2学时授课内容上机实验(六)教学目的与规定旨在通过上机实验练习

matplotlib中的可视化应用,通过本课的学习,学生应当掌握以下知识:1)掌握matplotlib库的导入2)掌握matplotlib库的可视化办法3)掌握matplotlib库的多种图形的可视化实现重点难点1)使用Python绘制多种图形

教学进程安排

知识回忆:回忆上一节课的重要内容,涉及matplotlib基础实验内容:一、使用matpotlib绘制线性图形

二、使用matpotlib绘制柱状图形三、使用matpotlib绘制条形图形四、使用matpotlib绘制散点图形五、使用matpotlib绘制极坐标图形代码见书课后学习任务布置1、练习绘制多种绘制图形。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第21次课

2学时授课内容数据可视化(四)教学目的与规定旨在简要介绍数据可视化的实现,规定学生应当掌握以下知识:1)认识pyecharts基础2)使用

pyecharts绘制图形重点难点1)pyecharts的安装2)pyecharts的实现

教学进程安排

知识回忆:回忆数据可视化的定义和使用。授课内容:一、讲授数据可视化pyecharts介绍

1、pyecharts

是一种用于生成

Echarts

图表的类库,而Echarts是一种开源的数据可视化JS库,同时也是商业级数据图表,一种纯Javascript的图表库,能够流畅的运行在PC和移动设备上。使用pyecharts能够让开发者轻松的实现大数据的可视化。2、pyecharts的安装在使用pyecharts之前,首先要安装它。使用下列命令来执行安装过程:pipinstallpyecharts二、讲授代码实现代码见书课后学习任务布置使用

pyecharts绘制图形重要参考资料《大数据分析》黄源等主编,清华大学出版社第22次课

2学时授课内容上机实验(七)教学目的与规定旨在通过上机实验练习

matplotlib中的可视化应用,通过本课的学习,学生应当掌握以下知识:1)掌握pyecharts的安装2)掌握pyecharts的可视化办法

重点难点1)pyecharts的安装2)pyecharts的可视化实现

教学进程安排

知识回忆:回忆上一节课的重要内容,涉及pyecharts基础实验内容:一、使用pyecharts绘制条形图

二、使用pyecharts绘制仪表图三、使使用pyecharts绘制3D图四、使用pyecharts绘制地图代码见书课后学习任务布置综合练习,使用pyecharts绘制图形。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第23次课

2学时授课内容数据存储教学目的与规定旨在介绍数据存储的基本概念,通过本课的学习,学生应当掌握以下知识:数据存储的基础概念重点难点1)数据存储的类型2)数据存储的方式3)数据存储的核心技术教学进程安排

知识回忆:回忆大数据的定义和应用。授课内容:一、讲授数据存储的概念

1、大数据存储普通是指将那些数量巨大、难于收集、解决、分析的数据集持久化到计算机中。在进行大数据分析之前,首先的环节就是要将海量的数据存储起来,方便此后的使用。因此,大数据的存储是数据分析与应用的前提。二、讲授数据存储的类型大数据存储的类型重要有下列三种:块存储、文献存储和对象存储。三、讲述数据存储的方式大数据的存储方式重要有分布式存储、NoSQL数据库、NewSQL数据库以及云数据库四种。四、讲述数据存储中的核心技术大数据存储中的核心技术重要有基于MPP架构的新型数据库集群、基于Hadoop的技术扩展以及大数据一体机等课后学习任务布置理解数据存储重要参考资料《大数据分析》黄源等主编,清华大学出版社

第24次课

2学时授课内容数据清洗(一)教学目的与规定旨在介绍数据清洗,学生应当掌握以下知识:1)理解数据清洗的基本概念2)理解数据清洗重要工具。3)理解数据原则化技术与实现

重点难点1)数据清洗的工具

教学进程安排

知识回忆:回忆上一章数据存储,本节课将开展下列内容的讲授。授课内容:一、数据清洗概念数据清洗就是指把“脏数据”彻底洗掉,涉及检查数据一致性,解决无效值和缺失值等,从而提高数据质量。在实际的工作中,数据清洗普通占开发过程的50%-70%左右的时间。二、数据清洗原理

数据清洗的原理是运用有关技术如数据仓库、数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量规定的数据。三、数据清洗工具1)OpenRefine2)Kettle四、数据原则化

课后学习任务布置1、下载并安装OpenRefine与Kettle。

重要参考资料《大数据分析》黄源等主编,清华大学出版社

第25次课

2学时授课内容上机实验(八)教学目的与规定旨在介绍数据清洗的使用方法,学生应当掌握以下知识:1)掌握openRefine的使用2)掌握Kettle的使用3)掌握Excel的使用重点难点1)掌握OpenRefine的流程2)

掌握Excel的使用

教学进程安排

知识回忆:回忆上一节数据清洗的原理,本节课将开展下列内容的讲授。实验内容:一、运行OpenRefine数据清洗软件,对数据进行查看、清洗并导出数据二、使用Excel进行数据有效性分析三、使用Excel进行数据有效性分析,并去除重复的数据

代码见书

课后学习任务布置1、用Excel进行数据有效性分析,并去除重复的数据。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第26次课

2学时授课内容数据格式与编码技术教学目的与规定旨在介绍安文献格式的基本概念和使用方法,学生应当掌握以下知识:1)

掌握文献格式2)

掌握数据类型3)

掌握字符编码重点难点1)字符编码

教学进程安排

知识回忆:回忆上一节数据清洗的使用方法;授课内容:一、文献格式文献格式是指在计算机中为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。如文本文献、视频文献、图像文献等。在这些文献中它们功效不同,有的文献用于存储文字信息,有的文献用于存储视频信息,有的文献用于存储图像信息等。二、数据类型

数据类型是指是一种值的集合和定义在这个值集上的一组操作的总称。它的出现是为了把数据分成所需内存大小不同的数据,方便于程序的运行。普通能够根据数据类型的特点将数据划分为不同的类型,如原始类型、多元组、统计单元、代数数据类型、抽象数据类型、参考类型以及函数类型等。在每种编程语言和数据库中都有不同的数据类型。三、字符编码

字符编码也叫作字集码,把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),方便文本在计算机中存储和通过通信网络的传递。常见的例子涉及将拉丁字母表编码成摩斯电码和ASCII。

课后学习任务布置理字符编码的多种使用方法。重要参考资料《大数据分析》黄源等主编,清华大学出版社

第27次课

2学时授课内容Kettle数据清洗与转换(一)教学目的与规定旨在介绍Kettle数据清洗与转换工具的使用,学生应当掌握以下知识:1)

掌握Kettle的工作流程2)

掌握Kettle的应用重点难点1)Kettle的多种使用方法

教学进程安排

授课内容:

知识回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论