大数据导论教案_第1页
大数据导论教案_第2页
大数据导论教案_第3页
大数据导论教案_第4页
大数据导论教案_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据导论教学教案第1章 什么是大数据课时内容大数据的概念、发展历程授课时间45分钟课时1和主要特征一教学目标0 让学生了解什么是大数据,以及大数据的社会价值体现在人类生活的哪些方面教学重点0 了解人类信息文明的发展历程0熟悉大数据时代的来临和具体发展表现0掌握大数据的主要特征0掌握大数据的社会价值教学难点0熟悉大数据的4V特征教学设计1、教学思路:(1)阐释人类信息文明的发展历程及其对人类生活产生的影响;(2) 讲解信息技术主要解决的4个核心问题的具体发展表现;(3)理论阐述了数据生 产方式的变革历程,以及各个阶段的具体发展情况;(4)从数据、技术特征两个 方面分析大数据的主要特征;(5)大

2、数据的社会价值体现在哪些方面。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学生的学习兴趣; (2)从系统的角度出发,全面介绍了大数据技术的基础知识,作为大数据技术的 基础教材,以提升读者对大数据的认知,每章结束都配有习题,帮助老师进行考查。教学内容一、导入新课:“大数据”的横空出世半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸己经积累到一个开始引发变革的 程度。它不仅使世界充斥着以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学 和基因学,创造出了“大数据”这个概念。这个概念几乎应用到所有人类智力与发展的领域中。“大数据”带来的影响当人们还在津津乐道云计算、

3、物联网等主题时,一个崭新的概念“大数据”横空出世。大数据 是名继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业 务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美兀的价 值,将是未来IT领域最大的市场机遇之一,其作用堪称是又一次工业革命。“大数据”产生的背景随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番, 根据监测,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于 之前产生的全部数据量。大量新数据源的出现则导致了非结构化、非结构化数据爆发式的增长。信 息数据的单

4、位由TB、PB、EB,再到ZB的级别,这些由我们创造的信息背后产生的这些数据早己远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的领域,于是大 数据的概念应运而生。从三个层面认知“大数据”大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程 优化能力的海量、高增长率和多样化的信息资产。今第一层面:理论理论是认知的必经途径,也是被广泛认同和传播的基线。从大数据的特征定义理解行业对大数 据的整体描绘和定性,从对大数据价值的探讨来深入解析大数据的珍贵所在,洞悉大数据的发展趋 势。从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈

5、。个第二层面:技术技术是大数据价值体现的手段和前进的基石。可以从云计算、分布式处理技术、存储技术和感 知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。个第三层面:实践实践是大数据的最终价值体现,我们从互联网的大数据,政府的大数据,企业的大数据 个人的大数据四个方面来描绘大数据己经展现的美好景象及即将实现的蓝图。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。人类信息文明的发展大数据时代的来临信息技术的发展数据产生方式的变革大数据的主要特征大数据的数据特征大数据的技术特征大数据的社会价值三、讨论问题1-1简述人类信息文明的发展过程并展望未来的发展方向。1-2大数据的技术特点

6、和技术优势在哪里?1-3简单描述大数据的主要特征。1-4结合实际谈谈大数据的社会价值。一、 归纳小结随着社交网络、物联网、云计算的飞速发展,大量非结构化数据呈指数级快速增 长,数据样式高度复杂,为人类认识世界,改造世界提供了重要的资源,企业和个人 通过网络可以大规模的收集和分析数据,也可以产生和发布数据,个体在互联的网络 中既是数据的消费者又是数据的生产者。大规模生产、分享、应用数据的大数据时代 己经来临。与此同时,数量巨大,种类繁多的数据给传统的数据获取、分析、处理、 存储、检索技术带来了挑战,大数据成为广泛关注且急需解决的热点问题,并已经开 始影响社会的发展与人们的日常生活。思考及作 业大

7、数据时代已经来临,各国将在这一新的领域展开新一轮的竞争,我国应当与 时俱进,及时转型,适应大数据时代的到来,可以借鉴各国的做法,抓住大数据时代 关键点,从国家战略制定、人才培养、基础技术研究、信息安全保障体系建设等方面 展开相应的工作。二、拓展延伸:(1)大数据时代是在什么背景环境下产生的,它对我们的现实生活产生了哪些方面的 影响?(2)大数据时代的个人隐私如何保护?(3)结合实际生活,谈一谈大数据的社会价值主要体现在哪些方面。(4)大数据要解决的核心问题是什么?第2章 大数据技术基础课时内容大数据技术基础授课时间90分钟课时2教学目标本章课程在注重大数据时代应用环境前提下,从初学者角度出发,

8、以轻量级理论、 丰富的实例对应性地介绍了大数据常用计算模式的各种系统和工具。将经典和核心的 行业技术作为本章的主要内容,讲解计算机操作系统的基本知识,帮助读者建立对大 数据技术基础的整体印象。教学重点0掌握计算机操作系统的基础知识0理解和掌握编程语言0掌握数据库的主要数据类型0理解算法的涵义0掌握大数据系统0熟悉大数据应用开发流程教学难点0理解什么是大数据技术基础0 熟悉Linux操作系统经历的3个发展阶段0熟悉编程语言的发展和种类0 掌握Python语言自身的优点和在实际应用方面的便捷性0 了解数据库技术是信息技术的核心技术0重点关注传统算法和大数据时代算法的区别0 Hadoop平台和Spa

9、rk平台的基本构成和特征0 掌握大数据的3种主要数据类型0熟悉典型的大数据应用开发流程0 了解典型的数据科学算法应用流程教学设计1、教学思路:(1)通过本章的学习,使读者掌握计算机操作系统的基本知识,建立 对大数据技术基础的整体印象;(2)介绍Linux操作系统经历的3个主要发展阶段和 目前Linux的主要应用场景;(3)回顾编程语言的发展,详细介绍编程语言的种类, 并讲解了当前流行的一门编程语言Python语言的特点和优势;(4)简述传统SQL数 据库的发展历程,讲解其技术特点;(5)比较NoSQL和NewSQL数据库的技术特色 和特点;(6)分别讲述Hadoop和Spark大数据平台的基本

10、构架和工作原理;(7)简 述大数据应用开发的一般流程及典型数据科学算法的应用流程。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣; (2)深入讲解知识点内容,理论与案例相结合,在教学过程中掌握大数据分析的实践 操作,通过丰富简单易上手的实例,让学生能够切实体会和掌握各种类型工具的特点 和应用。教学内容一、导入新课:大数据行业经过最近几年跨越式的发展,产生了一批与之相关的核心行业技术,我们将其 统称为“大数据技术”。这些经典的、核心的行业技术就是本书的主要内容。计算机作为促进当 代信息技术发展的重要工具,对社会、经济发展的影响越来越显著,越发受到人们的重视,其操作 系

11、统也越来越庞大和复杂。因此,理解计算机操作系统的基础知识是学习并掌握大数据技术知识的 前提,熟悉各种操作系统经历的发展阶段对于更好的理解其理论和知识架构奠定了基础。大数据有几个特性,最著名的是数据量(volume),速度(velocity),多样性(variety)。除此以外,还有就是准确 性(veracity),连通性(valence),和价值(value)。从操作系统的概念入手,简要分析了操作系统程 序和一般的应用程序有什么区别和联系,然后讲解了诞生于网络、成长于网络且成熟于网络的 Linux操作系统,并分别讲述其经历的3个发展阶段所具有的特点和目前Linux的主要应用场景。随 着计算机技

12、术的不断发展和完善,编程语言已经得到了长足的发展,并被广泛地应用于实际,已 经成为人们与计算机进行深入“交流”的必需工具。总结介绍了目前市场上所用的主要编程语言 种类及其特点,重点讲解编写简单,应用广泛,功能强大和更新速度最快的Python语言。SQL涵盖数据的查询、操作、定义和控制,是一个综合的、通用的且简单易懂的数据库综合管 理语言,同时又是一种高度非过程化的语言,数据库管理者只需要指出做什么而不需要指出怎么做, 即可完成对数据库的管理。SQL可以实现对数据库的全生命周期的全部操作,所以自产生之日起就 成了检验关系型数据库管理能力的试金石,并且SQL标准的每一次变更和完善都指导着关系型数

13、据库产品的发展方向,并分述NoSQL数据库、NewSQL数据库的技术特色和特点。算法(Algorithm)是数学处理的灵魂和核心,也是实现现实事务数学化、公式化和逻辑化处理 的桥梁,可以说算法是信息时代连通现实社会和虚拟世界的立交桥。本章内容重点关注传统算法和 大数据时代算法的区别,系统阐述两种算法的本质区别在于数据分析和数据科学。简要介绍大数据系统目前最为著名和流行的adoop平台和Spark平台,分别介绍其主要模块,平 台基本特征和典型技术特点等。随着大数据时代的到来,我们不得不承认如今数据量的激增越来越明显,各种各样的数据铺天 盖地的砸下来,企业选择相应工具来存储、分析与处理它们。那么在

14、大数据时代中,都有哪些数据 类型?结构化数据:能够用数据或统一的结构加以表示,人们称之为结构化数据,如数字、符号。传 统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。半结构化数据:所谓半结构化数据,就是介于完全结构化数据(如关系型数据库,面向对象数 据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,XML、HTML文档就属 于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。非结构化数据库是指其字段长度可变,并且每隔字段的记录又可以由可重复或不可重复的子字 段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化

15、 数据(全文文本,图像,声音,影视,超媒体等信息)。现实中,大数据的数据类型渗透在日常生活中的各个方面。现如今大数据更接近于某个群体行 为数据,它是全面的数据、准确的数据、有价值的数据。这些新类型数据相信大家都很熟悉,它们 已经比传统数据类型更深入地走进了我们生活。1、一些记录是以模拟形式方式存在的,或者以数据形式存在但是存贮在本地,不是公开数据资 源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数 据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。2、移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,它们每天产生

16、了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。3、电子地图生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个 度量值,但是这些地图产生的流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生。4、进入了社交网络的年代后,互联网行为主要由用户参与创造,大量的互联网用户创造出海量 的社交行为数据,这些数据是过去未曾出现的。其揭示了人们行为特点和生活习惯。5、电商户崛起产来了大量网上交易数据,包含支付数据,查询行为,物流运输、购买喜好,点 击顺序,评价行为等,其是信息流和资金流数据。6、传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了

17、海量数据。单位存 储价格的下降也为存储这些数据提供了经济上的可能。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。计算机操作系统什么是操作系统Linux操作系统编程语言编程语言的发展与种类Python 语言数据库SQL数据库的发展与成熟NoSQL数据库及其特点NoSQL数据库的分类NewSQL 数据库算法什么是算法大数据时代的算法大数据系统Hadoop 平台Spark 平台大数据的数据类型结构化数据半结构化数据非结构化数据大数据应用的开发流程数据科学算法的应用流程三、讨论问题:2-1什么是操作系统的核心。操作系统核心的主要作用有哪些?2-2 Linux操作系统的优势和主要的特点有哪些?2

18、-3何为静态编程语言,何为动态编程语言?两者的联系和不同有哪些?2-4简述传统SQL数据库的发展历程。2-5 SQL数据库的技术特点有哪些?2-6 NoSQL和NewSQL数据库的技术特色和技术特点有哪些?2-7简述Hadoop和Spark大数据平台的基本构架和工作原理。2-8简述大数据开发的一般流程。思考及作 业一、归纳小结:课堂上注意讲、学、练相结合,注重以学生为主体,积极与学生互动,调动学生 的学习主动性和学习兴趣,培养学生发现问题、解决问题的实际能力。采用任务驱动,问题牵引的方式,提出问题,之后带动学生在教师的讲解下一步 步寻找解决方法,再归纳总结出知识点,结合教学课件和实际案例,寻找

19、合适的切入 点,以讲授和实例分析为主的形式完成教学,让读者对理论知识的掌握更直接、更快 速。二、拓展延伸:(1)为什么说操作系统是整个计算机硬件系统的“CEO”?这个神通广大的操作 系统都有哪些“神通”之处?(2)NoSQL数据库的特点都有哪些? NoSQL数据库有哪些类型?(3)什么是算法?传统的数据算法与大数据时代的数据算法有什么本质区别?(4)举例说明机器学习具有显著的技术特征和计算特色,以及主要包括的技术优 势有哪些。(5)Hadoop平台的三大组成是什么?在当前经济、商业、技术领域里有什么适 应性优势?(6)大数据的主要数据类型主要有哪些?请分别说明其特点和主要应用范围。第3章 数据

20、采集与预处理课时内容数据采集与预处理授课时间90分钟课时2教学目标本章详细阐述数据采集与预处理技术,包括大数据的数据采集方法、数据来源、数据 预处理技术。教学重点0 了解大数据的来源0掌握数据的采集方法0掌握数据预处理流程教学难点0 了解大数据的来源0掌握数据的采集方法与数据预处理的主要流程教学设计1、教学思路:(1)从传统商业数据、互联网数据和物联网数据3个主要方面剖析大 数据的来源,阐述各种大数据来源的特点;(2)介绍多款数据采集工具,让读者全面 理解和掌握数据的采集方法,讲解数据预处理的基本流程,介绍数据预处理所包含的 内容和采用的方法,论述数据预处理在数据挖掘中的重要地位和作用。2、教

21、学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣; (2)深入讲解知识点内容,理论与案例相结合,在教学过程中掌握数据的采集方法和 数据预处理技术的目的和流程,通过丰富简单易上手的实例,让学生能够切实理解和 掌握数据采集与预处理的相关知识内容。教学内容一、导入新课:随着信息时代的来临,大数据对各行各业都带来了较大的影响。企业、个人利用大数据,给业 务和生活带来了便利,在信息社会中,大多数行业的发展都离不开大数据的支持。在数据量非常大 的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业 内不断探讨的议题。大数据的来源非常广泛,如信息管理系统、

22、网络信息系统、物联网系统、科学 实验系统等。本章从以下3个层面阐述了大数据的来源和主要特点。个 传统商业数据是来自于企业ERP系统、各种POS终端及网上支付系统等业务系统的数据,传统 商业是主要的数据来源。个 互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及QQ、微信、微博等社交 媒体产生的数据,其数据复杂且难以被利用。个 物联网数据是除了人和服务器之外,在射频识别、物品、设备、传感器等节点产生的大量数据, 包括射频识别装置、音频采集器、视频采集器、传感器、全球定位设备、办公设备、家用设备 和生产设备等产生的数据。数据采集技术是数据科学的重要组成部分,已广泛应用于国民经济和国防建

23、设的各个领域,并 且随着科学技术的发展,尤其是计算机技术的发展和普及,数据采集技术具有更广泛的发展前景。 大数据的采集技术为大数据处理的关键技术之一。安排在此章系统讲解数据的采集方法十分必要, 能够帮助读者熟悉并掌握系统日志的采集方法、网页数据的采集方法和其他数据的采集方法,使读 者快速跨入大数据技术的大门,帮助大数据技术的初学者尽快了解大数据技术。简要介绍几款采用分布式架构的海量数据采集工具,对Scribe、Chukwa、Flume的基本架构、 主要功能和对日志类数据的采集、存储、分析和展示的全套解决方案展开描述,让读者系统理解系 统日志的采集方法。网络数据采集称为“研抓屏”、“数据挖掘”或

24、“网络收割”,通过“网络爬虫”程序实现。 网络爬虫一般是先“爬”到对应的研上,再把需要的信息“铲”下来。网络爬虫采集和处理数据包括采集模块、数据处理模块、数据模块这3个重要模块。了解爬虫的基本工作流程,并掌握URL 抓取策略,我们在实际使用网络爬虫时可根据具体需要选择适合的策略即可。另外,对企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究 机构合作,使用特定系统接口等相关方式采集。解决大数据的隐私问题是数据采集技术的重要目标 之一。现阶段的医疗机构数据更多来源于内部,外部的数据没有得到很好的应用。对外部数据,医 疗机构可以考虑借助如百度、阿里、腾讯等公司第三方数据平台

25、解决数据采集难题。大数据并不在“大”,而在于“有用”,数据质量比数量更为重要,然而数据通常并非完美。 准确、高质量的数据是大数据产生价值的有力保证。在大数据环境下,数据质量的优劣直接影响数 据价值的高低,进而影响人们的分析和决策。因此,数据预处理是数据挖掘前必不可少的准备工作, 是数据挖掘中非常关键的一步。数据预处理通过对数据格式和内容的调整,使数据更符合挖掘的需 要,从而保证数据挖掘的正解性和有效性。我们首先要弄清什么是影响数据质量的因素,数据质量 问题可能发生在大数据处理流程的每一个阶段,尤其是在数据采集和集成阶段最容易出现低质量的 数据,从而影响后续的建模分析和挖掘,最终出现错误的分析结

26、果,引起决策失误。评估数据质量的标准是衡量数据在某一方面的性质,如准确性、完整性、一致性、及时性、可 信性、可解释性、重复性、关联性等。它们反映了数据质量的特性和用户的需求。列举其中几个比 较重要的特性,分别描述它们的含义和用途。数据预处理的主要流程包括数据清洗、数据集成、数据变换、数据归约等。经过这些处理步 骤,我们可以从大量的数据属性中提取出一部分对目标输出有重要影响的属性,降低源数据的维 数,去除噪声等,为数据挖掘算法提供干净、准确且更有针对性的数据,减少挖掘算法的数据处 理量,改进数据的质量,提高挖掘效率。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。大数据的来源传统商业数据互

27、联网数据物联网数据数据的采集方法系统日志的采集方法网页数据的采集方法其他数据的采集方法数据预处理影响数据质量的因素数据预处理的目的数据预处理的流程三、讨论问题:3-1大数据的来源有哪些?3-2针对不同类型的数据,采用什么样的采集方法?3-3数据预处理的目的是什么?3-4数据清洗需要清洗哪些数据,应使用哪些方法?3-5数据集成过程中需要处理的问题有哪些?归纳小结:大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布 式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和 不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面: 数据采集

28、与预处理、数据存储、数据清洗、数据查询分析和数据可视化。对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和 非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么 意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些 数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型 数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将 日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运 维困难,需要更强壮的解决方案。思考及作 业读者通过本章的系统学习,课堂上注意讲、学、练相结合

29、,注重以学生为主体, 积极与学生互动,调动学生的学习主动性和学习兴趣,培养学生发现问题、解决问题 的实际能力。采用任务驱动,问题牵引的方式,提出问题,之后带动学生在教师的讲解下一步 步寻找解决方法,再归纳总结出知识点,结合教学课件和实际案例,寻找合适的切入 点,以讲授和实例分析为主的形式完成教学,让读者对理论知识的掌握更直接、更快 速。在掌握了数据采集的方法和数据预处理的技术方法后,才能在庞大而复杂的数据 中剔除有残缺的、虚假的、过时的数据,为决策带来高回报,最终获得高质量的分析 挖掘结果。二、拓展延伸:(1)网页数据的采集工具有哪些?(2)简述数据预处理的技术的必要性和任务。第4章 大数据存

30、储与管理课时内容大数据存储模式与管理应用授课时间90分钟课时教学目标本章首先讨论数据的存储介质,然后介绍常见的存储模式,以及大数据时代的存储管 理系统。教学重点0掌握数据的存储模式0理解并掌握大数据时代的存储管理系统教学难点0理解数据存储的概念和种类0 熟练掌握常用的3种数据存储模式0理解分布式平台存储大数据的意义和优势,掌握分布式文件系统基础架构教学设计1、教学思路:(1)介绍早期的存储介质和目前常见的数据存储介质种类及其特点; (2)简述数据常见的3种存储模式,列举各种存储模式的优缺点和适用场景;(3) 在大数据时代,需要进行存储技术的变革,采用分布式平台存储大数据,讲解分布式 文件系统的

31、基础架构;(4)描绘数据库家族图谱,讲解数据库的种类和特点,通过数 据库提供的多种方式来管理数据库里的数据。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣; (2)深入讲解知识点内容,理论与案例相结合,引入常见的数据存储模式,通过丰富 简单易上手的实例,让学生能够切实理解和掌握大数据的存储管理知识。教学内容一、导入新课:在大数据时代的背景下,海量的数据整理成为了各个企业急需解决的问题。对于企业来说,数 据对于战略和业务连续性都十分重要,它是业务文档、计划、用户数据和财务信息的积累,是任何 业务基础设施的核心组件。云计算技术、物联网等技术快速发展,多样化已经成为数据信

32、息的一项 显著特点,为充分发挥信息应用价值,有效存储已经成为人们关注的热点。为了有效应对现实世界 中复杂多样性的大数据处理需求,需要针对不同的大数据应用特征,从多个角度、多个层次对大数 据进行存储和管理。管理大数据的关键是制定战略,以高自动化、高可靠、高成本效益的方式归档 数据。大数据现象意味着企业机构应对大量数据,以及各种数据格式的挑战。多样化作为有效方式 而在各行各业兴起,是一种涉及各种产品来支持数据管理战略的数据存储模式。这些产品包括自动 化、磁盘和重复数据删除、软件,以及备份和归档。支撑这一方式的原则就是:特定类型的数据坚 持使用合适的存储介质,在现实中需要一套与各种功能相匹配的解决方

33、案。本章综述了基于新型存储的大数据存储管理技术,分析了现有大数据存储技术的局限性,介绍 了新型存储的特点和发展概况,总结了基于新型存储的大数据存储架构、基于新型存储的大数据存 储管理等方向的研究现状,在此基础上给出了基于新型存储的大数据存储与管理的若干未来研究方 向。目前,大数据面临的存储管理问题主要体现在:种类和来源多样化、存储管理复杂、对数据服 务的种类和水平要求越来越高等。目前,大数据主要来源于搜索引擎服务、电子商务、社交网络、 音视频、在线服务、个人数据业务、地理信息数据、传统企业、公共机构等领域。因此数据呈现方 法众多,可以是结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式

34、无法满足数据时 代的需求,还导致存储管理更加复杂。针对大数据高效存储与管理问题,目前除了 Hadoop技术之外,学术界和工业界也提出了一些其 他的设计,包括以NoSQL数据库为代表的大规模分布式数据库系统设计、基于动态随机存取存储器 (dynamic random access memory, DRAM)的内存数据库技术等。但现有的NoSQL分布式数据库技术仍以磁盘存储或者“磁盘+闪存flash memory)”混合存储的方式存储数据,本质上还是传统 的“CPUDRAM二级存储”的存储架构,依然存在着内存和磁盘之间的“存储墙”问题,难以 从本质上解决大数据实时存取的问题。此外,由于DRAM能耗

35、和成本较高,也限制了其在大规模数 据处理中的应用。由此可见,如何高效地存储大数据并支持实时大数据处理与分析是大数据技术发 展面临的首要问题。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。数据存储概述数据的存储介质数据的存储模式大数据时代的存储管理系统文件系统分布式文件系统数据库键-值数据库分布式数据库关系型数据库数据仓库文档数据库图形数据库云存储三、讨论问题:4-1关系型存储系统有哪些?4-2非关系型存储系统有哪些,它们的特点是什么?4-3描述你对云存储的认识。一、归纳小结:思考及作 业本章深入讲解大数据存储与管理,重点介绍大数据时代数据库存储技术的发展 和变化,让初学者了解大数据时代

36、的数据存储和管理技术。目前原有的存储模式逐 渐跟不上时代发展的步伐,无法满足大数据时代的需求,导致信息处理技术无法承载 信息的负荷量。这就需要对数据的存储技术和存储模式进行创新与研究,跟上数字 化存储的技术的发展步伐,给用户提供一个具有高质量的数据存储体验。二、拓展延伸:(1)常用的数据存储和管理手段有哪些?(2)学习并讨论华为数据存储与智能管理的优点。(3)管理大数据存储有哪些技巧?课时内容大数据计算框架授课时间90分钟课时2教学目标本章讨论批处理、流计算、交互式分析3种类别的框架,然后简要介绍大数据计算 框架的一些发展趋势,并详细介绍MapReduce的批处理框架和Spark基于内存的混

37、合计算框架。教学重点0理解并掌握MapReduce的计算模型、资源管理框架和编程特点0 掌握Spark的基本知识、基本特点和架框原理教学难点0理解处理框架按照所处理的数据状态分为批处理框架、流式处理框架及交互式处 理框架3种计算框架0掌握MapReduce的计算模型、资源管理框架和编程特点0 理解并掌握Spark的基本知识、生态系统、基本特点和架框原理教学设计1、教学思路:(1)对大数据的分布式计算框架进行详细介绍(在实际应用中,大数 据主要涉及3种计算框架,包括批处理、实时流式计算、交互式分析框架);(2)详 细介绍MapReduce的批处理框架和Spark基于内存的混合计算框架。2、教学手

38、段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣; (2)深入讲解知识点内容,理论与案例相结合,引入MapReduce的批处理框架和Spark 基于内存的混合计算框架的相关理论知识,让学生能够切实理解并掌握大数据计算框 架的基本知识。教学内容一、导入新课:随着大数据、云计算的到来,各种业务都开始依赖大数据,包括各互联网公司也对大数据有了 前所未有的重视,目前的数据处理系统主要包括批处理系统和实时处理系统,而且这些业务越来越 要求实时性,客户使用云服务可以避免复杂的系统设计和设备的多次购买费用。计算机的基本工作 就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数

39、据库中的结构化数据 等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态, 对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中 进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之 间的数据迁移等工作,并且要考虑计算机或网络发生故障时的数据安全,情况要复杂得多。在大数 据时代,数据通常都是持续不断动态产生的。在很多场合,数据需要在非常短的时间内得到处理, 并且还要考虑容错、拥塞控制等问题,避免数据遗漏或重复计算。流计算框架则是针对这一类问题 的解决方案。理解大数据的处理框架负责对系统中的

40、数据进行计算,例如处理文件系统中存储的数 据,或处理刚刚从系统中获取的流式数据。本章主要分析了当前的计算框架,以此构建基于云服务的大数据分析系统,使其具有良好的 扩展性、兼容性及大数据处理引擎的自适应性选择。处理框架按照所处理的数据状态分为批处理 框架、流式处理框架及交互式处理框架。详细介绍YMapReduce的批处理框架和Spark基于内存 的混合计算框架,分别讲解MapReduce的计算模型、资源管理框架和编程特点,以及Spark的基本知识、生态系统、基本特点和架框原理。Hadoop最初主要包含分布式文件系统HDFS和计算框 架MapReduce两部分,是从Nutch中独立出来的项目。在2

41、.0版本中,又把资源管理和任务调度 功能从MapReduce中剥离形成YARN,使其他框架也可以像MapReduce那样运行在Hadoop之上。 与之前的分布式计算框架相比,Hadoop隐藏了很多繁琐的细节,如容错、负载均衡等,更便于使 用。Hadoop也具有很强的横向扩展能力,可以很容易地把新计算机接入到集群中参与计算。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。计算框架批处理框架流式处理框架交互式处理框架MapReduceMapReduce编程的特点MapReduce的计算模型MapReduce的资源管理框架SparkSpark的基本知识Spark的生态系统Spark的架构与原理

42、Spark RDD的基本知识三、讨论问题:5-1大数据的计算框架有哪几类?5-2 MapReduce的核心思想是什么?5-3请简单图示MapReduce的基本工作原理。5-4 MRv1与YARN的不同之处有哪些?5-5 Spark相比Hadoop的优势在哪里?5-6 Spark大数据平台涵盖了哪些有用的大数据分析工具?一、归纳小结:本章阐述了在实际应用中,大数据主要涉及的3种计算框架,包括批处理、实时 流式计算、交互式分析框架,然后图示MapReduce的基本工作原理,重点介绍了 MapReduce的核心思想、计算模型、资源管理框架和编程特点,以及Spark的基本知思考及作 业识、生态系统、基

43、本特点和架框原理。简单分析Spark相比Hadoop的优势,介绍了 Spark 大数据平台所涵盖的大数据分析工具。二、拓展延伸:请思考并讨论Hadoop技术在移动支付行业的应用都有哪些。课时内容数据挖掘授课时间135分钟课时3教学目标本章介绍大数据的关键核心技术一数据挖掘,重点对常用的数据挖掘算法进行介绍, 为读者未来的深入学习打下基础。数据挖掘03沉2 Mining,DM)是一门多学科交叉应 用技术,对各行各业的决策支持活动起着至关重要的作用。本章首先介绍数据挖掘的 基本概念、数据挖掘系统的组成,以及数据挖掘的对象与价值,然后介绍数据挖掘的 常用技术与工具,最后简单介绍数据挖掘的典型应用。教

44、学重点0理解并掌握数据挖掘的概念和典型的数据挖掘系统组成0掌握数据挖掘常用的技术与工具教学难点0理解并掌握数据挖掘的概念和系统组成并体会其作用0掌握数据准备及挖掘的一般过程0掌握数据挖掘的3种技术0熟悉数据挖掘常用的5种工具及特点0 了解数据挖掘的典型应用教学设计1、教学思路:(1)引导学生培养从数据挖掘角度分析数据的意识,运用统计学 方法寻找蕴藏在数据之中的规律,借助它解决学习和生活中的实际问题;(2)通过图 示知识挖掘的过程,引入数据挖掘的系统组成;(3)介绍数据挖掘的数据类型,分别 从技术价值、商业价值、行业价值、社会价值4个方面,对应着“三重门”即“交 易门”“交互门”“公开市场门”来

45、具体探讨数据挖掘的价值;(4)分析讲解数 据挖掘常用的3种技术:关联分析、分类分析、聚类分析,以及各种技术的优缺 点;(5)介绍数据挖掘常用的5种工具:RapidMiner、WEKA、Orange、R语言、 Mining,以及各种数据挖掘的特点;(6)论述数据挖掘在社交媒体、市场营销、科学 研究、电信、教育、医学等领域的典型应用,阐明数据挖掘技术对当今社会的发展有 着不可替代的作用,而如何改善当下数据挖掘技术中存在的问题,进一步提高数据挖 掘技术的质量和效率,就成为数据挖掘技术进步的方向。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣; (2)深入讲解知识点内容,理

46、论与案例相结合,在教学中,为了让学生深刻体会数据 挖掘的意义和价值,鼓励学生对数据进行多角度加工与分析,找到规律或有用的信息, 用恰当的方式直观地表达出来,学会搜集、分析身边的数据,用数据说话,让数据挖 掘更好地服务于生活与学习。教学内容一、导入新课:随着计算机与信息技术的飞速发展和深入普及,来自商业、医疗、科学、社会及日常生活中无 处不在的数据,正以指数的方式无限增长,各行各业的数据规模已从68级别上升到TB、PB级别。 面临如此快速扩张的数据海洋,如何有效利用这一丰富数据中蕴含的宝藏,已成为人们越来越关注 的焦点。面对全世界如此巨大的数据资源,传统的数据分析工具和方法,已经无法有效地为决策

47、者提 供其决策支持所需要的相关知识,但各个行业又面临着将这些数据资源转换为有用的信息和知识的迫切需求。人们期望有这样一种技术,能从这些大量数据中去粗求精、去伪求真。这种期望和 需求使从数据库中挖掘信息的核心技术一一数据挖掘应运而生。可以这样说,数据挖掘其实就是 从大量数据中找出对人们有用的信息的过程。数据挖掘是数据库研究、开发和应用最活跃的分支。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。什么是数据挖掘数据挖掘的对象与价值数据挖掘的对象数据挖掘的价值数据挖掘常用的技术关联分析分类分析聚类分析数据挖掘常用的工具RapidMinerWEKAOrangeR语言Mining数据挖掘的典型应用

48、社交媒体领域的应用市场营销领域的应用科学研究领域的应用电信领域的应用教育领域的应用医学领域的应用三、讨论问题:6-1数据挖掘的概念。6-2数据挖掘常用的技术有哪3种?其定义分别是什么?6-3关联分析的步骤有哪几个?6-4分类分析与聚类分析的区别有哪些?6-5数据挖掘有哪些常用的工具?各有什么优缺点?一、归纳小结:数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数 据挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务 金融保险、通讯及医疗服务等领域。一些公司运用数据挖掘的成功案例,显示了数据 挖掘的强大生命力。思考及作 业数据挖掘技术对当今社会的发展有着

49、不可替代的作用,而如何改善当下数据挖掘 技术中存在的问题,进一步提高数据挖掘技术的质量和效率,就成为数据挖掘技术进 步的方向。二、拓展延伸:(1) 大数据挖掘分析在电力设备状态评估中的应用都有哪些?(2)数据挖掘未来的研究焦点集中在哪些方面?课时内容数据可视化授课时间90分钟课时2教学目标本章介绍数据可视化技术,讲解数据可视化的相关概念和工具教学重点0理解可视化的含义0 了解可视化的发展历程0 理解并掌握可视化的作用0 掌握数据可视化分类0 掌握数据可视化工具教学难点0理解可视化的含义和发展历程0 理解并掌握数据可视化的作用0 掌握数据可视化的3种分类0 了解数据可视化的特性,掌握可视化工具的

50、基本应用教学设计1、教学思路:(1)理解可视化的含义,可视化是一种使复杂信息能够容易和快速被 人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形 化表示方法;(2)纵观数据可视化的发展历程,人类对数据的需求由粗糙变精确、展 现形式由一维到多维、数据类型由简单到复杂、应用领域由有限变丰富。我们很容易 发现不同时期数据的规模、精度、类型、来源是影响数据可视化形式的主要因素;政 治经济需求、商业化应用和科学研究是数据可视化发展的重要推动力;(3)理解并掌 握可视化的作用是可视化后的信息易于认知和理解,能用一些简短的图形体现那些复 杂信息,并以建设性方式讨论结果,理解运营和结果

51、之间的连接,允许用户去跟踪运 营和整体业务结果之间的对接,并且管理者可以更容易地发现各种大数据集的市场变 化和趋势,与数据交互,可以及时带来风险预警;(4)熟练掌握数据可视化的3种分 类:科学可视化、信息可视化、可视化分析学;(5)简述数据可视化所必备的特性, 分别介绍4种数据可视化工具,入门级工具Excel;信息图表工具Visem、Canva、Google Charts、Piktochart、Infogram、Venngage、Easel.ly;地图工具 MapShaper、CartoDB、 mapbox、Map Stack;高级分析工具R语言、Data-Driven Documents (

52、数据驱动文档)、 Python;(6)以数字美食、空中的间谍为例,深入讲解知识点内容,理论 与案例相结合,帮助读者更好掌握相关知识。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣; (2)不断在实践中创新与学习,注重理论联系实际,注重各学科交叉,利用商业、科 研、政治等领域的需求和发展来推动大数据可视化学科的进步。教学内容一、导入新课:数据可视化是当今时代的技术热点,并在一定程序上推进了其他相关数据技术的发展和创新, 尤其是人们通过不同的可视化方法可以更好地发现整体数据的内在意义和内在联系,为可能的数据 创新和数据服务提供强有力的支撑和帮助。数据可视化主要旨在借助于

53、图形化手段,清晰有效地传 达与沟通信息,它是一个处于不断演变之中的概念,其边界在不断地扩大,主要指的是技术上较为 高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、 建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释,它是关于数据视觉表现形式的科学技术研究。内容大纲:具体可结合本章的PPT课件进行配合讲解。什么是可视化可视化的含义可视化的发展历程可视化的作用数据可视化及其分类科学可视化信息可视化可视化分析学数据可视化工具入门级工具信息图表工具地图工具高级分析工具数据可视化案例数字美食空中的间谍三、讨论问题:7-1数据可视化的意义是什么?7-2数

54、据可视化的发展现状如何?7-3数据可视化的技术类型有哪些?7-4数据可视化的典型工具有哪些?思考及作 业一、归纳小结:大数据可视化的实施是一系列数据的转换过程。我们有原始数据,通过对原始数 据进行标准化、结构化的处理,把它们整理成数据表。将这些数值转换成视觉结构, 通过视觉的方式把它表现出来。例如将高中低的风险转换成红黄蓝等色彩,数值转换 成大小。将视觉结构进行组合,把它转换成图形传递给用户,用户通过人机交互的方 式进行反向转换,去更好地了解数据背后有什么问题和规律。从技术上来说,大数据 可视化的实施步骤主要有四项:明确需求,建设数据仓库模型,数据抽取、清洗、转 换、加载(ETL),建立可视化

55、分析场景。在未来数据可视化的发展历程中,数据的处理能力为核心,交互式可视化是新趋 势。数据可视化使受众与媒体的关系发生根本变化,得以感受到传统报道难以揭示的 现象和规律。步入数据时代,“数据可视化”作为一种表达类型、生产类型、内容类 型,愈发高频地走进受众视野大数据时代,传统的显示技术已很难达到可以完美展示 出大规模、高纬度、非结构化数据层出不穷数据的需求。二、拓展延伸:数据可视化未来的发展趋势如何?以及它在现实生活中的主要应用是什么?第8章 大数据与云计算课时内容大数据与云计算授课时间90分钟课时2教学目标本章主要学习大数据处理与云计算相关原理和技术结合时代热点介绍大数据与云计算 的关系教学

56、重点0理解云计算的概念与特点0掌握云计算的分类0掌握云计算的体系架构0 了解大数据与云计算未来的发展方向和趋势0熟悉大数据与云计算在生产生活中的应用教学难点0理解云计算的涵义和特点0理解并掌握云计算的分类0掌握云计算的体系架构0在掌握大数据处理与云计算相关基本原理和技术的基础上,结合实际理解大数据 与云计算的区别和联系教学设计1、教学思路:(1)理解云计算的概念,云计算(cloud computing,分布式计算技术的 一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的 子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传 给用户。透过这项技术,网

57、络服务提供者可以在数秒之内,达成处理数以千万计甚至 亿计的信息,达到和“超级计算机”同样强大效能的网络服务;(2)了解云计算具有 超大规模、虚拟化、高可靠性、通用性、高可扩展性、按需服务、极其廉价的特点;(3)简要介绍公有云、私有云、混合云这3种不同分类的云计算的特点;(4)通过 云计算平台架框图了解软件即服务(Software as a Service,SaaS)、平台即服务(Platform as a Service,PaaS)和基础即服务(Infrastructure as a Service,IaaS)3 种云计算的典型 服务模式;(5)理解大数据与云计算的区别与联系;(6)了解大数据

58、与云计算未来 的发展方向和趋势,熟悉大数据与云计算在生产生活中的应用。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣; (2)教学应当结合实际的实验条件,培养学生实践动手能力,了解大数据技术发展现状,更好地掌握所学知识点,促进大数据相关教学改革。教学内容一、导入新课:随着信息化时代的不断深入,信息数据的量级已经远远超越了个人计算机和中小型服务器的存储 容量和处理能力,而同时因为全球化网络的互连互通和计算机设备的不断普及,又有很多大型网络服 务器或者网络中心的机器处于无用的或者小负载浪费存储和计算能力的处境中,这个时候云计算就可 以为数据的应用和闲置的网络资源建立桥梁

59、,也为整个信息时代的发展提供新的发展思路,并且随着 网络传输速度的不断提升,人们越来越发现云计算具有可观的发展前途和光明的前景。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。什么是云计算云计算的概念与特点云计算的分类云计算与分布式计算的区别云计算的体系架构云计算需要解决的问题具有代表性的云计算厂商8.2大数据与云计算的关系云计算将改变大数据分析大数据与云计算的区别和联系大数据与云计算未来的发展方向和趋势大数据与云计算在生产生活中的应用三、讨论问题:8-1什么是云计算?8-2云计算的计算框架是什么?8-3云计算与大数据的关系是什么?8-4云计算未来可能的发展方向是什么?思考及作 业一、归

60、纳小结:云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格 计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。云计算是虚 拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台 即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。云计(cloud computing 商业化的超大规模分布式计算技术。即:用户可以通过已有的网络将所需要的庞大的 计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的更庞大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论