大数据导论教案_第1页
大数据导论教案_第2页
大数据导论教案_第3页
大数据导论教案_第4页
大数据导论教案_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据导论教案《大数据导论》教学教案第1章什么是大数据课时内容大数据的概念、发展历程和主要特征授课时间45分钟课时1教学目标让学生教学重点了解人类信息文明的发展历程熟悉大数据时代的来临和具体发展表现掌握大数据的主要特征掌握大数据的社会价值教学难点熟悉大数据的4V特征教学设计教学思路:(1)阐释人类信息文明的发展历程及其对人类生活产生的影响;(2)讲解信息技术主要解决的4个核心问题的具体发展表现;(3)理论阐述了数据生产方式的变革历程,以及各个阶段的具体发展情况;(4)从数据、技术特征两个方面分析大数据的主要特征;(5)大数据的社会价值体现在哪些方面。教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学生的学习兴趣;(2)从系统的角度出发,全面介绍了大数据技术的基础知识,作为大数据技术的基础教材,以提升读者对大数据的认知,每章结束都配有习题,帮助老师进行考查。教学内容一、导入新课:“大数据”的横空出世半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸己经积累到一个开始引发变革的程度。它不仅使世界充斥着以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。这个概念几乎应用到所有人类智力与发展的领域中。“大数据”带来的影响当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念“大数据”横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT领域最大的市场机遇之一,其作用堪称是又一次工业革命。“大数据”产生的背景随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。大量新数据源的出现则导致了非结构化、非结构化数据爆发式的增长。信息数据的单位由TB、PB、EB,再到ZB的级别,这些由我们创造的信息背后产生的这些数据早己远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。从三个层面认知“大数据”大数据(BigData)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。第一层面:理论理论是认知的必经途径,也是被广泛认同和传播的基线。从大数据的特征定义理解行业对大数据的整体描绘和定性,从对大数据价值的探讨来深入解析大数据的珍贵所在,洞悉大数据的发展趋势。从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。第二层面:技术技术是大数据价值体现的手段和前进的基石。可以从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。第三层面:实践实践是大数据的最终价值体现,我们从互联网的大数据,政府的大数据,企业的大数据个人的大数据四个方面来描绘大数据己经展现的美好景象及即将实现的蓝图。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。人类信息文明的发展1.2大数据时代的来临1.2.1信息技术的发展1.2.2数据产生方式的变革1.3大数据的主要特征1.3.1大数据的数据特征1.3.2大数据的技术特征1.4大数据的社会价值三、讨论问题1-1简述人类信息文明的发展过程并展望未来的发展方向。1-2大数据的技术特点和技术优势在哪里?1-3简单描述大数据的主要特征。1-4结合实际谈谈大数据的社会价值。思考及作业归纳小结随着社交网络、物联网、云计算的飞速发展,大量非结构化数据呈指数级快速增长,数据样式高度复杂,为人类认识世界,改造世界提供了重要的资源,企业和个人通过网络可以大规模的收集和分析数据,也可以产生和发布数据,个体在互联的网络中既是数据的消费者又是数据的生产者。大规模生产、分享、应用数据的大数据时代己经来临。与此同时,数量巨大,种类繁多的数据给传统的数据获取、分析、处理、存储、检索技术带来了挑战,大数据成为广泛关注且急需解决的热点问题,并已经开始影响社会的发展与人们的日常生活。大数据时代已经来临,各国将在这一新的领域展开新一轮的竞争,我国应当与时俱进,及时转型,适应大数据时代的到来,可以借鉴各国的做法,抓住大数据时代关键点,从国家战略制定、人才培养、基础技术研究、信息安全保障体系建设等方面展开相应的工作。拓展延伸:大数据时代是在什么背景环境下产生的,它对我们的现实生活产生了哪些方面的影响?大数据时代的个人隐私如何保护?结合实际生活,谈一谈大数据的社会价值主要体现在哪些方面。大数据要解决的核心问题是什么?

课时内容大数据技术基础授课时间90分钟课时2教学目标本章课程在注重大数据时代应用环境前提下,从初学者角度出发,以轻量级理论、丰富的实例对应性地介绍了大数据常用计算模式的各种系统和工具。将经典和核心的行业技术作为本章的主要内容,讲解计算机操作系统的基本知识,帮助读者建立对大数据技术基础的整体印象。教学重点掌握计算机操作系统的基础知识理解和掌握编程语言掌握数据库的主要数据类型理解算法的涵义掌握大数据系统熟悉大数据应用开发流程教学难点理解什么是大数据技术基础熟悉Linux操作系统经历的3个发展阶段熟悉编程语言的发展和种类掌握Python语言自身的优点和在实际应用方面的便捷性了解数据库技术是信息技术的核心技术重点关注传统算法和大数据时代算法的区别掌握大数据的3种主要数据类型熟悉典型的大数据应用开发流程了解典型的数据科学算法应用流程教学设计1、教学思路:(1)通过本章的学习,使读者掌握计算机操作系统的基本知识,建立对大数据技术基础的整体印象;(2)介绍Linux操作系统经历的3个主要发展阶段和目前Linux的主要应用场景;(3)回顾编程语言的发展,详细介绍编程语言的种类,并讲解了当前流行的一门编程语言Python语言的特点和优势;(4)简述传统SQL数据库的发展历程,讲解其技术特点;(5)比较NoSQL和NewSQL数据库的技术特色和特点;(6)分别讲述Hadoop和Spark大数据平台的基本构架和工作原理;(7)简述大数据应用开发的一般流程及典型数据科学算法的应用流程。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;(2)深入讲解知识点内容,理论与案例相结合,在教学过程中掌握大数据分析的实践操作,通过丰富简单易上手的实例,让学生能够切实体会和掌握各种类型工具的特点和应用。教学内容导入新课:大数据行业经过最近几年跨越式的发展,产生了一批与之相关的核心行业技术,我们将其统称为“大数据技术”。这些经典的、核心的行业技术就是本书的主要内容。计算机作为促进当代信息技术发展的重要工具,对社会、经济发展的影响越来越显著,越发受到人们的重视,其操作系统也越来越庞大和复杂。因此,理解计算机操作系统的基础知识是学习并掌握大数据技术知识的前提,熟悉各种操作系统经历的发展阶段对于更好的理解其理论和知识架构奠定了基础。大数据有几个特性,最著名的是数据量(volume),速度(velocity),多样性(variety)。除此以外,还有就是准确性(veracity),连通性(valence),和价值(value)。从操作系统的概念入手,简要分析了操作系统程序和一般的应用程序有什么区别和联系,然后讲解了诞生于网络、成长于网络且成熟于网络的Linux操作系统,并分别讲述其经历的3个发展阶段所具有的特点和目前Linux的主要应用场景。随着计算机技术的不断发展和完善,编程语言已经得到了长足的发展,并被广泛地应用于实际,已经成为人们与计算机进行深入“交流”的必需工具。总结介绍了目前市场上所用的主要编程语言种类及其特点,重点讲解编写简单,应用广泛,功能强大和更新速度最快的Python语言。SQL涵盖数据的查询、操作、定义和控制,是一个综合的、通用的且简单易懂的数据库综合管理语言,同时又是一种高度非过程化的语言,数据库管理者只需要指出做什么而不需要指出怎么做,即可完成对数据库的管理。SQL可以实现对数据库的全生命周期的全部操作,所以自产生之日起就成了检验关系型数据库管理能力的试金石,并且SQL标准的每一次变更和完善都指导着关系型数据库产品的发展方向,并分述NoSQL数据库、NewSQL数据库的技术特色和特点。算法(Algorithm)是数学处理的灵魂和核心,也是实现现实事务数学化、公式化和逻辑化处理的桥梁,可以说算法是信息时代连通现实社会和虚拟世界的立交桥。本章内容重点关注传统算法和大数据时代算法的区别,系统阐述两种算法的本质区别在于数据分析和数据科学。随着大数据时代的到来,我们不得不承认如今数据量的激增越来越明显,各种各样的数据铺天盖地的砸下来,企业选择相应工具来存储、分析与处理它们。那么在大数据时代中,都有哪些数据类型?结构化数据:能够用数据或统一的结构加以表示,人们称之为结构化数据,如数字、符号。传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。半结构化数据:所谓半结构化数据,就是介于完全结构化数据(如关系型数据库,面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,XML、HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。非结构化数据库是指其字段长度可变,并且每隔字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本,图像,声音,影视,超媒体等信息)。现实中,大数据的数据类型渗透在日常生活中的各个方面。现如今大数据更接近于某个群体行为数据,它是全面的数据、准确的数据、有价值的数据。这些新类型数据相信大家都很熟悉,它们已经比传统数据类型更深入地走进了我们生活。1、一些记录是以模拟形式方式存在的,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。2、移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。3、电子地图生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个度量值,但是这些地图产生的流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生。4、进入了社交网络的年代后,互联网行为主要由用户参与创造,大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现的。其揭示了人们行为特点和生活习惯。5、电商户崛起产来了大量网上交易数据,包含支付数据,查询行为,物流运输、购买喜好,点击顺序,评价行为等,其是信息流和资金流数据。6、传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。单位存储价格的下降也为存储这些数据提供了经济上的可能。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。2.1计算机操作系统2.1.1什么是操作系统2.1.2Linux操作系统2.2编程语言2.2.1编程语言的发展与种类2.2.2Python语言2.3数据库2.3.1SQL数据库的发展与成熟2.3.2NoSQL数据库及其特点2.3.3NoSQL数据库的分类2.3.4NewSQL数据库2.4算法2.4.1什么是算法2.4.2大数据时代的算法2.5大数据系统2.5.1Hadoop平台2.5.2Spark平台2.6大数据的数据类型2.6.1结构化数据2.6.2半结构化数据2.6.3非结构化数据2.7大数据应用的开发流程2.8数据科学算法的应用流程三、讨论问题:2-1什么是操作系统的核心。操作系统核心的主要作用有哪些?2-2Linux操作系统的优势和主要的特点有哪些?2-3何为静态编程语言,何为动态编程语言?两者的联系和不同有哪些?2-4简述传统SQL数据库的发展历程。2-5SQL数据库的技术特点有哪些?2-6NoSQL和NewSQL数据库的技术特色和技术特点有哪些?2-7简述Hadoop和Spark大数据平台的基本构架和工作原理。2-8简述大数据开发的一般流程。思考及作业归纳小结:课堂上注意讲、学、练相结合,注重以学生为主体,积极与学生互动,调动学生的学习主动性和学习兴趣,培养学生发现问题、解决问题的实际能力。采用任务驱动,问题牵引的方式,提出问题,之后带动学生在教师的讲解下一步步寻找解决方法,再归纳总结出知识点,结合教学课件和实际案例,寻找合适的切入点,以讲授和实例分析为主的形式完成教学,让读者对理论知识的掌握更直接、更快速。二、拓展延伸:为什么说操作系统是整个计算机硬件系统的“CEO”?这个神通广大的操作系统都有哪些“神通”之处?NoSQL数据库的特点都有哪些?NoSQL数据库有哪些类型?什么是算法?传统的数据算法与大数据时代的数据算法有什么本质区别?举例说明机器学习具有显著的技术特征和计算特色,以及主要包括的技术优势有哪些。Hadoop平台的三大组成是什么?在当前经济、商业、技术领域里有什么适应性优势?大数据的主要数据类型主要有哪些?请分别说明其特点和主要应用范围。课时内容数据采集与预处理授课时间90分钟课时2教学目标本章详细阐述数据采集与预处理技术,包括大数据的数据采集方法、源、数据预处理技术。教学重点了解大数据的来源掌握数据的采集方法掌握数据预处理流程教学难点了解大数据的来源掌握数据的采集方法与数据预处理的主要流程教学设计1、教学思路:(1)从传统商业数据、互联网数据和物联网数据3个主要方面剖析大数据的来源,阐述各种大数据来源的特点;(2)介绍多款数据采集工具,让读者全面理解和掌握数据的采集方法,讲解数据预处理的基本流程,介绍数据预处理所包含的内容和采用的方法,论述数据预处理在数据挖掘中的重要地位和作用。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;(2)深入讲解知识点内容,理论与案例相结合,在教学过程中掌握数据的采集方法和数据预处理技术的目的和流程,通过丰富简单易上手的实例,让学生能够切实理解和掌握数据采集与预处理的相关知识内容。教学内容导入新课:随着信息时代的来临,大数据对各行各业都带来了较大的影响。企业、个人利用大数据,给业务和生活带来了便利,在信息社会中,大多数行业的发展都离不开大数据的支持。在数据量非常大的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业内不断探讨的议题。大数据的来源非常广泛,如信息管理系统、网络信息系统、物联网系统、科学实验系统等。本章从以下3个层面阐述了大数据的来源和主要特点。传统商业数据是来自于企业ERP系统、各种POS终端及网上支付系统等业务系统的数据,传统商业是主要的数据来源。互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及

QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。物联网数据是除了人和服务器之外,在射频识别、物品、设备、传感器等节点产生的大量数据,包括射频识别装置、音频采集器、视频采集器、传感器、全球定位设备、办公设备、家用设备和生产设备等产生的数据。数据采集技术是数据科学的重要组成部分,已广泛应用于国民经济和国防建设的各个领域,并且随着科学技术的发展,尤其是计算机技术的发展和普及,数据采集技术具有更广泛的发展前景。大数据的采集技术为大数据处理的关键技术之一。安排在此章系统讲解数据的采集方法十分必要,能够帮助读者熟悉并掌握系统日志的采集方法、网页数据的采集方法和其他数据的采集方法,使读者大数据技术。简要介绍几款采用分布式架构的海量数据采集工具,对Scribe、Chukwa、Flume的基本架构、主要功能和对日志类数据的采集、存储、分析和展示的全套解决方案展开描述,让读者系统理解系统日志的采集方法。网络数据采集称为“网页抓屏”、“数据挖掘”或“网络收割”,通过“网络爬虫”程序实现。网络爬虫一般是先“爬”到对应的网页上,再把需要的信息“铲”下来。网络爬虫采集和处理数据包括采集模块、数据处理模块、数据模块这3个重要模块。了解爬虫的基本工作流程,并掌握URL抓取策略,我们在实际使用网络爬虫时可根据具体需要选择适合的策略即可。另外,对企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集。解决大数据的隐私问题是数据采集技术的重要目标之一。现阶段的医疗机构数据更多来源于内部,外部的数据没有得到很好的应用。对外部数据,医疗机构可以考虑借助如百度、阿里、腾讯等公司第三方数据平台解决数据采集难题。大数据并不在“大”,而在于“有用”,数据质量比数量更为重要,然而数据通常并非完美。准确、高质量的数据是大数据产生价值的有力保证。在大数据环境下,数据质量的优劣直接影响数据价值的高低,进而影响人们的分析和决策。因此,数据预处理是数据挖掘前必不可少的准备工作,是数据挖掘中非常关键的一步。数据预处理通过对数据格式和内容的调整,使数据更符合挖掘的需要,从而保证数据挖掘的正解性和有效性。我们首先要弄清什么是影响数据质量的因素,数据质量问题可能发生在大数据处理流程的每一个阶段,尤其是在数据采集和集成阶段最容易出现低质量的数据,从而影响后续的建模分析和挖掘,最终出现错误的分析结果,引起决策失误。评估数据质量的标准是衡量数据在某一方面的性质,如准确性、完整性、一致性、及时性、可信性、可解释性、重复性、关联性等。它们反映了数据质量的特性和用户的需求。列举其中几个比较重要的特性,分别描述它们的含义和用途。数据预处理的主要流程包括数据清洗、数据集成、数据变换、数据归约等。经过这些处理步骤,我们可以从大量的数据属性中提取出一部分对目标输出有重要影响的属性,降低源数据的维数,去除噪声等,为数据挖掘算法提供干净、准确且更有针对性的数据,减少挖掘算法的数据处理量,改进数据的质量,提高挖掘效率。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。3.1大数据的来源3.1.1传统商业数据3.1.2互联网数据3.1.3物联网数据3.2数据的采集方法3.2.1系统日志的采集方法3.2.2网页数据的采集方法3.2.3其他数据的采集方法3.3数据预处理3.3.1影响数据质量的因素3.3.2数据预处理的目的3.3.3数据预处理的流程三、讨论问题:3-1大数据的来源有哪些?3-2针对不同类型的数据,采用什么样的采集方法?3-3数据预处理的目的是什么?3-4数据清洗需要清洗哪些数据,应使用哪些方法?3-5数据集成过程中需要处理的问题有哪些?思考及作业归纳小结:大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。读者通过本章的系统学习,课堂上注意讲、学、练相结合,注重以学生为主体,积极与学生互动,调动学生的学习主动性和学习兴趣,培养学生发现问题、解决问题的实际能力。采用任务驱动,问题牵引的方式,提出问题,之后带动学生在教师的讲解下一步步寻找解决方法,再归纳总结出知识点,结合教学课件和实际案例,寻找合适的切入点,以讲授和实例分析为主的形式完成教学,让读者对理论知识的掌握更直接、更快速。在掌握了数据采集的方法和数据预处理的技术方法后,才能在庞大而复杂的数据中剔除有残缺的、虚假的、过时的数据,为决策带来高回报,最终获得高质量的分析挖掘结果。二、拓展延伸:(1)网页数据的采集工具有哪些?(2)简述数据预处理的技术的必要性和任务。课时内容大数据存储模式与管理应用授课时间90分钟课时2教学目标本章首先讨论数据的存储介质,然后介绍常见的存储模式,以及大数据时代的存储管理系统。教学重点掌握数据的存储模式理解并掌握大数据时代的存储管理系统教学难点理解数据存储的概念和种类熟练掌握常用的3种数据存储模式理解分布式平台存储大数据的意义和优势,掌握分布式文件系统基础架构教学设计1、教学思路:(1)介绍早期的存储介质和目前常见的数据存储介质种类及其特点;(2)简述数据常见的3种存储模式,列举各种存储模式的优缺点和适用场景;(3)在大数据时代,需要进行存储技术的变革,采用分布式平台存储大数据,讲解数据库家族图谱,讲解数据库的种类和特点,通过数据库提供的多种方式来管理数据库里的数据。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;(2)深入讲解知识点内容,理论与案例相结合,引入常见的数据存储模式,通过丰富简单易上手的实例,让学生能够切实理解和掌握大数据的存储管理知识。教学内容导入新课:在大数据时代的背景下,海量的数据整理成为了各个企业急需解决的问题。对于企业来说,数据对于战略和业务连续性都十分重要,它是业务文档、计划、用户数据和财务信息的积累,是任何业务基础设施的核心组件。云计算技术、物联网等技术快速发展,多样化已经成为数据信息的一项显著特点,为充分发挥信息应用价值,有效存储已经成为人们关注的热点。为了有效应对现实世界中复杂多样性的大数据处理需求,需要针对不同的大数据应用特征,从多个角度、多个层次对大数据进行存储和管理。管理大数据的关键是制定战略,以高自动化、高可靠、高成本效益的方式归档数据。大数据现象意味着企业机构应对大量数据,以及各种数据格式的挑战。多样化作为有效方式而在各行各业兴起,是一种涉及各种产品来支持数据管理战略的数据存储模式。这些产品包括自动化、磁盘和重复数据删除、软件,以及备份和归档。支撑这一方式的原则就是:特定类型的数据坚持使用合适的存储介质,在现实中需要一套与各种功能相匹配的解决方案。本章综述了基于新型存储的大数据存储管理技术,分析了现有大数据存储技术的局限性,介绍了新型存储的特点和发展概况,总结了基于新型存储的大数据存储架构、基于新型存储的大数据存储管理等方向的研究现状,在此基础上给出了基于新型存储的大数据存储与管理的若干未来研究方向。目前,大数据面临的存储管理问题主要体现在:种类和来源多样化、存储管理复杂、对数据服务的种类和水平要求越来越高等。目前,大数据主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线服务、个人数据业务、地理信息数据、传统企业、公共机构等领域。因此数据呈现方法众多,可以是结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式无法满足数据时代的需求,还导致存储管理更加复杂。针对大数据高效存储与管理问题,目前除了Hadoop技术之外,学术界和工业界也提出了一些其他的设计,包括以NoSQL数据库为代表的大规模分布式数据库系统设计、基于动态随机存取存储器(dynamicrandomaccessmemory,DRAM)的内存数据库技术等。但现有的NoSQL分布式数据库技术仍以磁盘存储或者“磁盘+闪存(flashmemory)”混合存储的方式存储数据,本质上还是传统的“CPU-DRAM-二级存储”的存储架构,依然存在着内存和磁盘之间的“存储墙”问题,难以从本质上解决大数据实时存取的问题。此外,由于DRAM能耗和成本较高,也限制了其在大规模数据处理中的应用。由此可见,如何高效地存储大数据并支持实时大数据处理与分析是大数据技术发展面临的首要问题。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。4.1数据存储概述4.1.1数据的存储介质4.1.2数据的存储模式4.2大数据时代的存储管理系统4.2.1文件系统4.2.2分布式文件系统4.2.3数据库4.2.4键-值数据库4.2.5分布式数据库4.2.6关系型数据库4.2.7数据仓库4.2.8文档数据库4.2.9图形数据库4.2.10云存储 三、讨论问题:4-1关系型存储系统有哪些?4-2非关系型存储系统有哪些,它们的特点是什么?4-3描述你对云存储的认识。思考及作业一、归纳小结:本章深入讲解大数据存储与管理,重点介绍大数据时代数据库存储技术的发展和变化,让初学者了解大数据时代的数据存储和管理技术。目前原有的存储模式逐渐跟不上时代发展的步伐,无法满足大数据时代的需求,导致信息处理技术无法承载信息的负荷量。这就需要对数据的存储技术和存储模式进行创新与研究,跟上数字化存储的技术的发展步伐,给用户提供一个具有高质量的数据存储体验。二、拓展延伸:(1)常用的数据存储和管理手段有哪些?(2)学习并讨论华为数据存储与智能管理的优点。(3)管理大数据存储有哪些技巧?课时内容大数据计算框架授课时间90分钟课时2教学目标本章讨论批处理、流计算、交互式分析3种类别的框架,然后简要介绍大数据计算框架的一些发展趋势,并详细介绍MapReduce的批处理框架和Spark基于内存的混合计算框架。教学重点理解并掌握MapReduce的计算模型、资源管理框架和编程特点掌握Spark的基本知识、基本特点和架框原理教学难点理解处理框架按照所处理的数据状态分为批处理框架、流式处理框架及交互式处理框架3种计算框架掌握MapReduce的计算模型、资源管理框架和编程特点理解并掌握Spark的基本知识、生态系统、基本特点和架框原理教学设计1、教学思路:(1)对大数据的分布式计算框架进行详细介绍(在实际应用中,大数据主要涉及3种计算框架,包括批处理、实时流式计算、交互式分析框架);(2)详细介绍MapReduce的批处理框架和Spark基于内存的混合计算框架。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;(2)深入讲解知识点内容,理论与案例相结合,引入MapReduce的批处理框架和Spark基于内存的混合计算框架的相关理论知识,让学生能够切实理解并掌握大数据计算框架的基本知识。教学内容导入新课:随着大数据、云计算的到来,各种业务都开始依赖大数据,包括各互联网公司也对大数据有了前所未有的重视,目前的数据处理系统主要包括批处理系统和实时处理系统,而且这些业务越来越要求实时性,客户使用云服务可以避免复杂的系统设计和设备的多次购买费用。计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等工作,并且要考虑计算机或网络发生故障时的数据安全,情况要复杂得多。在大数据时代,数据通常都是持续不断动态产生的。在很多场合,数据需要在非常短的时间内得到处理,并且还要考虑容错、拥塞控制等问题,避免数据遗漏或重复计算。流计算框架则是针对这一类问题的解决方案。理解大数据的处理框架负责对系统中的数据进行计算,例如处理文件系统中存储的数据,或处理刚刚从系统中获取的流式数据。本章主要分析了当前的计算框架,以此构建基于云服务的大数据分析系统,使其具有良好的扩展性、兼容性及大数据处理引擎的自适应性选择。处理框架按照所处理的数据状态分为批处理框架、流式处理框架及交互式处理框架。详细介绍了MapReduce的批处理框架和Spark基于内存的混合计算框架,分别讲解MapReduce的计算模型、资源管理框架和编程特点,以及Spark的基本知识、生态系统、基本特点和架框原理。Hadoop最初主要包含分布式文件系统HDFS和计算框架MapReduce两部分,是从Nutch中独立出来的项目。在2.0版本中,又把资源管理和任务调度功能从MapReduce中剥离形成YARN,使其他框架也可以像MapReduce那样运行在Hadoop之上。与之前的分布式计算框架相比,Hadoop隐藏了很多繁琐的细节,如容错、负载均衡等,更便于使用。Hadoop也具有很强的横向扩展能力,可以很容易地把新计算机接入到集群中参与计算。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。5.1计算框架5.1.1批处理框架5.1.2流式处理框架5.1.3交互式处理框架5.2MapReduce5.2.1MapReduce编程的特点5.2.2MapReduce的计算模型5.2.3Ma5.3Spark5.3.1Spark的基本知识5.3.2Spark的生态系统5.3.3Spark的架构与原理5.3.4SparkRDD的基本知识 三、讨论问题:5-1大数据的计算框架有哪几类?5-2MapReduce的核心思想是什么?5-3请简单图示MapReduce的基本工作原理。5-4MRv1与YARN的不同之处有哪些?5-5Spark相比Hadoop的优势在哪里?5-6Spark大数据平台涵盖了哪些有用的大数据分析工具?思考及作业一、归纳小结:本章阐述了在实际应用中,大数据主要涉及的3种计算框架,包括批处理、实时流式计算、交互式分析框架,然后图示MapReduce的基本工作原理,重点介绍了MapReduce的核心思想、计算模型、资源管理框架和编程特点,以及Spark的基本知识、生态系统、基本特点和架框原理。简单分析Spark相比Hadoop的优势,介绍了Spark大数据平台所涵盖的大数据分析工具。二、拓展延伸:请思考并讨论Hadoop技术在移动支付行业的应用都有哪些。课时内容数据挖掘授课时间135分钟课时3教学目标挖掘算法进行介绍,为读者未来的深入学习打下基础。数据挖掘(DataMining,DM)是一门多学科交叉应用技术,对各行各业的决策支持活动起着至关重要的作用。本章首先介绍数据挖掘的基本概念、数据挖掘系统的组成,以及数据挖掘的对象与价值,然后介绍数据挖掘的常用技术与工具,最后简单介绍数据挖掘的典型应用。教学重点理解并掌握数据挖掘的概念和典型的数据挖掘系统组成掌握数据挖掘常用的技术与工具教学难点理解并掌握数据挖掘的概念和系统组成并体会其作用掌握数据准备及挖掘的一般过程掌握数据挖掘的3种技术熟悉数据挖掘常用的5种工具及特点了解数据挖掘的典型应用教学设计1、教学思路:(1)引导学生培养从数据挖掘角度分析数据的意识,运用统计学方法寻找蕴藏在数据之中的规律,借助它解决学习和生活中的实际问题;(2)通过图示知识挖掘的过程,引入数据挖掘的系统组成;(3)介绍数据挖掘的数据类型,分别从技术价值、商业价值、行业价值、社会价值4个方面,对应着“三重门”即“交易门”“交互门”“公开市场门”来具体探讨数据挖掘的价值;(4)分析讲解数据挖掘常用的3种技术:关联分析、分类分析、聚类分析,以及各种技术的优缺点;(5)介绍数据挖掘常用的5种工具:RapidMiner、WEKA、Orange、R语言、Mining,以及各种数据挖掘的特点;(6)论述数据挖掘在社交媒体、市场营销、科学研究、电信、教育、医学等领域的典型应用,阐明数据挖掘技术对当今社会的发展有着不可替代的作用,而如何改善当下数据挖掘技术中存在的问题,进一步提高数据挖掘技术的质量和效率,就成为数据挖掘技术进步的方向。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;(2)深入讲解知识点内容,理论与案例相结合,在教学中,为了让学生深刻体会数据挖掘的意义和价值,鼓励学生对数据进行多角度加工与分析,找到规律或有用的信息,用恰当的方式直观地表达出来,学会搜集、分析身边的数据,用数据说话,让数据挖掘更好地服务于生活与学习。教学内容导入新课:随着计算机与信息技术的飞速发展和深入普及,来自商业、医疗、科学、社会及日常生活中无处不在的数据,正以指数的方式无限增长,各行各业的数据规模已从GB级别上升到TB、PB级别。面临如此快速扩张的数据海洋,如何有效利用这一丰富数据中蕴含的宝藏,已成为人们越来越关注的焦点。面对全世界如此巨大的数据资源,传统的数据分析工具和方法,已经无法有效地为决策者提供其决策支持所需要的相关知识,但各个行业又面临着将这些数据资源转换为有用的信息和知识的迫切需求。人们期望有这样一种技术,能从这些大量数据中去粗求精、去伪求真。这种期望和需求使从数据库中挖掘信息的核心技术——数据挖掘应运而生。可以这样说,数据挖掘其实就是从大量数据中找出对人们有用的信息的过程。数据挖掘是数据库研究、开发和应用最活跃的分支。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。6.1什么是数据挖掘6.2数据挖掘的对象与价值6.2.1数据挖掘的对象6.2.2数据挖掘的价值6.3数据挖掘常用的技术6.3.1关联分析6.3.2分类分析6.3.3聚类分析6.4数据挖掘常用的工具6.4.1RapidMiner6.4.2WEKA6.4.3Orange6.4.4R语言6.4.5Mining6.5数据挖掘的典型应用6.5.1社交媒体领域的应用6.5.2市场营销领域的应用6.5.3科学研究领域的应用6.5.4电信领域的应用6.5.5教育领域的应用6.5.6医学领域的应用三、讨论问题:6-1数据挖掘的概念。6-2数据挖掘常用的技术有哪3种?其定义分别是什么?6-3关联分析的步骤有哪几个?6-4分类分析与聚类分析的区别有哪些?6-5数据挖掘有哪些常用的工具?各有什么优缺点?思考及作业一、归纳小结:数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务等领域。一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力。数据挖掘技术对当今社会的发展有着不可替代的作用,而如何改善当下数据挖掘技术中存在的问题,进一步提高数据挖掘技术的质量和效率,就成为数据挖掘技术进步的方向。二、拓展延伸:大数据挖掘分析在电力设备状态评估中的应用都有哪些?数据挖掘未来的研究焦点集中在哪些方面?课时内容数据可视化授课时间90分钟课时2教学目标介绍数据可视化技术,讲解数据可视化的相关概念和工具教学重点理解可视化的含义了解可视化的发展历程理解并掌握可视化的作用掌握数据可视化分类掌握数据可视化工具教学难点理解可视化的含义和发展历程理解并掌握数据可视化的作用掌握数据可视化的3种分类了解数据可视化的特性,掌握可视化工具的基本应用教学设计1、教学思路:(1)理解可视化的含义,可视化是一种使复杂信息能够容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法;(2)纵观数据可视化的发展历程,人类对数据的需求由粗糙变精确、展现形式由一维到多维、数据类型由简单到复杂、应用领域由有限变丰富。我们很容易发现不同时期数据的规模、精度、类型、来源是影响数据可视化形式的主要因素;政治经济需求、商业化应用和科学研究是数据可视化发展的重要推动力;(3)理解并掌握可视化的作用是可视化后的信息易于认知和理解,能用一些简短的图形体现那些复杂信息,并以建设性方式讨论结果,理解运营和结果之间的连接,允许用户去跟踪运营和整体业务结果之间的对接,并且管理者可以更容易地发现各种大数据集的市场变化和趋势,与数据交互,可以及时带来风险预警;(4)熟练掌握数据可视化的3种分类:科学可视化、信息可视化、可视化分析学;(5)简述数据可视化所必备的特性,分别介绍4种数据可视化工具,入门级工具Excel;信息图表工具Visem、Canva、GoogleCharts、Piktochart、Infogram、Venngage、Easel.ly;地图工具MapShaper、CartoDB、mapbox、Map

Stack;高级分析工具R语言、Data-DrivenDocuments(数据驱动文档)、Python;(6)以《数字美食》、《空中的间谍》为例,深入讲解知识点内容,理论与案例相结合,帮助读者更好掌握相关知识。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;(2)不断在实践中创新与学习,注重理论联系实际,注重各学科交叉,利用商业、科研、政治等领域的需求和发展来推动大数据可视化学科的进步。教学内容导入新课:数据可视化是当今时代的技术热点,并在一定程序上推进了其他相关数据技术的发展和创新,尤其是人们通过不同的可视化方法可以更好地发现整体数据的内在意义和内在联系,为可能的数据创新和数据服务提供强有力的支撑和帮助。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息,它是一个处于不断演变之中的概念,其边界在不断地扩大,主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释,它是关于数据视觉表现形式的科学技术研究。二、内容大纲:具体可结合本章的PPT课件进行配合讲解。7.1什么是可视化7.1.1可视化的含义7.1.2可视化的发展历程7.1.3可视化的作用7.2数据可视化及其分类7.2.1科学可视化7.2.2信息可视化7.2.3可视化分析学7.3数据可视化工具7.3.1入门级工具7.3.2信息图表工具7.3.3地图工具7.3.4高级分析工具7.4数据可视化案例7.4.1数字美食7.4.2空中的间谍三、讨论问题:7-1数据可视化的意义是什么?7-2数据可视化的发展现状如何?7-3数据可视化的技术类型有哪些?7-4数据可视化的典型工具有哪些?思考及作业一、归纳小结:大数据可视化的实施是一系列数据的转换过程。我们有原始数据,通过对原始数据进行标准化、结构化的处理,把它们整理成数据表。将这些数值转换成视觉结构,通过视觉的方式把它表现出来。例如将高中低的风险转换成红黄蓝等色彩,数值转换成大小。将视觉结构进行组合,把它转换成图形传递给用户,用户通过人机交互的方式进行反向转换,去更好地了解数据背后有什么问题和规律。从技术上来说,大数据可视化的实施步骤主要有四项:明确需求,建设数据仓库模型,数据抽取、清洗、转换、加载(ETL),建立可视化分析场景。在未来数据可视化的发展历程中,数据的处理能力为核心,交互式可视化是新趋势。数据可视化使受众与媒体的关系发生根本变化,得以感受到传统报道难以揭示的现象和规律。步入数据时代,“数据可视化”作为一种表达类型、生产类型、内容类型,愈发高频地走进受众视野大数据时代,传统的显示技术已很难达到可以完美展示出大规模、高纬度、非结构化数据层出不穷数据的需求。二、拓展延伸:数据可视化未来的发展趋势如何?以及它在现实生活中的主要应用是什么?课时内容大数据与云计算授课时间90分钟课时2教学目标结合时代热点介绍大数据与云计算的关系教学重点理解云计算的概念与特点掌握云计算的分类掌握云计算的体系架构了解大数据与云计算未来的发展方向和趋势熟悉大数据与云计算在生产生活中的应用教学难点理解云计算的涵义和特点理解并掌握云计算的分类掌握云计算的体系架构在掌握大数据处理与云计算相关基本原理和技术的基础上,结合实际理解大数据与云计算的区别和联系教学设计1、教学思路:(1)理解云计算的概念,云计算(cloudcomputing,分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务;(2)了解云计算具有超大规模、虚拟化、高可靠性、通用性、高可扩展性、按需服务、极其廉价的特点;(3)简要介绍公有云、私有云、混合云这3种不同分类的云计算的特点;(4)通过云计算平台架框图了解软件即服务(SoftwareasaService,SaaS)、平台即服务(PlatformasaService,PaaS)和基础即服务(InfrastructureasaService,IaaS)3种云计算的典型服务模式;(5)理解大数据与云计算的区别与联系;(6)了解大数据与云计算未来的发展方向和趋势,熟悉大数据与云计算在生产生活中的应用。2、教学手段:(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;(2)教学应当结合实际的实验条件,培养学生实践动手能力,了解大数据技术发展现状,更好地掌握所学知识点,促进大数据相关教学改革。教学内容导入新课:二、内容大纲:具体可结合本章的PPT课件进行配合讲解。8.1什么是云计算8.1.1云计算的概念与特点8.1.2云计算的分类8.1.3云计算与分布式计算的区别8.1.4云计算的体系架构8.1.5云计算需要解决的问题8.1.6具有代表性的云计算厂商8.2大数据与云计算的关系8.2.1云计算将改变大数据分析8.2.2大数据与云计算的区别和联系8.2.3大数据与云计算未来的发展方向和趋势8.2.4大数据与云计算在生产生活中的应用三、讨论问题:8-1什么是云计算?8-2云计算的计算框架是什么?8-3云计算与大数据的关系是什么?8-4云计算未来可能的发展方向是什么?思考及作业一、归纳小结:云计算是并行计算(ParallelComputing)、分布式计算(DistributedComputing)和网格计算(GridComputing)的发展,或者说是这些计算机科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(UtilityComputing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。云计算(cloudcomputing)是商业化的超大规模分布式计算技术。即:用户可以通过已有的网络将所需要的庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的更庞大的系统,经搜寻、计算、分析之后将处理的结果回传给用户。简单来说,云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用。大数据相当于海量数据的“数据库”,通过大数据领域的发展我们也可以看出,当前的大数据发展一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论