大数据导论PPT全套完整教学课件_第1页
大数据导论PPT全套完整教学课件_第2页
大数据导论PPT全套完整教学课件_第3页
大数据导论PPT全套完整教学课件_第4页
大数据导论PPT全套完整教学课件_第5页
已阅读5页,还剩337页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据概述第一章随着信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,其所产生的数据呈指数型增长。达到PB(1024TB)级规模的海量数据已远远超出了传统的计算技术和信息系统的处理能力,从而促进了大数据(BigData)的产生。LOGO第1章大数据概述1117第2章大数据与云计算第3章从产业结构来探索大数据技术第4章大数据的硬件架构——集群第5章大数据开发与计算技术第6章大数据存储技术第7章大数据分析第8章大数据与人工智能大数据概述什么是大数据01大数据的数据特征及对科学研究的影响02大数据的数据类型03大数据的可用性及衍生价值04大数据的发展趋势05什么是大数据目前,我们已经进入大数据时代,但对很多人来说,什么是大数据,大数据是怎么产生的,它有什么用?从计算机的角度认识从信息时代怎么进入大数据时代的,这些东西并不清楚,所以本节主要解决以上问题,让我们能够从科学的角度认识大数据。PART01大数据的人才培养大数据的人才培养大数据的人才培养数据分析师能力数据分析概念与统计学SQL数据库基础数据采集与处理数据建模分析具有数据分析的概念及方法论;可以分析描述性统计分析和推断性统计分析;方差分析;回归分析等能力具有SQL关系型数据库基本概念;熟练使用增删改查SQL语言;熟练使用SQL函数;对事务和多用户并发有处理办法等掌握数据采集的方法;做过市场调研;掌握数据预处理方法;可以将数据可视化等掌握主成分分析法;因子分析法;多元回归分析法;聚类分析法;时间序列等大数据的人才培养大数据的人才培养大数据分析师能力大数据基础理论Hadoop理论数据库理论及工具数据挖掘具有大数据分析基础;Python基础;Linux&Ubuntu操作系统基础等具有Hadoop相关知识;了解HDFS分布式文件系统;MapReduce理论实战等Hadoop其他组件具有数据库理论基础;熟练掌握MySQL或Oracle数据库或其他关系型数据库;Hbase,Hive,Sqoop使用;具有数据挖掘基本思想;掌握有监督和无监督学习算法Spark工具及实战大数据可视化大数据分析实战掌握Spark理论;SparkRDD基本概念及操作;Spark流式计算框架SparkStreaming、StructuredStreaming;Spark机器学习算法库SparkMLlib基本使用方法掌握数据可视化基础;Python数据可视化;Python高级数据可视化方法可以利用HDFSShell操作HDFS文件系统;利用HiveSQL进行数据清洗;;利用Sqoop进行数据传输;利用SparkSQL进行数据读取;利用SparkMLlib进行机器学习建模;利用Python进行建模结果数据可视化生产数据的三个阶段1.被动式生成数据是由于数据库技术的产生2.主动式生成数据是由于万维网的发明与发展3.感知生成数据是由于物联网的飞速发展“”1.1.1大数据的来源数据库技术使数据的保存和管理变得简单,业务系统在运行时产生的数据直接保存数据库中,这个时候数据的产生是被动的,数据是随着业务系统的运行产生的,并且更多地依赖人工收集数据。.被动式生成数据是由于数据库技术的产生Web2.0的发展大大加速了数据的产生,人们可以通过手机、电脑等终端随时随地生成数据。据统计,在1分钟内,新浪平均有2万条微博产生,苹果商店平均有4.7万次应用下载,淘宝平均有6万件商品交易记录,百度大约产生了90万次的搜索查询,数据的生成相比之前大大加速。主动式生成数据是由于万维网的发明与发展感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化。各种智能传感设备、智能仪表、监控探头和GPS(GlobalPositioningSystem,全球定位系统)定位等数据采集设备源源不断地自动采集、生成数据。感知生成数据是由于物联网的飞速发展1.1.1大数据的来源利用大数据1.1.1大数据的来源以2018年双11期间,淘宝和天猫共实现2135亿的交易额为例,其服务所支撑的用户点击所产生的数据量是海量并且是非结构化数据,用户所产生的数据是一项宝贵的资源,若能从这类海量数据中快速地分析出数据的价值,便可以用于分析并理解客户的市场需求,积极改善公司的市场设施配置策略和服务模式,还可以极大地提高服务的用户体验。大数据的产生首先源于互联网企业对于日益增长的网络数据分析的需求,如图所示。利用大数据-问题的产生1.1.1大数据的来源

有效地为如此巨大的用户群体服务,让他们参与时能够享受方便、快捷的服务,成为网站不得不解决的一个问题。为了解决大型网站的访问量大、并发量高、海量数据的问题,一般会考虑业务拆分和分布式部署。由于海量非结构化、半结构化数据的出现,数据已没有办法在可容忍的时间内,使用常规软件方法完成存储、管理和处理任务。快速增长的数据量要求数据处理的速度也要紧跟其步伐,才能使得获取到大量的数据被有效利用,否则,快速增长的数据量会成为解决问题的负担。在获取数据的过程中,数据不是一成不变的,而是随着互联网在时时发生变化,通常这样的数据价值会随着时间的推移而呈现降低的趋势,如果数据在获取时间内没有得到有效的处理,就会导致其失去价值。各个机构对大数据的描述1.1.2大数据的定义维基百科将大数据描述为:大数据又称为巨量数据、海量数据,指的是传统数据处理应用软件不足以处理它们大或复杂的数据集的术语。麦肯锡全球研究所对大数据的解释:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。研究机构Gartner(第一家信息技术研究和分析的公司)对大数据的解释:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。简而言之,大数据是现有数据库管理工具和传统数据处理应用方法很难处理的大型、复杂的数据集,大数据技术的范畴包括大数据的采集、存储、搜索、共享、传输、分析和可视化等。从某种程度上说,大数据是数据分析的前沿技术,即从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。1.1.3从信息技术(IT)转向数据技术(DT)

李国杰院士认为:信息系统需要从数据围绕着处理器转改为处理能力围绕着数据转,将计算用于数据,而不是将数据用于计算。回顾计算机技术的发展历程,可以清晰地看到计算机技术从面向计算逐步转变到面向数据的过程,面向数据也可以更准确地称为“面向数据的计算”。面向数据要求系统的设计和架构以围绕数据为核心开展。这一过程的描述如图所示,该图从硬件、网络和云计算的演进过程等方面以时间为顺序进行了纵向和横向的对比。大数据的数据特征及对科学研究的影响大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。所以要对大数据进行处理,首先应该先了解大数据的数据特征,进行针对性处理。下面主要讲解大数据的4V特征及其对科学研究有哪些影响。PART021.2.1大数据的数据4V特征

第一个特征是数据量大(Volume),或者叫大量化、规模性。需要采集、处理、传输的数据量大,数据的大小决定所考虑的数据的价值和潜在的信息。处理PB级的数据是比较常态的情况。企业内部的经营交易信息,网络世界中的商品、物流信息,人与人的交互信息、位置信息等都是大数据的主要来源。第二个特征是数据类型繁多(Variety),也叫多样性。包括网络日志、音频、视频、图片、地理位置信息等,数据的种类多、复杂性高。大数据有不同格式,有结构化的关系型数据,有半结构化的网页数据,还有非结构化的视频音频数据。这些非结构化数据广泛存在于社交网络、物联网、电子商务之中,其增长速度比结构化数据快10倍到50倍。多类型的数据对数据的处理能力提出了更高的要求。1.2.1大数据的数据4V特征

第三个特征是处理速度快,时效性高(Velocity),也叫高速性。获得数据的速度快速增长,数据需要频繁地采集、处理并输出;因为数据会存在时效性,需要快速处理,并得到结果。如一些电商数据,如果当天的信息不处理,就将会影响到很多需要立即做出的商业决策。要达到立竿见影而非事后见效,实现实时获取需要的信息,1秒是临界点,即对于很多实时大数据应用而言,必须要在1秒钟内进行处理,否则处理结果就是过时和无效的。这也是大数据区分于传统数据挖掘最显著的特征。

第四个特征是数据价值密度低(Value)。如随着物联网的广泛应用,信息感知无处不在,大量的不相关信息不经过处理则价值较低,挖掘大数据的价值类似于沙里淘金。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据要解决的问题,即合理运用大数据,以低成本创造高价值。。1.促进了科学研究的第四范式产生1.2.1大数据的数据4V特征

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据的产生和信息技术领域提出的面向数据的概念同时也开始深刻地改变了科学研究的模式,2007年,已故的图灵奖得主吉姆·格雷(JimGray,数据库基本理论的奠基人,如图所示)提出了数据密集型科研“第四范式(TheFourthParadigm)”。他将大数据科研从第三范式中分离出来单独作为一种科研范式,他认为利用海量的数据可以为科学研究和知识发现提供除经验、理论、计算外的第四种重要方法。1.促进了科学研究的第四范式产生1.2.1大数据的数据4V特征

第一范式——实验,人类早期知识的发现主要依赖于经验、观察和实验,需要的计算和产生的数据很少。当人类知识积累到一定的程度后,知识逐渐形成了理论体系,这时进入第二范式——理论,通过理论研究发现知识。计算机的出现为人类发现新的知识提供了重要的工具,这时进入第三范式——计算,通过计算发现知识。现在人类在一年内所产生的数据已经超过人类过去几千年产生的数据的总和,目前的数据处理方法在面对庞大的数据时显得力不从心,人类逐步进入面向数据的时代,这时进入第四范式——数据,通过数据发现知识,利用海量数据加上高速计算发现新的知识是数据密集型的科学发现。2.促进了交叉学科的发展1.2.1大数据的数据4V特征目前,社会科学、自然科学和人文科学只是学术建制意义上的区分,它们之间已经有着密切的联系,不再像以前是孤立的存在。自然科学的根本目的在于发现自然现象背后的规律。20世纪50年代之前,社会科学与自然科学相对独立,跨学科交叉研究基本没有。继物理计算和生物计算之后,社会计算(SocialComputing)可能成为科学计算研发的新焦点,并产生新的方向和领域。大数据的数据类型PART031.3大数据的数据类型

大数据包括结构化、半结构化和非结构化数据,半结构化和非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:半结构化和非结构化数据快速增长,企业中80%~90%的数据都是半结构化和非结构化数据,这些数据每年都按指数增长60%,如图所示。1.3大数据的数据类型结构化数据也称作行数据,是指可以用二维表结构来逻辑表达实现的数据(如学生成绩表),严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。如MySQL、Oracle、SQLServer等可以存储表现二维形式的数据。结构化数据的一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。但它的扩展性不好,如增加一个字段。结构化数据通常按照特定的应用对事物进行相应的抽象,数据最终以表格的形式保存在数据库中,数据格式统一,呈现大众化、标准化的特点。结合到典型场景中更容易理解,如企业ERP(EnterpriseResourcePlanning,企业资源计划)、财务系统、医疗HIS(HospitalInformationSystem)数据库、教育一卡通、政府行政审批和其他核心数据库等。1.结构化数据1.3大数据的数据类型与结构化数据相对的是不适于用数据库二维表来表现的数据,可以说都是非结构化数据。非结构化数据没有统一的数据结构属性,一般直接整体进行存储,并且一般存储为二进制数据格式。包含全部格式的办公文档(如Word、PPT)、文本、日志、图片、音频、视频、地形等数据。除了存储在关系数据库和存储在一个关系数据库之外的明显区别之外,结构化数据和非结构化数据最大的区别在于分析结构化数据与非结构化数据的便利性。相对于特定场景的应用,大数据关注非结构化数据的价值密度较低。整体而言,非结构化数据的增长速度比结构化数据的增长速度快10倍到50倍,但这并不意味着结构化数据或者半结构化数据将面临淘汰的局面,具体的使用情况以实际的应用场景为准。但有了海量的非结构化数据,必须想办法存储和分析,从中挖掘出有价值的信息,为社会提供更好的服务。2.非结构化数据1.3大数据的数据类型半结构化数据是介于结构化数据和非结构化数据之间的数据,如标记语言XML、HTML文档、电子邮件等属于半结构化数据。电子邮件的本地元数据可以实现分类和关键字搜索,不需要任何其他工具,所以半结构化数据一般是自描述的,数据的结构和内容混在一起,没有明显的区分。目前,对于半结构化的数据的存储多采用NoSQL数据库,NoSQL泛指非关系型的数据库。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型数据库。NoSQL不会将组织(模式)与数据分开,这使得NoSQL成为存储半结构化数据更好的选择。但NoSQL数据库正处于探索阶段。无论企业的业务具体是什么,其目标都是挖掘业务价值,无论数据是结构化数据、半结构化数据还是非结构化数据,它们都可能具有很高的价值。需要创新工具,实现汇总、查询、分析和利用所有数据类型,以便在整个企业数据范围内获得更加深入的业务洞察力。3.半结构化数据大数据的可用性及衍生价值PART041.4大数据的可用性及衍生价值

进入大数据时代以来,全人类积累了海量的数据,这些数据仍在不断急速增加,这带来两个方面的巨变:一方面,在过去没有海量数据积累的时代无法实现的应用现在终于可以实现;另一方面,从数据匮乏时代到数据泛滥时代的转变,给数据的处理和应用带来新的挑战与困扰,即如何从海量数据中高效地获取数据,有效地深加工并最终得到有价值意义的数据。大数据的一个重要方面是数据的可用性。大数据的另一个重要方面是数据的复杂性。

大数据可以在众多领域创造巨大的衍生价值,使得未来企业投资重点不再是以建系统为核心,而是以大数据为核心,处理大数据的效率逐渐成为企业的生命力。1.4大数据的可用性及衍生价值大数据系统里面都有什么东西呢?1.4大数据的可用性及衍生价值大数据涵盖了计算和数据两大主题在存储上,HDFS的分布式存储可以任意水平扩展,可以解决数据存储的难题。在计算上,从最初的MapReduce,把任务水平拆分,多台机器并行计算,再汇总结果,到基于Spark的内存计算,改造MapReduce每次数据存盘以及编程方式的痛点。有了存储和计算框架,周边就衍生出了很多管理、缓存相关的技术,如Yarn解决多租户资源调度的难题,Flume解决数据传输的难题,Sqoop解决分布式存储数据与传统DB数据之间的转换,Oozie解决了大数据计算任务的调度,Kafka提供了发布订阅机制的消息队列,ZooKeeper可以帮助用户完成主备的选举,Hive在HDFS的基础上提供了数据仓库的功能,Hbase是基于HDFS实现的列式数据库等。大数据的发展趋势PART051.5大数据的发展趋势从目前发展形势可以看出,大数据主要有以下八种发展趋势(1)数据的资源化是指大数据成为企业和社会关注的重要战略资源,已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。(2)与云计算的深度结合大数据离不开云计算,云计算为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据技术,让大数据发挥出更大的影响力。(3)科学理论的突破随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。(4)数据科学和数据联盟的成立未来,数据科学将成为一门专门的学科被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。1.5大数据的发展趋势(5)数据泄露泛滥未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。(6)数据管理成为核心竞争力数据管理直接影响财务表现,当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。(7)数据质量是BI(BusinessIntelligence,商业智能)成功的关键采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。(8)数据生态系统复合化程度加强大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使用者、数据服务提供商、触点服务、数据服务零售商等一系列的参与者共同构建的生态系统。课后习题1.简述什么是大数据?2.大数据的数据有什么特点?3.大数据对科学研究有什么影响?4.大数据有哪些数据类型?5.大数据有哪些应用?课后答案1.答:大数据(bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2.答:数据量大(Volume)、数据类型复杂(Variety)、数据产生速度快(Velocity)、价值密度低(Value)。3.答:促进了科学研究的第四范式产生和交叉学科的发展。4.答:有结构化数据、非结构化数据和半结构化数据。5.答:大数据可以在众多领域创造巨大的衍生价值:实现数据的资源化,帮助企业抢占市场,提供个性化服务,指定有效方针等;与云计算深度结合;可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破感谢大家的全力支持LOGO第2章大数据与云计算BigDataandCloudComputing云计算概述2.1云计算的主要部署模式2.2云计算的主要服务模式2.3云计算与大数据体系架构关系2.42.5物联网、大数据和云计算之间的关系2.1.1云计算的提出

在不同时期,信息产业的发展有两个重要的核心驱动力:硬件驱动力、网络驱动力。这两种驱动力量的对比和变化决定着产业中不同产品的出现时期以及不同形态的企业出现和消亡的时间。以硬件为核心驱动的时代诞生了IBM、微软、Intel等企业。以网络为核心驱动的时代诞生了Google、雅虎、亚马逊等企业。2.1云计算概述2.1.1云计算的提出2.1云计算概述2006年,Google公司CEO埃里克·施密特(EricSchmidt)在搜索引擎大会(SESSanJose)首次提出“云计算”概念及体系架构,并快速得到了业界认可,如图所示。2008年,云计算概念全面进入中国,2009年,中国首届云计算大会召开,此后云计算技术和产品迅速发展起来。2.1.2云计算的定义2.1云计算概述

(1)维基百科:云计算是一种动态扩展的计算模式,通过网络将虚拟化的资源作为服务提供给用户;云计算通常包含基础设施即服务(InfrastructureasaService,IaaS)、平台即服务(PlatformasaService,PaaS)、软件即服务(SoftwareasaService,SaaS)。

(2)美国国家标准与技术实验室(NationalInstituteofStandardsandTechnology,NIST):云计算是一种无处不在的、便捷的通过互联网访问的一个可定制的IT资源(IT资源包括网络、服务器、存储、应用软件和服务)共享池,是一种按使用量付费的模式。它能够通过最少量的管理或与服务供应商的互动实现计算资源的迅速供给和释放。这也是现阶段广为接受的云计算的定义。2.1.2云计算的定义2.1云计算概述

简而言之,云计算是一种通过互联网以服务的方式提供动态可伸缩的虚拟化资源的计算模式。云计算的资源是分布式架构并通过虚拟化技术实现动态易扩展,通过互联网提供的一种具有服务等级协议(Service-LevelAgreement,SLA)的服务。该协议是云服务提供商和客户之间的一份商业保障合同,而非一般的服务承诺。终端用户不需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制,只关注自己真正需要什么样的资源以及如何通过网络来得到相应的服务。2.1.3云计算的概念模型2.1云计算概述

(1)用户的公共性。云计算面向各类用户,包括企业、政府、学术机构、个人等用户,也包括应用软件、中间件平台等“用户”。这些用户不需了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制,只关注自己真正需要的资源以及如何通过网络来得到相应的服务。

(2)设备的多样性。云计算希望提供服务的设备是多样的,既包括各种规模的服务器、主机、存储设备,也包括各种类型的终端设备,如计算机、智能手机、各种智能传感器设备等。2.1.3云计算的概念模型2.1云计算概述

(3)商业模式的服务性。云计算的服务特性体现在两个方面:简化和标准的服务接口、按需计费的商业模式。

(4)提供方式的灵活性。云计算既可以作为一种公用设施,提供社会服务,即“公有云”,也可以作为企业信息化的集中计算平台来提供,即“私有云”。2.1.4云计算的特点2.1云计算概述(2)资源虚拟化(Virtualization)和弹性调度。(1)具有大规模并行计算能力。(3)数据量巨大并且增速迅猛产生了典型的大数据处理技术。

“云”已经具有相当规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器,企业私有云一般拥有数百上千台服务器,这些服务器的硬件架构是集群,为大粒度应用提供传统计算系统或用户终端所无法完成的并行计算服务。云计算向外提供的是计算能力、存储能力、网络能力等各种服务能力。

云计算的硬件资源是以分布式系统为底层架构,上层通过虚拟化技术进行业务的弹性伸缩,以按需分配方式,为小粒度应用提供计算资源,实现资源共享。即云计算能够根据用户的实际需求动态分配和释放不同的资源,当有新需求出现时,可为用户快速匹配新的资源并及时分配,以保证资源提供的弹性;而当用户不再需要这些资源时,会迅速释放,提供给其他需要的用户。

大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。2.2.1公有云2.2云计算的主要部署模式

公有云:提供面向社会大众、公共群体的云计算服务。公有云用户以付费的方式,根据业务需要弹性使用IT分配的资源,用户不需要自己构建硬件、软件等基础设施和后期维护,可以在任何地方、任何时间、多种方式、以互联网的形式访问获取资源。公有云如同日常生活中按需购买使用的水、电一样,方便、快捷地享受服务。

目前,比较流行的公有云平台有国外的亚马逊云平台AWS(AmazonWebServices)、GAE(GoogleAppEngine)等,国内的有阿里云、SAE(SinaAppEngine)、BAE(BaiduAppEngine)等。亚马逊的AWS提供了大量基于云的全球性产品,包括计算、存储、数据库、分析、联网、移动产品、开发人员工具、管理工具、物联网、安全性和企业级应用程序,这些服务及应用程序可帮助企业或组织快速发展自己的业务、降低IT成本,使来自中国乃至全球的众多客户从中获益。

公有云有很多优点,但最大的缺点是难以保证数据的私密性。2.2.2私有云2.2云计算的主要部署模式

私有云:提供面向应用行业/组织内的云计算服务。私有云一般由一个组织来使用,同时由这个组织来运营。如政府机关、移动通信、学校等内部使用的云平台。私有云可较好地解决数据私密性问题,对移动通信、公安等数据私密性要求特别高的企业或机构,建设私有云将是一个必然的选择。使用私有云提供的云计算服务需要一定的权限,一般只提供给企业内部员工使用。其主要目的是合理地组织企业已有的软硬件资源,提供更加可靠、弹性的服务供企业内部使用。比较流行的私有云平台有VMwarevCloudSuite和微软的MicrosoftSystemCenter2016。

2.2.2私有云举例2.2云计算的主要部署模式

①VMwarevCloudSuite私有云。

VMware是全球领先的虚拟化解决方案提供商,能对用户的硬件资源进行有效地整合,简化管理,提升硬件资源的利用率。VMwarevCloudSuite可构建和管理基于软件定义数据中心的VMwarevSphere企业私有云,VMwarevSphere能够跨数据中心,实现高可用的、可扩展的并按需分配的企业硬件IT基础架构。

②MicrosoftSystemCenter2016私有云。

它提供了本地企业环境与WindowsAzure集成的各种服务,可以让企业轻松地从本地环境迁移到微软Azure公有云。它包括基础设施管理和DevOps的资源配置、监控、自动化、端点保护和备份与恢复。SystemCenter2016能实现企业的数据中心向私有云转型,使企业数据中心更可靠、可扩展、弹性地满足企业不断增长的业务需求。2.2.3混合云2.2云计算的主要部署模式

混合云:是把公有云和私有云进行整合,吸纳二者的优点,给企业带来真正意义上的云计算服务。混合云是未来云发展的方向。混合云既能利用企业在IT基础设施的巨大投入,又能解决公有云带来的数据安全等问题,是避免企业变成信息孤岛的最佳解决方案。混合云强调基础设施是由两种或多种云组成的,但对外呈现的是一个完整的整体。企业正常运营时,把重要数据保存在自己的私有云里面(如财务数据),把不重要的信息或需要对公众开放的信息放到公有云里,两种云组合形成一个整体,这就是混合云。

组建混合云的利器是OpenStack,它可以把各种云计算平台资源进行异构整合,构建企业级混合云,使企业可以根据自己的需求灵活自定义各种云计算服务。在搭建企业云计算平台时,使用OpenStack架构是最理想的解决方案,虽然入门门槛较高,但是随着项目规模的扩大,企业终将从中受益,因为不必支付云平台中软件的购买费用。2.2.3混合云举例2.2云计算的主要部署模式

混合云计算的典型案例是12306火车票购票网站。12306购票网站最初是私有云计算,消费者平时用12306购票没有问题,但是一到节假日(如春节),有大量购票需求的时候,消费者在购票的时候就会出现页面响应慢或者页面报错的情况,甚至还会出现无法付款的情况,用户体验特别差。为了解决上述问题,12306火车购票网站与阿里云签订战略合作,由阿里云提供计算能力以满足业务高峰期查票检索服务,而支付业务等关键业务在12306自己的私有云环境之中运行。两者组合成一个新的混合云,对外呈现还是一个完整的系统——12306火车购票网站。在企业中,私有云能更好地调度和使用自动化管理物理资源,使企业基础设施更高效地运行,结合公有云,使企业在相互协同、合作、创新等方面更加高效。2.3.1基础设施即服务(IaaS)2.3云计算的主要服务模式IaaS主要用户是系统管理员,他们具有专业知识能力,直接利用云提供的资源进行业务的部署或简单的开发。服务提供商提供给用户的服务是计算和存储基础设施,包括CPU、内存、存储、网络和其他基本的资源。用户不管理或控制任何云计算基础设施,但能控制操作系统的选择,存储空间、部署和运行任意软件,也可获得有限的网络组件(如路由器、防火墙、负载均衡器等)的控制。IaaS的典型代表是Amazon(前身是网上书店),Amazon的WebService提供了两个云平台:弹性计算云EC2(ElasticComputingCloud)和简单存储服务S3(SimpleStorageService),EC2完成计算功能,S3完成存储功能。2.3.2平台即服务(PaaS)2.3云计算的主要服务模式PaaS主要用户是开发人员。PaaS是把应用服务的运行和开发环境作为一种服务提供的商业模式。即PaaS是把二次开发的平台以服务形式提供给开发软件的用户使用,开发人员不需要管理或控制底层的云计算基础设施,但可以方便地使用很多在构建应用时的必要服务,能控制部署的应用程序开发平台。PaaS的典型案例有微软的VisualStudio开发平台和GoogleAppEngine(应用引擎)平台。GoogleAppEngine和Amazon的S3、EC2不同,因为后者是直接提供的是一系列硬件资源供用户选择使用。PaaS的关键技术有两个,一个是分布式的并行计算,另一个是大文件分布式存储。分布式并行计算技术是为了充分利用广泛部署的普通计算资源实现大规模运算和应用的目的,实现真正将传统运算转化为并行计算,为客户提供并行服务。大文件分布式存储是为了解决海量数据存储在廉价的不可信结点集群架构上数据安全性及运行性的保证。2.3.3软件即服务(SaaS)2.3云计算的主要服务模式SaaS的客户群体是普通用户。服务提供商提供给用户的服务是运行在云计算基础设施上的应用程序,用户只需要通过终端设备接入使用即可,简单方便,不需要用户进行软件开发,也无需管理底层资源。如Office365、嘀嘀打车、共享单车等应用软件都属于SaaS。在云平台上,Office365把Word、Excel、PowerPoint、Project、PowerBI、OneNote、OneDrive、Exchange、Skype、SharePoin集成为企业所需的办公云平台,它不仅可以在线使用,还可以下载到本地以客户端形式使用,是一套完整、容易入门、性价比高、支持混合部署、支持自定义的办公解决方案,与传统意义的Office有天壤之别。SaaS的关键技术是多租户技术。云计算要求硬件资源和软件资源能够更好的共享,要具有良好的伸缩性,任何一个用户都能够按照自己的需求进行客户化配置而不影响其他用户的使用。

2.3.4三种服务模式之间的关系2.3云计算的主要服务模式

①从用户体验角度分析从用户体验角度而言,它们之间关系是独立的,因为它们面对的是不同类型的用户。SaaS主要面对的是普通用户。PaaS主要的用户是开发人员。为了支撑着整个PaaS平台的运行,供应商需要提供四大功能:友好的开发环境、丰富的服务、自动的资源调度、精细的管理和监控。IaaS主要的用户是系统管理员,具有专业知识能力。IaaS供应商需要在7个方面对基础设施进行管理以给用户提供资源,它们是资源抽象、资源监控、负载管理、数据管理、资源部署、安全管理和计费管理。

②从技术角度分析云计算的服务层次是根据服务类型来划分的,与大家熟悉的计算机网络体系结构中层次的划分不同。从技术角度而言,它们有一定的继承关系,即SaaS基于PaaS,PaaS基于IaaS,但并不是简单的继承关系。因为SaaS可以是基于PaaS或者直接部署于IaaS之上,PaaS可以构建于IaaS之上,也可以直接构建在物理资源之上,也就是说某一层次可以单独完成一项用户的请求而不需要其他层次为其提供必要的服务和支持。云计算系统按资源封装的层次分为对底层硬件资源不同级别的封装,从而实现将资源转变为服务的目的。2.4云计算与大数据体系架构关系

云计算与大数据是一对相辅相成的概念,它们描述了面向数据时代信息技术的两个方面,云计算侧重于提供资源和应用的网络化交付方法,大数据侧重于应对数据量巨大所带来的技术挑战。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

导言:2.4云计算与大数据体系架构关系2.4.1云计算基础设施——Google平台

云计算的逻辑架构是以Google提出的云计算逻辑架构而发展起来的,Google提出了一整套基于分布式的并行集群基础架构,并且Google的数据中心采用廉价的LinuxPC机组成集群,利用软件来处理集群中经常发生的结点失效问题,从而形成了Google的云计算基础架构。Google的云计算基础架构包括三个相互独立又紧密结合在一起的系统:GFS分布式文件系统(GoogleFileSystem)、针对Google应用程序的特点提出的MapReduce编程模式和大规模分布式数据库BigTable。2.4云计算与大数据体系架构关系2.4.1云计算基础设施——Google平台(1)GFS是建立在集群之上的分布式文件系统,解决了超大文件存储、访问、读操作比例远超过写操作和集群中的结点极易发生故障造成结点失效等问题。GFS默认把超大文件分成64MB固定大小的块,分布在集群的机器上;为了提高可靠性,每个块文件至少有3份以上的冗余,从而解决结点失效问题。(2)MapReduce是分布式并行编程模式,解决了并行计算问题。用户只需要提供自己的Map函数以及Reduce函数,就可以在集群上进行大规模的分布式并行数据处理,并把结果存储在GFS上。(3)BigTable是弱一致性要求的分布式大规模数据库管理系统,解决了海量非关系型数据的存储。它是稀疏的、分布式的、持久化的、多维排序的,并以Key/Value对形式存储的数据模型。BigTable不是关系型数据库,像它的名字一样,就是一个巨大的表格,用来存储半结构化数据。2.4云计算与大数据体系架构关系2.4.2大数据基础设施——Hadoop平台HDFS是Hadoop的分布式文件存储系统。从用户角度看,HDFS和其他分布式文件系统没有什么区别,都具有创建文件、删除文件、移动文件和重命名文件等功能。但HDFS是用来设计存储大数据的,并且是分布式存储,所以所有特点都与大数据和分布式有关。为了满足大数据的处理需求,Hadoop对超大文件的访问、读操作比例远超过写操作、集群中的结点极易发生故障造成结点失效等问题从技术上进行了优化。2.4云计算与大数据体系架构关系2.4.2大数据基础设施——Hadoop平台Hadoop实现了一个对大数据进行分布式并行处理的系统框架,是一种数据并行的处理方法。由实现数据分析的MapReduce计算框架和实现数据存储的分布式文件系统HDFS有机结合组成,它自动把应用程序分割成许多小的工作单元,并把这些单元放到集群中的相应结点上执行,而分布式文件系统HDFS负责各个结点上数据的存储,实现高吞吐率的数据读写。2.4云计算与大数据体系架构关系2.4.2大数据基础设施——Hadoop平台MapReduce是一个分布式计算框架,是Hadoop的一个基础组件。分为Map和Reduce过程,是一种将大任务细分处理再汇总结果的一种方法。MapReduce是一种编程模型,支持使用廉价的计算机集群对规模达到PB级的数据集进行分布式并行计算。MapReduce由Map函数和Reduce函数构成,分别完成任务的分解与结果的汇总。MapReduce的用途是进行批量处理,不是进行实时查询,即特别不适用于交互式应用。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。2.4云计算与大数据体系架构关系2.4.3Hadoop生态系统(1)ETLTools是构建数据仓库的重要环节,由一系列数据仓库采集工具构成。(2)BIReporting(BusinessIntelligenceReporting,商业智能报表)能提供综合报告、数据分析和数据集成等功能。(3)RDBMS是关系型数据库管理系统。RDBMS中的数据存储在被称为表(Table)的数据库中。表是相关记录的集合,它由行和列组成,是一种二维关系表。(4)Pig数据分析语言提供相应的数据流(DataFlow)语言和运行环境,实现数据转换(使用管道)和实验性研究(如快速原型)。适用于数据准备阶段,Pig运行在由Hadoop基本架构构建的集群上。(5)Hive分布式数据仓库擅长于数据展示,由Facebook开发。Hive管理存储在HDFS中的数据,提供了基于SQL的查询语言查询数据。Hive和Pig都是建立在Hadoop基本架构之上,可以用来从数据库中提取信息,交给Hadoop处理。(6)Sqoop是数据格式转化工具,是完成HDFS和关系型数据库中的数据相互转移的工具。2.4云计算与大数据体系架构关系2.4.3Hadoop生态系统(7)HBase是类似于GoogleBigTable的分布式列数据库。HBase支持MapReduce的并行计算和点查询(即随机读取)。HBase是基于Java的产品,与其对应的基于C++的开源项目是HyperTable,也是Apache的项目。(8)Avro是一种新的数据序列化(Serialization)格式和传输工具,主要用来取代Hadoop基本架构中原有的IPC(Inter-ProcessCommunication,进程间通信)机制。(9)Zookeeper是协同工作系统,用于构建分布式应用,是一种分布式锁设施,提供类似GoogleChubby(主要用于解决分布式一致性问题)的功能,它是基于HBase和HDFS的,由Facebook开发。(10)Ambari旨在将监控和管理等核心功能加入Hadoop。Ambari可帮助系统管理员部署和配置Hadoop、升级集群,并可提供监控服务。(11)Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志收集工具,即Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。2.5物联网、大数据和云计算之间的关系2.5.1物联网

物联网是新一代信息技术的重要组成部分,也是信息化时代的重要发展阶段。其英文名称是:“InternetofThings(IoT)”。顾名思义,物联网就是物物相连的互联网。其中物联网的基础是互联网,以互联网的形式把物与物联系在一起,进行信息交换和通信,是互联网对象的扩展和延伸,即万物互联。

物联网必将引发一场新的技术与商业革命,将把人类推向一个万物智能的世界,任何事物都有学习、发现、倾听、感知的能力。未来的公路、建筑、路灯、护栏、道路标识线等都遍布信号探测器。智能汽车时刻与道路探测器和其他汽车进行高速信息交换,智能汽车的图像识别能力日益成熟,外加道路的全面物联网化,汽车将实现无人驾驶,而且比人类驾驶的汽车更安全、快捷。物联网将颠覆人与物之间的相处模式,借助科技的力量可以改变人们的生活。2.5物联网、大数据和云计算之间的关系2.5.2边缘计算

随着物联网、大数据、人工智能、5G等信息技术的快速发展,云计算已经无法满足机器人、智能家居、无人驾驶、VR(VirtualReality,虚拟现实)/AR(AugmentedReality,增强现实)、新媒体、智能安防、远程医疗、可穿戴设备、智能制造等场景对低延迟的高要求,因此边缘计算(EdgeComputing)产生。根据国际调研机构Gartner公司的报告,到2022年,超过一半的企业数据将在传统数据中心和云平台之外的边缘产生和处理,目前约为10%。边缘计算的兴起帮助企业近乎实时地分析信息,并围绕物联网设备和数据创造新的价值。

边缘计算集结了云计算、CDN(ContentDeliveryNetwork)、硬件设备、运营商、研究机构以及其它中小厂商等,CDN算是最早的边缘计算的雏形。CDN主要是ContentCache(内容缓存),现在是FunctionCache(功能缓存),等于要把计算功能搬到边缘上来,而不是简单的把内容放上去。2.5物联网、大数据和云计算之间的关系2.5.3雾计算

雾计算(FogComputing)是一种对云计算概念的延伸,云在天空飘浮,高高在上,遥不可及,刻意抽象;而雾却现实可及,贴近地面,就在你我身边。雾计算将数据、数据处理和应用程序集中在网络边缘的设备(是由性能较弱、更为分散的各种功能计算机组成)中,而不是全部保存在云中,导致数据传递具有极低时延。雾计算具有辽阔的地理分布,带有大量网络结点的大规模传感器网络。雾计算移动性好,手机和其他移动设备可以互相之间直接通信,信号不必到云端甚至基站去绕一圈,支持很高的移动性。

雾计算是介于云计算和个人计算之间的,是半虚拟化的服务计算架构模型,强调数量,不管单个计算结点能力多么弱都要发挥作用。与云计算相比,雾计算所采用的架构更呈分布式,完成的计算任务更接近网络边缘。雾计算将数据、数据处理和应用程序集中在网络边缘的设备中,而不像云计算那样将它们几乎全部保存在云中,数据的存储及处理更依赖本地设备,而非服务器。雾计算是新一代分布式计算,符合互联网的“去中心化”特征。2.5物联网、大数据和云计算之间的关系2.5.4大数据和云计算之间的关系

云计算的实质是服务,是一种新兴的商业计算模式。云概念的提出是因为它的规模很大,可以根据业务动态伸缩。云计算是提供给这种商业模式的具体实现,是互联网产业发展到一定阶段的必然产物。云计算与大数据是一对相辅相成的概念,它们描述了面向数据时代信息技术的两个方面,云计算侧重于提供资源和应用的网络化交付方法,大数据侧重于应对数据量巨大所带来的技术挑战。

云计算的核心是业务模式,其本质是数据处理技术。数据是资产,云计算为数据资产提供了存储、访问的场所和计算能力,即云计算更偏重海量数据的存储和计算,以及提供的云计算服务,运行云应用。但是云计算缺乏盘活数据资产的能力,挖掘价值性信息和进行预测性分析,为国家治理、企业决策乃至个人生活服务,这是大数据的核心议题。云计算是基础设施架构,大数据是思想方法,大数据技术将帮助人们从大体量、高度复杂的数据中分析、挖掘信息,从而发现价值和预测趋势。习题1.简述什么是云计算?2.云计算有什么特点?3.请简述云计算的三种主要部署模式。4.请简述云计算的三种主要服务模式。5.请画出云计算基础设施Google平台的基础架构图。6.请画出云计算基础设施Hadoop平台的基础架构图。7.用自己的语言分别解释物联网,边缘计算,雾计算。答案1.简述什么是云计算?①云计算是一种动态扩展的计算模式,通过网络将虚拟化的资源作为服务提供给用户。②云计算是一种无处不在的、便捷的通过互联网访问的一个可定制的IT资源(IT资源包括网络、服务器、存储、应用软件和服务)共享池,是一种按使用量付费的模式。它能够通过最少量的管理或与服务供应商的互动实现计算资源的迅速供给和释放2.云计算有什么特点?①具有大规模并行计算能力②资源虚拟化和弹性调度③数据量巨大并且增速迅猛产生了典型的大数据处理技术3.请简述云计算的三种主要部署模式。①公有云:提供面向社会大众、公共群体的云计算服务②私有云:提供面向应用行业/组织内的云计算服务③混合云:是把公有云和私有云进行整合,吸纳二者的优点,给企业带来真正意义上的云计算服务答案4.请简述云计算的三种主要服务模式。1.基础设施即服务(IaaS)①主要用户是系统管理员②直接利用云提供的资源进行业务的部署或简单的开发③服务提供商提供给用户的服务是计算和存储基础设施④用户不管理或控制任何云计算基础设施,但能控制操作系统的选择⑤关键技术及解决方案是虚拟化技术2.平台即服务(PaaS)①主要用户是开发人员②把应用服务的运行和开发环境作为一种服务提供的商业模式即PaaS是把二次开发的平台以服务形式提供给开发软件的用户使用③开发人员不需要管理或控制底层的云计算基础设施,但可以方便地使用很多在构建应用时的必要服务④两个关键技术:分布式的并行计算和大文件分布式存储3.软件即服务(SaaS)①主要用户是普通用户②服务提供商提供给用户的服务是运行在云计算基础设施上的应用程序,用户只需要通过终端设备接入使用即可,简单方便,不需要用户进行软件开发,也无需管理底层资源③关键技术是多租户技术,使资源能够更好的共享答案5.请画出云计算基础设施Google平台的基础架构图。6.请画出云计算基础设施Hadoop平台的基础架构图。

答案7.用自己的语言分别解释物联网,边缘计算,雾计算。

物联网:物联网就是物物相连的互联网

边缘计算:边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务

雾计算:数据、(数据)处理和应用程序集中在网络边缘的设备中,而不是几乎全部保存在云中,是云计算(CloudComputing)的延伸概念感谢大家的全力支持LOGO从产业结构来探索大数据技术第3章LOGO目录3.1大数据产业结构示意图概述013.2大数据的解决方案023.3大数据采集技术033.4大数据预处理技术04053.5大数据可视化技术

产业结构概述产业结构(IndustrialStructure)是指农业、工业和服务业在一国经济结构中所占的比重。近年来,随着互联网、云计算、物联网等信息技术的进步,在工业化和信息化快速发展的背景下,大数据产业欣欣向荣。大数据的快速发展是产业结构转型升级的重要推动力。之后主要介绍三方面内容:①从产业结构探索大数据技术的产生、发展以及处理的基本流程;②介绍大数据采集技术及大数据预处理技术;③介绍大数据可视化技术及其分类。当前以微电子、大数据、信息产品制造业为代表的技术密集型产业正迅猛发展,成为带动发达国家经济增长的主导产业。因此可以说,技术密集型产业的发展水平决定一个国家的竞争力和经济增长的前景。技术创新与技术结构变动是产业结构优化的决定性因素。从产业角度看,大数据产业指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。大数据融入产业结构图主要可以分为三大类如左图所示3.1大数据产业结构示意图概述

大数据产业结构所需的技术支持我们从硬件、基础软件、应用软件、信息服务和数据生成、数据存储、数据处理、数据应用共两条路线、四个维度来划分大数据产业结构所需的技术支持,其中共涉及11个大类主要的产品和服务,如图所示。其中,基础软件(数据库软件和分布式文件系统)、应用软件是大数据产业价值转化变现的最关键部分,其他7种在某种意义上是在原有基础上持续更新并与大数据发展配套的过程。对大数据的处理主要包括:数据生成(也称为数据采集、数据获取)、数据存储、数据处理和数据应用(也称为数据分析与挖掘)。硬件支持软件支持采集设备、存储设备和服务器等支持;数据库软件、分布式文件系统、智能搜索软件、采集软件、分析软件、监测软件等各类软件技术支持;信息服务有系统集成、IT基础设施服务、咨询服务等,并且要保证信息安全;3.2大数据的解决方案大数据如此重要,以至于其采集、储存、搜索、共享、分析、乃至可视化呈现,都成为了当前重要的研究课题。技术是大数据价值体现的手段和前进的基石。下面从大数据数据源的产生和处理,以及大数据处理的基本流程来讨论大数据的解决方案。数据产生方式的改变1.运营式系统阶段2.用户原创内容阶段3.感知式系统阶段运营式系统阶段的代表是数据库的出现,使得数据管理的复杂度大大降低。在实际使用中,数据库大多为运营系统所采用,如银行的交易记录系统等。这个阶段的最主要特点是数据的产生往往伴随着一定的运营活动,而且数据是记录在数据库中的,这种数据的产生方式是被动的。用户原创内容阶段的代表是Web2.0的产生,Web2.0的最重要标志就是用户原创内容。Web2.0的诞生促使人类社会数据量出现第二次大的飞跃,这个阶段的数据产生方式是主动的。感知式系统阶段的代表是物联网。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感知式系统的广泛使用。数据采集方式的改变1.传统的数据采集2.大数据时代数据采集来源单一,且存储、管理和分析的数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度的一致性和容错性,难以保证其可用性和扩展性,并且以往进行数据采集时的采样密度较低,获得的采样数据有限。有了大数据处理平台的支撑,可以对需要分析的事件的数据进行更加密集地采样,从而精确地获取事件的全局数据。数据的采集方式由以往的被动采集数据转变为主动生成数据。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作。大数据处理的基本流程及相应技术支持大数据的处理流程可以定义为在适合工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户。大数据的处理步骤分为:①获取源数据;②进行数据清洗;③数据分析;④数据解释;⑤将数据分析与解释的结果呈现给用户。(1)数据抽取与集成1.基于物化或ETL(Extract-Transform-Load)方法的引擎。2.基于联邦数据库或中间件方法的引擎由于大数据处理的数据来源类型丰富,大数据处理的第一步就是对数据进行清洗,从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储,即实现大数据预处理。方法有以下四种ETL是利用某种装置(如摄像头、麦克风),从系统外部采集数据并输入到系统内部的一个接口。3.基于数据流方法的引擎联邦数据库系统是一个彼此协作却又相互独立的单元数据库集合。联邦数据库技术就是为了实现对相互独立运行的多个数据库进行互操作,从而进行数据抽取与集成。数据流引擎可以在数据到达时处理数据,从而过滤掉不需要的数据,或者在将结果数据发送到最终目的地之前改变传入的数据。4.基于搜索引擎的方法搜索引擎将网页大量抓取下来,通过分析器解析,将有价值的数据入库,检索器(索引器)对有效的内数据建立检索。(2)数据分析数据分析是大数据处理流程的核心步骤,通过数据抽取和集成环节,已经从异构的数据源中获得了用于大数据处理的原始数据,用户可以根据自己的需求对这些数据进行分析处理,如数据挖掘、机器学习、数据统计等,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。目前采集到的大数据85%以上是非结构化和半结构化数据,传统的关系数据库无法胜任这些数据的处理。如何高效处理非结构化和半结构化数据,是大数据计算技术的核心要点。如何能够在不同的数据类型中,进行交叉计算,是大数据计算技术要解决的另一核心问题。大数据计算技术可分为批处理计算和流处理计算,批处理计算主要操作大容量、静态的数据集,并在计算过程完成后返回结果,适用于需要计算全部数据后才能完成的计算工作;流处理计算会对随时进入的数据进行计算,流处理计算无需对整个数据集执行操作,而是对通过传输的每个数据项执行操作,处理结果立刻可用,并会随着新数据的抵达继续更新结果。(2)数据分析目前主要流行以下大数据分析技术Hive是Facebook团队开发的一个可以支持PB级别的可伸缩的数据仓库。这是一个建立在Hadoop之上的开源数据仓库解决方案。其使用类SQL(HiveQL)语言,底层经过编译转为MapReduce程序,在Hadoop上运行,最终将数据存储在HDFS上。,用户可以使用的HiveQL将自定义的MapReduce脚本插入到查询中。该语言支持基本数据类型,类似数组和Map的集合或者他们的嵌套组合。Hive简化了对于那些不熟悉HadoopMapReduce接口的用户学习门槛,Hive提供的一些HiveQL语句不只是可以进行查询操作,还可以对数据仓库中的数据进行简要的分析与计算。同属于Hadoop开源生态系统的新成员ApacheSpark提供了一个比Hive更快的查询引擎,因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。同时,它还用于事件流处理、实时查询和机器学习等方面。这是一个ETL(Extract,Transform,andLoad)工具,可执行数据仓库到数据库之间的数据同步,提供基于EclipseRCP的图形操作界面。Talend工具用于协助进行数据质量、数据集成和数据管理等方面工作。它是一个统一的平台,通过提供一个统一的,跨企业边界生命周期管理的环境,使数据管理和应用更简单便捷。这种设计可以帮助企业构建灵活、高性能的企业架构,在此架构下,集成并启用百分之百开源服务的分布式应用程序变为可能。(3)数据解释大数据处理流程中用户最关心的是数据处理的结果,计算结果的展现方式有标签云、关系图等。正确的数据处理结果只有通过合适的展示方式才能被终端用户正确理解,因此数据处理结果的展示非常重要,可视化和人机交互是数据解释的主要技术。标签云关系图3.3大数据采集技术从上一节的学习中可以了解到大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析与解释、大数据展现和应用等。可以看到,数据采集属于数据分析生命周期的第一步,它通过传感器数据、社交网络数据、移动互联网数据使用ETL、Flume等方式获得各种类型的结构化、半结构化或者非结构化的海量数据。那什么是大数据采集技术,以及大数据采集有哪些方法呢?3.3.1大数据采集概述

大数据采集技术是指对数据进行ETL(Extract-Transform-Load)操作,即用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中的过程。数据从数据来源端经过提取(Extract)、转换(Transform)、加载(Load)到目的端,然后进行处理分析,最终挖掘数据的潜在价值,提供给用户解决方案或者决策参考。

大数据的采集依靠多个数据库接收来自客户端(Web、APP或传感器等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。如电商使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

大数据采集技术系统分类1.日志采集系统收集日志数据,供离线和在线的数据分析使用。目前常用的开源日志收集系统有Flume、Scribe等。2.网络数据采集系统通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。目前常用的网页爬虫系统有ApacheNutch、Crawler4j、Scrapy等框架。3.数据库采集系统一些企业使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻都在产生业务数据,而这些复杂的数据按照关系结构模型被归结为二元关系(即二维表格形式)再写到数据库中,通过对这些关系表格的分类、合并、连接或选取等操作来实现数据的管理,最后由特定的处理分析系统进行系统分析。3.3.2日志采集系统——Flume每个公司的业务平台每天都会产生大量的日志数据,通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。Flume最早是Cloudera公司提供的实时日志采集系统,目前是Apache的一个孵化项目。ApacheFlume是一个分布式、可靠、可用的服务,用于高效地收集、聚合和移动大量的日志数据,它具有基于流式数据流的简单灵活的架构。其可靠性机制、完备的故障转移和恢复机制使Flume具有强大的容错能力。Flume有日志收集和数据处理两个功能,Flume支持日志系统中定制各类数据发送方,用于收集数据。同时Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。Flume处理流程Flume的核心就是一个Agent(媒介),该Agent对外有两个进行交互的地方,一个是接收数据的输入Source(源头结点),一个是数据的输出Sink(汇聚结点),Sink负责将数据发送到外部指定的目的地,如图Source接收到数据之后,将数据发送给Channel(存储渠道或者存储通道),Channel作为一个数据缓冲区会临时存放这些数据,随后Sink会将Channel中的数据发送到指定的地方——外部存储。注意:只有在Sink将Channel中的数据成功发送出去之后,Channel才会将临时数据进行删除,这种机制保证了数据传输的可靠性与安全性。在整个数据的传输的过程中,流动的是Event(事件),即事务保证是在Event级别进行的。Event将传输的数据进行封装,是Flume传输数据的基本单位。如果是文本文件,通常是一行记录,Event也是事务的基本单位。Event从Source流向Channel,再到Sink,本身为一个字节数组,并可携带Headers(头信息)信息。Event代表着一个数据的最小完整单元,从外部数据源来,向外部目的地去。AgentFlume架构Flume采用了三层架构,分别为Agent、Collector和Storage,其中,如图所示所有Agent和Collector由Master统一管理,这使得系统容易监控和维护,且Master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避免了单点故障问题。从而具有以下几个特性①可靠性,当某一个节点出现故障时,日志文件能够被传送到其他节点上而不会丢失。②可扩展性,Flume采用了三层架构,每一层均可以水平扩展。③可管理性,所有Agent和Collector由Master统一管理,这使得系统便于维护。多Master情况④功能的可扩展性,用户可以根据需要添加自己的Agent、Collector或者Storage。3.3.3消息采集系统——KafkaKafka最初由Linkedin公司开发,是一个支持分区(partition)、多副本(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论