大数据与云计算(论文)_第1页
大数据与云计算(论文)_第2页
大数据与云计算(论文)_第3页
大数据与云计算(论文)_第4页
大数据与云计算(论文)_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与云计算摘要:近年来,大数据和云计算已经成为社会各界关注的热点话题。秉承“按需服务”理念的“云计算(Cloudcomputing)”正高速发展,“数据即资源”的“大数据(bigdata)”时代已经来临[1]。大数据利用对数据处理的实时性、有效性提出了更高要求,需要根据大数据特点对传统的常规数据处理技术进行技术变革,形成适用于大数据收集、存储、管理、处理、分析、共享和可视化的技术。如何更好地管理和利用大数据已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生。本文所提到的大数据包含着云计算,因为云计算是支撑大数据的平台。关键词:大数据云计算数据分析数据挖掘引言在学术界,大数据这一概念的提出相对较早。2008年9月,《自然》杂志就推出了名为“大数据”(bigdata)的专刊。2011年5月,麦肯锡全球研究院发布了名为《大数据:创新、竞争和生产力的下一个前沿》(Bigdata:Thenextfrontierforinnovation,competition,andproductivity)的研究报告,指出大数据将成为企业的核心资产,对海量数据的有效利用将成为企业在竞争中取胜的最有力武器。2012年,联合国发布大数据政务白皮书,指出大数据可以使用极为丰富的数据资源来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。2012年3月29日,奥巴马政府发布了《大数据研究与发展计划倡议》,宣布启动对大数据的研发计划,标志着美国把大数据提高到国家战略层面,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。大数据应用正在风靡全球,大数据精准营销成为企业掌舵者的口头禅,那么大数据真的是无懈可击吗?答案显然是否定的。随着互联网和移动设备的普及,大数据已经在我们的生活中无处不在,而有关大数据与隐私的问题也日益受到关注。毫无疑问,未来可以获得的个人数据量越多,其中的信息量就越大。只要拥有了足够多的数据,我们甚至可能发现有关于一个人的未来信息。另外市场是变化无常并且不可预期的,决策者的创造性思维并不能通过数据得以体现,相反,大数据在压制创新。大数据搜集到的数据的真实性也有待检验。一个人获得的数据和事实越多,预测就越有意义,人的判断也就显得愈发重要。人类、数据集和算法的协同进化将最终决定“大数据”究竟是会创造新财富,还是会摧毁旧价值。本文首先介绍了云计算的相关概念,云计算为大数据的诞生创造了物质基础,从而引出大数据的相关概念。通过大数据与云计算之间关系的比较,使读者对大数据与云计算有一个清晰的了解。文章介绍了大数据特征、作用以及对大数据分析的方法理论,对大数据的两种处理模式、处理流程以及关键技术进行了分析,提出MapReduce与关系数据库融合技术,为未来大数据的工作提供了一个参考。云计算简介正如维克托教授所说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算[2]。本章首先对云计算进行相关介绍。1.1云计算的概念由于云计算是由不同的企业和研究机构同步推进的技术,所以关于云计算的定义有很多,至今并没有一个公认的定义和标准。结合国际20位专家的定义,IanFoster定义云计算为一个由规模经济驱动的大型分布式计算模型,在该模型中,抽象的、虚拟化的、动态可伸缩的并可管理的计算资源、存储资源、平台和服务构成了一个资源池。资源池中的资源通过互联网,按需提供给池外的用户。文献HYPERLINK[3]归纳的云计算定义为:云是由易于使用的虚拟资源构成的一个巨大资源池,包括硬件资源、部署平台以及相应的服务。根据不同的负载,这些资源可以动态地重新配置,以达到一个最理想的资源使用状态。资源池中的资源是按需付费的,服务提供商通过服务等级协议(ServiceLevelAgreement,SLA)保证用户的服务质量。综合其他资料,可以将云计算归纳为:云计算以虚拟化技术为核心,虚拟化技术将共享的硬件和软件资源抽象化成一个统一的资源池,通过互联网这个载体,向用户按需地提供所需的资源。其特点在于多用户共享、大数据处理与大数据存储[8]。云计算严格地来说并不是一种真正新的技术,而是并行计算(ParallelComputing,PC)等计算模式的进一步演进。由于云计算的主要标准和方案是由企业推进的,也可以说云计算是分布式计算模型的商业实现。1.2云计算部署及服务模式根据云计算服务对象范围的不同,云计算有四种部署模式(如REF_Ref392339250\h图1所示):私有云、社区云、公有云和混合云[10]。私有云(Privatecloud):云计算出现之前,对于数据密集型或计算密集型任务,用户需要建立数据中心来提供服务,以满足其对数据存储、计算、通信能力的要求。用户需对数据中心进行运维和安全管理,对服务器上的数据和应用具有所有权和控制权。云计算出现后,这种传统的用户/服务提供者模式逐渐发展成私有云模式。私有云是由一个用户组织(例如政府、军队,企业)建立运维的云计算平台,专供组织内部人员使用,不提供对外服务。私有云能够体现云计算的部分优势,例如计算资源的统一管理和动态分配。但是,私有云仍要求组织购买基础设施,建立大型数据中心,投入人力物力来维护数据中心的正常运转,由此大数据概述云计算的蓬勃发展,客观上开起来大数据时代的大门。大数据是云计算的灵魂和升级方向。云计算为大数据提供的存储的空间和访问的渠道。图SEQ图\*ARABIC3各地云计划项目是大数据诞生的前提[9]微软公司全球资深副总裁、亚太研发集团主席张亚勤博士认为“云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用”[4]。随着物联网、移动互联网、社会化网络的快速发展,企业数据的增长迅速,半结构化及非结构化的数据呈几何倍数增长。数据来源的渠道也逐渐增多,这不光包括了本地的文档、音视频,还包括了网络内容和社交媒体。大数据的时代已然来临,并给各行各业带来了根本性变革。2.1何谓大数据人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(BigData)时代。以数据为中心的传统学科(如基因组学、蛋白组学,天体物理学和脑科学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过1PB。但近年来大数据的飙升主要还是来自日常生活,特别是互联网公司的服务。据著名咨询公司IDC的统计,2011年全球被创建和复制的数据总量为1.8ZB(10的21次方),其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)。Google公司通过大规模集群和MapReduce软件,每月处理的数据量超过400PB;百度每天大约要处理几十PB数据;Facebook注册用户超过10亿,每月上传的照片超过10亿张,每天生成300TB以上的日志数据;淘宝网会员超过3.7亿,在线商品超过8.8亿,每天交易数千万笔,产生约20TB数据。传感网和物联网的蓬勃发展是大数据的又一推动力,各个城市的视频监控每时每刻都在采集巨量的流媒体数据。工业设备的监控也是大数据的重要来源。例如,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送PB数量级的数据[5]。一般意义上,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据的特点可以总结为4个V,即Volume(体量浩大)、Vari-ety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低)。首先,数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器数量将增加10倍。其次,大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例将达到整个数据量的75%以上。同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。再次,大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能有效利用这些数据。另外,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。最后,虽然数据的价值巨大,但是基于传统思维与技术,人们在实际环境中往往面临信息泛滥而知识匮乏的窘态,大数据的价值利用密度低。维克托·尔耶·舍恩伯格明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。2.2从数据库(database,DB)到大数据(bigdata,BD)从数据库到大数据,看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现必将颠覆传统的数据管理方式。在数据来源)数据处理方式和数据思维等方面都会对其带来革命性的变化[6]。如果要用简单的方式来比较传统的数据库和大数据的区别,我们认为“池塘捕鱼”和“大海捕鱼”是个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下几个方面:数据规模。“池塘”和“大海”最容易发现的区别就是规模。“池塘”规模相对较小,即便是先前认为比较大的“池塘”,譬如CLDB(verylargedatabase),和“大海”XLDB(extremelylargedatabase)相比仍旧偏小。“池塘”的处理对象通常以MB为基本单位,而“大海”则常常GB,甚至是TB,PB为基本处理单位。数据类型。过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在“大海”中数据的种类繁多“数以千计”而这些数据又包含着结构化、半结构化以及非结构化的数据”并且半结构化和非结构化数据所占份额越来越大。模式(schema)和数据的关系。传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断地增长。鱼的变化会使大海的成分和环境处于不断的变化之中。处理对象。在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。处理工具。捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的Onesizefitsall。但是在“大海”中,不可能存在一种渔网能够捕获所有的鱼类,也就是说Nosizefitsall。从“池塘”到“大海”"不仅仅是规模的变大。传统的数据库代表着数据工程(dataengineering)的处理方式,大数据时代的数据已不仅仅只是工程处理的对象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家JimGray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算3种范式。当数据量不断增长和累积到今天,传统的3种范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的第4种范式来指导新形势下的科学研究。基于这种考虑,JimGray提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第4种范式”(TheFourthParadigm)。4种范式的比较如REF_Ref392345145\h表1所示。第4种范式的实质就是从以计算为中心转变到以数据处理为中心,也就是我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的“捕鱼”,在大数据时代,数据不再仅仅是“捕捞”的对象,而应当转变成一种基础资源,用数据这种资源来协同解决其他诸多领域的问题。计算社会科学(computationalsocialscience)基于特定社会需求,在特定的社会理论指导下,收集$整理和分析数据足迹(dataprint),以便进行社会解释$监控$预测与规划的过程和活动。计算社会科学是一种典型的需要采用第4种范式来作指导的科学研究领域。Watts在《Nature》杂志上的文章“Atwenty-firstcenturyscience”也指出,借助于社交网络和计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。表SEQ表\*ARABIC1科学发现的4中范式2.3大数据与云计算的关系近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热。那么,大数据和云计算之间是什么关系呢?从整体上看,大数据与云计算是相辅相成的大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀,即数据存储能力。云计算着眼于“计算”,关注

IT

解决方案,提供

IT

基础架构,看重的是计算能力,即数据处理能力。没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。从技术上看,大数据根植于云计算云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大数据技术的基础(如REF_Ref392342192\h图4所示)。图SEQ图\*ARABIC4大数据的关键技术大数据技术与云计算有相同,也有差异(如REF_Ref392342198\h图5所示)。图SEQ图\*ARABIC5大数据与云计算的异同云计算与大数据的不同之处在于应用的不同,主要在两个方面:第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。第二,大数据和云计算的目标受众不同,云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。大数据技术与云计算相结合会带来什么?如REF_Ref392350146\h图6所示图SEQ图\*ARABIC6大数据与云计算结合大数据的特征、作用及分析3.1大数据的特征一是数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。3.2大数据的作用第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(RamayyaKrishnan,卡内基·梅隆大学海因兹学院院长)。第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。第四,大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。3.3大数据的分析从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。大数据处理框架4.1大数据处理模式大数据的应用类型有很多,主要的处理模式可以分为流处理(streamprocess)和批处理(batchprocessing)两种。批处理是先存储后处理(store-then-process),而流处理则是直接处理(straight-throughprocessing)[7]。流处理流处理的基本理念是数据的价值会随着时间的流逝而不断减少,因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标。需要采用流数据处理的大数据应用场景主要有网页点击数的实时统计、传感器网络、金融中的高频交易等。流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。REF_Ref392351261\h图7是流处理中基本的数据流模型:图SEQ图\*ARABIC7基本的数据流模型数据的实时处理是一个很有挑战性的工作,数据流本身具有持续达到%速度快且规模巨大等特点,因此通常不会对所有的数据进行永久化存储,而且数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。由于响应时间的要求,流处理的过程基本在内存中完成,其处理方式更多地依赖于在内存中设计巧妙的概要数据结构,内存容量是限制流处理模型的一个主要瓶颈。以PCM(相变存储器)为代表的储存级内存设备的出现或许可以使内存未来不再成为流处理模型的制约。数据流的理论及技术研究已经有十几年的历史,目前仍旧是研究热点。与此同时很多实际系统也已开发和得到广泛的应用,比较代表性的开源系统如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。批处理Google公司在2004年提出的MapReduce编程模型是最具代表性的批处理模式。一个完整的MapReduce过程如所示。图SEQ图\*ARABIC8MapReduce执行流程图MapReduce模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务区处理。Map任务从输入中解析出链/值(Key/Value)对集合。然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后会根据Key值进行排序,将具有相同Key值的组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。4.2大数据处理的基本流程大数据的数据来源广泛!应用需求和数据类型都不尽相同!但是最基本的处理流程一致。海量Web数据的处理是一类非常典型的大数据应用,从中可以归纳出大数据处理的最基本流程。图SEQ图\*ARABIC9大数据处理基本流程整个大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成、数据分析以及数据解释。数据抽取与集成大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂,这种复杂的数据环境给大数据的处理带来极大的挑战。要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。同时还要特别注意前面提及的大数据时代模式和数据的关系,大数据时代的数据往往是先有数据再有模式,且模式是在不断的动态演化之中的。数据抽取和集成技术不是一项全新的技术,传统数据库领域已对此问题有了比较成熟的研究。随着新的数据源的涌现"数据集成方法也在不断的发展之中。从数据集成模型来看,现有的数据抽取与集成方式可以大致分为以下4种类型:基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎、及基于搜索引擎的方法数据分析数据分析是整个大数据处理流程的核心,因为大数据的价值产生于分析过程。从异构数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要作出调整。大数据分析已被广泛应用于诸多领域,典型的有推荐系统、商业智能、决策支持等。数据解释数据分析是大数据处理的核心,但是用户往往更关心结果的展示。如果分析的结果正确但是没有采用适当的解释方法,则所得到的结果很可能让用户难以理解,极端情况下甚至会误导用户。数据解释的方法很多,比较传统的就是以文本形式输出结果或者直接在电脑终端上显示结果。这种方法在面对小数据量时是一种很好的选择。但是大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的解释方法基本不可行。可以考虑引入可视化技术、让用户能够在一定程度上了解和参与具体的分析过程这两个方面提升数据解释能力。4.3关键技术分析大数据价值的完整体现需要多种技术的协同。文件系统提供最底层存储能力的支持。为了便于数据管理,需要在文件系统之上建立数据库系统。通过索引等的构建,对外提供高效的数据查询等常用功能。最终通过数据分析技术从数据库中的大数据提取出有益的知识。云计算:大数据的基础平台与支撑技术如果将各种大数据的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算。正是云计算技术在数据存储、管理与分析等方面的支撑,才使得大数据有用武之地。在所有的“高速公路”中,Google无疑是技术最为先进的一个。需求推动创新,面对海量的Web数据,Google于2006年首先提出了云计算的概念。支撑Google内部各种大数据应用的正是其自行研发的一系列云计算技术和工具。难能可贵的是Google并未将这些技术完全封闭,而是以论文的形式逐步公开其实现。正是这些公开的论文,使得以GFS,MapReduce,Bigtable为代表的一系列大数据处理技术被广泛了解并得到应用,同时还催生出以Hadoop为代表的一系列云计算开源工具。云计算所涉及到的技术很多,但是通过Google云计算技术的介绍能够快速、完整地把握云计算技术的核心和精髓。根据Google已公开的论文及相关资料,结合大数据处理的需求,我们对Google的技术眼花进行了整理,如所示:图SEQ图\*ARABIC10Google技术演化图大数据处理工具关系数据库在很长的时间里成为数据管理的最佳选择,但是在大数据时代,数据管理、分析等的需求多样化使得关系数据库在很多场景不再适用。本节将对现今主流的大数据处理工具进行一个简单的归纳和总结。Hadoop是目前最为流行的大数据处理平台。Hadoop最先是DougCutting模仿GFS,MapReduce实现的一个云计算开源平台,后贡献给Apeche。Hadoop已经发展成为包括文件系统、数据库、数据处理等功能模块在内的完整生态系统[11]。某种程度上可以说Hadoop已经成为大数据处理工具事实上的标准。对Hadoop改进并将其应用于各种场景的大数据处理已经成为新的研究热点。主要的研究成果集中在对Hadoop平台性能的改进、高效的查询处理、索引构建和使用、在Hadoop之上构建数据仓库和数据库系统的连接、数据挖掘、推荐系统等。除了Hadoop,还有很多针对大数据的处理工具。这些工具有些是完整的处理平台、有些则是专门针对特定的大数据处理应用。REF_Ref392353792\h表2归纳总结了现今一些主流的处理平台和工具、这些平台和工具或是已经投入商业使用、或是开源软件。在已经投入商业使用的产品中、绝大部分也是在Hadoop基础上进行功能扩展、或者提供与Hadoop的数据接口。表SEQ表\*ARABIC2大数据处理工具列表MapReduce和关系数据库技术的融合当前研究大都集中于功能或特性的移植,即从一个平台学习新的技术,到另一平台重新实现和集成,未涉及执行核心,因此也没有从根本上解决大数据分析问题。鉴于此,中国人民大学高性能数据库实验室的研究小组采取了另一种思路:从数据的组织和查询的执行两个核心层次入手,融合关系数据库和MapReduce两种技术,设计高性能的可扩展的抽象数据仓库查询处理框架。该框架在支持高度可扩展的同时,又具有关系数据库的性能。两个研究方向:(1)借鉴MapReduce的思想,使OLAP查询的处理能像MapReduce一样高度可扩展(LinearDB原型);(2)利用关系数据库的技术,使MapReduce在处理OLAP查询时,逼近关系数据库的性能(Dumbo原型)[8]。5.1LinearDBLinearDB原型系统没有直接采用基于连接的星型模型(雪花模型),而是对其进行了改造,设计了扩展性更好的、基于扫描的无连接雪花模型JFSS(Join-FreeSnowflakeSchema)。该模型的设计借鉴了泛关系模型的思想,采用层次编码技术[40]将维表层次信息压缩进事实表,使得事实表可以独立执行维表上的谓词判断、聚集等操作,从而使连接的数据在大规模机群上实现局部性,消除了连接操作。REF_Ref392358624\h图11是一个星型模型和无连接雪花模型的对应示意图。在执行层次上,LinearDB吸取了MapReduce处理模式的设计思想,将数据仓库查询的处理抽象为Transform、Reduce、Merge3个操作(TRM执行模型):(1)Transform。主节点对查询进行预处理,将查询中作用于维表的操作(主要是谓词判断,group-by聚集操作等)转换为事实表上的操作;(2)Reduce。每个数据节点并行地扫描、聚集本地数据,然后将处理结果返回给主节点;(3)Merge。主节点对各个数据节点返回的结果进行合并,并执行后续的过滤、排序等操作。基于TRM执行模型,查询可以划分为众多独立的子任务在大规模机群上并行执行。执行过程中,任何失败子任务都可以在其备份节点重新执行,从而获得较好的容错能力。LinearDB的执行代价主要取决于对事实表的Reduce(主要是扫描)操作,因此,LinearDB可以获得近乎线性的大规模可扩展能力。实验表明,其性能比HadoopDB至少高出一个数量级。LinearDB的扩展能力、容错能力和高性能在于其巧妙地结合了关系数据库技术(层次编码技术、泛关系模式)和MapReduce处理模式的设计思想,由此,可以看出,结合方式的不同可以导致系统能力的巨大差异。图SEQ图\*ARABIC11对比:一个典型星型模型与其对应的无连接雪花模型5.2DumboDumbo的核心思想是根据MapReduce的“过滤->聚集”的处理模式,对OLAP查询的处理进行改造,使其适应于MapReduce框架。Dumbo采用了类似于LinearDB的数据组织模式——利用层次编码技术将维表信息压缩进事实表,区别在于Dumbo采用了更加有效的编码方式,并针对Hadoop分布式文件系统的特点对数据的存储进行了优化。在执行层次上,Dumbo对MapReduce框架进行了扩展,设计了新的OLAP查询处理框架——TMRP(Transform->Map->Reduce->Postprocess)处理框架(如REF_Ref392358624\h图11REF_Ref392358790\h图12所示)。在该框架中,主节点首先对查询进行转换,生成一个MapReduce任务来执行查询。该任务在Map阶段以流水线方式扫描、聚集本地数据,并只将本地的聚集数据传至Reduce阶段,来进行数据的合并及聚集、排序等操作。在Postprocess阶段,主节点在数据节点上传的聚集数据之上执行连接操作。实验表明,Dumbo性能远超Hadoop和HadoopDB。由此我们可以看出,复杂的OLAP查询在MapReduce框架下也可以获得接近甚至超越关系数据库的性能,其关键在于如何有效地结合关系数据库和MapReduce两种技术。仅仅停留于表层的移植和集成是难以从根本上解决大数据分析问题的。我们在文献[41]的研究中也展示了如何基于这种新的数据组织方式来实现复杂分析操作———百分位数的高效计算问题。LinearDB和Dumbo虽然基本可以达到预期的设计目标,但两者都需要对数据进行预处理,其预处理代价是普通加载时间的7倍左右。因此其应对变化的能力还较弱,这是未来的工作内容之一。图SEQ图\*ARABIC12Dumbo架构(深灰色部分是新增模块,剩余部分是Hadoop自带模块)大数据时代的挑战与应对策略6.1大数据时代面临的挑战运营商带宽能力与对数据洪流的适应能力面临前所未有的挑战,管道化压力化解及“云-管-端”的有效装备也均面临新挑战。大数据的“四V”特征在数据存储、传输、分析、处理等方面均带来本质变化。数据量的快速增长,对存储技术提出了挑战;同时,需要高速信息传输能力支持,与低密度有价值数据的快速分析、处理能力。海量数据洪流中,在线对话与在线交易活动日益增加,其安全威胁更为严峻;而且现今黑客的组织能力、作案工具、作案手法及隐蔽程度更上一层楼,典型的有APT(AdvancedPersistentThreat,高级持续性安全威胁)。大数据环境下通过对用户数据的深度分析,很容易了解用户行为和喜好,乃至企业用户的商业机密,对个人隐私问题必须引起充分重视。大数据时代的基本特征,决定其在技术与商业模式上有巨大的创新空间,这将对可持续发展起关键作用。大数据时代的基本特征及安全挑战,对政府制订规则与监管部门发挥作用提出了新的挑战。6.2大数据时代的应对策略大数据时代应以智慧创新理念融合大数据与云计算,在大数据洪流中提升知识价值洞察力,实施高效实时个性化运作,建立有效增值的商业模式,确保应对APT之类的新型安全威胁。电信运营商转型中流量经营已成共识,即以智能管道与聚合平台为基础,以扩大流量规模、提升

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论