




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据的概念、流程与关键技术
随着移动互联网、物联网和云技术的快速发展,云时代的开始也开始了,大数据也越来越受到限制。作为1982年世界预测大师和未来学者约翰纳斯比特的著作《新生活》(johnnaisberbam)提到的,“我们现在生产了大量的信息,就像我们以前生产的汽车一样。”“人们正试图沉迷于信息,但他们正在厌倦知识。”等预测已经被充分证实,这只表明世界处于信息爆炸的时代。Internet的出现缩短了人与人、人与世界之间的距离,整个世界连成一个“地球村”,人们通过网络无障碍交流、交换信息和协同工作.与此同时,借助Internet的高速发展、数据库技术的成熟和普及、高内存高性能的存储设备和存储介质的出现,人类在日常学习、生活、工作中产生的数据量正以指数形式增长,呈现“爆炸”状态.“大数据问题”(BigDataProblem)就是在这样的背景下产生的,成为科研学术界和相关产业界的热门话题,并作为信息技术领域的重要前沿课题之一,吸引着越来越多的科学家研究大数据带来的相关问题.著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情赞颂为“第三次浪潮的华彩乐章”.著名期刊《Nature》和《Science》针对大数据分别出版了专刊“BigData”和“DealingwithData”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题.2011年5月,全球知名咨询公司麦肯锡(MckenseyandCompany)在美国拉斯维加斯举办了第11届EMCWorld年度大会,设定的主题为“云计算相遇大数据”,发布了“Bigdata:Thenextfrontierforinnovation,competitionandproductivity”的报告,首次提出“大数据”的概念,并在报告中指出:“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”.世界经济论坛(WorldEconomicForum)2012年发布的“Bigdata,bigimpact:Newpossibilitiesforinternationaldevelopment”报告,指出了大数据的发展为世界带来的新机遇;美国政府在2012年3月29日发布了“大数据研究发展倡议”(Bigdataresearchanddevelopmentinitiative),正式启动“大数据发展计划”,拟投资2亿美元在大数据的研究上,以培养更多的大数据研发与应用人才;联合国在2012年5月公布了“Challengesandopportunitieswithbigdata”白皮书,分析了大数据的处理流程以及可能面临的挑战;互联网数据中心(InternetDataCenter,IDC)在2012年5月发布《中国互联网市场洞见:互联网大数据技术创新研究》报告,报告中指出大数据将引领中国互联网行业新一轮技术浪潮.不仅如此,世界范围内对大数据的关注已从经济领域上升到了政治领域.美国总统科技顾问委员会在2010年就撰写了一份报告给当时的奥巴马总统,报告名为“Designingadigitalfuture:Federallyfundedresearchanddevelopmentinnetworkingandinformationtechnology”,报告中指出:数据正在以指数形式迅速增长,如何收集、管理和分析数据日渐成为网络信息研究的重点,联邦政府的每一个机构和部门都应该制定应对大数据的战略计划.同时,美国联邦政府建立统一的门户开放网站———Data.Gov,开放政府拥有的公共数据,鼓励民众对其进行自由开发,进一步推进政府数据开放;美国政府各部门也纷纷有所行动,美国国家科学基金委员会(NSF)、美国国家卫生研究院(NIH)、美国能源部(DOE)、美国国防部(DOD)、美国国防部高级研究计划局(DARPA)、美国地质勘探局(USGS)等6个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力.处于发展中国家前列的中国,大数据的应用处于起步阶段.在工信部发布的物联网“十二五”规划中,把信息处理技术作为4项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分.而另外3项:信息感知技术、信息传输技术、信息安全技术,也与“大数据”密切相关.同时,为推动大数据在我国的发展,2012年8月,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,其任务之一就是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统;同时,中国计算机学会成立了大数据专家委员会(CCFBigDataTaskForce,CCFBDTF);为探讨中国大数据的发展战略,中科院计算机研究所举办了以“网络数据科学与工程———一门新兴的交叉学科?”为主题的会议,与国内外知名专家学者一起为中国大数据发展战略建言献计;2013年,科技部正式启动863项目“面向大数据的先进存储结构及关键技术”,启动5个大数据课题.由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不可挡.如何将巨大的原始数据进行有效地利用和分析,使之转变成可以被利用的知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题,同时也是大数据最重要的研发意义所在.1大数据的内涵现在的社会是一个信息化、数字化的社会,互联网、物联网和云计算技术的迅猛发展,使得数据充斥着整个世界,与此同时,数据也成为一种新的自然资源,亟待人们对其加以合理、高效、充分的利用,使之能够给人们的生活工作带来更大的效益和价值.在这种背景下,数据的数量不仅以指数形式递增,而且数据的结构越来越趋于复杂化,这就赋予了“大数据”不同于以往普通“数据”更加深层的内涵.1.1物联网时代的大数据在科学研究(天文学、生物学、高能物理等)、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势.美国互联网数据中心(IDC)指出,互联网上的数据每年将增长50%以上,每2年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的.数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等也产生了海量的数据信息.1)科学研究产生大数据.现在的科研工作比以往任何时候都依赖大量的数据信息交流处理,尤其是各大科研实验室之间研究信息的远程传输.比如类似希格斯玻粒子的发现就需要每年36个国家的150多个计算中心之间进行约26PB(26×1015B)的数据交流.在过去的10年间,连接超过40个国家实验室、超级计算中心和科学仪器的能源科学网(Esnet)上的流量每年以72%的速度增长,2012年11月Esnet将升级为100Gbps.2)物联网的应用产生大数据.物联网(theInternetofthings)是新一代信息技术的重要组成部分,解决了物与物、人与物、人与人之间的互联.本质而言,人与机器、机器与机器的交互,大都是为了实现人与人之间的信息交互而产生的.在这种信息交互的过程中,催生了从信息传送到信息感知再到面向分析处理的应用.人们接受日常生活中的各种信息,将这些信息传送到数据中心,利用数据中心的智能分析决策得出信息处理结果,再通过互联网等信息通信网络将这些数据信息传递到四面八方,而在互联网终端的设备利用传感网等设施接受信息并进行有用的信息提取,得到自己想要的数据结果.目前,物联网在智能工业、智能农业、智能交通、智能电网、节能建筑、安全监控等行业都有应用.巨大连接的网络使得网络上流通的数据大幅度增长,从而催生了大数据的出现.3)海量网络信息的产生催生大数据.移动互联时代,数以百亿计的机器、企业、个人随时随地都会获取和产生新的数据.互联网搜索的巨头Google现在能够处理的网页数量是在千亿以上,每月处理的数据超过400PB,并且呈继续高速增长的趋势;Youtube每天上传7万小时的视频;淘宝网在2010年就拥有3.7亿会员,在线商品8.8亿件,每天交易超过数千万笔,单日数据产生量超过50TB(50×1012B),存储量40PB;2011年InternetWorld统计互联网用户近20亿,Facebook注册用户超过8.5亿,每天上传3亿张照片,每天生成300TB日志数据;新浪微博每天有数十亿的外部网页和API接口访问需求,每分钟都会发出数万条微博;百度目前数据总量接近1000PB,存储网页数量接近1万亿,每天大约要处理60亿次搜索请求,几十PB数据;据IDC的研究结果,2011年创造的信息数量达到1800EB(1800×1018B),每年产生的数字信息量还在以60%的速度增长,到2020年,全球每年产生的数据信息将达到35ZB((35×1021B)……所有的这些都是海量数据的呈现.随着社交网络的成熟、传统互联网到移动互联网的转变、移动宽带的迅速提升,除了个人电脑、智能手机、平板电脑等常见的客户终端之外,更多更先进的传感设备、智能设备,比如智能汽车、智能电视、工业设备和手持设备等都将接入网络,由此产生的数据量及其增长速度比以往任何时期都要多,互联网上的数据流量正在迅猛增长.1.2数据的研究范式1989年,GartnerGroup的HowardDresner首次提出“商业智能”(BusinessIntelligence)这一术语.商业智能通常被理解为企业中现有的数据转化为知识、帮助企业做出明智的业务经营决策的工具,主要目标是将企业所掌握的的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性.为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(DataMining)等技术.随着互联网络的发展,企业收集到的数据越来越多、数据结构越来越复杂,一般的数据挖掘技术已经不能满足大型企业的需要,这就使得企业在收集数据之余,也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析的问题.由此,IT界诞生了一个新的名词———“大数据”.对于“大数据”的概念目前来说并没有一个明确的定义.经过多个企业、机构和数据科学家对于大数据的理解阐述,虽然描述不一,但都存在一个普遍共识,即“大数据”的关键是在种类繁多、数量庞大的数据中,快速获取信息.维基百科中将大数据定义为:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯.IDC将大数据定义为:为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术.信息专家涂子沛在著作《大数据》中认为:“大数据”之“大”,并不仅仅指“容量大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”.从“数据”到“大数据”,不仅仅是数量上的差别,更是数据质量的提升.传统意义上的数据处理方式包括数据挖掘、数据仓库、联机分析处理(OLAP)等,而在“大数据时代”,数据已经不仅仅是需要分析处理的内容,更重要的是人们需要借助专用的思想和手段从大量看似杂乱、繁复的数据中,收集、整理和分析数据足迹,以支撑社会生活的预测、规划和商业领域的决策支持等.著名数据库专家、图灵奖的获得者JimGray博士总结出,在人类的科学研究史上,先后经历了实验(Empirical)、理论(Theoretical)和计算(Computational)3种范式,而在数据量不断增加和数据结构愈加复杂的今天,这3种范式已经不足以在新的研究领域得到更好地运用,所以JimGray博士提出了科学的“第4种范式”(TheFouthParadigm)这一新型的数据研究方式,即“数据探索”(DataExporation),用以指导和更新领域的科学研究.4种科学范式的比较如表1所示.1.3数据安全与交互作用在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低).Volume是指大数据巨大的数据量与数据完整性.十几年前,由于存储方式、科技手段和分析成本等的限制,使得当时许多数据都无法得到记录和保存.即使是可以保存的信号,也大多采用模拟信号保存,当其转变为数字信号的时候,由于信号的采样和转换,都不可避免存在数据的遗漏与丢失.那么现在,大数据的出现,使得信号得以以最原始的状态保存下来,数据量的大小已不是最重要的,数据的完整性才是最重要的.Variety意味着要在海量、种类繁多的数据间发现其内在关联.在互联网时代,各种设备连成一个整体,个人在这个整体中既是信息的收集者也是信息的传播者,加速了数据量的爆炸式增长和信息多样性.这就必然促使我们要在各种各样的数据中发现数据信息之间的相互关联,把看似无用的信息转变为有效的信息,从而做出正确的判断.Velocity可以理解为更快地满足实时性需求.目前,对于数据智能化和实时性的要求越来越高,比如开车时会查看智能导航仪查询最短路线,吃饭时会了解其他用户对这家餐厅的评价,见到可口的食物会拍照发微博等诸如此类的人与人、人与机器之间的信息交流互动,这些都不可避免带来数据交换.而数据交换的关键是降低延迟,以近乎实时的方式呈献给用户.大数据特征里最关键的一点,就是Value.Value的意思是指大数据的价值密度低.大数据时代数据的价值就像沙子淘金,数据量越大,里面真正有价值的东西就越少.现在的任务就是将这些ZB、PB级的数据,利用云计算、智能化开源实现平台等技术,提取出有价值的信息,将信息转化为知识,发现规律,最终用知识促成正确的决策和行动.1.4.提升综合竞争力.有助于提高政府管制能力,提高各个领域运行效率.发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变,这对于提升企业综合竞争力和政府的管制能力具有深远意义的影响.将大量的原始数据汇集在一起,通过智能分析、数据挖掘等技术分析数据中潜在的规律,以预测以后事物的发展趋势,有助于人们做出正确的决策,从而提高各个领域的运行效率,取得更大的收益.1.4.1“啤酒与后期”的作品分析商业是大数据应用最广泛的领域.沃尔玛(Walmart)通过对消费者购物行为等这种非结构化数据进行分析,了解顾客购物习惯,公司从销售数据分析适合搭配在一起买的商品,创造了“啤酒与尿布”的经典商业案例;淘宝服务于卖家的大数据平台———“淘宝数据魔方”有一个“无量神针———倾听用户的痛”屏幕,监听着几百万淘宝买家的心跳,收集分析买家的购物行为,找出问题的先兆,避免“恶拍”(买家拍下产品但拒收)发生,淘宝还针对买家设置大数据平台,为买家量身打造完善网购体验的产品.1.4.2quefax公司大数据在金融业也有着相当重要的作用.华尔街“德温特资本市场”公司分析全球3.4亿微博账户的留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司2012年第一季度获得了7%的收益率.Equifax公司是美国三大征信所之一,其存储的财务数据覆盖了所有美国成年人,包括全球5亿个消费者和8100万家企业.在它的数据库中与财务有关的记录包括贷款申请、租赁、房地产、购买零售商品、纳税申报、费用缴付、报纸与杂志订阅等,看似杂乱无章的共26PB数据,经过交叉分享和索引处理,能够得出消费者的个人信用评分,从而推断客户支付意向与支付能力,发现潜在的欺诈.另外,为了实现医院之间对病患信息的共享,2010年我国公布的“十二五”规划中指出要重点建设国家级、省级和地市级三级卫生信息平台,建设电子档案和电子病历两个基础数据库等.随着国家逐渐加大对电子病历的投入,各级医院也将加大在数据中心、医疗信息仓库等领域的投入,医疗信息存储将越来越受重视,医疗信息中心的关注点也将由传统“计算”领域转移到“存储”领域上来.1.4.4从流程管理向流程管理转变,建立以流程建设和全生命周期数据架构为中国制造业的相关企业随着ERP、PLM等信息化系统的部署完成,管理方式由粗放式管理逐步转为精细化管理,新产品的研发速度和设计效率有了大幅提升,企业在实现对业务数据进行有效管理的同时,积累了大量的数据信息,产生了利用现代信息技术收集、管理和展示分析结构化和非结构化的数据和信息的诉求,企业需要信息化技术帮助决策者在储存的海量信息中挖掘出需要的信息,并且对这些信息进行分析,通过分析工具加快报表进程从而推动决策、规避风险,并且获取重要的信息,因此,越来越多的企业在原有的各种控制系统(DCS、FCS、CIPS等)和各种生产经营管理系统(MIS、MRPⅡ、CRM、ERP等)的基础上,管理重心从以前的以流程建设为主,转换为以流程建设和全生命周期数据架构建设并行的模式,在关注流程的质量和效率的同时,又关注全流程上数据的质量和效率,建立以产品为核心的覆盖产品全生命周期的数据结构,用企业级PLM系统来支撑这些数据结构,有效地提高了企业满足市场需求的响应速度,更加经济地从多样化的数据源中获得更大价值.2大数据处理流程从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别.但是总的来说,大数据的基本处理流程大都是一致的.目前,中国人民大学网络与移动数据管理实验室(WAMDM)开发了一个学术空间“ScholarSpace”,从计算机领域收集的相关文献可以总结出大数据处理的一般流程.在此基础上,作者认为大数据的处理流程基本可划分为数据采集、数据处理与集成、数据分析和数据解释4个阶段.整个大数据处理流程如图1所示,即经数据源获取的数据,因为其数据结构不同(包括结构、半结构和非结构数据),用特殊方法进行数据处理和集成,将其转变为统一标准的数据格式方便以后对其进行处理;然后用合适的数据分析方法将这些数据进行处理分析,并将分析的结果利用可视化等技术展现给用户,这就是整个大数据处理的流程.2.1数据处理流程大数据的“大”,原本就意味着数量多、种类复杂,因此,通过各种方法获取数据信息便显得格外重要.数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别(RFID)、数据检索分类工具如百度和谷歌等搜索引擎,以及条形码技术等.并且由于移动设备的出现,如智能手机和平板电脑的迅速普及,使得大量移动软件被开发应用,社交网络逐渐庞大,这也加速了信息的流通速度和采集精度.2.2通过数据处理与集成数据的处理与集成主要是完成对于已经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储.根据前文所述,大数据特点之一是“Variety”,也就是大数据的多样性.这就决定了经过各种渠道获取的数据种类和结构都非常复杂,给之后的数据分析处理带了极大的困难.通过数据处理与集成这一步骤,首先将这些结构复杂的数据转换为单一的或是便于处理的结构,为以后的数据分析打下良好的基础,因为这些数据里并不是所有的信息都是必需的,而是会掺杂很多噪音和干扰项,因此,还需对这些数据进行“去噪”和清洗,以保证数据的质量以及可靠性.常用的方法是在数据处理的过程中设计一些数据过滤器,通过聚类或关联分析的规则方法将无用或错误的离群数据挑出来过滤掉,防止其对最终数据结果产生不利影响;然后将这些整理好的数据进行集成和存储,这是很重要的一步,若是单纯随意的放置,则会对以后的数据取用造成影响,很容易导致数据访问性的问题,现在一般的解决方法是针对特定种类的数据建立专门的数据库,将这些不同种类的数据信息分门别类的放置,可以有效地减少数据查询和访问的时间,提高数据提取速度.2.3基于监测数据分析的方法数据分析是整个大数据处理流程里最核心的部分,因为在数据分析的过程中,会发现数据的价值所在.经过上一步骤数据的处理与集成后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析.传统的数据处理分析方法有数据挖掘、机器学习、智能算法、统计分析等,而这些方法已经不能满足大数据时代数据分析的需求.在数据分析技术方面,Google公司无疑是做得最先进的一个.Google作为互联网大数据应用最为广泛的公司,于2006年率先提出了“云计算”的概念,其内部各种数据的应用都是依托Google自己内部研发的一系列云计算技术,例如分布式文件系统GFS、分布式数据库BigTable、批处理技术MapReduce,以及开源实现平台Hadoop等.这些技术平台的产生,提供了对大数据进行处理、分析很好的手段.2.4可视化技术向数据可视化服务对于广大的数据信息用户来讲,最关心的并非是数据的分析处理过程,而是对大数据分析结果的解释与展示,因此,在一个完善的数据分析流程中,数据结果的解释步骤至关重要.若数据分析的结果不能得到恰当的显示,则会对数据用户产生困扰,甚至会误导用户.传统的数据显示方式是用文本形式下载输出或用户个人电脑显示处理结果.但随着数据量的加大,数据分析结果往往也越复杂,用传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,为了提升数据解释、展示能力,现在大部分企业都引入了“数据可视化技术”作为解释大数据最有力的方式.通过可视化结果分析,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受.常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、面向像素的技术和分布式技术,等等.3分布式数据库的建立在大数据处理流程中,最核心的部分就是对于数据信息的分析处理,所以其中所运用到的处理技术也就至关重要.提起大数据的处理技术,就不得不提起“云计算”,这是大数据处理的基础,也是大数据分析的支撑技术.分布式文件系统为整个大数据提供了底层的数据贮存支撑架构;为了方便数据管理,在分布式文件系统的基础上建立分布式数据库,提高数据访问速度;在一个开源的数据实现平台上利用各种大数据分析技术可以对不同种类、不同需求的数据进行分析整理得出有益信息,最终利用各种可视化技术形象地显示给数据用户,满足用户的各种需求.3.1云计算和模糊负载3.1.1云计算设备的运维Google作为大数据应用最为广泛的互联网公司之一,2006年率先提出“云计算”的概念.所谓“云计算”,根据文献对云计算的定义来看,云计算是一种大规模的分布式模型,通过网络将抽象的、可伸缩的、便于管理的数据能源、服务、存储方式等传递给终端用户.根据维基百科的说法,狭义云计算是指IT基础设施的交付和使用模式,指通过网络以按照需求量的方式和易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按照需求量和易扩展的方式获得所需服务.目前,云计算可以认为包含3个层次的内容:服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS).国内的“阿里云”与云谷公司的XenSystem,以及在国外已经非常成熟的Intel和IBM都是“云计算”的忠实开发者和使用者.云计算是大数据分析处理技术的核心原理,也是大数据分析应用的基础平台.Google内部的各种大数据处理技术和应用平台都是基于云计算,最典型的就是以分布式文件系统GFS、批处理技术MapReduce、分布式数据库BigTable为代表的大数据处理技术以及在此基础上产生的开源数据处理平台Hadoop.3.1.2map以及rin-pcr系统的组成结构MapReduce技术是Google公司于2004年提出,作为一种典型的数据批处理技术被广泛的应用于数据挖掘、数据分析、机器学习等领域,并且,MapReduce因为它并行式数据处理的方式已经成为大数据处理的关键技术.MapReduce的数据分析流程如图2所示.由图可以看出,MapReduce系统主要由两个部分组成:Map和Reduce.MapReduce的核心思想在于“分而治之”,也就是说,首先将数据源分为若干部分,每个部分对应一个初始的键-值(Key/Value)对,并分别给不同的Map任务区处理,这时的Map对初始的键-值(Key/Value)对进行处理,产生一系列中间结果Key/Value对,MapReduce的中间过程Shuffle将所有具有相同Key值的Value值组成一个集合传递给Reduce环节;Reduce接收这些中间结果,并将相同的Value值合并,形成最终的较小Value值的集合.MapReduce系统的提出简化了数据的计算过程,避免了数据传输过程中大量的通信开销,使得MapReduce可以运用到多种实际问题的解决方案里,公布之后获得了极大的关注,在各个领域均有广泛的应用.3.2gfs体系结构在Google之前,没有哪一个公司曾需要处理数量如此多、种类如此繁杂的数据,因此,Google公司结合自己的实际应用情况,自行开发了一种分布式文件系统GFS(GoogleFileSystem).这个分布式文件系统是个基于分布式集群的大型分布式处理系统,作为上层应用的支撑,为MapReduce计算框架提供低层数据存储和数据可靠性的保障.GFS同传统的分布式文件系统有共同之处,比如性能、可伸缩性、可用性等.然而,根据应用负载和技术环境的影响,GFS和传统的分布式文件系统的不同之处使其在大数据时代得到了更加广泛的应用.GFS采用廉价的组成硬件并将系统某部分出错作为常见情况加以处理,因此具有良好的容错功能.从传统的数据标准来看,GFS能够处理的文件很大,尺寸通常都是100MB以上,数GB也很常见,而且大文件在GFS中可以被有效地管理.另外,GFS主要采取主从结构(Master-Slave),通过数据分块、追加更新等方式实现海量数据的高速存储.GFS体系结构图如图3所示.随着数据量的逐渐加大、数据结构的愈加复杂,最初的GFS架构已经无法满足对数据分析处理的需求,Google公司在原先的基础上对GFS进行了重新设计,升级为Colosuss,单点故障和海量小文件存储的问题在这个新的系统里得到了很好的解决.除了Google的GFS以及Colosuss,HDFS、FastDFS和CloudStore等都是类似于GFS的开源实现.由于GFS及其类似的文件处理系统主要用于处理大文件,对图片存储、文档传输等海量小文件的应用场合则处理效率很低,因此,Facebook开发了专门针对海量小文件处理的文件系统Haystack,通过多个逻辑文件共享同一个物理文件,增加缓存层、部分元数据加载到内存等方式有效地解决了海量小文件存储的问题;此外,淘宝也推出了类似的文件系统TFS(TaobaoFileSystem),针对淘宝海量的非结构化数据,提供海量小文件存储,满足了淘宝对小文件存储的需求,被广泛地应用在淘宝各项业务中.3.3监测数据处理由上述数据处理过程可看出,从数据源处获得的原始数据存储在分布式文件系统中,但是用户的习惯是从数据库中存取文件.传统的关系型分布式数据库已经不能适应大数据时代的数据存储要求,主要原因如下:1)数据规模变大.大数据时代的特征之一“Volume”,就是指巨大的数据量,因此必须采用分布式存储方式.传统的数据库一般采用的是纵向扩展(scale-up)的方法,这种方法对性能的增加速度远远低于所需处理数据的增长速度,因此不具有良好的扩展性.大数据时代需要的是具备良好横向拓展(scale-out)性能的分布式并行数据库.2)数据种类增多.大数据时代的特征之二“Variety”,就是指数据种类的多样化.也就是说,大数据时代的数据类型已经不再局限于结构化的数据,各种半结构化、非结构化的数据纷纷涌现.如何高效地处理这些具有复杂数据类型、价值密度低的海量数据,是现在必须面对的重大挑战之一.3)设计理念的差异.传统的关系型数据库讲求的是“Onesizeforall”,即用一种数据库适用所有类型的数据.但在大数据时代,由于数据类型的增多、数据应用领域的扩大,对数据处理技术的要求以及处理时间方面均存在较大差异,用一种数据存储方式适用所有的数据处理场合明显是不可能的,因此,很多公司已经开始尝试“Onesizeforone”的设计理念,并产生了一系列技术成果,取得了显著成效.为了解决上述问题,Google公司无疑又走在了时代的前列,它提出了BigTable的数据库系统解决方案,为用户提供了简单的数据模型,这主要是运用一个多维数据表,表中通过行、列关键字和时间戳来查询定位,用户可以自己动态控制数据的分布和格式.BigTable的基本架构如图4所示.BigTable中的数据均以子表形式保存于子表服务器上,主服务器创建子表,最终将数据以GFS形式存储于GFS文件系统中;同时客户端直接和子表服务器通信,Chubby服务器用来对子表服务器进行状态监控;主服务器可以查看Chubby服务器以观测子表状态检查是否存在异常,若有异常则会终止故障的子服务器并将其任务转移至其余服务器.除了BigTable之外,很多互联网公司也纷纷研发可适用于大数据存储的数据库系统,比较知名的有Yahoo!的PNUTS和Amazon的Dynamo.这些数据库的成功应用促进了对非关系型数据库的开发与运用的热潮,这些非关系型数据库方案现在被统称为NoSQL(NotOnlySQL).就目前来说,对于NoSQL没有一个确切的定义,一般普遍认为NoSQL数据库应该具有以下特征:模式自由(schema-free)、支持简易备份(easyreplicationsupport)、简单的应用程序接口(simpleAPI)、一致性、支持海量数据(hugeamountofdata).目前典型的NoSQL的分类如表2所示.3.4基于ha的大数据处理平台大数据时代对于数据分析、管理都提出了不同程度的新要求,许多传统的数据分析技术和数据库技术已经不足以满足现代数据应用的需求.为了给大数据处理分析提供一个性能更高、可靠性更好的平台,DougCutting模仿GFS,为MapReduce开发了一个云计算开源平台Hadoop,用Java编写,可移植性强.现在Hadoop已经发展为一个包括分布式文件系统(HadoopDistributedFileSystem,HDFS)、分布式数据库(HBase、Cassandra)以及数据分析处理MapReduce等功能模块在内的完整生态系统(Ecosystem),现已经发展成为目前最流行的大数据处理平台.Intel公司根据Hadoop的系统构造,给出了一种Hadoop的实现结构,如图5所示.在这个系统中,以MapReduce算法为计算框架,HDFS是一种类似于GFS的分布式文件系统,可以为大规模的服务器集群提供高速度的文件读写访问.HBase是一种与BigTable类似的分布式并行数据库系统,可以提供海量数据的存储和读写,而且兼容各种结构化或非结构化的数据.Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,对海量数据进行挖掘的一种方式,提供数据挖掘、机器学习等领域中经典算法的实现.Hive是一种基于Hadoop的大数据分布式数据仓库引擎,它使用SQL语言对海量数据信息进行统计分析、查询等操作,并且将数据存储在相应的分布式数据库或分布式文件系统中.为了对大规模数据进行分析就要用到相关的数据分析处理语言PigLatin,它借鉴了SQL和MapReduce两者的优点,既可以像SQL语言那样灵活可变,又有过程式语言数据流的特点.Zookeeper是分布式系统的可靠协调系统,可以提供包括配置维护、名字服务、分布式同步、组服务等在内的相关功能,封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户.Sqoop是一个用来将Hadoop和关系型数据库中的数据双向转移的工具,可以将一个关系型数据库(MySQL,Oracle,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中,还可以在传输过程中实现数据转换等功能.Flume是一种分布式日志采集系统,特点是高可靠性、高可用性,它的作用是从不同的数据源系统中采集、集成、运送大量的日志数据到一个集中式数据存储器中.3.5大数据时代的用户体验可视化技术作为解释大数据最有效的手段之一最初是被科学与计算领域运用,它对分析结果的形象化处理和显示,在很多领域得到了迅速而广泛应用.数据可视化(DataVisualization)技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术.由于图形化的方式比文字更容易被用户理解和接受,数据可视化就是借助人脑的视觉思维能力,将抽象的数据表现成为可见的图形或图像,帮助人们发现数据中隐藏的内在规律.可视分析起源于2005年,它是一门通过交互可视界面来分析、推理和决策的科学,通过将可视化和数据处理分析方法相结合,提高可视化质量的同时也为用户提供更完整的大规模数据解决方案.如今,针对可视分析的研究和应用逐步发展,已经覆盖科学数据、社交网络数据、电力等多个行业.面对海量数据的涌现,如何将其恰当、清楚地展现给用户是大数据时代的一个重要挑战.学术科研界以及工业界都在不停致力于大数据可视化的研究,已经有了很多经典成功的应用案例.1)互联网宇宙(TheInternetMap).为了探究互联网这个庞大的宇宙,俄罗斯工程师RuslanEnikeev根据2011年底的数据,将196个国家的35万个网站数据整合起来,并根据这些网站相互之间的链接关系将这些“星球”联系起来,命名为“TheInternetMap”,如图6所示.一个“星球”代表一个网站,每一个“星球”的大小根据其网站流量来决定,而“星球之间”的距离远近则根据链接出现的频率、强度和用户跳转时创建的链接等因素决定.2)标签云(TagCloud).标签云的本质就是一种“标签”,用不同的标签标示不同的对象.标签的排序一般按照字典的顺序排列,并根据其热门程度确定字体的颜色和大小,出现频率越高的词语字体就越大,反之越小,这就方便用户按照字典或是该标签的热门程度来寻找信息.3)历史流图(HistoryFlow).在文献中提出了一种用于可视化文档编辑的“历史流图”,这样的一个流程,意味着这是一个面向广大用户的开放型文档,用户可以在其中自由地编辑和查阅,随时根据自己的理解进行增加和删除操作.在历史流图中,用一个坐标轴表示对一篇文档做出任何修改的行为:横坐标表示时间,纵坐标表示修改的人员;随着时间的推移,横坐标越来越长,文档内容也随着不断变化,修改的人员也随之增加,可以很容易看出每个人对这篇文档的贡献.最显著的应用案例就是“维基百科”的注释文档,“历史流图”的效果很明显.关于大数据可视化的研究依然在继续,比如大众点评网上,可以轻松的根据地理信息找到附近的餐厅、KTV、商店等,用户可以根据自己的体验对这些店铺进行评价,这些反馈信息就在网络上留下了痕迹,为后来的用户使用提供了参考,这种常见的社交网络或生活消费类应用与数字网络地图的叠加,就是多维叠加式数据可视化应用;另外,支付宝的电子对账单通过用户一段时间(一般是1个月)的支付宝使用信息,自动生成专门针对此用户的本月消费产品数据图表,可以帮助用户分析其自身的消费情况,这是一种即时的关联规则下可视化技术的应用,通过对那些彼此间存在关联性的数据进行分析处理,挖掘出数据间联系并预测出发展趋势,随后即时生成可视化方案反馈给用户,可以给客户下个月的消费管理提供参考意见.4大数据的概念及其对数据利用的意义随着近年来大数据热潮的不断升温,人们认识到“大数据”并非是指“大规模的数据”,更加代表了其本质含义:思维、商业和管理领域前所未有的大变革.在这次变革中,大数据的出现,对产业界、学术界和教育界都正在产生巨大影响.随着科学家们对大数据研究的不断深入,人们越来越意识到对数据的利用可以为其生产生活带来巨大便利的同时,也带来了不小的挑战.4.1大数据时代隐私保护的技术随着大数据的发展,数据的来源和应用领域越来越广泛:在互联网上随意浏览网页,就会留下一连串的浏览痕迹;在网络中登录相关网站需要输入个人的重要信息,例如用户名密码、身份证号、手机号、住址、银行卡密码等;随处可见的摄像头和传感器会记录下个人的行为和位置信息,等等.通过相关的数据分析,数据专家就可以轻易挖掘出人们的行为习惯和个人重要信息.如果这些信息运用得当,可以帮助相关领域的企业随时了解客户的需求和习惯,便于企业调整相应的产品生产计划,取得更大的经济效益;但若是这些重要的信息被不良分子窃取,随之而来的就是个人信息、财产等的安全性问题.为了解决大数据时代的数据隐私问题,学术界和工业界纷纷提出自己的解决办法.Lindell等提出了保护隐私的数据挖掘(PrivacyPreservingDataMining)概念;Sweeney针对位置服务的安全性问题,提出了一种k-匿名方法,即将自己与周围的(k-1)个用户组合成一个数据集合,从而模糊了自己的位置概念;差分隐私(DifferentialPrivacy)保护技术可能是解决大数据隐私问题的有力武器,Dwork在2006年提出了一种新的差分隐私方法,Roy等于2010年提出了一种隐私保护系统Airavat,将集中信息流控制和差分隐私保护技术融入云计算的数据生成与计算阶段,防止MapReduce计算过程中的数据隐私泄露.此外,大数据时代数据的更新变化速度加快,而一般的数据隐私保护技术大都基于静态数据保护,这就给隐私保护带来了新的挑战.在复杂变化的条件下如何实现数据隐私安全的保护,这将是未来大数据研究的重点方向之一.4.2大数据时代传统数据安全的“保护”与数据清洗纵观大数据的发展历程,大数据的来源与应用越来越广泛,为了把散布于不同的数据管理系统的数据收集起来统一整理,就有必要进行数据的集成与管理.虽然对数据的集成和管理已经有了很多的方法,但是传统的数据存储方法已经不能满足大数据时代数据的处理需求,这就面临着新的挑战.1)数据存储.在大数据时代,大数据的特征之一就是数据类型的多样性.数据类型由传统的结构化数据逐渐转变为半结构化、非结构化数据.另外,数据的来源也逐渐多样化,传统的数据大都来自于少部分军事企业或是研究所的电脑终端;现在,随着互联网和移动设备在全球的普及,平板电脑、手机、GPS等产生的数据呈“井喷”状态,因此,数据的存储就显得格外重要.由前文可看出,传统的数据存储方式已经不足以满足现在的数据存储需求,为了应对越来越多的海量数据和日渐复杂的数据结构,很多公司都着手研发适用于大数据时代的分布式文件系统和分布式并行数据库,如HDFS、BigTable等.在数据存储过程中,数据格式的转换是必要的,而且是非常关键和复杂的,这就对数据存储系统提出了更高的要求.2)数据清洗.大数据时代数据的特征“Value”,是大数据低价值密度的体现.也就是说,大数据量并不意味着大信息量,很多时候它意味着冗余数据的增多、垃圾价值的泛滥,因此,对数据进行筛选、清理是十分必要的,否则过多的干扰信息一方面会占据大量的存储空间,造成存储资源的浪费,另一方面这些垃圾数据会对真正有用的信息造成干扰,影响数据分析结果.大数据时代的数据清洗过程必须更加细致和专业,即在数据清洗过程中,既不能清洗地过细,因为这会增加数据清洗的复杂度,甚至有可能会把有用的信息过滤掉;也不能清洗的不细致,因为要保证数据筛选的效果.4.3积极推进关系型数据库的数据融合大数据因其独特的特征对数据分析处理系统提出了极高的要求,无论是存储、传输还是计算,在大数据分析技术平台上,将会是一个技术的激烈交锋.因为现有的数据中心技术难以满足大数据的处理需求,所以IT架构的革命性重构势在必行.美国的6个部门共同启动的大数据研究计划中,绝大部分的研究项目都是针对大数据带来的技术挑战,主要应对大数据分析算法和系统的效率问题.1)大数据分析技术.目前来看,海量数据中超过85%的数据都是半结构化和非结构化的数据,传统的关系型数据库已经无法处理.根据CAP理论(Consistency,Availability,Partitionstolerance),一致性、可用性和容错性不可兼得,因此,关系型数据库没有良好的可扩展性.以MapReduce和Hadoop为代表的非关系型数据库的非关系型分析技术因其具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江能源职业学院《新时期文学思潮研究》2023-2024学年第一学期期末试卷
- 广东省惠州市博罗县华科教育2024-2025学年七年级下学期3月月考历史试题
- 光疗暖箱操作技术使用
- 战略思维在国际物流师考试中的试题及答案
- 提高普通话水平的试题及答案
- 2024年地理信息技术应用试题及答案
- 2024年份十月份离子液体EPC总承包合同电导率验收标准
- 2025年-甘肃建筑安全员《A证》考试题库及答案
- 2024年电商设计讲座重点试题及答案
- 2024年银行从业风险应对方案试题及答案
- 离婚协议民政局贵州安顺(2025年版)
- 高校讲师个人学术发展计划
- 2025届四川省成都市高三二诊生物试题(原卷版+解析版)
- 2025年度粤医云、国培卫健全科医学临床医学2月题目及答案
- DL5190.5-2019电力建设施工技术规范第5部分:管道及系统
- 大连市历年居民收入及职工工资统计数据
- 厌氧氨氧化ppt
- 基于PLC的污水处理控制系统设计毕业设计(论文)
- 总监巡视工作记录
- 压力容器制造检验验收制度14
- 《工程款结算单》
评论
0/150
提交评论