PB级大数据存储技术与分析技术解析_第1页
PB级大数据存储技术与分析技术解析_第2页
PB级大数据存储技术与分析技术解析_第3页
PB级大数据存储技术与分析技术解析_第4页
PB级大数据存储技术与分析技术解析_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PB级大数据存储技术与分析技术解析2013年122月2日目录TOC o 1-3 h z u HYPERLINK l _Toc 一、PB级大数数据存储技术术解析 PAGEREF _Toc h 2 HYPERLINK l _Toc 二、大数据分析析系统应规避避的问题 PAGEREF _Toc h 5 HYPERLINK l _Toc 三、剖析Haddoop和大大数据的七误误解 PAGEREF _Toc h 8 HYPERLINK l _Toc 四、6个优秀的的开源文件系系统助力大数数据分析 PAGEREF _Toc h 133 HYPERLINK l _Toc 五、大数据与关关系型数据库库是否水火

2、不不容?NO PAGEREF _Toc h 17 HYPERLINK l _Toc 六、大数据探讨讨:如何整理理1700亿条条Twittter发布信信息? PAGEREF _Toc h 21 HYPERLINK l _Toc 七、畅谈阿里巴巴巴的大数据据梦 PAGEREF _Toc h 26 HYPERLINK l _Toc 八、Twittter利用Storrm系统处理理实时大数据据 PAGEREF _Toc h 35PB级大数据存存储技术解析析对于存储管理人人员来说,大大数据应该分分为大数据存存储和大数据据分析,这两两者的关系是是大数据存存储是用于大大数据分析的的。然而,到到目前为止这这是两

3、种截然然不同的计算算机技术领域域。本文就重重点解析一下下PB级大数数据存储技术术,希望对您您有所帮助。越来越多的存储储产品都在融融入大数据的的概念和功能能,并使之成成为产品的一一大卖点。但但对于从事存存储管理的专专业人员来说说,对“大数据”在具体应用用场景中的特特点和区别有有所了解。大数据存储致力力于研发可以以扩展至PBB甚至EB级级别的数据存存储平台;大数据分析析关注在最短短时间内处理理大量不同类类型的数据集集。在快速变化的技技术趋势中有有两个特点需需要存储管理理人员重视起起来。第一,大数据分分析流程和传传统的数据仓仓库的方式完完全不同,其其已经变成了了业务部门级级别和数据中中心级别的关关键

4、应用。这这也是存储管管理员的切入入点。随着基基础平台(分分布式计算或或其它架构)变得业务关关键化,用户户群较以往更更加地依赖这这一平台,这这也使得其成成为企业安全全性、数据保保护和数据管管理策略的关关键课题。第二,通常用于于数据分析平平台的分布式式计算平台内内的存储不是是你以往面对对的网络附加加存储(NAAS)和存储储区域网络(SAN)其通常是是内置的直连连存储(NAAS)以及组组成集群的分分布式计算节节点。这使得得管理大数据据变得更为复复杂,因为你你无法像以前前那样对这些些数据部署安安全、保护和和保存流程。然而,执行行这些流程策策略的必要性性被集成在管管理分布式计计算集群之中中,并且改变变了

5、计算和存存储层交互的的方式。大数据分析和传传统的数据仓仓库的不同大数据分析中包包含了各种快快速成长中的的技术。因此此,简单用某某一种技术尝尝试对其定义义,比如分布布式计算,会会比较困难。不过,这些些定义大数据据分析的通用用性技术可以以用如下特征征阐述:对于传统数据仓仓库处理流程程效率和扩展展性方面限制制的感知。将将数据,不论论是结构化还还是非结构化化数据从多个个数据源汇聚聚的能力。以以及认识到数数据的及时性性是扩展非结结构化数据源源的关键,其其中包括移动动设备,RFFID,网络络和不断增长长的自动化感感知技术。传统的数据仓库库系统通常从从现有的关系系型数据库中中抓取数据。然而,据估估计超过80

6、0%的企业数数据是非结构构化的,即无无法关系型数数据库管理系系统(RDBBMS),比比如DB2和和Oraclle完成的数数据。一般而而言,处于此此次讨论的目目的,非结构构化数据可以以看成所有无无法简单转化化到结构化关关系型数据库库中的所有数数据。而企业业现在希望从从这些非结构构化数据类型型中抽取有价价值的信息,包包括:邮件和其它形式式的电子通讯讯记录网站上的资料,包包括点击量和和社交媒体相相关的内容数字视频和音频频设备产生的数据据(RFIDD,GPS,传传感器产生的的数据,日志志文件等)以以及物联网在大数据分析的的情况下,查查看远多于RRDBMS的的数据类型十十分必要这代表了各各种重要的新新信

7、息源。并并且随着每年年非结构化数数据存储总量量较结构化数数据增长率高高出10到550倍,从业业务角度看这这些数据也变变得更为重要要。更重要的数据需需要更专业的的人员进行分分析。但传统统的数据仓库库技术对海量量非结构化数数据的处理根根本无法满足足大数据的需需求。所以,存存储管理人员员也应该更快快的跟随技术术潮流,更新新自己的技术术和知识结构构,提高自己己对大数据的的管理和分析析能力。大数据分析系统统应规避的问问题随着互联网技术术的不断发展展,数据本身身是资产,这这一点在业界界已经形成共共识。越来越越多的企业涉涉足到大数据据,但是大数数据没有想象象中的那么简简单,所有大大数据的属性性,包括数量量,

8、速度,多多样性等反映映了数据库不不断增长的复复杂性。本文文从安装、搭搭建等方面展展示了大数据据分析系统的的应该规避的的系列问题。大数据分析前期期要做的事其实,每一个数数据都有一个个ETL,就就是抽取、转转化,然后去去加载,包括括做数据的清清洗。如果数数据大批量进进来的话,有有些数据可能能是有问题的的,马先生举举了个例子:比如说,好好多地址会写写得比较模糊糊,如果要搜搜索北京这个个词的时候,数数据仓库里可可能只有一个个京字,这些些都要统一整整理成一个,比比如说北京,这这样后面分析析就会简单,比比如山东,有有人会输入“鲁”字来进行搜搜索,而不是是山东,这就就需要在大数数据分析前期期做好数据清清理工

9、作,做做规范化,这这样后面的 HYPERLINK t _blank 数数据分析起来来就方便很多多。搭建大数据分析析系统的注意意事项在搭建大数据分分析系统时,有有哪些需要注注意的事项?马老师提到到:首先要弄弄明白你所在在企业需要什什么样的数据据,或者你想想得到什么价价值,想明白白了再去做。因为做数据据不像做别的的东西,一定定明确知道要要知道你要干干什么,不然然这个系统搭搭的时候会有有很多困难,不不知道该怎么么搭,不知道道用什么技术术,也不知道道数据进去是是否在浪费。而目前的情情况是:很多多企业可能会会先把架构搭搭出来,实际际上这数据每每天在算,但但是不知道这这数据带来什什么价值,所所以更多是一一

10、个业务驱动动的。再举个个例子:比如如说中国移动动就想挖一挖挖,到底是哪哪一个用户老老欠费,哪一一个用户用得得多,用的多多的就给他优优惠多一点如果他有有这个需求,你你再把这个需需求下转给下下面的人,按按照这个需求求去开发;其次,需要选择择适当的技术术。比如说你你一台机器够够用的,不要要用两台机器器,能够进来来报表就不要要用交互报表表,因为那个个都是有技术术成本的,并并且上线的速速度会慢很多多。所以建议议任何一个企企业在搭建数数据分析以前前,要特别清清晰地知道其其搭建的需求求和目的,选选择什么方案案,搭它来解解决什么问题题,针对需求求你去做一个个数据分析;再次,在没有时时时性要求时时,你不要自自作

11、主张,向向老大提这个个。因为大公公司的批量已已经做得非常常完美了,可可能批量已经经带来35%的收入增加加了,他要再再做时时,再再增加5%,而而你现在什么么都没有。如如果说先要做做时时,或者者先要全部搞搞出来的话,可可能要先一步步一部把355%做好,把把那个批量先先做出来,然然后再做时时时,这样效果果会更好。不要滥搭大数据据分析系统技术这个东西都都是相通的,没没有一项改进进都是说完全全是重新造出出来的,都是是在改的,但但是它带来的的价值不一样样,它带来的的人的思考,就就跟人从零售售店买东西和和网商这种不不一样,但是是技术,零售售店也会用一一些数据库,网网上也可能用用,要在这个个上面做一些些转变。

12、马老老师谈到,好好多国企(这这里就不点名名),就是为为了上项目去去上项目,称称自己有 HYPERLINK t _blank 海量量数据。当问问他需要搭建建的大数据系系统是用来干干什么,他们们的答案很出出乎意料:先先给搭起来,先先存起来,需需要的时候再再用,就这种种思想。其实实这个是没有有必要的。总结虽然大数据现在在炙手可热,大大数据分析越越来越火爆,很很多企业都在在试图拥抱大大数据技术。但还是应该该具体问题具具体分析,因因为大数据分分析系统并非非适合所有的的企业,一些些小型规模的的企业在旧系系统能满足需需求的时候,就就不要盲目地地去追随潮流流,舍弃旧的的系统重新搭搭建,也可能能解决了这个个小缺

13、口,但但是可能会滋滋生其它更大大的问题,这这就得不偿失失了。剖析Hadooop和大数据据的七误解如今,Hadooop成为解解决大数据需需求的主要投投资领域之一一,而类似FFaceboook等互联联网巨头在都都公开的吹捧捧Hadooop上取得的的成功,同样样初入大数据据领域的公司司也必先着眼眼于Hadooop。但对对于Hadooop技术而而言,是一个个多维的解决决方案,可以以通过不同的的方式进行部部署和使用。下面就了解解一些关于HHadoopp和大数据的的七大错误理理念。对于Hadooop技术而言言,可以说是是开源领域的的传奇,然而而如今业界还还伴随着一些些流言,这些些流言可能会会导致IT高高管

14、们带着“有色”的观点去制制定策略。如今,数据量在在以惊人的速速度增长,从从IDC分析析师报告中22013年数数据存储上的的增长速度将将达到53.4%,ATT&T更是声声称无线数据据的流量在过过去的5年内内增长2000倍,从互联联网内容、电电子邮件、应应用通知、社社交消息以及及每天接收的的消息都在显显著的增长,这这也是众多大大企业都聚焦焦大数据的原原因所在。毫无疑问,Haadoop成成为解决大数数据需求的主主要投资领域域之一,而类类似Faceebook等等互联网巨头头在都公开的的吹捧Haddoop上取取得的成功,同同样初入大数数据领域的公公司也必先着着眼于Haddoop。但但对于Haddoop技

15、术术而言,是一一个多维的解解决方案,可可以通过不同同的方式进行行部署和使用用。下面就了了解一些关于于Hadooop和大数据据的七大错误误理念:大数据仅仅是容容量对大数据来说,除除了指体积之之外,还经常常提到Varriety(多多样)、Vaariabiility(可可变)、Veelocitty(速度)和和Valuee(价值)。关键点在于于大数据并不不是体积上的的增长,更多多是未来的实实时分析、结结构化和非结结构化数据的的发展,并被被企业CIOO用于更好的的决策。综上所述,并不不是只有分析析大数据才会会获得价值。举个例子,存存储和分析11PB的超时时限数据的价价值可能比不不上实时分析析1GB的数数

16、据,而从“新鲜”的数据上获获得价值比解解剖过时的数数据更具价值值。传统SQL不能能在Hadooop上使用用众多厂商在Haadoop上上投入精力,布布局市场战略略时,十分清清楚HDFSS和MapRReducee受限于处理理类似SQLL语言的能力力,这也是HHive、PPig和Sqqoop最终终得以推广的的原因。更多多企业通过HHadoopp和SQL兼兼容来管理大大量的数据,PPivotaal HD是是结合SQLL并行处理资资料库与Haadoop 2.0,针针对企业资料料分析需求而而优化的Haadoop强强化版本。Hadoop是是唯一的新IIT数据平台台谈到数据平台,大大型机在ITT投资组合里里有

17、是一个长长期投资,与与ERP、CCRM和SCCM这些系统统一样演变至至今。而面对对大数据时代代,大型机不不想被架构遗遗弃,必须展展示在现有IIT投资环境境中的价值,而而许多客户遇遇到速度、规规模和成本的的问题,通过过vFabrric SQQLFiree这样的内存存大数据网络络去解决高速速数据存取,促促进大型机批批处理或实时时分析报告这这些问题。虚拟化会导致性性能下降Hadoop最最初的设计只只是运行实体体服务器上,然然而随着云计计算发展,许许多企业都希希望能作为云云数据中心提提供服务。之之所以虚拟化化Hadooop,企业首首先要考虑管管理基础设施施的扩展性,认认识到扩展计计算资源,比比如虚拟H

18、aadoop节节点在数据和和计算分开时时会对性能有有所帮助,否否则如果你关关闭某个Haadoop节节点将丢失上上面的所有数数据或者添加加一个没有数数据的空节点点。Hadoop只只可以在数据据中心运行对于在SaaSS云服务解决决方案,许多多云服务允许许云端运行HHadoopp、SQL,这这无疑可以帮帮助企业省下下数据中心建建造投资的时时间和金钱。特别是对于于公有云情况况下,Javva开发者可可以从Sprring DData ffor Haadoop以以及一些其它它的GitHHub用例中中获益。大数据复杂性Hadoop对对虚拟化无经经济价值Hadoop被被很多人认为为,尽管在商商用服务器上上运行,

19、添加加一个虚拟层层在带来额外外支出的同时时并不会有额额外的价值收收益,但其实实这个说法并并没有考虑到到数据和数据据分析事实上上都是动态的的。虚拟化基基础设施同样样可以减少物物理硬件数量量,让CAPPEX(资本本支出)直接接等于商用硬硬件成本,而而通过自动以以及高效利用用共享基础设设施同样可以以减少OPEEX(运营成成本)。Hadoop不不能运行在SSAN或NAAS上尽管Hadooop在本地磁磁盘上运行,对对于中小型集集群一样可以以在一个共享享的SAN环环境下体现良良好的性能表表现,而高带带宽比如100GB以太网网、PoE以以及iSCSSI对性能同同样有很好的的支持。由此,大数据成成为行业追逐逐

20、的热点,以以上七大有关关大数据“误解”问题的客观观看待。如同同不同项目需需求不同,HHadoopp是一个工具具来帮助企业业更好的应对对大数据问题题。无论是面面对数据网格格的GemFFire或SQLFFire,还还是面向消息息的RabbbitMQ中中间件,一个个完整的SaaaS解决方方案如今比在在Hadooop环境更容容易实现。6个优秀的开源源文件系统助助力大数据分分析“大数据”作为为时下最火热热的IT行业业的词汇,个个人、企业和和政府机构之之间的互动创创造了数据的的海洋,我们们51CTOO传媒在4月月26日-227日也将举举行20133大数据全球球技术峰会,分分享大数据技技术趋势和最最佳实践,

21、是是一场重新认认识数据价值值的技术盛宴宴。大数据需需要大量的储储存空间,本本文分享了66个优秀的开开源文件系统统,助力大数数据深入分析析。大数据在今天吸吸引了大量关关注,个人、企业和政府府机构之间的的互动创造了了数据的海洋洋,通过有效效识别、访问问、筛选和分分析其中部分分数据能带来来新的见解和和益处。大数数据需要大量量的储存空间间,先进的存存储基础设施施必不可少,需需要能在多台台服务器上伸伸缩自如的存存储解决方案案。有许多优优秀的开源文文件系统能用用于深入分析析大数据,其其中包括:QFSQuantcaast (QFS) 是一个高性性能、容错、 HYPERLINK t _blank 分布式的文文

22、件系统,其其开发是用于于支持 MaapReduuce 处理理或者需要顺顺序读写大文文件的应用。HDFSHadoop Distrributeed ,简称称 HYPERLINK t _blank HDFS,是是一个 HYPERLINK t _blank 分布式式文件系统。HDFS有有着高容错性性(faullt-tollerentt)的特点,并并且设计用来来部署在低廉廉的(loww- cosst)硬件上上。而且它提提供高吞吐量量(highh throoughpuut)来访问问应用程序的的数据,适合合那些有着超超大数据集(llarge data set)的的应用程序。HDFS放放宽了(reelax)P

23、POSIX的的要求(reequireementss)这样可以以实现流的形形式访问(sstreamming aaccesss)文件系统统中的数据。HDFS开开始是为开源源的apacche项目nnutch的的基础结构而而创建,HDDFS是 HYPERLINK t _blank haadoop项项目的一部分分,而 haadoop又又是luceene的一部部分。CephCeph是加州州大学Sannta Crruz分校的的Sage Weil(DDreamHHost的联联合创始人)专专为博士论文文设计的新一一代自由软件件分布式文件件系统。自22007年毕毕业之后,SSage开始始全职投入到到Ceph开开

24、发之中,使使其能适用于于生产环境。Ceph的的主要目标是是设计成基于于POSIXX的没有单点点故障的分布布式文件系统统,使数据能能容错和无缝缝的复制。22010年33 月,Liinus TTorvallds将Ceeph cllient合合并到内 核核2.6.334中。IBBM开发者园园地的一篇文文章探讨了CCeph的架架构,它的容容错实现和简简化海量数据据管理的功能能。Lustre HYPERLINK t _blank Lustre是是一个大规模模的、安全可可靠的,具备备高可用性的的集群文件系系统,它是由由SUN公司司开发和维护护的。该项目主要的目目的就是开发发下一代的集集群文件系统统,可以支

25、持持超过100000个节点点,数以PBB的数据量存存储系统。GlusterrFSGlusterrFS 是一一个集群的文文件系统,支支持 HYPERLINK t _blank PB 级的数据量量。GlussterFSS 通过 RRDMA 和和 TCP/IP 方式式将分布到不不同服务器上上的存储空间间汇集成一个个大的网络并并行文件系统统。PVFSPVFS 是一一个高性能、开源的并行行文件系统,主主要用于并行行计算环境中中的应用。特特别为超大数数量的客户端端和服务器端端设计。模块块化结构设计计,可轻松的的添加新的硬硬件和算法支支持。PVFS 侧重重高性能访问问大数据集,包包含一个服务务器进程和客客户

26、端开发库库,完全基于于用户级代码码编写。特征:基于对象的设计计思路 Optimizzed foor reggular stridded acccess 独立数据和元数数据的存储 优化的 MPII-IO 支支持 多种网络支持 无状态的服务器器 用户级的实现方方案 系统级接口 可在很多 Liinux 版版本上构建 支持多数平台,包包括 IA332, IAA64, OOpteroon, PoowerPCC, Alppha, aand MIIPS 大数据与关系型型数据库是否否水火不容?NO在大多数IT观观察家的眼里里,大数据通通常是指那些些规模大到难难以用传统关关系型数据库库处理的数据据集。但随着着大

27、数据时代代的到来,越越来越多的数数据库并非建建筑在“关系”之上,且具具有更高的可可扩展性。那那么,大数据据与关系型数数据库是否水水火不容?MMariaDDB的创始人人之一Monnty Wiideniuus驳斥了这这个观点。一直以来,人们们都认为 HYPERLINK t _blank 大数数据和NoSSQL数据库库是天作之合合,而 HYPERLINK t _blank 关系型型数据库则被被打上OUTT的标签,但但有一位数据据库老兵并不不这么认为。在大多数IT观观察家的眼里里,大数据通通常是指那些些规模大到难难以用传统关关系型数据库库处理的数据据集。虽然今今天关系模型型和SQL依依然是数据库库世界

28、的统治治者,但随着着大数据时代代的到来,越越来越多的数数据库并非建建筑在“关系”之上,且具具有更高的可可扩展性。那么,大数据时时代关系型数数据库何去何何从?最近MMySQL HYPERLINK t _blank 开开源数据库最最初版本的开开发者,以及及MySQLL社区开发分分支版本MariaaDB的创始始人之一Moonty WWideniius接受RReadWrrite的采采访,他驳斥斥了大数据与与SQL数据据库水火不容容的常见观点点。以下是对对Widennius的采采访实录,摘摘录如下:问:您能NoSSQL和大数数据的历史吗吗?为什么它它们会成为人人们热议的话话题?答:所谓的“新新NoSQL

29、L运动”的起源来自自三年前Twwitterr一位员工的的博客,此人人在博客中称称MySQLL不够好,他他们需要更好好的数据库技技术,例如CCassanndra。其实Twittter当时在在MySQLL上遇到麻烦烦是因为他们们没有正确使使用。奇怪的的是, HYPERLINK t _blank Twiitter给给出的问题解解决方法在CCassanndra和MMySQL里里都能轻松实实现。这篇文章的原文文已经找不到到了,但可以以参考这篇随随后的文章“MySQLL将被Casssandrra替代”。目前的情况是这这样:三年过去了,TTwitteer还在用MMySQL存存储它最宝贵贵的资产推文。Caas

30、sanddra最终也也没能取代了了MySQLL。NoSQL流行行的原因是,与与SQL相比比,NoSQQL非常容易易上手,你不不需要任何设设计就能开始始使用它。但但这也是有代代价的,很快快你就会发现现对数据失去去了控制(如如果你不是足足够小心的话话)。所以,大多数NNoSQL解解决方案的优优点(在MaariaDBB出现之前)是是: 快速访问数数据(只要你你舍得把文件件都丢进内存存) 快速复制/多个节点的的数据扩展 弹性架构(可可以快速增加加新的列)问:大数据(技技术)能帮人人们解决什么么问题?更高性能和更灵灵活的架构是是推动NoSSQL发展的的两大动力。问:你个人怎么么看待大数据据,有什么预预测

31、吗?我觉得大多数看看好NoSQQL的用户都都是跟风者。大多数公司司根本没有像像Facebbook和GGooglee那么大规模模的数据,而而且他们其实实也根本就支支付不起优化化和持续开发发数据库所需需的专家人力力成本。SQL不会消亡亡。NoSQQL无法取代代它。因为几几乎所有人都都需要关系型型数据库来管管理数据。眼下NoSQLL也有其用武武之地。我认认为未来将更更多的是SQQL和NoSSQL的混合合应用。问:为什么人们们还在使用NNoSQL?主要有哪些些原因?因为NoSQLL上手很容易易。你甚至不不需要学习SSQL,使用用前也不需要要定义数据库库架构。当然然也有一些人人使用NoSSQL是因为为比

32、SQL的的扩展性更好好。问:SQL在性性能上能超过过NoSQLL吗?SQLL哪些方面由由于NoSQQL?只要数据不能载载入内存,SSQL通常性性能都超过NNoSQL。同样的,NoSSQL相比SSQL还存在在很多不足之之处,例如大大多数NoSSQL方案都都是为单一键键值访问(ssinglee key accesss)优化的的。对于更复复杂的事情来来说,你必须须编写专门的的程序,而且且性能与SQQL无法相比比,尤其是那那些需要自动动响应用户请请求的服务(大大多数网站提提供的服务)在单机上的性能能表现,NooSQL通常常都不是SQQL的对手。在集群环境境中,当所有有数据都载入入内存,NooSQL在键

33、键值查找的速速度上通常会会比SQL快快。大数据探讨:如如何整理17700亿条TTwitteer发布信息息?截至目前,美国国国会图书馆馆所保存的TTwitteer信息数量量已达到17700亿条、存储文件体体积更到达1133TB由于每一一条信息都已已经在这套社社交网络中分分享及转载,这这么庞大的数数据改如何整整理?随着社交网络蒸蒸蒸日上,美美国国会图书书馆不得不面面对达到1333TB之巨巨的 HYPERLINK t _blank Twittter发布布信息文件;好在经过实实践,他们已已经找到了管管理此类数据据的办法。截至目前,美国国国会图书馆馆所保存的TTwitteer信息数量量已达到17700亿

34、条、存储文件体体积更到达1133TB由于每一一条信息都已已经在这套社社交网络中分分享及转载,图图书馆的技术术团队需要想想办法为用户户拿出切实可可行的检索方方案。在现阶段的项目目报告中,图图书馆管理人人员指出目前前市场上提供供的此类 HYPERLINK t _blank 大数数据管理工具具无法解决他他们的实际困困难。很显显然,现有技技术还只能满满足奖学金信信息等规模化化数据集的访访问需求,而而在创建及发发布此类数据据方面则表现现乏力,馆馆方表示。由于此类任任务的复杂性性及对资源的的极高要求,私私营部门尚无无法拿出具备备合理性价比比的商业方案案。如果私营企业都都难以搞定大大数据管理工工作,那么预预

35、算拮据、全全靠政府资金金支持的非营营利性机构包括全球球最大的图书书馆在内又该如何解解决这一难题题?要拿出一一套实用、经经济、便捷且且有能力处理理1700亿亿条Twittter信息息的索引系统统无异于痴人人说梦。Twitterr曾签署一份份协议,允许许美国国会图图书馆访问该该社交媒体网网站中所发布布的全部更新新信息。馆方方官员坦言,他他们必须建立立一套帮助研研究人员访问问社交平台数数据的系统,因因为随着网络络化交流趋势势的不断普及及,以期刊及及出版物为代代表的传统沟沟通方式已经经被逐渐取代代。国会图书馆杰弗弗逊大厦在Twitteer刚刚诞生生的20066年到20110年间,首首批数据转储储文件为

36、200TB,其中中囊括了2110亿条Twwitterr信息(包括括用户当前位位置及消息描描述等元数据据)。最近,馆馆方刚刚迎来来第二批转储储数据-总总体而言,这这部分副本压压缩文件总体体积为1333.2TB。在此之后,图图书馆将与GGnip公司司展开合作,以以小时为单位位收集全部TTwitteer发布信息息。20111年2月公布布的统计数字字显示,当时时每天经由TTwitteer发布的信信息约为1.4亿条;而而到去年100月,这一数数字已经增长长到约5亿条条。研究人员强烈要要求国会图书书馆尽快开放放数据访问功功能-馆方方称已经接到到超过四百次次此类请求。该项目由图图书馆与Twwitterr双方

37、并行实实施,将为用用户提供Twwitterr使用的历史史记录,能够够逐项列出他他们通过账户户发布过的每每条信息。美国国会图书馆馆在大数据管管理方面算得得上经验丰富富:根据工作作人员的说法法,馆方自22000年开开始就一直在在为政府网站站进行数据归归档整理工作作,数据总量量超过3000TB。然而而Twittter的出现现令归档工作作陷入僵局,因因为馆方实在在找不到合适适的办法保证证信息易于搜搜索。如果继继续使用馆方方长期以来一一直所倚仗的的磁带存储方方案,那么仅仅查询一条22006到22010之间间的Twittter信息息就需要耗费费最多24个个小时-而而这批转储数数据还仅占数数据总量的八八分之

38、一。Twittter信息之之所以难于整整理,一方面面是由于数据据量过于庞大大,另一方面面则是因为每每天都会有新新数据不断加加入进来,而而这种增长速速度仍在不断断提升,官官方指出。此外,Twwitterr信息的种类类也越来越多多样。普通TTwiiteer信息、利利用软件客户户端发出的自自动回复信息息、手动回复复信息、包含含链接或者图图片的信息等等等,这一切切让我们无从从下手。寻找解决方案的的道路是曲折折的。国会图图书馆已经开开始考虑分布布式及并行计计算方案,但但这两类系统统实在太过昂昂贵。要想想真正实现搜搜索时间的显显著降低,我我们需要构建建起由数百乃乃至数千台服服务器组成的的庞大基础设设施。这

39、对于于我们这种毫毫无商业收益益的机构来说说成本过高、根本不切实实际。那么馆方到底该该如何应对?大数据专家家们给出了一一系列参考方方案。就国会会图书馆的情情况而言,技技术团队也许许最好进行分分类处理的方方式,即利用用一款工具处处理 HYPERLINK t _blank 数据存储储、一款工具具负责检索工工作、另一款款则用于回应应查询请求,MMark PPhilliips指出。他既在Baasho担任任社区及开发发推广主管,同同时也是开源源数据库工具具Raik的的创始人(该该工具在键-值存储方面面便利而极具具可扩展性)。大数据管理工具具已经构建起起欣欣向荣的的新兴行业,用用户可以根据据不同的使用用需求

40、与预期期成本选择专专有软件或者者开源方案。国会图书馆馆的技术人员员所面临的最最大问题在于于,他们该如如何开始整套套系统的创建建和管理工作作。如果馆方方希望走开源源的道路,那那么可选的数数据库创建及及管理工具可可谓百花齐放放-从Haadoop集集群到专门针针对高输入/输出读写操操作的Greeenpluum数据库可可谓应有尽有有。二者还能能够与Apaache SSolar一款开源源搜索工具加以整合合。 HYPERLINK t _blank 开源为开发者者们指明了一一条免费获取取源代码的光光明道路,能能够在商业硬硬件上构建起起理想中的系系统成品,然然而采用开源源也意味着我我们需要在后后端开发工作作中

41、投入大量量人力物力。当然,国会会图书馆也完完全可以走更更昂贵但更省省心的专有软软件道路,从从甲骨文或者者SAP这些些业界巨头那那里直接采购购数据库产品品。不过无论采取哪哪种方式,TTwitteer项目中那那硕大无朋的的数据总量仍仍然难以攻克克。不过Phhillipps的态度给给了我们一定定信心。他指指出,虽然TTwitteer目前的数数据量已经达达到133TTB且仍处于于快速增长之之中,但Baasho公司司已经接触过过数据量达到到PB级别的的客户,并且且在自己的平平台上顺利完完成了任务。只要国会图图书馆能够追追踪并总结出出数据库容量量每个月或每每个季度的增增长幅度,并并根据结果为为数据存储配配

42、备充足的硬硬件资源,那那么Bashho的数据库库软件将有能能力解决馆方方的难题。那么使用云方案案可不可行呢呢?从理论上上讲,国会图图书馆可以采采用以Amaazon WWeb Seervicees为代表的的公共云资源源保存这些数数据,而且随随着Twittter信息息总量的不断断增长,AWWS会自动处处理必要的硬硬件扩容工作作。然而在BBasho公公司工程师SSeth TThomass看来,这种种方案的长期期性价比值得得商榷。由于于馆方显然打打算永久保存存这些数据,所所以混合式架架构可能更具具经济效益。也许更好的的办法是将数数据保存在本本地,然后利利用云服务实实现分析功能能。如此一来来,馆方只需需

43、根据搜索量量为响应请求求所投入的动动态资源支付付费用即可,而而终端系统也也只需处理与与请求量相对对应的工作负负载。无论如何,国会会图书馆已经经下决心将这这些Twittter信息息纳入检索体体系。而身为为普通用户,我我们要注意的的则是-只只要更新Twwitterr,信息就会会被记录下来来。畅谈阿里巴巴的的大数据梦2012年111月11日,各各大电商风云云大战,淘宝宝双十一总交交易金额1991亿,订单单1亿零5880万笔。可可以看到,从从数据中掘金金,已经成为为各大互联网网公司的共识识。但在这个个即将到来的的大数据时代代,这些公司司具体将如何何推进呢?本本文带你一起起畅谈阿里巴巴巴的大数据据梦。“

44、为了迎接即将将到来的大数数据时代,各各大互联网公公司都在争分分夺秒。阿里里巴巴在公布布大数据分享享平台之后的的半年中,也也全面启动了了攻势。但即即使是这个行行业的先行者者,离大数据据时代也还有有不小的距离离。”刚刚过去的20012年,秦秦予有个很大大的遗憾,就就是没能招聘聘到自己想要要的数据科学学家,浪费了了公司给的招招人名额。他他是支付宝用用户价值创新新中心的负责责人。这个中中心是支付宝宝大数据业务务的核心部门门。阿里巴巴20112年的进人人指标只有2200个,具具体到支付宝宝公司,基本本是只出不进进,只有秦予予所在的部门门得到了难得得的两个进人人名额。但她她只招到了一一个合适的。事实上,各

45、大互互联网公司都都在寻找这样样的人。腾讯讯网络媒体事事业群总裁刘刘胜义20112年年中就就公开表示:随着用户各各类数据的累累积,大数据据时代已经来来临。腾讯各各大产品线中中都拥有自己己的数据挖掘掘团队。而腾腾讯最新财报报显示,QQQ用户数接近近8亿人,活活跃用户数近近2亿人。阿里集团20112年7月110日就已宣宣布,设立首首席数据官岗岗位(CDOO),负责推推进“数据分享平平台”战略。同日日,阿里发布布“聚石塔”平台,为天天猫、淘宝平平台上的电商商及电商服务务商等提供数数据云服务。阿里巴巴集团表表示,如何挖挖掘、分析和和运用这些数数据,并和全全社会分享,是是这个战略的的核心所在。阿里巴巴是是

46、年交易额过过万亿元的中中国最大的电电子商务平台台,目前有两两万人左右,其其中近千人从从事数据业务务工作。可以看到,从数数据中掘金,已已经成为各大大互联网公司司的共识。但但在这个即将将到来的大数数据时代,这这些公司具体体将如何推进进呢?“离大数据时代代还有不小距距离”秦予要找的并不不是一般的数数据分析师。“国内不缺数据据挖掘人才,但但很难找到数数据科学家。”秦予对南方方周末记者说说,秦予的团团队有7个人人,他们在支支付宝内部被被称为“数据科学家家”。一般的数据分析析师是根据支支付宝的各种种数据进行分分析,给公司司决策层和各各个业务部门门提供咨询支支持。这也是是目前很多公公司都设有的的商业智能部部

47、的主要职能能。但数据科科学家们做的的事情是开发发出具体可以以销售的商用用化的大数据据产品。所谓大数据,一一般是10000T以上的的数据,如果果按照一般机机器配置,相相当于4000台到5000台电脑。对对这些数据信信息的商业化化开发就是大大数据产业链链。大数据时代一书中提到到,未来,数数据将会像土土地、石油和和资本一样,成成为经济运行行中的根本性性资源。数据据科学家被认认为是下一个个十年最热门门的职业。而大数据跟个人人最为密切的的关系是对隐隐私的可能侵侵入。比如,亚亚马逊监视着着我们的购物物习惯,谷歌歌监视着我们们的网页浏览览习惯,微博博似乎对我们们和我们朋友友的关系无所所不知,QQQ圈子能给你

48、你推荐你不愿愿意再见面的的某个女生的的照片和动态态信息。秦予是从美国归归国的计算机机模拟博士后后,在摩根大大通和汇丰银银行工作过多多年,20110年加入支支付宝公司,负负责支付宝和和淘宝集市的的大数据业务务。支付宝公公司拥有中国国仅次于银行行业的个人数数据信息。“阿里巴巴有海海量的数据,对对于做大数据据的人来说,阿阿里巴巴是中中国最好的平平台,很吸引引人。因为我我的金融背景景所以选择支支付宝。”秦予对南方方周末记者说说。回国进入大数据据行业之后,秦秦予参加了很很多大数据的的论坛和研讨讨会,她最大大的体会是,看看到的新东西西很少。“别说大数据,连连小数据都很很少。现在很很多公司说的的大数据,大大

49、都是数据的的搜集和整理理。这是底层层的工作。”秦予说,“中国离大数数据时代还有有不小距离。”即使是作为国内内大数据业务务的先行者阿阿里巴巴,其其大数据业务务发展也依然然是分散在各各个子公司,并并在20122年下半年才才开始推出少少量的商用产产品。 “从人出发,先先去找人”支付宝曾经在八八年前公司成成立第二天就就建立了数据据部门,但真真正有大数据据业务,是在在2010年年的事情。正正是那时候,支支付宝从招商商银行信用卡卡中心招来一一批专业的金金融人才。秦秦予也是那时时候加入支付付宝的。“金融行业的大大数据业务已已经很成熟了了。”秦予说。支付宝的数据科科学家每天做做的工作就是是,把客户分分成50个

50、族族群进行研究究。比如,细细分出都市轻轻熟男群体,这这个群体的特特征是每次买买的不贵,均均价七八十元元,收入中等等,但很喜欢欢在网上买东东西。还有一个族群被被称作“千金美少女女”,其特征是是收入并不高高,但家里有有钱,买得多多,买得贵。按照分群研究的的思路,秦予予的团队把淘淘宝、天猫、支付宝和聚聚划算的用户户做系统研究究,通过观察察他们喜欢看看什么媒体,上上什么网,来来“生动地”知道用户是是个怎样的人人,进而推荐荐商品供用户户购买。能识别用户之后后,在写商品品推荐文字的的时候,不再再是过去那样样千篇一律地地使用“亲”作为开头。“今天很多网站站犯的错误就就是,根据个个人购买记录录,推荐一个个类似

51、的产品品。其实用户户很可能买过过了。用户要要的是你给他他推荐一个跟跟他相似的人人买的东西。”秦予对南方方周末记者说说,以前的数数据研究思路路是从产品出出发,大数据据时代是从人人出发,先去去找人。支付宝发展大数数据业务,目目前主要是为为内部服务。比如,过去去支付宝很重重视新客户的的获取,但后后来发现开账账户的人多,关关账户的人也也不少,通过过数据分析,支支付宝建立了了一个流失预预警模型,预预测每一个人人未来三个月月是否会离开开支付宝,并并对潜在的流流失用户做一一些唤醒。“支付宝是准金金融行业,数数据比较敏感感,涉及用户户隐私,还没没有到开放的的阶段。”秦予对南方方周末记者说说,支付宝非非常忌讳提

52、供供商用化产品品给商户,很很多合作方惦惦记着的是支支付宝的数据据,但这是支支付宝的高压压线。“支付宝发展大大数据的目的的,跟淘宝和和天猫有点偏偏差。我们更更多地是为内内部服务,淘淘宝和天猫更更多地强调商商业化。”秦予对南方方周末记者说说,阿里巴巴巴集团的大数数据业务商用用主要是淘宝宝平台的几个个公司在推进进。 “数据分享平台台”战略淘宝平台的数据据大概可以分分成三块,一一是离线的数数据,比如什什么地方的人人最爱吃大闸闸蟹。另外一一些在线数据据,主要是图图片,淘宝一一些大的卖家家都把图片存存在淘宝里面面。还有一些些信息是用户户的淘宝收藏藏夹。2010年3月月,淘宝宣布布将面向全球球首度开放数数据

53、,并制定定了两条大原原则:数据分分层次开放;涉及消费者者个人或者企企业隐私的数数据绝对保护护。淘宝的数据开放放一是对公众众的免费信息息,比如推出出类似于宏观观经济数据的的“淘宝指数”。商家可以以根据以往的的销售信息和和“淘宝指数”进行生产、库存决策。对于大众来来说,淘宝的的数据发布就就像是统计局局和价格监测测机构的功能能,淘宝指数数相当于行业业和宏观经济济的各项指标标。作为针对企业的的数据开放的的商用产品,淘淘宝推出了数数据魔方产品品,通过淘宝宝数据魔方平平台,商家可可以直接通过过数据魔方产产品获取行业业宏观情况、自己品牌的的市场状况、消费者行为为情况等,但但是不能获得得竞争对手的的数据。20

54、11年4月月,数据魔方方正式上线。在“店小二”的推广下,林林氏木业成为为第一批使用用者。林氏木木业是一家完完全依靠互联联网平台销售售家具的电商商公司。该公司一位市场场推广人员对对南方周末记记者介绍了数数据魔方的具具体运用过程程:依据数据据魔方关于热热词的各项数数据变化,及及时调整优化化商品标题,提提高宝贝排名名,进而获取取更多流量,提提高销量。以销售面膜为主主的素野天猫猫旗舰店的运运营经理陈林林告诉南方周周末记者,素素野选择数据据魔方专业版版本,支付33600元/年的费用,除除魔方外,还还可以使用量量子恒道(淘淘宝官方推出出的一款免费费数据分析工工具)。“数据魔方带来来的更多是虚虚的概念,对对

55、流量、销售售额这种具体体指标意义不不大。”陈林说。2011年6月月,淘宝一分分为三,变成成天猫、淘宝宝集市和一淘淘网。这之后后,淘宝系的的 HYPERLINK t _blank 大数据发展的的主要任务放放到了商家已已经形成了付付费习惯的天天猫平台。目目前天猫的主主打大数据商商用产品是聚聚石塔。2012年7月月,阿里巴巴巴集团的“聚石塔”正式发布,“数据分享平平台”战略全面展展开。聚石塔塔是阿里巴巴巴首次联合全全集团大数据据力量打造的的一款大数据据商用产品。其中,天猫猫及淘宝网主主要负责寻找找合作伙伴,发发展商家,阿阿里云负责提提供云主机,万万网负责客户户服务。同时,阿里巴巴巴B2B公司司CEO

56、陆兆兆禧出任集团团首席数据官官岗位,向CCEO马云直直接汇报。马马云在聚石塔塔发布的时候候宣布了阿里里集团未来新新战略:平台台、金融、数数据。聚石塔提供数据据存储、数据据计算两类服服务。根据官官网上的指导导价格,若需需要内存为11200M、50G容量量的数据存储储服务,优惠惠价为60990元/年;如果购买英英特尔双核处处理器、内存存4G、硬盘盘500G、带宽5M的的弹性托管服服务,价格约约在77000元/年。广州衣酷服饰有有限公司的运运营总监敬小小虎对南方周周末记者表示示,他们公司司是20122年9月开始始使用聚石塔塔服务的,正正好赶上 HYPERLINK t _blank “双十一”大促销,

57、两天天之内发完了了所有的货,总总共3万多票票。他负责该该公司在天猫猫上的店铺皓皓盾天猫旗舰舰店的运营。“没有这个软件件,半个月都都发不完这些些货。”敬小虎对南南方周末记者者说,如果按按照20111年没有加入入聚石塔时候候的“ HYPERLINK 双十一 双十一”销售情况,光光把订单人工工下载下来就就花费了三五五天时间。而而且还出现过过很多漏单和和重复下载问问题。不过,敬小虎表表示,如果店店铺一天的销销量能做到5500票以上上,购买聚石石塔服务比较较划算,否则则软件买下来来除了应对“双十一”这样的大促促销,基本就就闲置着。 平台后的产业链链阿里巴巴公布的的信息显示,自自2012年年7月10日日聚

58、石塔发布布以来,已有有十多万的商商家入驻。聚聚石塔的订单单覆盖率,110月中旬的的数字是200%。2012年“双双十一”购物狂欢节节,是对天猫猫大数据发展展的一次检验验。据天猫官官方数据显示示,狂欢节大大促当天,聚聚石塔内系统统处理的订单单超过天猫总总量的20%,比平时增增长20倍。又一城公司是首首批进入聚石石塔服务器项项目的软件IIT企业。又又一城公司的的销售人员赖赖活龙对南方方周末记者表表示,有 HYPERLINK 系统 ERRP系统的商商家可以直接接找天猫,没没有ERP系系统的商家,只只能找像又一一城这样跟天天猫有合作的的软件商,让让软件商帮忙忙接入聚石塔塔服务。又一城和阿里巴巴巴的合作

59、模模式是,又一一城基于聚石石塔开发的软软件,对接淘淘宝和天猫等等阿里系公司司的后台系统统,包括订单单信息、商品品信息、会员员信息、财务务信息、物流流信息和库存存信息。赖活龙对南方周周末记者透露露,最近半年年,他的重点点一直是推销销聚石塔产品品,一开始很很多商家听到到是推销软件件产品的电话话就会按掉电电话,现在的的情况好多了了,不少商家家主动打电话话来了解情况况。“这跟天猫的宣宣传很有关系系,另外就是是双十一检验验了产品的价价值。”赖活龙说。赖活龙也承认,商商家加入聚石石塔之后,最最直观的改变变是订单处理理的效率提高高了,以前从从淘宝平台下下载订单,一一分钟能下载载200单,现现在至少20000

60、单。但但销售额并没没有太大改变变。越来越多的商家家被迫参与到到大数据产品品的购买中来来。因为促销活动越越来越多,参参加的话,IIT系统往往往跟不上,造造成错单配送送等问题,中中差评接踵而而至,动态评评分直线下降降,销量跟着着下降,所以以只能是购买买聚石塔服务务。不参加的的话,没有流流量,没有销销售额。“如果商家不跟跟着淘宝走,就就会受到冷落落,你进来了了,碰到双十十一这样的活活动,天猫会会看你是否加加入了聚石塔塔,如果没有有加入,你报报名的资质能能否通过是个个大问题。”赖活龙说。Twitterr利用Stoorm系统处处理实时大数数据Storm 是是一个开源的的、大数据处处理系统,与与其他系统不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论