




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据生态系统概念组成(一)大数据生态系统的提出大树据时代已经到来,人们对于大数据对整个社会所起到的推动作用已经逐步认识到,但大数据的应用需要整个系统的运作,需要数据的获取渠道,数据的分析工具,数据分享的平台,数据分析人员等。因此,大数据要得以应用发展,必须建立大数据生态系统。随着大数据相关企业的迅速崛起以及社会对大数据信息的需求推动,大数据产业正在逐步形成一个完整的体系,从数据产生到数据输出的全过程,各个环节环环相扣,这一过程称之为大数据生态系统。IBM架构师对大数据生态系统进行了简单描述,提出大数据生态系统就是数据的生命周期,即数据采集、存储、查找、分析和可视化的过程。(二)大数据生态系统的组成结构CTOCTO发布的大数据生态图谱"将数百家大数据公司和IT企业从产品和商业模式划分为2种,从中我们可以看到大数据的生态结构,以及其中各个环节的发展状况和市场热点)从图谱上来看,大数据产业可以划分为*大类:大数据基础设施&大数据分析类&大数据应用类&大数据数据源类&跨基础设施分析&开源软。大数据的概念目前被炒得非常火暴,但大数据应用还不甚成熟,大数据市场仍处于初级阶段,但大量的创业者已经涌入其中,不少企业经历了失败,但也有不少企业取得了可观的成果。在竞争过程中,市场在逐步走向整合,IT巨头在现阶段已经开始了收购大战,市场在竞争中,逐步走向成熟,大数据的价值即将接受实践的检验。三)大数据生态系统的构建措施大数据生态系统的构建对于企业的未来发展具有决定性的作用,未来市场竞争将更趋于信息化科学化,企业决策将依靠大量的量化信息。当然要建立大数据生态系统需要耗费企业大量的资源,由于目前技术还不是很稳定,整个社会的数据环境还不甚好,企业构建大数据生态系统存在较大的风险)但提前做好准备,为未来搭建一个坚实的基础是很有必要的。首先,要培养企业的数据文化,建立数据思维模式,充分理解数据作为一种资源对企业的重要性。从发现问题,查找数据,解决问题的思维,逐步转向使用数据进行预测,找出最优实现方案的思维模式。其次,开拓企业数据获取渠道,随着大数据时代到来,企业需要收集的数据类型将不再局限于关系型数据,更多的是非结构化的数据,例如电子商务网站、网上银行和外部社交媒体网站等。将各种渠道的数据进行整合,突破传统数据壁垒,构建企业全面的数据信息视图)最后,加强对数据资源的管理,数据作为企业的资产,应对其进行维护,管理大师汤姆彼得斯曾说过:一个组织如果没有认识到管理数据和信息如同管理有形资产一样重要,那么它在新经济时代将无法生存。因此,对于数据的管理,应与资产管理一样,能够做到确认、计量、记录、归档、销毁。对于数据资源的确认首先要对数据资产作出明确的定义及其确认标准,符合确认条件的数据资源是能够引起经济利益流入的资产,在满足资产的一般定义的情况下,同时要结合数据资源自身的特征。其次,数据资源的确认要进一步细化,对其进行归类,分类的标准多种多样,比如依据数据描述的对象进行初步分类,之后再按照关系密切程度进一步分类等等。总之,按照企业的业务需要,对数据资源在确认的基础上,进一步分类,既有利于企业的数据资源的管理和核算,而且可以提高使用效率。数据资源的计量是数据作为资产所必不可少的一步,对此企业可建立自身的价值评估体系,对数据的价值加以衡量。另外,信息技术的发展为大数据生态系统的建设带来了广阔的前景。大数据生态系统构建过程中,一大难题是基础设施的高投资额,这使得企业不得不考虑大数据生态能够为企业带来多大的收益,然而目前大数据的应用还在初级阶段,前景还不是很明朗的情况下,企业只能驻足观望。然而云计算的发展,以及与此相关的云服务产业为这一难题的解决带来了极大的可能性。云服务包括三个层级的服务,基础设施服务、软件研发平台服务、租用基于web的软件服务,云服务为未来大数据技术的应用提供了一种渠道,通过云服务可以节省大量的资金,降低企业风险,提高使用效率。对于小型企业,通过云服务可以在大数据时代获取更大的利、人益。(四)大数据处理生态系统构建随着大数据和分析在企业应用的深入,面临的问题和挑战也越来越多,主要有如下方面:第一,对大数据和分析平台的企业级应用的可靠性、稳定性、安全性要求会越来越高;第二,大多数企业级用户都面对着极为复杂的行业应用场景,不同类型和来源的数据需要统一地被利用,在系统较多的企业中,如何对数据进行集成管理是很大的问题,特别是新的大数据方案如何与传统的数据仓库无缝集成;第三,大多数企业级客户还处于对大数据和分析的探索初期,对于新问题的初判和解决经验不足。对于企业来说,随着系统的复杂性上升,最为迫切也是最为重要的问题是,如何将不同来源、不同结构的数据通过系统整合到一个平台。在这个平台上,全面涵盖大数据和分析的各个应用,采用统一架构,集成到一个系统。在这个系统上,建立全面覆盖各种复杂行业应用场景的企业级大数据和分析应用解决方案,如静态批量大数据处理、实时大数据业务处理、数据仓库整合和数据集市构建等,对于这些大量异构数据系统,整合的标准是一个非常关键的问题。同时企业又在不断发展,未来要部署包括电商、移动商务、社交网络等新的应用,都需要在这个统一的平台上展开。以上所有的应用,构成了一个大数据的生态系统。(五)大数据生态分析技术1.5.1大数据生态分析技术的机遇与挑战快速捕获即时数据,创造高速价值大数据最大的特点是数据的产生速度非常快,每时每秒可以产生很多的数据。例如,每分钟facebook上的视频就可以多产生390万部,大数据的产生速度是不可想象的。据调查,53%的高管表示大部分关键信息无法及时获得,获取信息的速度越快,采取行动的速度也就越快,快速行动创造的价值越高,数据的使用
和分析效率真高,企业为实现卓越的运营,需要快速捕获高的便捷,速运转。行中的大数据,更加迅速地计算分析数据,将数据转为信息,信息转为洞察,实时推进业务措施,立即采取行动,从而提升企业竞争力。在这里还有一点,当企业捕获的数据越来越多,需要分析的数据量越多,需要对数据进行评判,这个数据的重要性是怎样的,有的时候需要评判这个数据的价值是多少。通过更智能的方法,对数据加以筛选,对数据进行实时的判断,提炼出有价值的数据,最终将高速数据转化为高速价值,体验即时数据以及数据处理给我们带来进而实现实时大数据的美好前景,如图1所示:的便捷,务价务价图1.1:大数据业务价值与响应时间关系1.5.2如何对异构数据的处理当今企业在发展中积累的新信息来源越来越广泛,企业应用不再是唯一的信息来源,数据来源还可以来自传感器,有的是来自网络线上交易,有的是来自消费者行为,有的是来自智能手机或者是移动设备,这些设备变得日益智能化和互联,智能设备将从2013年的13亿部增长至2020年的125亿部,非结构化数据将超出传统数据多个数量级。总体来说数据来源可以分为人为生成、互联网/云生成、机器生成这几种类型,这些不同源头的数据的格式也不一样,我们必须用有效的方式高速捕获、组织和分析。对于那些已经规模较大,系统环境高度异构的企业而言,数据越来越发挥其重要资产的作用,如何在架构整合方面有所举措,从全局的角度促进数据整合,将不同来源、不同类型的数据整合到一起同,对数据搜集、管理、分析与挖掘等领域都对技术与系统提出了更高的要求,使得数据能够为企业所用。以前,数据都是分散在各个业务系统,在大数据时代,企业需要考虑如何打破系统的边界,把不同来源的数据整合在一起,企业不仅关注外部数据源对企业的价值,也需要关注消费者的情绪如何、对企业的评价如何,互联网、微博等就是很好的信息获取渠道,怎样把结构化、半结构化、非结构化数据整合,怎样把微信、微博等非结构化数据植入商务分析,将虚拟数据和业务数据结合起来,这些外部数据源对企业也具有十分重要的意义。如何整合架构,将异构数据整合到一个系统,并在此基础上,实现业务系统和分析系统的一体化,加速并分析大数据,满足企业的实时业务需求和分析需求,是目前亟待解决的技术难题。1.5.3大数据分析和处理技术的发展正因为大数据所呈现的新的特点(4V),大数据的意义并不仅仅在于“容量之大”,其更大的意义在于通过对海量数据进行整合和分析,发现新知识,创造新价值。传统的数据分析方法和工具已不适应大数据的管理,大数据不同于普通的数据仓库、数据挖掘和商业智能分析,如没有恰当的大数据分析工具,大数据将无法发挥其价值。大数据多样、高速、海量的特点从各个领域推动着行业的技术创新,给数据的抓取、存储和分析带来了新的挑战,工具、开源以及框架设施对于大数据行业来说非常重要,开源包括软件和硬件的开源。当前,较为成熟的技术是通过采用分布式计算模式实现,如当前IT业的巨头(如谷歌等)MapReduce的云计算模型以及Hadoop的开源方案。Hadoop已经成为新的主流范式,而十几年前用的软件开发范式已经不适用了。之前几年的软件开发范式只适合处理结构化的数据,面对非结构化的数据,Hadoop是主流。Hadoop有一个有效的框架,可以处理非结构的数据,尤其是处理分布式数据。其中,Hadoop是一种分布式系统的平台,通过它可以很轻松地搭建一个高效、高质量的分布系统,有着高容错性的特点,并且设计用来部署在低廉的硬件上。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台oMapReduce是Hadoop的核心组件之一,可以通过MapReduce很容易在Hadoop平台上进行分布式的计算编程。1.5.4大数据处理生态系统构建随着大数据和分析在企业应用的深入,面临的问题和挑战也越来越多,主要有如下方面:第一,对大数据和分析平台的企业级应用的可靠性、稳定性、安全性要求会越来越高第二,大多数企业级用户都面对着极为复杂的行业应用场景,不同类型和来源的数据需要统一地被利用,在系统较多的企业中,如何对数据进行集成管理是很大的问题,特别是新的大数据方案如何与传统的数据仓库无缝集成;第三,大多数企业级客户还处于对大数据和分析的探索初期,对于新问题的初判和解决经验不足。对于企业来说,随着系统的复杂性上升,最为迫切也是最为重要的问题是,如何将不同来源、不同结构的数据通过系统整合到一个平台。在这个平台上,全面涵盖大数据和分析的各个应用,采用统一架构,集成到一个系统。在这个系统上,建立全面覆盖各种复杂行业应用场景的企业级大数据和分析应用解决方案,如静态批量大数据处理、实时大数据
业务处理、数据仓库整合和数据集市构建等,对于这些大量异构数据系统,整合的标准是一个非常关键的问题。同时企业又在不断发展,未来要部署包括电商、移动商务、社交网络等新的应用,都需要在这个统一的平台上展开。以上所有的应用,构成了一个大数据的生态系统。这个生态系统应具备以下特点,如图2所示:无需准备数据,无需预先聚合,无需调优图1.2:大数据生态系统特点(1)高度整合的实时数据平台对于现代企业来说,随着业务应用范围的广泛深入、企业积累的数据类型越来越多,包括结构化和非结构化数据,交易数据与非交易数据,数据量呈几何级次激增,甚至达到Z、Y级,如何高效地捕获和分析这些大数据,是企业广泛关注的事情,企业亟需一个平台,可以捕获和管理大数据的所有维度,整合数据孤岛,将不同来源、不同类型的数据库,通过整合的开发环境,在技术架构基础上,通过单一系统实现大数据并行计算列式平台管理把ERP的业务数据、半结构化、非结构化的数据整合到一个系统,直接在整个数据平台建模、计算、分析、预测,再借助BI进行图形化展示。所有可使用数据的人,实时获得分析结果,如财务数据,你只需用自然语言输入查询条件,系统提供实时解决方案,像花瓣一样呈现。在这样的平台,能够快速、高效地捕获并整合海量多元化的任意数据,实现快速分析处理海量信息,实时进行商业决策,实现业务系统和分析系统的一体化,能够同时满足企业的实时业务需求和分析需求,不但降低了企业对服务器等硬件的需求,还减少了数据从业务系统到分析系统过程中所需的数据抽取、清洗等操作,大大提高了效率。(2)基于云的生态系统构建2012年是中国的大数据元年,云计算概念的争论渐渐平息,而大数据的热潮随之到来。随着大数据的到来,大家对云计算的“中国梦”开始有了更清晰的认识,云计算如何落地为雨,成为2013年中国云计算的主旋律。对于大部分企业而言,“云计算之旅”都将是一场速度与耐力的较量,关键是部署的灵活性。如何在整个价值链中获得出色竞争优势,快速分析数据,发现并响应业务网络中的各种变化,借助广泛的托管功能选择,从高度安全的环境和云技术的经济优势中获益,是每个企业所要达到的理想效果。大数据时代,云计算所发挥的主要作用是为大数据提供按需服务,主要体现在云存储、云计算、私用云、公有云的服务方面,将云共享的思想应用于企业,主要有有几种主要方式,其中一种就是嵌入式企业原有平台的OEM方式,包括移动平台、商务分析平台和数据库平台等。另一种方式是托管私有云服务的方式,那就是构建一个充满活力的生态系统,为企业提供选择上的自由,既可以选择在企业本地来搭建这个平台,也可以享受在云端来实现这个服务,实现从本地向云端的迁移。充分利用与企业原有的ERP核心系统的无缝集
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论