版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代,泽佳助力企业发展大数据时代,泽佳助力企业发展1@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第2页什么是大数据@2013北京泽佳公司版权所有Copyright©2012@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第3页数据无处不在任何时间,任何地点,任何事情,任何人?Anytime,anywhere,anything,anyone?休息中,随意刷微博爬山时,记录每一瞬间旅途中,处理公司事件工作时,实时掌握市场动态@2013北京泽佳公司版权所有Copyright©2013@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第4页大数据时代已经来到每分钟都有大量数据产生1min486笔订单(2012年11月)7.3万笔交易数(2012年双11)1.1GB文件下载9.5万条微博发送14万张照片上传70TB处理数据@2013北京泽佳公司版权所有Copyright©20134@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第5页互联网中的大数据Web3.0时代,社交媒体网站数据出现井喷式激增,截至2013年3月底,新浪微博注册用户数增长到5.36亿,日均活跃用户数达到4980万,每日新增微博约2亿。企业在大数据时代,面临文化、战略、组织、流程、信息化、公共公关系、人才培养方方面面的挑战,同时也迎来重大的转型机遇和飞跃契机。@2013北京泽佳公司版权所有Copyright©2015@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第6页互联网中的大数据
大数据在消费IT领域的作用更加明显。只要你用PC上网或手机浏览信息,你便在网络上处处留照了,性别、年龄、爱好、踪迹、信用等等便被大数据刻画的一览无余,恭喜你已经成为数字透明人了!可能你都不知道自己下一步要干什么,产品经销商借助搜索引擎、电子商务平台、旅游网站的数据根据你的浏览行为已经在为你张罗生日、餐饮、旅游、结婚、生子、购房、购车了,特价机票、婚纱、尿不湿、奶粉、海景房等广告已经为你编排好了。大数据在消费IT领域的作用更加明显。只要你用PC上网或手机浏览信息,你便在网络上处处留照了,性别、年龄、爱好、踪迹、信用等等便被大数据刻画的一览无余,恭喜你已经成为数字透明人了!可能你都不知道自己下一步要干什么,产品经销商借助搜索引擎、电子商务平台、旅游网站的数据根据你的浏览行为已经在为你张罗生日、餐饮、旅游、结婚、生子、购房、购车了,特价机票、婚纱、尿不湿、奶粉、海景房等广告已经为你编排好了。@2013北京泽佳公司版权所有Copyright©2016@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第7页企业IT进入2.0时代随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;@2013北京泽佳公司版权所有Copyright©2017@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第8页大数据的特性
V
V
V
V价值Veracity体量Volume多样性Variety速度Velocity68%31%来源多;格式多:大数据包括结构化数据和非结构化数据,邮件,Word,图片,音频信息,视频信息。最新研究报告,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。价值密度低,犹如沙里淘金,海量业务中寻找价值。1秒定律,实时获取所需要的数据,为决策提供依据。@2013北京泽佳公司版权所有Copyright©20138@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第9页企业大数据的挑战业务数据的映射提取大数据价值大数据隐私大数据分析@2013北京泽佳公司版权所有Copyright©20139@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第10页泽佳建议企业大数据解决方案@2013北京泽佳公司版权所有Copyright©20110@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第11页大数据基础架构要求可预测的低延迟高事务参数灵活的数据结构获取组织分析决策高吞吐量就地准备所有数据源和结构深度分析敏捷开发高度可伸缩性实时流数据运营影响@2013北京泽佳公司版权所有Copyright©201311@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第12页泽佳大数据解决方案,以数据融合、综合处理为方向大交易数据大交互数据大交易融合大数据处理企业供应链消费者SNS互联网物联网移动终端OLTP实时交易处理OLAP实时分析处理SOCIALMEDIADATAOTHERINTERACTIONDATAMachine/DeviceSensors/meters/RFIDtagsCDR/mobileSD,MM,PP,SD,FICO。。。@2013北京泽佳公司版权所有Copyright©201312@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第13页泽佳大数据解决方案整体架构企业内外部协同(供应商+企业内部+客户+银行+税务+政府+社区+…)外部信息(社交+电商+移动+视音频+…)开放式API和协议通用的设计和模型环境通用数据管理环境交易数据管理社交数据管理移动数据管理主数据管理内存数据管理企业数据仓库管理数据存储数据获取数据组织数据分析数据展现无线数据管理信息管理和实时数据迁移联合访问实时大数据平台门户数据分析电子邮件办公软件大屏幕电脑桌面移动终端企业级报告工具Adhoc即时查询例外分析非结构化数据探索预测与挖掘@2013北京泽佳公司版权所有Copyright©201313@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第14页泽佳大数据解决方案体系数据多样性模式动态模式HDFS分布式文件系统Hbase分布式列存储系统SybaseESP事件流处理器HdoopMapReduceBigDataConnectorsYounghongBI获取组织分析决策复杂场景处理实时决策ETLEDW@2013北京泽佳公司版权所有Copyright©201314@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第15页一般企业数据处理平台的基础架构@2013北京泽佳公司版权所有Copyright©201315@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第16页泽佳大数据解决方案基础架构门户泽佳大数据平台快速、可靠大屏幕电脑桌面电子邮件SCMCRMERP数据分析人员办公软件移动终端安全,部署,管理灵活体系MESPDM@2013北京泽佳公司版权所有Copyright©201316@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第17页泽佳建议企业大数据解决方案基础架构图@2013北京泽佳公司版权所有Copyright©201317@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第18页应用层数据分析@2013北京泽佳公司版权所有Copyright©201318@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第19页视频存储@2013北京泽佳公司版权所有Copyright©201319@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第20页离线日志分析@2013北京泽佳公司版权所有Copyright©201320@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第21页在线数据分析@2013北京泽佳公司版权所有Copyright©201321@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第22页大数据解决方案特点泽佳大数据解决方案提供高速、低速两种互联解决方案,在节点间能够建立起40Gb的互联通路,彻底消除系统节点间通信的瓶颈。高性能高可扩展性高可靠相比较传统的数据库集群,泽佳大数据解决方案具有良好的可扩展性,随着数据节点的增加,系统整体性能接近线性增加。同时数据节点可以在系统运行中动态添加,对系统不会造成任何影响。因此企业可以根据自身业务需要,动态添加数据节点,当业务量较小时,配置较少的数据节点,随着业务量的逐渐增多,添加相应的数据节点,从而满足自身业务量增长的需求。泽佳大数据解决方案能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。同时消除系统单点故障,系统中任意一个部分出现故障,系统将自动进行切换,保证用户应用的无缝连接,具有较高的稳定性和可靠性。@2013北京泽佳公司版权所有Copyright©201322@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第23页大数据应用技术@2013北京泽佳公司版权所有Copyright©20123@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第24页大数据的技术领域占位图@2013北京泽佳公司版权所有Copyright©201324@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第25页泽佳大数据应用主要技术—Hadoop据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理“大数据”而备受重视。
ApacheHadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。
@2013北京泽佳公司版权所有Copyright©201325@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第26页Hadoop体系架构MapReduceHDFSHBasePigChuKwaHiveZooKeeperPig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。Chukwa是基于Hadoop的集群监控系统,由yahoo贡献。Hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态。HBase是一个开源的,基于列存储模型的分布式数据库。HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算@2013北京泽佳公司版权所有Copyright©201326@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第27页Hadoop核心设计@2013北京泽佳公司版权所有Copyright©201327@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第28页HDFS—文件读流程HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。Client向NameNode发起文件读取的请求。NameNode返回文件存储的DataNode的信息。Client读取文件信息。@2013北京泽佳公司版权所有Copyright©201328@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第29页HDFS—文件写流程Client向NameNode发起文件写入的请求。NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。@2013北京泽佳公司版权所有Copyright©201329@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第30页MapReduce——映射、化简编程模型
输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果@2013北京泽佳公司版权所有Copyright©201330@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第31页Hbase——分布式数据存储系统Client:使用HBaseRPC机制与HMaster和HRegionServer进行通信Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况HMaster:管理用户对表的增删改查操作HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据HRegion:Hbase中分布式存储的最小单元,可以理解成一个TableHStore:HBase存储的核心。由MemStore和StoreFile组成。HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件@2013北京泽佳公司版权所有Copyright©201331@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第32页大数据未来发展瓶颈通过对大数据产业链的分析,我们可以看到,在大数据产业链的各个生产环节中,各大公司都已开占位,随着高性能计算机、海量数据的存储和管理的流程的不断优化,技术能够解决的问题终将不会成为问题。我们认为,真正会制约或者成为大数据发展和应用瓶颈的有三个环节:数据收集和提取的合法性,数据隐私的保护和数据隐私应用之间的权衡。大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。大数据结论的解读和应用。@2013北京泽佳公司版权所有Copyright©201332@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第33页NoSQL产品@2013北京泽佳公司版权所有Copyright©201333@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第34页大数据应用案例@2013北京泽佳公司版权所有Copyright©20134@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第35页大数据行业应用分析应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:
表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;注:
该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度流通零售制造@2013北京泽佳公司版权所有Copyright©201335@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第36页互联网行业大数据需求分析网络终端设备网络技术的升级和终端设备的爆发,使今天的用户能够使用多种设备、从不同位置、通过多种手段来接入互联网,并在这一过程中不断创造新内容在线应用和服务越来越丰富的在线应用和服务,不断激励用户创造和分享信息,尤其是社会化媒体业务,带动图片、视频等非结构化数据飞速增长与各垂直行业的融合互联网作为一个高渗透力的行业,正在与各垂直行业发生深度的融合,原本隐藏于先下的孤岛信息,源源不断的输入到线上。互联网行业拥抱大数据的关键因素互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。互联网行业大数据分析面临的主要问题@2013北京泽佳公司版权所有Copyright©201336@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第37页腾讯基于Hadoop的大数据架构图
@2013北京泽佳公司版权所有Copyright©201337@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第38页腾讯大数据现状
从业务角度看:腾讯数据平台自研的TDW替换了商业数据库,实现公司级数据集中存储,总记录达到375万亿跳,日接入5千亿条,覆盖移动设备数7.7亿。从平台角度看:腾讯数据平台从设备8400台,单集群5600台,总存储100PB+;日新增数据200TB+,月数据增长率10%,日均JOB数100万,日均计算量5PB,量够大,速度也够快。
从用户角度看:这里的用户,指的是腾讯内部员工。腾讯员工2万多人,腾讯数据门户的月活跃是2500左右,也就是说访问腾讯数据门户的人占比公司10%+;每月处理数据提取分析的任务数是1万个,如果访问者每人都会提数据任务,平均就是一个人提4个左右的分析提取任务;用户画像分析任务为1.2万,可以看出腾讯对用户画像的重视程度。@2013北京泽佳公司版权所有Copyright©201338@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第39页腾讯大数据的多样性
腾讯数据平台已经接入100多个产品的各类数据,例如:用户行为、账号属性、收入数据等等。@2013北京泽佳公司版权所有Copyright©201339@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第40页腾讯基于大数据平台的产品应用
@2013北京泽佳公司版权所有Copyright©201340@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第41页腾讯大数据应用-广点通,精准广告投放
@2013北京泽佳公司版权所有Copyright©201341@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第42页大数据发展企业占位图大数据按照信息处理环节可以分为数据采集、数据清理、数据存储及管理、数据分析、数据显化,以及产业应用等六个环节。@2013北京泽佳公司版权所有Copyright©201342Thankyou!Thankyou!43大数据时代,泽佳助力企业发展大数据时代,泽佳助力企业发展44@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第45页什么是大数据@2013北京泽佳公司版权所有Copyright©20145@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第46页数据无处不在任何时间,任何地点,任何事情,任何人?Anytime,anywhere,anything,anyone?休息中,随意刷微博爬山时,记录每一瞬间旅途中,处理公司事件工作时,实时掌握市场动态@2013北京泽佳公司版权所有Copyright©20146@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第47页大数据时代已经来到每分钟都有大量数据产生1min486笔订单(2012年11月)7.3万笔交易数(2012年双11)1.1GB文件下载9.5万条微博发送14万张照片上传70TB处理数据@2013北京泽佳公司版权所有Copyright©201347@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第48页互联网中的大数据Web3.0时代,社交媒体网站数据出现井喷式激增,截至2013年3月底,新浪微博注册用户数增长到5.36亿,日均活跃用户数达到4980万,每日新增微博约2亿。企业在大数据时代,面临文化、战略、组织、流程、信息化、公共公关系、人才培养方方面面的挑战,同时也迎来重大的转型机遇和飞跃契机。@2013北京泽佳公司版权所有Copyright©20148@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第49页互联网中的大数据
大数据在消费IT领域的作用更加明显。只要你用PC上网或手机浏览信息,你便在网络上处处留照了,性别、年龄、爱好、踪迹、信用等等便被大数据刻画的一览无余,恭喜你已经成为数字透明人了!可能你都不知道自己下一步要干什么,产品经销商借助搜索引擎、电子商务平台、旅游网站的数据根据你的浏览行为已经在为你张罗生日、餐饮、旅游、结婚、生子、购房、购车了,特价机票、婚纱、尿不湿、奶粉、海景房等广告已经为你编排好了。大数据在消费IT领域的作用更加明显。只要你用PC上网或手机浏览信息,你便在网络上处处留照了,性别、年龄、爱好、踪迹、信用等等便被大数据刻画的一览无余,恭喜你已经成为数字透明人了!可能你都不知道自己下一步要干什么,产品经销商借助搜索引擎、电子商务平台、旅游网站的数据根据你的浏览行为已经在为你张罗生日、餐饮、旅游、结婚、生子、购房、购车了,特价机票、婚纱、尿不湿、奶粉、海景房等广告已经为你编排好了。@2013北京泽佳公司版权所有Copyright©20149@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第50页企业IT进入2.0时代随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;@2013北京泽佳公司版权所有Copyright©20150@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第51页大数据的特性
V
V
V
V价值Veracity体量Volume多样性Variety速度Velocity68%31%来源多;格式多:大数据包括结构化数据和非结构化数据,邮件,Word,图片,音频信息,视频信息。最新研究报告,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。价值密度低,犹如沙里淘金,海量业务中寻找价值。1秒定律,实时获取所需要的数据,为决策提供依据。@2013北京泽佳公司版权所有Copyright©201351@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第52页企业大数据的挑战业务数据的映射提取大数据价值大数据隐私大数据分析@2013北京泽佳公司版权所有Copyright©201352@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第53页泽佳建议企业大数据解决方案@2013北京泽佳公司版权所有Copyright©20153@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第54页大数据基础架构要求可预测的低延迟高事务参数灵活的数据结构获取组织分析决策高吞吐量就地准备所有数据源和结构深度分析敏捷开发高度可伸缩性实时流数据运营影响@2013北京泽佳公司版权所有Copyright©201354@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第55页泽佳大数据解决方案,以数据融合、综合处理为方向大交易数据大交互数据大交易融合大数据处理企业供应链消费者SNS互联网物联网移动终端OLTP实时交易处理OLAP实时分析处理SOCIALMEDIADATAOTHERINTERACTIONDATAMachine/DeviceSensors/meters/RFIDtagsCDR/mobileSD,MM,PP,SD,FICO。。。@2013北京泽佳公司版权所有Copyright©201355@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第56页泽佳大数据解决方案整体架构企业内外部协同(供应商+企业内部+客户+银行+税务+政府+社区+…)外部信息(社交+电商+移动+视音频+…)开放式API和协议通用的设计和模型环境通用数据管理环境交易数据管理社交数据管理移动数据管理主数据管理内存数据管理企业数据仓库管理数据存储数据获取数据组织数据分析数据展现无线数据管理信息管理和实时数据迁移联合访问实时大数据平台门户数据分析电子邮件办公软件大屏幕电脑桌面移动终端企业级报告工具Adhoc即时查询例外分析非结构化数据探索预测与挖掘@2013北京泽佳公司版权所有Copyright©201356@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第57页泽佳大数据解决方案体系数据多样性模式动态模式HDFS分布式文件系统Hbase分布式列存储系统SybaseESP事件流处理器HdoopMapReduceBigDataConnectorsYounghongBI获取组织分析决策复杂场景处理实时决策ETLEDW@2013北京泽佳公司版权所有Copyright©201357@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第58页一般企业数据处理平台的基础架构@2013北京泽佳公司版权所有Copyright©201358@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第59页泽佳大数据解决方案基础架构门户泽佳大数据平台快速、可靠大屏幕电脑桌面电子邮件SCMCRMERP数据分析人员办公软件移动终端安全,部署,管理灵活体系MESPDM@2013北京泽佳公司版权所有Copyright©201359@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第60页泽佳建议企业大数据解决方案基础架构图@2013北京泽佳公司版权所有Copyright©201360@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第61页应用层数据分析@2013北京泽佳公司版权所有Copyright©201361@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第62页视频存储@2013北京泽佳公司版权所有Copyright©201362@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第63页离线日志分析@2013北京泽佳公司版权所有Copyright©201363@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第64页在线数据分析@2013北京泽佳公司版权所有Copyright©201364@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第65页大数据解决方案特点泽佳大数据解决方案提供高速、低速两种互联解决方案,在节点间能够建立起40Gb的互联通路,彻底消除系统节点间通信的瓶颈。高性能高可扩展性高可靠相比较传统的数据库集群,泽佳大数据解决方案具有良好的可扩展性,随着数据节点的增加,系统整体性能接近线性增加。同时数据节点可以在系统运行中动态添加,对系统不会造成任何影响。因此企业可以根据自身业务需要,动态添加数据节点,当业务量较小时,配置较少的数据节点,随着业务量的逐渐增多,添加相应的数据节点,从而满足自身业务量增长的需求。泽佳大数据解决方案能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。同时消除系统单点故障,系统中任意一个部分出现故障,系统将自动进行切换,保证用户应用的无缝连接,具有较高的稳定性和可靠性。@2013北京泽佳公司版权所有Copyright©201365@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第66页大数据应用技术@2013北京泽佳公司版权所有Copyright©20166@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第67页大数据的技术领域占位图@2013北京泽佳公司版权所有Copyright©201367@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第68页泽佳大数据应用主要技术—Hadoop据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理“大数据”而备受重视。
ApacheHadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。
@2013北京泽佳公司版权所有Copyright©201368@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第69页Hadoop体系架构MapReduceHDFSHBasePigChuKwaHiveZooKeeperPig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。Chukwa是基于Hadoop的集群监控系统,由yahoo贡献。Hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态。HBase是一个开源的,基于列存储模型的分布式数据库。HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算@2013北京泽佳公司版权所有Copyright©201369@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第70页Hadoop核心设计@2013北京泽佳公司版权所有Copyright©201370@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第71页HDFS—文件读流程HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。Client向NameNode发起文件读取的请求。NameNode返回文件存储的DataNode的信息。Client读取文件信息。@2013北京泽佳公司版权所有Copyright©201371@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第72页HDFS—文件写流程Client向NameNode发起文件写入的请求。NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。@2013北京泽佳公司版权所有Copyright©201372@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第73页MapReduce——映射、化简编程模型
输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果@2013北京泽佳公司版权所有Copyright©201373@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第74页Hbase——分布式数据存储系统Client:使用HBaseRPC机制与HMaster和HRegionServer进行通信Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况HMaster:管理用户对表的增删改查操作HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据HRegion:Hbase中分布式存储的最小单元,可以理解成一个TableHStore:HBase存储的核心。由MemStore和StoreFile组成。HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件@2013北京泽佳公司版权所有Copyright©201374@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第75页大数据未来发展瓶颈通过对大数据产业链的分析,我们可以看到,在大数据产业链的各个生产环节中,各大公司都已开占位,随着高性能计算机、海量数据的存储和管理的流程的不断优化,技术能够解决的问题终将不会成为问题。我们认为,真正会制约或者成为大数据发展和应用瓶颈的有三个环节:数据收集和提取的合法性,数据隐私的保护和数据隐私应用之间的权衡。大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。大数据结论的解读和应用。@2013北京泽佳公司版权所有Copyright©201375@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第76页NoSQL产品@2013北京泽佳公司版权所有Copyright©201376@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第77页大数据应用案例@2013北京泽佳公司版权所有Copyright©20177@2013
北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第78页大数据行业应用分析应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:
表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;注:
该位置为分析师访谈的综合印象,为定性分析,图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 妊娠期生殖器疱疹的健康宣教
- 脓疱型银屑病的临床护理
- JJF(陕) 013-2019 微量总有机碳分析仪校准规范
- 《解读自由基》课件
- 北师大版不等式课件
- 大班级风采展示活动策划计划
- 掺混肥相关行业投资规划报告
- 充换电站相关行业投资方案范本
- 割灌机相关行业投资方案
- 课程研究小组的组织与管理计划
- 中考道法一轮复习讲练测七年级下册(综合测试)(原卷版)
- 《我们的动物朋友》作业设计方案-2023-2024学年科学大象版2001
- 电梯维护保养规则(TSG T5002-2017)
- MOOC 美化嗓音 轻松讲课-爱课程 中国大学慕课答案
- 髂总动脉瘤的护理查房
- 麻醉科科室副主任述职报告
- 2024年铁岭卫生职业学院单招综合素质考试题库及答案解析文档版
- 食品行业的食品安全与质量控制
- 关于开展2024年职工合理化建议征集评选活动的通知
- 月季嫁接技术的培训课件
- 中心静脉深静脉导管维护操作评分标准
评论
0/150
提交评论