面向大数据数据处理的解决方案_第1页
面向大数据数据处理的解决方案_第2页
面向大数据数据处理的解决方案_第3页
面向大数据数据处理的解决方案_第4页
面向大数据数据处理的解决方案_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、面向大数据数据处理的解决方案1Harmonious 云计算中心 (位于横滨第3中心内)采用基于丰富业绩的高可靠性、高安全性、环保型技术Hitachi Virtual Storage Platform能够应对磁盘驱动器双重故障的RAID6数据中心运营服务BladeSymphony采用独特的硬件虚拟化辅助结构 物理服务器、虚拟服务器的构成信息进行一元化管理有机地连接各个分散系统服务器虚拟化结构VirtageJP1其他( Cosminexus、HiRDB )服务器中间件存储冗余话的高可靠性模块能够检测异常的管理模块能够在不停机的状态下更新固件模块型数据中心约43,000家客户(中国30个城市、500

2、家客户)参与该市场100个种类以上丰富的产品线TWX-21其他( Shareresearch、 FINEMAX、HIPLUS等)菜单向1000家公司以上的客 户提供着服务支撑IT系统/服务的平台以及应用产品Twx-21云计算大型存储系统市场份额位于世界前列日本国内运行管理软件市场份额No.1 (连续14年)日本最大规模的 e Market Place1.致力于Big Data的数据处理及创造新的价值Contents2.面向大数据处理的产品及解决方案的介绍3. 流数据处理平台面向大数据处理的产品及解决方案的介绍4.内存数据网格5.按时间顺序存储的数据库6. 高速数据访问平台7. 总结1.致力于B

3、ig Data的数据处理及创造新的价值面向大数据处理的产品及解决方案的介绍信息爆炸时代的降临与IT商业领域的新方向4Twitter信息系统持续存储下来的数据基础设备及机器不断产生的数据业务日志办公文件Web/邮件博客等手机设备的利用感应器的数据卡的使用交通及气象数据等企业在日常业务活动中,持续储存下来大量的业务日志,邮件,及Web日志各种社会基础设备及机器也会不断的产生大量的新数据通过分析人的行为与设备运转时所保留下来大量的数据,可催生出新的服务-信息爆炸时代的降临与IT商业领域的新方向5-Twitter信息系统持续存储下来的数据基础设备及机器不断产生的数据业务日志办公文件Web/邮件博客等手

4、机设备的利用感应器的数据卡的使用交通及气象数据等企業内、各種業務、Web増大社会基盤機械生成新飛躍的増大人行動振舞示活用新期待企業内、各種業務、Web増大社会基盤機械生成新飛躍的増大人行動振舞示活用新期待有效利用Big Data是IT商业领域的新的发展方向! 企業内、各種業務、Web増大社会基盤機械生成新飛躍的増大人行動振舞示活用新期待在以往的商业活动中,通过对业务和人以及设备的活动所留下来的数据进行分析,从而提高企业竞争力来拉开与对手的区别。在今后的商业活动中,将更加重视对Big Data里隐藏的商机的挖掘。致力于Big Data技术及从中勘探新价值6-抽出数据库模拟/分析(信息化)实时监视

5、挖掘应用(反馈)数据整理数据收集交通数据IC卡利用履历数据 Web存取记录数据新发现知识提供Big Data的数据处理的平台提供处理Big Data的平台顾客与客户共创价值(业务理解)目的目标()课题对Big Data展开深度分析(协同客户共同创造新价值).面向大数据处理的的产品及解决方案的介绍面向大数据处理的产品及解决方案的介绍有效利用Big Data的前提条件8-有效利用Big Data的前提条件 通过实时监视和实时处理 高效压缩数据并可高速查询 集成分析数据挖掘有用信息对现状进行实时的把握得出适合自己的服务从中获得新的发现数据中心网络购买金融交易记录电力测量仪器数据卡利用博客自动检票口海

6、量的数据必须经过处理后才能发挥其作用为有效利用Big Data而提供的数据处理平台9-面向Big Data数据处理的中间件和硬件可扩展性BladeSymphony/HA8000 Hitachi Virtual File Platform虚拟文件存储平台高信赖度的刀片服务器海量信息的实时处理1.实时处理对海量信息进行分析3.集成与分析海量信息的高效存储和高速查询履历,日志2.存储查询uCosminexus Stream Data PlatformuCosminexus Elastic Application Data storeHitachi Advanced Data Binder Platf

7、ormHadoopuCosminexus Grid Processing Server流数据处理平台高性能内存数据网格网格计算高速数据访问平台uCosminexus Stream Data Platform/Data Store按时间顺序存储的数据库大量数据处理平台的相关产品及解决方案10-需求新技术产品特点实时数据的处理与利用流数据流处理平台(uCosminexusStream Data Platform)通过内存内计算和差值计算来实现处理的高速化可使用SQL的脚本语言(CQL)来描述分析步骤,具易开发性随着内存中处理的数据量的增加,需增加灵活性和可扩展性内存数据网格(uCosminexus

8、Elastic Application Data store)通过CJava语言直接访问(参照数据)内存缓存内的数据,来实现数据访问的高速化把大量数据分散配置在多个节点上,对应用程序提供虚拟化的内存访问对按时间顺序存储的数据的高效储存与高度分析按时间顺序存储的数据库(uCosminexusStream Data Platform/Data Store)通过高效压缩大量的日志数据,降低数据的存储成本实现对现实世界里的信息的高速解析(时间序列数据分析)大量数据的存储与超高速搜索高速数据访问平台(HitachiAdvanced Data BinderPlatform)采用了基于“非顺序型操作原理”的

9、超高速的数据库搜索引擎通过对服务器的多核处理器及存储设备的最大限度的有效利用,使处理性能得到了大幅的改善超高速的数据库引擎再结合了旗下的服务器和存储产品后而推出的最佳实践模式,具有易导入性缩短批处理的时间,防止因批处理延时而导致的中断网格计算(uCosminexusGrid Processing Server)通过分割配置数据后再并行执行批处理,实现了批处理的高速化具备了骨干系统的高可用性,及对应故障影响的局部化对应大量数据处理而推出的新服务Hadoop(开放源代码)通过并行处理加快了处理大量日志数据的速度,并将处理的复杂性隐藏起来,从而实现了易开发性OSS技术具有巨大发展潜力,世界各大公司的

10、系统里已经摸索着开始使用该项技术以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。SQL:Structured Query Language,CQL:Continuous Query Language,OSS:Open Source Software大量数据处理平台的使用效果11-采用内存数据网格处理技术对磁盘型的访问提高了约倍流数据处理平台非序列操作方式1提高了数据的输入输出效率,比原来快了约倍高速数据访问平台按时间顺序分割,通过数据压缩存储使得存储的容量削减到约通过特征点索引提高数据查询速度約倍按时间顺序存储

11、的数据库内存数据网格:以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。(注)实际效果根据数据内容,处理内容有差别3. 流数据处理平台面向大数据处理的产品及解决方案的介绍什么是流数据处理13IT的瞬发力 像是拥有神经系统的反射能力一样的IT系统以往的IT系统对存储起来的膨大数据进行集成与分析大脑的处理在数据生成的同时,就对其进行集成与分析 反射神经系统现实世界中发生的海量数据从数据分析中了解到正在发生什么将要发生什么POINT流数据处理DBDWH得出对“过去”的分析结果从数据分析中了解到过去什么了发生得出对“现在

12、”的分析结果不间断地输入数据1.实时处理uCosminexus Stream Data Platform储存数据生产的数据电力网的数据感应器的数据设备的数据-流数据处理的概要14发出SQL查询,参照所有数据范围, 然后抽出所有的结果DBMS关系型数据处理先把数据存储到数据库中,然后对其进行处理idVaabaaba123456查询语句对a,b分别进行求和结果a15b6DBMS流数据处理数据生成时就立即对其进行处理, 只处理与其相关的一部分a,1流数据处理流程式数据处理数据一生成就逐次的对其进行处理b,2a,3b,4a,5a,6结果a15b6事先登录查询语句对a,b分别进行求和【只处理变化部分】(

13、a,5)输入时(a,6)输入时a9b6只处理a=9+6DBMS:DataBase Management System-流数据处理的应用领域15syslogProxylog认证logsyslogProxylog认证logIT系统中生成的各种日志文件从感应器中得到的数据从汽车的位置信息中得到的数据DBMS数据图形化警报通知高效压缩存储数据一旦生成,立即进行分析-流数据分析的事例:股指信息高速发布系统16通过高速的计算实现即时发布股指信息,从而提高了服务水平。实现股指算法的灵活性和高效性,可以很容易的对应将来业务的变化。导入该系统对顾客的好处股票买卖系统用户行情查询系统输入适配器输入数据/过滤处理整

14、理格式/发布数据uCosminexus Stream Data Platform每股股价整体股指处理性能处理速率(吞吐量)8,000件/秒延迟10微秒以下(110微秒)过去的服务高速股指发布发布间隔每秒当有股票价格发生变化时,瞬时反应到股指指数高速分布系统流数据处理平台输出适配器流数据计算处理当个股股价一发生波动,就即时反应到整体股指上,并以微秒的 速度发送股指信息给客户端 要点统计分析模式-当流通股的数量发生调整时,立即适用最新模式进行整体股价的计算流数据分析的事例:交通路况实时监控17机动车车辆位置信息流数据的处理平台uCosminexus Stream Data Platform聚类分析

15、计算速度计算行驶方向计算车辆密度监测拥堵监测事故车辆ID(纬度,经度)交通拥堵信息输入数据约2,000条/秒红:低速黄:中速绿:高速始点:前一时间的位置终点:最新位置车辆行驶状况监测拥堵事故这个位置发生了严重的交通拥堵交通事故 通过对车辆行驶位置的收集和分析,可以对交通路况进行实时的监控 通过分析各车辆的速度和行驶方向,可以监测交通拥堵和交通事故等状况交通事故信息2008 Google 2008 Zenrin -. 内存数据网格面向大数据处理的产品及解决方案的介绍什么是内存数据网格19.实时处理uCosminexus Elastic Application Data store.存储与查询通过

16、网络将大量的服务器的内存空间统合在一起,使之形成一个超大型的虚拟内存,然后在其上进行数据配置。应用程序无需考虑数据的配置形态,就可直接对大量的数据进行处理。虚拟化内存内存空间应用程序应用程序应用程序内存空间内存空间内存空间服务器客户端-内存数据网格的特长20BCBC添加服务器切换复制透過的D透过性读取KVS接口应用程序发出故障简洁的数据建模简洁的数据建模数据访问高速化-内存中配置数据-由索引和数值构成()耐故障性位置透过性-隐藏了数据的物理配置位置-即使服务器发生故障也不发生数据的丢失数据访问高速化位置透過性耐故障性 KVS:Key-Value Store应用了内存内数据网格的应用程序的优点易

17、于开发性响应时间短高吞吐量高可用性内存空间虚拟内存空间应用程序应用程序uCEADs:uCosminexus Elastic Application Data store-内存数据网格的事例:座位预约系统21 通过直接调用对象数据到内存上进行处理,来实现整体处理的高速化 通过统合大量服务器上的内存来虚拟出超大内存空间,高度拓展数据处理的自由度 通过对数据的多重化配置来防止数据丢失座位预约处理的高速化应用后负载平衡器座位预约管理应用程序预约座位用的终端ValueKeyDBMS座位预约管理DB读写磁盘触发事件日期车次名12/25XXX12/25YYY12/25ZZZ日期车次名12/25XXX12/2

18、5YYY12/25ZZZ一个月的数据#1#2#3#1#2#3通过读取内存来 实现高速化通过复制数据来 确保高信赖度无需考虑数据的物理保存地址通过读写磁盘来有效回避瓶颈问题-#45. 按时间顺序存储的数据库面向大数据处理的产品及解决方案的介绍什么是按时间顺序存储的数据库23.存储与查询uCosminexus Stream Data Platform/Data Store按数据发生的时间顺序来高效存储数据的管理平台按时间顺序存储的数据库uCosminexusStream Data Platform/Data Store10:00:00时刻10:00:0110:59:59:11:00:00:1.01

19、.01.0:1.0:感应器110.025.211.1:11.1:感应器2现实世界里的数据感应器的数据电力网的数据设备的数据存储分析收集现实世界里的信息并保存收集数据存储数据读取数据查询时间顺序的数据统计时间顺序的数据分析时间顺序数据得出结果AP:Application Program-按时间顺序存储的数据库的特长24按时间顺序存储的数据库 uCosminexusStream Data Platform/Data Store10:00:00感应器1压缩数据特征点10:00:00感应器2特征点11:00:00感应器1特征点11:00:00感应器2特征点压缩数据压缩数据压缩数据10:00:00时刻1

20、0:00:0110:59:59:11:00:00:1.01.01.0:1.0:感应器110.025.211.1:11.1:感应器2数据输入单位数据保存单位通过对每个时间点发生的数据列进行切割压缩,来有效削减整体的磁盘占有容量。通过特征点索引来实现查询的高速化(最大/最小,平均,波形模式等)提供按时间顺序数据的专用查询语句(查询条件,波形查询,关联查询,统计)通过对现实世界里的大量信息进行高压缩来实现信息存储的低成本化对按时间顺序存储下来的大量信息进行高速查询与高速分析要点内含计划内容-现实世界里的数据感应器的数据电力网的数据设备的数据收集数据存储收集现实世界里的信息并保存分析检索时间顺序数据统

21、计时间顺序数据分析时间顺序数据得出结果存储数据读取数据按时间顺序存储的数据库的事例:燃气轮机的维护系统 -什么是燃气轮机-25燃气轮机是高精密设备 1套燃气轮机里配备有200个以上的各种感应器 全天候监控燃气轮机的运行状况,检测出数据超过阀值立即报警 若检测出异常则立即自动紧急停止运行状况的分析与监视温度震动压力-按时间顺序存储的数据库的事例:燃气轮机的维护系统 -运行状况监控服务-26 收集分布在各地的燃气轮机的运行状况的数据到监控中心 收集到的数据量 1天=2GB、1个月=60GB、1年=720GB 分析过去燃气轮机的运行数据,来判断设备的现在的运行状况从各地的燃气轮机中收集运行状况的数据

22、进行分析运行状况数据运行状况数据运行状况数据收集燃气轮机的运行状况客户运行分析报告互联网-按时间顺序存储的数据库的事例:燃气轮机的维护系统 -运用了按时间顺序存储的数据库的解析技术后-27 为实现快速的分析数据,长时间不间断的监控着整体设备的运行状况 为实现多视角分析数据,对各种各样的数据进行多角度的建模与解析把通过分析数据而得到的准确的信息即时传达给客户运行状况数据运行状况数据运行状况数据按时间顺序存储的数据库设备点检数据高压缩高速查询客户提高分析精度运行分析报告提案-按时间顺序存储的数据库的事例:燃气轮机的维护系统 -对消减存储空间的评价-28 配合时间顺序生成的数据的特征,首先按列单位来

23、存储数据 然后按小时单位来分割数据,通过压缩后再存储 从而达到了大幅地消减整体数据的存储空间11.811.2基准模型 感应器个数200个 数据收集周期1次/秒 Block单位1小时可将存储空间降到12!对存储空间的核查6个月RDB:Relational Database-1年现状的RDB按时间存储的数据库存蓄时间存蓄量(MB)按时间顺序存储的数据库的事例:燃气轮机的维护系统 -对高速查询数据的评价-29 通过特征点索引来提高数据的查询速度 通过数据分割保存的技术来有效提高数据访问速度( I/0 ) 从数据查询的分析结果中说明经得起实际运用的检验搜索范围(日)1 10 31 181 365 当前

24、RDB(3/200)19.9 187.9 573.1 3,329.3 6,819.6 当前RDB(3/400)23.6 294.8 873.1 5,008.8 9,760.8 时间顺DS(3/200)1.6 4.69.845.994.2时间顺DS(3/400)1.6 4.811.751.7105.1例:从400个感应器中查询3个感应器的数据 查询时间s查询数据的速度可提高10倍以上!对查询时间的核查时间顺DS:按时间顺序来存储数据的数据库(Data Store)-基准模型 感应器个数200个/400个 数据收集周期1次/秒 Block单位1小时现状的RDB(3/200)现状的RDB(3/400

25、)按时间顺序存储的数据(3/200)按时间顺序存储的数据(3/400)查询范围(日)查询时间(s)6. 高速数据访问平台面向大数据处理的产品及解决方案的介绍什么是高速数据访问平台31在先端技术研究开发支援计划下,与东京大学共同合作开发了超高速的数据库引擎技术的研究成果,并实现了产品化。Hitachi Advanced Data Binder PlatformHitachi Advanced Data Binder Platform服务器HA8000存储设备BR1200超高速的数据库引擎首推的超高速的数据库引擎产品,结合了旗下的服务器和搭载SSD的存储产品,实现高速选取与搜索数据等功能。实现以大

26、型数据库为处理对象的超高速数据查询为了最大限度地发挥超高速的数据库引擎的性能,提供了旗下的高信赖高性能的硬件产品与之组合,推出了验证完毕的最佳实践模式。.存储查询Hitachi Advanced Data Binder Platform-SSD:Solid State Drive高速数据访问平台的专业应用领域32信息的爆炸性增长 (1018) (1015) (1012)【提取条件】(专业领域)在金融系统中ATM,POS机,以及证券交易系统里,要求能及时地处理数据整体统计分析,整体日志管理,热销商品分析,流行趋势分析,故障调查,批量处理等特定URL搜索,向下钻取分析,假设检验等反复验证的搜索例:

27、年龄层(20来岁)场所(新宿) 的手机的使用情况更加体系化更加实时执行查询处理的频率(1行/次)查询时发生的数据访问量(整体的处理)满足Big Data数据处理中的并列全件数据搜索的需求通过搜索全件的数据,找出数据的潜在价值-ATM:Automatic Teller MachinePOS:Point Of SaleURL:Uniform Resource Locator以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。超高速的数据库引擎的概述33-是对大量的数据进行超高速搜索的新型DBMS是最先端研究开发支援计划

28、下的研发成果通过将多核处理器与存储系统的使用效率提升至最大限度的“非序列性操作原理”技术,来实现超高速搜索数据的功能超高速的DB传统的RDB一般的RDBMS神奈川東京埼玉JOB并发型RDBMS神奈川東京埼玉JOBJOBJOB容易出现磁盘输入与输出时的性能瓶颈问题可分散磁盘输入与输出从而改善性能瓶颈问题但运营成本会增加超高速DBMSJOB对多个磁盘实行超高速的非同期的输入与输出操作。DBMS:Database Management SystemRDBMS:Relational Database Management System以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共

29、同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。超高速的数据库引擎的特点34-其一:搜索速度非常的快 擅长从一个表中的提取具体数据再结合多表进行数据处理 适用于以搜索业务为中心的信息系统。在自由搜索领域有着绝对的优势。其二:充分发挥多核CPU的优势,并和使用磁盘(HDD/SSD)个数成正比实现了高速化 系统结构简单。可以构建单台服务器的系统,随着处理业务的增大可以扩展系统 越是大量的数据(PB级,EB级)使用的硬盘数量会越多,越可体现出该技术的优势 即使是少量的(TB级)数据,结合具有随机存取特长的SSD硬盘,也可有效发挥该技术的优势搜索处理(s)同期I/O处理(ms)服务器存

30、储设备服务器存储设备分配任务搜索过程等待I/O结束磁盘I/O【传统型RDBMS】顺序操作方式 对一个SQL的操作请求,按顺序执行 由于受到磁盘I/O响应慢的因素的影响,CPU的 利用率非常的低,得不到充分的利用【超高速DBMS】非顺序操作方式 可以多线程执行SQL的操作请求。充分有效的 利用CPU和磁盘的性能 对DB的基础进行了重新的设计HDD:Hard Disk DriveSQL:Structured Query Language,I/O:Input/Output以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果

31、。超高速的数据库引擎的性能评价35-全部处理约需900秒全部处理只需10秒顺序操作方式非顺序操作方式速度提高了90倍IOPS: IO per second = 每秒的I/O次数。该值越大则表明磁盘的访问速度越快。以时间为横轴,逻辑地址为纵轴,描绘出磁盘访问的状态分布图。左图为顺序操作方式,其磁盘的访问密度比较低,右图显示的是非顺序操作方式,其磁盘的访问密度非常的高。我们可以从图中判断出非顺序操作方在极短的时间内能处理大量的输入和输出。以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。高速数据访问平台的事例:POS

32、数据分析36将来:可以只对中央DWH的数据实行高速搜索。通过消减批量数据处理的运营成本,添加不同视角的分析轴来有效促进数据的利用。现状:收集POS数据,创建数据集市(Data Mart)。因为批处理需要很长的时间,本想从更多的角度来分析数据,查看根多的结果,但只能放弃作罢了。POS数据POS数据POS数据DataMartDataMartDataMartDataMart常见的处理MasterData収集常见的处理MasterData収集中央DWH高速的POS数据分析费时的夜间批处理因数据量的增加,夜间批处理已不能应付本想从更多的角度来分析数据,但处理能力有限只好放弃中央DWHHitachi Ad

33、vanced Data BinderPlatform课题POS数据POS数据POS数据使用高速数据访问平台,可以减少数据集市(Data Mart)解决方法-DWH:Data Warehouse以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。37结果通过减少批量处理来降低运营成本!使添加不同视角的分析轴和按需搜索成为可能!评价实例(客户分析)在高速数据访问的平台上,对1.5TB的数据进行处理: 速度比原来快了107倍(13.5小时7.5分钟)-高速数据访问平台的事例:POS数据分析以上技术是在日本内阁府创设的最先

34、端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。.总结面向大数据处理的产品及解决方案的介绍大量数据处理平台的相关产品及解决方案39-需求新技术产品特点实时数据的处理与利用流数据流处理平台(uCosminexusStream Data Platform)通过内存内计算和差值计算来实现处理的高速化可使用SQL的脚本语言(CQL)来描述分析步骤,具易开发性随着内存中处理的数据量的增加,需增加灵活性和可扩展性内存数据网格(uCosminexusElastic Application Data store)通过CJava语言直接访问(参照数据)内存缓存内的数据,来实现数据访问的高速化把大量数据分散配置在多个节点上,对应用程序提供虚拟化的内存访问对按时间顺序存储的数据的高效储存与高度分析按时间顺序存储的数据库(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论