大数据应用融合解决方案(能源行业)_第1页
大数据应用融合解决方案(能源行业)_第2页
大数据应用融合解决方案(能源行业)_第3页
大数据应用融合解决方案(能源行业)_第4页
大数据应用融合解决方案(能源行业)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浪潮云海大数据一体机暨云计算及大数据应用融合解决方案 云计算及大数据产品部(Bruce Lee)职业生涯简介l Bruce Lee ( 中文名: 李忠旭 ) 博士学位, 毕业于麻省理工学院和哈佛商学院,专修计算机科学和工商企业管理,致力理论联系实际,应用于日常的管理实践中。l Inspur Group 云计算&大数据总监 兼任 首席解决方案架构师 l Greenplum Corporation ( EMC ) 首席技术执行官 CTO 兼任 首席解决方案架构师l Google Incorporated ( Google ) R&D 技术总监 兼任 GFS 首席架构师 l Gold

2、engate Corporation ( Oracle ) R&D 技术总监主持重大国内外项目经验l 美国纳斯达克数据分析应用及决策支持项目l 美国纽约证券交易所指数预测分析项目l 美国银行数据仓库及数据分析应用(商务智能)项目l 美国 T-Mobil 电信公司数据经分和信令系统分析项目l 美国谷歌公司 R&D 项目GFS基础架构总体设计l 中国建设银行新一代决策支持系统整体方案设计l 中国阿里巴巴集团企业级数据仓库( 支付宝)项目l 中国华为技术有限公司财经体系数据分析 R&A 项目l 中国辽宁省公安厅科技信息总队大数据分析系统项目l 中国公安部交通管理科学研究所大数

3、据分析研判系统项目 EMC 数据分析事业部 (Pivotal Lab)产品研发项目(Cloud Foundry,GemFire XD,GP DB,Pivotal HD)单击此处编辑母版标题样式 目 录单击此处编辑母版标题样式企业面临的挑战和分析需求云计算、移动计算、社交媒体和大数据分析云计算、移动计算、社交媒体和大数据分析推动产生新的计算模式。推动产生新的计算模式。该模式该模式进而引发业务转型进而引发业务转型以提升效率以提升效率, 促进法规遵从促进法规遵从,提升提升整体业务可持续性整体业务可持续性以及以客户为中心以及以客户为中心。单击此处编辑母版标题样式Gartner 发布的 2012 技术趋

4、势单击此处编辑母版标题样式互联网商业模式对传统行业的冲击单击此处编辑母版标题样式数据处理的难题及大数据革命 收集、存储和分析数据的能力在信息技术带来的影响中始终占有重要一席。在这个数字化程度日益提高的时代,您所做的每件事都会有一个电子记录。 随着企业积聚的数据越来越多并达到数百TB,他们纷纷寻求更加尖端的软件工具对数据进行挖掘和分析,从而帮助企业更好地了解市场和客户,甚至是帮助企业对未来作出预测。您如何收集和存储数据?您如何收集和存储数据? 您如何传输数据?您如何传输数据?您如何分析数据?您如何分析数据?您如何从数据获益?您如何从数据获益? 单击此处编辑母版标题样式大数据时代带来的思考 单击此

5、处编辑母版标题样式新时代需要一个全新的计算平台互联网平台时代,第三代 IT体系的代表单击此处编辑母版标题样式互联网公司采用的是PaaS,DevOps来实现创新虚虚拟拟化化运运维维自自动动化化PaaSStartups时间时间期望期望值值Innovation GapCloudClient-ServerDevOps, CD/CI, Agile, MicroService单击此处编辑母版标题样式大数据时代行业商机无处不在!单击此处编辑母版标题样式大数据行业应用 社交媒体单击此处编辑母版标题样式大数据行业应用 电商平台单击此处编辑母版标题样式大数据行业应用 互联网平台单击此处编辑母版标题样式大数据行业应

6、用 风力涡轮发电系统管理监控以毫秒级捕获传感器数据(如:主轴传感器、齿轮箱传感器和定子传感器等),监控单台风力发电机运行状态以秒级捕获传感器数据,监控风机位置、彼此协作情况,保证发电场以最优状态工作以分钟级捕获传感器数据,监控输电状态、效率单击此处编辑母版标题样式大数据行业应用 工业互联网零部件库存管理零部件库存管理资产管理资产管理供应链自动化供应链自动化工作范围的自动化工作范围的自动化场力优化场力优化监控和诊断监控和诊断状态检修状态检修停电管理停电管理资产生命周期管理资产生命周期管理物流管理物流管理控制和工厂自动化控制和工厂自动化燃料消耗的优化燃料消耗的优化排放管理排放管理法规遵从法规遵从健

7、康健康&安全保证安全保证运营管理与监测系统运营管理与监测系统网络吞吐量的优化网络吞吐量的优化终端客户信息服务终端客户信息服务单击此处编辑母版标题样式云计算改变IT,大数据应用重在创新单击此处编辑母版标题样式工业互联网和工业大数据特点单击此处编辑母版标题样式基于分布式内存计算技术的IOT逻辑架构单击此处编辑母版标题样式云计算改变IT,大数据应用重在创新 云计算侧重 资源管理,而大数据侧重 业务应用。 云计算资源池化的管理模式是大数据应用的前提。 云计算提供的存储和计算资源池可动态支撑大数据分析业务不断变化的需求。单击此处编辑母版标题样式 目 录单击此处编辑母版标题样式大数据分析应用的数据

8、内容及实现技术应用平台提交请求访问的数据,包括结构化和非结构化两类在线存储周期超过数据生命周期规划的数据适合Hadoop分布式架构管理无法用二维表结构来逻辑表达的无结构性的数据。例如文本、音频数据等。适合Hadoop架构方便用数据库的二维表结构来逻辑表达实现的数据,数据结构字段含义确定,清晰。例如:客户信息、用电记录等。是挖掘数据价值的主要对象。支持分析型应用,时效性较低支持前台交易系统查询需求,具有可靠性高、并发度大、采集频率短的特点适合分布式内存数据处理技术数据类别数据格式数据采集频度 大数据分析应用的数据内容及实现技术在线数据归档数据非结构化数据结构化数据准实时数据非实时数据面向贴源数据

9、查询和主题数据整合。数据区,适合X86MPP数据库集群范式化模型数据面向分析类应用。对应ADW,适合MPP数据库集群维度模型数据数据模型单击此处编辑母版标题样式大数据分析应用的关键核心技术大数据分析套件组合:(完善生态链) 关系型数据库, NoSQL, 流计算,SQL on Hadoop, OLAP on Hadoop, OLTP on Hadoop,Cache 缓存,In-Memory DB, In-Memory Data Grid,非关系型数据库,等等 。单击此处编辑母版标题样式大数据分析应用的关键技术之一分布式内存数据库MPP 分布式数据库流式处理 Hadoop 分析框架体系单击此处编辑

10、母版标题样式大数据分析应用的关键技术之一PaaS 平台弹性运行时环境监控管理层物理资源层PaaS 服务层业务应用层IAAS InterfacePaaS 运行时环境运行时环境Services Interface PaaS Service应用中间件Hadoop消息中间件 SQL 数据库NoSQL 数据库安全管理资源管理配置管理服务目录服务管理性能监控资源监控存储设备计算资源池存储资源池网络资源池计算机网络设备分析研判类应用预测预警类应用动态监控类应用信息处理类应用 IaaS服务层单击此处编辑母版标题样式大数据时代平台产品的关键能力真正无共享的海量并行处理架构工业标准的X86平台服务器资源按需分配,

11、按需搭建集群,按需缩放集群规模增加节点可线性增加存储、查询和加载性能支持在线扩容,扩容期间保证系统继续对外提供服务保证用户不被专有平台锁定企业初期投入和后续扩容的成本可控支持PB级的数据处理、存储和访问在数据加载、处理、访问等各个环节最大化并行处理能力按需分配资源(CPU、内存、IO)动态调整资源数据镜像、硬件冗余等多种容错技术保证系统高可用故障切换和恢复,对用户透明扩容期间可持续对外服务直观的图形化界面,实时的状态监控最大限度降低管理员的日常管理和维护工作单击此处编辑母版标题样式大数据时代催生 PaaS 平台的变革IaaS: 硬件的自动化管理,人与机器的解耦合 获得效率/牺牲性能 PaaS:

12、应用的自动化管理,应用与OS的解耦合 获得弹性/牺牲控制单击此处编辑母版标题样式业务创新需要重新定义企业级 PaaS支持开放标准并与开源有效互动强调以数据为中心 兼顾各种数据类型处理充分关注新一代开发人员和新一代企业级应用的需求为有效进行实时大容量信息处理而设计同时兼顾与传统应用的互操作性与传统技术的有效结合 云支撑平台数据支撑架构应用支撑架构创新:以数据支撑为中心创新:以数据支撑为中心单击此处编辑母版标题样式未来大数据分析应用的 PaaS 平台发展方向New Data-fabricsInternet-of-thingsPervasive telemetryBig DataFast DataR

13、apid Application Dev & Integration GemfirevFabric Cloud Abstraction & App Automation面向数据的企业级 PaaS平台快速应用开发在收集数量庞大的事件数据的同时对特定事件进行实时反应与传统应用和基础架构有机配合配合不同云计算平台实现高效运维和水平扩展存储并且在非常大量的数据上进行分析单击此处编辑母版标题样式行业大数据分析应用的数据架构设计单击此处编辑母版标题样式大数据时代云计算及大数据融合架构全景图计算存储网络应用运行环境云平台管理云平台安全数据批处理(Hadoop)近实时分析(MPP DB)实时数

14、据处理应用和数据集成应用开发接口资源和服务交付统一访问门户应用容器虚拟机服务器虚拟化存储虚拟化网络虚拟化公有云接口iVirtualvSphereNovaXenServerPowerVM分布式文件系统分布式块存储分布式对象存储SAN存储网关Open FlowvxLanvSwitchAWSACEAzureGAE流处理内存数据库HbaseYarnMapReduceHive, Pig, MahoutSQLData DistributeQuery PlannerMPP ExecLoad Balancer分布式缓存消息中间件RDBMS云资源管理运维管理桌面管理业务流程管理资源计费网络安全容灾备份数据和应用

15、访问权限管理安全审计vRoute单击此处编辑母版标题样式大数据分析应用的 PaaS 平台产品组合实时的数据处理实时的数据处理Run-TimeApplications企业级数据仓库企业级数据仓库大规模数据存储大规模数据存储实时的数据实时的数据捕获和共享捕获和共享分析型数据集市分析型数据集市单击此处编辑母版标题样式大数据分析应用的资源池拓扑图存储系统备份系统存储系统备份系统K-HAK-HAK-HAK1 -1K1- 2K1 -3K1- 4K1 -5K1- 6TS860TS860TS860TS860核心交换机 虚拟化(非关键应用)资源池 物理(核心业务系统)资源池 物理(大数据分析应用)资源池单击此处

16、编辑母版标题样式大数据分析应用系统架构系统管理体系 ( 日志审计、用户管理、运维监控 )计算资源池存储资源池网络资源池平台层 (PaaS)数据存储层数据准备层数据处理层数据服务层分布式文件系统MPP 数据库分析模型算法引擎挖掘工具应用层(SaaS)基础设施(IaaS)应用层(SaaS)分析研判类服务预测预警类服务动态监控类服务信息处理类服务大数据分析研判系统门户运营状态监控决策分析预警安全保障体系 ( 访问权限控制,防病毒、防入侵 )内存计算RDBMS数据块ODS数据立方体数据立方体数据仓库数据仓库数据集市数据集市基础设施(IaaS)流式处理客户精准营销数据交换平台数据交换平台系统管理体系 (

17、 日志审计、用户管理、运维监控 )安全保障体系 ( 访问权限控制,防病毒、防入侵 )服务总线风险模式识别PaaS平台弹性运行时环境平台弹性运行时环境云数据中心管理平台云数据中心管理平台单击此处编辑母版标题样式 目 录单击此处编辑母版标题样式大数据产品线规划和产业定位数据源数据收集数据存储数据处理分析及可视化应用数据拥有者数据分析技术提供商服务技术提供商最终用户数据采集技术提供商 数据采集者 数据分析者数据服务提供商基础硬件(服务器、存储、网络交换)厂商大数据分析软件平台(数据库、数据仓库、分布式处理技术等)提供商大数据分析一体化产品提供商单击此处编辑母版标题样式大数据产品线的保障体系l 缩短开

18、发周期l 实现数据共享l 降低管理风险l 提高安全和质量l 资深工程师提供在线指导服务l 专家提供现场指导运维服务l 评估业务需求l 分析已有基础设施l 风险评估l 推荐合理方案单击此处编辑母版标题样式大数据一体机产品定位及软硬一体化设计方案计算单元: 采用Intel最新 Xeon E5 v3系列处理器,性能相比上一代产品提升 2倍 FPGA 加速卡+CPU对比纯CPU性能那个提升 10+倍 系统进行内存调度算法优化,增强 内存访问速度 采用全文检索、动态页面生成等技术提供 ms级查询响应存储单元: 优化文件系统热点数据读取算法,整机磁盘I/O高达 500+MB/s 小文件聚合技术,解决小文件

19、快速写入问题 SSD 加速缓存与传统磁盘比较读性能提升 20倍通信单元: 节点间通信网络采用远程直接数据存取技术,能够支持 1000+节点 之间同时的大数据量传输 节点间网络采用 40Gb/s 高速网络,网络延迟低至 us级单击此处编辑母版标题样式MPP 数据库:DaaS 的计算引擎企业级数据仓库企业级数据仓库分析型数据集市分析型数据集市 Greenplum DB: Greenplum DB: DataData asas a a ServiceService的计算引擎的计算引擎Gartner 公司每年发布关于数据仓库管理系统业界地位的魔法象限研究报告公司每年发布关于数据仓库管理系统业界地位的魔

20、法象限研究报告 报告主要从数据仓库厂商的执行力和远景两个方面评估报告主要从数据仓库厂商的执行力和远景两个方面评估 评估对象包括传统的企业级数据仓库和新一代的评估对象包括传统的企业级数据仓库和新一代的 MPP 并行数据库厂商并行数据库厂商 支持各种规模、有大量并发用户、能管理混合工作负载的数据仓库 具备较高的客户满意度和强有力的服务支持 在数据仓库市场有长久的生命力 风险最低、产品成熟度最高Gartner Gartner 对领导者象限的评价对领导者象限的评价 采用前瞻性思维设计的数据仓库 较小的市场领导者,缺乏全球性发展 缺少较大的本地客户,因此不易证明其产品的功能和价值 在产品技术领域,某些特

21、性具备前瞻性,但综合能力需要完善Gartner Gartner 对远见者象限的评价对远见者象限的评价单击此处编辑母版标题样式 MPP 数据库:极速分析平台 并行处理架构并行处理架构MPP shared-nothing 架构,基于通用X86平台PB级以上海量存储,最大支持10000节点以上所有节点并发IO,实现超大IO吞吐,并行运行SQL 自动化并行自动化并行自动化并行计算,实现超大计算能力使用同传统DB一样,加载和运行SQL数据多节点分布及高可用性都由DB自身实现 极佳的横向扩展性极佳的横向扩展性在线横向扩展容量、加载和SQL查询性能随节点线性增加专为专为BI及数据分析优化及数据分析优化深度整

22、合统计数学模块(SAS, SOLR, MADLIB, R)高性能并行SQL执行器 MPP shared - nothing 架构架构构建在构建在X86开放平台上的并行处理架构开放平台上的并行处理架构单击此处编辑母版标题样式 MPP 数据库:行业最快的数据加载技术 每个每个Rack(16节点)节点),每小时每小时16TB加载性能加载性能 Scatter-Gather Streaming提供性能线性扩张提供性能线性扩张 支持大批量数据加载和持续化的数据加载支持大批量数据加载和持续化的数据加载 Enable complex data transformations “in-flight” 对对GBK

23、/UTF8/ISO8859字符集的原生支持字符集的原生支持GreenplumOracleExadataNetezzaTeradataSINGLE RACK COMPARISONGreenplum load rates scale linearly with the number of racks, others do not. For example, two racks = 32 TB/HLoad单击此处编辑母版标题样式MPP 数据库:高可用性ClientRedundantInterconnectMPSegment ServersPrimaryMaster1 Sync &Failov

24、erProcesses Standby MasterPrimaryDataRAID 5 ProtectionA1B1C1A2B2C2A1B1C1A2B2C2MirrorData2345 提供了全量备份和增量备份功能,保证系统级故障后的数据恢复提供了全量备份和增量备份功能,保证系统级故障后的数据恢复 对于任一设备的故障,系统数据不丢失、提供持续服务对于任一设备的故障,系统数据不丢失、提供持续服务 多个节点宕机后,系统性能只降低多个节点宕机后,系统性能只降低1/6单击此处编辑母版标题样式MPP 数据库: 负载管理技术查询层对运行的查询提供基本的优先级管理对CPU内存IO利用率进行定额分配控制单个查

25、询并发度会话层每个用户能够分配一个资源队列管理工作允许控制查询和查询代价数据库连接层控制多少用户可以连接。提供的池(允许大量)和(限制数量)单击此处编辑母版标题样式MPP 数据库:Polymorphic Data Storage( 多态存储 - 同时支持行存储及列存储 )Table CustomerTable CustomerJan 09Feb 09Mar 09Apr 09May 09Jun 09Jul 09Aug 09Sept 09Oct 09Nov 09Column-OrientedColumn-OrientedArchival CompressionArchival Compressio

26、nColumn-OrientedColumn-OrientedFast CompressionFast CompressionRow-OrientedRow-Oriented 提供灵活存储技术 四种表类型: 普通行表, AO表, 列存储表, 外部表 两种压缩技术: Gzip (levels 1-9), QuickLZ 同一库内甚至同一个表中多种存储技术混合使用 灵活定义不同表分区存储结构 只需定义关键字orientation=row|column 允许用户根据不同应用场景,达到最优性能效果单击此处编辑母版标题样式 MPP DB 与 HD 通过gNet无缝集成通过标准接口或编程语言,透明访问数据

27、库和Hadoop内部存储的数据 。单击此处编辑母版标题样式大数据一体机 SDA 50000SDA 50000 单柜满配备注数据分发节点2固定计算交换机2固定管理交换机2固定KVM1固定数据库节点12配、半配、满配总内存1.5T总核数192C硬盘总数量96 可用裸容量56 TB建议使用容量(3副本)18.75TB大数据分析系统软件:MPP 数据库 应用场景 : 数据仓库应用 / OLAP 多维分析 单击此处编辑母版标题样式大数据分析应用的关键技术之一 大数据分析套件组合:(完善生态链) 关系型数据库, NoSQL, 流计算,SQL on Hadoop, OLAP on Hadoop, OLTP

28、on Hadoop,Cache 缓存,In-Memory DB, In-Memory Data Grid,非关系型数据库,等等 。单击此处编辑母版标题样式大数据分析应用的关键技术之一SQL on Hadoop 最初的设计定位: 专为分析完整事务支持而优化的大规模并行SQL处理引擎 。单击此处编辑母版标题样式大数据分析应用的关键技术之一SQL on Hadoop 技术的重要特性和优点:l 高度扩展和存储系统l 业界领先的性能与动态流水线l 弹性故障容错和事务支持l 数据管理和分析工具包l 真实的SQL功能 基于成本的世界一流查询优化、领先的边缘网络互连 、功能丰富的SQL和分析界面 、并配有事务

29、性存储子系统的高性能执行运行时间 ,是唯一 能够提供此技术的 Hadoop 查询引擎 。单击此处编辑母版标题样式大数据分析应用的关键技术之一 Hadoop 分析框架体系HDFSHBasePig, Hive, MahoutMap ReduceSqoopFlumeResource Management & WorkflowYarnZookeeperCommand CenterConfigure, Deploy, Monitor, ManageData LoaderHadoopEnterpriseSpringUnified Storage Service XtensionFrameworkC

30、atalogServicesQueryOptimizerDynamic PipeliningANSI SQL + AnalyticsHadoop Virtualization ExtensionDistrubuted In-memory StoreQuery TransactionsIngestion ProcessingHadoop Driver Parallel with CompactionANSI SQL + In-MemoryGemFire XD Real-Time Database ServicesMADlib AlgorithmsHAWQ Advanced Database Se

31、rvices单击此处编辑母版标题样式大数据产品线 大数据一体机 SDA 60000SDA 60000 单柜满配备注管理节点2固定,HA计算交换机2固定管理交换机2固定KVM1固定数据节点16配、半配、满配总内存2T总核数192C硬盘总数量192可用裸容量768TB建议使用容量(3副本)256TB大数据分析系统软件:Hadoop 系统 应用场景: 海量数据离线批处理 / 查询分析单击此处编辑母版标题样式大数据分析应用的关键技术之一 分布式内存数据库DatabasesOther Data Systems文件系统常用的数据存储高吞吐量低延时高伸缩性持续可用性可靠的事件通知连续查询并行执行广域网分布数

32、据调用方数据持久性分布式内存数据库单击此处编辑母版标题样式大数据一体机 SDA 80000大数据分析系统软件(分布式内存数据库): 应用场景:海量数据高并发查询 / 实时事务处理 分布式内存数据库SDA 80000 单柜满配备注数据分发节点2固定,HA计算交换机1固定管理交换机1固定KVM1固定数据节点16配、半配、满配总内存4 T总核数192 C硬盘总数量384 块 单击此处编辑母版标题样式PaaS 平台的核心组件 Cloud Foundry 企业版单击此处编辑母版标题样式Cloud Foundry 企业版的主要功能 跨云部署机制单击此处编辑母版标题样式 PaaS 平台弹性运行时环境 Clo

33、ud Foundry 单击此处编辑母版标题样式大数据一体机 SDA 90000计算单元分布式数据处理模块大数据存储模块加速器高速交换网络可视化管理 大数据分析处理 PaaS 平台 大数据分析 SaaS 应用预测预警类服务动态监控类服务信息处理类服务存储单元网络单元大数据分析 PaaS 平台(一体化集群部署方案) 应用场景: 海量数据 存储 / 分析 / 查询 / 开发弹性运行时环境模块数据服务总线API 接口分析研判类服务单击此处编辑母版标题样式单击此处编辑母版标题样式公安行业信息化特点单击此处编辑母版标题样式公安行业面临的严峻形势和挑战单击此处编辑母版标题样式公安行业大数据应用整体解决方案单击此处编辑母版标题样式公安行业大数据分析平台建设内容单击此处编辑母版标题样式大数据分析平台分层模型单击此处编辑母版标题样式大数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论