版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 2011 IBM Corporation Information Management大数据平台技术交流 2011 IBM CorporationInformation Management2从各种各样类型的巨大数据中,快速获得有价值信息的能力,就是大数据技术什么是大数据Variety: 管理复杂的多角度关系和非关系类型的数据 (你是否忽略利用的非结构化数据进行决策吗)Velocity: 流数据或者大量数据的移动 (你是否希望通过实时操作提供更好的结果)Volume: 数据量从TB级到ZB级 (你是否收集了所有数据,并在使用它吗)Veracity:1/3 的领导在做业务决策时候不相信获得的信
2、息 2011 IBM CorporationInformation Management大数据参考架构超越传统的数据仓库概念流计算Internet级别传统数据仓库In-Motion AnalyticsData Analytics, Data Operations & Model BuildingResultsInternet ScaleDatabase &WarehouseAt-Rest Data AnalyticsResultsUltra Low Latency ResultsInfoSphere BigInsights传统/关系型数据源非传统/非关系型数据源传统/关系型数据
3、源非传统/非关系型数据源 2011 IBM CorporationInformation ManagementCloud | Mobile | Security IBM大数据平台和应用框架通过可视化的方法采集、抽取、以及探查数据应用加速器,加速应用开发,快速实现分析价值BI / ReportingBI / ReportingExploration / VisualizationFunctionalAppIndustryAppPredictive AnalyticsContent AnalyticsAnalytic Applications(分析应用)IBM Big Data Platform(
4、大数据平台)(大数据平台)Systems ManagementApplications & DevelopmentVisualization & Discovery分析流数据,以及在大数据的是谁数据洞察数据管控(数据质量、生命周期、)低成本地分析PB级结构化和非结构化数据操作型数据或者历史数据的,基于数据仓库内嵌分析Accelerators(加速器)Information Integration & Governance信息整合和管控HadoopSystemStream ComputingData WarehouseContextual Discovery索引和联邦的上
5、下文相关分析 2011 IBM CorporationInformation Management议程s IBM数据仓库平台pure Data 基于大数据平台的数据分析-DataExplorer IBM大数据优势汇总 2011 IBM CorporationInformation Management6Forrester Wave关于大数据的报告 2011 IBM CorporationInformation ManagementBigInsights 企业版连接和集成StreamsNetezzaText processing engine and library JDBCFlume基础架构J
6、aqlHivePigHBase MapReduceHDFS ZooKeeperIndexingLuceneAdaptive MapReduceOozieText compressionEnhanced securityFlexible scheduler可选 IBM 产品分析和探查应用 DB2BigSheetsWeb CrawlerDistrib file copyDB exportBoardreaderDB importAd hoc queryMachine learningData processing. . . 管理和开发工具 管理控制台 Monitor cluster health,
7、jobs, etc. Add / remove nodes Start / stop services Inspect job status Inspect workflow status Deploy applications Launch apps / jobs Work with distrib file systemWork with spreadsheet interfaceSupport REST-based API . . . R Eclipse 开发工具 Text analytics MapReduce programming Jaql, Hive, Pig developme
8、nt BigSheets plug-in development Oozie workflow generation Integrated installerOpen SourceIBM IBM Cognos BIBig SQL Accelerator for machine data analysis Accelerator for social data analysis GuardiumDataStageData ExplorerSqoop HCatalogGPFS FPO 2011 IBM CorporationInformation ManagementBigInsights 优势列
9、表 High Performance & Availability GPFS-FPO At least 2X faster than open source Hadoop 17x throughput speedup for document index lookups Fault resistance for Real Time Data POSIX Adaptive MapReduce SQL Interface ( BigSQL ) Integrated Install & Mgt Consoles Security LDAP+ High speed LZO Compre
10、ssion Development Tooling environment, testing, and optimization Warehouse RDBMS & Streams Integration SystemT Text Analytics Blazing Fast, Uses Unstructured data does not require structuring, (MapReduce) Customized Annotators BigSheets Insight Engine for analytics on Massive amounts of data in
11、BigInsights. Power of Map/Reduce within reach of the Business professional with a familiar Spreadsheet-like environment. Built in Visualizations SystemML Machine Leaning (Watson) Directly implemented ML algorithms on MapReduce Deep Statistical / Mining embedded into BigInsights Platform BigIndex Dis
12、tributed indexing and search Parallel indexing and search企业级别基础设施企业级别分析能力 2011 IBM CorporationInformation ManagementGPFS-FPO与HDFS各项指标对比BigInsights GPFS-FPO开源HDFS或其他方案健壮性无单点故障 99.99%NameNode 存在单点故障数据一致性高数据可能会丢失可扩展性数千节点,实测4000+数千节点POSIX 兼容完全兼容有限数据管理能力安全、备份、快照、缓存、复制有限传统应用性能好,兼顾读写性能随机读写性能差安全性支持ACL, 容量限制
13、,安全认证不支持 2011 IBM CorporationInformation ManagementIBM Adaptive MapReduce 提供强大的企业级管理,用于在可扩展的共享网格上运行分布式应用程序和大数据分析。它可加速数十个并行应用程序,以加快实现成果并更好地利用所有可用资源。TeraSort ThroughputSWIM10 times fewer CPU cores6 times faster60 times fasterBerkley SWIM is a workload benchmark developed at University of California at
14、 Berkley.Measure core scheduling efficiency of MapReduce workloads at Hadoop World 2011Multi-tenant resource management10 x Less hardware for the fastest TeraSort score. 2011 IBM CorporationInformation ManagementBig SQL: 让 Hadoop 原生支持 SQL 原生 SQL 支持 BigInsights ANSI SQL 92+ Standard syntax support (j
15、oins, data types, ) 真正的 JDBC/ODBC Prepared statements Cancel support Database metadata API support Secure socket connections (SSL) 优化 Leveraging MapReduce parallelismor Direct access for low-latency queries 多种数据源 HBase (including secondary indexes) CSV, Delimited files, Sequence files JSON Hive tabl
16、esBig SQL EngineBigInsightsData Sources SQLHive TablesHBase tablesCSV FilesApplicationJDBC / ODBC Server JDBC / ODBC Driver 2011 IBM CorporationInformation Management使用报表工具 Cognos BI server 可以下推计算到 BigInsights 更快响应时间 没有 Hive 的限制Application (Map-Reduce)Storage(HBase, HDFS)InfoSphere BigInsightsCognos
17、 BI ServerExplore & AnalyzeReport & ActSQL Interfacevia JDBC 2011 IBM CorporationInformation Management可以使用已有的工具: SQuirreL SQLUsing existing SQL tooling against BigDataSupport for “standard” authentication!(not supported for Hive, but supported by Big SQL!)13 2011 IBM CorporationInformation
18、Management可以使用已有的工具: EclipseUsing existing SQL tooling against BigDataSame setup as for existing SQL sources!Support for “standard” authentication!14 2011 IBM CorporationInformation Management集成的基于Web的安装无缝的单节点或者集群模式安装开源组件和IBM组件的安装验证检查,确保系统正常运行 2011 IBM CorporationInformation Management基于Web的管理控制平台任务
19、和工作流管理系统健康监控集群以及文件系统管理 2011 IBM CorporationInformation Management基于表单的分析 2011 IBM CorporationInformation Management仪表盘 2011 IBM CorporationInformation Management议程s IBM数据仓库平台pure Data 基于大数据平台的数据分析-DataExplorer IBM大数据优势汇总 2011 IBM CorporationInformation Management计算模式的变革动态数据的实时分析动态数据的实时分析 流数据流数据 结构或非
20、结构化动态数据流结构或非结构化动态数据流 流计算流计算 实时对流数据进行分析计算实时对流数据进行分析计算静态数据的历史分析静态数据的历史分析 批处理模式批处理模式 查询驱动:静态数据提交查询查询驱动:静态数据提交查询 依靠数据库,数据仓库依靠数据库,数据仓库传统计算模式传统计算模式流计算模式流计算模式QueriesMemoryDiskUpdatesMemoryDiskEvent DataQueriesAlerts Actions20 2011 IBM CorporationInformation ManagementIBM InfoSphere StreamsA platform for re
21、al-time analytics on BIG data 一个处理流数据的低延迟平台毫秒级,甚至微妙级端到端的延迟 一个可高度扩展的,用于实时分析的高性能平台通过横向增加硬件获得近线性的处理能力扩展高达125个节点扩展 一个灵活的、动态的平台Streams应用灵活部署支持动态部署新的分析应用Millions of events per secondMicrosecond LatencyTraditional / Non-traditional data sourcesReal time decisionsPowerfulAnalyticsAlgo TradingTelco churnpred
22、ictSmartGridCyberSecurityGovernment /Law enforcementICUMonitoringEnvironmentMonitoring21 连续注入连续分析实现可扩展: 将应用分布到多个计算节点 在流连接的硬件节点之间分发Streams流计算平台流计算平台基础设施提供服务:在跨硬件/软件节点中调度分析建立流媒体连接变换过滤 / 采样分类关联注释在适当的地方,处理单元可以是“融合”在一起从而消除通信的延迟 2011 IBM CorporationInformation Management 2013 IBM CorporationInformation Ma
23、nagementStreams Toolkit (常用常用)JoinFunctorAggregatePunctorSortFilterDirectory-ScanFileSourceFileSinkUDPSourceUDPSinkTCPSourceTCPSinkExportImportODBCSourceODBCEnrichsolidDBEnrichInetSourceODBCAppend 2011 IBM CorporationInformation Management高度可并行扩展能力同时利用几十台、上百台进行实时数据流处理 2011 IBM CorporationInformation
24、 ManagementX86 BoxX86 BladeCellBladeBlue GeneFPGABladeX86 BladeX86 BladeX86BladeX86 BladeX86BladeTransport Streams Data Fabric高可用、集群部署能力Processing Element ContainerProcessing Element ContainerProcessing Element ContainerProcessing Element ContainerProcessing Element Container优化调度器把操作符分配到不同的节点运行,并持续监
25、控资源的使用情况自适应资源、工作负载、数据速率的变化在低成本硬件上运行从单节点PC到刀片服务器到多阵列集群 2011 IBM CorporationInformation Management26参考性能数据参考性能数据 吞吐性能和延迟吞吐性能和延迟1,975 streams2,133 streams163 streams24 channels163 Decision Engines356 Blue Gene Nodes356 Processing Elements4,274 streamsData Feed每秒500万条记录平均延迟 150 微秒最小延迟50 微秒65K中49条延迟 2 毫秒
26、 2011 IBM CorporationInformation Management 2013 IBM CorporationInformation Management大数据的实时分析平台大数据的实时分析平台分析不同的数据源,每秒分析上百万个事件分析不同的数据源,每秒分析上百万个事件易用性能易用性能 图形化应用开发模式,容易管理和监控图形化应用开发模式,容易管理和监控集成能力集成能力 集成集成XML ,MQ, DataStage,HDFS等等高级工具包和加速器高级工具包和加速器 事件序列和地理信息数据库工具箱和事件序列和地理信息数据库工具箱和CEP处理处理 可定制化的电信和媒体分析加速器帮
27、助快速部署可定制化的电信和媒体分析加速器帮助快速部署应用应用.InfoSphere StreamsInfoSphere Streams 2011 IBM CorporationInformation Management议程s IBM数据仓库平台pure Data 基于大数据平台的数据分析-DataExplorer IBM大数据优势汇总 2011 IBM CorporationInformation Management 专家集成数据系统for Transactions为满足交易型数据服务而优化的系统for Operational Analytics为满足操作型分析数据服务而优化的系统for
28、Analytics为满足分析型数据服务而优化的系统Data PlatformDelivering Data Services 2011 IBM CorporationInformation Management议程s IBM数据仓库平台pure Data 基于大数据平台的数据分析-DataExplorer IBM大数据优势汇总 2011 IBM CorporationInformation ManagementIBM InfoSphere Data ExplorerApplication/Users结合企业各类数据,包括大数据的分析结果FileSystemsRelationalDataCont
29、entManagementEmailCRMSupplyChainERPRSS FeedsExternalSourcesCloudCustomSourcesVelocity PlatformIBM Big Data PlatformSystems ManagementApplication DevelopmentVisualization & DiscoveryAcceleratorsInformation Integration & GovernanceHadoopSystemStream ComputingData WarehouseCommentingRatingSharedFoldersTagging 2011 IBM CorporationInformation ManagementIDE给最终用户提供整合的企业级的信息探查Application FrameworkReal TimeAnalyticsInternet ScaleAnalyticsIn-DatabaseAnalyticsFederate
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 致800运动员的加油稿汇编15篇
- 双11活动策划方案图片内容
- 昆虫记读后感600字范文初中(30篇)
- 生产实习报告范文6篇
- 水库抗旱方案
- 勤工俭学工作总结
- 《设计中的人机关系》说课稿(附教学设计)
- 天津市2024-2025学年高二上学期11月期中物理试题(无答案)
- 山东省枣庄市峄城区2024-2025学年五年级上学期期中道德与法治试题
- 河南省通许县+2024-2025学年七年级上学期期中考试道德与法治试卷
- 音乐学科家长会
- 《云计算技术及应用》期末试卷二(含答案)
- 床单位终末清洁与消毒模拟实操培训课件
- 太阳能光伏材料回收与回收利用投资报告
- 启蒙思想家卢梭
- 诊所计划书范本
- 小学一年级新生学位申请表
- 西泠印社小学三年级上册书法
- 粮油保管员(中级)技能理论考试题库-上(单选题汇总)
- 医院志愿者培训课件
- 幼儿园中班健康《不一样的气味》PPT
评论
0/150
提交评论