版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、青岛利群集团数据仓库项目IBM解决方案Analytics Platform分析源增强型应用可操作的洞察 决策管理 数据建模 预测分析探索&发现 分析报表规划&预言内容分析共享操作性信息主数据&相关参考核心内容核心活动元数据编目客户体验管理财务绩效支持新业务模式风险管理防欺诈API 经济整合数据仓库企业数据仓库数据沉淀探索&归档基础数据平台交互式分析&报表数据集市数据集成 数据质量转换&加载数据源传统数据源交易数据 应用数据 第三方数据新数据源 机器 传感器数据 图像音视频数据企业内容数据社交媒体 数据移动互联网数据数据获取与访问流计算 实时分析与处理安全与业务持续性管理事件检测与处理IT基础平
2、台数据治理IBM数据分析参考架构数据仓库建设路线第一期第二期第三期阶段关注点平台搭建数据利用能力提升子系统数据模型建立数据模型扩展数据模型进化数据模型数据集成项目内数据集成组织内数据集成按需数据集成企业级数据仓库建立平台优化平台扩展平台基础数据平台共享平台独立成长相互融合流数据处理平台建立平台推广平台数据展现能力标准化展现自助式展现智能化展现数据挖掘能力应用数据挖掘推广数据挖掘数据治理部门级数据标准组织级数据标准数据仓库解决方案(一期)方案一:数据仓库一体机方案方案二:开放平台方案分析源增强型应用可操作的洞察 决策管理 数据建模 预测分析探索&发现 分析报表规划&预言内容分析共享操作性信息主数
3、据&相关参考核心内容核心活动元数据编目客户体验管理财务绩效支持新业务模式风险管理防欺诈API 经济整合数据仓库企业数据仓库数据沉淀探索&归档基础数据平台交互式分析&报表数据集市数据集成 数据质量转换&加载数据源传统数据源交易数据 应用数据 第三方数据新数据源 机器 传感器数据 图像音视频数据企业内容数据社交媒体 数据移动互联网数据数据获取与访问流计算 实时分析与处理安全与业务持续性管理事件检测与处理IT基础平台数据治理产品架构图PDADatastageCognos一体机方案部署架构部署数据仓库一体机服务器1台,用于数据仓库和ODS数据的存储和访问管理。部署ETL服务器1台,用于ETL工具Dat
4、astage的运行。部署BI服务器1台,用于展现工具CognosBI的运行。2台X86服务器之间实现互为备份,保证高可用性。配置列表数据仓库服务器PDA N3001-0011台ETL服务器CPU: 20 cores内存: 128GB内置硬盘:300GB*2以太网卡:1*双口千兆网卡1台BI服务器CPU: 20 cores内存: 128GB内置硬盘:300GB*2以太网卡:1*双口千兆网卡1台ETL软件IBM Datastage1套BI软件IBM Cognos1套有目的性构造的分析引擎集成了数据库、服务器、存储标准接口总体拥有成本低速度: 快于传统系统10-100 x倍简单: 最小化管理和调优扩
5、展: PB级的用户数据容量智慧: 高可用性实现高级分析功能PureData for Analysis 专为数据仓库设计PureData System for Analytics N3001-001集成度更高配置更合理、速度更快磁盘、I/O通道、内存、CPU、网络均衡设计针对数据仓库访问最优设计比传统类似平台高出一个数量级以上整体能耗更低同等计算任务,能耗最低系统更加稳定可靠消除各种单点故障环节管理维护费用低数据仓库的常规管理全部集成大大简化物理设计环节可规划和预见的系统扩容、升级路线图系统扩充、软件升级、旧设备回收N3001-0012 * IBM x3650 M4每台服务器CPU2cpus *
6、 10cores=20cores, 2.28GHz内存128GB磁盘24*600GB SAS disks, hot swappable, RAID 10网卡可用的网卡包括:1张4口的千兆卡(2个口可用)2张2口的万兆卡(2个口可用)1张双口的HBA卡(2个口可用)其他模块1 Integrated Management Module(host-independent remote control,10/100Mbps)(远程管理硬件的模块),4个USB口电源2 redundant power supplies, hot-pluggable(2个冗余配置的电源)操作系统Red Hat Enterp
7、rise Linux Server压缩后可用数据16T1数据扫描速度60TB/hr1数据库NPS7.21 Assuming 4X compressionEvolution of Netezza & PureData System for Analytics Worlds FirstData WarehouseApplianceWorlds First100 TB DataWarehouse ApplianceWorlds FirstPetabyte DataWarehouse ApplianceWorlds FirstAnalytic Data Warehouse ApplianceNPS80
8、00 SeriesTwinFin with i-Class Advanced AnalyticsNPS10000 Series TwinFin20032006200920102012 2016Worlds Fastest and Greenest Analytical AppliancePureData System for AnalyticsN300 xPureData System for AnalyticsN200 xWorlds First appliance with no cost encryption传统的数据仓库架构:服务器和存储之间的数据流存在重大瓶颈! 查询结果查询请求存储
9、服务器关系型数据库软件数据数据首先被搬运到内存,然后由 SQL 进行处理大批的数据从磁盘中“搬移”到内存,成为整个系统的瓶颈 查询结果PDA数据仓库设备PDA数据仓库专用设备:性能的革命性突破MPP “智能存储”: 数据处理单元与存储相结合SMP主机(2-4 CPU)查询请求网络流量:仅为现有系统的1%CPU:仅为现有系统的2% 数据在进入到内存之前,已经经过流式的数据处理 Zone MapsTM “自由”的存在,自动维护,无需干预每个磁盘extent包含来自于各个表的记录我们在每个extent上跟踪字段的最大最小值Zone maps可以对date, timestamp, byteint, s
10、mallint, integer和bigint型数据生效 当数据被loaded / updated / deleted时Zone maps自动更新没有对load / update / delete 速度的影响Zone Maps自动分区Zone Maps利用内在的数据顺序在一个数据切片内.为表中的每一列(Integers, timestamps, dates型)按每个extent收集最大最小值每条搜集到的记录插入zonemap中为该表准备的数据区中.当一个查询运行时, 数据切片减少到只扫描一部分extents自动配置在搜集统计信息时Stats在Loads时在inserts, updates, l
11、oads和reclaims时.Zone MapsZone Maps可以用于只扫描相关数据系统知道数据在不在extents上,并只扫描有关的表extentsBase TableSelect State, Age, Gender, count(*) From MultiBillionRowCustomerTable Where BirthDate 01/01/1960 And State in (FL, GA, SC, NC) Group by State, Age, Gender Order by State, Age, Gender数据流处理CPU Core 解压投影过滤SQL &Advanc
12、ed AnalyticsFrom MultiBillionRowCustomerTableWhere BirthDate Header and Footer to change this footer text to the event title开放的软件生态圈SQL ODBC JDBC OLE-DBSQL ODBC JDBC OLE-DBData InData OutData IntegrationReporting & AnalysisIBMBigInsightsInformation ServerInfoSphere StreamsAb InitioClouderaComposite
13、SoftwareHadoopInformaticaMicrosoftOracleSAPSASIBMCognosSPSSUnicaActuateHadoopInformation BuildersKalidoKXENMicrosoft MicroStrategyOracle SAPSASTableauNote: Sample list, not all inclusive IBM Fluid QueryCross platform query from PureData System for Analytics to dashDB, DB2, Oracle, and PureData Syste
14、m for Analytics统一访问多样化信息源SQL QueriesQuestionAnswerData Movement23国内成功案例(部分)More Coming 数据仓库解决方案(一期)方案一:数据仓库一体机方案方案二:开放平台方案分析源增强型应用可操作的洞察 决策管理 数据建模 预测分析探索&发现 分析报表规划&预言内容分析共享操作性信息主数据&相关参考核心内容核心活动元数据编目客户体验管理财务绩效支持新业务模式风险管理防欺诈API 经济整合数据仓库企业数据仓库数据沉淀探索&归档基础数据平台交互式分析&报表数据集市数据集成 数据质量转换&加载数据源传统数据源交易数据 应用数据 第
15、三方数据新数据源 机器 传感器数据 图像音视频数据企业内容数据社交媒体 数据移动互联网数据数据获取与访问流计算 实时分析与处理安全与业务持续性管理事件检测与处理IT基础平台数据治理产品架构图DB2 MPP+BLUDatastageCognos一体机方案部署架构部署数据仓库一体机服务器1台,用于数据仓库的数据存储与处理。建议使用DB2 BLU技术。部署ODS服务器1台,用于ODS层的数据存储和处理。建议使用DB2 DPF技术。部署X86服务器1台,用于ETL工具Datastage的运行。部署X86服务器1台,用于展现工具CognosBI的运行。配置列表数据仓库服务器CPU: 32 cores内存
16、: 256GB内置硬盘:300GB*2以太网卡:1*双口千兆网卡1台ODS服务器CPU: 32 cores内存: 256GB内置硬盘:300GB*2以太网卡:1*双口千兆网卡1台Datastage服务器CPU: 20 cores内存: 128GB内置硬盘:300GB*2以太网卡:1*双口千兆网卡1台Cognos服务器CPU: 20 cores内存: 128GB内置硬盘:300GB*2以太网卡:1*双口千兆网卡1台外置存储设备4T空间1台数据仓库软件IBM DB2 高级企业版 V111套ETL软件IBM Datastage1套BI软件IBM Cognos1套面向联机分析的 DB2 数据仓库集群
17、- DB2 DPF分区数据库分布在多个服务器上 为什么需要分区? 规模超大, 性能需要, 优势对用户和应用程序透明并行性工作负载分散在所有结点通过增加更多服务器来增加伸缩性适用于大型数据库:数据仓库数据挖掘在线分析处理DB2 with DPFDB2 核心超尺寸构架基于并行性,又称为 Shared NothingInter and intraNode/partition Parallelism Inter Query Parallelism. Intra Query性能, divide and rule, 没有限制的规模基于开销的优化器和查询重写器SQL和实用工具完全平行运行根据负载动态分流异步
18、I/O 平行I/ODPF的MPP架构,专门为数据仓库设计优化非共享DB2数据库和哈希分区一个 数据库被拆分成多个数据库分区 数据库分区运行于不同的服务器之上 每个数据库分区具有平衡的系统资源 所有数据库分区并行处理、有DBMS统一协调管理 对用户、DBA和应用程序来讲为单一数据库系统映像select from tableTablesFCM networkDatabasePartition ndata+logEnginePartition 3data+logEnginePartition 2data+logEnginePartition 1data+logEngineDB2 DPF Share
19、Nothing系统架构DB2 下一代分析技术 BLUDB2 BLU是什么?DB2 BLU 是面向分析的内存计算数据库直接内置在 DB2 内核中的列计算引擎按列方式存储和管理表DB2 BLU的价值极高性能,BLU针对CPU、内存和IO进行特别优化,如矢量计算引擎、自适应CPU并行、高级页面缓存、按列选取数据、无效数据过滤等深度智能压缩,大规模节约存储空间,大幅减少运算量简单易用,无需索引、分区及物化视图,更低的运营成本和DB2无缝集成,一致的SQL语句、开发接口和管理方式突破的技术结合并扩展最好的技术已申请和待批的专利超过25 项利用跨全球7 个国家的10 个实验室的多年IBM研发成果典型的体验
20、易于实施和使用10 倍至25 倍的性能提升和未压缩的数据和索引相比,节约10倍至20倍的存储Super Fast, Super Easy Create, Load and Go!No Indexes, No Aggregates, No Tuning, No SQL changes, No schema changesBLU Acceleration与众不同的技术31InstructionsDataResultsDynamic In-Memory 动态内存In-memory columnar processing with dynamic movement of data from stora
21、ge Parallel Vector Processing并行向量处理Multi-core and SIMD parallelism(Single Instruction Multiple Data)Data Skipping数据忽略Skips unnecessary processing of irrelevant dataActionable Compression可行性压缩Patented compression technique that preserves order so data can be used without pressingEncoded 2015 IBM Corp
22、oration 业务敏捷部署在本地或者在云上,需要较少的硬件资源“使用 DB2 10.5 with BLU Acceleration, 我们的存储消耗下降了 10 x” - Kent Collins, Database Solutions Architect 分析速度分析数据的速度像提问一样快“我们在分析负载中验证了DB2 10.5 with BLU Acceleration,发现可以得到 43x 的性能提升” - Randy Wilson, Lead DB2 for LUW DBA 操作简单基于现有的架构最大化业务价值;无需打破或替换“由于较少的管理和调优需求,我们一年可以节省42天.” B
23、renda Boshoff, Sr. DBADB2 with BLU Acceleration BLU可以更多地支持哪些业务?如何能在有限的时间内得到更多的业务查询结果?额外一个月能多做多少业务?怎样节省10倍投资并得到更多的业务价值? DB2 BLU的典型应用场景 - 改善查询分析的性能报表数据集市Multi-platform softwareDB2 BLU业务数据库或数据仓库复制表结构,迁移数据!性能的飞跃处理TB级数据无需进行调优支持Power、Linux多种平台查询分析应用查询分析应用简单迁移到DB2 BLU数据集市Cognos BI +BLU Acceleration + Power
24、 Systems 快速,快速,快速对于Cognos BI 用户,有效地提升存储利用率DB2 with BLU组件增强Cognos BI分析能力基于MPP(海量数据处理的处理器架构设计)vs. Competitor Row Store Database on Ivy Bridge (x86)182x fasterDynamicQueryCompatibleQueryDynamicCubes DB2 with BLUCognos基于DB2 with BLU Acceleration上的预测型分析DB2 with BLU Acceleration对SPSS的支持提升预测型决策分析的响应时间利用in-
25、database性能减少数据移动,在更短的时间内分析大量的数据在影响点提供决策的智能预测 DB2 with BLU数据库Database SQL pushback & in-DB处理使用的资源.服务器 分析使用的资源.SPSS Modeler ServerSPSS Modeler Desktops紫色节点表示SQL pushback发生在数据库内 A sample SPSS Modeler and SPSS Analytic Server streamInfoSphere DataStage 是统一数据集成平台数据整合数据质量广泛链接元数据支持分布式交易数据屏蔽业务规则工业标注 高可扩展架构平
26、衡优化器使用模式企业应用包 统一元数据存储一套设计套件统一管理中心统一设计环境基于 DataStage 的数据整合架构建立标准化的数据采集、数据整合、数据交换和分发的架构;能随业务需求变化而维持和成长,确保一个高质量的可维护架构加速生产力,提高效率图形化开发,并行处理方式,提高处理效率好的易用性高可扩展性扩展硬件架构不需要重新开发工作,只需相应修改硬件配置文件即可,支持跨多个服务器配置的MPP或Grid的运行方式。高可维护性基于Web的运维监控友好易用,快速浏览和分析运行环境,高效负载管理高集成性广泛的数据联结性,支持目前的各种应用接口;统一的并行处理和统一的元数据是服务器架构的核心 ;转换功
27、能广泛又灵活,可满足各种集成要求,并高速结合并整理异构数据,转换并转移海量的复杂数据。InfoSphere Data Click点击两次即可向数据集市加载数据基于Web的用户体验,允许毫无经验的用户通过简单地点击以批量或者实时的方式移动数据,并具有内置的管理和优化措施内置管理: 定义和控制数据获取的范围和数据结构业务灵活性:数据获取自服务,选择所需数据结构来获取数据内置管理:查看和管理环境和依从度IBM Cognos 能够充分利用企业内所有数据源,满足企业各种业务用户对于数据报表和分析的需求经过验证的SOA平台,开放的API公共元数据(单一版本事实)开放的数据访问接口数据仓库Modern an
28、d Legacy SourcesApplication SourcesOLAP SourcesRelational Sources同样的信息,多样化的访问方式报表KPI预警仪表盘查询&分析自定义报表协作数据仓库一体机(Inetezza/HANA/TD/GP.)IBM Cognos 提供多种展现形式,满足企业不同业务用户的需求面向高管的仪表盘关键指标的预警&分析固定报表自定义报表&分析个人数据探查分析简便,可交互,支持脱机和移动设备访问关键业务&财务指标的可视化展现,能够对关键指标主动告警(邮件,短信,门户信息推送等主动告警)通过鼠标拖拽的形式定义各种复杂的报表,支持报表的调度/分发,格式转换,条件选择,钻取分析等.基于Web的鼠标拖拽形式的自定义报表功能,操作简便,直观.基于桌面的个人数据探查和分析,无需IT建模,支持桌面数据文件及BI服务器数据,可将结果共享给BI应用中其他用户.分析型仪表盘支持仪表盘的快速拼装,对发现的业务问题提供极强地交互相分析能力数据高级可视化分析提供高级可视化图形引擎,从复杂数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北京中医药大学东方学院《农业项目投资评估》2023-2024学年第一学期期末试卷
- 2025版精装房屋租赁合同范本及家具配置升级方案3篇
- 贴牌生产合同协议书范本
- 二零二五年家庭关系修复调解合同3篇
- 劳动合同领取签收确认书
- 居民供用电合同
- 清理垃圾合同书
- 环评合同标准模板
- 2025版体育赛事活动球队赞助推广合同3篇
- 2025版汽车零部件委托加工合同范本汇编3篇
- 失业保险待遇申请表
- 少儿绘画之《水仙花开迎春来》
- 医院抗菌药物遴选和采购管理制度
- 西安市城市规划管理技术规定
- Geoframe操作流程(详解版)
- 三类医疗器械最新管理制度修订版(2022)
- 环境清洁消毒与医院感染控制ppt课件
- 脑卒中康复治疗流程图
- 《Something Just Like This》歌词
- 人民网删除稿件(帖文)申请登记表
- 桥梁加固、拼宽流程图(共9页)
评论
0/150
提交评论