商业BI整体建设解决方案建议书_第1页
商业BI整体建设解决方案建议书_第2页
商业BI整体建设解决方案建议书_第3页
商业BI整体建设解决方案建议书_第4页
商业BI整体建设解决方案建议书_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

BI系统整体建设解决方案建议书BI系统–整体建设解决方案建议书目录目录TOC\o"1-4"\h\z\u第1章 客户需求概述 11.1 项目建设背景 11.2 需求分析 1第2章 XXX建议整体建设解决方案 32.1 解决方案系统架构 32.2 解决方案组成 42.2.1 数据仓库(InfoSphereWarehouseLayer) 42.2.2 数据集市(DataMartLayer) 52.2.3 数据ETL处理系统 52.2.4 业务应用 52.2.4.1 Cognos客户洞察分析报表 52.2.4.2 报表门户 52.2.4.3 多维数据集 102.3 配置建议 142.4 整体解决方案优势 15第3章 数据仓库方案 173.1 XXX数据仓库方案概述 173.2 XXX数据仓库解决方案带来的价值 173.3 XXX数据仓库方案功能特点 183.3.1 数据分区技术(DPF,DatabasePartitioningFeature) 183.3.2 深度压缩技术 193.3.3 极限工作负载管理 203.3.4 嵌入式分析 213.3.5 数据挖掘、建模和打分 213.3.6 非结构化信息分析 223.3.7 OLAPCubing服务 233.3.8 灵活包装和许可选项 243.4 为什么选择InformationManagement软件 25第4章 数据仓库平台应用方案 284.1 InfoSphereDWPackforCustomerInsight方案概述 284.2 解决方案带来价值 294.3 InfoSphereDWPackforCustomerInsight功能特点 304.3.1 物理数据模型 304.3.2 Cognos应用报表 334.4 为什么选择InfoSphereDWPackforCustomerInsight 36第5章 数据抽取、转换和加载方案 385.1 InfoSphereDataStage方案概述 385.2 InfoSphereDataStageETL方案带来价值 405.3 InfoSphereDataStage软件功能特点 415.3.1 DataStage基于InformationServer的架构 415.3.1.1 通用用户界面 425.3.1.2 通用服务 425.3.1.3 通用知识库 435.3.1.4 通用并行处理引擎 435.3.1.5 通用连接器 435.3.2 直观易用的开发和维护环境 435.3.3 企业级实施和管理 465.3.3.1 作业顺序器 465.3.3.2 任务资源使用预估 475.3.3.3 图形化监控工具 485.3.4 高扩展的体系架构 505.3.5 具备线性扩充能力 525.3.6 ETL元数据管理 535.4 为什么选择InfoSphereDataStage软件 56第6章 Cognos 576.1 Cognos方案概述 576.2 Cognos方案带来价值 586.3 Cognos软件功能特点 596.4 为什么选择Cognos软件 64第7章 SPSS数据挖掘工具 677.1 SPSS数据挖掘方案概述 677.1.1 数据分析应用主题 677.1.2 应用系统架构 697.2 SPSS方案带来价值 707.3 SPSS软件功能特点 757.3.1 数据挖掘软件及技术服务的技术标准 757.3.2 软件支持算法和模型 757.3.2.1 支持算法的广度和深度 757.3.2.2 软件界面易用性 777.3.2.3 软件运行性能 817.3.2.4 数据挖掘软件与现有系统的集成要求 847.4 为什么选择SPSS软件 85第8章 专业化服务 878.1 业务需求分析 878.2 系统架构设计 878.3 客户化工作 878.3.1 业务需求定义 878.3.2 多纬度模型设计 878.3.3 数据模型修改 888.3.4 ETL设计和开发 888.3.5 Cognos报表开发 908.4 技术支持 908.5 培训 90第9章 XXX中国公司简介 91第91页客户需求概述项目建设背景(根据客户提供的材料,简要地说明申银万国证劵建设BI系统的背景。)需求分析需求-1:建立数据中心,实现业务数据统一管治。需求-2:把DataWarehousePackforCustomerInsight报表集成到业务系统PORT。需求–3:通过建立数据中心,获取可帮助业务优化的分析型报表,并实现操作型CRM的业务运营模式。(根据客户提供的需求文档资料,详细地说明目前申银万国证劵的需求。)项目建设目标架构(根据客户提供的材料,简要地说明申银万国证劵建设BI系统的背景。)业务应用XXX建议整体建设解决方案当客户提出要建设BI系统以优化业务后,XXX公司建议使用整体建设的解决方案,详细说明如下。解决方案系统架构 XXX公司建设BI系统的整体解决方案的系统架构说明如下。XXXBI整体解决方案系统架构建立企业级的中央数据仓库InfoSpereWarehouse,形成统一的业务数据管理平台,为企业各个业务部门提供业务层面上的数据分析结果,以实现业务优化的目标。基于InfoSpereWarehouse基础上,建立面向部门级应用的数据集市,通过InfoSphereDataWarehousePackforCustomerInsight产品方案,物理数据模型和Cognos8BI系统提供样本报表,可帮助客户快速地建立针对客户资料和交易行为分析的应用系统。基于InfoSpereWarehouse和部门级应用的数据集市的基础,针对特殊和关键的业务需求,通过XXXSPSS数据挖掘软件工具,根据各项业务指标要求对挖掘模型进行训练,以挖掘出解决指定业务问题的答案,并持续支持业务发展。XXXInformationServer提供了数据集成的解决方案,其中DataStage软件工具实现了从各个生产业务系统抽取出数据,并按业务规则进行转换,最后把处理结果加载入数据仓库平台。解决方案组成整个解决方案涉及的软件产品具体说明如下。XXXBI整体解决方案系统组成部分数据仓库(InfoSphereWarehouseLayer)物理模型提供InfoSphereWarehouseSampleDBDDLInfoSphereWarehouseDesignStudio数据模型,含盖数据仓库的原子表和面向报表应用的事实表。数据从数据仓库更新到事实表的逻辑说明和指引说明文档。数据集市(DataMartLayer)InfoSphereWarehouseCubingServicesCube建立一个StarSchemaCognosFrameworkManagerModel建立全部StarSchema从数据仓库和Cognos元数据迁移到MetadataServer的说明和指引文档资料。数据ETL处理系统InfoSphereInformationServerDataStagever.8.1业务应用Cognos客户洞察分析报表CognosReportStudioReportsforCustomerInsightCognosAnalysisStudioReportsforCustomerInsight备注:有关报表的详细内容,请参阅第四章节。报表门户1.1管理驾驶舱管理驾驶舱以仪表盘、趋势图等方式展现业务绩效的关键指标,包括开销户、转为有效户、资产、交易量、佣金及净佣金率等。图1管理驾驶舱仪表盘仪表盘常用于同时展现绝对指标和相对指标。图2中仪表盘的外圈刻度表示开销户、交易量等指标的绝对值,不同区域的颜色表示此指标值的健康程度;内圈刻度表示相对占比(如在公司或市场占比)。图2交易量仪表盘双轴柱线图图3为交易量趋势图,其中左轴是成交量,右轴是市场占比。柱状代表成交量的变化趋势,折线是成交量市场占比的变化情况。此图可以很好的表达公司自身的成交量趋势以及在同业中所处的水平。图3交易量趋势三维饼图图4的饼图直观的揭示了特定时间段内的交易量构成,显示各证券类别的交易量占比。图4交易量构成1.2客户分析多角度展示客户总体的特征分布(资金量、活跃度、年龄等其他人口统计学特征、净佣金等),摒弃简单的“大中散”客户分类方式,深层剖析客户盈利的关键因素。分析流失客户的行为特征,为客户挽留提供数据依据。开销户和资产报表:按时间段、按分公司(营业部)统计客户的开户数、销户数、转有效户数及其均值等,以及客户保证金、市值、资产及新增和流失的保证金、市值和资产。堆积柱状图图5以堆积柱状图展示了不同年龄段客户群对不同证券交易品种的偏好。图5不同年龄段交易量结构图6开销户明细报表1.3综合排名各营业部按新增开销户、有效户、客户资产、佣金等指标在公司、分公司的排名及排名的变化。图7本月营业部新增有效户排名1.4营业部报表1)营业部的开销户、有效户、交易量及佣金等指标的历史变化趋势图2)不同营业部之间多指标对比分析(雷达图)3)交易量等指标的构成(按证券类别、委托方式等)雷达图图8用雷达图可以对营业部进行直观的综合能力分析及对比。可以选取多个关键性指标进行量化后作为雷达图的各个轴,每个轴分为十个刻度,值越大代表越好。这样的话面积越大代表该营业部综合能力越强。据图6所示,绿色营业部的综合实力明显强于红色营业部。红色营业部虽然在期末资产和总成交金额胜于对方,但并未带来更多的净佣金收入,而绿色所代表的营业部在新增客户方面更强,且有更高的净佣金。图8营业部间多指标综合对比1.5存管银行报表1)不同时段内,单个指标在存管银行间占比分析(饼图、堆积图等)2)两个或多个存管银行之间多指标对比(气泡图、雷达图)3)指定存管银行,多指标变化趋势气泡图图9用气泡图在平面图对各个存管银行的交易量、月末资产和新增开户数进行比较。横轴代表交易量,纵轴代表月末资产。图中的每个气泡代表一个存管银行,气泡的大小表示开户数。图8以堆积柱形图展示存管银行交易量中各个证券类别的占比。图9存管银行客户持仓率、资产及开户数比较多维数据集根据多维业务模型建立的多维数据集,作为一个统一的数据平台,不仅作为前台门户报表的数据源,同时支持业务分析人员从多角度(客户、时间、证券产品、委托方式等)及多层次(如时间的日、月、季度、年等),通过上卷、下钻等操作,快速灵活的分析客户的交易、持仓、盈亏等数据,使他们快速准确的掌握当前的运营状况,验证复杂假设、预测趋势并制定营销策略。图10显示了从资产区间、客户贡献度级别和活跃度等角度试探分析客户数及其保证金、市值和资产的分布。图10客户数据的OLAP分析2.1维度客户营业部证券类型委托方式时间是否信托渠道经纪人交易市场货币类型存管银行场内场外账户变动2.2度量值组2.2.1证券交易成交金额发生金额发生数量净佣金实收佣金平均佣金率日均交易量日均净佣金2.2.2基金销售手续费销售金额销售数量日均开放式基金销售量2.2.3开户销统计开户计数销户计数流失保证金流失市值流失资产正常户数有效户数无效户数空户数转有效户数2.2.4资产汇总日均保证金HK日均保证金RMB日均保证金USD日均场外基金市值日均市值HK日均市值RMB日均市值USD日均总资产月末A股市值月末B股市值月末保证金HK月末保证金RMB月末保证金USD月末场内基金市值月末场外基金市值月末创业板市值月末封闭式基金市值月末其它市值月末权证市值月末市值HK月末市值RMB月末市值USD月末特别转让市值月末债券市值月末总资产配置建议类别配置描述数量备注硬件部分ACRM数据库服务器XXXP550baseXXXP550mes(4cores,32GBRAM,4HBAand4*1GbEthernet)1磁盘阵列器XXXDS5300(16GBCache,10*300GBFCHDD)1ETL服务器XXXSystemx3850x5(4xCPU(8core),L324MBCache,32GBRAM,4X300GBRAID5HardDisk)1软件部分XXXP5505662-SEPXXXSystemsDirectorStandardEditionforPowerSystemsSWMaint3YrReg1XXXP550750PerProcSmall3YearSWMAReg2

DataWarehouseS/WInfoSphereWarehouseDepartmentalBaseEditionV9.71CognosXXXCognos8BusinessIntelligenceV8.4.11ApplicationWarehousePackforCustomerInsightInsight1ETLToolInfoSphereInformationServer–DataStageV8.11DataModelToolInfoSphereDataArchitectV7.5.21DataMiningToolSPSS-ClementineServer2CPUDataMiningToolSPSS-ClementineClient3并发用户DataMiningToolSPSS-ClementineBatch2CPU备注:有关上述配置的明细项,请参阅系统配置/报价表。整体解决方案优势系统高度集成Warehouse和InfoSphereWarehousePackforCustomerInsight建立了业务必要的基础架构,分析来自不同IT系统的数据源数据,提供了横跨客户、产品和渠道等方面的准确分析,以及有关客户的档案信息和利润贡献度的可视化分析结果。InfoSphereWarehouse内嵌有对OLAP、文本和数据挖掘功能支持,经过调优后得以发挥其优势。结合InfoSphereInformationServer的数据集成处理,提供可信赖信息以更清晰地理解业务状况。Warehouse、InfoSphereWarehousePackforCustomerInsight、InfoSphereInformationServer和XXXSPSS等软件产品易于集成,针对客户的业务需求提供了整体解决方案。面向业务应用整体解决方案中包括InfoSphereWarehousePackforCustomerInsight应用软件,和数据模型以及对业务内容的定义,为客户加速地实施终点对终点的解决方案,为机构快速地抢占市场份额创造优势,并减低业务经营的风险。最终,帮助业务部门的用户充分地发挥数据仓库和分析系统带来的优势:获取整体和它们之间互有联系的信息;通过数据分析结果洞察业务商机,识别其发展趋势和暗藏关系;为机构的各个部门人员提供共享的信息,以作出更快、更准确和更有信心的商业策略决定。单一厂商为客户,提供硬件、软件、服务与支持的全能冠军。快速产生价值使系统运行&产生利润成本核算同一个厂商、同一种价格算法、成本核算更准确;充分发挥技术优势XXX延续收购尖端技术策略规避系统集成上风险XXX负责产品/方案最佳地集成,并降低实施风险。避免系统集成困扰XXX专著于平台,你可专著于解决方案。XXX数据仓库方案XXX数据仓库方案概述XXX数据仓库平台方案是以XXXDB29.7为核心基础,为企业提供一个完整的、多用途的数据仓库平台环境。它允许用户访问、分析和操作任何类型的信息(包括结构化数据和非结构化数据),更深入地挖掘隐含的关系、模式和趋势,并通过可靠的、实时的深入理解做出迅速响应。此方案为企业提供了数据仓库所需的必要功能:提供了一组创新型功能,这些功能结合起来能够提供无与伦比的数据集群性能和存储空间的压缩,从而为很多类型的数据仓库查询带来好处。这些功能包括:根据多个数据属性进行可靠的数据集群、消除数据碎片、通过范围分区技术实现高效的数据窗口、高效的数据压缩、高度并行的可伸缩处理以及自动化的设计工具,它们使数据库设计者能够轻松地利用这些功能来满足性能需求。创新的功能组合能够互相协作,从而满足日益增长的动态和苛刻的数据仓库需求。这些功能包括:支持多种查询类型的高性能、高选择性数据访问,支持实时数据仓库的低延迟数据输入,以及用来降低运营成本的存储优化。这些特性提供了增强的性能,直接提高了DB2企业的业务价值,同时借助独特的、创新型数据库设计方案组合,DB2为众多常见且复杂的商业智能需求提供了更好的选择。简而言之,XXX数据仓库解决方案有助于解决当今企业面临的双重挑战,即提高日常处理产生的数据的价值,同时降低企业运营成本。XXX数据仓库解决方案带来的价值XXX数据仓库解决方案有助于提高日常业务处理产生的数据价值,帮助您获得最大的信息投资回报,同时还可以帮助您实现:降低数据分析人员工作的复杂度,提高系统的数据挖掘和分析能力,为管理层提供及时、精确、有效的营销和辅助决策分析;提高数据仓库的可扩展性与可维护性,降低IT运营成本,提高信息投资回报;高效率的数据压缩和数据备份技术,不仅降低数据的存储成本,并有效提高数据的安全性与可用性;更为灵活的数据架构和模型,构建统一的企业业务运营数据模型。XXX数据仓库方案功能特点Warehouse数据仓库平台解决方案是以XXXDB29.7为核心基础,利用其具有强大可伸缩性和非共享的分布式架构,提供了高性能的混合工作负载查询处理能力(既可以高效处理交易(OLTP),又可以高效进行在线数据分析(OLAP)),满足现代动态数据仓库实时数据更新的同时进行深入数据统计、分析和挖掘的需要。大量高级特性使DB29.7成为一个功能强大的动态数据仓库引擎,这些特性包括数据分区、行级别压缩、多维集群(MDC)以及物化查询表(MQT),其中MQT和多维集群也有助于提高性能。数据分区技术(DPF,DatabasePartitioningFeature)DB29.7数据分区技术–DPF,允许InfoSphereWarehouse数据仓库用户在单个服务器或一群服务器中对数据库进行分区。企业可以灵活地利用DB2数据分区,来支持数据仓库环境中常见的特大型数据库以及复杂的工作负荷和更多的并行查询任务。对DB2数据服务器进行分区需要DB2数据分区功能。DB2提供了先进的“哈希(HASH)算法”映射数据库的每一条记录到特定的数据库分区中。“哈希算法”使用表中的一列(或一组列)作为分区关键字,得到0至65535的数值。分区图定义了为65536个值中的每一个值分配的特定的数据库分区。DB2为数据存储提供了灵活的拓扑结构以达到高性能及高并行。每个数据库由一些数据库分区组成,每个数据库分区实际上是数据库的一个子集,它包含自己的用户数据,索引,交易日志及配置文件。在数据库中,管理员需要定义节点组(NodeGroup)——数据库分区所分布的节点集合。节点组能够跨越为该数据库设置的数据库分区的一部分或全部。在节点组中,还要定义表空间,以说明用来存储表数据及索引的容器(Container)(文件或设备)。在数据库分区中,如果为每个表空间定义多个容器,则数据库管理系统可以利用I/O的并行机制提高性能。DB2数据库分区的体系结构具有很多优势:一张数据库表被分布在多个数据库分区上,因此一张大规模数据库表可以大到TB级。DB2在数据定义语言(DDL),数据操作SQL,以及运行时都引用了分区的模式。其分区方法还可以看作为装载平衡的工具(通过修改分区关键字及分区图,各分区中的记录数可以调整)。DB2优化器利用分区的知识来估价不同操作的耗费,从而为每个SQL语句选择最优的执行策略。数据的分布通过对分区关键字进行哈希算法完成,分区图中提供了每条记录的存放位置。如果在初次分布数据之后,出现了数据存放不均的现象,DB2能够自动分析并更正。DB2可以通过修改分区的分布自动创建一个新的分区图来平均分布当前不均的数据。其中涉及到的数据记录自动移到它新被分到的数据分区。对于不断增长的数据库,我们可以增加分区(同时增加处理能力),修改分区图来包含这些新的数据库分区,而后系统能够自动的重新分布数据,以达到新的平衡。DB2UDB提供了这一功能,使得系统具有非常好的扩展性。处理能力较强的数据库分区可以存放较多的数据,从而在一切非共享的体系架构下可以充分利用各节点的处理能力使其负载均衡。DB2可以用来按比例的将更多的数据分布在具有更强处理能力的数据库分区上。应用可以调用API找到记录的存放位置,然后将交易送到记录所在的节点。该API也可以直接被交易处理应用来调用,如XXXCICS,Encina,将交易送到适当的节点而提高性能。XXXDB2支持在多个小型数据库表上增加一个UNIONALLVIEW,从而建立一个逻辑上的大表。如果由于硬件等原因,使得对一张大数据表的存储处理变得困难时,我们可以支持将数据分布在多个较小型的数据表中,然后使用UNIONALLVIEW技术来实现一个逻辑大表的组织和访问。透过UNIONALLVIEW,用户可以透明地对View中的多个较小规模的表实现Update、Delete、Insert、Select操作。深度压缩技术使用InfoSphereWarehouse,用户可以充分利用DB29.7中独创的存储优化技术,它不仅能够极大减少存储关系数据所需的空间和成本,而且还能够提高查询性能。压缩能够节省可观的空间:行业标准TPC-H数据仓库基准测试表明,可节省45%-69%的磁盘空间。现在,压缩功能更易于使用。InfoSphereWarehouse支持用户在将数据装入数据仓库时对数据进行自动压缩,这有助于降低维护成本。除了减少存储的使用,降低成本之外,压缩功能还能够显著的提高性能。使用行数据压缩技术减少了读取数据时的I/O操作,从而降低了相对缓慢的I/O操作对系统性能的影响,提高了整体的性能。甚至对于消耗CPU较多的操作,使用行数据压缩技术仍能够提高性能。DB2的压缩解技术是将数据行中重复的数据模式映射到一个占用空间较少的符号,从而减少表格数据的总大小。此解决方案采用了一种静态的基于字典的压缩算法,并按行进行压缩。存储优化的优点包括:大幅减少磁盘的使用,降低总体成本;减小表、索引和交易日志的大小,便于分布和存放数据;节省备份所需磁盘空间,便于管理;提高系统的整体性能;通过最小化I/O,并提高DB2缓冲池的命中率来加强性能;包含压缩评估功能来帮助计算使用数据压缩带来的节省;降低对内存的需求(或者更有效的使用存在的内存);在数据仓库环境下带来更大的节省。极限工作负载管理InfoSphereWarehouse提供了一组独具特色的极限工作负载管理功能,支持实时交付对业务状况的深入理解,同时继续支持所有传统的信息访问、分析和报告需求,而不会影响性能。使用传统的数据服务器解决方案很难将信息实时交付给所有用户和应用程序,因为过多的用户运行查询会给底层基础设施施加技术上的限制。此外,面向大型批处理的数据加载或报表作业,以及由战略和战术规划工作驱动的密集分析处理可能对那些需要快速响应的请求(例如用户与客户进行交互的请求)造成影响。利用InfoSphereWarehouse中提供的高级工作负载管理功能,用户可以为来自不同用户和应用程序的查询划分优先级,并控制分配给这些工作的底层资源总量,从而帮助确保满足关键部门、客户和用户的服务水平协议。嵌入式分析作为Warehouse软件的一部分,XXX嵌入式分析功能提供了复杂但易于使用的工具集,这些工具被嵌入到数据仓库中。在InfoSphereWarehouse中,XXX已经替您完成了集成工作,因此实现和维护变得更简单,并且提高了用户采用率和您的投资回报。联机分析处理(OLAP)的高级立方体分析、非结构化分析、嵌入式分析以及数据挖掘和可视化功能让您能够充分利用以前未被有效利用的业务信息资源,这些功能紧密协作,构成一个健壮的端到端分析解决方案,为所有用户提供高价值的商业智能。数据挖掘、建模和打分过去,当要在某个数据集上执行数据挖掘时,必须先从数据仓库中提取数据,然后对其进行单独分析并将结果发回数据仓库。InfoSphereWarehouse提供了嵌入式数据挖掘、建模和计分功能,允许您直接在数据库中执行分段分析和预测性分析。这意味着您可以使用最新的数据,并实时交付分析结果。InfoSphereWarehouse支持标准的数据挖掘模型算法,例如集群、关联、分类和预测,来自第三方建模工具的其他算法可以以行业标准的“预测模型标记语言”(PredictiveModelMarkupLanguage)格式导入到数据仓库中。借助InfoSphereWarehouse数据挖掘功能,您可以发现数据中隐藏的关系,而不必将数据导入特殊的数据挖掘计算机或使用小数据样本。具有以下特性:支持以符合预测模型标记语言(PMML)2.1版和2.0版行业标准的格式开发数据挖掘模型;可以从其它工具(如SPSSClementine®、SASEnterpriseMiner®、AngossKnowledgeSTUDIO®等等)中导入数据挖掘模型;通过可视化数据挖掘功能(基于Java的结果浏览器),可以进行数据挖掘模型分析。它甚至允许非专家用户查看和评估数据挖掘进程的结果。允许用户实时进行数据挖掘分析。您可以将这些功能应用到业务智能和操作应用中,从而更好地为企业和消费用户提供服务–通过为企业和用户提供更明智的建议、更个性化的待遇或针对特定情况不断改进业务模型。通过使用并行化和缓存技术来提供无以伦比的数据库性能实时评价。通过简单的开发接口即可使用DB2数据仓库版数据挖掘功能。InfoSphereWarehouseDesignStudio提供了一个无需编码的图形数据挖掘开发环境。数据挖掘分析的结果是业务规则。例如:购买产品X的客户有15%可能会购买产品Y。这些业务规则存储在称为模型的对象中。DB2数据仓库版的数据挖掘功能可以在各种不同的环境下使用。例如,可以对UNIX、Linux或systemi5、systemz9以及systemp5操作系统中的其它数据库进行数据挖掘。非结构化信息分析InfoSphereWarehouse现在提供了分析非结构化数据并从先前未充分利用的信息中提取知识的能力。非结构化数据现在可以像结构化数据一样进行访问,从而提供了对客户和产品问题的更深层次的理解。提供的非结构化信息分析功能可以提升客户服务水平,为产品提供早期的问题侦测。例如,我们不仅可以从一些结构化数据中分析客户关心的某些事件发生的概率,也可以从邮件、声音、聊天的通讯记录等数据中抽取相关的信息。利用非结构化和结构化信息新的洞察力,来提升客户服务的质量和满意度:利用所有可以利用到的信息,提高业务决定的抉择;增强客户的理解、满意度、凝聚力和忠诚度;侦测和预防客户服务问题的升级;流线型的内容分析可以加速处理流程,提高可靠性;客户流动和忠诚度分析,欺诈分析。InfoSphereWarehouse还提供了基于文本的分析引擎,遵循UIMA非结构化信息管理架构的标准。利用文本分析引擎可以把文本信息转换成可在DB2数据库中可执行的SQL,把文本转换到一些数据库结构化字段和关系型表中。我们在抽取和转换这些文本的时候要设计相应的流程,主要包括两部分的设计:需要一个工作平来配置文本分析引擎,UIMA的术语叫注释器。我们需要一个基于规则的注释器,基于业务面临的问题和文本资料指定相应的规则。如果是一个基于字典的注释器的话,我们还需要为字典配置一组词。另一部分是配置分析的引擎,用来定义转换的流程。配置要被进行分析的表,指定要用到的文本分析引擎,把分析结果映射到数据库表中的字段中。文本分析转换完成后,即可利用一些报表和分析工具,例如Alphablox或者Cognos来进行分析应用。OLAPCubing服务OLAPCubing服务允许您在同一台数据库服务器上内存中创建遵循MDX(多维查询的实际标准)的多维数据集。在同一台服务器上创建多维数据集节约了网络带宽并消除了对第二台服务器的需求。在许多情况中,常驻内存的多维数据集会产生极大的性能提升。XXXAlphablox、Cognos或任何符合MDX的产品都可以用来报告多维数据集中的数据;可以选择通过MDX查询语言直接访问这些多维数据集而无需通过前端工具。使用许多OLAP产品(例如Cognos)的内建多维数据集功能有许多优势;但是,Cubing服务在许多环境中都能产生价值。此外,Cubing服务现在包含CubeViews,CubeViews使用物化查询表来优化(如有需要可以通过创建向导功能协助创建)、管理、部署和更新仓库摘要表的数据。下图显示Cubing服务为各种前端工具提供数据。图Cubing服务为各种前端工具提供数据灵活包装和许可选项数据仓库客户在寻求能支付得起的、组件很好集成的、相对容易管理的和全面的解决方案。Warehouse提供许多选项,从原先的软件到各种解决方案,包括硬件、操作系统、软件和XXX或认证业务伙伴提供的服务。这些选项是完全可伸缩的,为大范围客户提供极大的灵活性,从需求较低的客户(例如小型公司、数据集市和部门数据中心)到大型企业数据仓库。如下列表:产品能力部门基本版DepartmentalBaseEdition低、中端的部门级应用部门版DepartmentalEdition高端的部门级应用企业基本版BaseEdition大型企业企业版EnterpriseEdition大型企业DB2服务器√√√√数据库分区√√√√无数据容量限制√√√√建模和设计√√√√SQW√√√√管理控制√√√√OLAP分析√√√√联邦数据获取√√√√数据挖掘x√x√文本分析x√x√Alphabloxx√x备选√工作负载管理WLMx√√性能监控与调优xx√查询管理xx√数据压缩xx备选√另一方面,BalancedWarehouse包括由操作系统、硬件、InfoSphereWarehouse软件和服务组成的完整的、预认证和预安装的解决方案。这个选项对于时间仓促或人员缺乏的客户比较有利,允许他们使用保证能够协调工作的组件来构建快速上线解决方案。为什么选择InformationManagement软件XXXIM(InformationManagement)是XXX软件集团五大软件产品家族之一,旗下拥有大量优秀的软件,其中包括优秀的数据库软件XXXDB2,层次型数据库管理系统XXXIMS,XXXInformix等,并且通过XXX数据管理工具使用户和合作伙伴能更有效的提高数据库系统的性能,更容易的管理系统的有效资源,减少运行费用。XXXIM注重于软件的信息管理,帮助用户整合企业数据与信息内容,为用户提供性能卓越的数据库管理、内容管理、企业信息集成及商业智能集成的软件产品和解决方案,最大限度地帮助企业提高信息价值。InformationOnDemand是一种务实的信息管理理念,倡导将合适的信息在合适的时候、以合适的渠道传递给需要它的人或者企业,帮他们抓住瞬息可逝的机会,并及时对竞争威胁做出反应。XXXIM近几年的成就:全球超过6000万用户和42.5万家公司依赖XXXIM数据管理解决方案。根据DataQuest的报告,DB2通用数据库以32%的全球市场份额,一举夺取了全球数据库市场第一的位置。XXX始终是数据库管理软件的领导者,据GartnerDataQuest公司的报告称,2001年DB2市场份额为34.6%。DB2UDB是成熟的商业数据库,连续三年被Gartner评为关系型数据库市场占有率第一名。包括如中国首屈一指的OLTP系统–中国银联业务系统在内,越来越多的中国客户选择DB2UDB。Warehouse利用XXXDB29.7服务器技术及大量最新特性,实现了跨Linux,UNIX,MicrosoftWindows平台的整合环境。它提供了通用的开发接口和用户管理接口,并支持应用开发,数据建模和匹配,SQL转换,OLAP和数据挖掘功能。它为您提供了一个完整的平台,用于功能性、可扩展的报表发布以及数据仓库解决方案:提供了数据库分区功能(DPF)。允许您定义一种方法,对相同或不同服务器上的存储进行数据分段。这种功能允许同时跨多个分区进行查询,极大地提高了查询性能。此外,DPF可用来管理通常用在数据仓库中的历史数据的归档和存储。提供了仓库开发工作台,整合了企业级数据建模,OLAP设计和开发,文本分析,数据挖掘并整合了外部数据转换(如XXXInformationServersoftware),数据质量和元数据开发管理。具有将数据挖掘模型与诸如SPSS、SAS工作台的交换功能,同时具有与领先的商业智能软件供应商(如Microstrategy、Cognos、BusinessObjects)交换OLAP模型的能力。具有业务仓库元数据管理和内嵌的应用分析能力。许多供应商也都提供这些功能,但是,当进一步研究时,就会发现只有InfoSphereWarehouse真正的考虑了完整的数据仓库生命周期性,整合性、精致性、易用性。数据仓库中启动和执行所花费的时间是个关键参数。基于这点,XXX提供了自动安装选项,当启动一个整合应用时,它会自动安装并配置你想要的环境。可以为数据库管理员、数据架构师、BI设计师和BI部署专家提供一个环境,使他们在这个环境中以内嵌和集成的方式在仓库工程上协同工作。InfoSphereWarehouse通过提供通用开发接口、管理接口、以及协作和团队合作功能以保证从设计到部署的流程整合性。InfoSphereWarehouse套件提供用户配置选项,它允许组织机构的仓库从小规模开始并循环增大,同时还可以随着业务需求的增长线性地报告环境状况。因此,达到了既满足业务需求的目的,又不降低功能和性能。XXX客户分析应用方案InfoSphereDWPackforCustomerInsight方案概述InfoSphereWarehousePackforCustomerInsightV8.2是InfoSphereDataWarehouseV9.7数据仓库上开发的应用,关注对客户的轮廓特征和交易行为进行洞察分析,以为客户提供更好的服务。XXX客户洞察应用系统架构InfoSphereWarehousePackforCustomerInsightV8.2组成物理数据模型设计了数据仓库的原子数据表和数据集市的事实表,这些表结构支持对客户的轮廓档案信息和从客户赢利信息进行分析。物理模型是一个可交付的文件(后缀名是.dbm),可通过InfoSphereDataArchitect和XXXOptimTMDataStudio工具进行编辑。根据InfoSphereWarehouse系统环境而建立的物理数据库结构,是一个可交付使用的DDL文件(后缀名是.ddl)。根据业务上需求,通过它可建立数据仓库的多纬数据表和数据集市的数据表。Cognos样本报表可透视业务上问题,这些报表将以XML文件方式交付。通过CognosFrameworkManager和CognosReportStudio进行编辑。提供了全套的DPF格式文档资料,对产品/方案实施和进行客户化工作提供了使用指引和帮助。该解决方案通过数据仓库模型和相关部分,可帮助机构快速地开展对关于客户的盈利情况和轮廓信息进行灵活地分析。成熟的物理数据模型是整个解决方案的核心部分,预定制的Cognos报表可帮助回答客户方面的重要业务问题:谁是我的客户?我的客户的年龄状况?我的客户会买什么产品?哪些客户是贡献利润?哪些系列产品可带来收入和利润?我们已经完成了客户销售任务了吗?客户的消费趋势是什么?哪些地区的客户利润贡献是最多的?哪些客户会给我们回复和愿意倾诉与沟通?最常见的客户投诉是什么?解决方案带来价值InfoSphereWarehousePackforCustomerInsightV8.2解决方案带来的价值,主要体现在:以模型为导向开发XXX已有15年数据仓库模型开发经验。这些模型已被100多个包括银行、保险、电信、零售和其他行业的客户使用,被证明是适用于面向BI系统部署的解决方案。TheInfoSphereWarehousepackforcustomerinsight是从广泛性模型中提炼出精髓,并转化为适用于跨行业机构的业务需要。得益于XXX多年来在数据仓库模型开发的宝贵经验,让你专著于从物理模型进行快速部署。着眼于业务需求,为未来发展做好计划长期面对的挑战:如何有效地建立数据管理的基础设施,可快速地完成针对企业指定的个性化业务要求。InfoSphereWarehousePackforCustomerinsight包含了指定的模型结构和工具,可快速地针对客户进行洞察分析。提供了包括数据仓库模型的外延扩展功能,和指导如何对该模型进行客户化以适应业务上要求。InfoSphereDWPackforCustomerInsight功能特点物理数据模型物理数据仓库模型是解决方案的核心部分,它包含了对客户进行深入洞察分析的全部元素和数据表结构。同时,它也是作为数据仓库建设的起始点,以为进一步功能完善和发展而设计。数据模型汇集了多达数百个来自各个行业的XXX客户建设数据仓库的经验。物理数据模型是一个充分理解XXX的大型数据模型的众多优点,如灵活性、外延发展和可扩展性等,可简单和快速地进行实施。物理数据模型包括两大部分:数据仓库层面的原子数据表和数据集市层面的事实数据表,其架构如下图。XXX客户洞察应用系统数据表组成 在数据仓库层面上,物理模型提供了15张原子数据表,具体如下:XXX客户洞察应用系统数据表关系上述的数据表包括:Customer、Organization、Product、GeorgraphicArea等。通过表与表之间的关系来阐述业务上的含义,以了解客户的档案信息和交易行为的数据。从数据表发挥的功能的角度来看,可分为四大类数据表,具体如下。XXX客户洞察应用系统数据表类型物理模型包含了一组维度数据结构(StarSchemas),以构成事实表(数据集市核心部分)和相关联的维度。这些维度也为数据仓库层的原子数据表提供已处理的信息。1)基础数据表(FundamentalTable)基础数据表是数据仓库的基本原子表。基础数据表是有版本控制的。基础数据表可作为一个或多个事实数据表的维度。2)档案数据表(ProfileTable)档案表把表字段组合一起,为事实表提供数据分析使用。表中每个字段包含一组离散的(代码)数值,在事实表中可能被进行汇总处理并为测量的维度。通常情况下,档案表对字段具体化以表达一个操作代码、一个范围的数值、一个标识。档案表是仅为基础表而定义,使基础表的相关字段表达真实的数值。3)事实表(FactTable)中心表,它包含了数据维度结构。事实表含有多个以维度方式、可进行性能评估的指标。事实表和相关的维度形成的星型结构(StarSchemas),它通常为BI应用软件(如Cognos)提供分析功能,包括分发数据和上下钻取等操作。4)支持数据表(Supportingtable)支持数据表是仅用于支持分析的数据结构,或进行数据仓库管理。支持数据表不随版本而改变,通常是支持ETL的需求而定义。Cognos应用报表解决方案中已建立了样本报表,对客户的轮廓档案和交易行为进行分析。XXX客户洞察应用系统业务报表解决方案包括各类报表,具体如下:1.CustomerProfiling–CommunicationsAnalysisCustomerActivityandComplaints-IndividualCustomerActivityandComplaints-OrganizationCustomerSurveyResponsebyAgeGroupCustomerSurveyResponsebySocioEconomicCategoryCustomerSurveyResponseDetails2.CustomerProfiling–TransactionAnalysisCustomerListingProductSalesAnalysisProfitbySocioEconomicCategoryandProductTypeTopPerformersbyIncomeTopPerformersbyVolumeTransactionListingVolumeSalesbyChannelVolumeSalesbyCustomerAgeGroup3.CustomerProfitability–PeriodicAnalysisCurrentQuarterThisYearvsSameQuarterLastYear(Individual)CurrentQuarterThisYearvsSameQuarterLastYear(Organization)ThisYearToDatevsLastYearToDate(Organization)YearonYearProfitabilityComparison(Individual)YearonYearProfitabilityComparison(Organization)4.CustomerProfitability–ProfitabilityAnalysisAverageIncomeandProfitCustomerProfitability-EuropeCustomerProfitability–UnitedStatesIncomeandProfit–ActualvsBudgetbyYearRenewalsAnalysis–IndividualRenewalsAnalysis–Organization另外,利用CognosAnalyzeStudio的即兴查询功能,帮助用户实现动态地即兴查询所需的业务问题。XXX客户洞察应用系统动态分析 总结:Cognos提供的样本报表可满足对客户进行详细地分析,利用Cognos动态即兴查询功能,可形成对特殊业务变化进行分析的支持补充。为什么选择InfoSphereDWPackforCustomerInsight客户细分使业务人员很容易地识别出最多和最少利润客户的档案资料。客户细分对于充分地理解市场所在的区域、客户层次和类别、和每个客户所带来的最大收入和利润贡献度等分析至关重要。商业智能基于Cognos8BI系统,支持预定义业务内容的数据合并需求,强劲的分析能力使用户从他们最有价值的信息资产中获得更新、更深入的洞察分析结果。快速实施、创造价值通过有步骤和专著于业务开展的开发过程,可快速地建设基础的数据仓库并创造价值。快速地部署和分析你所关注的业务问题,让你在激烈市场竞争中立于不败之地。已被验证的成功方案来源于XXXIndustryModelsversion8.2的解决方案,在全球已被众多最大公司运行使用,在不同层面上反映出让业务驱动IT策略的可行性和有效性,例如:客户洞察分析、财务管理、风险和法规管制和其他更多的成功案例。业务准备就绪面向部门应用的数据模型、InfoSphere数据仓库和预定义的Cognos8BI-基础报表,使业务需求和IT功能可达成一致,有助于按业务需求进行客户化工作,并落实和体现到解决方案中。专著于快速地完成方案实施在数据仓库和数据集成基础设施方面处于行业领导地位,通过为客户提供包括硬件、软件和服务在一起的支持,让InfoSphereWarehousePackForCustomerInsight更有力地支撑任何有关客户洞察分析,以及基于Cognos应用等项目。建立未来企业级架构的蓝图InfoSphereWarehousePack汲取来源于InfoSphere行业数据模型的精髓,并得以全球500多个客户的实施和验证,遵循这些数据模型的标准架构和企业级的业务需求,可并顺应业务发展和变化而量身定做。数据抽取、转换和加载方案InfoSphereDataStage方案概述DataStage具有满足绝大多数苛刻的数据整合需求所需的功能、灵活性和可扩展性。DataStage具有以下功能:整合来自最大范围的企业和外部数据源的数据合并数据有效性规则利用可扩展的并行处理能力处理并转换大量数据处理极为复杂的转换管理多个整合流程提供到作为源或目标的企业应用的直接连接利用元数据进行分析和维护以批量、实时或作为Web服务的方式运行DataStage实现了信息整合流程的一个完整部分:数据转换,如下图所示:XXXDataStage软件模块DataStage通常部署于企业应用、数据仓库和数据集市等系统中。DataStage能够提供丰富的功能:实现运营、交易和分析目标间的数据移动和转换帮助公司确定如何能够最佳地整合数据(无论是批量还是实时),满足他们的商业需求节省时间,改进设计、开发和部署的一致性最简单地说,DataStage执行从源系统到目标系统的批量和实时的数据转换和移动。数据源可以包括索引文件、顺序文件、关系数据库、档案、外部数据源、企业应用和消息队列。可能涉及到以下转换:字符和数字格式和数据类型转换。业务派生和计算,对数据应用业务规则和算法。示例涵盖从直接的货币转换到更复杂的利润计算。参照数据检查与实施,以确认客户或产品的标识符。在建立规格化的数据仓库的过程中使用此流程。将来自分散来源的参照数据转换到通用参照集,创建整个系统的一致性。使用此技术,为有关产品、客户、供应商和员工的数据创建一个主数据集(或一致的维度)。用于报表和分析的汇聚。创建分析或报表数据库,如数据集市或立方。此过程涉及到将数据反向规格化到星型或雪花形式,以改进性能并使业务用户易于使用。DataStage还可以将数据仓库看作源系统,通常为作为目标系统的数据集市提供局部化的、子集数据,如客户、产品和地理区域。DataStage提供4个核心功能:连接到种类广泛的大型机、旧有、企业应用、数据库和外部信息资源。超过300个功能的预构建库使用并行、高性能处理架构获得最高吞吐率面向开发、部署、维护和高可用性的企业级功能InfoSphereDataStageETL方案带来价值分类InfoSphereDataStage特性好处与价值复杂的数据流程开发容易图形化自上而下设计数据流驱动开发,具有丰富的内建功能和图形化工作流工具。系统快速实现,降低开发成本,降低维护成本。可扩展的基于组件的架构低风险,更好利用现有投资强大的重用性能,包括共享容器、函数、连接对象和可重用的服务。更好的连接性,是项目快速实现的强大的工具。广泛和深入的连接,具有bulk连接、变化数据捕获、和动态连接选项。更好的实用性、项目灵活性和快速实现。强大的可扩展性线性开发,并行配置不改变设计和逻辑的情况下,可以处理任何数据量--强大的实用性。元数据驱动整合统一的元数据模型;加速项目交付,提高系统协作,达到更好结果。动态元数据分析,包括差异分析、冲突分析和世袭分析。更好的生产力,降低风险。InfoSphereDataStage软件功能特点DataStage基于InformationServer的架构DataStage由基于客户端的设计、管理和操作工具组成,通过一个通用服务层访问一套基于服务的数据整合功能。下图显示了包含DataStage用户接口层的客户端。下图说明了构成该服务器架构的元素。DataStage架构包括以下组件:通用用户界面以下客户端应用包含DataStage用户界面:DataStageDesigner一个图形设计界面,用于创建DataStage应用(也称为作业)。因为转换是数据质量的一个完整部分,所以DataStage和QualityStageDesigner是DataStage和QualityStage的设计界面。每个作业都指定数据源、所需的转换和数据目的地。将作业编译,并创建可执行文件,由DataStage和QualityStageDirector排定该文件的执行计划,并在DataStageServer上运行。在将部署所需的编译执行数据写入MetadataServer知识库中的同时,Designer客户端将开发元数据写入动态知识库中。DataStageDirector一个图形用户界面,用于确定、预定、运行并监控DataStage作业顺序。Director客户端在运行知识库中查阅有关作业的数据,并将项目元数据发送到MetadataServer,以控制DataStage作业流。DataStageAdministrator一个图形用户界面,用于管理任务,如设置XXXInformationServer用户;记录日志、创建并移动项目;以及设置清除记录的标准。通用服务由于DataStage拥有多个离散的服务,所以它拥有足够的灵活性,能够配置系统以支持不断增多的不同用户环境和分层架构。通用服务在该架构的很多部分间提供了灵活的、可配置的内部连接。元数据服务,如影响分析与搜索执行支持所有DataStage功能的服务设计支持DataStage任务的开发与维护的服务通用知识库通用知识库包含支持DataStage所需的3种元数据:项目元数据将所有的项目级元数据组件(包括DataStage作业、表定义、内建阶段、可重用子组件、以及例行程序)组织到文件夹中。运行元数据该知识库包含的元数据描述了整合流程运行的运行历史、工作的成功或失败、使用的参数、以及这些事件的时间和日期。设计元数据该知识库包含由DataStage、QualityStageDesigner和InformationAnalyzer所创建的设计时元数据。通用并行处理引擎该引擎运行可执行作业,在多种设置中提取、转换并载入数据。该引擎使用数据分区并行和管道并行,可以更迅速地处理大量工作。通用连接器该连接器提供到大量外部资源的连接,和从处理引擎到通用知识库的访问。XXXInformationServer所支持的任何数据源都可以用作对DataStage工作的输入,或来自DataStage作业的输出。直观易用的开发和维护环境DataStage提供了全面的功能去最优化用户在建立、升级和管理数据整合架构时的速度、灵活性和效率。DataStage丰富的功能组件减少了学习的周期、简单化了管理和优化了开发资源的使用,减少了数据整合应用的开发和维护周期。用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。这些工具包括:Designer:用来建立和编辑DataStage作业和表的定义。Designer中的“JobSequencer”控制作业的执行,其他作业成功完成(或失败,等)的条件。Administrator:用来执行管理任务,如建立DataStage用户、建立和删除工程并且建立清洗标准。Director:用来验证、时序安排、运行和监测企业版作业。DataStage任务设计是基于数据流的概念,数据流使得用户非常容易建立和理解应用。用户在DataStageDesigner强大的图形化画布上通过一系列的功能组件(Stage)标示数据集合的流程来构建一个数据整合应用。一个完整的数据流图(DataStage作业),从一个存储的数据源开始,并且执行一系列的增值转换和其他处理操作,最后加载数据到一个存储。DataStageDesigner使用户可以灵活从任何地方可以建立作业:从上到下、从下到上、从中间开始。一个完整的数据流图下图所示。在建立一个数据流图表时,通过一系列的处理步骤对庞大的数据集合构架顺序流。用户不需要担心如何在多处理器计算机上运行该应用。DataStage包含了高性能访问(加载和读)关系型数据库的强大组件,包括并行的关系型数据库。DataStage的内嵌扩展Stage提供了数据整合应用中80%到90%的最常用的逻辑需要。另外,企业版提供了许多机制用来建立自定义的Stage:Wrapped--允许并行执行一个顺序程序。Build――允许自动并行执行自定义Stage的C语言表达式。Custom提供了完整的C++API,来开发复杂和扩展的Stage。基于组件架构和扩展内嵌组件类库的DataStage除了对传统编码方式的需要,最大化了组件的重复使用。对于可扩展的数据整合应用来说,DataStage开放的和可扩展的架构使得整合第三方软件工具和已存在的程序更加容易。企业级实施和管理作业顺序器DataStage提供一个图形作业定序器,在该定序器中,您可以指定将要运行的作业的顺序。顺序中还可以包含控制信息。例如,根据顺序中的作业成功与否,该顺序可以指出不同的行动。在定义了一个作业顺序后,您可以使用Director客户端、命令行或API排定计划并运行该顺序。该顺序在知识库和Director客户端中作为一个作业出现。设计一个作业顺序与设计作业相类似。在DataStageDesigner中创建作业顺序,并添加来自工具调色板的活动(而不是阶段)。然后,您再将活动与触发器(而不是连接)相联合,定义控制流。每个活动都能够在触发器表达式中得到测试,并按照顺序进一步向下传送到另一个活动。活动还可以包含参数,提供作业参数和例行程序自变量。作业顺序具有属性和参数,可以按顺序将参数传送到下一个活动。图62中的作业顺序样本显示了一个典型的顺序,该顺序由一个即将到达的文件触发。该作业还包含异常处理,并带有环回和流控制。作业顺序支持以下活动类型:作业:指定一个DataStage作业。例行程序:指定一个例行程序。执行命令:指定一个将要执行的操作系统命令。电子邮件通知:指明应使用简单邮件传输协议(SMTP),在此顺序点发送一封电子邮件通知。通常,此方法可用于异常和错误处理。等待文件:等待一个指定的文件出现或消失。此活动可以在等待文件出现或消失一个指定的时间段后,向顺序发送一个停止消息。运行异常活动:在一个作业顺序中只允许一个运行异常活动。若顺序中的作业无法运行,则运行此活动。(其它异常由触发器处理)作业顺序的检查点、重新启动选项:作业顺序的检查点属性允许在故障点重新启动顺序。环回阶段:StartLoop和EndLoop活动使得作业定序器更加灵活,并为您提供更多的控制能力。用户表达式和变量:使您能够定义并设置变量。您可以使用这些变量评估作业顺序流中的表达式。中止异常活动:当出现问题时,中止作业顺序。任务资源使用预估DataStage提供资源预估功能,可以估算ETL任务过程中每个处理阶段所占用的系统的资源,如CPU,Memory,Disk等信息,在ETL测试运行前,帮助开发人员了解所设计的ETL任务对系统的影响,也可以帮助找到ETL瓶颈,进行调优。图形化监控工具DataStage提供图形化的直观监控工具一,可以直接从设计的数据流图上得知ETL每个阶段运行情况:成败\数据量\处理效率,方便开发人员差错和调整。二,Director客户端包含一个监控工具,可以显示处理信息。如图64所示,监控作业状态窗口显示以下详细情况:正在执行处理的阶段名称每个阶段的状态已处理的行数将要完成每个阶段的时间每秒的行数还可以生成任务时间线和性能分析图,分解Job,各部分处理使用多长时间,洞察时间线上的瓶颈.三,另外,DataStage提供了command-line、API和webservices用来对应用进行配置、执行、监测和管理。返回的信息包括每个并行分区的记录条数、CPU使用率、开始/结束时间等。所有的这些都是在单独的stage级别。就算DataStage任务已经完成,这些信息仍然是可用的。这就是operationalmetadata。Commandline和webservice接口通过文本或XML方式返回出这些operationalmetadata。 高扩展的体系架构DataStage可在管道并行和分区并行的机制下执行,这样可以获得高吞吐量和性能:数据管道意味着应用可以从源系统抽取数据并且在数据流图表中定义的顺序处理功能间移动。记录通过管道进行流动,不需要将记录加载到磁盘。数据分区,将记录集分割到各个分区,或记录子集的并行方法。数据分区通常提供了一种好的、可以线性增长的应用性能。企业版支持记录集通过应用流的自动分区,象DB2一样使用hash、range、entire、random、roundrobin等方法。硬件配置文件,告诉DataStage如何与硬件打交道,允许最大地利用CPU,硬盘容量,和内存。当添加了新的硬件,不需要重新开发工作,只需相应修改硬件配置文件即可并行数据集,具有在硬盘上以分片的方式存储数据的能力,因而确保数据的再使用,以减少I/O到最小,替代平面文件读和写,以平行的读和写的方式,提高性能。不落地的再分片,扩展性的最大障碍是I/O,一些其他产品在写到硬盘之前不具备再分片的功能支持MPP&GRID的环境,DataStage支持跨多个服务器配置的MPP或Grid的运行方式并行处理吞吐,因为DataStage是并行处理方式,每一步处理能够并行的执行,以确保没有序列处理,不需要依赖数据库本身的并行机制,ETL自身应带有此功能,以减轻数据库的负载,不影响数据库的性能表现。这个benchmark是在写数据(每条记录平均534byte、50多个字段)之前进行了15此的不同的转换,以1:1的比例显示出处理器导致近乎线性的性能扩展。具备线性扩充能力为了实现最大的可扩展性,集成软件执行的任务必须超过它在对称多处理(SMP)和大规模并行处理(MPP)计算机系统上的限制。如果数据集成平台不能支持群集或网格中的MPP设备或系统的所有节点,则无法提供最高的可扩展性。DataStageETL服务器充分利用了SMP、群集、网格和MPP环境,以优化对所有可用硬件资源的使用。例如,当您使用DataStage以图形化方式创建简单的有序数据流时,无需担心基础硬件架构或处理器数量等问题。基本多处理器计算系统的资源(物理和逻辑分区或节点、内存及磁盘)由单独的配置文件所定义。如下图所示,配置将创建有序的数据流图表与应用的并行执行明确分隔开来,能够简化并行运行的可扩展的数据集成系统的开发工作。支持可扩展的硬件环境,避免出现以下问题:硬件资源优化问题造成处理速度减慢。应用设计和硬件配置脱节,每当硬件变化时都需要手动干预甚至重新设计。不可能根据需要进行扩展。DataStage利用强大的并行处理技术来确保快速处理大量信息。这项技术可确保处理能力不影响项目成效,允许解决方案轻松扩展到新硬件并利用所有可用硬件的处理能力。ETL元数据管理元数据是数据整合基础架构的黏合剂,是维护一致性、解释清晰和正确的关键。DataStage的端对端元数据在数据整合生命周期中可供所有的工具中共享,确保有关元数据可以勾画出一个清晰、明确的业务视图。DataStage元数据管理通过提供一致、正确的元数据来帮助用户管理数据中有用的部分。这样就可以减少在多工具中共享元数据时候存储和更新元数据目录的负担。通过DataStage企业版的元数据分析和管理功能确保整个商务智能架构中整合和业务规则的重复使用变得简单,而不需要传统编码方式。访问元数据服务DataStage访问MetadataServer,以实时访问有关整合项目和您组织的企业数据的当前元数据。您可以使用Designer客户端,访问由MetaBridge或InformationAnalyzer生成的数据。以下服务为设计人员提供对元数据的访问:简单和先进的查找服务允许您搜索知识库查找对象使用/影响分析服务说明“Usage“和”Dependon“关系结果可以存为html或者xml文件,进行附加处理或者远程客户查看,结果列表可以进行export、报告或者编辑功能差异分析显示DataStage环境中作业或表定义间的差异。下图显示了在Designer客户端中的一个带相关编辑器链接的文本报表。您还可以查阅作业子集(如共享的容器和例行程序)的差异。可以选择将此报表保存为一个XML文件。为什么选择InfoSphereDataStage软件平台的高效生产力&协作性(图形化界面&元数据管理,重用性)先进成熟的工具提供丰富的功能满足新程序需求的能力和针对业务要求快速进行调整。图形化的工作流,而非代码。作业易于设计、管理和维护。用户不需要了解底层语言的细节,如SQL,而进行快速的开发和更新维护,从而极大加快系统的开发时间、盈利时间、企业应用程序的ROI。良好的处理能力&线性扩展性(真正的数据管道&数据分区并行处理,无缝隙地网格支持)线性开发、并行配置;硬件设备增加后,只需修改配置文件,原有ETL作业不需作任何更改;快速实现扩容并减低实施风险。模型化设计加速数据集成(遵从开放标准,与SOA无缝隙集成)元数据统一管理,加速项目交付,提高系统协作,达到更好效果。提供动态元数据分析,包括差异分析、冲突分析和世袭分,以提高生产力。在统一标准的系统架构上提供较全面的功能。InfoSphereDataStage在中国市场占有率高,在金融、电信、零售、制造和公共等行业拥有众多成功案例,并能够提供比竞争对手更好的的服务。CognosCognos方案概述XXXCognos8BI业务智能软件是在BI核心平台之上,以服务为导向进行架构,是唯一可以通过单一产品和在单一可靠架构上提供完整业务智能功能的解决方案。它可以提供无缝密合的报表、分析、记分卡、仪表盘等解决方案,通过提供所有的系统和资料资源,以简化公司各员工处理资讯的方法以及公司的IT环境。作为一个全面、灵活的产品,Cognos8业务智能解决方案可以容易地整合到现有的多系统和数据源架构中。XXX统一的、整合的BI平台,满足了大型企业客户将其复杂的企业信息环境化繁为简的需求。CognosBI软件主要功能:XXXCognos商业智能软件强大的报表制作和展示功能能够制作/展示任何形式的报表,其纯粹的Web界面使用方式又使得部署成本和管理成本降到最低。同时Cognos还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。Cognos软件具有独特的穿透钻取(rollup和drilldown)、切片(slice)和切块(dice)、以及旋转(pivot)等功能,使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解,有效地将各种相关的信息关联起来,使用户在分析汇总数据的同时能够深入到自己感兴趣的细节数据中,以便更全面地了解情况,做出正确决策。CognosBI软件具有三大特点:简单–为平民化的商业智能软件,又是一个易用的报表系统。它可以让不懂计算机的业务人员定制自己需要的业务报表而无需程序开发。完整–能够在单一的、已证的体系结构上提供所有B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论