




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE2-目录TOC\o"1-4"\h\z\u1背景 -1-2需求概述 -2-2.1电量分析 -2-2.1.1基本指标 -2-2.1.2深度分析 -3-2.2供电可靠性分析 -4-2.3电压合格率分析 -5-2.4线损分析 -6-2.4.1基本指标 -7-2.4.2深度分析 -8-2.4.3图形展示 -9-2.5装备水平分析 -9-2.6人力资源分析 -10-3解决方案 -11-3.1创建仓库模型 -11-3.1.1主题1售电量 -11-3.1.2主题2用电量 -12-3.2数据抽取规则 -13-3.2.1分析业务系统库,对数据字典进行分类 -14-3.2.2找出各业务系统内及其与目标数据库之间存在的数据不一致。 -15-3.2.3设计出合适的转换规则 -17-3.2.4设计数据抽取流程 -17-3.2.5设计数据抽取的流程的抽取方式,并开始数据的抽取 -18-3.2.6对抽取到数据仓库中的数据,进行验证 -19-3.2.7完成数据的抽取 -19-3.3OLAP多维分析 -19-3.3.1多角度分析 -20-3.3.2图形展示 -23-3.4数据挖掘 -24-3.4.1关联分析 -25-3.4.2分类分析 -27-3.4.3预测分析 -28-4采用的技术及相关产品 -29-4.1构建数据仓库的技术步骤 -29-4.2相关产品介绍 -31-4.2.1WarehouseManager -32-4.2.2CubeViews -34-4.2.2.1概述 -34-4.2.2.2建模及优化过程 -36-4.2.3OLAPServer -37-4.2.3.1概述 -37-4.2.3.2使用MOLAP系列工具建立电力分析模型 -40-4.2.4Alphablox -43-4.2.4.1概述 -43-4.2.4.2AlphaBlox体系结构 -44-4.2.4.3AlphaBlox应用 -46-4.2.4.4Cube分析引擎(AlphabloxCubingEngine) -47-4.2.5IntelligentMiner -48-4.2.5.1数据挖掘评分组件(IMScoring) -49-4.2.5.2数据挖掘建模组件(IMModeling) -50-4.2.5.3数据挖掘图示化组件(IMVisualization) -51-5实施计划 -52-5.1地纬公司的技术、实力与经验 -52-5.2实施开发综述 -52-5.3实施开发计划 -53-一、需求分析阶段 -53-二、物理建模阶段 -54-三、数据转换(即ETL过程)阶段 -54-四、生成多维模式并搭建立方体阶段 -54-五、多维分析及展现阶段 -54-六、数据挖掘阶段 -55-附:工程实施整体计划一览表 -55-1背景随着计算机应用技术的普及,电力行业信息化建设得以突飞猛进的发展,营销MIS系统、抄表自动化系统、配电GIS系统、调度自动化系统、变电生产管理系统、以及办公自动化OA系统等基础应用系统已经在各电力企业得以建成并稳定运行。如何利用更前端的计算机技术,在这些基础应用系统之上,建立更高层次的应用,已成为各电力企业对内提高自身管理水平和运行效率、对外提高服务质量、最终提升企业自身竞争力的重要手段。目前,各级电力公司迫切需要对大量详尽真实的历史数据进行综合分析,及时准确地掌握公司电力营销状况,科学地预测电力市场的发展趋势,为制定电力政策和电力市场营销战略提供依据。因此,运用数据仓库技术和辅助决策支持相关技术,建设电力营销数据仓库和辅助决策支持系统已成为一项关键的任务。在这种形势下,济南市供电局适时提出了建立济南供电局辅助决策支持系统的任务,通过对数据库数据和人工录入数据的挖掘,以指标体系为中心,进行深度分析和挖掘,为不同层次的管理人员提供决策的信息支持。济南供电局辅助决策支持系统第一阶段主要以电量、电压合格率、供电可靠性、线损关键指标,输、配、变电设备装备水平,人力资源为重点。本方案暂以电量为主题给出建设实施初步方案。
2需求概述2.1电量分析通过对全公司、分部门、分变电站、分电压等级、分时间段、分线路的供电量和售电量的数据显示,提供电量的基本指标数据。通过基本数据的再挖掘可实现不同用电时间段的售电量分析、不同地区的用电分析、不同电价类别的售电量分析、不同行业的用电分析、大用户分析。数据来源营销自动化系统。2.1.1基本指标全公司供电量,各供电部公用区供电量,无损供电量电量,趸售供电量(按线路名称统计、按趸售县单位统计)全公司售电量,各供电部公用区售电量,趸售电量统计表(按线路名称统计、按趸售县单位统计),无损电量(按电压等级),各单位电费口径售电量、线损口径售电量,各单位分压售电量表,各单位分线售电量(各客户售电量明细)。按照供电区域(全公司、部门、变电站、电压等级、线路)任意时间段的分线供电量查询分析。按照供电区域(全公司、部门、变电站、电压等级、线路)任意时间段的分线售电量查询分析。按照供电区域(全公司、部门、变电站、电压等级、线路)查询任意时间段的分电压售电量按照供电区域(全公司、部门、变电站、电压等级、线路)查询任意时间段任意关口计量点供电量。按照供电区域(全公司、部门、变电站、电压等级、线路)查询任意时间段任意受电计量点售电量。2.1.2深度分析不同用电时间段的售电量分析根据不同月份用电总量统计数据,纵向分析各个月份售电量变化趋势,横向比较不同月份售电量差异,形成多维分析,比较不同月份之间售电量变化的差异;了解市场需求的时间属性,及时捕捉市场的变化。不同地区的用电分析分析地区售电量历史数据,形成该地区售电量变化曲线,根据曲线走势判断该地区未来电量变化趋势;分析各地区对总体售电量涨跌的贡献率;根据该地区各行业用户分布情况,结合行业发展综合指标,进一步分析、判断该地区售电量潜力;分析各经济指标对电量涨幅的贡献率。不同电价类别的售电量分析针对不同类别的电价,统计售电量历史数据,分析不同类别电价的对应售电量变化趋势;通过多维分析,横向和纵向相结合,立体、直观地分析售电量变化率差异,可以得到不同电价类别的售电量增长潜力,为用电营销部分的电价调整提供决策依据。不同行业的用电分析按照行业分类,统计行业售电量,比较历史数据,形成不同行业售电量变化曲线;纵向分析某一行业售电量随时间变化的趋势;横向比较不同行业售电量的差异,重点关注不同行业之间售电量变化示行业用电潜力、各类用户需求潜力和区域用电增长潜力等,为企业决策人员提供重要的决策依据。大用户分析大用户分析是用电营销的重要环节。从各种角度分析大用户的用电特征,制定贴身的营销策略,获取更高经营利润。综合统计分析用电量排名前十的用户用电量增长排名前十的用户出现负增长的用户某月用电量的日分析与温度同轴显示售电量,同比增长率,按单位、季度、用电类型,结合业扩分析增长原因。对紧急限电序位方案表进行管理。包括负荷接近能力的预警,超负荷运行报警等、限电序列资料等。2.2供电可靠性分析全公司、分单位的供电可靠率、用户平均停电时间、停电用户平均停电时间的基本数据。按月停电时间超过10小时的线路以及停电时间的长短和停电次数分别对明细排序。在此基础上可进行可靠性影响因素分析计划停电、临时停电、故障对供电可靠率RS-1的影响,并详细分析故障对可靠率的具体影响。数据来源抄表自动化、配电GIS。具体指标如下:用户停电的明细(报表形式)对基本显示数据,按单位柱状图和报表显示,历史同期对比的柱状图显示,本年度发展趋势的折线图显示。可靠性影响因素,按单位和影响因素的柱状图和报表显示,历史同期对比的柱状图显示,本年度发展趋势的折线图显示。具体影响因素,按影响因素的柱状图和报表显示,历史同期对比的柱状图显示,本年度发展趋势的折线图显示。月停电时间超过10小时的线路报表显示(本月),具体每条线路的本年度历史停电时间折线图显示。按停电时间的长短和停电次数分别对明细排序(本月)。2.3电压合格率分析基本指标:城市综合电压合格率、A类电压合格率、B类电压合格率、C类电压合格率、D类电压合格率等基本数据。通过对几个系统数据的深度挖掘,可对A类电压合格率分析电压质量监测点越上限在每天的时间段分布;和该段时间内主变压器分接头位置、电容器投切状态、系统负荷情况的信息显示在一张图标上,判断每天越限时间出现的时间段是否大致相同、是否自动调压、电容器是否自动投切。B、C类电压合格率,分析最差的几个电压质量监测点的供电半径、无功配备情况,所供变电站无功补偿情况,以分析原因。数据来源抄表自动化系统、调度自动化系统。WEB展示要求:综合电压合格率趋势分析,历史同期对比(折线图)。分类别电压合格率趋势分析,历史同期对比(折线图)。具体明细的报表形式。分单位的趋势分析,历史同期对比(折线图)。具体电压质量监测点的电压合格率趋势分析,历史同期对比(折线图)。A类电压质量监测点全天明细与主变压器分接头位置、电容器投切状态、系统负荷情况同轴显示。B、C、D类全月显示与供电半径、系统负荷情况、无功配备情况,所供变电站无功补偿情况同轴显示。2.4线损分析按照供电区域(全公司、部门、变电站、电压等级、线路)任意时间段的分线线损率以及母线不平衡率等线损管理小指标查询分析。掌握任意时间段任意计量点档案资料展示各时段线损情况,并可以对线损率进行多项分析,包括综合指标分析、线损组成分析、趋势分析、供(售)电量增长分析、用户分类用电分析等子系统,对综合、线损率历史趋势进行全面分析,用户用电量增长分析。分析线路最近线损率变化异常。可以分层逐步分析,分析这条线路下的任一计量点电量、档案资料等。对线损异常的线路,查询线路手拉手运行记录、用电量波动较大的客户用电信息、客户更换供电线路查询、营销自动化系统中各种基础数据查询,缩小对异常线路的分析范围,使分析更有针对性。实时形成每时段线损率,实现超高报警。异常分析,对线损率变化异常的线路(售电量变化异常用户)报警。提供降损决策分析,包括调整电压,送电线路升压,并联无功补偿,增加并列线路,增大导线面积等多种降损决策综合分析.数据来源抄表自动化系统。2.4.1基本指标全公司供电量,各供电部公用区供电量,无损供电量电量,趸售供电量(按线路名称统计、按趸售县单位统计)全公司售电量,各供电部公用区售电量,趸售电量统计表(按线路名称统计、按趸售县单位统计),无损电量(按电压等级),各单位电费口径售电量、线损口径售电量,各单位分压售电量表,各单位分线售电量(各客户售电量明细)。按照供电区域(全公司、部门、变电站、电压等级、线路)任意时间段的分线供电量查询分析。按照供电区域(全公司、部门、变电站、电压等级、线路)任意时间段的分线售电量查询分析。按照供电区域(全公司、部门、变电站、电压等级、线路)任意时间段的分线线损率查询分析。按照供电区域(全局、部门、变电站)任意时间段的母线不平衡率等线损管理小指标查询分析。按照供电区域(全公司、部门、变电站、电压等级、线路)查询任意时间段的分电压售电量按照供电区域(全公司、部门、变电站、电压等级、线路)查询任意时间段任意关口计量点供电量。按照供电区域(全公司、部门、变电站、电压等级、线路)查询任意时间段任意受电计量点售电量。按照供电区域(全公司、部门、变电站、电压等级、线路)查询任意时间段任意计量点档案资料2.4.2深度分析以上指标的上月同期,去年同期和指标值比对展示各时段线损情况,并可以对线损率进行多项分析,包括综合指标分析、线损组成分析、趋势分析、供(售)电量增长分析、用户分类用电分析等子系统,对综合、线损率历史趋势进行全面分析,用户用电量增长分析。手拉手线路拉手情况汇总表。手拉手线路线损综合统计分析。分析线路最近线损率变化异常。可以分层逐步分析,分析这条线路下的任一计量点电量、档案资料等。对线损异常的线路,查询线路手拉手运行记录、用电量波动较大的客户用电信息、磁卡表电量分析、客户抄表时间查询、客户更换供电线路查询、营销自动化系统中各种基础数据查询,缩小对异常线路的分析范围,使分析更有针对性。手拉手线路线损分析。在计算线损时因为线路调度可能引起误差,分析综合线损。实时形成每时段线损率,实现超高报警。异常分析,对线损率变化异常的线路(售电量变化异常用户)报警。提供降损决策分析,包括调整电压,送电线路升压,并联无功补偿,增加并列线路,增大导线面积等多种降损决策综合分析.2.4.3图形展示以上指标和分析的图形柱状图、折线图、饼图展示。可以任意选择一条或几条线路进行分析。对超过一定范围的数据用红色显示。显示某时间点的线损情况。如显示各10点的线损曲线。可以分析某一时间段数据。每天的线损情况,可以显示每天的线损曲线。以及每条线路每月线损曲线。2.5装备水平分析变电站,开关、互感器、隔离开关、变压器容量、保护综自设备按变电站、电压等级、产品型号、类型显示统计结果。统计变电综合自动化率、双配置率、无油化率、组合化率。以及变电设备到期需检修、试验设备。检修试验完成率。统计缺陷按数量、类型、变电站等展现历史变化曲线图形点击可直接显示明细。输配电线路总条数,总长度。输电线路按电压等级、型号、架空和电缆、投运时间(年)、资产统计条数和长度。配电线路按单位、资产性质、电缆架空、显示统计结果。架空配电线路、配电变压器、低压台区个数,配电室、箱变、台架、配电室、开关站、环网柜、分支箱、联络柱上开关、分段柱上开关显示统计结果。并可按照台帐中的设备投运日期统计需更换设备,按照试验时期统计需进行试验的设备,按照巡视周期应进行巡视的线路及设备等。数据来源配电GIS,变电生产管理系统。2.6人力资源分析人员基本信息,可按部门、性别、身份、年龄结构、工作年限、人员分类、专业职务、政治面貌、文化程度、用工形式、技能工资、岗位工资进行统计,并可交叉统计。构建历史数据,反映职工调动纪录,记录调动时间,前后部门、岗位变动,主业职工人数、三产职工人数历史曲线,生产、管理人员人数及比例历史纪录,全局人员、生产人员、管理人员中各种学历比例历史纪录可进行技能结构分析、学历层次分析、员工年龄变化趋势分析、年龄结构分析、专业分析统计、中层干部结构分析、公司机关人员现状分析、高级技能人才比例、人才密度等统计显示。数据来源人事MIS系统。
3解决方案3.1创建仓库模型 根据对电力行业的营销系统、调度系统、抄表自动化系统等的了解,我们提取了售电量、用电量两个主题,并根据可能影响该主题的相关因素,设计出该主题的星型模式。3.1.1主题1售电量主题售电量影响电量的因素:用户(含大客户)时间(粒度为天)行业分类用电类别电价类别供电区域 ——地区 ——部门 ——变电站 ——线路 ——公用区电压等级***售电量***构建的星型模式:图3-1售电量的星型模型3.1.2主题2用电量主题用电量影响电量的因素:变压器时间(粒度为天)供电区域 ——地区 ——部门 ——变电站 ——线路 ——公用区电压等级业扩——新增——增容外部因素——天气(温度)——政策——电价调整——经济形势***用电量***构建的星型模式:图3-2用电量的星型模型3.2数据抽取规则数据抽取是根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源(包括各平台的数据库、文本文件、HTML文件、知识库等)进行清理、转换,对数据进行重新组织和加工,装载到数据仓库的目标库中。在组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。加工数据是保证目标数据库中数据的完整性、一致性。在数据抽取过程中,必须在最终用户的密切配合下,才能实现数据的真正统一。早期数据抽取是依靠手工编程和程序生成器实现,现在则通过高效的工具来实现,如Ardent公司的Infomoter产品、SAS的数据仓库产品SAS/WA(WarehouseAdministrator)及各大数据仓库厂商推出的、完整的数据仓库解决方案。在本解决方案中,我们将采用IBM公司的DB2WarehouseManager来完成数据抽取。3.2.1分析业务系统库,对数据字典进行分类了解各个业务系统库,分析需要从那些业务系统库抽取数据,并分析各个系统之间的联系,熟悉要抽取数据的业务系统库的数据字典。然后,对源数据库中的数据进行细分,将数据字典中的各字段转换到分类数据表中,然后将整个数据抽取的过程建立在分类数据表的基础上。分类数据抽取策略的实质是将创建集合记录过程中对导入记录映像的分类和再分类工作的一部分提前至键值定义中,使得原本无法并行的概括键值和分类抽取集合键值过程变得可以并行操作,而且并行操作的各类人员或程序有了更明确的任务划分,起到了分工合作的作用。从而在数据仓库和数据集市的构建中,将源字段分类、分类字段键值概括、已抽取数据的再分类等工作分派给不同的人员并行处理,形成流水线效应,提高了工作效率。 分类数据抽取策略的过程如图3-3所示:图3-3分类数据抽取策略过程3.2.2找出各业务系统内及其与目标数据库之间存在的数据不一致。各个源数据系统是由不同的公司在不同的时间开发的,数据之间都存在很大的不一致。在不同的系统中,同一实体的编码类型可能不一致。例如,有两个数据源存储与客户有关的信息,在定义数据组成的客户编码类型时,可能一个用的是可变字符型,而另一个用的是整型;在不同的系统中,同一实体的编码方案可能不一致。例如,在定义客户性别这一属性的类型时,一个可能是char(2),存储的数据值为"男"和"女",另一个属性类型为char(1),数据值为"F"和"M";有的系统还可能用的是0、1和2,0表示男,1表示女,2表示性别未知。不同系统中,数据存储的粒度可能不一致。例如,在抄表自动化系统中,对大客户的抄表时间间隔精确到小时,但是在目标数据仓库中,需要将抄表时间间隔精确到天。数据需要清理。有的系统因为开发时间比较早,存储它里面的数据可能已经不在满足现在实际需求,成为错误数据。例如,在老的历史数据中,存在一个计量点对应多个有功表的情况,这是不符合实际需求的,但是,我们又必须要使用这些老的历史数据,这就要求对这些存在错误的历史数据进行清洗、整理,以符合实际需求。在某些情况下,为了保证输入数据的正确性,需要一个简单的算法。在复杂情况下,需要调用人工智能的一些子程序把输入数据清理为可接受的输出形式。一个维可能有多个级别,在业务系统库中,这些数据可能存储在多个表中,这需要将包含在多个表中的有关数据进行合理合并。例如,客户维包括供电局、供电所和客户三个级别,它的层次如图3-4所示:客户维客户维……供电局……供电所……客户图3-4客户维的层次供电局、供电所的信息存储单位信息表中,客户信息存储在客户基本信息中,这就需要对两张表进行合并。目标仓库可能只关心业务系统库表中的一部分数据。例如,在业务系统库的客户基本信息中,可能根据时间存放了一个客户的多条信息,但是目标仓库对每个客户只需要一条信息就足够了,这就需要对数据进行清洗。需要提供缺省值。有时候,数据仓库的一个输出值没有对应的输入源。这时,必须提供缺省值。必须进行数据格式的转换。例如,EBCDIC到ASCII的转换(或反过来)必须进行;有关日期的输入数据格式是YY/MM/DD,当它被写入输出文件时,需要转化为DD/MM/YY的格式。3.2.3设计出合适的转换规则针对各个业务系统库数据之间不一致,制定出相应的转换规则各个系统编码类型的转换。例如,源系统中,客户编码用的是整型,目标仓库中,用的是char(12),那么将整型的每位转换成一位字符,转换完成,不足12位的,在前面用字符‘0’补足12位。各个系统编码方案的转换。例如,源系统中,客户性别用的是“男”、“女”,而目标仓库中,用的是“0”,“1”,“2”,那么做如下转换:男->0女->1空值->2对数据进行清理。例如,对一个计量点存在多个有功表的情况,就要按照实际情况,要么拆分成多个计量点,要么,将多个有功表进行求和。数据格式进行转换。例如,ASCII码转换成EBCDIC,需要使用相应的转换函数。3.2.4设计数据抽取流程每个数据抽取流程完成一个功能相对独立的实体的数据抽取,比如,一个抽取流程完成一个维或事实表的数据抽取。在本方案中,我们将借助于IBM公司的可视化数据抽取工具DB2WarehouseManager来完成数据抽取流程的设计。一个数据抽取流程可能会涉及到多个表,需要运用多个数据抽取规则,进行多个数据转换,并且各个数据转换之间存在制约关系,一个转换必需在某个或某几个转换完成之后才能进行。例如,客户维的数据抽取流程需要从系统信息表和客户基本信息表中抽取数据,并且需要将客户基本信息表中不需要的客户信息清洗掉。客户维数据抽取流程在DB2WarehouseManager中的设计如图3-5所示:图3-5客户维数据抽取流程3.2.5设计数据抽取的流程的抽取方式,并开始数据的抽取对大数据量实体的数据抽取进行整体抽取,可能会占用太多时间,一般会采取增量抽取;对于小数据量的实体,可以考虑使用整体抽取。在数据抽取流程设计完成之后,就需要指定数据抽取流程的抽取方式,比如是人工抽取,还是自动;如果是自动,那么就需要指定开始抽取的时间或时间间隔。对有制约关系的各个抽取流程,还要指定他们之间的先后关系。在数据抽取流程的抽取方式设计完成之后,就可以开始数据的抽取了。3.2.6对抽取到数据仓库中的数据,进行验证 在数据抽取到数据仓库后,就需要对数据进行验证,看是否满足一致性,是否满足实际需求,是否达到了预期的目标。如果,数据没有达到预期的目标,就要找出不满足需求的原因,重复步骤3.2.2-3.2.6,重新分析各系统之间存在的问题,重新设计转换规则、数据抽取流程。3.2.7完成数据的抽取 手工或定期地启动数据抽取流程,将数据从业务系统库中抽取到数据仓库中。3.3OLAP多维分析针对电力系统将要建立的数据仓库模型,我们选择OLAP展示作为数据仓库向用户提供信息的接口,来满足决策支持或多维环境特定的查询和报表需求。3.3.1多角度分析对同一主题的数据,OLAP展现可以在不同的角度对数据进行展示,用户可以根据需要,随意组合展示的角度和展示的方式。例如,用户选定对售电量主题进行分析,可以从用户、时间、行业分类、用电类别、电价类别、供电区域、电压等级角度对售电量进行。用户在分析的过程中,既可以把上述所有的角度都选定,在各种角度综合作用下的进行分析,也可以只选择自己感兴趣的角度进行分析。例如,可以进行下列不同角度的展现:某行业在各个时间段内的电量趋势及同期比。某用电类别在各个时间段内的电量趋势及同期比。某电价类别在各个时间段内的电量趋势及同期比。某供电区域在各个时间段内的电量趋势及同期比。某电压等级在各个时间段内的电量趋势及同期比。在某段时间内,各行业用电量及其在总电量中所占的比重。在某段时间内,各用电类别用电量及其在总电量中所占的比重。在某段时间内,各电价类别用电量及其在总电量中所占的比重。在某段时间内,各供电区域用电量及其在总电量中所占的比重。在某段时间内,各电压等级用电量及其在总电量中所占的比重。某电价类别中,不同供电区域在某段时间内的用电量,及对比。某行业中,不同供电区域在某段时间内的用电量,及对比。某用电类别中,不同供电区域在某段时间内的用电量,及对比。某供电区域中,不同供电区域在某段时间内的用电量,及对比。某电压等级中,不同供电区域在某段时间内的用电量,及对比。在某供电区域内,各行业用电在某段时间内用电量,及其在总电量中所占的比重。在某供电区域内,各用电类别用电在某段时间内用电量,及其在总电量中所占的比重。在某供电区域内,各电价类别用电在某段时间内用电量,及其在总电量中所占的比重。在某供电区域内,各电压等级用电在某段时间内用电量,及其在总电量中所占的比重。某大客户在各个时间段内的电量趋势及同期比。在某段时间内,各用电大户的用电量,及其在总售电量中所占的比重。某行业中,各用电大户在某段时间内的用电量,及对比。某用电类别中,各用电大户在某段时间内的用电量,及对比。某电价类别中,各电大户在某段时间内的用电量,及对比。某供电区域中,各电大户在某段时间内的用电量,及对比。某电压等级中,各电大户在某段时间内的用电量,及对比。………分析时除了维度的灵活选择外,展示系统还支持在某一维度上的钻取分析。例如,在按照行业分类和时间角度对售电量进行分析时,用户可以根据需要采取向下钻取(Drill)分析方式,查看时间角度上更细节的数据,如可以查看每个季度每月的数据或只查看第四季度下面三个月的数据,如图3-6所示。图3-6钻取分析图对于某角度细节粒度的数据,如各行业分类每天的售电量,也可以采取上卷(Roll-up)的分析方式查看高粒度上的数据,如可以对2004年1月份每天的数据进行汇总。对于任何一个用户关心的角度,只要此角度存在层次关系,我们的展示都可以进行此种向高层的上卷和向下层的钻取操作。让用户只是点击一下鼠标,便可以站在不同层次之间浏览数据,方便用户既可以对细节数据的把握,有可以满足用户对综合数据的需求。 我们的展示对同样的一组数据,可以以不同的视角进行展现。对图3-6所示的数据,此时展示的是不同的行业的2004年四个季度的售电量。可以采取旋转(Rotate)/转轴(Pivot)分析方法,展示在2004年的四个季度中不同的行业的售电量。这种旋转(Rotate)/转轴(Pivot)操作,使得用户对拥有同样角度的数据,可以这次以这个角度作为观察的重点,下次又以另一角度作为观察的重点。此种操作方法,对同一组数据,给用户提供更灵活的观察视角。3.3.2图形展示 我们的展示既能提供数字报表展示,还能提供强大的图形展示功能。可以对数字报表以柱状图、饼图、折线图等图形直观的展现给用户,还支持对用户关心的图形区域进一步细化展示的功能。图3-7给出了两种图形的组合图形报表,左面的饼图给出了不同地区的售电量占总售电量的比例,右面的折线图给出了三种行业在2002、2003的八个季度中的售电量变化趋势。图3-7组合图形报表我们对一般的图形展示功能做了扩充,支持在图表上直接进行分析,可以使用户方便直观进行主题分析。如用户查看2004年四个季度的不同行业分类的售电量(图3-8),用户如果此时仅想查看四个季度的“非普工业”的售电量,此时只需在“非普工业”点击一下,图形将显示2004年四个季度的“非普工业”的售电量情况(3-9)。图3-8行业分类售电量展现图3-9非普工业售电量展现3.4数据挖掘 利用IntelligentMiner可实现关联分析、聚类分析、分类、预测、时序模式和偏差分析等6种信息的挖掘方法。下面举例说明前3类挖掘。3.4.1关联分析比如我们关心各线路之间售电量变化的相关性,这属于挖掘中的关联挖掘。首先我们需要在系统中指定我们认为可能有关联的线路,如从线路1到线路10的相关数据,经过系统的运算分析我们可以得到一张如图3-10所示的图表:图3-10关联挖掘示意图图表可以告诉我们什么?图中的节点表示不同的线路,节点之间的连线表示不同节点之间的关联规则,连线的颜色代表该关联规则的支持度,而连线的粗细程度代表着该关联的改善度。所谓规则A==>B的支持度是指,A与B同时出现的概率;而A==>B的改善度是指,在A变化的情况下,B一定变化的概率。在图中我们可以看到,线路8上售电量的改变有80%的概率会引起线路10上售电量的改变,而线路8和线路10在物理上并不一定是邻近的。在这种情况下,如果我们要在线路8上新增一个用户,而该用户的用电量将会把线路8的平均负荷从50%提升到80%,这样一来,我们是不需要对线路8进行改造的。但通过我们的挖掘分析可以知道,新增的用户可能会大大提高线路10的平均负荷,而如果线路10本身已经接近满负荷,则我们需要对线路10进行改造。我们可以利用关联做什么?有了这样的工具之后,我们可以分析许多与主题相关因素之间的关系,找到一些潜在的规则,而这样的规则可能是我们在平时的工作中根本不会想到的。比如:供电区域与用电类别之间的关联:历城区的售电量上涨时,我市大宗工业的售电量也将大幅上涨。居民照明用电、商业用电及大宗工业用电之间的关系:居民照明的售电量大幅上升时,商业用电也将大幅上升,而大宗工业的售电量可能会有相应的减少。各电压等级之间的关系:当35KV以下的售电量大幅减少时,220KV以上的售电量可能会有相应的减少。农业售电量与某种工业之间的关系:当农业售电量大幅上升时,某特定工业的售电量可能随之大幅上升。如果底层数据完整,我们甚至可以找出每天的温度与日售电量之间的关联规则,从而根据天气预报来推测下一时间段的售电量。3.4.2分类分析比如我们想按自己的标准对所有的总电量进行分类,而这种标准又可能是不固定的,比如,要看总电量中月用电量大于5万度的和小于等于5万度的各占多少,而在月用电量大于5万度的售电量中,大工业用电和非大工业用电各占多少。要实现这样的目的,我们需要在系统中指定每一层的规则,经过系统的分析运算,我们可以得到一张类似于下图的一张图表:图3-11分类挖掘示意图图中显示的是一棵树,树的根结点代表一定时间段内的总电量,结点上方显示的汉字即为我们自己定义的分类规则,在这里,我们把总电量按“月售电量>5万度”的标准分成两部分。根结点的左结点代表月售电量大于5万度的用户的售电量,而右结点代表小于等于5万度的售电量。在大于5万度的售电量中,我们又按“是否大工业”的标准进行细分,又得到两个结点,以此类推。当然,我们可以看到每一结点的具体数据,如它在父结点的总量当中所占有的百分比或绝对数量。3.4.3预测分析比如我们想根据大量的历史数据来推测下一时间段(可能是月也可能是年)的售电量。要实现这样的目的,我们需要在系统中指定预测时间段的长度(如是一个月还是一年)、是否使用特定的模型、使用何种模型及指标预测的角度之后,经过系统的运算、分析,我们会得到一张类似于图3-12的图表。图3-12预测分析示意图在图中可以看到,我们可以随时改变相应的预测条件来生成新的预测结果。预测结果的展示可以是折线图,柱状图或数据表等多种形式。
4采用的技术及相关产品4.1构建数据仓库的技术步骤 具体来看,开发数据仓库的流程主要按照下列步骤:启动工程首先建立开发数据仓库工程的目标及制定工程计划。计划包括数据来源、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度等。建立技术环境选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标(关于可用性、装载、维护及查询性能。)确定主题进行数据建模(需求分析)根据决策需求确定主题,选择数据源,对数据仓库的数据组织进行逻辑结构设计。设计数据仓库中的数据库(物理建模)依照需求分析得到的逻辑模式,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表。(Warehousemanager)数据转换程序(即ETL过程)实现从源系统中抽取、清理、一致化、综合、装载数据等过程的设计和编码。(Warehousemanager)管理元数据(部分已经在步骤4、5中完成)定义元数据,即表示、定义数据的意义及系统各组成部件之间的关系。元数据包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、默认值、安全要求、变化及数据时限等。(Warehousemanager)创建仓库模式用定义好的事实表和维表生成多维模式。注,这个模式不存在层和层次的概念。(Warehousemanager)搭建立方体在已创建的仓库模式的基础上,对维定义了层和层次;创建了需要预计算的量度;利用优化器根据业务进行了切片优化和预处理,生成MQT(物化视图);在模式中建立立方体,供查询和多维分析使用。(CubeViews)开发基于多维存储的OLAP模型前面创建的模型是基于关系存储的,在这里要创建基于多维存储的OLAP模型。主要工作分为建模和部署两步:(OLAPServer)基于仓库中的表建立OLAP模型首先建立元模型(包括创建星型或雪花模式,定义维、属性、层和层次等);再建立元轮廓,即将前面定义的元模型转换成OLAPServer所能识别的元数据。将建好的模型部署到AS(分析服务器)中;注意,CubeView和Olapserver是两个并行使用的工具,后者的功能似乎比前者更强大。多维分析及展现使用数据分析和展现工具,开发多维分析程序以及展现页面。(Alphablox)查询优化IBM提供了专门的查询优化工具QueryPatroller,它通过帮助DBA控制和了解数据库使用情况,从而实现预见性的管理、查询信息分析、查询监控等。数据挖掘利用数据挖掘工具抽取以前没有发现、可理解的、可操作的信息。包括聚类、关联、分类、预测分析等。(IntelligentMiner)管理数据仓库环境数据仓库必须像其他系统一样进行管理,包括质量检测、管理决策支持工具及应用程序,并定期进行数据更新,使数据仓库正常运行。4.2相关产品介绍IBM公司的DB2数据仓库企业版提供了完整的数据仓库解决方案,包括DB2ESE、DB2WarehouseManager、DB2CubeViews、DB2OLAPServer、DB2IntelligenceMiner和DB2Alphalox,整体框架如图4-1所示:图4-1DB2数据仓库解决方案整体框架 DB2ESE通过使用非共享体系结构、查询重写、快速装载、物化查询表、复制的查询汇总表、多维聚簇技术、动态位图索引等技术,来提供了对通用海量并行数据仓库的支持;B2WarehouseManager提供了可视化的界面,方便了数据的加载、转换和抽取;DB2CubeViews是OLAP元数据交换工具及物化查询表生成器,它通过将经常关心的查询做成物化表,大大加快了查询的速度;OLAPServer是功能强大的OLAP分析工具,它能够对维进行加、减、乘、除等各种运算;DB2IntelligenceMiner是数据挖掘工具,它包括数据挖掘建模工具、数据挖掘评分工具和数据挖掘图示化工具三部分;DB2Alphablox是遵循J2EE规范的前端展示开发平台,它提供了基于WEB开放标准的标签语言,可以快速开发WEB分析应用。4.2.1WarehouseManager WarehouseManager主要负责数据仓库建模、数据抽取等工作、仓库管理等。其主要任务分为以下几部分:连接数据源。它支持关系的数据源,也支持平面文件,例txt文件。关系数据源可以是IBM的DB2数据库,也可以是其它厂家的数据库产品,例如Oracle、Sybase等。数据源的连接可以通过IBM提供的“联合数据库”进行管理连接,也可以直接通过ODBC进行连接。定义数据仓库目标。实际包含两步:定义目标库对应的数据库;定义目标表或文件。其中,目标表的定义,可以自行进行创建和结构设计,也可以在后面创建的Process中自动生成。定义数据抽取规则。在WarehouseManager中,数据的抽取是通过定义Process来实现的,而Process包含了一系列Step,一个Step就是数据仓库中的一个操作,通过使用SQL语言或调用程序,steps定义了怎样移动和转换数据。通过定义step,即可实现数据的抽取及转换。定义主题区域SubjectArea。主题区域是存放与业务中的某个主题相关的进程,其作用类似于资源管理器中的文件夹。例如,定义一个主题区域SalesSubjectArea,然后在该主题区域中定义一下4个process:BuildTimeDimensionProcess,BuildProductDimensionProcess,BuildMarketDimensionProcess,BuildSalesFactTableProcess。设置数据抽取周期。通过对数据抽取相应的Process进行调度,从而实现自动按周期抽取数据。例如客户信息每个星期要导入一次,则将其对应的Process中的steps设置为“测试”模式后,即可进行调度,规定调度频率每周星期天12:00执行一次;调度完成后,将steps再设置为“生产”模式,则系统就开始按照调度设置来执行该Process。在此过程中,可以通过“正在运行”窗口来查看被调度的Process当前的运行情况。创建仓库模式。仓库模式分为星型和雪花两种。在创建仓库模式的时候,首先定义各个维表的主键(可能需要在控制中心和DWC中分别进行定义),然后定义事实表的外键。通过主键和外键的定义,系统可以自动生成仓库模式。如图4-2所示。需要注意的是,在DWC中创建的模式中不存在层和层次的概念,即只简单的定义了维表和事实表的关系。而关于具体的维的层和层次的定义要到CubeViews或OlapServer中定义。图4-2一个星型模式定义数据仓库安全性,即定义数据仓库用户组和用户。第一次登陆DWC时使用的用户名和密码是创建数据仓库控制库时指定的DB2系统的用户名和密码。而在这里定义的用户组和用户,则是独立于操作系统和数据库系统的。定义了用户组和用户后,每创建一个仓库对象,例如仓库源、仓库目标或Process等,都可以将它们的权限指定给某些用户或用户组。4.2.2CubeViews4.2.2.1概述DB2CubeViews是DB2UniversalDatabase™(DB2通用数据库)的一个加载功能部件,用于改进DB2UDB®执行OLAP处理的能力。通过DB2CubeViews,可以描述关系表的维结构并创建OLAP构造。DB2UDB中的新多维元数据具有以下两个主要优点:优点一、改进商业智能工具和应用程序之间的多维元数据流动性使用OLAP中心(附带的一种图形界面),仓储和商业智能工具的用户可以将多维元数据作为DB2数据库一部分来存储,并使其可用于所有工具和应用程序。优点二、增强OLAP式的查询的性能基于多维元数据,可以使用OLAP中心中的优化顾问程序的建议来创建DB2摘要表。摘要表包含映射到OLAP结构的预计算数据。从具有相同OLAP结构的仓储或商业智能应用程序生成的查询的性能将会有所提高。一、CubeViews的作用CubeViews在数据仓库中的作用为建模和查询优化。所谓建模是指,我们的源数据存在于业务库中,经过ETL转换到了WAREHOUSEMANAGER里,并在WM里对其进行了表与表之间的连接操作,也就是所谓的星型模式。但在WM中所建的模式只有事实和维的概念,并没有定义维中的层(Level)和层次(Hierarchy)。层和层次是在CUBEVIEWS建立的。所谓查询优化是指,在CUBEVIEWS中可以建立MQT(MaterializedQueryTable),即物化查询表,用以存储某些统计的中间结果,从而大大提高查询的效率。二、CUBEVIEWS在BI流程中的地位CUBEVIEWS处于DW底层表与ROLAP之间,在底层数据表的基础上建立起仓库的模式,以供后面的ROLAP及挖掘所用,所做的是ROLAP的前期准备工作。如图4-3所示。DB2DB2EDWmartmartmartDrilldowntodetailsDB2EDWmartmartmartMOLAPHybridOLAPBIToolMiddleTierROLAPDrilldowntodetails图4-3CubeViews在BI流程中的地位4.2.2.2建模及优化过程导入事实:在CubeViews中指定由WarehouseM所建的星型模式中的事实表,并指定度量。建立维表的层(Level):导入事实表后,所有与事实表关联的表都被看作维表导入,存在于模型下面的“维”结点中。但WM中并没有对维进行分层,在这里需要定义维的层。定义层次(Hierarchy):建立好各维的层次之后,需要对每个维建立至少一个层次。定义立方体:根据已经建立的模型,选择适当的维和度量,建立一个具体的立方体,供Alphablox调用。创建或更新MQT:对模型进行优化切片,提高Olap查询的效率。比较查询效率:我们可以在生成MQT的前后分别在控制中心中对同一个库执行同一条ROLAP查询语句,以观察查询效率的变化情况:没有MQT时:生成MQT之后:图4-4查询计划及代价图——没有MQT时图4-5查询计划及代价图——有MQT时4.2.3OLAPServer4.2.3.1概述MOLAP表示基于多维数据组织的OLAP实现(MultidimensionalOLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成"立方块(Cube)"的结构,在MOLAP中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。MOLAP系列工具主要包括:DB2OLAPServer、DB2OLAPIntegrationServer和DB2Administratorserver。如图4-6所示。图4-6MOLAP系列工具组成AnalyticServices分析服务,一个可以运行在多处理机环境下的多线程OLAP数据库软件。服务的主要功能有数据存储、数据缓存、计算和数据安全性管理。分析客户端仅仅需要检索和查看存储在服务器上的数据。所有的分析服务应用组件,包括数据库轮廓、计算脚本及多维数据库信息,都保存在服务中。可以将服务中的数据存储在几个磁盘上,从而使得支持大数据存储。分析服务需要运行在装有支持多线程操作系统下,以便有效的管理多个同步的请求。服务也需要一个服务代理,它用来协调多个用户对应用程序的请求。MaxL作为一种多维数据库的存取语言,能灵活进行数据库管理和维护。AdministrationServices作为分析服务数据库和系统的管理接口的管理服务,可以同时提供对多个分析服务的管理。使用管理服务可以设计、维护和管理多个分析服务器、应用和数据库。不需要打开客户端应用,在管理服务的控制台上就可以预览数据。也可以通过提供的java插件来改变或扩充功能。DeploymentServices部署服务允许分析服务器的多个实例运行在多台机器上,然而它们作为一个逻辑单元来给用户提供服务,在移除和出错时也当作一个单元处理。部署服务使得数据库集群拥有负载均衡能力和容错能力。IntegrationServices集成服务(一种可选择的产品组件)使用元数据驱动的方式使存储在分析服务数据库中的数据和存储在关系数据库中的细节数据建立关联。此特性使商业用户在做决策时可以参考更细节的数据,也使IT经理在设计和维护大规模分析应用时可以设计更好的模块结构。此OLAP系统允许允许将分析服务数据库中的数据中的部分数据存放在关系数据库中。关系数据库中存放的数据可以和分析服务的某一层次关联。HAL(HyperionApplicationLink)是一个集成的商业自动处理工具,它允许事务处理应用、桌面应用和Hyperion商业性能管理应用之间双向交换数据。SpreadsheetProductsandHyperionAnalyzer分析服务器的商业用户接口工具HyperionAnalyzer,SpreadsheetServices,andSpreadsheetAdd-in,能给不同的用户团体对企业信息提供交互式的分析服务。HyperionAnalyzer,SpreadsheetServices,andSpreadsheetAdd-in可以使用户对ERP系统、关系系统、多维系统及其它数据源创建直观的基于Web的分析和报表。ApplicationProgrammingInterface(API)分析服务程序员接口(AnalyticServicesAPI)允许用户根据需要创建应用。APIReference提供了API中的函数、平台和支持的编译器的说明文档。DeveloperProducts不管用户是否拥有编程的知识,Essbase的开发工具都能使用户快速创建、管理和部署高质量的企业级的分析应用。这些产品,如ApplicationBuilder和HyperionObjects,提供一套完整的应用程序接口、可拖拽的组件及一些服务。DataMining数据挖掘工具(分析服务的一个可选择组件)能为用户找出数据中暗含的关系和模式,使你更好的决策。用数据挖掘工具,用户可以选择一个合适的数据挖掘算法,建立模型,然后应用到已经建立好的分析服务的应用和数据库中。4.2.3.2使用MOLAP系列工具建立电力分析模型一、建模的方法所谓OLAP建模就是指对某个具体的应用在OLAPserver中建立起针对此应用的OLAP模型。在此,就是对电力中的售电量和用电量主题,根据数据仓库中的数据建立起相关的多维数据模型。可以用三种方法建立一个DB2OLAPServer的电力多维模型(在olapserver中此模型被称作元轮廓)。方法一、通过应用管理器(AdministrationServer)的GUI手动建立维和成员。方法二、建立相互协调的文件集,并由ESSCMD或者Maxl通过批量模式建立一个轮廓。方法三、使用OLAP集成服务器。由于我们的任务是利用已存在的业务库建立OLAP模型,所以应使用第三种建模方法。利用集成服务器建模的主要过程如图4-7所示。图4-7集成服务器的建模过程二、建模的步骤利用采用集成服务器建模的步骤如下:Step1建立存放元数据(OLAP模型和OLAP轮廓)的元数据目录,并与要建模的源数据连接。Step2根据需求中的要求,建立OLAP模型。如图4-8所示。对关系数据源用户来说,这个步骤包括创建OLAPmodel和利用它工作,创建事实表(facttable),创建account维,创建时间维,创建维和利用维工作,编辑和转换(transforming)维表中的列,创建和编辑维表的连接(joining),创建和利用维表的层次(hierarchies)。图4-8如何建立OLAP模型Step3根据建立的OLAP模型,建立OLAP轮廓;利用加载工具加载到AnalyticServer。 如图4-9所示,建立轮廓的步骤,包括创建轮廓和用轮廓创建和加载成员和数据到分析服务器的数据库中。主要过程如下:(1)创建轮廓(2)在轮廓中创建维、成员级别和度量(3)设置加载属性、过滤属性,设置混合分析成员级别;设置维、成员级别和度量在分析服务器轮廓中的属性(4)加载维和成员级别到分析服务器轮廓(5)加载指定的数据到分析服务器数据库中图4-9建立轮廓的步骤4.2.4Alphablox4.2.4.1概述DB2Alphablox构建于已有的应用服务器环境之上,遵循J2EE体系结构,可以与J2EE应用服务器集成,可以无缝的访问多个数据源,并可以很好的与其它应用和服务集成,如图4-10所示:DataWarehouseDataWarehouseDataMartRelationalDatabaseSystemsIE,NetscapeWeb
Application
ServerIntranet/
ExtranetClient
BrowserAppServerAlphabloxAnalystsBusinessUsers,Customers,Partners&SuppliersDataMart图4-10DB2Alphablox在应用服务器上的部署 在图4-10中,DB2Alphablox及其所有完成分析的解决方案都作为遵循J2EE的应用运行在应用服务器上,用户通过Web浏览器来访问。传统的查询和报表工具,只跟应用服务器交互,Alphablox能够平衡应用服务、Poertal服务和应用服务器提供的集成代理服务。DB2Alphablox完全平衡了开发、部署和维护分布式应用的公共基础4.2.4.2AlphaBlox体系结构Alphablox包括如下组成部分:DB2Alphablox分析服务器(AnalysisServer)DB2Alphablox能够完成分析的解决方案(analytic-enabledsolutions)DB2Alphablox管理应用(administrationapplication)应用服务器接口(Applicationserveradapters)Alphablox的体系结构如图4-11所示:图4-11DB2Alphablox体系结构AnalysisServer,Alphablox的核心组件,运行在J2EE应用服务器的业务层(Businesstier)。当作为一个J2EE应用在主服务器上运行时,它提供了全功能分析服务器的服务。ApplicationServerAdapter允许AnalysisServer与每个支持的应用服务器通信,来执行管理功能,其中许多功能,像定义应用,在每个应用服务器上被不同安装。用户和合作伙伴开发的完成分析的应用(analytic-enabledapplication)作为应用服务器的应用运行在Web层。当与AnalysisServer交互时,应用作为单独的和封装的J2EE应用,可以独立于AnalysisServer进行部署、备份、升级和移植。Alphablox在应用服务器的Web层注册了两类J2EE应用,分别是:Alphablox服务器应用和Alphablox管理应用。应用服务器像管理其它Web应用一样,管理Alphablox,它通过调用一个servlet来自动开始AnalysisServer。AnalysisServer根据应用服务器收到的对它的请求和应用服务器使用的管理模型,来挂起和重新开始AnalysisServer。4.2.4.3AlphaBlox应用一、什么是Alphablox应用Forend-users(终端用户):一组网页的集合提供相关的、关键性业务信息与业务逻辑相集成使业务分析有个友好的界面Forapplicationdevelopers(应用开发者):是成为blox的组件的集合,由AlphabloxAnalysisServer管理。JSP网页包括:JSP标准和自定义TagsHTML,CSS,JavaScriptJavascriptlets其他的Web组件(graphics,Flash,etc.)二、什么是BloxBlox是可重复使用的组件;使用自定义JSPtags添加到JSP页面中;大多数使用JavaBeans技术创建;使用一个数据展现的Blox组件,需要指定以下几方面::数据源和抽取数据的查询怎样展现数据想要怎样让用户查看、操作、分析、共享、联合或评论数据;并不是所有的blox组件都是可见的。三、Blox的分类InfrastructureInfrastructureDataAccessPresentation&ManipulationGridBloxChartBloxToolbarBloxSpreadsheetBloxPresentBloxReportingBloxFormsBloxPageBloxRepositoryBloxStatusBloxDataBloxStoredproceduresBloxMDBQueryBlox图4-12AlphabloxCategory(Analytics)4.2.4.4Cube分析引擎(AlphabloxCubingEngine)允许Alphablox以多维方式访问关系数据;使用AlphabloxAdmin定义元数据,来描述事实、维、层次结构(层次)等;将来自blox的查询请求转换成SQL;到达Cube分析引擎的Blox查询是用MDX语言描述的CubeCubeDefinitionsAlphabloxCubeServerRelationalDatabaseMDXSQL图4-13AlphabloxCubingEngineDimensionalMetadataWarehouseDataDB2DatabaseTierApplicationServerTierCubeDefinitionimportAlphabloxCubeServer图4-14CubeViewsIntegration4.2.5IntelligentMinerIBM公司的数据挖掘工具(IntelligenceMiner)由数据挖掘建模组件(IMModeling)、数据挖掘评分组件(IMScoring)和数据挖掘图示化组件(IMVisualization)三部分组成,整体框架图如图4-15所示:图4-15数据挖掘组件图4.2.5.1数据挖掘评分组件(IMScoring)将IM4D或第三方挖掘工具挖掘出的模型直接倒入数据库/数据仓库打分可以在生产系统中完成支持DB2/ORACLE节约开发、维护成本实现生产系统独立、实时打分大大提高了:快速分析能力性能易用IMScoringDataAnalystHistoricalDataDataMiningWorkbenchDB2UDFScoredDataSQLPMMLmodel图4-16数据挖掘评分组件(IMModeling)4.2.5.2数据挖掘建模组件(IMModeling)数据挖掘建模组件(IMModeling)提供在数据仓库或数据库中构建数据挖掘模型的能力,可以使用聚类(Clustering)、分类(Classification)、关联(Association)和预测(Prediction)等各种数据挖掘方法。ClassificationClassificationPredictionAssociations图4-17数据挖掘建模组件(IMmodeling)4.2.5.3数据挖掘图示化组件(IMVisualization)数据挖掘图示化组件(IMVisualization)提供数据挖掘结果的图形化展示,它通过MiningInterface将存放在DB2数据仓库中的挖掘结果以图形化的方式展示给用户,如图4-18所示:DB2DB2MiningInterface图4-18数据挖掘图示化组件(IMVisualization)
5实施计划电力数据仓库系统在工程的实施开发的时间上做了明确的限定,要求在2005年底完成数据仓库系统的建设工作。5.1地纬公司的技术、实力与经验济南市电力数据仓库系统工程项目覆盖面广,任务复杂,在工期上有严格的规定。在工程正式实施开发以前,开发商必需结合自身公司的实力、技术与经验,为工程的实施开发规划出一整套严谨、详细、完备的工程实施开发计划,一套规范的可执行的工程实施开发计划是整个工程成功实施的保障。地纬公司自成立以来十数年来一直从事大型系统的开发与实施工作,承担过多项大型的管理信息系统项目建设工作,例如:青海电力公司全省统一电力营销技术支持系统项目,山东全省范围的社会保障技术支持系统建设项目、新疆建设兵团(省级)社会保障系统建设项目等。在建设大型系统方面具备丰富的实战经验。5.2实施开发综述仔细规划项目质量保证措施地纬公司通过以下措施来确保电力数据仓库系统的实施开发质量:制定严密可行的实施计划,整个工程严格按照计划进行;地纬公司已经通过ISO9000认证,公司质量控制部利用ISO9000质量管理规范对工程的软件开发及实施全过程进行监督和控制;建立完善的软件开发和工程实施的文档体系。对程序进行测试,对各个模块之间的关联情况下可能出现的问题进行严密的测试,并不断完善在测试过程中暴露出来的问题。在这过程中质量控制小组将全程参与,确保软件质量。前期的需求调研需求调研是软件开发的最重要的环节之一,在调研的过程中能否真实、准确地描述客户的需求,对于软件的开发有着举足轻重的影响。与客户沟通不够导致对同一个事物的描述或者理解有分歧和差异,或者调研过程中流于表面文字,而没有进入实际的操作,都可能造成在需求调研的过程中造成对需求不精确的理解。失之毫厘,谬之千里,需求调研的微小差异可能会在软件的开发过程中造成较大的偏差,直接影响了工程的建设质量。为此我们为需求调研工作分配了充裕的人力的时间,制定了完善的调研方案,对需求调研的深度和广度做了规范性的描述。确保需求调研的工作质量。5.3实施开发计划电力数据仓库项目由需求分析、物理建模、数据转换(即ETL过程)、生成多维模式并搭建立方体、多维分析及展现、数据挖掘六个阶段组成。2005年9月1日――2005年12月31日共四个月,为系统建设实施阶段。一、需求分析阶段2005年9月1日――2005年9月20日为需求分析阶段。由地纬公司熟悉电力行业业务的工程师组成的软件开发小组对供电公司的需求、软硬件条件、数据状况等情况进行调研,对需求调研的结果进行分析,同时考虑需求的广泛适用性,归结出其中共同的部分和相异的部分,以便下一步根据需求完成系统软件开发。二、物理建模阶段2005年9月21日――2005年10月15日为物理建模阶段。使用Warehousemanager,依照需求分析得到的逻辑模式,设计数据仓库中的数据库,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表。三、数据转换(即ETL过程)阶段2005年10月16日――2005年11月15日为数据转换阶段。使用Warehousemanager,实现从多个源系统中抽取、清理、一致化、综合、装载数据等过程的设计和编码。(Warehousemanager)四、生成多维模式并搭建立方体阶段2005年11月16日――2005年11月30日为生成多维模式并搭建立方体阶段。使用Warehousemanager,用定义好的事实表和维表生成多维模式。使用CubeViews,在已创建的仓库模式的基础上,对维定义了层和层次;创建了需要预计算的量度;利用优化器根据业务进行了切片优化和预处理,生成MQT(物化视图);在模式中建立立方体,供查询和多维分析使用。五、多维分析及展现阶段2005年12月1日――2005年12月15日为多维分析及展现阶段。使用数据分析和展现工具Alphablox,开发多维分析程序以及展现页面。六、数据挖掘阶段2005年12月16日――2005年12月31日为数据挖掘阶段。使用数据挖掘建模工具DB2IntelligentMinerModeler进行聚类、关联、分类、预测,使用数据挖掘模型图示化工具DB2IntelligentMinerVisualization,使用图形展示挖掘结果。附:工程实施整体计划一览表开发阶段起始时间终止时间需求分析阶段2005年9月1日2005年9月20日物理建模阶段2005年9月21日2005年10月15日数据转换(即ETL过程)阶段2005年10月16日2005年11月15日生成多维模式并搭建立方体2005年11月16日2006年11月30日多维分析及展现2005年12月1日2006年12月15日数据挖掘2005年12月16日2005年12月31日
附录资料:不需要的可以自行删除如何构建银行数据仓库数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规范和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规范做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。
数据仓库技术的实现方式
目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。
1、在关系数据库上建立数据仓库(ROLAP)
2、在多维数据库上建立数据仓库(MOLAP)
MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。
由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。
3、在原有关系库上建立逻辑上的数据仓库
由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数据仓库系统。尽管由于原有OLTP系统设计上的局限性,这样的系统可能无法实现很多分析功能,但这样一个系统中数据结构固定、信息分析需求相对稳定成熟,因此数据仓库的建模、实现过程会相对容易、便捷;同时,这样的系统也会成为将来真正数据仓库建设的原型。
信息系统与数据仓库的关系
由于数据量大、数据来源多样化,在商业银行构建管理信息系统时,不可避免地会遇上如何管理这些浩如烟海的数据,以及如何从中提取有用的信息的问题;而数据仓库的最大优点在于它能把企业网络中不同信息岛上的商业数据集中到一起,存储在一个单一的集成的数据库中,并提供各种手段对数据进行统计、分析。因此可以说,在银行使用数据仓库构建管理信息系统,既有压力,又有数据基础,它们之间的联系是必然的,难以割舍的。
数据仓库在商业银行的应用范围包括存款分析、贷款分析、客户市场分析、相关金融业分析决策(证券、外汇买卖)、风险预测、效益分析等。
在银行信息系统构建时,由于历史情况和现实需求的不同,存在两种途径:
1、建设新系统
由于目前国内商业银行对银行内部运营的监管,缺乏很好的数据搜集机制,因此可以在构建管理信息系统时,分数据收集录入和数据汇总分析两部分来考虑。这样的系统中由于不需考虑大量历史数据的处理问题,同时考虑到搜集过程中可能存在多个数据来源,因此可以在系统建设的同时构建数据仓库,将搜集来的各种数据通过数据抽取整合到数据仓库中。
2、完善原有系统
而对于已经存在OLTP系统,其中沉淀了大量历史数据,则可以先在原有系统上建立逻辑数据仓库,即使用数据分析的表现工具,在关系模型上构建一个虚拟的多维模型。当系统需求稳定后,再建立物理数据仓库,这样既节省投资,又缩短开发工期。
实现中需要注意的问题
一、模型设计中的问题
模型设计(包括逻辑模型设计和物理模型设计)是系统的基础和成败的关键,在实际操作中,视实现技术的不同应分别对下列问题引起注意。
1、直接构建数据仓库
直接构建数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论