5数据仓库的决策支持_第1页
5数据仓库的决策支持_第2页
5数据仓库的决策支持_第3页
5数据仓库的决策支持_第4页
5数据仓库的决策支持_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 5 章数据仓库的决策支持 51数数据仓库库的用户户5.2数数据仓库库的决策策支持与与决策支支持系统统5.3 数据据仓库应应用实例例51数数据仓库库的用户户5.1.1数数据仓仓库的信信息使用用者5.1.2数数据仓仓库的探探索者数据仓库库的用户户有两类类:信息息使用者者和探索索者信息使用用者是使使用数据据仓库的的大量用用户。信息使用用者以一一种可预预测的、重发性性的方式式使用数数据仓库库平台。 信息使用用者通常常查看概概括数据据或聚集集数,查查看相同同的商业业维度(如产品品、客户户、时间间)和指指标(如如收入和和成本)随时间间的发展展趋势。探索者完完全不同同于信息息使用者者,他们们有一个个完全

2、不不可预测测的、非非重复性性的数据据使用模模式。 探索者的的任务是是寻找公公司数据据内隐含含的价值值并且根根据过去去事件努努力预测测未来决决策的结结果。探索者是是典型的的数据挖挖掘者。5.1.1数数据仓仓库的信信息使用用者1.信息息使用者者使用数数据仓库库的性能能优化2.探索索者使用用数据仓仓库的性性能优化化信息使用用者的性性能需求求非规格化化规范化的的作用是是产生一一种完全全没有数数据冗余余的设计计方法。但是,有有时在数数据仓库库设计中中引入一一些有限限的数据据冗余来来提高数数据访问问效果。创建数据据阵列创建数据据阵列,将相关关类型的的数据(如:1月、2月、3月等月月份中的的数据)存储在在一

3、起,提高访访问效果果。预连接表表格一个公用用键和共共同使用用的数据据将表格格合并在在一起。共享一个个公用键键,可以以将多个个表格合合并到一一个物理理表格中中。这样样做可以以很大程程度的提提高数据据访问效效率。预聚集数数据根据“滚滚动概括括”结构构来组织织数据。当数据被被输入到到数据仓仓库中时时,以每每小时为为基础存存储数据据。在这这一天结结束时,以每天天为基础础存储累累加每小小时的数数据。在在一周结结束时,以每周周为基础础存储累累加每天天的数据据。月末末时,则则以每月月为基础础存储累累加每周周的数据据。聚类数据据将不同类类型的数数据记录录放置在在相同的的物理位位置。这这为用户户查看这这些记录录

4、,可以以在同一一地点找找到它们们,提高高查询效效率。压缩数据据压缩可以以使可读读取的数数据量极极大。定期净化化数据定期删除除数据仓仓库中不不需要的的数据,可以为为每个用用户提高高性能。合并查询询如果查询询定期发发生,那那么可以以通过把把这些查查询合并并到同一一个表格格中,从从而节省省大量资资源。5.1.2数数据据仓库的的探索者者探索者要要做的工工作有:概括分分析、抽抽取、建建模和分分类。(1)概概括分分析探索者开开始以分分析数据据的完整整性和准准确性(数据质质量)。在概括括分析活活动中,要询问问的典型型问题包包括:家庭收入入如何分分配?有多少帐帐户每月月消费超超过200元?有多少客客户有两两个

5、以上上的小孩孩并居住住在市区区?(2)抽抽取从数据仓仓库中抽抽取指定定的数据据,并组组织起来来,送入入支持探探索者分分析的探探索仓库库中。(3)建建模探索者通通过概括括分析来来理解数数据,通通过抽取取来准备备数据,通过建建模来分分析数据据。建模是开开发一种种用来描描述实体体(如客客户、商商品、渠渠道等)的关系系模型的的过程。探索者者使用的的模型有有:客户分段段后续产品品欺诈检测测渠道响应应(例如如,电话话销售和和直接邮邮寄)信用风险险客户生存存期价值值推销响应应例如,利用建模模来确认认有可能能拖延支支付电话话帐单的的客户:首先,建立一一个模型型(利用用统计学学和行为为科学)来确认认经常拖拖延支

6、付付电话帐帐单的客客户特征征。然后,根据客客户与模模型的密密切程度度,对所所有的客客户分类类。这样,可可以提供供谁将不不支付电电话帐单单的某种种可能性性预测。5.2数据仓的的决策支支持与决决策支持持系统5.2.1查询与报报表5.2.2多维分析析与原因因分析5.2.3预测未来来5.2.4实时决策策5.2.5自动决策策5.2.6决策支持持系统数据仓库库是一种种能够提提供重要要战略信信息,并并获得竞竞争优势势的新技技术,从从而得到到迅速的的发展。具体的战战略信息息有:给出销售售量最好好的产品品名单找出出现现问题的的地区(切片)追踪查找找出现问问题原因因(向下下钻取)对比其他他的数据据(横向向钻取)显

7、示最大大的利润润当一个地地区的销销售低于于目标值值时,提提出警告告信息。建立数据据仓库的的目的不不只是为为了存储储更多的的数据,而是要要对这些些数据进进行处理理并转换换成商业业信息和和知识,利用这这些信息息和知识识来支持持企业进进行正确确的商业业行动,并最终终获得效效益。数据仓库库的功能能是在恰恰当的时时间,把把准确的的信息传传递给决决策者,使他能能作出正正确的商商业决策策。5.2.1查查询与报报表1.查询询(1)能能向用户户提供查查询的初初始化,公式表表示和结结果显示示等功能能。(2)由由元数据据来引导导查询过过程(3)用用户能够够轻松地地浏览数数据结构构(4)信信息是用用户自己己主动索索取

8、的,而不是是数据仓仓库强加加给他们们的(5)查查询环境境必须要要灵活地地适应不不同类型型的用户户2.报表表(1)预预格式化化报表。(2)参参数驱动动的预定定义报表表。(3)简简单的报报表开发发。(4)公公布和订订阅。(5)传传递选项项。(6)多多数据操操作选项项。(7)多多种展现现方式选选项。5.2.2多多维分分析与原原因分析析1、多维维分析通过多维维分析将将获得在在各种不不同维度度下的实实际商业业活动值值(如销销售量等等),特特别是他他们的变变化值和和差值,达到辅辅助决策策效果。例如通过过多维分分析得到到如下信信息:今年以来来,公司司的哪些些产品量量是最有有利润的的?最有利润润的产品品是不是

9、是和去年年一样的的?2、原因因分析查找问题题出现的的原因是是一项很很重要的的决策支支持任务务,一般般通过多多维数据据分析的的“向下钻取取”操作来来完成。某公司从从分析报报表中得得知最近近几个月月来整个个企业的的利润在在急速下下滑,通通过人机机交互找找出该企企业利润润下滑的的原因。(1)查查询整个个公司最最近3个个月来各各个月份份的销售售额和利利润,显显示销售售额正常常,但利利润下降降。(2)查查询全世世界各个个区域每每个月的的销售额额和利润润,显示示欧洲地地区销售售额下降降,利润润急剧下下降。(3)查查询欧洲洲各国销销售额和和利润。显示一一些国家家利润率率上升,一些国国家持平平,欧盟盟国家利利

10、润率急急剧下降降。(4)查查询欧盟盟国家中中的直接接和间接接成本。得到直直接成本本没有问问题,但但间接成成本提高高了。(5)查查询间接接成本的的详细情情况。得得出企业业征收了了额外附附加税,使利润润下降。通过原因因分析,得到企企业利润润下滑的的真正原原因是欧欧盟国家家征收了了额外附附加税造造成。5.2.3预预测未来来预测未来来使决策策者了解解“将要发生生什么”。数据仓库库中存放放了大量量的历史史数据,从历史数数据中找找出变化化规律,将可以以用来预预测未来来。在进行行预测的的时候需需要用到到一些预测模型型。最常用用的预测测方法是是采用回回归模型型,包括括线性回回归或非非线性回回归。采用聚类类模型

11、或或分类模模型也能能达到一一定的预预测效果果。5.2.4实实时时决策企业需要要准确了了解“正在发生生什么”,从而而需要建建立动态数据据仓库(实时数数据库),用于于支持战战术型决决策,即即实时决决策。战术性决决策支持持的重点点则在企企业外部部,支持持的是执执行公司司战略的的员工。第四种种侧重在在战术性性决策支支持。以货运为为例卡车上的的货物常常常需要要把某些些货物从从一辆车车转移到到另一辆辆车上,以便最最终送抵抵各自的的目的地地。当某些卡卡车晚点点时,就就要做出出艰难的的决定:是让后后继的运运输车等等待迟到到的货物物,还是是让其按按时出发发。如果后继继车辆按按时出发发而未等等待迟到到的包裹裹,那

12、么么迟到包包裹的服服务等级级就会大大打折扣扣。反过来说说,等待待迟到的的包裹则则将损害害在后继继的运输输车上的的其他待待运包裹裹的服务务等级。运输车究究竟等待待多长时时间,取取决于需需卸装到到该车辆辆的所有有延迟货物的服服务等级级和已经装装载到该该车辆的的货物的的服务等等级。5.2.5自自动决决策利用动态态数据库库自动决决策,达达到“希望发生生什么”。为了了寻求决决策的有有效性和和连续性性,企业业就会趋趋向于采采取自动动决策。动态数据据仓库可可以为整整个企业业提供战战略决策策支持,也可提提供战术术决策支支持。确确切地说说,动态态数据仓仓库同时时支持这这两种方方式。随着技术术的进步步,越来来越多

13、的的决策由由事件触触发,自自动发生生。5.2.6决决策策支持系系统数据仓库库整合了了企业的的各种信信息来源源,能确确保一致致与正确确详细的的数据。它是一一个庞大大的数据据资源。要将数数据转换换成商业业智能,就需要要利用数数据仓库库来建立立决策支支持系统统。基于数据据仓库的的决策支支持系统统是针对对实际问问题,利用分析析工具或或者编制制程序,采用一一种或多多种组合合的决策策支持能能力,对对数据仓仓库中的的数据进进行多维维分析,从而掌握握企业的的经营现现状,找找出现状状的原因因,并预预测未来来发展趋趋势,协助企业业制定决决策增强强竞争优优势。5.3数数据据仓库应应用实例例5.3.1航航空公司司数据

14、仓仓库决策策支持系系统简例例5.3.2统统计业数数据仓库库解决方方案5.3.3沃沃尔玛数数据仓库库系统5.3.1航空空公司数数据仓库库决策支支持系统统简例1.航航空公司司数据仓仓库系统统的功能能2.数数据仓库库系统的的决策支支持3.决决策支持持系统简简例1.航空公司司数据仓仓库系统统的功能能航空公司司数据仓仓库功能能模块有有:市场分析析:分析国国内、国国际、地地区航线线上的各各项生产产指标;航班分析析:分析某某个特定定市场上上所有航航班的生生产情况况;班期分析析:分析某某个特定定市场上上各班期期的旅客客、货运运分布情况;2.数据仓库库系统的的决策支支持利用数据据仓库系系统提供供的决策策支持有有

15、:l一段时间间内某特特定市场场占有率率、同期期比较、增长趋趋势;l各条航线线的收益益分析;l计划完成成情况;l流量、流流向分析析;l航线上各各项生产产指标变变化趋势势的分析析;通过查询询“北京京到各地地区的航航空市场场情况”,发现西南南地区总总周转量量出现了了最大负负增长量量。该决策支支持系统统简例就就是完成成对此问问题进行行多维分分析和原原因分析析,找出出出现原原因。决策支持持系统运运行结构构图如下下:3.决策支持持系统简简例数据仓库库服务器器客户端查询:全国各地地区航空空总周转转量并比比较去年年同期状状况显示:图图1查询:全国各地地区航空空客运周周转量并并比较去去年同期期状况查询:全国各地

16、地区航空空货运周周转量并并比较去去年同期期状况显示:图图3查询:全国各地地区客运运、货运运、总周周转量并并比较去去年同期期状况具具体数据据显示:表1查询:西南地区区昆明、重庆两两地航空空总周转转量并比比较去年年同期状状况显示:图图4查询:昆明航线线按不同同机型的的总周转转量,并并比较去去年同期期状况显示:图图5查询:昆明航线线按不同同机型的的周转量量,并比比较去年年同期周周转量的的具体数数据显示:表2显示:图图2结束检索:数据仓库库中今年年、去年年两年总总周转量量综合数数据,并并比较。绘制直直方图下钻:从总周转转量下钻钻到今年年、去年年两年客客运周转转量,并并比较。绘制直直方图下钻:从总周转转

17、量下钻钻到今年年、去年年两年货货运周转转量,并并比较。绘制直直方图制表:从数据仓仓库中取取数据并并制表下钻:从西南地地区总周周转量下下钻,取取昆明、重庆两两地的今今年、去去年两年年数据并并比较。绘制直直方图下钻:从昆明航航线总周周转量下下钻,取取各机型型今年、去年两两年数据据并比较较。绘制制直方图图制表:从数据仓仓库中取取数据并并制表图1全全国各地地区航空空周转量量与去年年对比状状况返回(其中,1:东北地地区;2:华北地地区;3:华东地地区;4:西北地地区;5:西南地地区;6:新疆地地区;7:中南地地区)从图1中看到从从北京到到国内各各地区的的总周转转量以及及与去年年同期的的比较情情况,发发现

18、“北京西南地地区”出出现的负负增长最最大。图2全全国各地地区航空空客运周周转量及及与去年年同期比比较返回从图2中看到客客运周转转量及与与去年同同期比较较,西南南地区负负增长在在全国是是最大的的,其次次是东北北地区。图3北北京到国国内各地地区货运运周转量量及与去去年同期期比较返回从图3中看到货货运周转转量及与与去年同同期比较较,华东东地区负负增长在在全国是是最大的的,西南南地区也也有负增增长。表1客运、货货运、总总周转量量及其去去年同期期比较客运周转量对比去年增长量货运周转量对比去年增长量总周转量对比去年增长量东北地区11.86-5.11.29-1.513.15-6.6华北地区34.8815.0

19、31.110.753615.78华东地区479.30126.5236.16-25.59515.46100.93西北地区51.6018.059.07.260.625.25西南地区15.43-19.353.29-0.5618.72-19.91新疆地区29.0205.85034.870中南地区643.43295.86116.8560.70760.28356.56返回从表1中,可以以看出航航空客运运、货运运、总周周转量以以及与去去年同期期比较的的具体数数据。西西南地区区总周转转量的负负增长主主要是客客运负增增长为主主体。图4西南地区区昆明、重庆两两地航空空总周转转量及与与去年同同期比较较返回从图4中看

20、出,西南地地区航空空总周转转量下降降最多的的是昆明明航线。(其中,A:150座级;B:200座级;C:300座级以上上;D:200300座级)图5昆明航线线各机型型总周转转量以及及与去年年同期比比较的柱柱形图返回从图5可以看出出昆明航航线中200300座级机型型负增长最最大,其其次是150座级机型型也有较大大的负增增长,而而200座级以及及300座级以上上机型保持同去去年相同同航运水水平。表2昆明航线线各机型型总周转转量以及及与去年年同期比比较的数数据从表2中可以看看出,不不同机型型的周转转量以及及对比去去年同期期增长的的具体数数据。总周转量对比去年增长量150座级12.99-16.83200

21、座级10.070300座级以上10.070200-300座级2.91-26.9返回以上决策策支持系系统过程程完成了了对航空空公司全全国各地地区总周周转量对对比去年年同期出出现负增增长量最最大的西西南地区区,经过过多维分分析和原原因分析析,找出出其原因因发生在在昆明航航线上。主要是200300座级机型型的总周周转量负负增长以以及150座级机型型负增长长量造成成的。其中,200300座级负增增长最严严重。这为决策策者提供供了解决决西南地地区负增增长问题题辅助决决策的信信息。数据仓库库决策支支持系统统应用说说明以上决策策支持系系统只是是找出了了西南地地区航运运负增长长问题的的原因。还可以昆昆明航线线

22、上航班班时间以以及其他他方面进进行原因因分析,找出其其他原因因,为决决策者提提供更多多的辅助助决策信信息。同样,可可以从国国内各地地区航空空市场状状况中对对比去年年同期增长显著著的中南南地区,找出总周周转量大大幅提高高的原因因。从正反两方方面来进行多多维分析析和原因因分析,将可以以得到更更多的辅辅助决策策信息,减少负负增长,增大正正增长,提高更更大利润润。进行多方方面分析析的大型型决策支支持系统统,将可可以发挥挥更大的的辅助决决策效果果。5.3.2统统计业数数据仓库库系统1.统统计业数数据仓库库解决方方案2.某某市统计计局企业业微观数数据仓库库系统1.统统计业数数据仓库库解决方方案统计业面面临

23、以下下三方面面的需求求:(1)数数据的集集中存储储与管理理统计行业业掌握着着大量的的、各历历史年度度的原始始调查资资料,这这些资料料大都还还保留在在纸介质质、脱机机的磁带带和软盘盘上。这些宝贵贵的原始始资料不不能为统统计业务务人员随随机查询询和充分分共享,不能进进行有效效的统计计分析、预测评评估和使使用。(2)查查询方式式和分析析手段的的更新统计报表表和统计计分析需需要从大大量各种种各样的的原始材材料中汇汇总整理理各种不不同需求求,反映映不同侧侧面的综综合分析析数据.传统的处处理手段段主要通通过编写写程序来来实现。开发周周期长。(3)与与Web技术的的有机结结合采用目前前流行的的三层应应用体系

24、系结构对对系统进进行应用用开发。后台是是数据仓仓库,前前台是Web服服务器,客户端端是浏览览器的应应用模式式。利用这种种技术,可以做做到网上上动态信信息发布布、网上上随机查查询和网网上联机机分析处处理等功功能。2.某某市统计计局企业业微观数数据仓库库系统企业微观观数据仓仓库设计计成以下下主题:(1)企企业基本本情况:各年度度、各专专业统计计调查单单位基本本情况名名录的主主要内容容及全部部标识性性内容。(2)企企业财务务状况:各年度度、各专专业企业业的资产产、经营营投入、产出效效益等财财务经营营状况。(3)企企业劳动动状况:各年度度、各专专业企业业的就业业人数及及工资收收入情况况。(4)企业业消

25、耗状状况:各年度度、各专专业企业业生产所所需的原原材料及及能源消消耗情况况,包括括价值量量和实物物量消耗耗情况。(5)企企业生产产状况:各年度度、各专专业企业业的主营营生产情情况。企业微观观数据仓仓库系统统的前端端应用都都是基于于Web方式开开发。它具有:网上随随机查询询、网上上多维分分析、网网上数据据钻取、网上图图形分析析、网上上表格旋旋转透视视、网上上多维报报表等功功能,并并且操作作方式都都是拖拉拉方式。今后统计计业务人人员的月月报、年年报等数数据处理理都可以以在网上上进行。5.3.3沃沃尔玛数数据仓库库系统美国的沃沃尔玛(Wal*Mart)是世界界最大的的零售商商,Wal*Mart建立立

26、了基于于NCR Teradata数据仓仓库的决决策支持持系统,它是世世界上第第二大的的数据仓仓库系统统,总容量达达到170TB以上。强大的数数据仓库库系统将世界4000多家分分店的每每一笔业业务数据据汇总到到一起,让决策策者能够够在很短短的时间间里获得得准确和和及时的的信息,并做出出正确和和有效的的经营决决策。沃尔玛的的创始人人萨姆沃尔顿顿:“我我总是喜喜欢尽快快得到那那些数据据、我们越快快得到那那些信息息、我们们就能越越快据此此采取行行动,这个系统统已经成成为我们们的一个个重要工工具”。利用数据据仓库,沃尔玛玛对商品品进行市市场类组组分析,即分析析哪些商商品顾客客最有希希望一起起购买。一个意

27、外外的发现现就是:跟尿布布一起购购买最多多的商品品竟是啤啤酒!按按常规思思维,尿尿布与啤啤酒风马马牛不相相及,若若不是借借助于数数据仓库库系统,商家决决不可能能发现隐隐藏在背背后的事事实。沃尔玛就就在它的的一个个个商店里里将它们们并排摆摆放在一一起,结结果是尿尿布与啤啤酒的销销量双双双增长。每天要处处理并更更新2亿亿条记录录,要对对来自6000多个用用户的48,000条条查询语语句进行行处理。销售数数据、库库存数据据每天夜夜间从4,000多个个商店自自动采集集过来,并通过过卫星线线路传到到总部的的数据仓仓库里。利用数据据仓库,进行决决策支持持分析,具体表表现为:1.商品品分组布布局合理的商商品布局局能节省省顾客的的购买时时间,能能刺激顾顾客的购购买欲望望。分析顾客客的购买买习惯,掌握不不同商品品一起购购买的概概率,甚甚至考虑虑购买者者在商店店里所穿穿行的路路线、购购买时间间和地点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论