专题 商务智能_第1页
专题 商务智能_第2页
专题 商务智能_第3页
专题 商务智能_第4页
专题 商务智能_第5页
已阅读5页,还剩196页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务智能,北京科技大学高学东,北京科技大学,1什么是商务智能?2业务层面的商务智能-业务流程可视化3数据观察和数据分析的基础-数据仓库4数据观察层面的商务智能-在线分析处理(OLAP)5数据分析层面的商务智能-数据挖掘,商务智能,北京科技大学,1.1“商务智能”的本质1.2商务智能应用层次1.3商务智能应用发展1.4“商务智能”从何而来?1.5案例:三类典型业务管理中的商务智能,1什么是商务智能?,北京科技大学,对企业本身而言,商务智能是指一种能力,即通过智能地使用企业的数据财产(知本)来制定更好的商务决策。从本质上讲,商务智能是帮助企业提高决策能力和运营能力的方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。商务智能帮助识别、理解公司的运营数据,将其转化成为高价值的可以获取的信息(或者知识),并且在恰当的时候、通过恰当的方式、把恰当的信息、传递给恰当的人。,1.1“商务智能”的本质,北京科技大学,商务智能(BusinessIntelligence,BI)已经成为企业创造更多盈利的关键。商务智能能够让企业从现有的“知本”中提炼更多的有价值的知识。BI已经紧紧地与“知本”和“知识”结合在一起,牢不可分。,生产“商务智能”的”原材料”和”产品”,北京科技大学,1.1“商务智能”的本质1.2商务智能应用层次1.3商务智能应用发展1.4“商务智能”从何而来?1.5案例:三类典型业务管理中的商务智能,1什么是商务智能?,北京科技大学,1.2商务智能应用层次,去年我们X产品的销售量是多少?我们拥有多少客户?用户向系统提出的问题是:“告诉我发生了什么”。,我们的产品在哪个国家获得了最大的成功?哪部分客户购买了我们的绝大部分产品?用户在简单报告的基础上,进一步提出更多问题。,信息以容易使用的形式出现,如主要业务指标用户想在不太费力的情况下,从系统中获取大多数信息。,预测哪种客户最有可能购买我们的新产品。市场营销战略更为有针对性,成本降低。用户的问题是:“告诉我未来会发生什么”。,商务智能平台可以扩展到更广大的空间。让更多用户共享信息。,北京科技大学,1.1“商务智能”的本质1.2商务智能应用层次1.3商务智能应用发展1.4“商务智能”从何而来?1.5案例:三类典型业务管理中的商务智能,1什么是商务智能?,北京科技大学,1.3商务智能应用发展,中国大多数企业进行商务智能项目试验时,也是从部署部门战略开始的。试验期大约612个月。,北京科技大学,1.1“商务智能”的本质1.2商务智能应用层次1.3商务智能应用发展1.4“商务智能”从何而来?1.5案例:三类典型业务管理中的商务智能,1什么是商务智能?,北京科技大学,企业如何才能获得所要求的智能?企业如何利用智能来培养客户的忠诚度并使企业盈利?企业怎样才能在竞争中胜出?,这些问题的答案都在业务流程和数据中。业务运行离不开数据,业务和数据的联系形成信息,而信息造就智能。,1.4“商务智能”从何而来?,(1)“商务智能”从业务及其数据得来,北京科技大学,(2)数据、信息和智能,数据未经加工和修饰的原料,例如,美国阿肯色州小石城的一位消费者花14.95美元在网站上购买了一张埃尔顿约翰(EltonJohn)的CD唱片,它导致交易数据库中的一项记录(数据)。,1.4“商务智能”从何而来?,北京科技大学,信息含有一定商务价值和意义的数据,例如,从小石城那位消费者购买CD唱片的数据,可联合其它数据得到顾客性别、收入对埃尔顿约翰CD唱片的购买情况(信息),它是业务人员对采集来的原始数据进行提炼、分选、联合得来的。这些信息可以用来分析产品的盈利性、未来购买趋势等。,(2)数据、信息和智能,1.4“商务智能”从何而来?,北京科技大学,智能对信息、过去的行为以及未来预测进行完整评价的基础上发现的业务规律,及其指导业务实践的活动。,例如,唱片公司的一些营销人员在分析了一个月的购买记录后,发现新版埃尔顿约翰唱片最受欧洲“婴儿潮”中出生的人群所欢迎(智能)。公司便采取措施直接针对这类消费群体进行市场促销(智能应用),从而将仓库中积压的埃尔顿约翰的旧作推销一空。,1.4“商务智能”从何而来?,(2)数据、信息和智能,北京科技大学,菲亚特公司一直从两个供应商A和B手中购买凸型螺帽,并把关于从两处购买的螺帽的数量和价格的“数据”分别存放在两个数据库中。当两个数据库结合在一起时,数据就成了“信息”。信息表明供应商A比供应商B提供的螺帽单价多了0.1美元。采购人员了解了这一情况,便产生了集体“智能”,调整采购策略,从而为公司节省了巨大的开支。,从数据产生智能的过程-小案例,1.4“商务智能”从何而来?,北京科技大学,6.2数据挖掘应用技术,商务智能技术应用面临的问题有用信息(知识)的表达方法智能的根本:商务规律分析器的两种形式获取知识的工具,1.4“商务智能”从何而来?,(3)商务智能应用的关键,北京科技大学,商务智能技术面临的问题,对企业决策者来说,什么是潜在有用的信息?有用信息如何表达?更进一步说如何规范化表达?有用信息如何获得?,1.4“商务智能”从何而来?,北京科技大学,有用信息(知识)表达的方法(事实与规则),有用信息的自然描述-事实(Fact)对一个企业决策者来说,“有用信息”实际上是从“行数据”中总结出来的一些“事实”。,1.4“商务智能”从何而来?,北京科技大学,有用信息的自然描述例,“我公司1997年全年的钢材产量完全达到了国家的计划要求。从总的销售情况来看,基本上完成了全年的销售计划,全年实现销售利税500亿元。当然,个别品种我们尚未打开市场,如造船板。在取得成绩的同时,我们也应看到如下事实,即我们的产品几乎都销往东北地区,其它地区的市场占有率几乎全部丧失,个别地区,如广东、海南地区甚至不足1。”,1.4“商务智能”从何而来?,北京科技大学,有用信息的自然描述(事实)例(续),在这段报告中我们注意到如下“有用信息”的表达方式:1997年全年钢材产量完全达到了国家计划要求。销售基本上完成了上一年的销售计划。产品几乎都销往东北地区。个别地区,如广东、海南地区市场占有率甚至不足1%。,1.4“商务智能”从何而来?,北京科技大学,有用信息的规范化描述规则,观察下面的产品按地区的销售情况表:,我们得出以下结论(事实):,1998年2月大部分销售都集中在东北地区,1.4“商务智能”从何而来?,北京科技大学,“规则”的一般形式,总结有用信息的表达方式,我们得到下面的有用信息(知识)的规范化表达方式为:,IF条件THEN结论(确信度,支持行数),确信度(Confidence):所关注列具有相同值的结论行值占所查询行值总计的百分比。支持行数:满足此模式条件的行数。,1.4“商务智能”从何而来?,北京科技大学,从“数据”得到“知识”的分析器有两种形式,固定格式的分析器事实发现器(规则发现器),数据,固定格式分析器,事实发现器,用户,1.4“商务智能”从何而来?,北京科技大学,“事实发现器”是商务智能的核心!,事实发现器有时称为“事实搜索引擎”,它是从数据中搜索商业事实(规则)的搜索工具。,1.4“商务智能”从何而来?,北京科技大学,1.1“商务智能”的本质1.2商务智能应用层次1.3商务智能应用发展1.4“商务智能”从何而来?1.5案例:三类典型业务管理中的商务智能,1什么是商务智能?,北京科技大学,1.5案例:三类典型业务管理中的商务智能,他们在日常商务工作中会提出哪些问题?他们如何利用商务智能工具有效解决这些问题?,北京科技大学,离本财务季度完结还剩下4周的时间,按照惯例,全美销售部门副总经理罗伯特需要向其上司全美销售部门总经理进行工作汇报,他关心的首要话题总是:本财务季度的销售状况如何?为了准备这次汇报,罗伯特借助商务智能工具,做了如下工作:,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,(1)浏览定时自动更新的全美销售周报表,查看销售预测、销售指标和订货额等指标的状态。,全美地区销售数据,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,(周),(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,从销售报表中可以清楚看到:销售预测数据低于本财务季度的销售指标执行花费低于本财务季度的预算订货情况与销售预测相吻合,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,(2)罗伯特进一步了解了全美各地区(东部、中部和西部)的销售细节。,东部地区销售数据,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,年份:2000季度:第一季度地区:东部,单位:100万美元,从宏观到微观的分析转换“下钻”(Drilldown)反之,从微观到宏观的转换“上钻”(Drillup),(周),(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,(3)罗伯特决定根据销售渠道(直接销售和间接销售)了解各地区的主要表现指标(包括订货情况、预计收入、销售指标、项目执行支出等)。,观察数据中的某一层面切片(Takingaslice),(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,销售信息立方体,切片分析表明:预测销售的下降起源于销售渠道中的直接销售方面。,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,根据某一特定季节进行的切片分析,根据某一特定销售地区进行的切片分析,销售地区,销售渠道,财政季度,决策者不但要了解主要的业务指标,还要按照地区、销售渠道和时间范围等不同视角去了解业务各指标的情况多维分析(Multidimensionalanalysis),切片分析表明:东部地区的销售预测比较低。,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,(4)罗伯特通过进一步“钻取”,查看了东部地区每一位销售代表的订货情况和销售预测。但是这一项工作对他并没有什么帮助。每一位销售代表的业绩都达到或接近他们的销售指标,这样并不能解释为什么销售预测比较低。,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,东部地区个人直销数据,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,(5)罗伯特发现东部地区的执行花费维持在一个比较低的水平。由于销售地区的销售费很大程度上取决于推销队伍的工资。因此,他怀疑可能是雇佣的推销人员不足导致了销售费用和预计利润的低下。于是,他建立了一个能够按月显示东部地区最近两个财务季度的预计人员和实际人员的对照表。,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,东部地区预算人员和实际人员的对照图,(单位:人),分析得到:东部雇佣销售人员费用的下降以及雇佣地销售人员人数的不足导致了销售预测的下降。,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,(6)罗伯特利用钻取的方法按州查看同样的指标,报告显示其他三个州也同样存在销售人员短缺的问题。他与东部地区的销售经理通了电话后,这个分析结果得到了肯定。,(一)某玩具公司管理中的商务智能-销售经理,北京科技大学,露茜是一家银行信用卡部门的市场分析员,她的工作是确定市场促销的目标及其前景。由于争取新客户的费用远远大于稳定现有顾客的成本,因此露茜必须确定此次促销活动最理想的客户群体。她关心的第一个问题是:常客们是否是银行的受益顾客?为了回答这个问题,露茜做了以下工作。,(二)一家银行信用卡部门的商务智能-市场分析员,北京科技大学,(1)制定标准,划定对象范围。常客指的是每月至少使用一次信用卡的顾客。受益顾客是指为银行带来最好回报的顾客,特别是那些有透支行为,但通常在3060天之内就支付透支额的顾客。受益顾客他们既为银行带来了利息收入又带来了滞纳金。(2)利用商务智能工具,建立一个能够显示那些既是常客,又是受益顾客的用户清单报告,即收益顾客与常客的交集部分。,(二)一家银行信用卡部门的商务智能-市场分析员,北京科技大学,受益顾客与常客的数量比较报告,72051,76082,5124,常客,受益顾客,(二)一家银行信用卡部门的商务智能-市场分析员,北京科技大学,报告表明,银行所喜欢的顾客,一般来讲并不是那些使用信用卡的常客。因此露茜制定的促销策略为:针对受益顾客进行促销,努力提高他们的信用卡使用频率,使其成为常客。,(二)一家银行信用卡部门的商务智能-市场分析员,北京科技大学,(3)受益顾客的数量超过72000位,但露茜的促销预算只允许达到36000位顾客(她想送给每一位目标客户一个价值1.25美元的促销袋)。因此,露茜迎来了第二个问题:促销应针对哪一部分受益顾客?露茜利用商务智能工具得到了顾客特征的精确描述,同时也确定了辨别受益顾客的重要因素。,(二)一家银行信用卡部门的商务智能-市场分析员,北京科技大学,数据挖掘报告决策树,(二)一家银行信用卡部门的商务智能-市场分析员,北京科技大学,这里所应用的决策树技术是“数据挖掘”中的一种自动数据分析算法。数据分析算法可以在人们不可见、不可估测的情况下,通过一些复杂的算法,对专门组织的历史数据进行挖掘分析,得到有价值的信息。同时,数据挖掘还提供“描述”技术,从而提高分析者对信息的理解程度。,(二)一家银行信用卡部门的商务智能-市场分析员,北京科技大学,(4)由数据挖掘报告分析得到,那些租房居住、单身的顾客通常拥有较多的可自由支配收入,他们属于受益顾客类型。露茜将促销目标确定为35532个顾客,这些顾客具有单身、租房居住、具有较高可自由支配收入等特征。利用商务智能工具精确确定促销目标,而不是向随机产生的客户群进行促销,这场促销战役以巨大的成功宣告结束。,(二)一家银行信用卡部门的商务智能-市场分析员,北京科技大学,吉姆是一家汽车公司的采购经理,他的工作就是在全国范围内为公司进行各种合同谈判,并对公司的供应商进行评估。他所关心的问题是:我怎么做才能为公司减少采购成本?公司成本包括直接成本和间接成本,在成本最小化问题上,公司历来都把直接成本作为主要焦点,而忽略了间接成本。很少有几家公司肯为采购办公室用的铅笔讨价还价。吉姆就是要针对这些间接成本进行调查,因特网时代的到来给他提供了绝好的条件。,(三)一家汽车公司的商务智能-采购经理,北京科技大学,借助商务智能工具,吉姆做了如下工作:(1)吉姆查看了汇总的电话账单,这些账单是电信服务商通过一个商务智能外网上的在线账单业务提供的。电信服务商的汇总报告每个月向客户分发或广播(Broadcast)一次。通过查看10月份的账单,吉姆感觉相关移动电话费用所占的份额高于往常月。,(三)一家汽车公司的商务智能-采购经理,北京科技大学,10月汇总电话账单,(三)一家汽车公司的商务智能-采购经理,北京科技大学,(2)吉姆建立了一个有关电话费的统计报告,包括全公司四个生产基地新罕布什尔州的Nashua,俄亥俄州的Toledo,德克萨斯州的Austin,内华达州的Reno。该报告显示,2000年(从1月到10月)的电话费用持续增长,人均电话费也呈增长态势。尤其是新罕布什尔州的Nashua基地,几个月来的电话费用增长显著。,(三)一家汽车公司的商务智能-采购经理,北京科技大学,按月按基地显示的电话费用数据,(三)一家汽车公司的商务智能-采购经理,北京科技大学,按月按基地显示的电话费用,年份:2000(截至报告月)设备:全部服务:全部,单位:美元,(三)一家汽车公司的商务智能-采购经理,北京科技大学,(3)吉姆对Nashua基地的数据进行了“下钻”,查看了各种服务种类的电话账单细节。他很快发现,相关的综合服务费用超过了往年,其中移动电话的费用在全部增长中占据了很大份额。吉姆突然记起,为了提高员工工作效率,Nashua基地为全体管理人员配发了移动电话,报告中所显示出来的一场恰恰就是新的移动电话使用政策造成的。,(三)一家汽车公司的商务智能-采购经理,北京科技大学,按月按服务类型显示的Nashua生产基地电话账单,(三)一家汽车公司的商务智能-采购经理,北京科技大学,按月按服务类型显示的Nashua生产基地电话账单,年份:2000(截至报告月)设备:全部服务:全部,单位:美元,(三)一家汽车公司的商务智能-采购经理,北京科技大学,(4)吉姆对Nashua基地移动电话账单数据进行了“下钻”,发现国际长途电话在增长幅度较大,特别是打到英国的长途电话费最为引人注目。吉姆与该地区的经理通了电话,原来他们正在与英国的几个主要供应商建立一个联盟,供货和配送需求不断更新,需要随时联系。,(三)一家汽车公司的商务智能-采购经理,北京科技大学,Nashua生产基地移动电话账单,(三)一家汽车公司的商务智能-采购经理,北京科技大学,Nashua生产基地移动电话账单,年份:2000(截至报告月)设备:全部服务:全部,单位:美元,(三)一家汽车公司的商务智能-采购经理,北京科技大学,(5)吉姆得到了这个重要信息后,马上与其电信服务商联系,签订了一份特殊的协议对与英国方面的通信业务给予优惠。该项协议的签署,意味着吉姆将为他的公司每年节省数百万美元的经费。吉姆通过因特网获得了电信公司提供的相关数据,利用商务智能工具对其企业内部数据和外部数据加以综合分析和利用,采取合理的措施,从而为企业节省了大量成本。,(三)一家汽车公司的商务智能-采购经理,北京科技大学,1什么是商务智能?2业务层面的商务智能-业务流程可视化3数据观察和数据分析的基础-数据仓库4数据观察层面的商务智能-在线分析处理(OLAP)5数据分析层面的商务智能-数据挖掘,商务智能,北京科技大学,2.1为什么要“业务流程的可视化”?2.2“业务流程可视化”的形式2.3业务流程的可视化的基础,2业务层面的商务智能-业务流程可视化,北京科技大学,2.1为什么要“业务流程的可视化”?,组织的效率取决于它的业务流程的有效运行。但如何知道业务流程在正常运行?(也就是说如何知道业务在正常进行?)不知道业务是否正常进行,当然业务(商务)管理也就无从谈起,“商务智能”就更无从谈起了!要知道业务流程是否正常运行,需要对流程运行进行监视,这就要求“业务流程的可视化”!,北京科技大学,北一大偎公司项目经理赵红霞:,过去,我看到的是各方面报来的结果,我说不清数据的可靠性。现在(流程可视化后),我看到的是产生结果的过程,我可以判断其真实性!,北京科技大学,2.1为什么要“业务流程的可视化”?2.2“业务流程可视化”的形式2.3业务流程的可视化的基础,2业务层面的商务智能-业务流程可视化,北京科技大学,(1)模型可视化使用可视化的建模工具,利用图形化的方式描述组织内角色、活动、流程的状态及其相互关系,建立企业业务流程模型。流程图建模在可视化建模中运用得非常广泛,它是指将一些符号放在呈现界面上来描述系统逻辑关系,并利用模块图和网络图来建立系统仿真模型的一种技术。,2.2“业务流程可视化”的形式,北京科技大学,(2)信息可视化信息可视化通常被定义为通过使用由计算机支持的、交互式的且可视的抽象数据呈现方式来加强认知的过程。在信息可视化系统中一般使用工作流管理技术将企业运行过程中产生的数据以及结果“推向”用户,使用户及时感知业务的状态。,北京科技大学,2.1为什么要“业务流程的可视化”?2.2“业务流程可视化”的形式2.3业务流程的可视化的基础,2业务层面的商务智能-业务流程可视化,北京科技大学,2.3业务流程的可视化的基础,(1)信息集成指企业系统中各业务子系统和用户的信息采用统一的标准,规范和编码,实现全系统信息共享,进而可实现相关用户软件间的交互和有序工作。(2)信息共享指不同层次、不同部门信息系统间,信息和信息产品的交流与共用。,北京科技大学,1什么是商务智能?2业务层面的商务智能-业务流程可视化3数据观察和数据分析的基础-数据仓库4数据观察层面的商务智能-在线分析处理(OLAP)5数据分析层面的商务智能-数据挖掘,商务智能,北京科技大学,3.1什么是数据仓库?3.2数据仓库的数据组织,3数据观察和数据分析的基础-数据仓库,北京科技大学,3.1什么是数据仓库?,(1)数据仓库的本质数据仓库是为了企业管理决策需要进行的业务观察、企业运行分析等数据分析工作专门建立的数据存储。数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。,北京科技大学,决策分析为什么不能直接针对业务数据?,在现有业务系统产生的业务数据上,不方便直接进行分析型数据操作。如果直接在现有业务系统产生的业务数据上进行分析型数据操作,由于数据运算量巨大,可能导致拖垮现有业务系统。上述问题,要求我们必须为分析型系统建立专门的数据存储,这就是数据仓库。,北京科技大学,(2)数据仓库的特征,数据四大特征,北京科技大学,(3)操作型数据库与数据仓库的比较,北京科技大学,(4)数据仓库应用体系的基本结构,OLAP,数据挖掘,数据仓库,可视化,应用工具,数据存储,数据源,外部数据,内部业务数据,抽取,清理,转换,业务系统,分析型系统,北京科技大学,分析型信息系统建设的目的,以业务系统(数据)为基础,建立能对管理决策提供支持的运营分析与控制系统。,“十五”期间:,业务系统,分析型系统,“十一五”期间:,北京科技大学,分析型信息系统的关键(1/3)数据仓库,从已有的业务系统,建立分析型系统的基础是:对业务系统产生的业务数据进行再组织得到分析用的数据,建立分析用“数据中心”(或数据仓库)。,“十五”期间:,业务系统,分析型系统,“十一五”期间:,分析用数据,数据中心(数据仓库),北京科技大学,基于分析型数据进行人工数据分析操作就是OLAP!基于分析型数据开展自动(或半自动)数据分析工作就是数据挖掘!,业务系统,分析型系统,分析用数据,数据仓库,分析结果,数据挖掘,OLAP,分析型信息系统的关键(2/3,3/3)OLAP+数据挖掘,北京科技大学,3.1什么是数据仓库?3.2数据仓库的数据组织,3数据观察和数据分析的基础-数据仓库,北京科技大学,3.2数据仓库的数据组织,数据组织,北京科技大学,(1)数据源数据源是数据仓库的原始数据来源,是数据仓库系统开发与应用的数据基础。数据仓库系统的数据源非常广泛。从总体内容上讲,可以分为企业内部数据源和企业外部数据源两大类。,3.2数据仓库的数据组织,北京科技大学,1)企业内部数据源企业内部数据指的是企业多年来的数据沉淀(主要是业务数据)。由于各企业的历史背景与应用环境不同,企业内部数据源有很大的差异,表现在数据内容、结构和存储类型等许多方面。在数据仓库系统的建设中,应该针对商务需求对内部数据源进行充分的分析,适当的对比,为正确高效地获取基础数据做准备。,3.2数据仓库的数据组织,北京科技大学,2)企业外部数据源企业外部数据源的内容更为广泛,数据的存储类型也更为多样化,比较常见的为目标市场信息、竞争对手信息、行业统计信息等。外部数据源的获取往往存在着一定的难度,可能采用的几种主要方式为:从行业相关部门获取资料;向信息咨询公司购买数据;企业内部组建相应机构进行专门的调查研究;从行业期刊或网络中分析摘录相关信息等。,3.2数据仓库的数据组织,北京科技大学,(2)数据仓库中的数据结构,数据仓库的总线,相关基本概念,一致性保障机制,数据组织方式,3.2数据仓库的数据组织,北京科技大学,(3)数据仓库中数据结构相关概念1)主题主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。面向主题的数据组织方式是根据分析要求将数据组织成一个个完备的分析领域,称为主题域。主题域应该具有独立性和完备性。,3.2数据仓库的数据组织,北京科技大学,业务(应用)与主题例如对一个保险公司来说,应用问题可能是汽车保险、健康保险和意外伤亡保险等;而公司的主要主题域却可能是顾客、保险单、索赔等。,操作型环境,数据仓库,应用,主题,顾客,保险单,索赔,3.2数据仓库的数据组织,北京科技大学,2)粒度粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小级别就越低;数据综合度越高,粒度越大级别就越高。在传统的操作型数据库系统中,对数据处理和操作都是在最低级的粒度上进行的。但是在数据仓库环境中应用的主要是分析型处理,一般需要将数据划分为:详细数据、轻度总结、高度总结三级或更多级粒度。,3.2数据仓库的数据组织,北京科技大学,数据粒度与对象信息的详细程度,高细节低粒度级例如:一个顾客一个月内所有电话的通话细节。,低细节高粒度级例如:一个顾客一个月内通话总额。,3.2数据仓库的数据组织,北京科技大学,粒度与数据量,权衡选择粒度的高低是非常重要的,它关系到能否满足企业决策信息支持的需要,以及能否满足查询速度的要求。,3.2数据仓库的数据组织,北京科技大学,3)维度维度是指人们观察事物的特定的角度,例如:时间维、地区维。人们从某个维的角度观察数据,还可以根据细节程度的不同形成多个描述层次,该多个描述层次就称为维层次。,3.2数据仓库的数据组织,北京科技大学,简单层次关系的维层次,3.2数据仓库的数据组织,北京科技大学,复杂层次关系的维层次,3.2数据仓库的数据组织,北京科技大学,(4)数据仓库中数据的组织方式1)数据立方体数据立方体是指由两个或更多个维来描述或分类的数据。在三维的情况下以图形来表示,该类数据具有立方体结构,一般称为数据立方体。虽然通常从几何意义的角度将立方体理解为三维,但是在数据仓库中数据立方体是一个n维的概念。,3.2数据仓库的数据组织,北京科技大学,数据立方体(图示)与分析问题问题:“某产品在某个月份在某个地区的销售收入是多少?”,3.2数据仓库的数据组织,北京科技大学,数据立方体(数据)例:某录像机生产商某年的部分销售数据,3.2数据仓库的数据组织,北京科技大学,从前数据立方体数据中可以获得销售分析维度的信息。,产品维层次,地区维层次,3.2数据仓库的数据组织,北京科技大学,时间维层次,3.2数据仓库的数据组织,北京科技大学,“销售分析”数据立方体-便于观察数据!,注:红色部分代表了1月份531地区所有产品的销售收入,5月,4月,3月,2月,1月,全部,南方,北方,第1季,第2季,1年,产品,地区,时间,录像机,CACM,VCR,3.2数据仓库的数据组织,北京科技大学,2)数据集市数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。数据集市一般在某一个业务部门建设,满足其分析决策的需要,可以将其理解为“部门级数据仓库”。各数据集市都应该是数据仓库的有机组成部分,且各数据集市间应协调一致,满足整个企业分析决策的需要。,3.2数据仓库的数据组织,北京科技大学,数据集市(DataMart)部门级数据仓库,销售子系统,数据抽取与集成,数据抽取,销售子系统,销售子系统,数据抽取,数据抽取,.,.,.,数据集市,数据仓库,业务系统数据库,北京科技大学,3)星形模式为了数据分析方便,在数据仓库中,由两种类型的表(事实表和维表)保存数据。事实表和维表间通过星形方式连接而成,故称为星形模式。,时间码产品码地区码,销售量销售额销售成本,产品码,产品大类产品细类产品名称,地区码,国家地区城市,时间码,日期月份季度年度,时间维表,事实表,产品维表,地区维表,北京科技大学,事实表与维表事实表包含的是业务数据信息,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录。维表包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。,3.2数据仓库的数据组织,北京科技大学,(5)数据仓库中数据的一致性保障机制:数据总线一个数据仓库内所有的数据集市必须具有统一一致的维定义和统一一致的业务事实。统一的维和统一的事实就是数据仓库的“总线”。总线型结构的目的在于避免各数据集市不能有机地组合在一起,不能从全企业的角度查看数据信息。,3.2数据仓库的数据组织,北京科技大学,数据仓库的总线型结构,应收帐款事实,销售量事实,销售额事实,分销渠道维,时间维,客户维,产品维,统一的事实,统一的维,财务数据集市,销售数据集市,3.2数据仓库的数据组织,北京科技大学,1什么是商务智能?2业务层面的商务智能-业务流程可视化3数据观察和数据分析的基础-数据仓库4数据观察层面的商务智能-在线分析处理(OLAP)5数据分析层面的商务智能-数据挖掘,商务智能,北京科技大学,基于数据仓库进行数据分析的两种方式,在线分析处理,数据挖掘,在线分析处理是基于数据仓库进行数据分析的两种方式之一,北京科技大学,4.1什么是在线分析处理(OLAP)?4.2OLAP的基本操作4.3OLAP应用实例,4数据观察层面的商务智能-在线分析处理(OLAP),北京科技大学,(1)OLAP的产生60年代末,E.F.Codd提出了关系数据模型,其促进了关系数据库及联机事物处理(OLTP)的发展。后来,联机事务处理已不能满足终端用户对数据库查询分析越来越复杂的需要,SQL对大数据库进行的简单查询不能满足用户分析的需求。联机分析处理(OnlineAnalysisProcessing)就是针对用户决策分析需要对关系数据库进行大量计算才能得到所需要的结果的数据分析需求发展而来的技术。,4.1什么是在线分析处理(OLAP)?,北京科技大学,(2)OLAP的本质OLAP是数据处理的一种技术概念,其基本目的是使企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化,通过快速、一致、交互地访问各种可能的信息视图,帮助管理人员掌握数据中存在的规律,实现对数据的归纳、分析和处理,帮助组织完成相关的决策。,4.1什么是在线分析处理(OLAP)?,北京科技大学,(3)OLAP的特征,快速性,可分析性,多维性,信息性,用户对OLAP的快速反应能力有很高的要求,OLAP系统能处理与应用有关的任何逻辑分析和统计分析,OLAP系统必须提供对数据的多维视图和分析,OLAP系统应能及时获得信息并且管理大容量信息,4.1什么是在线分析处理(OLAP)?,北京科技大学,(4)OLAP多维数据视图,观察在某一时间点或时间段上各个产品在各个地区的销售情况,观察某地区各个产品在各个时期的销售情况,观察某种产品在各个时期和各个地区中的销售情况,观察某种产品在某时间点或时间段上在某地区的销售情况,4.1什么是在线分析处理(OLAP)?,北京科技大学,4.1什么是在线分析处理(OLAP)?4.2OLAP的基本操作4.3OLAP应用实例,4数据观察层面的商务智能-在线分析处理(OLAP),北京科技大学,4.2OLAP的基本操作,对于订货分析的订货立方体,选定订货立方体中的客户维与产品维,在时间维中选取一个属性成员(如“2008年1月”),就得到了订货立方体在产品和客户两维上的一个切片。该切片表示2008年1月各客户、各产品的订购情况。,(1)切片切片就是在某个或某些维上选定一个属性成员,而在某两个维上取一定区间的属性成员或全部属性成员。,北京科技大学,切片操作例,产品订购情况,2008年1月产品订购情况,选定时间维的维成员“2008年1月”,选定两个维,产品维和客户维,4.2OLAP的基本操作,北京科技大学,接前例,若将时间维上的取值设定为一个区间(例如取“2008年1月至2008年10月”),而非单一的属性成员时,就得到一个数据切块,它可以看成由2008年1月至2008年10月10个切片叠合而成。,(2)切块切块是在立方体中的三个维上取一定区间的属性成员或全部属性成员。从另一个角度讲,切块可以看成是由多个切片叠合起来。,4.2OLAP的基本操作,北京科技大学,切块操作例,4.2OLAP的基本操作,北京科技大学,实现所有客户对某产品季度订购额与月份订购额之间的钻取。比如2008年第一季度。,(3)上钻和下钻钻取包括上钻和下钻两种操作。从高级别数据到明细数据视图称为下钻;从明细级向上到高级来观察数据,称为上钻。数据库的设计以及数据的粒度级别将决定下钻或上钻的能力。,4.2OLAP的基本操作,北京科技大学,(3)上钻和下钻,上钻,下钻,4.2OLAP的基本操作,北京科技大学,将一个横向为时间、纵向为产品的报表,变成一个横向仍为时间和纵向旋转为客户的报表。,(4)旋转旋转即是改变一个报告或页面显示的维方向。通过旋转可以得到不同视角的数据。,4.2OLAP的基本操作,北京科技大学,(4)旋转,4.2OLAP的基本操作,北京科技大学,3.1什么是在线分析处理(OLAP)?3.2OLAP的基本操作4.3OLAP应用实例,4数据观察层面的商务智能-在线分析处理(OLAP),北京科技大学,4.3OLAP应用实例,(1)问题背景描述以某钢铁集团销售公司为背景,给出数据仓库的星型建模方案及OLAP分析例。该钢铁集团销售公司是一个较早应用MIS的企业,经过多年的发展,公司积累的数据越来越多,大量的数据背后隐藏着许多重要的信息。为了充分利用这些数据,发现数据中所隐含的知识,公司迫切要求建立数据仓库,实现OLAP分析。使用工具为SQLServer。,北京科技大学,(2)确定分析主题建立数据仓库的第一步是确定商业需求,根据需求确定分析主题。本例主要讨论该钢铁集团销售公司的订货分析主题。订货主题主要从时间、客户、产品等维度来分析产品订购情况。,发现优势产品,判别产品潜在的销售能力,选择合适的分销渠道,识别客户群,预测客户的订货趋势,采取灵活的促销策略,降低库存量,减少交货失误,改善订货业务,通过订货分析实现,4.3OLAP应用实例,北京科技大学,(3)分析数据源在确定主题之后,需要分析数据源,并进行相关数据的抽取。本例的数据源来自该钢铁集团销售公司。我们需要的数据有:时间信息(包括年、月)、客户信息(包括客户编号、客户名称、客户分部)、产品信息(包括品种编号、品种名称、产品长度、厚度、宽度),以及事实表中的事实度量值订货量。,4.3OLAP应用实例,北京科技大学,分析数据源,4.3OLAP应用实例,北京科技大学,(4)建立订货分析的星形模式,4.3OLAP应用实例,北京科技大学,时间维的结构,4.3OLAP应用实例,北京科技大学,产品维的结构,4.3OLAP应用实例,北京科技大学,客户维的结构,4.3OLAP应用实例,北京科技大学,订货事实的结构,4.3OLAP应用实例,北京科技大学,建立订货事实表与各维表的关系,4.3OLAP应用实例,北京科技大学,(5)订货分析的DTS包SQLServer中的数据转换服务DTS(DataTransformationServices)主要作用是把不同的数据来源中的数据结合起来,并利用自身的数据转换功能把这些结合后的数据放入数据仓库之中。,4.3OLAP应用实例,北京科技大学,订货分析的数据转换的实现过程图,4.3OLAP应用实例,北京科技大学,(6)订货分析的OLAP实践SQLServer分析服务提供了从数据仓库中设计、构建及管理多维数据集的能力,以及让客户端可以取得OLAP数据。多维数据集构建完成后必须能够让用户直接进行操作,SQLServer提供了数据透视表服务(PivotTableServices),可以用Excel通过数据透视表服务连接到分析服务器,将多维数据集中的数据取来做分析。,4.3OLAP应用实例,北京科技大学,订货分析的OLAP实践的流程,分析服务器端,客户端分析多维数据,设定数据来源,创建多维数据集,分析多维数据,数据透视表服务,4.3OLAP应用实例,北京科技大学,从产品维与时间维观察数据,4.3OLAP应用实例,北京科技大学,数据透视,4.3OLAP应用实例,北京科技大学,碳素镇板、碳素镇卷、液化气瓶卷的订货趋势分析,4.3OLAP应用实例,北京科技大学,1什么是商务智能?2业务层面的商务智能-业务流程可视化3数据观察和数据分析的基础-数据仓库4数据观察层面的商务智能-在线分析处理(OLAP)5数据分析层面的商务智能-数据挖掘,商务智能,北京科技大学,基于数据仓库进行数据分析的两种方式,在线分析处理,数据挖掘,数据挖掘是基于数据仓库进行数据分析的两种方式之一,北京科技大学,5.1什么是数据挖掘?5.2数据挖掘能做什么事?数据挖掘的任务!,5数据分析层面的商务智能-数据挖掘,北京科技大学,5.1什么是数据挖掘?,(1)啤酒与尿布的故事(小案例)某大型超市发现每到周末,啤酒与尿布的销量就会同时大增,这是什么原因呢?,购物篮,北京科技大学,(1)啤酒与尿布的故事(小案例)-续这是沃尔玛利用NCR自动数据挖掘工具(模式识别软件)对一年多详细的原始交易数据进行分析和挖掘后的一个意外发现:跟尿布一起购买最多的商品竟是啤酒!沃尔玛因此就在其商店里将它们并排摆放在一起,结果是尿布与啤酒的销售量双双增长。经过研究人员分析发现,原来家里的太太们让丈夫们去超市给孩子买尿布,而丈夫们在买尿布的时候往往顺便买上几瓶啤酒回去喝。这样就产生了这个比较奇怪的现象。,数据挖掘,对数据挖掘结果的解释分析,5.1什么是数据挖掘?,北京科技大学,(2)KDD与数据挖掘数据库知识发现(KnowledgeDiscoveryinDatabase,KDD)一词的第一次出现是在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上。数据库知识发现是从数据集中识别有效的、新颖的、潜在有用的,以及最终可理解模式的非平凡处理过程。,5.1什么是数据挖掘?,北京科技大学,KDD是一个交互式、循环反复的整体过程,除了包括数据挖掘外,还包括数据的预处理和对所发现的结果进行解释评估等诸多环节。,数据挖掘是数据库知识发现中专门负责发现知识的核心环节。,5.1什么是数据挖掘?,北京科技大学,KDD的过程,可视化,数据准备,数据挖掘,解释评估,数据库,待挖掘数据,抽取的信息,有用的知识,5.1什么是数据挖掘?,北京科技大学,(3)数据仓库与数据挖掘数据仓库为数据挖掘提供了更广阔的空间。数据仓库完成了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经过初步加工的数据,使得数据挖掘能更专注于知识的发现。另一方面,由于数据仓库所具有的新的特点,又对数据挖掘技术提出了更高的要求。数据挖掘技术和数据仓库技术结合起来,能够更充分地发挥潜力。,5.1什么是数据挖掘?,北京科技大学,数据仓库对数据挖掘技术提出的更高要求,数据仓库的发展对数据挖掘提出了更高的要求,5.1什么是数据挖掘?,北京科技大学,5.2数据挖掘能做什么事?数据挖掘的任务!,数据挖掘的任务,北京科技大学,(1)聚类分析1)聚类分析的内涵聚类任务用于发现在数据库中未知的对象类。这种对象类划分的依据是“物以类聚”,即考察个体或数据对象间的相似性,满足相似性条件的个体或数据对象划分在一组内,不满足相似性条件的个体或数据对象划分在不同的组。在聚类之前,对象类划分的数量与类型均是未知的,因此在数据挖掘后一般需要对数据挖掘结果进行合理的分析与解释。,5.2数据挖掘的任务聚类分析,北京科技大学,例如:聚类分析能帮助市场分析人员从客户的基本库中发现不同的客户群;可以根据房子的类型、价值和地理位置对一个城市中的房屋进行分组;还能对Web上的文档进行分类等等。,2)聚类分析的一般应用模式识别空间数据分析图像处理经济科学网络,5.2数据挖掘的任务聚类分析,北京科技大学,3)数据挖掘应用对聚类分析算法的要求处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理噪声数据的能力对于输入数据的顺序不敏感处理高维属性数据的能力结合用户特定的约束结果可解释性和可用性,5.2数据挖掘的任务聚类分析,北京科技大学,4)什么是好的聚类方法?好的聚类方法将产生高质量的类,即在类的内部具有高的相似度,而类间具有低的相似度。,质量,5.2数据挖掘的任务聚类分析,北京科技大学,5)聚类分析方法的分类,5.2数据挖掘的任务聚类分析,北京科技大学,算法步骤:首先随机地选择k个对象,每个对象作为一个类的“中心”,分别代表将分成的k个类;根据距离“中心”最近的原则,寻找与各对象最为相似的类,将其他对象分配到各个相应的类中;在完成对象的分配之后,针对每个类,计算其所有对象的平均值,作为该类新的“中心”;根据距离“中心”最近的原则,重新进行所有对象到各个相应类的分配;返回步骤3,直到没有变化为止。,聚类算法例k-平均算法k-平均算法属于分割聚类方法。,5.2数据挖掘的任务聚类分析,北京科技大学,有10个对象xi,描述每一个对象的属性为xi1,xi2,取值如下表。设定聚类个数为k=2。这里我们采用欧几里德距离进行距离的计算。,k-平均聚类算法数值例子,北京科技大学,xi1,xi2,k-平均聚类算法数值例子,北京科技大学,“数据(对象)对”聚类问题的实际背景电信客户聚类分析问题,聚类问题的扩展数据对聚类问题,北京科技大学,“数据(对象)对”聚类问题的本质,电信客户聚类分析问题说明,在实际情况中存在这样一种数据情况:实际业务数据中,每条记录标明了两个的对象,这两个对象具有关联关系(以下称为“数据对”),实际问题要求我们在两个关联对象的基础上,寻找更多具有关联关系的对象群体。,聚类问题的扩展数据对聚类问题,北京科技大学,数据对聚类与传统聚类问题的差异聚类对象不同,类和对象间的关系不同,-传统聚类问题的聚类对象是独立对象!-“数据对”聚类问题的聚类对象是相互关联的“对象对”!,-传统聚类得到的“类”中:每个对象只能属于一个类!-“数据对”聚类得到的“类”中:一个对象可能属于多个类(由“对象对”构成的“类”)!,聚类问题的扩展数据对聚类问题,北京科技大学,在社会网络中,聚类对象包含更多基本对象(如每个家庭),聚类结果是一个个“社团”。社会网络分析的研究应用,将导致对传统系统论的革命性发展!,聚类问题的扩展社会网络分析,北京科技大学,(2)分类发现1)分类发现的目的分类发现的目的是构造一个分类函数或分类模型(也称作分类器),通过分类函数,把数据库中的元组映射到给定类别中的某一个,即要发现一些指定的商品或事件是否属于某一特定数据子集的规则。,5.2数据挖掘的任务分类发现,北京科技大学,2)分类发现的处理过程,5.2数据挖掘的任务分类发现,北京科技大学,分类发现的处理过程第一阶段,训练集,分析,分类器,建立的模型,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论