版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章CRM系统中的商业智能技术数据仓库技术数据挖掘理解三种技术的的应用CRM系统中商业智能技术本章主要内容:)联机分析处理数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据挖掘CRM系统中商业智能技术本章主要内容:)联机分析处理1第一节商业智能商业智能是从大量的数据和信息中发掘有用的知识,并用于决策以增加商业利润,是一个从数据到信息到知识的处理过程。商业智能用来辅助商业活动作出快速反应,加快知识的获取速度,减少企业不确定性因素的影响。因此能很好地满足管理层和决策层对信息知识的时间性和准确性的要求。商业智能在我国尚处于起步阶段,虽然其在发展和应用过程中仍存在很多不足,但商业智能正朝着实时性、标准化、集成性、实用性、大众化方向发展。
商业智能的定义数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第一节商业智能商业智能是从大量的数据和信息中发掘有用的知2支撑技术:数据仓库为平台,数据挖掘OLAP互补,进行分析体系结构:以Web服务形式提供,以XML形式发放BI应用的分析结果是新的发展趋势。应用系统:BI系统将更具专业化和行业化的特点,与企业门户、企业应用集成紧密相连商业智能的发展商业智能的发展第一节商业智能数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能支撑技术:数据仓库为平台,数据挖掘OLAP互补,进行分析体系3数据仓库决策支持企业决策层OLAP数据挖掘数据存储提取、清洗、转化业务数据库决策信息反馈到实际的业务系统中
商业智能系统的构成商业智能系统由业务数据仓库系统、决策支持系统等部分构成。图7-12商业智能系统的数据处理循环第一节商业智能数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据仓库决策支持企业决策层OLAP数据挖掘数据存储提取、清洗4商务智能系统的三大支撑技术数据仓库技术
OLAP
数据仓库完成了数据的收集、集成、存储、管理等工作,商务智能面对的是经过加工的数据,能更专注于信息的提取和知识的发现。OLAP从多种角度对原始数据进行分析,将其转化为用户所理解、并真实反映企业经营情况的信息,为决策提供依据。数据挖掘技术
数据挖掘技术能高度自动化地分析数据,做出归纳性推理,挖掘出潜在的模式,帮助决策者作出正确的决策。
商业智能系统的支撑技术第一节商业智能数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能商务智能系统的三大支撑技术数据仓库技术OLAP数据仓库完5客户智能是创新和使用客户知识,帮助企业提高优化客户关系的决策能力和整体运营能力的概念、方法、过程以及软件的集合。
客户智能客户智能的理解理论基础信息系统层面数据分析层面知识发现层面战略层面
客户智能的定义第一节商业智能数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能客户智能是创新和使用客户知识,帮助企业提高优化客户关系的决策6客户知识,顾名思义,是有关客户的知识。客户知识包括客户的消费偏好、喜欢选用的接触渠道、消费特征等许多描述客户的知识。客户知识是人们通过实践认识到的、与客户有关的规律性,而客户智能是获得客户知识并使用客户知识求解问题的能力。客户智能是对企业战略决策真正有价值的事物和行动。生成客户知识的过程称之为客户知识的加工处理过程,客户智能不仅包括了客户知识的生成,而且强调了客户知识在企业中的分发、使用,直到产生客户智能。
客户知识第一节商业智能数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能客户知识,顾名思义,是有关客户的知识。客户知识包括客户的消费7客户知识生成客户知识分发客户档案客户知识使用营销客户服务。。。。客户智能客户智能图7-13客户智能的生成、分发和使用第一节商业智能数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能客户知识生成客户知识分发客户档案客户知识使用营销客户服务。。8
(1)客户知识的生成(generation):使用商业智能提供的OLAP分析工具、数据挖掘工具或两种工具的组合,发现存在于客户数据中的模式、规则、概念、规律的整个过程,称为客户知识的生成。
(2)客户知识的分发(distribution):客户知识必须到达组织内每一个需要客户知识的部分。将客户知识存储与动态知识库,借助CRM的系统平台,将客户知识分发到需要的终端。
(3)客户知识的使用(usingit):将客户信息和知识投入使用是CRM的最后一个环节。许多CRM和知识发现没有成功,很大程度上在于产生的与客户有关的信息和知识不能投入使用。第一节商业智能数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能(1)客户知识的生成(generation):使用商业智能9第二节数据仓库概述数据仓库的产生没有(一致的)全局信息→很难产生正确的决策没有(完整的)历史数据→历史数据分析(经验)发展趋势预测隐含信息挖掘→更难支持企业决策研究企业范围内的数据集成多数据库系统面向问题的分析海量数据存储产生一项新的信息技术
DataWarehousingDW的概念起源于20世纪80年代美国著名信息工程学家W.H.Inmon博士RecordSystemAtomicData→提出数据仓库的概念DecisionSupportDatabase数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第二节数据仓库概述数据仓库的产生没有(一致的)全局信息10第二节数据仓库概述早期数据仓库的定义的重要文献:
MartinHubel1986.10DataBaseandtheDataWarehousingConcept
数据仓库的定义B.A.DevilinP.T.Murphy
AnArchitectureforaBusinessandInformationSystem—IBMSystemJournal其中,披露了一项IBM的内部研究计划目的:构造一种“以关系数据库为基础的公司数据的集成化仓储”仓储的使用者:不是IT人员而是各级决策者→数据仓库1991年,IBM公司正式公布其DW构架INDEPTH→成功开发DW数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第二节数据仓库概述早期数据仓库的定义的重要文献:数11第二节数据仓库概述数据仓库(datawarehouse)是一个面向主题的(subjectoriented)、集成的(integrated)、非易失的(non-volatile)、随时间变化的(timevariant)数据集合,用于支持管理决策。面向主题集成性非易失性时变性
在数据仓库中,所有数据都是围绕一定主题进行。对于同一主题:关系数据库中,数据分布在相关的数据表中,在数据仓库中,数据存放在同一数据表中。数据仓库中数据都经过清洗、过滤、转换。都有统一得格式、消除了源数据中结构、表示方式、代码含义,不一致性
对于支持决策,历史数据非常重要。数据一旦写入,几乎不再更改,除非错误。对数据仓库的操作只是数据追加。所以数据仓库中数据是非易失的(稳定的)数据仓库中数据是只增不删的,所以记录了所有的数据。反映企业各个时期的信息,即反映企业随时间动态变化的数据。
数据仓库的定义数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第二节数据仓库概述数据仓库(datawarehouse)12第二节数据仓库概述面向主题案例数据结构:销售管理系统顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)采购管理系统订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)库存管理系统领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第二节数据仓库概述面向主题案例数据结构:销售管理系统数据挖13第二节数据仓库概述面向主题案例这种数据组织的特点:对相关部门的数据进行收集和处理,重点是“数据”和“处理”数据按部门的组织结构和业务活动特点进行;数据是不断变化和反复更新的,所以,是动态的,要求的是处理的速度和即时性(只反映当时的情况);数据库中存储的表与部门中的业务报表基本上是对应的,所以,直观,处理方便,易理解;数据库建立的本质:数据与处理分离(在程序中不分离)因为:很多应用涉及同一数据项,而同一数据项分散在不同的
数据库中→造成数据的不一致性。
这样的数据处理方式称为“联机事务处理”
——OLTP
数据库的存储要求冗余小(各种范式)速度快(保留一定的冗余)数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第二节数据仓库概述面向主题案例这种数据组织的特点:数据挖掘14第二节数据仓库概述按主题组织数据的数据结构:
商品商品固有信息(商品号,商品名,类别,颜色,…)商品采购信息(商品号,供应商号,供应价,供应日期,供应量,…)商品销售信息(商品号,顾客号,售价,销售日期,销售量,….)商品库存信息(商品号,库房号,库存量,日期,…)
供应商供应商固有信息(供应商号,供应信息,地址,电话,…)供应商品信息(供应商号,商品号,供应价,供应日期,供应量,…)
顾客顾客固有信息(顾客号,顾客名,性别,年龄,文化程度,住址,电话,…)顾客购物信息(顾客号,商品号,售价,购买日期,购买量,…)①企业关心的业务方向:客户,商品,供应商②对上述分析对象,可围绕主题进行数据组织:采购销售库存商品(一致)信息,便于联机分析处理OLAP数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第二节数据仓库概述按主题组织数据的数据结构:商15(1)数据粒度面向数据挖掘面向OLAP粒度的大小反映数据仓库的数据综合程度。粒度越小,数据越详细,数据量也越大。(表7-1)反映的是抽样率。抽样率的确定取决于源数据量的大小和数据挖掘的具体要求。源数据量越大,抽样率越低。表7-1数据粒度的相关指标数据粒度的划分是设计最重要的工作,需考虑数据仓库可接受的分析类型和最低粒度以及能存储的数据量。一般数据仓库都选择多重粒度的结构。重要概念第二节数据仓库概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能(1)数据粒度面向数据挖掘面向OLAP粒度的大小反映数据仓16数据分割常见形式垂直分割水平分割图解分割(2)数据分割
数据分割就是将大量的数据分成独立的、较小的单元进行存储以提高数据处理的效率。在进行分割时要考虑数据量、数据对象和粒度划分策略等几个方面。一个表垂直分成两部分,把一个大表分成两个表,表之间通过关键字段关联。表按行分成两部分,表被用来存储用户联系紧密的本地重要数据,减少网络查询。经过多个分布系统把一个图分解成两部分,从指定的服务器或在多个服务器之间建立连接而得到一个表所需要的全部数据。第二节数据仓库概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据分割常见形式垂直分割水平分割图解分割(2)数据分割17第二节数据仓库概述
数据仓库与数据库的区别表7-2数据库和数据仓库的区别
数据库只存储当前数据,而数据仓库存放历史数据;数据库主要面向业务操作,而数据仓库面向数据分析和决策支持;数据库中的数据是动态变化的,随时刷新,而数据仓库中的数据是静态的,一般不会改变;数据库使用频率比数据仓库高,数据访问量少,要求响应时间短。数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第二节数据仓库概述数据仓库与数据库的区别表7-218企业外部数据
数据仓库存储
业务操作型系统数据清洗/转换数据提取提取仓库数据挖掘系统/数据展现系统数据集市数据集市数据集市数据集市
数据仓库的体系结构数据元数据图7-3数据仓库的体系结构图第二节数据仓库概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能企业外部数据 数据仓库存储 业务操作型19
数据仓库的体系结构
由于数据库和数据仓库应用的出发点不同,因此数据仓库与业务数据库系统是相互独立的,但数据仓库又同业务数据库系统密切相关。数据仓库是将业务操作型系统中的数据提取出来,辅以企业外部数据,这些数据经过清洗和转换,存储在数据仓库中。数据仓库不只存储业务数据,还存储记录数据信息的元数据。数据仓库中还可以抽取部门型数据仓库,即数据集市。数据最终传送给数据挖掘系统或数据展现系统,以供数据分析或展现给用户。所以,数据仓库不是简单地对数据进行存储,而是对数据进行“再组织”。第二节数据仓库概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据仓库的体系结构由于数据库和数据仓库应20传统数据库面向操作型环境,系统设计人员能够明确了解用户需求,因此传统数据库一般采用系统生命周期法(systemdevelopmentlifecycle,SDLC)。而数据仓库面向分析型应用,设计人员要在与用户不断沟通的基础上,逐步明确与完善系统需求,因此数据仓库设计采用CLDS(cyclelifedevelopmentsystem)方法。需求分析贯穿整个数据仓库设计过程。数据仓库的设计方法与步骤第二节数据仓库概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能传统数据库面向操作型环境,系统设计人员能够明确了解用21数据仓库的设计方法与步骤第二节数据仓库概述图7-4SDLC方法和CLDS方法比较数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据仓库的设计方法与步骤第二节数据仓库概述图7-4SD22数据仓库的设计方法与步骤第二节数据仓库概述表7-3数据仓库设计与数据库设计的区别数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据仓库的设计方法与步骤第二节数据仓库概述表7-3数据仓23数据仓库的设计方法与步骤第二节数据仓库概述图7-5数据仓库设计的主要步骤数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据仓库的设计方法与步骤第二节数据仓库概述图7-5数据24第三节CRM系统中的数据仓库技术最终用户信息使用者知识挖掘者
数据仓库的用户
信息使用者使用数据仓库是经常性的、重复性的,只访问很少的一部分数据。每次查询也许是相同的几个指标,运用数据仓库可以快速、准确地得到他们所需要的信息。信息使用者是操作型用户。
知识挖掘者不只查询数据仓库目前能够提供的信息,还通过数据分析找到其中的隐含信息,用以发现更深层次的知识来指导决策。知识挖掘者是分析型用户。知识挖掘者在使用数据仓库时,先对数据进行概括分析,然后根据需要从数据仓库中抽取数据,对抽取出来的数据选择合适的数据挖掘算法进行建模分析,最后是根据建模分析得到的知识对数据仓库进行分类处理。数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第三节CRM系统中的数据仓库技术最信息使用者知识挖掘者25客户数据仓库的功能动态、整合的客户数据管理和查询功能基于数据仓库支持的客户关系结构和忠诚客户识别功能基于WEB数据仓库的信息共享功能基于数据仓库支持的客户购买行为参考功能基于数据仓库支持的客户流失警示功能
CRM系统中数据仓库的功能CRM的数据仓库必须是动态的、整合的数据库系统。动态指数据库能够实时地提供客户的基本资料和历史交易行为等信息,并在客户每次交易完成后,能够自动补充新的信息;整合是指客户数据库与企业其他资源和信息系统要综合、统一,各业务部门及人员可根据职能、权限的不同实施信息查询和更新功能,客户数据仓库与企业的各交易渠道和联络中心必须紧密结合等。
实施忠诚客户管理的企业需要制定一套合理的建立和保持客户关系的格式或结构。即企业要像建立雇员的提升计划一样,建立一套把新客户提升为老客户的计划和方法。例如,航空公司的里程积累计划——客户飞行了一定的里程数,便可以获得相应的免费里程,或根据客户要求提升舱位等级等。
企业运用客户数据仓库,可以使每一个服务人员在为客户提供产品和服务时,明确客户的偏好和习惯,从而提供更具有针对性的个性化服务。例如,读者俱乐部都有定制寄送服务,他们能根据会员最后一次的选择和购买记录,以及他们最近一次与会员交流获得的有关个人生活信息,向会员推荐不同的书籍。
企业的客户数据仓库将通过对客户历史交易行为的观察和分析,发挥警示客户异常购买行为的功能。如一位客户的购买周期或购买量出现显著萎缩变化时,就是潜在的客户流失迹象。客户数据库通过自动监视客户的交易资料,对客户的潜在流失现象作出警示。Web数据仓库将成为企业信息共享的基础架构。客户数据仓库应拥有可以通过浏览器使用的接口,以成为支持客户关系管理的基本架构,并且数据仓库要能够通过用户的简单点击就可以获得分析结果。CRM环境下连接分散单位的数据中心建成关键在于Web数据仓库构造之初就为其所有部分确立一致的数据元,并通过一致的数据元实现数据仓库的总线体系结构。第三节CRM系统中的数据仓库技术数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能客动态、整合的客户数据管理和查询功能基于数据仓库支持的客户26图7-6客户数据仓库的体系结构
数据挖掘对分析的结果进行评估客户信息客户活动清洗、转换外部数据联机分析处理数据仓库数据准备客户数据集市
CRM系统中数据仓库的系统结构第三节CRM系统中的数据仓库技术数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能图7-6客户数据仓库的体系结构数据挖掘对分析的结果进行27
CRM系统中数据仓库的系统结构
数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为分析和企业运营分析等传递给数据仓库用户。在数据仓库中,利用数据仓库的ETL(extraction-transformation-loading)工具,针对行为分组和寻找重点客户的需要,产生相应的数据集市(DM),将分析结果与性能评价等传递给CRM用户。对于客户量巨大、市场策略对企业影响较大的企业,CRM要以数据仓库为核心。数据来源客户信息客户行为生产系统其他相关数据第三节CRM系统中的数据仓库技术数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能CRM系统中数据仓库的系统结构数据通过抽取、转换和装载28分析建立企业模型概念模型设计逻辑模型设计物理模型设计数据仓库生成确定系统边界及主题域技术准备工作确定数据的存储结构
确定数据存放位置
确定存储分配
CRM系统中数据仓库的设计与实施第三节CRM系统中的数据仓库技术数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能分析建立概念模逻辑模物理模数据仓库生成确定系统边界及主题域确29客户数据仓库的建立注意问题数据信息收集和集成确保数据的质量
按规则更新客户数据,保持对已有客户的统一看法数据仓库统一共享,以发挥最大作用为进一步了解客户身份及其需求,并做出预测,企业需要花费一些精力进行分析,因此产生了数据信息搜集。成功地使用数据信息搜集是CRM建设的重要步骤。CRM的客户数据仓库需要把企业内外的客户数据集成起来。就客户数据集成来讲,企业需要对客户进行匹配和合并。首先,在建立CRM数据库时,一定要确认由应用程序所生成的客户编码的唯一性;其次,建立完整、准确的客户数据仓库,姓名和地址这两个信息片段是很重要的,一定要进行分解和规范化;最后,对企业想收集又没有一定结构且信息量比较大的数据一定要非常慎重,比如文本信息。首先识别新数据性质,新客户的数据给一个独立的标识,在数据仓库中插入一条新的记录;如果是已有客户的数据,更新客户记录的相关信息片段。数据更新要求同步化是CRM数据仓库的特点之一。
统一共享的客户数据仓库把销售、市场营销和客户服务的所有信息连接起来。如果一个企业的信息来源互相独立,那么这些信息会不可避免地出现重复、互相冲突等现象,这对企业的整体运作效率将产生消极的影响。第三节CRM系统中的数据仓库技术CRM系统中数据仓库的设计与实施数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能客数据信息收集和集成确保数据的质量按规则更新客户数30CRM中数据仓库的应用客户行为分析重点客户发现
市场性能评估客户行为分析包括整体行为分析和群体行为分析两个方面。整体行为分析用来发现企业所有客户的行为规律,行为分组时按照客户的不同种类的行为,将客户划分成不同的群体。在行为分组完成后,要进行客户理解、客户行为规律发现和客户组间交叉分析等。重点客户发现主要是发现能为企业带来潜在效益的重要客户。根据客户的属性特点就可以挖掘出重点客户,然后做好保持和提高这些重点客户的忠诚度工作。此外,通过数据仓库的数据清洗与集中过程,可以将客户对市场的反馈自动输入数据仓库中,这个获得客户反馈的过程,称为客户行为追踪。根据客户行为分析,企业可以准确地制定市场策略和市场活动。然而,这些市场活动是否能够达到预定的目标,是改进市场策略和评价客户行为分组性能的重要指标。因此,在CRM中必须对行为分析和市场策略进行评估。第三节CRM系统中的数据仓库技术CRM系统中数据仓库的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能C客户行为分析重点客户发现市场性能评估客户行为分31第四节OLAP技术及其在CRM系统中的应用OLAP是共享多维信息的、针对特定问题的联机数据快速访问和分析的软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。相关概念变量维维的层次性维成员多维数组数据单元
联机分析处理的概念
数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第四节OLAP技术及其在CRM系统中的应用OLAP是共享32变量:分析数据时要考虑的属性,即描述数据“是什么”。维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。维的层次性:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面,我们称这多个描述方面为维的层次。一个维往往具有多个层次。维成员:维的一个取值,若维分为几个层次,那么维成员就是不同维层次取值的组合。多维数组:多维数组是维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变量)。数据单元:数据单元是多维数组的取值。当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个变量的值。那么数据单元就可以表示为:(维1维成员,维2维成员,…,维n维成员,变量的值)。
联机分析处理的概念
第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能变量:分析数据时要考虑的属性,即描述数据“是什么”。维:是人33
多维数据模型上的OLAP操作
对多维数据集(维1、维2、维3……维n、变量值)在维度i上选定一个维成员,得到一个n-1维多维数据集,称得到的这个n-1维多维数据集为原数据集在第i维上的数据切片。OLAP的分析方法数据切片数据切块数据钻取数据聚集数据旋转在多维数据立方体中,确定某些维度的取值范围,得到一个原立方体的子立方体的过程被称为数据切块。数据切块与数据切片得到的多维数组都是原多维立方体的子集,不同的是数据切片使多维立方体降低了一个维度,而数据切块得到的多维立方体与原立方体的维度是相同的。
数据钻取(数据下钻),是由概括的数据到详细的数据的过程。数据钻取对应于维的层次,它是由维的高层次展开到低层次的一个动作。比如,我们由“年”数据下钻到“季度”数据,这无疑会增加数据细节和数据量,得到更详细的数据。数据钻取的具体操作参见图7—2中的数据钻取部分。数据聚集又叫数据上卷,是数据钻取的逆过程。数据聚集是将详细的数据聚集为较概括的数据,是一个综合数据的动作。
数据旋转即变换维度的位置,也就是转动数据的视角,给用户提供一个从不同的角度观察数据的方法。第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能多维数据模型上的OLAP操作对多维数据集(维1、维34
原数据立方体包含了时间(年)、城市、产品三个维度,其中a1,a2为产品名。钻取过程是按时间下钻,由年数据得到季度数据,数据由原来的两行展为八行。聚集过程是按地区维度上卷,将城市维上卷为国家维,即将北京、上海两城市数据统计为中国的数据,将东京、大阪两城市的数据统计为日本的数据。数据聚集和数据钻取为用户提供了不同层次观察数据的方法。20073季20071季20061季20063季20074季20072季20064季20062季a1a2
北京上海东京大阪钻取聚集a2a120062007中国日本20062007北京上海东京大阪a1a2图7-7
数据钻取与聚集聚集钻取第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能原数据立方体包含了时间(年)、城市、产品三个维度,其3520062007A1200230A2456478A3100120A1A2A320062004561002007230478120图7-8
数据旋转图7-8是数据旋转的一个简单示例,只体现了二维表的旋转。当数据是三维或是三维以上的多维数据时,数据旋转将更有意义,每进行一次数据旋转就可以从一个新的视角观察数据。第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能20062007A1200230A2456478A3100136OLAP的特点
联机分析处理的用户是企业中的专业分析人员及管理决策人员,在分析业务经营的数据时,从不同的角度来审视业务的衡量指标是一种很自然的思考模式。比如,分析销售数据时,综合时间周期、产品类别、分销渠道、地理分布、客户群类生成一张张报表,各个分析角度的不同组合又可以生成不同的报表,使得IT人员的工作量相当大。联机分析处理的主要特点是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型。一旦多维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态地在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联机分析处理近年来被广泛关注的根本原因,它从设计理念和真正实现上都与旧的管理信息系统有着本质的区别。第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能OLAP的特点联机分析处理的用户是企业中的专业分37OLAP的应用
数据仓库系统核心是联机分析处理,从应用的角度来说,数据仓库还可以采用传统的报表或数理统计和数据挖掘等人工智能方法,涵盖的范围更广;从应用的范围来说,联机分析处理往往根据用户分析的主题进行应用分类,如销售分析、市场推广分析、客户利润率分析等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。
以某家电企业为例介绍OLAP的应用。家电的多维分析涉及产品、销售数量、地区和时间4个维。所有抽查的数据都是第1季度的。第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能OLAP的应用数据仓库系统核心是联机分析处38冰箱销售第1季度,冰箱在什么地区销售情况最好?第1季度,哪个省份的冰箱销量处于领先地位?第1季度,哪个城市的冰箱销售数量最高?负责冰箱销售的副总裁提出了以下3个问题:解决方法需要用到OLAP的两种多维分析方法,即数据切片/切块和数据钻取,其他的分析方法还有数据旋转和数据聚集等。第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能冰第1季度,冰箱在什么地区销售情况最好?第1季度,哪个省份的39产品地点时间电视冰箱空调华东东北西北2006.42007.12007.22007.3冰箱图7-9
运用数据切片来进行数据分析首先使用数据切片方法来对第一个问题进行分析。在图7-9的数据立方体中,时间、地区和产品分别是3个维度,销售额是度量变量。在产品维上选定“冰箱”则形成在产品维上的数据切片,显示了冰箱在各地区和各月份的销售情况。第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能产品地点时间电视冰箱空调华东东北西北2006.42007.140
数据钻取和聚集会改变维的层次,变换分析的粒度,在家电企业的例子中,必须采用联机分析处理工具深入的地区维中,通过数据钻取来查看某地区维中更细致的数据。(如图7-10所示)。表7-4按地区划分的销售数据通过模型驱动工具来查询数据仓库的数据,如表7-4第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据钻取和聚集会改变维的层次,变换分析的粒度,在家电41冰箱44899西北79954华东36040东北25309浙江29344江苏17866吉林18174辽宁西北东北华东冰箱24632陕西20267甘肃25301山东图7-10
运用数据钻取来进行数据分析图7-10表示的是对地区维数据钻取的第一步,即显示了该家电企业按地区划分的各省份的冰箱销售量(如表7-5所示);更深一步的钻取可以显示出各城市的销售情况,得到表7-6。第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能冰箱44899西北79954华东36040东北25309浙江42表7-5按地区和省进行划分的销售数据第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能表7-5按地区和省进行划分的销售数据第四节43表7-6按地区、省和城市进行划分的销售数据第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能表7-6按地区、省和城市进行划分的销售数据第四节44通过OLAP得出了负责冰箱销售的副总裁所提出的3个问题的答案:2007年第1季度,冰箱在华东地区销售情况最好。2007年第1季度,在华东地区,江苏的冰箱销售量处于领先地位。2007年第1季度,江苏的南京冰箱销售量最高。OLAP的应用第四节OLAP技术及其在CRM系统中的应用数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能通过OLAP得出了负责冰箱销售的副总裁所提出的3个问题的答案45第五节数据挖掘概述数据挖掘(datamining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息。它是通过分析数据发现数据内部的信息和知识过程。
数据挖掘的基础是大量数据,所以具有高效处理大量数据的能力。这也是目前数据挖掘技术的一个难题,一些算法在小数据集上效果很好,但数据量增加到一定程度,算法的实现代价过大、效率太低,甚至无法实现。
数据挖掘的定义数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能第五节数据挖掘概述数据挖掘的基础是大量数据,所以具有高效46数据来源事务数据库高级数据库数据仓库关系数据库
数据挖掘的数据来源关系数据库:关系数据库中的数据是最丰富、最详细的。在进行数据挖掘之前也要对数据进行清洗和转换。数据的真实性和一致性是进行数据挖掘的前提和保证。数据仓库:数据经过清洗和转换,不存在错误和不一致的情况,数据仓库在获取数据后就不需要再进行这些数据处理工作了。数据仓库、数据挖掘和联机分析处理共同构成了系统的决策支持模块。事务数据库:数据挖掘可从事务数据库中提取数据。其每个记录代表一个事务。在进行数据挖掘时,可以只将一个或几个事务数据库集中到数据挖掘库中进行挖掘。高级数据库:面向对象的数据库、空间数据库、时间和时间序列数据库、文本和多媒体数据库等新的数据库。这些结构更为复杂的数据库为数据挖掘提供了更加全面、更加多元化的数据,也为数据挖掘技术提出了更大的挑战。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据来源事务数据库高级数据库数据仓库关系数据库数据挖47
数据挖掘的基本步骤数据挖掘包括确定分析和预测目标、建立数据挖掘库、分析数据、建立模型、模型评估与验证、模型实施等几个基本步骤。第五节数据挖掘概述图7-11数据挖掘的基本步骤数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据挖掘的基本步骤数据挖掘包括确定分析和48
数据挖掘的基本步骤第五节数据挖掘概述数据挖掘的基本步骤1)确定分析和预测目标确定分析和预测目标相当于需求分析,主要是明确业务目标。确定分析和预测目标是数据挖掘的基础条件。同时,定义了数据挖掘的分析目标也就定义了评价这一挖掘模型的标准。2)建立数据挖掘库首先要进行数据收集,对于收集到的数据,应对数据的来源、大小、存储位置和数据在使用上的限制等进行详细的记录。完成数据收集后,要对数据进行描述。数据挖掘库可以是一个单独的数据库,也可以和数据仓库建立在相同的物理介质上。数据挖掘库中还应包括数据的元数据。3)分析数据
分析数据即对数据挖掘库中的数据进行分析,对数据有了全面、细致的了解以后,就可以针对数据挖掘分析目标选择合适的变量和记录。对于变量的选择,首先要考虑对结果有影响、可以反映结果的变量。4)建立模型建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。5)模型评估与验证
为了验证模型的有效性,一般会将数据集分为两部分:一部分用于建立模型,另一部分则用于测试模型。对模型的验证主要需要考虑以下几个方面:(1)模型的准确性;(2)模型的可理解性;(3)模型的性能。模型建立和模型检验是一个反复的过程。6)模型实施模型的实施有两种情况:一种是将数据挖掘模型得到的结果提供给信息需求者或者管理者,以辅助管理者的决策分析;还有一种情况就是保留模型,以后每遇到类似问题就用这个模型进行分析,或者将模型用于不同的数据集上(这些数据分析需要采用相同的方法)进行分析。在模型的使用过程中,随时间及环境的变化,还应对模型进行重新测试,并对模型进行相应的修改,这就是模型维护的过程。数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据挖掘的基本步骤第五节数据挖掘概述数1)确定分析和49数据挖掘工具及其选择第五节数据挖掘概述数据挖掘工具包括数据挖掘(datamining)工具和文本挖掘(textmining)工具。数据挖掘工具主要是用来进行聚类分析、关联分析、时间序列分析以及统计分析的。文本挖掘工具主要应用在市场调研报告中或呼叫中心(callcenter)的客户抱怨定级、专利的分类、网页的分类以及电子邮件的分类等方面。一般而言,目前市场上这些数据挖掘工具又可以分成两类:企业级工具以及小型工具。数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据挖掘工具及其选择第五节数据挖掘概述数据挖掘工50数据挖掘工具及其选择第五节数据挖掘概述数据挖掘工具的选择①公司的数据挖掘需求是短期行为还是长期使用②公司的数据挖掘经验和水平③公司的数据状态④公司的预算⑤工具的性能数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能数据挖掘工具及其选择第五节数据挖掘概述数①公司的数据挖掘51CRM中常用的数据挖掘算法1)关联分析(associationanalysis)设I={i1,i2,…………im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T∈I。每一个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当A∈T。项的集合称为项集(Itemset)。包含k个项的集合称为K-项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。关联规则是形如AB的蕴含式,其中A∈I,B∈I,并且A∩B=。规则AB在事务集D中成立,具有支持度s,其中s是D中包含A∪B的事务的百分比。它是概率P(A∪B)。规则AB在事务集D中具有置信度c,如果D中包含A的事务中同时也包含B的事务的百分比是c。这是条件概率P(B|A)。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能CRM中常用的数据挖掘算法1)关联分析(associati52
CRM中常用的数据挖掘算法支持度Support(AB)=P(A∪B)置信度Confidence(AB)=P(B|A)同时满足最小支持度和最小置信度的规则称为强规则。关联规则挖掘就是寻找强规则的过程。如果项集满足最小支持度,则称为频繁项集
Apriori算法是一个关于单维、单层、布尔规则的方法。因此它也是关联规则挖掘中形式最简单的方法。
Apriori算法是一个逐层迭代寻找频繁集的方法。如果项集满足最小支持度,称为频繁项集。
Apriori算法的性质是频繁项集的所有非空子集一定是频繁的。Apriori算法第五节数据挖掘概述1)关联分析(associationanalysis)数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能CRM中常用的数据挖掘算法支持度Apriori算法53Apriori算法的实例表7-7是一个事务数据,ID表示顾客号,“购买商品”表示顾客一次购买的商品名称。规定最小支持度为60%,最小置信度为80%。表7-7事务数据第四步,L2与L2连接,得到候选项集。根据Apriori算法的性质去掉不符合条件的候选项,即有不频繁子集的项。然后扫描记录,对候选集中剩余候选项计算支持度。根据最小支持度得到频繁项集L3。第五步,继续重复上述动作,直到所得频繁项集Ln为空,则频繁项集Ln-1即为最大频繁项集。第一步,扫描每条记录,对每个项(即每种商品)出现的次数计数。第二步,根据最小支持度确定频繁项集L1。第三步,L1与L1连接,得到候选项集。扫描记录,对候选集中候选项计算支持度。根据最小支持度得到频繁项集L2。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能Apriori算法的实例表7-7是一个事务数据,ID54Apriori算法的实例图7-12Apriori算法过程实例{F}25%项集支持度{A}100%{B}100%{C}50%{D}75%{E}50%根据最小支持度60%得到频繁1项集L1连接产生候选集项集支持度{A}100%{B}100%{D}75%项集{A,B}{A,D}集{B,D}计算支持度项集支持度{A,B}100%{A,D}100%{B,D}75%全部满足最小支持度连接产生新的频繁2项集L2项集{A,B,D}支持度75%第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能Apriori算法的实例图7-12Apriori算法过程55得到一个频繁项集{A,B,D}。这就是用Apriori算法寻找频繁项集的过程。但关联规则挖掘的最终目的是找到强规则。列出最终得到的频繁项集{A,B,D}可产生的关联规则,计算规则的置信度,如表7-8所示。表7-8关联规则的置信度
根据最小置信度80%,可得到三个强规则A∧DB、B∧DA和DA∧B。至此,完成了一个最简单的规则挖掘。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能得到一个频繁项集{A,B,D}。这就是用Aprio56案例
本例演示了对美国众议院议员投票记录应用关联分析的结果。
案例中的数据来自于1984年美国国会投票数据库,可以在UCI机器学习库中找到。每一个事务包含议员的党派信息,以及他/她对16个关键问题的投票记录。数据集共有435个事务和34个项。表1中列出了所有的项。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能案例本例演示了对美国众议院议员投票记录应用关第五节57案例1984年美国国会投票记录的二元属性列表。信息源:UCI机器学习库第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能案例1984年美国国会投票记录的二元属性列表。信息源:UCI58
设定minsup=30%和minconf=90%,对数据集采用Apriori算法。下表列举了算法产生的一些高置信度的规则。从1984年美国国会投票记录中提取的关联规则案例第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能设定minsup=30%和minconf=90%,对59
前两个规则暗示大部分同时投aidtoEISalvador赞成票、投budget-resolution和MX-missile反对票的是共和党人;而同时投aidtoE1Salvador反对票、投budget-resolution和MX-missile赞成票的是民主党人。这些高置信度的规则表明关键的问题可以将国会成员分为两个政党。如果降低最小置信度,将会发现很难找到区分政党的特定问题。
例如,当最小置信度为40%时,这些规则暗示对于一个问题两个政党的投票差不多——投反对票的成员52.3%是共和党人,另外47.7%的是民主党人。案例第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能前两个规则暗示大部分同时投aidtoEISal60C=先购买了商品X的组数先购买了商品X在购买商品Y的组数S=总组数先购买了商品X在购买商品Y的组数置信度支持度2)序列模式分析(sequentialpatternanalysis)以组(同一顾客)为基准,并且在Item1和Item2之间保持时间顺序关系,可得一个最简单的序列规则(见表7-10)。如表7-9的第一行所示,客户在购买了商品A之后,必定随着购买商品B,其置信度C为1,支持度S为0.5。表7-9按时间分类表第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能C=先购买了商品X的组数先购买了商品X在购买商品Y的组数S=61表7-10序列规则第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能表7-10623)分类分析(classificationanalysis)
基于债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。分类分析通过判断以上属性与已知训练数据中风险程度的关系给出预测结果。决策树是一种常见且有用的预测模式。表7—11是一个可用于判断信用风险的训练数据集。表7-11
原始数据
第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能3)分类分析(classificationanalysis63AllCreditRiskGood:3Bad:4Debt=LowCreditRiskGood:3Bad:1Debt=HighCreditRiskGood:0Bad:3EmploymentType=Self-employedCreditRiskGood:0Bad:1EmploymentType=salariedCreditRiskGood:3Bad:0图7-13
决策树图7-13显示了一个由表7-11中原始数据生成的决策树。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能AllDebt=LowDebt=HighEmployment64在这个普通的例子中,一个决策树算法对于信用风险预测来说,最重要的属性是债务情况。决策树中的第一个分支点设在债务情况。叶子“Debt=High”包含三条“CreditRisk=Bad”而没有“CreditRisk=Good”的记录。在这个例子中,客户的高负债记录是他的信用风险大的充分条件。“Debt=Low”仍是混合的,其中有三条“CreditRisk=Good”和一条“CreditRisk=Bad”。在这种情况下,决策树算法将用“EmploymentType”作为第二条判断条件。EmploymentType处分支得到两个叶子。它显示受雇于自己的人有较高的信用风险。分类分析则可以判断成百的属性、数以百万的记录,以建立描述规则的决策树。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能在这个普通的例子中,一个决策树算法对于信用风险预测来65(1)相异度0d(2,1)0d(3,1)d(3,2)0
d(n,1)d(n,2)……04)聚类分析用以描述两个对象之间的差别,通过两个对象的属性值计算的。对于数值型数据通常用距离表示相异度。
(2)距离,最常用的距离表示方法是欧几里得距离。他的定义是:xi1xj12+xi2xj22+…+xipxjp2
其中,i=(xi1,xi2,…
,xip)和j=(xj1,xj2,
…
,xjp)是两个p维的对象。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能(1)相异度04)聚类分析用以描述两个对象之66两个簇间的平均距离,是两个簇中的对象两两之间的平均长度。两种简单的聚类分析算法:
(1)基于划分的聚类K-平均算法的思想如下:输入簇的数目K和包含n个对象的数据库。a.任意选择K个对象作为初始的簇中心。b.循环进行c、d。c.根据簇中对象的平均值,将每个对象(重新)分给最类似的簇。d.更新簇的平均值,即计算每个簇中对象的平均值。e.直到不再发生变化。
K-平均算法基于簇中对象的平均值,输出结果是K个簇。K-平均算法的优点是实现简单,易于理解;缺点是如果数据中存在孤立点,会影响聚类质量。第五节数据挖掘概述(3)两个簇间的平均距离数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能两个簇间的平均距离,是两个簇中的对象两两之间的平均长度。(167(a)(b)(c)图7-14K-平均算法(a)为输入点,以两个星型点为初始的簇中心进行聚集。(b)为第一次聚类后的结果,两个星型点为簇的平均值。(c)图中以两个簇的平均值点为簇中心,进行聚类的结果,由于至此结果不再变化,算法执行结束。(c)图中标注的两个聚类为结果聚类。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能(a)(b)(c)图7-14K-平均算法(a)为输入68K-平均算法基于簇中对象的平均值,输出结果是K个簇。K-平均算法的优点是实现简单,易于理解;缺点是如果数据中存在孤立点,会影响聚类质量。
K-中心点法是对K-平均法的一种改进,它不是采用平均值而是用代表点作为中心点进行聚类,再逐步用非中心点代替中心点找到最优解。当数据量很大时,K-中心点法的实现代价过高。进而又产生了CLARA、CLARANS等改进的划分方法。第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能K-平均算法基于簇中对象的平均值,输出结果是K个簇。K-平69(2)基于层次的聚类基于层次的聚类分为凝聚的层次聚类和分裂的层次聚类两种。凝聚的层次聚类将每个对象作为一个簇,然后一步步合并至所有的对象最终合并成一个簇。分裂的层次聚类是凝聚的层次聚类的逆过程。对于给定的数据集合,将所有对象作为一个簇,然后根据某些准则被一步步分裂,直至每个对象成为独立的一个簇。123456第零步第一步第二步第三步第四步第五步凝聚第五步第二步第一步第零步第三步第四步分裂图7-15
层次聚类第五节数据挖掘概述数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能(2)基于层次的聚类基于层次的聚类分为凝聚的层次聚类和分裂70基于层次的聚类分析实例
聚类分析在区域经济中的应用,数据见表7-12。第五节数据挖掘概述表7-12
原始数据
单位:万元数据挖掘
OLAP的应用
数据挖掘应用基本步骤设计与实施数据仓库技术体系结构数据仓库客户智能定义、构成OLAP技术应用商业智能基于层次的聚类分析实例聚类分析在区域经济中的应用,数71基于层次的聚类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国防霉胶数据监测研究报告
- 2024至2030年中国过滤器密封胶数据监测研究报告
- 小学科学实验操作竞赛活动方案
- 初中部晚自习项目管理方案
- 中医门诊部财务工作管理制度
- 申报中级职称工作总结
- 2024至2030年高压喷雾车项目投资价值分析报告
- 2024至2030年铁壳跳跃牙箱项目投资价值分析报告
- 2024至2030年脐环项目投资价值分析报告
- 2024至2030年催化传感器项目投资价值分析报告
- 珍爱生命主题班会
- 陈皮仓储合同模板例子
- 2024年安全生产月全国安全生产知识竞赛题库及答案(共六套)
- 2024-2025学年沪教版小学四年级上学期期中英语试卷及解答参考
- DB23T 3844-2024煤矿地区地震(矿震)监测台网技术要求
- 《阿凡达》电影赏析
- DB42-T 2286-2024 地铁冷却塔卫生管理规范
- 合作伙伴合同协议书范文5份
- 小学生主题班会《追梦奥运+做大家少年》(课件)
- 公安机关人民警察高级执法资格考题及解析
- 浙教版信息科技四年级上册全册教学设计
评论
0/150
提交评论