商业智能与数据挖掘技术详述_第1页
商业智能与数据挖掘技术详述_第2页
商业智能与数据挖掘技术详述_第3页
商业智能与数据挖掘技术详述_第4页
商业智能与数据挖掘技术详述_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业智能与数据挖掘技术详述第八章商业智能与数据挖掘技术

第一节概述第二节关联规则挖掘第三节决策树挖掘技术第四节市场细分与聚类分析

5/9/20232第一节概述

一、商业智能

1、概念:是对商业信息进行加工处理、帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合。2、目标:决策能力、运营能力的提高。对各种业务系统的多数据源数据进行整合面向主题的多维度分析面向高层决策者的快速、及时、正确的决策分析为各层决策者服务的即时查询对业务模型的深层次分析与预测5/9/202333、商业智能与数据挖掘5/9/20234惠普公司2007/11表示:正在寻找数据管理软件和商业智能软件公司,交易额可能达3-5亿美元,也可能为50亿-100亿美元。赛门铁克是全球最大的数据管理软件公司之一。2005年,赛门铁克通过并购Veritas进入该市场。在商业智能软件市场,2007年已有过多起并购交易:如IBM并购Cognos,SAP并购BusinessObjects,Oracle并购Hyperion。消息:Oracle2007/4/18以29亿美元收购商业智能软件商HyperionSolutions。它将该公司软件与自己的商业智能和分析工具软件整合起来,以提高客户的规划、预算、运营分析等管理能力。

5/9/20235

二、商业智能体系的构成理论基础,如CRM中的八大理论三项技术:数据仓库和数据集市产品,OLAP工具,数据挖掘软件应用界面:终端用户查询和报告工具

5/9/20236

三、商业智能与企业应用系统之间的关系5/9/20237

三、数据挖掘概念定义:DM就是应用一系列技术从数据仓库中提取人们感兴趣的信息——概念、规则、规律、模式。它是深层次的数据分析,是分析型CRM的核心。DataMiningistheapplicationofartificialintelligence(AI)techniques(Neuralnetwork,fuzzyLogic,geneticarithmetic,etc)tolargequantitiesofdata,todiscoveryhiddentrends,patterns,andrelationships---MetaGroup5/9/20238DM与KDD(知识发现)的关系。KDD:Knowledgediscoveryindatabaseisthenon-trivialprocessofidentifyingvalid,novel,potential,useful,andultimatelyunderstandablepatternindata.等价:人工智能领域习惯称知识发现,数据库领域称DM。核心:把DM当作KDD的最核心部分。

5/9/20239首次KDD和DM研讨会1989年在底特律召开。1995年国际第一届KDD和DM学术会议在加拿大召开,定义了DM。1998年第四届KDD和DM学术会议,30多家公司展示DM软件产品。KDD和DM现在已成为数据库领域最重要的课题之一,DM软件广泛应用于商业.经济.金融.管理。3、DM的研究现状

5/9/202310有影响的数据挖掘软件5/9/202311市场营销:预测顾客购买行为,划分顾客群体。银行业:侦测欺诈行为;客户信誉度分析。零售业:预测销售额;决定库存量,批发点分布。制造业:预测机器故障;发现生产力的关键因素。经纪业和安全交易:预测债券价格、确定交易时间。电信:评估客户群;综合效益分析;网络性能评估。经营管理:评估客户信誉、部门业绩、员工业绩等。四、DM的应用5/9/2023121.

技术部要求:就某钢种找到一组生产条件,通过调整化学成分或轧制参数,提高断裂延伸率,降低抗拉强度。2.

数据预处理:从数据集市中,找出15000条质量记录。3.

DM方法:聚类分析。4.

结论:(1)钢材两项性能指标与温度和两种元素含量有关。(2)增加该两项元素含量可实现两项目标。5.效益:技术部工程师建议:(1)结合工程现状,保持温度不变。(2)

将某一元素(成本高)减少50%以降低成本。(3)另元素含量客户需求加调整。例:宝钢的DM5/9/202313五、DM技术的分类根据发现的知识种类分类(1)总结(summarizing):概括数据,做一般性结论(2)特征(characteristics):描述数据的分布特征。(3)分类(Classification):生成一分类函数或分类树。(4)聚集(Clustering):聚集和分类的区别。(5)数据可视化(DescriptionandVisualization)(6)关联规则(associationrules)(7)序列分析(SequenceAnalysis)(8)偏差分析(DeviationAnalysis

)5/9/202314预测技术:回归分析关联规则:Apriori算法分类技术:Bayes分类、决策树、神经网络聚类技术:快速聚类概念描述:分组汇总、决策树、遗传算法数据可视化:把多维数据变成多种图形2、按挖掘技术分

5/9/202315信息论方法:ID3方法、IBLE方法集合论方法:粗糙集方法、概念树方法、模糊集方法、AQ系列方法神经网络NeuralNetworks

:前馈网络、反馈网络、自组织网络遗传算法GeneticAnalysis

:模拟生物进化过程的方法。统计分析方法:相关分析、时间序列分析、回归分析、分组分析、因子分析、聚类分析、判别分析。3、按挖掘所用算法分5/9/202316六、DM在CRM中的作用1、发现最有价值客户和新客户5/9/2023172、使交叉销售更有效率5/9/2023183、客户保持:客户流失预警模型个性化营销和服务5/9/2023194、欺诈发现返回5/9/2023205、评估营销工具性能英国电信采用DM,建模确定潜在客户的购买倾向及价值。法国电信利用DM在预防欺诈、客户流失分析和预测、交叉销售方面取得成果。韩国SKTelecom公司用DM分析客户通话行为,预测通话中的掉线情况。5/9/202321五、DM的流程(一)一般流程数据准备 数据挖掘结果表达和解释5/9/202322转换数据预处理后的数据数据准备 数据挖掘结果表达和解释

数据预处理

数据选择目标数据数据集成数据源数据转换数据挖掘

模式结果表达和转换知识

数据

5/9/202323(一)数据准备数据集成:合并多文件或数据,解决模糊语义,弥补数据遗漏、清除脏数据。数据选择:目的是缩小处理范围,提高挖掘质量。数据预处理:清理和充实数据。数据转换:对数据编码,数据库中字段的不同取值转换成数码形式,利于搜索。(二)数据挖掘利用挖掘技术,从数据库中发现有用的模式或知识。(三)结果表达与解释分析提取的信息,找出最有价值的信息。对信息进行过滤处理。5/9/202324(二)CRISP-DM流程简介1、CRISP-DM是CRoss-IndustryStandardProcess-DataMining的缩写,由SPSS、NCR、Daimler-Benz在1996年制定,是数据挖掘的标准之一。2、CRISP-DM过程:5/9/202325

商业理解数据理解数据准备建立模型模型评估模型发布返回5/9/202326六、OLAP与DM的区别

OLAP是数据汇总/聚集工具,获得信息;数据挖掘进行更复杂的分析,发现知识。OLAP限于数值型数据;数据挖掘可以是多媒体数据。OLAP侧重于快速响应和提供多维视图;数据挖掘则注重发现隐藏的模式和信息。OLAP分析结果为数据挖掘提供依据;数据挖掘拓展OLAP分析的深度,发现OLAP所不能发现的更为复杂、细致的信息。

5/9/202327第二节关联规则(associationrules)

Old=>MotoV730Female&Young=>SiemensMinnie8008一、实例与问题实例1:关联规则让繁杂的数据指示重要信息.5/9/202328实例2:某商店出售数码商品:DellD820,SonyBX145,SonyFJ68C,HP1010,HP4300,CanonLBP5200,CanonEOS-20D,CanonIXUS700,SonyDSC-V3。记录如下:购买规律?5/9/202329商品间不存在关联规则

品牌间存在着关联规则5/9/202330实例3:购物篮里有什么?事务项T100I1,I2,I5,I3T200I2,I4,I1T300I2,I3,I5T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3顾客购物篮中各种商品之间的关系:如买牛奶,也购买面包的可能性有多大?买铁锤的顾客中有多少人同时也买铁钉?数学表达:设事务数据库中有9个事务,如右图。试按最小支持度2次、最小可信度70%的标准寻找关联规则。5/9/2023311.项集:项的集合称为项集。设I={Iı,I2,..,In}是一个项集,其中Ii(i=1,2,3,…,n)可以是购物篮中的一物品,或保险公司的顾客。K项集---包含K个项的项集被成为K项集。2.事务:事务是项的集合,设有事务T,则TI.对应每个事务有唯一的标识,如TID。又设A是I中项的集合,如果AT,则称A为事务T的子集。3.事务集:事务的集合称为事务集。设某事务集为D,则D={T1,T2,…,Tp},4.逻辑蕴涵:A

B,其中A,B是项集,AI,BI,A∩B=Ф。二、基本概念

5/9/202332设A,B是项集,对于事务集D,A∈D,B∈D,A∩B=Ф,则5.置信度(Confidence):

反映在出现项集A的事务集D中,项集B也同时出现的概率。例如买牛奶顾客中有80%也购买面包,则(牛奶面包)的置信度为80%。6.支持度(Support):

描述了A和B这两个项集在所有事务中同时出现的概率。例如某商场某天共有1000笔业务,其中有100笔业务同时买了牛奶和面包,则(牛奶面包)的支持度为10%。两种形式:相对数、绝对数。5/9/2023337.关联规则:同时满足最小支持度阈值和最小可信度阈值的逻辑蕴涵式:A

B8.寻找强关联规则的步骤(Apriori算法):(1)寻找事务数据库中所有的频繁项集支持度大于最小支持度的项集称为频繁项集。(2)在所有频繁集中寻找强关联规则a.用每一频繁集生成所有逻辑蕴涵式;b.计算每一逻辑蕴涵式的置信度,并判断是否超过阈值。5/9/20233410.关联规则的种类:(1)根据变量类型分为布尔型和数值型。布尔型考虑的是项集是否存在;而数值型则是量化的关系。例如:性别=“女”职业=“秘书”布尔型性别=“女”avg(收入)=2300数值型(2)根据数据的维数分为单维和多维。单维关联规则,只涉及到数据的一个维度,如用户购买的物品。多维关联规则涉及到多个维度。例如:啤酒尿布单维↘↙

(物品)性别=“女”职业=“秘书”多维

↘↙ (性别和职业)5/9/202335(3)根据是否允许同一维在规则的左右方同时出现,多维关联规则:维间关联规则(不允许)

混合维关联规则(允许)年龄(X,“20...30”)∧职业(X,“学生”)==>购买(X,“笔记本电脑”)。年龄、职业、购买,没有一个维是重复出现的,故是维间关联规则。年龄(X,“20...30”)∧购买(X,“笔记本电脑”)==>购买(X,“打印机”)。年龄、购买,且购买出现过两次,故是混合维关联规则。5/9/202336三、计算实例

P215四、软件实现

返回5/9/202337一、实例第三节决策树5/9/202338

购电脑贷款决策树age?30--40creditrating?noyesfairexcellent<=30>40nonoyesyesyes根:X根节点、属性枝属性值第二层节点枝属性值叶节点(目标变量)student?5/9/202339问题:某公司根据以往的销售经验,整理出了关于是否给予客户销售折扣的记录,如表所示。试根据这些记录,运用ID3算法:计算目标变量“是否给予折扣”的信息熵;通过计算确定在根节点上的分割变量;5/9/202340二、基本概念

决策树:通过一系列规则对数据进行分类的工具。特点:将数据的分类规则可视化。用途:提取分类规则,进行分类预测。例如,金融领域将贷款对象分为低贷款风险与高贷款风险。用决策树可判定申请者是属于哪一类。比如,某人月收入4000元,尽管申请“高贷款”,却被认为属于“低风险”人群。某人月收入<1000元,工作年限>5年,却属于"高风险"人群。5/9/202341基本思路:决策树构建算法output训练样本集决策树input5/9/202342决策树的六要素一个根结点,上有属性(分割变量)若干个枝节点,每一节点代表一个数据集。每节点下有若干条分枝。每个分枝代表分割变量的一个取值(属性值)。最终的节点叫叶节点,表示一个分类(目标变量的一个取值)。5/9/202343三、实施决策树的过程构造数据集市

数据预处理:离散化、概化建立相关属性集建立模型实施分类(ID3)提取分类规则评估

与修剪:去掉一些可能是噪音或者异常的数据使用模型进行分类5/9/202344四、ID3算法步骤构造数据集:根节点(X,Q)将所有记录X用所选变量进行划分。其中,变量都是离散型的(如是连续的,则离散化)根据启发式规则或某统计度量(如,informationgain)确定分割变量停止分割。有下列之一者:节点上所有记录同属一个类别(目标变量属性值相同)测试变量集Q为空5/9/202345五、统计度量:信息增益(ID3/C4.5)未分割时目标变量的信息熵设总体有单位数n个,某目标变量g的取值为(x1,x2…xm),对应的总体单位数为(n1,n2,……,nm),则g的信息熵:经变量A分割后的期望熵:A的信息增益:Gain(A)=I(g)-E(g/A)5/9/202346例:学生购买电脑决策树---第一层分割属性选择ClassP:buys_computer=“yes”。P=9ClassN:buys_computer=“no”。N=5I(p,n)=I(9,5)=0.940Computetheentropyforage:Similarly返回5/9/2023475/9/2023485/9/202349实例二5/9/202350第四节市场细分与聚类分析市场细分(MarketSegmentation),即根据消费者某些特征(变量),把整体市场细分为若干个子市场,使这些特征的取值在组内具有相似性,而在组间却有明显差异性。分组变量:依研究目的而异。如地理、人口统计学特征、行为特征、心理特征等。细分技术:统计分组(组数及组特征已知)

聚类分析(组数及组特征未知)一、市场细分的概念5/9/202351例子:已知客户的人口统计学特征、心理特征、行为特征。问题:为反映终身价值的大小,分成几类?各客户归于哪一个类?客户编号性别职业年龄购买次数业务延续月份数流失概率上期交易额101男经理287230.301000102男教师354250.45200103女白领327380.401020104女经理344300.35410二、什么是聚类分析5/9/202352聚类,就是根据距离将各样品或变量归入不同的组,使组内的差距尽量小而组间的差距尽量大的统计学方法。聚类方法:系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法。5/9/202353三、系统聚类的种类层次聚类Q型聚类:对样本分类,使具有共同特点的样本聚在一起,以便对不同类的样本进行分析。(测定距离:样本-样本,样本-小类,小类-小类)R型聚类:对变量分类,使具共同特征的变量聚在一起,以便从不同类中分别选出具代表性的变量进行分析。(测定距离:变量-变量)快速聚类特点:样本大;事先指定类别数;可以指定初始类的中心点;用“欧氏距离”。5/9/202354欧氏距离Euclidean:SquaredEuclideanDistance:四、点-点距离的定义距离。将一个样品看作P维空间的一个点,并在空间定义距离,距离小的两点归为一类,大的则归为两类。例如:行向量xi=(xi1,…,xip)与xj=(xj1,…,xjp)的两种距离5/9/202355五、类-类距离的定义类间平均链锁法between-groupslinkage

Dpq:类Gp与类Gq之间的距离

d(xi,x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论