客户关系管理与网络营销12_第1页
客户关系管理与网络营销12_第2页
客户关系管理与网络营销12_第3页
客户关系管理与网络营销12_第4页
客户关系管理与网络营销12_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、客户关系管理与网络营销之数据挖掘史玉良本章主要内容 数据挖掘概述数据挖掘相关技术数据挖掘在CRM中应用数据挖掘分析数据爆炸但知识贫乏 支持数据挖掘技术的基础 数据挖掘的产生 数据挖掘数据库越来越大有价值的知识可怕的数据数据爆炸但知识贫乏 更大,更便宜的存储器 - 磁盘密度以Moores law增长 - 存储器价格飞快下降更快,更便宜的信息处理器 - 分析更多的数据 - 适应更多复杂的模型 - 引起更多查询技术 - 激起更强的可视化技术 数据挖掘处理技术 - 数理统计 - 人工智能 - 机器学习支持数据挖掘技术的基础 机器学习 数据库中的知识发现 数据挖掘数据挖掘的演化SAS研究所(1997):

2、“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。数据挖掘的定义技术角度的含义商业角度的含义与传统方法的区别数据挖掘的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户

3、感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 数据挖掘技术上的定义按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 数据挖掘商业角度的定义数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越

4、是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 数据挖掘与传统分析方法的区别英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈的交易

5、,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务数据挖掘都干了些什么?通过数据挖掘您可以发现最有价值的客户使组合销售更有效率通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以用更小的成本发现欺诈现象通过数据挖掘您可以电信 :流失银行:聚类(细分), 交叉销售百货公司/超市:购物篮分析 (关联规则)保险:细分,交叉销售,流失(原因分析)信用卡: 欺诈探测,细分电子商务: 网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学: 医疗保健数据挖掘应用领域数据挖掘效益分析(直邮)

6、(Big Bank & Credit Card Company)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方

7、法。统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。 数据挖掘技术关联规则 R. Agrawal等人在1993年首先提出了在交易数据项目之间挖掘关联

8、规则的问题(Mining Association Rules)。对关联规则的挖掘发现大量数据所蕴含的项集之间有意义的关联或相关联系。关联规则定义项目:一个商品算一个项目,分别用I1, I2, I3, I4, , Ip 来表示所有商品组成项目全集I:I=I1,I2,I3,I4,Ip项集:A一个或多个项目组成的集合A、B是项集,A包含于I, B包含于I事务:T每个事务有一个唯一标识TID事务T是项的集合,T包含于I若A包含于T,则称该事务包含项集A事务数据库:D所有事务组成事务数据集D规则支持度(support): A和B均发生的比例;反映规则的可 靠程度。置信度(confidence) :A发生

9、的事务中,B发生的比 例;反映规则的把握程度。规则很多很多,全要吗?每两个商品,每两组商品的关系均可用这种规则表示出来当然没有必要把所有的规则都找出来,只要把我们感兴趣的规则找出来就可以了最小支持度,最小置信度是人为定义的,可能要多次尝试,规则太少时降低阈值,规则太多时提高阈值简单示例AC(50%,66.7%)CA(50%,100%)最小支持度:50%最小置信度:50%110A: 0422total1C:03Total2A:1C:1关联规则方法挖掘关联规则通常可分为两个步骤寻找事务数据库中所有的频繁集利用频繁集生成关联规则Apriori算法是一种经典的关联规则挖掘算法核心思想:采用迭代方法,利

10、用k项的频繁集搜索k+1项的频繁集。首先产生一个包含数据库的频繁集L1,然后是包含两个数据项的频繁集L2,如此下去,直到有某个r值使得产生的Lr为空,即再也找不到满足最小支持度的r个数据项的组合,这是算法停止。决策树 决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。决策树为您提供诸如

11、谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。决策树 决策树中最上面的节点称为根节点,是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有7%有响应。然后根据记录字段的不同取值建立树的分支, 如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有

12、45%可能会对直邮有响应。决策树的建立 决策树图 决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。决策树应用 聚类分析聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。簇(Cluster):一个数据对象的集合在同一个类中,对象之间具有相似性

13、;不同类的对象之间是相异的。聚类分析把一个给定的数据对象集合分成不同的簇;聚类是一种无监督分类法: 没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤;聚类分析市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区;保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅;地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;聚类分析应用一个好的聚类方法要能产生高质

14、量的聚类结果簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;聚类分析的评判神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。 人工神经网络在使用神经网络进行数据挖掘时有几点需要注意:第一,神经网络很难解释,目前还没有能对神经网络做出显而易见解释的方

15、法学。第二,神经网络会学习过度,在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法,如前面提到的测试集方法和交叉验证法等。这主要是由于神经网络太灵活、可变参数太多,如果给足够的时间,他几乎可以“记住”任何事情。第三,除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成。当然,一旦神经网络建立好了,在用它做预测时运行时还是很快的。第四,建立神经网络需要做的数据准备工作量很大。一个很有误导性的神话就是不管用什么数据神经网络都能很好的工作并做出准确的预测。这是不确切的,要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工作,对任何数据挖掘技术都是这样,神经网络尤其

16、注重这一点。比如神经网络要求所有的输入变量都必须是0-1(或-1 - +1)之间的实数,因此像“地区”之类文本数据必须先做必要的处理之后才能用作神经网络的输入。 人工神经网络遗传算法(Genetic Algorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、 变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 遗传

17、算法GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitness function)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。 遗传算法支持向量机(SVM)是一种建立在统计学习理论基础上的机器学习方法

18、。 通过学习算法,SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的推广性能和较高的分类准确率。SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。而且SVM一个重要的优点是可以处理线性不可分的情况。用SVM实现分类,首先要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。支持向量机贝叶斯网络是用来表示变量集合连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变

19、量间的依赖关系。在数据挖掘中具有以下优点:可以处理不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题;用图形的方法描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析。 贝叶斯预测贝叶斯网络定义是一个有向无环图(DAG)随机变量集组成网络节点,变量可离散或连续一个连接节点对的有向边或箭头集合每节点Xi都有一个条件概率分布表:P(Xi|Parents(Xi),量化其父节点对该节点的影响贝叶斯网络示例BurglaryEarthquakeMaryCallsJohnCallsAlarm B EP(A) t

20、t t f f t f f0.950.940.290.001 AP(J) t f0.900.05 AP(M) t f0.700.01P(B) 0.001P(E) 0.002贝叶斯网络试计算:报警器响了,但既没有盗贼闯入,也没有发生地震,同时John和Mary都给你打电话的概率。解: P(j,m,a,b,e) = P(j|a)P(m|a)P(a|b,e) P(b) P(e) = 0.90.70.0010.9990.998 = 0.00062 = 0.062%规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。规则

21、推导规则推导用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。可视化技术近邻算法,将数据集合中每一个记录进行分类的方法。统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的

22、分析可采用回归分析、相关分析、主成分分析等方法。模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。其他技术自动预测趋势和行为 关联分析对象分类 聚类分析概念描述 偏差检测 数据挖掘的功能数据挖掘功能预测数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。CRM中一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 数据挖掘功能关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个

23、或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买尿布,比重有多大,可以通过关联的支持度和可信度来描述。时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。数据挖掘功能分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的

24、贷款方案。数据挖掘功能聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。与分类不同,聚类是一种观察式、无指导的学习,在开始聚类之前往往不知道要分成几组。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。 数据挖掘功能概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象

25、中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 应用CRM中,销售经理可能不想考察每个客户的具体事务,愿意查看规约到比较高层的数据,如按照客户所属区域汇总。数据挖掘功能偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减

26、小以后经营的风险。 数据挖掘的流程 数据挖掘的流程确定业务对象数据准备数据挖掘结果分析和知识同化数据挖掘的流程-确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。 数据挖掘的流程-数据准备数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。数据的预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型。数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模

27、型是数据挖掘成功的关键。 数据挖掘的流程-数据挖掘对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。 数据挖掘的流程-分析和同化结果分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。 数据挖掘过程工作量 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。其中60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘

28、工作仅占总工作量的10%.数据挖掘需要的人员 数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类。业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 数据挖掘在CRM中的应用从客户生命周期角度分析数据挖掘技术的应用从行业角度分析数据挖掘技术的应用从客户生命周期角度分析在客户生命周期的过程中,各个不同的阶段包含了许多重要的事件。

29、数据挖掘技术可以应用于客户生命周期的各个阶段提高企业客户关系管理能力,包括争取新的客户,让已有的客户创造更多的利润、保持住有价值的客户等等。 从客户各生命周期角度分析潜在客户期数据挖掘应用潜在客户获得活动是针对目标市场的营销活动,寻找对企业产品或服务感兴趣的人。值得注意的是,在这个阶段缺乏客户数据。数据挖掘可以把以前的客户对类似活动的响应进行挖掘,从而把市场活动重点锁定在以前的响应者身上。一个更好的方法就是寻找和高价值的客户类似的潜在客户只要一次就获得正确的客户。通常,获得活动使用广告和其它市场宣传媒体。无论何种渠道,数据挖掘在发现最重要的客户特定市场中发挥重要作用,决定着市场活动的类型、广告

30、空间等一些宣传问题。 客户响应期数据挖掘应用潜在客户通过以下几种途径成为响应者:登陆企业网站;拨打免费电话;填写申请表等。把潜在客户改变成为确定的客户、能够被锁定和跟踪的客户。虽然响应者还没有购买任何产品或服务,但他们有很大的可能性成为购买者,并成为企业客户。数据挖掘通常被用来判定哪些潜在客户会变成响应者。预测模型也用来判定哪些响应者会成为企业即得客户。 既得客户应用(1)响应者购买企业产品的时候就变成了企业既得客户。这意味着他们已经进行了第一次的购买活动。在即得客户阶段包括许多活动。最重要的活动可以划分为三:刺激使用(使用展现了客户行为,当使用是企业收入的主要来源,刺激使用就成为企业的重要目

31、标。使用模式因不同的客户市场而有所不同);交叉销售(鼓励客户购买与第一次购买不同的产品或服务的市场营销活动); 升级销售(鼓励客户升级现有的产品和服务的市场营销活动)。既得客户应用(2)既得客户是数据挖掘的重要区域。客户使用活动提供了客户行为模式的最本质的东西。预测什么时候会发生客户活动,判定哪个客户可能对交叉销售和升级销售活动做出响应对企业来讲是极具价值的。但既得客户的行为经常被大量详细的交易信息所淹没。使用数据挖掘要求从其中抽出其特点。客户早期的购买和使用模式是对企业来讲是非常具有价值的,在一些行业,首次行为预示了未来的使用信息。这些客户可以是高消费者或低消费者,他们可能对一个或多个产品感

32、兴趣。这类行为通常在早期的购买行为中明显的表现出来。 客户流失期数据挖掘应用在一些情况下,客户停止购买企业产品。对此,有两种基本不同的流失原因,第一种是主动离开,指的是不再是客户的既得客户。了解主动离开出现的原因非常重要,以下是客户主动离开的一些基本原因:客户离开了企业服务的地区;客户的生活方式发生了变化,并不再需要企业的产品和服务;客户已经获得了竞争者提供的更好的产品或服务;客户不再认为使用企业产品有任何价值。第二种是非主动离开,既被动离开。指的是即得客户不再是一个好的客户,通常因为他们停止支付他们的帐单。区别主动离开和被动离开对企业来说是非常重要的。数据挖掘可以通过分析以前的客户数据得出什

33、么样的客户会在将来同样的离开。即使客户离开,也不是所有流失的客户就完全失去了。赢得客户活动的目标就是重新获得失去的客户。 从行业角度分析数据挖掘应用 中数据挖掘应用的深度和广度针对行业的不同而有所不同,特别是针对与客户交流频繁、客户支持要求高的行业,如银行、证券、保险、电信、税务、零售、旅游、航空、医疗保健等。零售业中数据挖掘的应用电信业中数据挖掘的应用金融业中数据挖掘的应用零售业中数据挖掘的应用零售业是数据挖掘的主要应用领域,特别是由于日益增长的Web或电子商务方式的兴起零售数据挖掘可有助于识别客户购买行为,发现客户购买模式和趋势,改进服务质量,取得更好的客户保持力和满意度,提高货品销量比率

34、,设计更好的货品运输与分销策略,减少商业成本。例如: 使用多特征数据立方体进行销售、客户、产品、时间和地区的多维分析; 使用多维分析和关联分析进行促销活动的有效性分析; 序列模式挖掘可用于客户忠诚分析; 利用关联分析挖掘关联信息进行购买推荐和商品参照。 电信业中的数据挖掘 电信业已经迅速地从单纯的提供市话服务演变为提供综合电信服务。电信网、因特网和各种其他方式的通信和计算的融合是目前的大势所趋。利用数据挖掘技术可帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量。例如: 电信数据的多维分析有助于识别和比较数据通信情况、系统负载、资源使用、用户组行为、利润等; 通过多维分

35、析、聚类分析和孤立点分析进行盗用模式分析和异常模式识别; 通过多维关联和序列模式分析进行电信服务组合和个性化服务; 电信数据分析中可视化工具的使用。 金融业中的数据挖掘大部分银行和金融机构除提供丰富多样的储蓄服务、信用服务、投资服务外,还提供保险服务和股票投资服务。在银行和金融机构中产生的金融数据通常相对比较完整、可靠,这大大方便了系统化的数据分析和数据挖掘。以下给出几种典型的应用情况: 为多维数据分析和数据挖掘设计和构造数据仓库; 特征选择和属性相关性计算有助于贷款偿还预测和客户信用政策分析; 分类和聚类的方法可用于客户群体的识别和目标市场的分析; 通过数据可视化、链接分析、分类、聚类分析、

36、孤立点分析、序列分析等分析工具帮助进行洗黑钱和其他金融犯罪的侦破。 DW&OLAPOLAP专门用于支持复杂的决策分析,是支持信息管理和业务管理人员决策活动的一种决策分析工具。OLAP可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给各种决策人员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。发展背景 60年代,关系数据库之父E.F.Cdd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Cdd提出了OLAP(联机分析处理)概念,认为OLTP已不能满足终端用户对数据库查

37、询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Cdd提出了多维数据库和多维分析的概念,即OLAP技术概念。 OLAP定义 OLAP委员会的定义:OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP指得是一类技术,而非特指某软件、或管理方法。 OLAP的目标:是满足决策支持或多维环境特定

38、的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP技术特点一是在线(On-Line),表现为对用户请求的快速响应和交互操作,它的实现是由客户机服务器体系结构完成的;二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。 OLAP的特性 快速性:用户对OLAP的快速反应能力有很高的要求,主要是指计算机的计算的反应速度,系统应能在5秒内对用户的大部分分析要求做出反应,但对业务数据的实时信息却很难反应。 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性:多维性是OLAP的关键属性。系统必须提供对数据的多

39、维视图和分析,包括对层次维和多重层次维的完全支持。信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。 OLAP相关基本概念 维:维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。 维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的一个取值成为该维的一个维成员。是数据项在某维中位置的描述。如果维已经分成了多层次的,则维成员就是不同维层次取值的组合。例如:某公司销售数

40、据在省、市、县,地理维有三个层次,则“山东省日照市五莲县”就构成地理维的一个维成员。维成员并不一定要在维的每一个层次上都取值,例如:山东省,山东省日照市,日照市五莲县都是地理维的维成员。 OLAP相关基本概念 多维数据集(数据立方体或超立方)。多维数据集是决策支持的支柱,也是OLAP的核心。它是维和变量的组合表示,是维的不同组合和所考察的度量指标构成的多维数组。多维数据集可以用一个多维数组表示。可形式化表示为(维1,维2,维n,度量指标),如(地区、时间、产品、销售额)。三维的数据集可以用图表示。 高于三维只能用数组表示。数据单元(单元格):多维数据集的取值称为数据单元。当在多维数据集的每个维

41、都选中一个维成员以后,这些维成员的组合就惟一确定了观察变量的值。数据单元也就可以表示为:(维1维成员,维2维成员,维3维成员,观察变量)。例如:在时间、销售地区、产品维度上分别取2002-10-12、上海、服装,则可以唯一确定观察变量的值10000,因此该数据单元应该为(2002-10-12,上海,服装,10000)。多维数据集的度量值(测量值)。多维数据集的度量值是基于多维数据集中事实表的一列或多列,数值型数字。多维数据集的度量值是OLAP分析的核心值,是用户在DW中需要查看的数据,一般是销售量、成本、费用等。 OLAP多维数据分析 多维分析是指对以多维形式组织起来的数据采取切片(Slice

42、)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。切片 (Slice)定义1:在多维数据集的某一维上选定某一维成员的动作称为切片。定义2:选定多维数据集的一个二维子集的动作叫做切片。例:多维数据集S(地区,时间,产品,销售渠道,销售额)。选定地区维与产品维,另外的维取一个维成员(如时间维取1999年,销售渠道维取批发),就可以得到多维数据集S在地区和产品维上的一个切片:(地区、产品、销售额)。此切片表示1999年各地区、各产品的批发销售情况。切片的结

43、果一定是一个二维的平面。切片的实质:1、切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上集中观察数据;2、一个切片最终是由除切片所在平面两个维之外的其他维的成员值确定的。切块(Dice)定义1、在多维数据集的某一维上选定某一区间的维成员的动作称为切块。定义2、选定多维数据集的一个三维子集的动作称为切块。切片和切块(Slice and Dice)钻取(Drill-up&Roll-up) 钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作, 钻取的深度与维所划分的层次相对应。使用户在DW的多层数据中能通过导航信息而获得更多的细节性数据。大多数

44、OLAP工具可让用户下钻到一个数据集中有更好细节描述的数据层,更完整的工具则可让用户随处钻探:上翻、交叉钻探(让用户从同一个层次的一个数据集横向地移到另一个数据集进行查看和分析) 。钻取(Drill)旋转(Rotate)/转轴(Pivot)旋转即改变一个报告或页面显示的维方向。通过旋转可以得到不同视角的数据。例如:旋转可能包含交换行和列,或是把某一个行维移到列维中去,或把页面显示中的一个维和页面外的维进行交换。旋转(Rotate)/转轴(Pivot)OLAP分类 ROLAPROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据

45、的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了星型模式。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模式。 ROLAP的星型模式MOLAPMOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成立方块(Cube)的结构,在MOLAP中对

46、立方块的旋转、切块、切片是产生多维数据报表的主要技术。 HOLAPHOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。 HOLAP 方法是结合ROLAP 和MOLAP产生的。它得益于ROLAP较大的可伸缩性和MOLAP的快速计算。例如,HOLAP允许将大量详细数据存放在关系数据库表中,而聚集数据保存在分离的MOLAP 存储中。这种方式具有更好的灵活性。OLTP、ROLAP与MOLAP模式 数据组织形式 OLAP体系结构 OLAP体系结构 OLAP体系结构 OLAP评价准则 1993年,E.F.Codd 在“Providing OLAP to User Analysts”一文中,提出了关于OLAP的12条标准,用来评价分析处理工具。其目的是加深对OLAP的理解,事实上,这些标准已成为OLAP工具所应该具有关键特性的最小描述,对于在数据仓库设计,使用OLAP的用户来说,了解这些标准是必不可少的。Codd提出了关系数据库12条准则,分布式数据库12条准则,这是他的第三个12条准则。如今,OLAP 的概念已经在商业数据库领域得以广泛使用,OLAP 的特征也得到了验证和确认,从实践来看,COOD 提出的12条准则可以作为评价和购买OLAP 产品的标准。OLAP评价准则 (1)、多维性 由于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论