版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第6章 CRM与数据挖掘 1章节课件 第6章 CRM与数据挖掘 6.1 数据挖掘概述 6.1.1 数据挖掘的产生 6.1.2 数据挖掘的定义 6.1.3 数据挖掘的技术 6.1.4 数据挖掘的功能 6.1.5 数据挖掘的流程 6.1.6 数据挖掘的发展方向 6.2 CRM中数据挖掘应用 6.2.1 从客户生命周期角度数据挖掘技术的应用 6.2.2 从行业角度分析数据挖掘技术的应用 6.3 CRM数据挖掘应用实例 2章节课件 数据挖掘概述 6.1.1 数据挖掘的产生 6.1.2 数据挖掘的定义 6.1.3 数据挖掘的技术 6.1.4 数据挖掘的功能 6.1.5 数据挖掘的流程 6.1.6 数据挖
2、掘的发展方向 3章节课件 6.1.1 数据挖掘的产生 数据爆炸但知识贫乏 支持数据挖掘技术的基础 4章节课件 数据挖掘数据挖掘 数据库越来越大数据库越来越大 有价值的知识有价值的知识 可怕的数据可怕的数据 数据爆炸但知识贫乏 5章节课件 数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据数据 n模式模式 n趋势趋势 n事实事实 n关系关系 n模型模型 n关联规则关联规则 n序列序列 n目标市场目标市场 n资金分配资金分配 n贸易选择贸易选择 n在哪儿做广告在哪儿做广告 n销售的地理位置销售的地理位置 n金融金融 n经济经济 n政府政府 nPOS. n人口
3、统计人口统计 n生命周期生命周期 数据爆炸但知识贫乏 6章节课件 更大,更便宜的存储器 - 磁盘密度以Moores law增长 - 存储器价格飞快 下降更快,更便宜的信息处理器 - 分析更多的数据 - 适应更多复杂的模型 - 引起更多查询技术 - 激起更强的可视化技术 数据挖掘处理技术 - 数理统计 - 人工智能 - 机器学习 支持数据挖掘技术的基础 7章节课件 数据挖掘的演化 机器学习 数据库中的知识发现 数据挖掘 8章节课件 6.1.2 数据挖掘的定义 SAS研究所(1997):“在大量相关数据基础之 上进行数据探索和建立相关模型的先进方法”。 Bhavani(1999):“使用模式识别技
4、术、统计 和数学技术,在大量的数据中发现有意义的新 关系、模式和趋势的过程”。 Hand et al(2000):“数据挖掘就是在大型数 据库中寻找有意义、有价值信息的过程”。 9章节课件 数据挖掘的定义 技术角度的含义 商业角度的含义 与传统方法的区别 10章节课件 数据挖掘的技术上的定义 数据挖掘(Data Mining)就是从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义(1)数据源必须是真 实的、大量的、含噪声的;(2)发现的是用户 感兴趣的知识;(3)发现的知识要可接受、可
5、 理解、可运用;(4)并不要求发现放之四海皆 准的知识,仅支持特定的发现问题。 11章节课件 数据挖掘的商业角度的定义 按企业既定业务目标,对大量的企业数据进行 探索和分析,揭示隐藏的、未知的或验证已知 的规律性,并进一步将其模型化的先进有效的 方法。 12章节课件 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析(如查询、报表、联 机应用分析)的本质区别是数据挖掘是在没有明 确假设的前提下去挖掘信息、发现知识.。数据 挖掘所得到的信息应具有先未知,有效和可实用 三个特征. 先前未知的信息是指该信息是预先未曾预料到的, 既数据挖掘是要发现那些不能靠直觉发现的信息 或知识,甚至是违背直觉的
6、信息或知识,挖掘出 的信息越是出乎意料,就可能越有价值。在商业 应用中最典型的例子就是一家连锁店通过数据挖 掘发现了小孩尿布和啤酒之间有着惊人的联系 13章节课件 6.1.3 数据挖掘技术 数据挖掘的方法很多,大致可分为:统计方法、机器 学习方法、神经网络方法和数据库方法。其中,统计 方法可细分为:回归分析(多元回归、自回归等)、 判别分析(贝叶斯判别、费歇尔判别、非参数判别 等)、聚类分析(系统聚类、动态聚类等)、探索性 分析(主元分析法、相关分析法等)、以及模糊集、 粗糙集、支持向量机等。机器学习中,可细分为:归 纳学习方法(决策树、规则归纳等)、基于范例的推 理CBR、遗传算法、贝叶斯信
7、念网络等。神经网络方 法,可细分为:前向神经网络(BP算法等)、自组织 神经网络(自组织特征映射、竞争学习等)等。数据 库方法主要是基于可视化的多维数据分析或OLAP方法, 另外还有面向属性的归纳方法。 14章节课件 决策树 决策树把数据归入可能对一个目标变量 有不同效果的规则组。例如,我们希望 发现可能会对直邮有反应的个人特点。 这些特点可以解释为一组规则。 15章节课件 决策树 假设您是一个销售一种新的银行服务的直邮计 划研究的负责人。为最大程度地获益,您希望 确定基于前次促销活动的家庭细分最有可能响 应相似的促销活动。通常这可以通过查找最能 把响应前次促销的家庭和没有响应的家庭区分 开的
8、人口统计信息变量的组合来实现。 决策树为您提供诸如谁会最好地响应新的促销 等重要线索,并通过只邮寄给最有可能响应的 人来最大程度地获得直邮效益,提高整体响应 率,并极有希望同时增加销售。 16章节课件 决策树建立 决策树中最上面的节点称为根节点,是整个决策树的 开始。本例把响应客户作为根节点。可以看到所有收 到直邮信件的人中有7%有响应。 然后根据记录字段的不同取值建立树的分支, 如分为 有住房和无住房两组,则15%的租户有响应,而房主则 只有5%。 还可以在每个分支子集中重复建立下层结点和分支。 我们可以继续分组来发现最有可能响应的组群。这一 组群可以表示为一个规则,如“如果收件人是租户,
9、有较高的家庭收入,没有储蓄存款账户,那么他有45% 的响应概率”。简单地说,有这些特点的组群中有45% 可能会对直邮有响应。 17章节课件 决策树图 18章节课件 决策树应用 决策树也是分析消耗(流线性生产)、发 现交叉销售机会、进行促销、信用风险 或破产分析和发觉欺诈行为的得力工具。 19章节课件 聚类分析 聚类如同通常所说的“物以类聚”,是把一组 个体按照相似性归成若干类别。 它的目的是使属于同一类别的个体之间的距离 尽可能的小,而不同类别上的个体间的距离尽 可能的大。它反映同类事物共同性质的特征型 知识和不同事物之间的差异性质的特征型知识。 通过聚类,数据库中的记录可被划分为一系列 有意
10、义的子集。聚类增强了人们对客观现实的 认识,是进行概念描述和偏差分析的先决条件。 20章节课件 聚类分析 簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性; 不同类的对象之间是相异的。 聚类分析 把一个给定的数据对象集合分成不同的簇; 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤; 21章节课件 聚类分析应用 市场销售: 帮助市场人员发现客户中的不同群体,然后用这 些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似 的地区; 保险:
11、对购买了汽车保险的客户,标识那些有较高平均赔偿 成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的 住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成 不同的类; 22章节课件 聚类分析的评判 一个好的聚类方法要能产生高质量的聚类结果 簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性 评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还 是所有的隐含模式; 23章节课件 人工神经网络 神经网络近来越来越受到人们的关注, 因为它为解决大复杂度问题提供了一种 相对来说比较有效的简单方法。神
12、经网 络可以很容易的解决具有上百个参数的 问题(当然实际生物体中存在的神经网 络要比我们这里所说的程序模拟的神经 网络要复杂的多)。神经网络常用于两 类问题:分类和回归。 24章节课件 遗传算法 遗传算法(Genetic Algorithms)是J.H.Holland根 据生物进化的模型提出的一种优化算法。虽然 GA刚提出时没有受到重视,但近年来,人们 把它应用于学习、优化、自适应等问题中。模 拟生物进化过程的算法,由繁殖(选择)、交叉 (重组)、 变异(突变)三个基本算子组成。遗传 算法已在优化计算、分类、机器学习等方面发 挥了显著作用。遗传算法是基于进化理论,并 采用遗传结合、遗传变异、以
13、及自然选择等设 计方法的优化技术。 25章节课件 遗传算法 GA的算法首先在解空间中取一群点,作为遗传开始的 第一代。每个点(基因)用一二进制的数字串表示, 其优劣程度用一目标函数(Fitness function)来衡量。 在向下一代的遗传演变中,首先把前一代中的每个数 字串根据由其目标函数值决定的概率分配到配对池中。 好的数字串以高的概率被复制下来,劣的数字串被淘 汰掉。然后将配对池中的数字任意配对,并对每一数 字串进行交叉操作,产生新的子孙(数字串)。最后 对新的数字串的某一位进行变异。这样就产生了新的 一代。按照同样的方法,经过数代的遗传演变后,在 最后一代中得到全局最优解或近似最优解
14、。 26章节课件 支持向量机 支持向量机(SVM)是一种建立在统计学习理论基础 上的机器学习方法。 通过学习算法,SVM可以自动寻 找那些对分类有较好区分能力的支持向量,由此构造 出的分类器可以最大化类与类的间隔,因而有较好的 推广性能和较高的分类准确率。SVM主要思想是针对 两类分类问题,在高维空间中寻找一个超平面作为两 类的分割,以保证最小的分类错误率。而且SVM一个 重要的优点是可以处理线性不可分的情况。用SVM实 现分类,首先要从原始空间中抽取特征,将原始空间 中的样本映射为高维特征空间中的一个向量,以解决 原始空间中线性不可分的问题。 27章节课件 贝叶斯预测 贝叶斯网络是用来表示变
15、量集合连接概率的图 形模式,它提供了一种自然的表示因果信息的 方法,用来发现数据间的潜在关系。在这个网 络中,用节点表示变量,有向边表示变量间的 依赖关系。在数据挖掘中具有以下优点:可以 处理不完整和带有噪声的数据集。它用概率测 度的权重来描述数据间的相关性,从而解决了 数据间的不一致性,甚至是相互独立的问题; 用图形的方法描述数据间的相互关系,语义清 晰、可理解性强,这有助于利用数据间的因果 关系进行预测分析。 28章节课件 规则推导 规则推导,从统计意义上对数据中的 “如果-那么”规则进行寻找和推导,得 到关联规则。 关联规则挖掘发现大量数据中项集之间 有趣的关联或相关联系。 29章节课件
16、 规则推导 30章节课件 可视化技术 用图表等方式把数据特征用直观地表述出来, 如直方图等,这其中运用的许多描述统计的方 法。可视化技术面对的一个难题是高维数据的 可视化。 信息可视化和数据挖掘是两个可互为补充利用 的相关研究领域。当信息可视化作为数据挖掘 的技术之一时,同其它技术相比,它有一个独 特之处:能极大地发挥用户的主动参预性。由 于对数据进行了可视化,用户愿意进行探索 (Explore),在探索过程中有可能发现意外 的知识。 31章节课件 其他技术 近邻算法,将数据集合中每一个记录进行分类 的方法。 统计分析方法,在数据库字段项之间存在两种 关系:函数关系(能用函数公式表示的确定性关
17、 系)和相关关系(不能用函数公式表示,但仍是 相关确定性关系),对它们的分析可采用回归 分析、相关分析、主成分分析等方法。 模糊论方法,利用模糊集合理论,对实际问题 进行模糊判断、模糊决策、模糊模式识别、模 糊簇聚分析。 32章节课件 6.1.4 数据挖掘的功能 自动预测趋势和行为 关联分析 对象分类 聚类分析 概念描述 偏差检测 33章节课件 数据挖掘功能预测 数据挖掘自动在大型数据库中寻找预测 性信息,以往需要进行大量手工分析的 问题如今可以迅速直接由数据本身得出 结论。一个典型的例子是市场预测问题, 数据挖掘使用过去有关促销的数据来寻 找未来投资中回报最大的用户,其它可 预测的问题包括预
18、报破产以及认定对指 定事件最可能作出反应的群体。 34章节课件 数据挖掘功能关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。 关联可分为简单关联、时序关联、因果关联。 关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数 据库中数据的关联函数,即使知道也是不确定的,因此关联分析 生成的规则带有可信度。 关联是某种事物发生时其他事物会发生的这样一种联系。例如: 每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关 联的支持度和可信度来描述。 时序关联是一种纵向的联系。例如:今天银行调整利率,明天股 市的变化。 35章节课
19、件 数据挖掘功能分类 按照分析对象的属性、特征,建立不同 的组类来描述事物。例如:银行部门根 据以前的数据将客户分成了不同的类别, 现在就可以根据这些来区分新申请贷款 的客户,以采取相应的贷款方案。 36章节课件 数据挖掘功能聚类 数据库中的记录可被化分为一系列有意 义的子集,即聚类。聚类增强了人们对 客观现实的认识,是概念描述和偏差分 析的先决条件。聚类技术主要包括传统 的模式识别方法和数学分类学。聚类技 术在划分对象时不仅考虑对象之间的距 离,还要求划分出的类具有某种内涵描 述,从而避免了传统技术的某些片面性。 37章节课件 数据挖掘功能概念描述 概念描述就是对某类对象的内涵进行描 述,并
20、概括这类对象的有关特征。概念 描述分为特征性描述和区别性描述,前 者描述某类对象的共同特征,后者描述 不同类对象之间的区别。生成一个类的 特征性描述只涉及该类对象中所有对象 的共性。生成区别性描述的方法很多, 如决策树方法、遗传算法等。 38章节课件 数据挖掘功能偏差检测 数据库中的数据常有一些异常记录,从数据库 中检测这些偏差很有意义。偏差包括很多潜在 的知识,如分类中的反常实例、不满足规则的 特例、观测结果与模型预测值的偏差、量值随 时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之间有意义的差别。 偏差检测对分析对象的少数的、极端的特例的 描述,揭示内在的原因。例如:在银行的1
21、00 万笔交易中有500例的欺诈行为,银行为了稳 健经营,就要发现这500例的内在因素,减小 以后经营的风险。 39章节课件 6.1.5 数据挖掘的流程 40章节课件 数据挖掘的流程 确定业务对象 数据准备 数据挖掘 结果分析和知识同化 41章节课件 数据挖掘的流程-确定业务对象 清晰地定义出业务问题,认清数据挖掘 的目的是数据挖掘的重要一步。挖掘的 最后结构是不可预测的,但要探索的问 题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的。 42章节课件 数据挖掘的流程-数据准备 数据的选择:搜索所有与业务对象有关的内部 和外部数据信息,并从中选择出适用于数据挖 掘应用的数据。
22、数据的预处理:研究数据的质量,为进一步的 分析作准备.并确定将要进行的挖掘操作的类 型。 数据的转换:将数据转换成一个分析模型.这个 分析模型是针对挖掘算法建立的.建立一个真正 适合挖掘算法的分析模型是数据挖掘成功的关 键。 43章节课件 数据挖掘的流程-数据挖掘 对所得到的经过转换的数据进行挖掘.除 了完善从选择合适的挖掘算法外,其余 一切工作都能自动地完成。 44章节课件 数据挖掘的流程-分析和同化 结果分析:解释并评估结果,其使用的 分析方法一般应作数据挖掘操作而定, 通常会用到可视化技术。 知识的同化:将分析所得到的知识集成 到业务信息系统的组织结构中去。 45章节课件 数据挖掘过程工
23、作量 在数据挖掘中被研究的业务对象是整个 过程的基础,它驱动了整个数据挖掘过 程,也是检验最后结果和指引分析人员 完成数据挖掘的依据。数据挖掘的过程 并不是自动的,绝大多数的工作需要人 工完成。其中60%的时间用在数据准备上, 这说明了数据挖掘对数据的严格要求, 而后挖掘工作仅占总工作量的10%. 46章节课件 数据挖掘过程工作量 47章节课件 数据挖掘需要的人员 数据挖掘过程的分步实现,不同的步会需要是有 不同专长的人员,他们大体可以分为三类。 业务分析人员:要求精通业务,能够解释业务对 象,并根据各业务对象确定出用于数据定义和挖 掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计
24、学 有较熟练的掌握,有能力把业务需求转化为数据 挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库 或数据仓库中收集数据。 48章节课件 6.5.6 数据挖掘未来研究方向 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言, 也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理 解,也便于在知识发现的过程中进行人机交互; 研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网 上建立DMKD服务器,并且与数据库服务器配合,实现WebMining; 加强对各种非结构化数据的开采(Dat
25、aMiningforAudioVideo),如 对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数 据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂, 或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和 更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独 特数据所做的费时和复杂数据准备的一些工具和软件。 交互式发现和知识的维护更新。 49章节课件 OLAM 联机分析挖掘,又称为OLAP Mining。它 是联机分析处理技术与数据挖掘技术在 数据库或数据仓库应用中的结合,是联 机分析处理技术的新发展,也是近年来 数据库领域的研究重点和热点。
26、50章节课件 OLAM产生的原因 OLAP与DM虽同为数据库或数据仓库的 分析工具,但两者侧重点不同。同时, 随着OLAP与DM技术的应用和发展,数 据库领域在OLAP基础上对深层次分析的 需求与人工智能领域中数据挖掘技术的 融合最终促成了联机分析挖掘技术。 51章节课件 OLAM产生的原因 一方面,分析工具OLAP功能虽强大,能为客户端应用程序 提供完善的查询和分析,但它也存在以下不足: 1)OLAP是一种验证型分析工具,是由用户驱动的。即在 某个假设的前提下通过数据查询和分析来验证或否定这个假 设,这很大程度上受到用户假设能力的限制。 2)OLAP分析事先需要对用户的需求有全面而深人的了解
27、, 然而用户的需求并不是确定的,难以把握。所以OLAP分析 常常采用试凑法在大型数据库或仓库中搜索,不仅花时间, 而且可能产生一些无用的结果。 3)即使搜索到了有用的信息,由于缺乏应有的维度,从不 同的视图得到的结果可能并不相同,容易产生误导。 52章节课件 OLAM产生的原因 另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示 有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本 身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务 模型以辅助决策。但它也存在一些缺点: 1) DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘 任务。但对于用户来讲,很
28、多时候预先是不知道想挖掘什么样的知识的。 2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘 任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导 致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成 很多无用信息。 3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用 户也可能不清楚。 53章节课件 OLAM产生 两种技术各存在不足,但同时也可以相辅相成。 如果将OLAP同DM配合集成,一方面OLAP的 分析结果给DM提供挖掘的依据,引导DM的进 行;另一方面,在数据挖掘的结果中进行OLAP 分析,则OLAP分析的深度就可拓展。这样用 户就可以灵活选
29、择所需的数据挖掘功能,并动 态交换挖掘任务,在数据仓库的基础上提供更 有效的决策支持。鉴于OLAP与DM技术在决策 分析中的这种互补性,促成了OLAM技术的形 成。 54章节课件 OLAM产生 联机分析挖掘概念正式提出是在1997年, 由加拿大Simon Fraser大学教授Jiawei Han 等在数据立方体的基础上提出多维数据 挖掘的概念,称为OLAP mining。这实际 上是在OLAP系统的基础上,把数据分析 算法、数据挖掘算法引人进来,解决多 维数据环境的数据挖掘问题。 55章节课件 OLAM体系结构 56章节课件 OLAM体系结构 OLAM的挖掘分析处理是建立在数据仓库系统 的数据
30、立方体基础上的。数据立方体的组织模 型、计算和操作对与系统的执行效率和响应速 度起着至关重要的作用。OLAM集成了传统的 OLAP和数据挖掘技术,为用户的在线分析挖 掘操作提供接口。OLAM引擎通过用户图形接 口接收用户的分析请求指令和数据,在元数据 的指导下,对数据立方体进行相应的操作,包 括集合运算(如求和、求平均)和导向运算(如选 择、旋转、上钻与下钻)等,然后将挖掘分析的 结果以可视化的形式展现给用户,整个分析挖 掘过程是动态进行的。 57章节课件 OLAM的系统特征 OLAM系统的主要目的就是实现OLAP与数 据挖掘的功能互补,提高数据分析挖掘的性能。 建立在庞大复杂的数据仓库基础上
31、的OLAM在 实现过程中面临最大的挑战是数据分析挖掘执 行的效率的提高和对用户请求的快速准确响应。 目前专门的OLAM产品还没有正式出现,但根 据OLAM系统的设计目的和用户要求,OLAM 应具有其自己的系统及功能特征。 58章节课件 OLAM的系统特征(1) 多维分析和数据挖掘无缝集成,即多维 分析与数据挖掘的完美结合需要理论基 础,需要一套系统构建方法。比如借助 于OLAP对数据立方体进行切片、切块、 旋转、向下钻取、向上汇总等操作的支 持,应能方便地对任何一部分数据和不 同抽象级别地数据进行挖掘。 59章节课件 OLAM的系统特征(2) 具有较高的执行效率和较快的响应速度。 OLAM系统
32、快速响应能力的获得是一个 十分有挑战性的问题,可以认为是 OLAM技术中最困难的问题之一。往往 数据挖掘算法复杂且耗时,这时要求协 调执行效率和挖掘精度两者的关系。 60章节课件 OLAM的系统特征(3) 支持迭代分析过程,即系统应提供“回 溯”能力,以便随时标记分析过程中的 时空状态点,并在分析过程中随时回到 这一点,有利于分析的灵活进行,防止 在进行由浅人深的分析过程中用户“迷 失方向”。 61章节课件 OLAM的系统特征(4) 支持复杂信息建模,即要求OLAM系统 支持多种异构DBMS中多种数据类型的 融合,全面处理企业内的各种决策支持 应用。一方面,决策分析的数据对象来 自于不同开发环
33、境和目的的分立应用系 统,数据的管理方法和数据结构也可能 不同,这就要求OLAM在数据方面有很 强的包容性;另一方面,不同的数据挖掘 方法要求不同的数据结构支撑。 62章节课件 OLAM的系统特征(5) 良好的可扩展性。要求OLAM系统支持 多种挖掘算法的模块的添加、多种工作 对象的建构、多种数据源的集成、多种 前端工具的利用等扩展功能。用户能根 据实际问题的不同,选用不同的挖掘算 法。此外,OLAM因该具有支持这些扩 展的通用接口,以便与其它工具和算法 衔接,或者嵌人用户自己的算法。 63章节课件 OLAM的系统特征(6) 灵活友好的人机交互能力。OLAM中的 决策分析过程是要在人的指导下进
34、行的, 人作为系统的有机组成部分和系统应用 密不可分。人利用自己掌握的领域知识 在OLAM系统的辅助下完成领域内问题 的求解,在这个过程中人与计算机分别 承担各自最擅长的工作,达到资源的合 理配置。 64章节课件 OLAM的系统特征(7) 支持复杂事务模型及多任务优化和调度。 OLAM事务是有“内部结构”的数据库 操作集合,是一个有层次的复杂网络结 构,传统的无内部结构、彼此孤立的、 最小原子特性的事务模型只是这种模型 的特例。OLAM事务之间具有广泛的联 系,考虑在对事务分解的基础上,充分 利用不同事务中的公共子事务来优化事 务的调度。 65章节课件 OLAM的分析操作 从OLAM的定义来看
35、,它是建立在多维 数据视图基础之上的。因此,对于 OLAM的操作应是超立方体计算与传统 挖掘算法的结合。这里所说的立方体计 算方法一般指切片、切块、上卷、下钻、 旋转等操作;而挖掘算法则是指关联规则、 分类、聚类等挖掘算法。根据立方体计 算和数据挖掘所进行的次序的不同组合 可以有不同的模式。 66章节课件 OLAM的分析操作 先进行立方体计算、后进行数据挖掘。在进行数据挖 掘以前,先对多维数据进行二定的立方体计算,以选 择合适的数据范围和恰当的抽象级别。 先对多维数据作数据挖掘,然后再利用立方体计算算 法对挖掘出来的结果做进一步的深人分析。 立方体计算与数据挖掘同时进行。在挖掘的过程中, 可以
36、根据需要对数据视图做相应的多维操作。这也意 味着同一个挖掘算法可以应用于多维数据视图的不同 部分。 回溯操作。OLAM的标签和回溯特性,允许用户回溯 一步或几步,或回溯至标志处,然后沿着另外的途径 进行挖掘,这样用户在挖掘分析中可以交互式的进行 立方体计算和数据挖掘。67章节课件 OLAM技术的发展趋势 OLAM技术实现了OLAP和DM技术的互补,它的发展趋势是两者 更加可靠的集成、融合,有自己合理优化的结构体系和一套完备 的技术理论基础,从整体上为决策分析提供完美支持。 OLAM技术是一门交叉学科,涉及机器学习、模式识别、统计学、 智能数据库、人工智能、高性能计算、数据可视化、专家系统等 综
37、合技术。这些相关学科的发展,无疑也将会推动OLAM技术的 发展。特别是,近年来随着数据库技术的发展,出现了不同数据 类型的高级数据库,如面向对象数据库、对象关系型数据库、空 间数据库、超文本数据库、多媒体数据库、时序数据库等。因此, 未来的OLAM技术应用应基于这些高级数据库展开。 随着互联网技术的发展,全球信息的共享,基于Web的联机分析 挖掘(Web0LAM),也将成为OLAM技术发展的一个新方向。 68章节课件 6.2 数据挖掘在CRM中的应用 从客户生命周期角度分析数据挖 掘技术的应用 从行业角度分析数据挖掘技术的 应用 69章节课件 从客户生命周期角度分析 在客户生命周期的过程中,各
38、个不同的 阶段包含了许多重要的事件。数据挖掘 技术可以应用于客户生命周期的各个阶 段提高企业客户关系管理能力,包括争 取新的客户,让已有的客户创造更多的 利润、保持住有价值的客户等等。 70章节课件 从客户各生命周期角度分析 71章节课件 潜在客户期市场活动及数据挖掘应用 潜在客户获得活动是针对目标市场的营销活动,寻 找对企业产品或服务感兴趣的人。值得注意的是, 在这个阶段缺乏客户数据。 数据挖掘可以把以前的客户对类似活动的响应进行 挖掘,从而把市场活动重点锁定在以前的响应者身 上。 一个更好的方法就是寻找和高价值的客户类似的潜 在客户只要一次就获得正确的客户。通常,获 得活动使用广告和其它市
39、场宣传媒体。无论何种渠 道,数据挖掘在发现最重要的客户特定市场中发挥 重要作用,决定着市场活动的类型、广告空间等一 些宣传问题。 72章节课件 客户响应期市场活动及数据挖掘应用 潜在客户通过以下几种途径成为响应者:登 陆企业网站;拨打免费电话;填写申请表等。 把潜在客户改变成为确定的客户、能够被锁 定和跟踪的客户。虽然响应者还没有购买任 何产品或服务,但他们有很大的可能性成为 购买者,并成为企业客户。 数据挖掘通常被用来判定哪些潜在客户会变 成响应者。预测模型也用来判定哪些响应者 会成为企业即得客户。 73章节课件 即得客户市场活动及数据挖应用(1) 响应者购买企业产品的时候就变成了企业即得客
40、户。 这意味着他们已经进行了第一次的购买活动。在即 得客户阶段包括许多活动。 最重要的活动可以划分为三:刺激使用(使用展现 了客户行为,当使用是企业收入的主要来源,刺激 使用就成为企业的重要目标。使用模式因不同的客 户市场而有所不同);交叉销售(鼓励客户购买与 第一次购买不同的产品或服务的市场营销活动); 升级销售(鼓励客户升级现有的产品和服务的市场 营销活动)。 74章节课件 即得客户市场活动及应用(2) 即得客户是数据挖掘的重要区域。客户使用活动提 供了客户行为模式的最本质的东西。预测什么时候 会发生客户活动,判定哪个客户可能对交叉销售和 升级销售活动做出响应对企业来讲是极具价值的。 但既
41、得客户的行为经常被大量详细的交易信息所淹 没。使用数据挖掘要求从其中抽出其特点。客户早 期的购买和使用模式是对企业来讲是非常具有价值 的,在一些行业,首次行为预示了未来的使用信息。 这些客户可以是高消费者或低消费者,他们可能对 一个或多个产品感兴趣。这类行为通常在早期的购 买行为中明显的表现出来。 75章节课件 客户流失期市场活动及数据挖掘应用 在一些情况下,客户停止购买企业产品。对此,有 两种基本不同的流失原因,第一种是主动离开,指的是不再 是客户的既得客户。了解主动离开出现的原因非常重要,以 下是客户主动离开的一些基本原因:客户离开了企业服务的 地区;客户的生活方式发生了变化,并不再需要企
42、业的产品 和服务;客户已经获得了竞争者提供的更好的产品或服务; 客户不再认为使用企业产品有任何价值。 第二种是非主动离开,既被动离开。指的是即得客户不再是 一个好的客户,通常因为他们停止支付他们的帐单。区别主 动离开和被动离开对企业来说是非常重要的。数据挖掘可以 通过分析以前的客户数据得出什么样的客户会在将来同样的 离开。即使客户离开,也不是所有流失的客户就完全失去了。 赢得客户活动的目标就是重新获得失去的客户。 76章节课件 从行业角度分析数据挖掘技术的应用 中数据挖掘应用的深度和广度针对行业的不 同而有所不同,特别是针对与客户交流频繁、客户 支持要求高的行业,如银行、证券、保险、电信、 税
43、务、零售、旅游、航空、医疗保健等。 零售业中数据挖掘的应用 电信业中数据挖掘的应用 金融业中数据挖掘的应用 77章节课件 零售业中数据挖掘的应用 零售业是数据挖掘的主要应用领域,特别是 由于日益增长的Web或电子商务方式的兴起零售数据 挖掘可有助于识别客户购买行为,发现客户购买模 式和趋势,改进服务质量,取得更好的客户保持力 和满意度,提高货品销量比率,设计更好的货品运 输与分销策略,减少商业成本。例如: 使用多特 征数据立方体进行销售、客户、产品、时间和地区 的多维分析; 使用多维分析和关联分析进行促销 活动的有效性分析; 序列模式挖掘可用于客户忠 诚分析; 利用关联分析挖掘关联信息进行购买
44、推 荐和商品参照。 78章节课件 电信业中的数据挖掘 电信业已经迅速地从单纯的提供市话服务演变为提 供综合电信服务。电信网、因特网和各种其他方式 的通信和计算的融合是目前的大势所趋。利用数据 挖掘技术可帮助理解商业行为、确定电信模式、捕 捉盗用行为、更好的利用资源和提高服务质量。例 如: 电信数据的多维分析有助于识别和比较数据 通信情况、系统负载、资源使用、用户组行为、利 润等; 通过多维分析、聚类分析和孤立点分析进 行盗用模式分析和异常模式识别; 通过多维关联 和序列模式分析进行电信服务组合和个性化服务; 电信数据分析中可视化工具的使用。 79章节课件 金融业中的数据挖掘 大部分银行和金融机构除提供丰富多样的储蓄服务、信用服 务、投资服务外,还提供保险服务和股票投资服务。在银行 和金融机构中产生的金融数据通常相对比较完整、可靠,这 大大方便了系统化的数据分析和数据挖掘。以下给出几种典 型的应用情况: 为多维数据分析和数据挖掘设计和构造数 据仓库; 特征选择和属性相关性计算有助于贷款偿还预测 和客户信用政策分析; 分类和聚类的方法可用于客户群体 的识别和目标市场的分析6; 通过数据可视化、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《曾子杀猪》课件-2024年教学新选择
- 2024年企业竞争策略:SWOT分析法的实践探索
- 2024年白公鹅养殖业发展论坛:机遇与挑战并存
- 2024年畜牧业经营管理教案:实践与启示
- 面向2024年的教育革新:《铁杵成针》教学课件探索
- 《寓言四则》课件的突破
- 2024年物业管理新视野:保利物业培训手册深度分析
- 2024年5S培训:打造高效办公室
- 2024年Flash培训课件:促进跨学科交流与合作
- PFC2D技术培训课件:2024年电力电子领域高级教程
- 母版_安徽省中小学生转学申请表
- YY∕T 0106-2021 医用诊断X射线机通用技术条件
- 小组合作学习方法指导(课堂PPT)
- 工程造价咨询费黑价联[2013]39号
- 聚氨酯车轮容许载荷的计算方法
- 五年级地方教学计划
- 河北省廊坊市房屋租赁合同自行成交版
- 电商销售奖励制度
- 关于设置治安保卫管理机构的通知(附安全保卫科职责)
- 浅论国省道干线公路养护管理存在问题与应对措施
- 浅谈激光标签打印机在电磁兼容测试标准及在产品设计中应关注的焦点
评论
0/150
提交评论