




已阅读5页,还剩77页未读, 继续免费阅读
(计算机软件与理论专业论文)数据挖掘在crm系统中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在全球经济日趋一体化的今天,企业的商务环境发生着剧烈的变化,客户不再是被 动的接受者,其在交易中的地位发生了根本性的变化,客户迁就产品的时代已经过去。 企业在生产、营销、服务等一系列环节都必须以客户为中心,并随客户需求的变化作出 相应的调整,以逐步实现对客户的个性化服务。客户关系管理( c r m ) 是目前解决如何以 客户为中心问题的非常重要的系统和方法,企业通过与客户的互动,了解客户及客户行 为,进而留住客户,不断增加企业的利润。通过实施客户关系管理,能够分析和了解处 于动态过程中的客户状况,从而搞清楚不同客户的利润贡献度。 数据挖掘( d m ) 是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有 潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了 数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘方法有多种, 其中比较典型的有关联分析、相关性分析、预测分析、聚类分析等。 本文介绍了数据挖掘技术背景以及客户关系管理领域的实际问题,并考察了数据挖 掘用于客户关系管理的商业价值和应用功能,包括了客户获得、客户保持、交叉营销、 客户细分。同时,就数据挖掘中的两种模式:关联规则( a s s o c i a t i o nr u l e s ) 和序列模 式( s e q u e n t i a lp a cl e r n s ) 的概念和作用进行了探讨,对关联规则中部分用程序加以实 现,并对此两个模式的实现过程用程序流程的方式加以说明,讨论了几种不同的实现算 法。最后,针对目前长春三九生物制药有限公司的现状,结合客户关系管理( c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ,c r m ) 和数据挖掘技术的理论基础,提出了适合i 受春三九生 物制药有限公司需求的c r m 系统及实施方法。 关键词:数据挖掘、c r m 、关联规则、序列模式 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东 北师范大学或其他教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 谢意。 学位论文作者签名:墨鞋日期:迎苎缉盘耳1 日 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的 规定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论 文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:! 瞌 指导教师签名学位论文作者签名:墨怂指导教师签名 日 期:坦蜂b 姻日 期 学位论文作者毕业后去向: 工作单位:丕j e 垭菹盍堂 电话 通讯地址:直挞笪篮查直厶民太鱼望鳗量 邮编 第1 章绪论 1 1 c r m 数据挖掘系统产生的背景 l _ 1 1 问题的提出 药品是非常特殊的商品,落后的管理模式、落后的管理手段,显然难以创造利润、 集聚财富、应对变革。所以找出本部门存在的现实问题成为首选之要务。 药品产销具有非常特殊的个性,当前多数医药企业的管理模式和管理手段未能充分 适应其个性,问题之严重也往往令人咋舌。 1 医药产品是非常特殊产品,药品种类之多、用途之异、计量单位之多、对批次 号和有效期的要求之严,中间环节之长,绝非其他商品可以比拟。手工操作、信息孤岛 所造成的差错,小则造成经济损失,大则人命关天。 2 医药企业业务快速拓展,经营规模迅速扩大,面临庞大复杂的渠道管理,却停 留在单凭个人记录、回想、判断阶段,所形成的决策没有定量数据和资料分析的支持, 这是现代管理之大忌。 3 没有统一、周密的计算机客户管理手段,对市场和客户需求信息搜集不够、分 析不细,市场需求预测不准;客户管理依赖医药代表个人关系,客户随着医药代表的跳 槽而流失,乃至为竞争对手所用。 4 生产带有较大盲目性,面对季节和突发事件,生产计划不能及时跟进,不能适 应市场灵活多变的产品需求。 5 “分购分销”导致经营成本居高不下,“差异销售”定价混乱;统一采购使中心 库房或配送中心管理复杂化,在采购品种、资金归属、部门核算、配货周期、运输调度 等环节都存在不同程度的问题。 6 库存量过高,占用大量资金,一旦超过有效期就会造成药品失效乃至变质;供 应与库房脱节,积压和停工待料现象时有发生。 7 销售费用管理滞后,应收款迟迟不能到帐。 8 成本核算不细,成本控制不力,更难以明细到单品、批次核算,跑冒滴漏现象 严重,也很难响应市场对价格适时浮动的要求;即使有局部的成本管理,也停顿在内部 生产环节,并未延伸到对外的销售和客户管理环节。 9 异地分支机构急增,信息反馈周期过长;分支机构帐目混乱,丢货现象严重, 串货和假冒难以攀别。 1 0 数据分散、不标准、不规范,不能给高层决策提供定量分析的支持;各业务、 职能部门仅用计算机进行若干文字处理及某些单项管理,效率低下。 1 1 2 应对的举措 国家对医药企业的总政策是“扶大扶优、消灭伪劣”。 “物择天演、适者生存”。如何在新形势下首先解决生存问题,继而解决发展问题, 是每个医药企业应对变革而不得不“上下求索”的大问题。 医药企业的生存资源包括硬资源和软资源。其中硬资源为资本资源、人力资源、设 施资源、科技资源、原料资源等,软资源为管理资源、客户资源、文化资源、环境资源、 信息资源等。生存资源的拥有程度反映企业的生存能力,因而可以概括为如下三种能力: 1 资本生存能力。与生产、经营规模相适应的资本支持,以及由此派生的人力资 源、设施资源、原料资源拥有度。 2 技术生存能力。能否大幅度提高生产效率和产品附加值、不断拓展产品群,即 科技资源的拥有度。 3 管理生存能力。不断进行管理创新、体制创新,实现前后向一体化,关心客户、 拓宽市场,提高质量、降低成本,加快产业链的延伸能力,即各种软资源的拥有度。 应该看到,第三种生存能力是前两种能力的基础。只有良好乃至优秀的管理生存能 力,才可能衍生出资本能力和技术能力,许多公司从少量资本起家,现今成为举足轻重 的大公司,走的就是这样一条道路。为模式、找出影响客户行为的因素,进而能够为客 户提供更好的服务。 信息之于企业犹如电力之于企业,不可或缺。如能将信息融于管理之中,利用信息 技术为企业“练好内功”效力,企业就能在商战中快速发展:反之,对信息技术的“能 量”估计不足,满足于个人的记忆、判断,就必然导致企业的停滞、乃至消亡。 在营销、销售决策过程中,需要对大量的数据和资料进行分析来支持其决策。如果 决策没有数据和资料分析的支持,只能是定性决策,这是现代管理之大忌;只有建立在 数据及资料分析的基础上,决策才是量化的和科学的,才能真正对企业起指导作用。一 旦完成决策,进入到执行过程中,仍需要通过信息化的手段来监视、反馈决策的执行情 况和执行效果。 药品生产、销售的种种个性,实际上都是医药企业本身所必须解决而目前大多数企 业尚未解决的问题。医药企业必须接纳先进的“客户为中心”的销售理念,全面导入计 算机客户管理系统,推行先进的营销手段,遏制营销费用,规范生产和经营流程,加强 对异地分支机构的调控,最终促进企业管理的深度变革,变规模扩张性为效益扩长,提 升企业综合竞争力,使企业真f 做大做强。 药品生产企业在经历了以量取胜、以质取胜、品牌取胜后,已进入以争取“广泛并 忠诚”的客户为内核的客户取胜阶段。越来越多的公司已经意识到医药市场面临的重大 变革,纷纷寻求对策,确认“只有疗效好、价格低、医患( 首先是医生、店员) 知晓并 满意的药品才能j “泛占有市场”。 许多知名制药企业,特别是跨国制药公司越来越重视与客户的双向沟通。从市场调 查入手,以客户需求为导向,真正重视客户价值,深度挖掘客户价值,重视定位,重视 推广,在争取客户上投入更多的资源。靠投放大量广告拉动的处方药销售模式将成为历 2 史,不少公司已从简单、泛泛地打广告,变为“一对一”的沟通与服务:上门拜访,开 通健康热线、专家咨询,建立网站,医生俱乐部、经销商俱乐部、患者俱乐部,出版专 业很强的宣传刊物,乃至组织到制药厂参观等等,更专注于患者个性的挖掘和特殊性的 解决。不少公司设立了“客户关系管理与服务”部门,专责从事此种开拓性服务。 1 2本文主要工作 基于以上举措,本课题设计实施了长春三九生物制药c r m 数据挖掘系统( 9 9 9 卅c r m ) 。 系统设计的目标是:密切新老客户关系,争取更大市场份额;瞄准企业的销售业务,管 理控制销售费用,定量估算经营毛利、规避销售风险;从“开拓”和“健体”两方面最 有力地支持企业应对面临的重大变革。 以目前c r m 中的数据挖掘研究现状为基础,结合关联规则和序列模式等数据挖掘技 术,本论文主要从事了以下几方面的研究工作: 首先,论述了客户关系管理的基本定义、发展历程及其内涵,着重分析了客户关系 选型等企业客户管理方面的内容。 其次,论述了数据挖掘的相关技术内容及其发展方向,介绍了数据挖掘系统的分类 和工作流程。 再次,重点论述了数据挖掘技术如何结合到c r m 系统中,着力对数据挖掘中关联规 则和序列模式的初步讨论,以及一些基本的概念和算法和程序实现,对算法进行了一些 改进。 最后,从长春三九生物制药有限公司c r m 系统中各主要业务模块的实际需求出发, 深入讨论了多种数掘挖掘技术与方法在其中的应用与实施。 第2 章认识客户关系管理 客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e e n t ,c r m ) 起源于上世纪8 0 年代 初提出的“接触管理”和“以客户为中心”的新型企业营销理念,即专门收集整理客户 与公司联系的所有信息,强化企业的跟踪服务、信息分析能力,使企业能够协调建立和 维护一系列与客户以及商业伙伴之间卓有成效的“一对一关系”,赋予企业更完善的客 ,o 交流能力,最大化客户的收益率。随着信息技术应用领域的深入,c r m 已逐步形成为 蕴涵客户关系管理理论的一套使用软件系统。 2 1客白关系管理的定义 基于不同的理解和侧重点,客户关系管理c u s t o m e rr e l a t 0 n s h i pm a n a g e m e n t 简 称c r m 有以下一些熟知的定义: 1 由英国的斯通和伍德科克给出的定义 c r m 是市场营销学、销售学、营销沟通和客户关系管理技巧与过程在以下方面的广 泛应用。找到你所列出的每一个客户,建立公司与这些客户问的关系一一种在许多交 易中都存在的关系管理这些事关客户和公司利益的关系。 2 由卡尔松营销集团给出的定义 c r m 是通过培养公司的每一个员工、经销商或客户对该公司更积极的偏爱或偏好, 留住他们并以此提升公司业绩的一种营销策略。 3 由n c r 的史威福特给出的定义 c r m 是指企业通过富有意义的交流沟通、理解并影响客户行为,最终实现提高客户 获得、客户保留、客户忠诚和客户创利的目的。总之,这些定义的核心都是“管理与客 户的关系”,其关键在于“关系”。 本文将采用s w i f t 在客户关系管理加速利润和优势提升一书中对c r m 的 定义:c 删指的是企业通过富有意义的交流沟通、理解并影响客户行为,最终实现提高 客户获得、客户保留、客户忠诚和客户创利的目的。c r m 是一整套的先进理念、方法和 解决方案,c r m 提供的是一种创造出产品、服务、及时反应、个性化、大量化定制和客 户满意度的能力。c r m 能够帮助找到并锁定最好的客户,以正确的价格,在正确的时间, 通过正确的渠道,提供正确的产品或服务,从而最有效地满足客户的需要和愿望。 4 2 2 客户关系管理的诞生 卜几年市场竞争的磨练,尤其是中国加入w t o 在即,竞争的压力使得中国的企业对 于可以提高企业竞争力的各种营销方法和管理方式表现出巨大的热情和尝试的兴趣。对 于2 0 世纪8 0 年代的m r p 、9 0 年代的e r p 以及近来的c r m ,不管i t 厂商给这些企业管 理方法和软件冠以什么样的名字,考察一种耗资巨大,涉及部门、人员众多的管理软件 是否能够对企业的经营和竞争力带来好处,必须先搞清楚管理软件所包含的管理思想。 在早期,企业面对的是一个需求巨大,而供给不足的卖方市场,提高产品产量很自 然成为管理的中心,企业管理基本是产值的管理。企业不断努力的结果是生产效率不断 发展,产品很快变得非常丰富,导致市场上产品销售的激烈竞争,于是销售中心论代之 而起。为了提高销售额,就必须在内部采取严格的质量管理,外部强化推销观念。但是 质量竞争的结果是产品成本越来越高,销售竞争的发展使得费用越来越高,这就使得企 业的销售额不断提高,但是利润不断下降,于是作为销售额中心论的修正版本利润 中心论登上企业管理的舞台,企业管理的目标放在了以利润为中心的成本管理上。但是, 成本是不可能无限压缩的,当在一定的质量前提下成本的压缩已经到了极限,而企业利 润要求仍然无法得到满足的时候,成本再压缩必然会带来产品质量的下降或者说提供给 客户的价值降低。至此,企业不得不在此审视自己的管理思想,于是顾客的地位被提高 到了前所未有的高度,顾客中心论被确立。 纵观企业管理思想的发展历程,我们可以看到一种从内到外,从以产品为中心到以 客户为中心的转变。市场营销,作为企业经营活动的主要部分,其发展过程也和企业的 管理思想具有类似的特点。“营销学之父”菲利浦科特勒在它的营销管理中总 结了营销观念的5 个发展阶段,即生产观念、产品观念、推销观念、营销观念和社会营 销观念。 可以说,产生于2 0 世纪7 0 年代的社会营销非常明显地体现了企业经营管理从内到 外的变化。在此之前,传统的营销理论认为,企业营销实质上是企业利用内部可控因素, 对外部不可控因素做出积极的动态反映,进而促进产品销售的过程。所谓内部可控因素 主要是指企业的产品、价格、分销和促销决策,也就是营销学里经常被提到的4 p 。比如 说生产观念的营销重点是在于大量生产,以产品的低价格来吸引顾客。产品观念则注重 产品的完善和质量的改进。由于社会化大生产的发展,生产效率迅速提高,出现了供过 于求的买方市场,企业在产品销售上出现了激烈的竞争,因此随后的推销观念强调如何 使用各种推销和促销手段来刺激顾客的购买。 以上三种观念的共同特征是企业运用其经济力量促使顾客按照自己的要求行事,但 是不断成熟的消费者并不接受这一点。越来越多的企业在挫败中不断认识到企业自身的 生产无法摆脱市场的制约作用,消费者是产品生产、渠道选择、售后服务等等企业活动 的决定力量。因而企业的经营观念核心开始从产品、生产导向转移到消费者导向,市场 营销的目标在于正确确定目标市场的需求和欲望,比竞争者更有效地提供目标市场所要 求的满足,这也就是出现于2 0 世纪5 0 年代的营销观念。 2 0 世纪7 0 年代起出现的社会营销观念在此基础上更进一步,不仅要求企业的经营 活动满足消费者的需求,而且必须考虑消费者和社会的长期利益。一方面越来越多的企 业其生产和销售受到来自法律、社会舆论、消费者组织等方面的制约;另一方面,企业 必须兼顾起营销活动对社会造成的后果和影响。 从营销学的发展历程可以看出,营销学已经逐渐从销售过程的研究转向此过程中所 发生的种种相互关系和相互作用对于营销目标影响的研究。于是,作为对以往各种营销 观念的总结和发展,关系营销出现了。 关系营销把营销活动看成是一个企业与消费者、供应商、分销商、竞争者、政府机 构以及其他公众发生互动作用的过程,企业营销活动的核心在于建立并发展与这些公众 的良好关系。因而企业经营管理的对象也就不仅仅是内部可控因素,其范围扩展到外部 环境的相关成员。企业和这些相关成员包括竞争者的关系并不是完全对立的,其所追求 的目标存在相当多的一致性,关系营销或者说现代企业管理的目标也就在于建立和发展 企业和相关个人及组织的关系,取消对立,成为一个相互依赖的事业共同体。 信息技术的发展对上述管理思想提供了强有力的支持,以以上管理思想为基础的管 理软件不断涌现。比如,管理企业与供应商分销商之问关系的供应链管理( s c m ) ,管理 企业和分销商之间关系的分销商管理( d r p ) ,管理企业与客户之间关系的客户关系管理 ( c r m ) 等等。 2 3客户关系管理的内涵 2 3 1 留住客户,升级客户 客户被企业所重视已经由来已久,在关系营销里面客户关系作为核心其重要性又一 次被强调,那么,关系营销里面的客户关系和企业以往对待客户的态度又有什么不同 呢? 交易营销注重的是吸引新顾客和一次性的交易,而现在的关系营销则强调和客户建 立长期的稳定关系。两者的对比如表l 所示。 表1 6 2 4 1 1 一级关系营销 这种方法是企业止渡适当的财务收益给客户,增加客户价值,从而起到提高客户满 意度和增进客户关系的目的,频繁市场营销就是这种营销方式的一个很有代表性的例 子。频繁市场营销就是这种营销方式的一个很有代表性的例子,所谓频繁市场营销计划, 是指对那些频繁购买以及按稳定数量进行购买的顾客给予财务奖励的营销计划,也就是 ”老客户优惠”,”买的越多越便宜”,需要指出的是、,这个”多”是指积累消费,而非一 次购买。频繁市场营销实例如:香港汇丰银行、花旗银行等通过它们的信用证设备与航 空公司开发了”里程项目”计划,按积累的飞行里程达到一定标准之后,共同奖励那些经 常乘坐飞机的顾客。 一级关系营销的另一种常用形式是对不满意的顾客承诺给予合理的财务补偿。例 如,新加坡奥迪公司承诺如果顾客购买汽车一年后不满意,可以按原价退款。 2 4 1 2 二级关系营销 关系营销的第二种方法是即增加目标顾客的财务利益,同时也增加他们的社会利 益。二级关系营销尽量了解单个顾客的需要和愿望,提供给并使服务个性化和人格化, 来增加公司与顾客的社会联系,具体来讲就是二级关系营销企业把对客户( c u s t o m e r ) 营销方式引入对消费者( c o n s u m e r ) 的营销,在这种情况下,二级关系营销在建立关系 方面优于价格刺激。多奈利、贝瑞和汤姆森是这样描述客户和消费者区别的:对于一个 机构来讲,消费者也许是不知名的,而客户则不可能不知名;客户是针对于一群人或一 个大的细分市场的一部分而言的,消费者则是针对个体而言的;消费者是由任何可能的 人来提供服务,而客户是被那些指派给他们的专职人员服务和处理的。二级关系营销的 主要表现形式是建立消费者俱乐部。以某种方式将消费者纳入到企业的特定组织中,使 企业与顾客保持更为紧密的联系,实现对顾客的有效控制。 2 4 1 3 三级关系营销 篼三种方法是增加结构纽带,与此同时附加财务利益和社会利益。结构性联系要求 为客户提供这样的服务:它对客户有价值,但不能通过其他来源得到,我们可以把这种 关系称之为“合作伙伴”或者“客户联盟”。这种关系的建立是企业间的行为,而不是 仅仅依靠企业销售或者服务人员交际的态度和技巧。良好的结构性关系将提高客户转向 竞争者的机会成本,同时也将增加客户脱离竞争者而转向本企业的利益。特别是当面临 激烈的价格竞争时,结构性联系能为扩大现在的社会联系提供一个非价格动力,因为无 论是财务性联系还是社会性联系都只能支撑价格变动的小额涨幅。当面对较大的价格差 别时,交易双方难以维持低层次的销售关系,只有通过提供买方需要的技术服务和资金 援助等等深层次联系才能吸引客户。特别是在产业市场上,由于产业服务通常是技术性 组合,成本高、困难大,很难由顾客自己解决,这些特点有利于建立关系双方的结构性 合作,前面提到的道橡胶就是一个很典型的三级关系营销的例子。 1 0 主体,最主要的角色,摆在企业决策层面前的首要问题是采用什么样的客户关系建设策 略,摆在企业i t 人员面前的问题是如何为勘矬:叛搿景黼 攀群幕:銎甜签筮食塞愈耀轶骚理爹螽骗辩摆骗控媸蚕吣彰剁器: 麟隰黼篓蕊鍪舞篓躺豢基 翮i 吲刚赫隈馥饴掣 ;? 霎耋蠹凇鋈囊冀篓 j | 盖黩蕊簦越鲤嚣! 冀鹾# 勘旆缮影高础琴躺嘲霭汤潞萄。第磷溲陌;规则。 典型的决策方法有分类回归树( c a r t ) ,一般用于分类规则 的挖掘。 3 遗传算法(g e n e t i ca l g o r i t h m ) :基于生物进化的概念设计一系列的过程来达 到优化的目的。这些过程有基因组合、交叉、变异和自然选择。为了应用遗传算法, 需要把数据挖掘任务表达为一种搜索问题而发挥遗传算法的优化搜索能力。 4 最近邻技术( n e a r e s tn e i g h b o r ) :通过七个最与之相近的历史记录的组合来 辨别新的记录,有时也称这种技术为萨最近邻方法。这种技术可以用作聚类、偏差分 析等挖掘任务。 5 规则归纳( r u l ei n d u c t i o n ) :通过统计方法归纳、提取有价值的i f t h e n 规则。规则归纳技术在数据挖掘中广泛使用,例如关联规则的挖掘。 6 可视化( v i s u a l i z a t i o n ) :采用直观的图形方式将信息模式、数据关联或趋势 呈现给决策者,决策者可以通过可视化技术直观地分析数据关系。 3 5数据挖掘的流程 3 5 1 数据挖掘环境 数据挖掘是指。一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的 可实用的信息,并使用这些信息做出决策或丰富知识。 数据挖掘环境可示意如下图: (数据库广叫掘工具r _ 1工具r _ _ + x 、“人 图6 数据挖掘环境框图 x 情。 基于p t x 的多渠道支持 c r m 已经不再是“一家公司面向多个客户”这样一种简单的模式,而必须支持多层 次的分销渠道,协调供货商和其他服务商,为企业提供一个横跨多部门的公用平台,这 就是p t x ( p r i v a t et r a d i n ge x c h a n g e ,专用交易) 平台。这个平台支持“多对多网络” 的数据模型以及服务管理功能,将越来越多地应用于今后的c r m 系统之中。 支持所有的交互类型 单一渠道应用已经时日无多了。支持任何形式的交互,不论是对客户还是合作伙伴, 也不论是w e b 、e m a i l 、话音还是面对面的交互,所有的对象和交互类型都无一例外,这 已经成为企业对c r m 应用的基本要求。如今,这类功能在联络中心( c o n t a c tc e n t e r ) 、 合作伙伴和客户交互管理之中相对比较成熟,而在c r m 的所有功能模块中实现对e m a i l 沟通管理将会是下一个技术热点。 在应用方面,领先的c r m 厂商将会以提供完善的垂直应用( v e r t i c a l i z e d a p p l i c a t i o n s ) 而脱颖而出。随着主要企业应用市场的发展,以前瞻性的理念和先进的 核心技术为动力,实现产品垂直化,将会成为c r m 软件厂商制胜的法宝。成功的c r m 提 供商将首先从非常专业的垂直应用市场发展起来,比如,仅仅定位于金融行业是不够的, 还应当细分到保险业、投资银行业等更精确的层面。 只有经过准确的市场细分并专注 于特定市场的厂商才能立于不败之地。 1 4 第3 章数据挖掘技术 3 1 数据挖掘的定义 3 1 1 技术上的定义及含义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的 实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程。 与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几 层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识:发现 的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的 发现问题。 一一何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概 念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从 矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是 半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识 的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知 识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维 护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提 升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者, 尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和 工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新 的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都 是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。 最好能用自然语言表达所发现的结果。 3 1 2 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务 数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多 年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算 能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行 业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目 l5 霪:攀 鬟嘴冀吲霎雾 捌翟参篓持葭多车隔努住箝占磷莆等箍昌豁聚逛醇 餮矗 辇羲攀 囊鬈錾薹孽蔫跫差警耋氅蠢萤誊耍蚕雾囊荔。 萎辇藩嬖螫囊蓼蕾望季羹蠹蓍藿鬻攀萎妻琴荔鼗囊暮尊萋耋蓍垂耋毳羞冀耋蓦 篡篓蓖。 誊蓦| 墓 嚣篓墓耋熹蠹薹囊薹鎏翥薹雕毫霪嚣鏊耋毫餮垂鬻善荔夔匿羹攀j 萝 篷毒巍善蓦奎攀蠢霉彝耋嚣碧圳霸篓鬟篱。羹童垂妻鼍芝蠹蓉嘉萎蚕蠹 x 数据中,从超文本、文档中,从时间一空间和多媒体数据中,以及从主动数据库和i n t e r n e t 中发现知识都具有广阔的研究应用前景。 5 高性能数据挖掘 高效可扩放的知识发现算法已经成为主要的研究热点之一。这一趋势还将随着并 行、分布式和增量式知识发现算法的研究而继续得到强化。 6 新的方法应用于数据挖掘 采用自组织学习机制、概念挖掘机制、解同时处理的新思想,在海量的图形、图像 数据、复杂的空间数据中进行数据挖掘,把多分辨技术( 子波、多子波) 、粗集、支撑矢 量机、神经网络等数据库技术集成,研究新型数据库中数据挖掘是未来的研究方向。 7 数据挖掘应用 c 乜许我们会提出如下问题,怎样将i ( d d 技术应用到商业管理、决策和过程控制中, 怎样将所发现的知识吸收到知识库、专家系统和决策支持系统以及查询优化程序中? 8 基于机器学习技术的文本挖掘 目前的方法有2 种:基于内容的方法和协同的方法。基于内容的方法广泛地应用于 w e b 文档或新闻图像的挖掘中。 9 移动计算 一个新的研究方向。全球网络化和移动通信的发展,促进了三代通信模式的出现, 也带来了移动计算的问题。移动计算为i t 业带来了新的契机,也为研发人员提出了新 的挑战。如何在掌上电脑及移动通信中进行电子商务的交易及相应的数据挖掘,已成为 又一个新的研究热点。近来移动数据库的研究也在蓬勃发展,如何在这些信的数据库中 发现知识、挖掘信息,显然也是新世纪的研究热点。 3 3数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目 标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题 如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使 用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报 破产以及认定对指定事件最可能作出反应的群体。 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值 之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联 分析的目的是找出数据库中隐藏的关联网。有时并 的关联网。有时并不知道数据库中数据的关联函数,即使知道也 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观 现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方 法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术物其要点是,在划分对象 时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技 术的某些片面性。 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述 分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之 间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描 述的方法很多,如决策树方法、遗传算法等。 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括 很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的 偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意 义的差别。 3 4 数据挖掘系统的分类 由于数据挖掘源于多个学科,是一个交叉学科领域,因此数据挖掘研究产生了 大量的不同类型的数据挖掘系统。从不同的视角看,数据挖掘系统有各种分类,主 要有以下几方面: 3 4 1 根据挖掘的知识类型分类 这种分类方法将数据挖掘系统分为:关联规则( a s s o c i a t i o n ) 、分类 ( c l a s s i f i c a t i o n ) 、特征化( c h a r a c t e r i z a t i o n ) 、聚类分析( c l u s t e r i n g ) 、演变 分析( e v 0 1 u t i o n ) 、孤立点分析( o u t l i e r ) 、偏差( d e v i a t i o n ) 分析等。 3 4 2 根据挖掘知识的抽象层次分类 将数据挖掘系统算法分为原始层( p r i m i t i v el e v e l ) 的数据挖掘、高抽象层( h i g h l e v e l ) 的数据挖掘、多层次( m u l t i p l el e v e l ) 的数据挖掘。 3 4 3 根据挖掘的数据库类型分类 基于数据库的分类有:关系型( r e l a t i o n a l ) 、事务型( t r a n s a c t i o n a l ) 、面向对 象型( o b j e c t 一0 r i e n t e d ) 、空间型( s p a t i a l ) 、时间型( t e m p o r a l ) 、文本型( t e x t u a l ) 、 多媒体( m u l t im e d i a ) 、异质( h e t e r o g e n e o u s ) 数据库、遗留型( l e g a c y ) 和 3 5 2 数据挖掘过程图 图7 描述了数据挖掘的基本过程和主要步骤 图7 数据挖掘的基本过程和主要步骤 过程中各步骤的大体内容如下: 1 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后 结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲 目性,是不会成功的。 2 数据准备 ( 1 ) 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应 用的数据。 ( 2 ) 数据的预处理 研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。 ( 3 ) 数据的转换 将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正 适合挖掘算法的分析模型是数据挖掘成功的关键。 3 数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一 切工作都能自动地完成。 4 结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视 化技术。 5 知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。 3 5 3 数据挖掘过程工作量 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程, 也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问。图2 各步骤是按一定顺 序完成的,当然整个过程中还会存在步骤间的反馈。数据挖掘的过程并不是自动的,绝 大多数的工作需要人工完成。图3 给出了各步骤在整个过程中的工作量之比。可以看到, 6 0 的时问用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占 总工作量的1 0 。 图8 数据挖掘过程工作量比例 3 6数据挖掘在商业领域中的应用 3 6 1 零售业中的数据挖掘 零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,顾客 购买历史记录,货物进出等。其数据量在不断地迅速膨胀。零售数据挖掘可有助于识别 顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满 意程度。以下给出零售业中几个数据挖掘的例子。 1 基于数据挖掘的数据仓库的设计与构造:由于零售数据覆盖面广 ( 包括销售、顾 客、职员等) ,所以有许多设计数据仓库的方式。所包含的细节级别可以变化很大。由 于数据仓库的主要用途是支持数据分析和数据挖掘,预先的一些数据挖掘例子的结果可 作为设计和开发数据仓库结构的参考依据。 2 销售、顾客、产品、时间和地区的多维分析:考虑到顾客的需求,产品的销售, 趋势和时尚,以及日用品的质量、价格等,零售业需要的是适时的信息。因此提供强有 力的多维分析和可视化工具是十分重要的一件事情,这包括提供根据数据分析的需要构 造复杂的数据立方体。 3 促销活动的有效性分析:零售业经常通过广告、优惠券等方式搞促销活动,以促 销产品并吸引新老顾客。认真分析促销活动的有效性,有助于提高企业利润。多维分析 可满足这方面分析的要求,方法是通过比较促销期间的销售量和交易数量与促销活动前 后的有关情况。此外,关联分析可以找出哪些商品可能随降价商品被购买,特别是促销 活动前后的销售相比。 4 顾客保持力一顾客忠诚分析:通过顾客荣誉卡信息,可以记录下一个顾客的购买 序列。顾客的忠诚和购买趋势可以按系统的方式加以分析。由同一顾客在不同时期购买 的商品可以分组为序列。序列模式挖掘可用于分析顾客的消费或忠诚的变化,据此对价 格和商品的花样加以调整,以便留住老客户,吸引新顾客。 5 购买推荐和商品参照:通过从销售记录中挖掘关联信息,可以发现购买某一品牌 香水的顾客很可能购买其他一些商品。这类信息可用于形成一定的购买推荐。购买推荐 可在w e b 、每周传单或收据上宣传,以便改进服务,帮助顾客选择商品,增加销售额。 3 6 2 电信业中的数据挖掘 电信业己经迅速地从单纯的提供市话和长话服务演变为提供综合电信服务,如语 音,传真,计算机和w e b 数据传输等。随着许多国家对电信业的开放和新兴计算机与通 信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮 助理解商业行为、确定电信模式和提高服务质量是非常必要的。 以下是几个利用数据挖掘改进电信服务的具体例子。 1 电信数据的多维分析:电信数掘本身具有多维性,如呼叫时间,持续时间,呼叫 者位置等。对此类数据的多维分析有助于识别和比较数据通信情况,系统负载等。例如, 分析人员希望经常查看有关呼叫源、呼叫目标等方面的图表。因此,将电信数据构造为 数据仓库十分有用,可以经常使用o l a p 和可视化工具进行多维分析。 2 盗用模式分析和异常模式识别:盗用行为每年可以耗掉电信业数百万美元。确定 潜在的盗用者和他们的非典型的使用模式,检测想侵入用户账户的企图以及发现需要引 起注意的异常模式,这都是非常重要的。这些模式包括:老是占线无法接入,转换和路 由阻塞等。通过多维分析、聚类分析和孤立点分析,可以发现许多这类模式。 3 多维关联和序列模式分析:多维分析中关联和序列模式的发现可以用来推动电信 服务的发展。例如,假设你想发现一系列电信服务的使用模式( 按客户组、按月和按日 的时间) 。按客户分组的呼叫记录可表现为如下形式: ( c u s t o m e ri d , r e s i d e n c e ,o f f i c e ,t i m e ,d a t e , s e r v i c e 一1 ,s e r v i c e 一2 , ) 为了决定呼叫是否在两个特定的城市之间或特定的人群( 如工程师、医生等) 间发 生,这样的一个序列模式,“如果一个洛杉矶地区的客户在和她居住地不同的另一个城 市工作,她可能在每个工作目的下午五点先使用两个地区之间的长途服务,然后在接下 来的时间里使用3 0 分钟的蜂窝电话”,可以通过上钻和下钻检测到。这有助于促进特定 的长途电话和蜂窝电话的销售结合。 2 4 4 电信数据分析中可视化工具的使用:0 l a p 可视化,链接可视化,聚类和孤立点可 视化等工具,已经证明对电信数据分析是非常有用的。 3 6 3 金融业中的数据挖掘 大部分银行和金融机构都提供丰富多样的储蓄服务,信用服务和投资服务。有些还 提供保险服务和股票投资服务。在银行和金融机构中产生的金融数据通常相对比较完 整、可靠和高质量,这方便了系统化的数据分析和数据挖掘。以下给出几种典型的应用 情况。 1 为多维数据分析和数据挖掘设计和构造数据仓库:与许多其他应用类似,需要为 银行和金融数据构造其数据仓库。多维数据分析用于分析这些数据的一般特性。例如, 人们可能希望按月、地区或其他因素查看负债和收入的变化情况,同时希望能提供最大、 平均或其他统计信息。数据仓库,数据立方体以及孤立点分析等都会在金融数据分析和 挖掘中发挥重要作用。 2 贷款偿还预测和客户信用政策分析:贷款偿付预测和客户信用政策分析对银行业 务是相当重要的。有很多因素会对贷款偿还效能和客户信用等级计算产生不同程度的影 响。数据挖掘方法,如,特征选择和属性相关性计算,有助于识别重要因素,剔除非相 关因素。分析客户偿还的历史信息,可以发现,比如说,偿还与收入比率是主导因素, 而受教育水平则不是。银行于是可以据此调整贷款发放政策。 3 对目标市场客户的分类与聚类:分类和聚类的方法可用于用户群体的识别和目标 市场分析。例如,通过聚类分析,可以将具有相对储蓄和贷款偿还行为的客户分为一组 有效的聚类和协同过滤方法有助于识别客户群,将新客户关联到适合的客户组,以及推 动目标市场。 4 洗黑钱和其他金融犯罪的侦破:要侦破洗黑钱和其他金融犯罪行为,重要的一点 是要把多个数据库的信息( 如银行交易数据、联邦或州的犯罪历史数据库等) 集成起来。 然后可以采用多种数据分析工具来找出异常模式。有用的工具包括连接分析工具( 识别 不同人和活动之间的联系) ,分类土具( 滤掉不相关的属性) 等。这些工具可以识别出一 些重要的活动关系和模式有助于调查人员聚焦可疑线索,做进一步的处理。 总之,d m 可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、 教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。据报导,d m 的投资 回报率有达4 0 0 甚至1 0 倍的事例。 第4 章c 刚中的数据挖掘 4 1 数据挖掘在c r m 中的作用 当前c r m 系统由于过多的偏重于商务流程的自动化,因此刘企业的市场决策提供不 出有利的信息支持。当对c r m 的数据进行数据的二次开发后,就可以准确透视企业的销 售、市场和服务等各个业务环节,帮助企业及时发现市场环境的细微变化和自身业务流 程中潜在问题,促使企业及时采取应对措施。 在经营活动中企业通过d m 技术可以对现有客户进行划分归类,为客户细分、目标 市场精确定位提供科学依据:通过对产品线和客户群特征等进行多维数据分析和知识挖 掘,发现个因之间关联关系,以便企业的市场组合分析、交叉销售、广告促销等策略的 制定。从力。c r m 能够帮助找到并锁定最好的客户,以正确的价格,在正确的时间,通 过正确的渠道,提供f 确的产品或服务,从而最有效地满足客户的需要和愿望。 应用数据挖掘技术可以用来发现客户的行为模式、找出影响客户行为的因素,进而 能够为客户提供更好的服务。 4 2 数据挖掘在c 刚中的典型应用 4 2 1 客户获取 ( 一) 客户获取的概念 大多数商业领域中,在业务发展的主要指标里都包括新客户的获取能力。新客户的 获取包括发现那些对本企业所经营的产品不了解的顾客,他们可能是产品的潜在消费 者,也可能是以前接受竞争对手服务的顾客。在各种情况下,数据挖掘技术都可以帮助 企业对潜在客户群进行细分,并且增加市场推广活动产生的反馈率。 ( 二) 数据挖掘的作用 尽管一个有丰富经验的市场人员可以选择出相关的人口调查属性的筛选条件,但是 当数据量增大时,这也会变得相当困难。当客户数量不断增长和每位客户的细节因素增 多时,要得出这样的行为模式的复杂度也同样增大。在过去的几年内,客户数据库的规 模飞速地膨胀,所以手工对潜在客户群进行市场细分几乎是无法完成的。 数据挖掘技术可以帮助企业完成对潜在客户的筛选工作,但这决不意味着可以解决 与客户获取策略相关的所有问题。市场人员必须把由数据挖掘技术得出的潜在客户名单 和这些客户感兴趣的优惠措施系统地结合起来。选择一种吸引客户的优惠措施正是市场 决策的艺术所在。 4 2 2 交叉营销 ( 一) 交叉营销的概念 交叉营销就是指向现有的客户提供新的产品和服务的营销过程。交叉营销的一种形 式叫做“升级销售”,意思是向客户提供与他们匙寨筝面市丢箫勘裕黼豁躺; 器航棉稽晕皿和i 谨朔涕城隧谨碧岖冀誓瓤剪醛雏纠蜴礁鬻辩澹【冈氍w 甬兹潜 绺獾塑啤豸| 咀,嘎羹鱼; | 墨转陪匝咖拟阀美的辜太变革曩修蔼壶干i ? 南酬腓拄臻露囊 蕈引争雪琵捞钉管 理:( 2 ) 客户价值;(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高一联考试卷及答案生物
- 高三语文试卷b203答案及解析
- 智能风控模型升级企业制定与实施新质生产力战略研究报告
- 低碳社区行业跨境出海战略研究报告
- 临时租用仓库合同样本
- it设备供货合同样本
- 云南租地合同样本
- 东莞市劳动合同样本
- 仪器售卖合同样本
- 保姆劳工合同标准文本
- 2018年高考数学全国1卷第12题出处及变式
- 读书分享读书交流会《四世同堂》
- 2024年人教精通版四年级下册英语期末专项复习-阅读理解
- 中医推拿基础培训课件
- 防电信诈骗安全教案
- 产品履历表完
- 保健食品备案产品可用辅料及其使用规定
- 肺癌伴胸腔积液护理查房
- 健康管理中的健康教育与健康促进研究
- 2024年中考化学复习把握中考方向共研备考策略
- 新闻宣传“三审三校”审查表
评论
0/150
提交评论