数据挖掘在客户流失分析中的应用——聚类与分类算法的研究及应用_第1页
数据挖掘在客户流失分析中的应用——聚类与分类算法的研究及应用_第2页
数据挖掘在客户流失分析中的应用——聚类与分类算法的研究及应用_第3页
数据挖掘在客户流失分析中的应用——聚类与分类算法的研究及应用_第4页
数据挖掘在客户流失分析中的应用——聚类与分类算法的研究及应用_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用 江苏科技大学硕士学位论文数据挖掘在客户流失分析中的应用?聚类与分类算法的研究及应用姓名:陈光宇申请学位级别:硕士专业:计算机应用技术指导教师:苏勇20070115摘 要 摘 要 随着电信市场的逐渐放开,电信企业之间对客户的争夺将越来越激烈。由于电信市场日趋饱和,获取新客户的成本比留住现有客户要昂贵得多。因此,如何尽可能将现有客户尤其是高价值客户保留在自己的网上成了各运营商的工作重点之一。通过建立客户离网模型,使企业能根据对以往离网客户的消费情况进行分析,找出即将离网客户的特征,及时采取相应的措施,减少客户离网的发生。因此,客户流失分析研

2、究对企业降低运营成本,提高经营业绩有着极为重要的意义。 本文的应用背景为南京市网通小灵通用户,取2005年1月至2005年6月的数据进行分析。首先对原始数据进行预处理,采用遗传学习方法结合评估函数,可以得出最具代表性的属性集。其次对客户进行细分,采用改进的聚类算法实现,不需要输入初始聚类中心和聚类数目,该算法可以动态地得到聚类结果。 本文主要的工作集中在客户流失预测模型的建立,采用了一种基于遗传算法的数据分类方法对客户数据进行建模。首先在训练数据集上运用 id3算法,产生若干分类规则集,由这些分类规则集作为初始种群,利用遗传算法的全局寻优能力,找到最佳分类规则集。将此分类规则应用到将要预测的数

3、据集中,即可得到哪些客户有流失趋势。 关键词:数据挖掘;客户流失;决策树;聚类算法;遗传算法 abstract abstract along with the open of telecom market, the contests for customers are getting more and more drastic. as the saturation of the telecom market, the cost of getting a new customer is much higher than maintaining an old customer. so, how t

4、o keep the customers, especially the valuable customers, came to one of the most important works for the telecom companies. building the model of the churn users will allow the company to analyze the consume characters of those churned user, to find out those customers who are going to churn, so to

5、take actions in time. so the study of this topic has very importance significance for reducing the cost of running the company and to improve the outstanding achievement of the companyin this thesis, author analyzes nanjing netcom companys phs customers. the data is from january 2005 to june 2005. f

6、irst, dealing with the original data. applying genetic algorithm and evaluation function, author can get the best representative attribute setsecond, partition the customers. applying an improved clustering algorithm based on partition, author need not input initial partitions and initial values. th

7、e numbers of partitions are changed during clusteringthe major task in this thesis is to create a customers churn model. the model is according to a method of data classification based on genetic algorithm. first, applying id3 algorithm in the training data sets and constructing full-classification

8、rule sets. then, using genetic algorithm, author can get the best full-classification rule set. the classification rules are applied in the data that will be predicted. the customers who will be churn are obviouslykey words: data mining; customer churn; decision tree; cluster algorithm; genetic algo

9、rithm 论 文 独 创 性 声 明本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得江苏科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: 日 期:学 位 论 文 使 用 授 权 声 明江苏科技大学有权保存本人所送交的学位论文的复印件和电子文稿,可以将学位论文的全部或部分上网公布,有权向国家有关部门或机构送交并授权其保存、上网公布本学位论文的复印件或电子文稿。本人电

10、子文稿的内容和纸质论文的内容一致。除在保密期内的保密论文外,允许论文被查阅和借阅。研究生签名:导师签名: 日 期: 日 期:第一章 绪论 第一章 绪论 1.1 课题背景和研究意义 随着电信行业的迅速发展,客户选择电信产品及电信企业的余地越来越大,市场1竞争不断加剧,电信企业之间的客户争夺将越来越激烈。 面对日益激烈的电信市场竞争环境,企业已经意识到谁把握了客户,谁就拥有了市场。企业的战略正从“以产品为中心”向“以客户为中心”转变。必须不断通过各种渠道加强与客户之间的交流,并且不失时机地从中获取有用信息,才能改善客户关系,提高客户满意度,从而增强2 自身的核心竞争力,在竞争中立于不败之地。由于电

11、信市场日趋饱和,所以获取新客户的成本比留住现有客户要昂贵的很多,并且竞争对手、技术以及法律法规等动态市场变化更容易使客户流失到其他公司。根据调查机构的数据显示,用户保持率增加5%,就有望为运营商带来85%的利润增长,3由此可见,客户流失对业绩的巨大影响。客户离网给运营商带来的主要问题是: 1.客户群大进大出,对营销成本造成很大压力。 2.是业务收入增长缓慢的主要原因之一。目前,新增用户是带动收入增长的主要因素,而离网用户造成的收入损失占新增用户收入的很大一部分,大大降低了收入增幅。客户流失分析作为经营分析系统中的一个重要主题。主要任务是根据流失客户和没有流失的客户性质和消费行为,进行挖掘分析,

12、建立客户流失预测模型,分析哪些客户的流失率最大,流失客户的消费行为如何,客户流失的其他相关因素,如竞争对手的优惠政策、业务系统事故、国家政策和现行经济运行环境等。为市场经营与决策人员制订相应的策略留住相应的客户提供决策依据,并预测在该策略下客户流失情3况。 通过建立客户流失预测模型,使企业能够预测客户离网可能性,并通过对客户离网原因的分析,提出相应的挽留政策,从而使客户保持在自己的网上,降低客户离网3率,从而减少企业运营成本。因此,该模型的建立对企业有着极为重要的意义。 1.2 国内外研究的现状 国内电信业的发展是近五、六年的事,这段时间内精力集中在抢占市场。技术研究主要是业务运营支撑系统bo

13、ss的更新换代,如对计费系统、客户服务系统、财务管理系统的开发与完善。这些系统中保留着大量的客户通话行为数据、帐单、投诉咨询和客户基本信息数据。由于电信企业忙于业务扩张,无暇顾及对这些数据的挖掘分1第一章 绪论 析。近一两年来,一些有实力的电信企业考虑到挽留高价值客户的必要才逐步着手对这些历史数据进行挖掘。由于起始的时间不长,大部分都只是试探性地建立简单的模4 型,有的还处于调研和可行性分析阶段,没有实际投入应用的产品。目前国内对客户流失的研究主要集中在提供个性化服务、实行“一对一”营销,以吸引客户,提高客户忠诚度上,而很少有直接对客户流失数据进行建模,并由此分2 析客户流失原因,以采取有效防

14、范措施的。国外已有将数据挖掘技术应用于客户流失分析和预测的研究,其应用领域主要是电信业。某些科研机构已经研究出了较为成熟的模型,投入到了市场应用之中。从市场的反馈来看,这些模型并不具备很强的健壮性,准确率也不是很高,大约为 40% -70%。而且,随着数据量的激增,对模型的性能开销也越来越大。许多研究机构在设法提出改进的算法来对客户流失预测分析模型进行优化、完善。同时,由于国内的电信市场与国外的电信市场存在很大的差异,在将国外的模型应用到国内之前必须进行4调整。 3以下是一些世界知名电信运营企业的数据挖掘应用情况。 1.英国电信采用数据挖掘手段,建立模型来确定潜在客户的购买倾向和他们变为用户之

15、后可能的价值。建立精确的客户特征以后,英国电信打算开发针对于特定客户群的产品。 2.沃达丰利用数据挖掘技术建立模型研究客户离网的原因,并从不同的角度来进行市场细分。 3.法国电信利用数据挖掘技术在预防欺诈、客户流失分析和预测、交叉销售等各方面都取得很多成果。4.ntt在自己的crm系统comware中使用数据挖掘的方法来分析数据和提高对客户的管理水平。 5.韩国 sk telecom公司的crm中,应用数据挖掘技术分析客户和通话行为,预测通话中的掉线情况。 1.3 本文研究的主要内容、目标和方法 本文应用背景为南京网通小灵通业务,针对如何建立客户流失预测模型,着手从以下几个阶段进行了研究: 1

16、.数据预处理。数据预处理过程包括数据清洗、数据规范、数据转换以及属性选取。这是个相当复杂的过程,它占用了整个系统的大约 70%的时间,经过数据预处理得到高质量的数据,将会对以后的建模工作产生极大的帮助。属性选取在整个数据预处理过程中显得尤为重要,因为原始数据中包括客户基本属性,客户行为属性等几2第一章 绪论 十个属性。如果将它们全部加入模型中,计算量将会很大,效率很底,而且模型的准确率也不高。事实上在这众多属性当中,很多属性之间是存在相互关联关系的,如果能通过算法发现这种潜在的关系,进而将属性进行约简,在此基础上建立起来的模型就更加精确,更加简单。本文采用遗传学习方法,根据评估函数值来决定哪个

17、属性集最适用,然后就在它的基础上建立模型,可以得到很好效果。 2.客户细分。对客户进行细分主要有两个方面的好处:一是对电信业而言,不同的用户群体在离网前表现出不同的特征。比如大学生,他们的通话行为和重要大客户之间有着非常明显的差异,因此他们离网前所表现出来的特征也存在着非常大的差别。这就需要将不同的群体分开来对待,针对不同的用户群体来建立预测模型,使得预测分析达到更好的效果。二是将客户划分成不同的群体,在群体内部客户之间具有相同或相似特征,在不同的群体间客户具有不同的特征。这可以让企业针对不同的特征采取个性化服务,会取得更好的效果。 本文在建立客户细分模型时采用了一种改进的划分聚类算法。主要是

18、将 k-means算法的一些缺点进行改进,改进的划分聚类算法将k-means算法和基于层次的聚类算法相结合,产生了更好的聚类结果。 3.客户流失预测。客户流失预测模型的主要部分是决策树分类器,但采用传统的决策树算法建模,产生的分类规则不能修改,缺乏全局搜索策略,结果很难得到最优的决策树。针对以上问题本文提出了一种基于遗传算法的数据分类方法,它是以每棵决策树产生的分类规则集作为初始种群,利用遗传算法的全局寻优能力找到一个最优的分类规则集。将该分类规则集应用到测试数据集上,如果满足误分类阈值,则将此分类规则应用于将要预测的数据集上,可以发现哪些客户将要流失,采取相应的手段进行挽留,尽量避免客户的流

19、失。 3第二章 数据挖掘基本概述 第二章 数据挖掘基本概述 2.1 数据挖掘的概述 2.1.1 数据挖掘技术概述 数据挖掘是信息技术自然演化的结果。在20世纪60年代,数据收集和数据库创建早期阶段,可以提供数据存储、查询检索和简单的事物处理。到 70年代,数据库系统的研究和发展从层次和网状系统发展到关系数据库系统(rdbms),用户可以通过查询语言、用户界面、优化的查询处理和事务处理,方便、灵活地访问数据。这时的联机事务处理(oltp)对大量数据的有效存储、检索和管理做出了巨大贡献。80年代中期,出现数据仓库,这是一种多个异种数据源在单个站点以统一的模式组织存储,可以支持管理决策。包括数据清理

20、、数据集成和联机分析处理(olap)。olap具有汇总、合并和聚集的功能,并可以从不同的角度观察信息。80年代末90年代初,产生了数据库中的知识发现(knowledge discovery in database),而数据挖掘(data mining)是它其中的一个基本步骤。但习惯上人们采用数据挖掘的广义概念,用其来5代替数据库中知识发现这个长的术语。 2.1.2 数据挖掘的定义 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、统计学技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在模式,预测客户的行为,帮助企业的决策者调整市场策略以减少风险,做出正确的决策。它并

21、不是一项全新的技术,它的出现与发展有其自身的必然性。随着公司数据库的猛增特别6,7是数据仓库的出现, 原有的数据库工具已无法满足用户的需求,用户不仅需要一般的查询和报表工具,更需要的是那些能够帮助他们从浩如烟海的数据中提取出高质量信息的工具,数据挖掘的出现和发展正好符合了这一潮流。它也是当前数据库和信息决策领域的最前沿研究方向之一。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐8含在其中的、人们事先不知道的、但又是潜在的有用信息和知识过程。 简单地讲数据挖掘就是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。2.1.3 数据挖

22、掘的研究内容 随着数据挖掘研究的逐步深入,数据挖掘的研究主要有三个方面来支持:数据库、人工智能和数理统计。目前的主要研究内容包括基础理论、算法研究、数据仓库、可4第二章 数据挖掘基本概述 视化技术、定型定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化9 和非结构化数据中的知识发现以及web数据挖掘等。22.1.4 数据挖掘的任务 数据挖掘的任务主要有七项:关联分析、序列模式发现、聚类、分类、预测、偏差检测、描述与可视化。 1关联分析 关联分析的主要目标是发现数据库中数据项之间是否存在某种关联关系。若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据

23、项的关联规则。关联分析广泛用于购物篮或事务数据分析。 在大型数据库中,关联规则的数量很多。通常,需要使用“支持度”和“信任度”两个阈值来筛选其中的强规则。 2序列模式发现 通过时间序列搜索出重复发生概率较高的模式。 在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分比阈值的规则。这些规则会随着形式的变化做适当的调整。 3聚类 聚类就是将数据库中的数据进行分组,使得每一组内的数据尽可能相似,而不同组之间的数据尽可能相异。聚类技术在统计数据分析、模式识别、图像处理等领域都有广泛的应用。 聚类不依赖于预先定义好的类,不需要训练集,属于无监督的学习。 在统计分析方法中,聚类分析是基于距

24、离的聚类,如欧氏距离、海明距离等。这种聚类分析方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。 在神经网络中,用于聚类的是自组织神经网络方法,如 art模型、kohonen模型等。 4分类 分类即区分数据类别,是数据挖掘中应用最多的任务。首先从数据中选出已经分好类的训练集,在此训练集上运用分类技术,建立用规则或决策树表示的分类模型,即找出一个类别的概念描述。然后,根据分类模型对于没有分类的数据进行分类。 建立分类决策树的方法,典型的有 id3, c4.5, ible等方法。建立分类规则的方法,典型的有aq方法、粗糙集方法、遗传分类器等。 5预测 预测是利用历史数据找出变化规

25、律,建立模型,并用此模型来预测未来数据的种5第二章 数据挖掘基本概述 类、特征等。预测与分类类似,不同之处在于,分类描述的是离散型变量的输出,而预测处理连续值的输出,同时分类的类别是确定数目的,预测的量是不确定的。 典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。 6偏差检测 偏差检测是通过数据分析,发现数据库中存在的数据异常情况的技术。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个阈值或多个阈值的汇总。参照是给定模型的预测、外界提供的标准或另一个观察。 7描述和可视化 数

26、据挖掘结果的表示方式,即对数据进行约简、概化或图形描述等。 22.1.5 数据挖掘的方法 1统计分析方法 统计分析方法是利用统计学、概率论的原理对各属性进行统计分析,从而找出它们之间的关系和规律。统计分析方法是最基本的数据挖掘技术方法之一。在数据挖掘领域,统计分析方法可用于分类和聚类。 2粗糙集方法 粗糙集理论是波兰z.pawlak教授在1982年提出的。在数据挖掘领域,粗糙集方法被广泛应用于不精确、不确定、不完全的信息的分类和知识获取。 3决策树方法 决策树方法就是利用训练集生成一个测试函数,根据不同取值建立树的分枝;在每个分枝子集中重复建立下层结点和分枝,这样便生成一棵决策树。然后对决策树

27、进行修剪处理,最后把决策树转化为规则,利用这些规则可以对新事例进行分类。典型的决策树方法实际上是根据信息论原理对数据库中存在的大量数据进行信息量分析,在计算数据特征的互信息的基础上提取出反映类别的重要特征。 典型的决策树方法有分类回归树cart,id3,c4.5等。决策树方法主要用于分类。 4神经网络方法 神经网络方法的原理是模拟人脑的神经元结构,以mp模型和hebb学习规则建立起前馈式网络、反馈式网络和自组织网络3大类多种神经网络模型。基于神经网络的数据挖掘工具对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络的知识体现在网络连接的权值上。 神经网络方

28、法用于非线性数据和含噪声的数据时具有更大的优越性,比较适合于6第二章 数据挖掘基本概述 市场数据库的分析和建模。目前,在数据挖掘中,最常用的神经网络是 bp和 rbf网络。但是,人工神经网络还是一门新兴科学,有一些理论尚未彻底解决,比如收敛性、稳定性、局部最小值以及参数调整问题等等。 神经网络具有对非线性数据快速拟合的能力,可用于分类、聚类、特征挖掘等多种数据挖掘任务,在事务数据库的分析建模方面有广泛的应用。 5模糊逻辑 模糊数学是继经典数学、统计数学之后,数学史上的又一新发展。针对一个问题,复杂性越高,有意义的精确化能力就越低。模糊性是客观存在的,当数据量越大而且复杂性越大时,对它进行精确描

29、述的能力越低,就是说模糊性越强。在数据挖掘领域,模糊逻辑可以进行模糊综合判别、模糊聚类分析等。 6规则归纳 规则归纳包括关联规则和if-then规则。 7聚类分析和模式识别 聚类分析主要是根据事物的特征对其进行聚类或分类,以期从中发现规律和典型模式。这类技术是数据挖掘的最重要技术之一。 8最近邻技术 通过k个与之最相近的历史记录的组合来辨别新记录。这种技术可用作聚类、偏差分析等挖掘任务。 9可视化技术 这是一类辅助方法,它采用比较直观的图形图表方式将挖掘出来的模式表现出来,从而增强数据的表达和理解力。这在数据挖掘中非常重要,数据可视化正受到日益广泛的重视。102.1.6 数据挖掘的过程 数据挖

30、掘是指一个完整的过程,该过程从大型数据库或数据仓库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。数据挖掘由以下步骤组成:1数据准备。这个阶段又可进一步分成 4个子阶段:数据清理、数据集成、数据选择和预分析、数据变换。数据清理就是消除噪声或不一致数据。数据集成将多文件或多数据库运行中的数据进行合并处理,建立统一的数据视图。数据选择就是从数据库中检索与分析任务相关的数据;预分析的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。数据变换就是把数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作。 2挖掘。这个阶段进行实际的挖掘操作,使用智能方法提取数据模

31、式。包括:7第二章 数据挖掘基本概述 决定如何产生模式;选择合适的工具;挖掘知识的操作;证实发现的知识等。 3知识表述。使用可视化和知识表示技术,根据最终用户的决策目的对提取的信息分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。 4评价。如果分析人员对结果不满意,可以重复上述三个过程,直到满意为止。 112.1.7 数据挖掘系统结构 典型的数据挖掘系统具有以下主要成分(见图2.1): 图形用户界面模式评估 知识库数据挖掘引擎数据库或数据仓库服务器 数据清理 数据集成 过滤数据库 数据仓库 图2.1 典型的数据挖掘系统结构数据库、数据仓库或其他信息库:这是一个或一组数据库、数据

32、仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。 知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其他例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)8第二章 数据挖掘基本概述 数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类聚类以及演变和偏差分析。 模式评估模块:通常,此

33、成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能深地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上。 图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。122.1.8 数据挖掘的应用 数据挖掘能够自动发现以前未知

34、的模式,自动预测未来趋势和行为。因此,数据挖掘技术广泛应用与以下领域: 零售/市场营销。这是数据挖掘技术应用最早也是最重要的领域,主要功能是:市场定位,消费者分析,预测销售趋势,优化营销策略,分析库存需求,选择零售点,价格分析等。在民航系统中,还可以帮助优化组合航线航班,发现提高航线效益的机票预定方式。 金融。预测存/贷款趋势,优化存/贷款策略;抽取预测模式;监督交易活动,发现交易规则。 信用保险。分析保险客户的要求和信誉、保险风险行为模式以及欺诈行为。 过程控制/质量监督。鉴别产品制造过程中的缺陷;管理由异常行为引起的通信网络数据。 化工/医药。从各种文献资料中自动提取有关化学反应的信息,发

35、现新的有用的化学成分,分析和解释有利于提高产品质量、改进产品功能和增加公司利润的重要数据。 司法。帮助调查案件,诈骗监测,洗钱认证,犯罪组织分析等。 军事信息系统中的目标特征提取、趋势关联规则挖掘等。 2.1.9 数据挖掘的研究现状及发展趋势 尽管数据挖掘的应用领域相当广泛,就我国当前的应用来看,尚处于萌芽阶段,企业大规模地运用数据挖掘技术的尚不多,个别企业或部门仅零星地运用数据挖掘技术。数据挖掘的工具已大量出现,一类是基于统计分析的软件,如:sas、spss等;9第二章 数据挖掘基本概述 另一类是应用与新技术如模糊逻辑、人工神经网络、决策树理论的工具如:cbr express、esteen、

36、kate-cbr、fuzzy tech for business等软件,但这些软件并不是包罗万象地应用于任何数据挖掘技术的软件,而是有所侧重。实际上,数据挖掘工具与实际应用的问题紧密联系,实践中要根据实际运用去开发适用于实际需要的数据挖掘工具。我国数据挖掘的软件运用和开发也未全面展开,尤其模糊逻辑、人工神经网络、决策树中对数据挖掘工具的开发不足。因此,开拓数据挖掘工具的应用和实践是10 未来数据挖掘工作中有待解决的问题。综上所述,未来数据挖掘的研究与应用的前景表现在两个方面。一方面,关于数据挖掘功能、工具、方法的拓展与理论创新的研究。对数据挖掘功能研究是工具、方法研究的前提,如果数据挖掘功能有

37、所创新,那么,新的功能必然会带动新工具、方法的研究。另一方面,随着 it技术在社会经济生活中的广泛应用,海量数据的产生已成为必然现象,数据挖掘在各个行业的应用研究也必然成为现实。因此,未来数据挖掘应用领域的研究将更加广泛,从数据挖掘应用研究的深度来看,决策支持系统、人工智能等方面对数据挖掘的应用深度将进一步凸现出来。 13 从数据挖掘的发展趋势来看,它也反映了面对挑战的应对战略:1应用的探索。通用数据挖掘系统在处理特定应用问题时有其局限性,因此开发针对特定应用的数据挖掘系统是很有必要的。 2可伸缩的数据挖掘方法。由于数据的迅速增长,因此针对单独的和集成的数据挖掘功能的可伸缩算法显得非常重要。

38、3数据挖掘与数据库系统、数据仓库系统和 web数据库系统的集成。数据挖掘系统的理想体系结构与数据库和数据仓库系统的紧耦合方式。因此保证数据挖掘作为基本的数据分析模块能够顺利的集成到这些信息处理环境中,将有重要意义。 4数据挖掘语言的标准化。 5可视化数据挖掘。 6复杂数据类型挖掘的新方法。 7web挖掘。 8数据挖掘中的隐私保护与信息安全。 2.2 数据挖掘与数据仓库、联机分析处理的关系 2.2.1 数据挖掘与数据仓库的关系数据挖掘经常与数据仓库联系在一起。数据仓库data warehouse是20世纪90年代提出的概念。有“数据仓库之父”之称的美国著名的信息工程学家/.on认为:数据仓库就是

39、面向主题的、集成的、稳定的、随时间不断变化的数据集合,用以10第二章 数据挖掘基本概述 支持经营管理中的决策制定过程。 5数据仓库具有如下特征: 1数据仓库是面向主题的。所谓主题,是指用户使用数据仓库进行决策时所关心的重点方面,如销售公司的数据仓库的主题为:客户、产品、时间、地区等。只有根据主题的需要完整地收集数据,才能构建满足决策和分析需要的数据仓库。2数据仓库是集成的。数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源要统一数据结构和编码,以及原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等。总之,要将原始数据结构做一个从面向应用到面向主题的大转变。这

40、些事物数据经过处理后,在数据仓库中形成整合的、结构化的、易于导航的数据,能对决策分析进行快速、正确的响应。3数据仓库是稳定的。此特性使数据仓库有别于传统的操作型数据库 odsoperational database system。数据仓库包含了大量历史数据,是对不同时期数据资料的综合、重组、统计导出的数据集合。操作型数据库频繁维护的是数据记录的增、删、修改等事务操作。而数据仓库一般关注于查询,仅在必要时才对数据予以更新,因而是稳定的。4数据仓库是随时间变化的。数据仓库内的数据时限在 5-10年,故数据的键码包含时间项,标明数据的历史时期,这适合决策支持系统进行时间趋势分析。5数据仓库的数据量很

41、大。通常,数据仓库的数据量为 10gb级,相当于一般数据库 100mb的 100倍,大型数据仓库是一个tb1000gb级数据量。目前广泛应用的数据库系统通常是为某一部门的具体业务服务,它的设计和实现都是以尽可能满足某一具体业务为目标。而数据挖掘是一种知识发现过程,它通常不局限于一种业务部门,常常要把几个数据库的数据合起来进行分析。但是不同数据库的数据在表示和格式上常常存在不一致性,这就大大增加了数据挖掘的成本和困难,因此需要一种将数据集中起来并加以统一的机制。数据仓库就提供了一种这样的机制。数据仓库是传统数据库技术的一种新的发展和应用。其实质仍是计算机存储数据的系统,但它存储的数据在量上和质上

42、都与传统的数据库有所不同。虽然数据仓库中完备的、经过组织的大量的数据为数据挖掘提供了很好的基础,甚至可以省去相当部分数据挖掘所要求的准备工作,但这并不意味着,要进行数据挖掘就一定要建立数据仓库。“数据仓库对数据挖掘并不是必要的,但建立数据仓库的目的就是为了数据挖掘”。可做这样一个比喻:数据仓库和数据挖掘好比一个大厨师烧11第二章 数据挖掘基本概述 菜,开始需要选择原料,然后,将各种原料加工完毕洗、切、剁等等,分门别类的放在厨房,这时候厨房就像数据仓库。厨师根据这些原料做出菜肴,就像数据挖掘得出有意义的知识。数据仓库和数据挖掘相互补充。数据仓库用于存储数据,而不是把它变为信息,而数据挖掘要做的工

43、作正是后者。142.2.2 数据仓库与联机分析处理的关系与数据仓库紧密联系在一起的是联机分析处理online analytical processing, olap,它是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。它可以简单地定义为共享多维信息的快速分析。根据olap委员会的定义,olap是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映维数据特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术。olap是在联机事务处理oltp基础上发展起来的,它们是两类不同的应用。oltp面对的是操作人员和低层管理人

44、员,是以数据库为基础,对基本数据进行查询、增、删、改等处理。而olap是以数据仓库或数据多维视图为基础的数据分析处理。olap 的目标是满足决策支持或多维环境特定的查询分析需求,它的核心技术是“维”的概念。olap以多维形式表示数据,使分析人员能够从不同的角度对数据仓库中的数据进行观察,如下钻、旋转、切片与切块等。同关系模型相比,多维概念模式和用户视图更接近人类的思维习惯,有助于模型设计和分析操作。用户通过“切片和切块”或维旋转可以轻松地完成传统方法难以完成的分析工作,也可以使决策人员更容易验证和发现有用的信息、提高决策的科学性和及时性。数据仓库与olap既有联系又有区别。olap的一个重要特

45、点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。数据仓库侧重于存储和管理面向决策主题的数据,而 olap则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。随着数据仓库的发展,olap也得到了迅猛的发展。152.2.3 数据挖掘与联机分析处理的关系数据挖掘与olap都属于分析型工具,但两者之间有着明显的区别。olap是一种自上而下、不断深入的分析工具:用户提出问题或假设,olap负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。也就是说,olap是建立一系列的假设,然后通过olap证实或推翻这些假设来最终得到自己的结论。比如,一个分析师

46、想找到是什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用 olap来验证他这个假设。如果这个12第二章 数据挖掘基本概述 假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。olap分析过程在本质上是一个演绎推理的过程。但是这种先入为主的局限性可能会限制问题和假设的范围。而且如果分析的变量达到几十或上百个,那么再用 olap手动分析验证这些假设将是一件非常困难和痛苦的事情。 数据挖掘与 olap不同的地方是,数据挖掘不是用于验证某个假定的模式模型的正确性,而是在数据库中自己寻找模型。

47、他在本质上是一个归纳的过程。它的分析过程是自动的。数据挖掘的用户不必提出确切的问题,而只需数据挖掘系统去挖掘隐藏的模型并预测未来的趋势,这样更有利于发现未知的事实。比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。 显然,从对数据分析的深度来看,olap位于较浅的层次,而数据挖掘所处的位置则较深。所处分析模型层次的不同决定了这两者的分析能力和所能回答的问题种类也不相同。数据挖掘和 olap具有一定的互补性,两者是相辅相成的。在利用数据挖掘得出来的结论采取行动之

48、前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么 olap工具能回答你的这些问题。并且随着olap的发展,olap与数据挖掘间的界限正在逐渐模糊,因为越来越多的 olap厂商将数据挖掘的方法融入他们的产品中,这可能是olap产品的一个发展方向。而且在知识发现的早期阶段,olap工具还有其他一些用途。可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现的过程。13第三章 数据的准备 第三章 数据的准备 3.1 客户流失分析数据挖掘过程 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程

49、,这些模型和关系可以用来做出预测。数据挖掘实施的步骤一般包括三个部分:数据的准备、模型的建立与模型的验证和评估。 数据准备 (数据抽样、数据特征分析、分析和预处理) 模型建立(决策树、神经网络、数理统计分析)验证和评价 (结论分析、调整数据、调整模型) 实施(提交业务人员、提交分析、进一步分析)图3.1 数据挖掘步骤 图3.1所示的各个步骤不是线性的,要取得好的结果就要不断重复这些步骤。系统中把数据挖掘得到的知识和市场的经验、客服的信息结合起来,应用于数据库中的数据进行流失客户的预测、分析,对确认有流失倾向的客户根据不同的情况进行预警处理,包括套餐资费调整、服务方式更改、竞争对手调查等,同时将

50、预警客户名单通过公司的数据交换平台下发给各个业务分区,进行摸底跟踪,实施关怀工程。 3.2 目标定义 目标定义在这里是指客户流失原因的定义。在客户流失分析系统中,需要明确客户流失的定义。流失又分为被动流失和主动流失,被动流失是因为客户欠费或不履行责任而被停机。主动流失有不同的原因,一类是客观原因限制所引起的异动,如搬迁等,另一类是客户主动放弃,如因为竞争对手的优惠政策,对目前的服务不满意等。 在这些群体中,那些主动流失的客户是本文要分析的对象,在这类群体中,可以根据用户信用度等级和此客户所带来的利润分成不同的小群体,如图3.2所示。14第三章 数据的准备用 高3 1 户 信用 低 度 4 2

51、低 高用户价值图3.2 客户重要性等级在这些小群体中,用户价值和信用度高的可能离网用户如图3.2中的类客户是本文最关心的对象,如果能够成功地预测出这类将要离网的客户,并且能够成功地挽留这类客户,将给企业带来非常可观的利润。对于那些信用度低而价值高的客户如图 3.2中的类客户是需要次关心的群体,他们可能会盗打,对这类客户加以挽留的同时需要采取一定的策略防止他们进行欺诈的可能。其次需要关心的群体是用户信用度高但价值低的客户如图3.2中的类客户,可以提供他们感兴趣的业务或实行4一定的优惠政策来加以挽留。第四类客户在通常情况下是可以不予考虑。 3.3 数据选择 客户历史行为数据中隐含大量与流失相关的行

52、为模式,数据必须围绕市场分析得到的与流失相关的信息来组建。客户流失分析用到的数据包括客户的基本信息,客户的合同信息,客户消费数据(每月帐单),通话行为特征(如通话频度统计、被叫方资料分析、语音和数据的通信特点)等,数据来自有 boss系统、大客户管理系统、客户服务热线、帐单管理系统以及手工报表等其他方式获得的数据。 从数据源中所得到的历史数据存在着量大、属性繁多、跨时段、跨地域、定义复杂、不完整等特性。首先需要从海量的数据库中选择适合分析的数据。因为离网用户在不同的时期有不同的离网特征,不能用两年前所建立的模型对两年后的数据进行预测,这样会使预测结果有较大的偏差,应将建模用的数据和预测数据取连续的一段时间或相近的一段时期。 根据业务情况,本文以南京网通为应用背景,取2005-01到2005

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论