电信帐单数据挖掘_第1页
电信帐单数据挖掘_第2页
电信帐单数据挖掘_第3页
电信帐单数据挖掘_第4页
电信帐单数据挖掘_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电信帐单数据挖掘概述1.1项目背景1.1.2数据挖掘和相关概念1.2.1数据挖掘的概念和过程31.2.2数据挖掘在电信管理中的应用.21.3项目计划.3.1.3.1项目目标3.1.3.2时间安排4.1.3.3人员组织5.二项目实施.6.2.1选择数据挖掘工具.6.2.2建立数据库表建立和数据清理7.2.3建立数据多维存储.8.2.3.1维度创建8.2.3.2OLAP 存储创建.1.02.3.3OLAP 数据分析112.4数据挖掘1.32.4.1决策树计算(月用户数量分析)142.4.2用户分类(聚类分析).15.1.6.三总结概述技术驱1.1 项目背景随着国内电信市场竞争的日趋激烈,电信运营商

2、的经营模式逐渐从 动”向“市场驱动 ”、 “客户驱动 ”转化。这就要求运营商要采取以客户为中心的策 略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此, 客户关系管理(CRM)成了电信运营商增加收入和利润,提高客户满意度、忠 诚度的有效工具。在客户关系管理的流程中,为了准确、及时地进行经营决策, 必须充分获取并利用相关的数据信息对决策过程进行辅助支持。 近几年迅速发展 起来的数据挖掘技术就是实现这一目标的重要手段。1.2 数据挖掘和相关概念1.2.1数据挖掘的概念和过程1数据挖掘的概念数据挖掘是根据企业的既定业务目标和存在的问题, 对大量的业务数据进行 探索,揭示其中隐藏的规

3、律,并将其模型化,指导并应用于企业的实际经营。数据挖掘是建立在数据仓库基础上的高层应用, 但数据挖掘跟数据仓库的其 它一些应用如 OLAP 分析、预定义报表和即席查询等有很大的区别。后三者通 常是用户根据已知的情况对所关心的业务指标进行分析; 而前者则是在业务问题 和目标明确但考察的问题不清楚时,对数据进行探索,揭示隐藏其中的规律性, 进而将其模型化。2数据挖掘过程数据挖掘是一个循环往复的过程, 通常涉及数据准备、 建立模型、 评估和解 释模型、运用和巩固模型等步骤。1)数据准备:数据准备工作包括数据的选择(选择相关和合适的数据)探索(了解数据分布情况和异常数据等)、修正(包括缺失数据的插值等

4、)和变 换(离散值数据与连续值数据的相互转换, 数据的分组分类,数据项的计算组合 等)。(2) 建立模型:选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。(3) 评估和解释模型:对模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。(4) 运用和巩固模型:对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化。The KDD Process17I II "Don Inteqrctation/ 卩恥E evaluciTion卩I?卩I吨沾电信运营商拥有许多熟的数据库应用系统,如网管系统、财务

5、系统、计费账务系统、112障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。如果针对客户关系管理相关决策分析的需求,对这些数据进行重组整合,就能充I IraiLlijniLed I 血I k Dluu ininiiig"*riLinsIbimfltionAISc lectioJvpiocessing JjI EiTei daia jJjDa LilJ-y1.2.2 .数据挖掘在电信管理中的应用分利用这些宝贵的数据,体现信息的真正价值。数据挖掘技术在电信行业主要应用领域如下:(1)客户消费模式分析客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信 息台的大量详单

6、、 数据以及客户档案资料等相关数据进行关联分析, 结合客户的 分类,可以从消费能力、 消费习惯、 消费周期等诸方面对客户的话费行为进行分 析和预测,从而为固话运营商的相关经营决策提供依据。2)客户市场推广分析客户市场推广分析(如优惠策略预测仿真)是利用数据挖掘技术实现优惠策 略的仿真, 根据数据挖掘模型进行模拟计费和模拟出账, 其仿真结果可以揭示优 惠策略中存在的问题, 并进行相应的调整优化, 以达到优惠促销活动的收益最大 化。3)客户欠费分析和动态防欺诈通过数据挖掘,总结各种骗费、欠费行为的内在规律,并建立一套欺诈和欠 费行为的规则库。 当客户的话费行为与该库中规则吻合时, 系统可以提示运营

7、商 相关部门采取措施,从而降低运营商的损失风险。4)客户流失分析根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据 与客户流失概率相关联的数学模型, 找出这些数据之间的关系, 并给出明确的数 学公式。然后根据此模型来监控客户流失的可能性, 如果客户流失的可能性过高, 则通过促销等手段来提高客户忠诚度, 防止客户流失的发生。 这就彻底改变了以 往电信运营商在成功获得客户以后无法监控客户流失、 无法有效实现客户关怀的 状况。1.3 项目计划1.3.1项目目标电信公司每个月的帐单有数百万条,牵涉到千家万户,这些数据中有很多宝 贵的东西, 可以从这些资料中获得宝贵的资料。 电信的产品非

8、常多, 主要有以下 一些种类:普通电话(市内电话) 、长途电话、小灵通和宽带业务,这些业务是 电信业务的主体;电信公司的帐单目前按自然月开帐,每个月给用户邮寄帐单; 电信公司具有划分为多个区域包括(区局、分局) 。项目的目标之一就是对这些数据进行分类统计,按照产品/时间/区域等对数据进行分类统计(建立三个维度),如本地、长途、宽带、小灵通用户数;本地(长途和小灵通)通话次数和平均时 长,语音ARP (平均用户收入)值,宽带 ARP值,小灵通ARP值等。决策树分析,统计月收入的变化情况,对用户进行聚类分析,将用户分为不同的等级。项目目标之二是进一步加深对数据挖掘的认识,通过上课,我们已经初步了解

9、了数据挖掘的基本原理和基本算法, 通过电信数据挖掘这个实践,可初步掌握数据挖掘的一般过程和工具,对数据挖掘有更深刻的认识,这对今后的工作是有 非常大的好处的。通过项目也可以促进项目组人员之间的了解, 取长补短,共同 提高技能。1.3.2 .时间安排初步时间安排为三周时间时间安排备注第一周项目需求系统分析人员分工选择数据挖掘工具 建立数据库表结构 建立挖掘模型第二周数据清理,转换成数据库表建立多维度OLAP数据存储模型OLAP数据分析第三周数据挖掘知识发现编写课题报告和演示报告,演示成果1.3.3人员组织项目实施2.1 .选择数据挖掘工具目前市场上的数据挖掘工具比较多,一般而言,目前市场上这些数

10、据挖掘工具又可分成两类一一企业型工具以及小型工具。企业型数据挖掘工具:应用在需要高处理能力、高网络容量和大数据量 的场合下。这些工具通常支持多种平台,并基于客户机 /服务器结构。它通常可以直接连接一些 复杂的数据管理系统(不像普通文本文件),并能 处理大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问题。企业数据挖掘工具的实例 有 IBM 的 Intelligent Miner 和 SAS Enterprise Miner, SPSS Clementine等。小型数据挖掘工具:它与企业型的工具着眼点不同。小型数据挖掘工具 或者是针对低端、低消费的用户

11、,或者是为解决特定的应用问题提供特 定的解决方案。比如 Oracle公司的Darwin,In sightful公司的In sightfulMiner,等等。本次项目选择的工具为 Microsoft An alysis ServiceMicrosoft SQL ServerOHkrwjfC 牟L S4rv*r 3000优点掌握快,易上手,适合初学者和本次项目 支持多种数据库,支持 ODBC接口成本低,SQL Server2000 自带的 Service Pack包缺点只能做很简单的挖掘工作,过于傻瓜 只支持基于维度的数据挖掘 只支持决策树和聚类分析2.2 .建立数据库表建立和数据清理根据电信帐单

12、数据挖掘项目的要求,选择比较简单的ACCESS数据库存储数 据,ACCESS的操作比较简单,由于数据库的通用性,今后也可以扩展到大型数 据库,如ORACLE,SYBASE , DB2等,建立如下的表结构如下:1.电信帐单事实表IS Nftrosuft Attei - Blll_rjLt :盍FSLi_Lldfttail_l J一血n卫Produe t D艮啊IcdlD rimc_lD"1 jinu 坦 T匕1t_count Tele fse粧单惊号(按眉富给用户)产品脈可估晋通叵话2艮遼电话.3宽常,4小灵通了 区壇瓏号局-时间通诂对创(竞蒂壬,埴写0 逋辭:甘埴写0) 15费该表记

13、录了电信的帐单2.产品表立件艰)褊4计屯、祀图ty)箫入任H民奁口(P 帮肋or:3.区域表EEBan&ssso比3丈件们J T J过1普J 7 r F叵舟1卜才d 4 3遥 總F更3F'rci;UGl_le1劳薦类型 产曲编号【1市苟电话,2扶遼申.话,(TS苻,i-卜天真SP丈本产品描述rM(T)弼口畀】帮朗(皿柳图(7)mA(l4.时可表2! F 13过1业七七中 T凹i-'尹手爭4 3 <3 T1左1J工字駁窖神1麴忘竺型1Prod Licl_in逊字产品IS号代市冉电话.2途龟话*缠带.韵炭通>lesp丈津产 n-lniiB Nicrobofl A

14、ccess TlriK_ldble ;未可豪;I于手¥4<3 T角;由于电信帐务数据库非常复杂,结构繁多,不利于数据挖掘,因此必须首先 进行数据清理,规范化数据。利于挖掘的数据库应该是星型或雪花形的数据结构,我们的数据库表的关联关系如图所示:Fockxc'.竝pKucIwlIPrrGductilD Kepi <sri Tti TJne.ID Tctc_nlnutT TeLe_coL>it leL= Zee:数据清理后得到以下的数据:总共建立计费数据事实表,数据总量为 132762条;建立从2003-2004年的时间表;建立区局-分局的对应关系表,总共13个区

15、局和180个分局;建立产品表(普通电话,长途电话,小灵通和宽带)2.3 .建立数据多维存储2.3.1.维度创建数据多维存储是OLAP (在线事物处理)的存储形式,不同于数据库的关系 结构,采用了立方体的存储结构,更利于数据的快速汇总和查找。立方体的结构以数据维度为基础,为此我们建立了三个维度,时间、区域和产品,有些维度分等级,如时间和区域就分两级维度,因为时间可以分到年/月,区域这里分为区局和分局两级。如图所示区域维的结构:I 襟皙4; Si'iC 工fel) 科丨_|皆白迅吕录 y J Ariihos jEr-CTFI- 'lil> hUlK'MflPJ 出 叩

16、=«nrrtWtJfXE :tl邛口口曲 W y wA| 4二囱B 闔国 空怦0 沁Li或E1W tt'-* 丄且心fPUftt) &口|二阳I割宅IJnJjdlb y尅F 电 jtJ?'- 书 Pt;CT« 2齐JS *T«lt -亡;产品 心1LJS 髯测61 JfSJE施 JS岂Iiret =?/;!*瓦r乐洁寻辛=中直二 色勇触博黑.*3直,自宅义科貝冬式s111丄|同样可创建其它维度,An alysis Service可根据多种表结构创建数据维度,如 同一张表内创建,表内的自关联创建,父子表的创建等。232. OLAP存储创建根据

17、Analysis Service的向导可以创建数据的多维存储,生成较容易分析的多 维存储结构,在本例中,帐单事实表的大小约为30MB,经过Analysis Service的处理生成OLAP存储后数据可以大大压缩,并以文件形式保存,减少了分析 的时间,特别适合统计工作。_ '-百 It .丸土 J 二-m帕zHhI i3l»dTh|纠圈种4|宿| 建I3'OCJCtJD cucrjfepxlJ 5动嫩吏JTTeiEM弧坤宦审号:妙 产tSnR: 12:H7 c;%缈z、甲F邂菇计0!|師冃-辛军4坛落rs« - 已13 己就方应利#SaT甜矿宙FI*fi妇计的

18、址ffl。0 和晋nd. 12>37.17 i*sl:flW. 12.时期 WtJlird: 0:00.01E氐:SWF ft星诵尸S;晕取计-* K9f网施弔户鮭曲计"S3y=ac=jef吕上 n_V*ir e_nDntnfS用:一皂4,三却三恳三£厂IiT二盖ac” 15匡皿吏233. OLAP数据分析利用OLAP分析工具和生成的OLAP存储文件,可以对数据进行初步的分析 工作,如图所示:2<< 1駝5672内口 -酬*iiiB4i町 IdI所哥Listg-(Tw町耳賂*liR知卜2m和DI02-in<,1H_:?简Z川神酒计电軒 WE I

19、65; 092Affl 兰I曽S即iII IMS?. 卫砂 比叩1 bJbS)»' djoa乙g阳rJt刪jSO&iDwcL«lJjSM叫62IDJ<2曲BLtD5J零?53at5.3<lt£l>.:S?2?4n171佔I1斗1ID料H3Z列4,DieJL初MJ/_斗円务直*JttrJUtl* *20:VB SiFf陶邛卉i片严”鬲临DI勺血,w4屿3Qi4.?iiL434jJ4J;iWHD'j 吋 0505U?IDUIJ2Anj殆理 嗨*町 片站if.AEIT 打石3M妙5H詞B219ZZ畑|1JH 尿 I呼 la 歿

20、回LE2沖24jD|iJMA'+.075lyfeJ&JP9MlFru>L 3Tr BJ - ridID30由上图可见各年度,各区局,各种相关产品的统计情况,可进行上钻和下钻的操作,如先看每年的情况,下钻后可以看到每月的情况,粒度更细微,为分析提供的数据更详细,同理也可只看某一区局的数据,通过下钻可以看到更细的分局的数据。还可以通过不同维度的排列组合,获得所需要分析的数据,满足不同用户对数据分析的需求。此外还可以提供钻取功能,直接看到数据库的原始记录,更方便分析。如图钻取数据库的原始数据:I 0鉴刼主舉豔-品初册翊虧BBEI所頁迂礒M H7BNrasO erLsrol週话国

21、I间-所盲严岳'1顾3i6|33£,2L週处412IFil_aJOTi亘iqI 爾I口 pel»_niinute|Tile_ctnjnt|T#e_-e«£160Zfi SDQ W 2soa 3100 Z30O 2+ULl M£ 400 231 3100 輕304166>*ll&O££Kafi'ffi11 Bin217=15E.%11沪0托IQ匚1(569711呼011 士E牺llSQieIQI:ISBW11盹16lac15700il盯51S7D111B7516gt1却iies纲佻16703llf

22、tTSJQC施1165321IGOCiieo1引IOCl-i/iJhllBTo川诙1S70711B7075*S2iK7rm 11 "fl1* nr GPinJPr5duct_des: 普11目话 昔诵cfl诣 普迪訓 长迷習迫电诘 晋II耳恬普通电iS 習II爼IS晋迺砲恬 習诵岂1S 誉速f?话竺区区区区区医匡国区区苣區区叵万 化隔展汹保悶鹉_站站馬!SWSL.哼r2.4 .数据挖掘数据挖掘基于OLAP,但是OLAP只是数据挖掘的基础,而本身并不是数据 挖掘。数据挖掘有一些方法:如关联分析、分类和预测、聚类分析等,每一种类方 法又有许多不同的算法:如分类预测就包括判定树、贝叶斯分类

23、、后向传播分类、 回归算法等。目前Microsoft Analysis Service仅支持聚类分析和决策树算法,决策数算法可以根据以下例子说明:市场部想分析当前销售事务并找出客户统计信息(性别、婚姻状况、年收入 等等)和所申请会员卡(金卡/银卡/普通卡)之间的模式。然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。可能得到如下的决策树:全部女性20-30 岁男性40-50 岁<20岁>50岁20-40 岁>40岁30-40 岁<20岁>10万金卡5-10 万»银卡<5万»普通卡>12万金卡4-12 万*银卡>4万

24、87;普通卡根据以上决策树,我们可以判断客户选卡的模式,30-40岁年收入大于10万的比较偏好选择金卡。根据决策树所构造的结果是实现我们并不知道的一个结果,就象关联分析中我们并不知道尿布和啤酒是关联商品, 往往用户会同时 购买一样,决策树的分枝是有数据和决策树算法决定的,如果使用现成工具进行决策树的挖掘,我们无法预料能产生什么样的决策结果。241 .决策树计算(月用户数量分析)根据以上算法计算一个决策树,判断各月的收入情况,可以得到以下的分析结果:毡皈I树(£): product Desp合广 Is.trSi*«含计 1 =r77fiz innj26D213L 1.6652

25、2, 37, IO,.J莅点BrtKD)r:nw kbCL = 05Zi关河 I羽Bh(H) I可以看到某些月份用户数量比较多,而有些月份用户数量比较少。这样市场 部就可以根据用户数量在淡季进行有针对性的促销活动。242 .用户分类(聚类分析)我们要求对用户进行分类,但我们并不知道要怎么样分类,我们将数据交Anaylise Service处理,Anaylise Service为我们得到一个分类,可以作为用户分类的依据。氐»则黑真甥i除U *1啦酬EftiU rt.(D Uld;斗*3!HI到弘血宅I用跡1i 鼻讪 id :J. TlK r&j'PrwuctKSjIprcriinx3翊寄I3mrutuxJkF*心価TgF. -l4FwLS 3 flg也2下®全寵T£ F4 a MMl韦r 仲RK A T Z JS(Wf:*132fliZ WW.UU*2珈标411C.UPHil电寻116552竝13350Ifl.CKPig分类结果如下表所表示:月话费用户数百分比<3531.259700073%3531.25-10056.252469718.6%10056.25-1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论