(信号与信息处理专业论文)基于呼叫中心crm系统的数据挖掘研究.pdf_第1页
(信号与信息处理专业论文)基于呼叫中心crm系统的数据挖掘研究.pdf_第2页
(信号与信息处理专业论文)基于呼叫中心crm系统的数据挖掘研究.pdf_第3页
(信号与信息处理专业论文)基于呼叫中心crm系统的数据挖掘研究.pdf_第4页
(信号与信息处理专业论文)基于呼叫中心crm系统的数据挖掘研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨理t 大学t 学硕i j 学位论文 基于呼叫中心c r m 系统的数据挖掘研究 摘要 近年来,客户关系管理( c r m ) 作为一种旨在改善企业与客户之间关 系的新型管理机制越来越得到企业的重视,并已经渐渐发展成为一套管理技 术和软件实现系统。而随着通信技术和呼叫中心相关技术的发展,c r m 软 件实现系统在呼叫中心中的应用也越来越广泛。数据挖掘作为其重要的功能 扩展在企业的客户关系管理中也发挥着举足轻重的作用。 首先,对呼叫中心c r m 系统及其数据挖掘应用在国内外的发展、研究 和应用的概况进行了详细分析。根据数据挖掘内容、本质、研究领域及算法 应用,确定c r m 系统需求。 其次,在系统需求分析的基础上采用了b s 体系结构的系统解决方 案。通过基于n e t 与s q l 2 0 0 0 数据库的前后台结合设计,使c r m 系统与 数据挖掘功能有机的结合。再根据系统实际需要及数据挖掘功能的要求,对 c r m 系统进行具体设计实现,并为以后升级做好准备。这些功能的实现使 得系统的主要功能得以完成,对呼叫中心系统的整体运行也起着重要的作 用。 最后,给出了数据挖掘功能在c r m 系统中的具体应用。通过聚类分析 的方法对企业客户进行分群。实践证明此方法是行之有效的。 c r m 系统运行结果表明,该系统运行稳定,符合具体工作的要求。基 于n e t 与s q l 2 0 0 0 的软件结合设计,实现了高效的软件开发、提高了软件 的重用性和扩展性,为更好的对客户数据进行数据挖掘提供了便利。 关键词数据库;c r m ;数据挖掘 哈尔滨理工大学t 学硕一l :学位论文 r e s e a r c ho fd a t am i n i n go fc r ms y s t e mb a s e do n c a l lc e n t e r a b s t r a c t i nr e c e n ty e a r s ,c r m ( c u s t o mr e l a t i o n s h i pm a n a g e m e n t ) a t t r a c t i n gt h e c o r p o r a t i o ni s an e wm a n a g i n gs y s t e mt oi m p r o v et h er e l a t i o ns h i pb e t w e e n c o r p o r a t i o na n dc l i e n ta n dn o w i sas e to fm a n a g i n gt e c h n o l o g ya n ds o f t w a r e i m p l e m e n ts y s t e m w i t ht h ed e v e l o p m e n to ft h ec o m m u n i c a t i o nt e c h n o l o g ya n d r e l a t i v ec a l l i n gc e n t e rt e c h n o l o g y , c r ms o f t w a r ei m p l e m e n ts y s t e mi su s e d w i d e l y i nt h ec a l l i n gc e n t e r d a t am i n i n gp l a y sa ni m p o r t a n tr o l ei nt h e m a n a g e m e n t i ne v e r yi n s t i t u t e sa n dc o r p o r a t i o n f i r s t ,t h i sa r t i c l ea n a l y s e st h ec a l lc e n t e rc r ms y s t e ma n dt h ed a t am i n i n g s d e v e l o p m e n t ,r e s e a r c ha n da p p l i c a t i o ni n t h ed o m e s t i ca n df o r e i g nc o u n t r y d e t e r m i n et h er e q u i r e m e n t so ft h ec r ms y s t e mb yt h ec o n t e n t ,e s s e n c e , r e s e a r c h i n ga r e aa n da r i t h m e t i cu s i n go ft h ed a t am i n i n g s e c o n d ,b ss y s t e mi su s e di nt h es y s t e ma n a l y s i sa sap r o j e c t w ea c h i e v e t h eo r g a n i cc o n n e c t i o no fc r ms y s t e ma n dt h ed a t am i n i n gb a s e do nt h e c o n n e c t i o no f n e ta n ds q l 2 0 0 0f r o n t - b a c kg r o u n dd a t a b a s e a c c o r d i n gt ot h e p r a c t i c a ls i t u a t i o na n dt h en e e do ft h ed a t am i n i n g ,w ed e s i g nt h ec r ms y s t e m a n dp r e p a r ef o rt h el a t e rp r o m o t i o n a c h i e v i n gt h ef u n c t i o nm e a n sa c h i e v i n gt h e m a i nf u n c t i o no ft h es y s t e m ,a n di t p l a y sai m p o r t a n tr o l ef o r t h ew h o l e m o v e m e n to ft h ec a l l i n gc e n t e rs y s t e m f i n a l l y ,d e m o n s t r a t et h eu s i n go ft h ed a t am i n i n gi nc r ms y s t e ma n d c l a s s i f yt h ec l i e n t sb yt h ec l u s t e r i n ga r i t h m e t i c t h ep r a c t i c ep r o v e dt h i sm e t h o d i se f f e c t i v e t h ec r ms y s t e mr u n sw e l l ,i ti n d i c a t e st h a tt h es y s t e mi ss t a b l e c o n f o r m s t ot h ec o n c r e t er e q u i r e m e n t b a s e do nt h es o f t w a r eu n i o nd e s i g no f n e ta n dt h e s q l 2 0 0 0 ,w er e a l i z e dt h eh i g h l ye f f e c t i v es o f t w a r ed e v e l o p m e n t ,i m p r o v et h e i m p o r t a n tp o s i t i o na n dt h ee x t e n s i o no ft h es o f t w a r e p r o v i d et h ec o n v e n i e n c eo n 哈尔滨理_ t 大学工学硕上学位论文 t h ed a t am i n i n gf o rb e t t e ru s e k e y w o r d sd a t a b a s e ,c r m ,d a t am i n i n g i i i 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于呼叫中心c r m 系统 的数据挖掘研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位 期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外 不包含他人已发表或撰写过的研究成果。对本文研究工作做出贡献的个人和 集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签名:缉目霞筵日期:善,嘲年妒,凹 哈尔滨理工大学硕士学位论文使用授权书 基于呼q 中心c r m 系统的数据挖掘研究系本人在哈尔滨理工大学 攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归 哈尔滨理工大学所有,本论文的研究内容不得以其它单位的名义发表。本人 完全了解哈尔滨理工大学关于保存、使用学位论文的规定,同意学校保留并 向有关部门提交论文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨 理工大学可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全 部或部分内容。 本学位论文属于 保密 口,在年解密后适用授权书。 不保密硪 ( 请在以上相应方框内打) 作者签名:零斓召垒生日期:喇年。妒归 导师签名:扁动从吼如8 年口岁月f ) 日 哈尔滨理t 大学t 学硕:l :学位论文 第1 章绪论 1 1课题的来源和研究背景 本课题来自黑龙江省科学技术馆的呼叫中心项目c r m 系统。黑龙江省 科学技术馆坐落在哈尔滨市太阳岛科技园区,是以面向公众开展科普展览、 科技培训等科普教育宣传活动为主要目的和工作任务的社会宣传教育场所。 应该馆的要求,我们为其构建了一个小型的基于c r m 的呼叫中心系统,并 为科技馆c r m 系统提供数据挖掘分析应用及c r m 系统需求分析及设计。 经济的全球化趋势和电子商务的快速发展,正以前所未有的广度和深度 改变着传统的业务运作方式,计算机和通信技术的进步也正在建立和强化人 与人之间的联系。市场需求逐渐呈现多变性和多样性的特点,企业之间的竞 争也日趋激烈,如何充分发挥网络技术的优势,使其在这种新的竞争环境中 立于不败之地就变成了每个企业所面临的新课题1 。通过比竞争对手提供更 好的客户服务来保持竞争的优势,是近年来众多企业选择的主要手段。这就 意味着各种服务机构迫切需要采用新的技术手段,为客户提供高效、快捷、 优质的服务,以树立企业形象,提高竞争力卜1 。在这种背景下,数据挖掘技 术和c r m ( 客户关系管理) 成为了各大企业的首选。而其中数据挖掘功能 的应用更是为企业提供了全新的客户关系管理方法。 数据挖掘( d a t a m i n i n g ) ,又称数据库中的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) ,是指从存放在数据库、数据仓库或其他信 息库中的大量数据中自动地发现相关模式、提取有潜在价值的信息、挖掘知 识的过程,它是数据库研究中的一个很有应用价值的新领域,融合了数据 库、人工智能、机器学习、统计学等多个领域的理论和技术。有些数据挖掘 工具还能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览 整个数据库,找出一些专家们不易察觉的极有用的信息。因此可以说c r m 的成功在于成功的数据仓库、数据挖掘及知识发现。目前数据挖掘研究的领 域主要有处理不同类型数据、数据快照和时间戳、数据挖掘算法的有效性和 可靠性、交互性用户界面、在多抽象层上交互式挖掘知识、在不同数据源挖 掘信息、私有性和安全性、和其他系统的集成、i n t e r n e t 上的知识发现等。 呼叫中心是一种全新的基于计算机电话集成技术的客户服务模式,它在 企业和客户之间架起了一座桥梁,不仅为企业增加了市场份额,更提高了老 哈尔滨理t 大学t 学硕l :学位论文 客户的“忠诚”度和满意度,同时也为发展新客户奠定了基础p 1 。c r m ( 客 户关系管理) 是一种“以客户为中心 的新型商业模式,是一种旨在改善企 业与客户之间关系的新型管理机制,其目标是提高效率、拓展市场和保留客 户,最大限度发展客户与企业的关系,实现客户价值的最大化r 。近年来, 由于c r m 系统的数据挖掘强大作用表现得越来越突出,为众多商家带来了 可观的利润和效益,也为广大顾客带来了方便,因而引起了越来越多方面的 注意,并已经开始应用于政府部门和事业单位中,诸如电业部门、交通部门 等等非盈利为主的单位p 1 。由于数据挖掘和c r m 在提高企业服务方面所具 有的优势和强大作用,基于c r m 的数据挖掘就孕育而生了,并且越来越获 得众多企业的青睐。 本课题主要就是负责这一c r m 系统建立及其数据挖掘研究实践。 1 2课题研究的目的和意义 黑龙江省科学技术馆作为一个窗口行业和工程中心,怎样更好地开展工 作,为其用户提供更好的服务,是馆内呼叫中心工作的中心问题。而作为其 呼叫中心的核心,其基于数据挖掘功能的c r m 系统将为其用户提供电话、 传真、短信等多种接入方式,满足用户在馆情咨询、会员服务、投诉申告、 新产品试用等方面的基本需求。通过其呼叫中心c r m 系统,科技馆可以随 时了解客户的要求,掌握客户信息、服务质量及经营管理的状况,在内部进 一步节约人力资源的消耗,从而更好的为用户提供全面细致的服务,并在企 业经营维系客户方面达到良好的效果。 黑龙江省科技馆呼叫中心c r m 系统的建立,引入了电子信息技术与计 算机应用技术的科研成果,通过数据仓库、网络、语音、多媒体等多种先进 技术的融合,满足客户不同层次、个性化、精细化及多样化的业务需求,洞 察客户活动、维持客户关系、提高客户满意度和忠诚度,使潜在的客户转变 为现实客户,创造出更大的经济及社会价值。数据挖掘是数据库研究中的一 个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等 多个领域的理论和技术。有些数据挖掘工具还能够解决一些很消耗人工时间 的传统问题,因为它们能够快速地浏览整个数据库,找出一些专家们不易察觉 的极有用的信息因此可以说c r m 的成功在于成功的数据仓库、数据挖掘 及知识发现。 哈尔滨理工大学t 学硕 :学位论文 1 3国内外研究现状 1 3 1国外研究状况 自g a r t n e rg r o u p 提出c r m 概念以来,国外对c r m 系统及其数据挖掘 研究就一直处于爆炸性的发展之中。早期的c r m 系统主要应用于产品的销 售环节,s c o p u s 公司及c l a r i f y 公司于2 0 世纪8 0 年代将c r m 系统引入呼 叫中心体系中,使呼叫中心有了长足的进步。9 0 年代中期a u r u m 等一些公 司整合了国际c r m 市场,c r m 系统随之成为独立的产业一。9 0 年代后期 c r m 系统集成度越来越高,一整套的销售、客户服务、销售、营销分析都 被纳入c r m 系统之中。伴随而来的数据挖掘研究也是日新月异,各种算法 层出不穷。 进入二十一世纪,随着c t i 技术、无线通讯技术、计算机技术的发展 尤其是以互联网技术为核心的网络技术的高速发展,使c r m 系统从一个封 闭的结构单一的体系变成一个开放的结构多样的综合系统。数据挖掘作为其 应用也实现了w e b 应用。目前,国际上的c r m 系统的技术已经趋于完善, c r m 系统的发展逐渐从技术领域过渡到数据分析处理领域,数据挖掘功能 就是此领域最好的诠释。c r m 系统及其数据挖掘的应用性、整合性以及综 合分析性能已经受到各大c r m 厂商得关注1 。i b m 、惠普等c r m 系统提供 商加快由技术提供商向服务方案供应商的角色转变,预示着i t 将离我们越 来越近,而基于数据挖掘功能的c r m 作为一种信息化产品,其不仅是一种 高附加值的技术性产品,更重要的是一种资源优化配置和信息优化整合的应 用性产品,这种产品将当前快速发展的信息通信技术与计算机数据挖掘技术 完美地结合在一起,使商业运作更加快捷、高效和经济p 1 。c r m 系统的数 据挖掘正在国外各大企业的客户关系管理中扮演重要角色。 1 3 2国内研究进展 相比之下,我国的c r m 系统及其数据挖掘应用的研究起步较晚,当国 外的c r m 系统已经形成独立的产业时,国内企业才刚刚开始了解c r m 这 个概念。而其数据挖掘的应用更是远落后与国外。之后,我国的一些软件企 业开始代理国外的c r m 系统软件,逐步把c r m 系统引入中国的市场,数 据挖掘这一概念也渐为我们熟知。随着我国市场经济体系的逐步确立,特别 哈尔滨理t 人学t 学硕1 :学位论文 是我国加入w t o 之后,c r m 系统市场随之启动并迅速成为商业市场追逐 的热点。随着国内众多厂商对c r m 管理软件的熟悉、认可和接受,我国对 略类c r m 系统数据挖掘管理软件的需求也呈现出急剧上长的势态p 。与此 同时,国内一批l t 行业的前行者也已开始了此类软件的开发研究,并出现 了一大批自主版权的c r m 产品,如m y c r m 、p o w e r c r m 、用友c r m 、 t u r b o c r m 等等,都是在这短短几年时间内掘起,并占有了一定的市场份 额。近年来,由于国外软件业大幅度进入中国市场,使国内c r m 系统及其 数据挖掘设计水平有了飞跃式的提高。 在内容上,自从进入二十一世纪以来,同质化成为市场特征,企业保持 竞争力的唯一手段就是业务的“精耕细作 ,呼叫中心c r m 的“精细化” 已成为业界的主流声音,而数据挖掘的研究正是在这个背景下逐步精细起来 的。最主流和前沿的先进技术工具被各厂商广为采用。数据挖掘功能对 数据库的支持也从过去单一支持某类产品转变为支持多种大型数据库,如 o r a c l e 、s q ls e r v e r 、d b 2 等等。在技术研发中,注重基于数据挖掘的c r m 系统对多种操作系统如u n i x 、l i n u x 、w i n d o w s 等的支持,使产品的兼容性 大大增强;另一方面提供多语言版本和易于使用的二次开发工具,实现开放 式的数据结构和标准的数据接口,使c r m 得以与企业o a 、e r p 等系统有 效进行整合应用“。这样使得数据挖掘得到了更广阔的应用。 总体来说,国内的c r m 产品在技术上已经基本与国外的厂商持平,然 而由于国内c r m 理论水平比较低,因此涉及到大型的智能分析型c r m 系 统时,国内厂商的竞争力就落后于国外厂商了“。为了应对这种局面,国 内越来越多的c r m 厂商纷纷引入了数据仓库和数据挖掘技术,使产品具有 分析能力以提高自身的竞争能力。 1 4课题研究的主要任务 由于c r m 系统及其数据挖掘功能的应用在国内还处于发展壮大阶段, 因此其具有广阔的市场前景。 本课题任务就是以黑龙江省科学技术馆呼叫中心c r m 系统为基础,在 c r m 系统中应用数据挖掘聚类分析进行客户分群应用。在已有的c s 模式 基础上,设计并实现此呼叫中心系统的b s 模式的c r m 软件系统及对用户 进行深层数据挖掘。以微软公司推出的m i c r o s o f t n e t ( n e t ) 网络平台为 开发环境,充分利用其中集成的a s p n e t 和a d o n e t 技术、i n t e r n e t 技术 哈尔滨理工火学1 = 学硕一1 :学位论文 以及数据库等核心技术,结合科学技术馆的实际情况和业务需求,建立一个 以顾客为中心的统一客服平台。本课题主要工作包括: 1 论述了c r m 系统及其数据挖掘应用的发展、技术概况、及在国内 外的研究及发展概况。 2 阐述了数据挖掘内容、本质、研究领域及算法应用,结合其研究确 定c r m 系统需求及技术选型。 3 论述了结合数据挖掘功能的c r m 数据库系统的具体实现过程和方 法。此系统主要包括系统操作、资料管理、多媒体业务、业务信息 管理、班长服务等。 4 阐述了对科技馆c r m 系统资料管理等模块中客户数据进行聚类分 析式数据挖掘,确定其可行性。 第2 章数据挖掘与c r m 系统 2 1数据挖掘的内容和本质 c r m 系统中的数据挖掘是当下各大企事业单位对客户数据进行深层分 析的实用方法。那么什么是数据挖掘研究的内容和本质呢? 下面就这几个问 题进行一下说明。 2 1 1数据挖掘的内容 随着数据挖掘研究逐步走向深入,数据挖掘的研究己经形成了三根强大 的技术支柱:数据库、人工智能和数理统计。目前数据挖掘的主要研究内容 包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知 识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识 ( 或模式) 发现以及网上数据挖掘等。数据挖掘就是在不同领域对已有的大 量数据进行深层次分析,找到其中可应用处,进行具体处理“。 数据挖掘所发现的知识( 或模式) 最常见的有以下几类: 1 概念描述 概念描述是指提供给定数据集的概貌,或将它与对比类相区别,从而产 生数据的特征化和比较描述。对于存在数据库中的大量数据,能够以简洁的 形式在更抽象的层次上描述数据,能够帮助用户考察数据的一般行为。概念 描述的典型应用是概念层次树,即按照某种偏序关系建立一种描述数据的结 构。 2 分类模式 分类模式是指通过训练数据集导出描述并区分数据类的模型或函数,用 于预测新的数据集。一般在建立分类模型时,使用一部分数据作为训练样 本,用另一部分数据来检验、校正模型。由于在建立模型之前,训练样本的 结果是已知的,模型的产生是在受监督的情况下进行的,因此分类模式属于 有监督的学习。导出模型可以表现为多种形式,如决策树、数学公式或神经 元网络等。 3 时间序列预测 它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也 哈尔滨理_ t 大学t 学硕一l 二学位论文 可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典 的统计方法、神经网络和机器学习等。1 9 6 8 年b o x 和j e n k i n s 提出了一套 比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随 机模型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和 季节调整模型等,进行时间序列的预测。由于大量的时间序列是非平稳的, 其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段 历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任 务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存 预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建 立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测 1 1 5 1 o 4 偏差型知识 偏差性知识是对差异和极端特例的描述,揭示事物偏离常规的异常现 象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不 同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观, 以满足不同用户不同层次决策的需要。 2 1 2数据挖掘的本质 本质上说数据挖掘是一个从大型数据库中提取以前未知的、可理解的、 可执行的信息并用它来进行关键的商业决策的过程,是用在知识发现过程, 来辩识存在于数据中的未知关系和模式的一些方法,是发现数据中有益模式 的过程,是我们为那些未知的信息模式而研究大型数据集的一个决策支持过 程。 2 2 数据挖掘算法及应用分析 算法是数据挖掘实现其在客户关系管理系统中挖掘客户信息的关键,好 的算法可以使企业节省大量人力物力,使效率得到提高。下面简单介绍几个 在数据挖掘中广泛应用的算法,通过对比他们的优缺点,得出本系统中数据 挖掘功能采用的具体算法。 2 2 1 聚类分析算法及应用 数据分析过程可分为查询型及确定型。数据分析过程按目的可分为假设 哈尔滨理r t 大学t 学硕十学位论文 验证及决策制定两种类型。聚类分析是由若干模式组成的,通常模式是一个 度量的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一 个聚类中的模式之间具有更多的相似性。在很多应用中,聚类分析得到的每 一个类中的成员都可以被统一看待。 聚类分析可应用在没有有关数据的先验信息可用,而用户又要求尽可能 地对数据的可能性少进行假设。所以说聚类方法特别适合于察看数据点中的 内在关系以对它们的结构进行评估。而客户就是在不知道先验信息的前提 下,尽可能少进行假设,这样得到的信息更准确。因此第四章采用此方法对 用户进行分群,实践证明此方法是行之有效的”。 但是没有哪种聚类技术是万能的,并不是所有的聚类技术都以相同的性 能揭示聚类的特征,因为聚类算法对聚类的形状或聚类的配置需进行假设, 这些假设是基于相似性度量及聚集边界条件等。对二维的自动聚集过程我们 还可勉强完成,但大部分涉及聚类的实际问题是多维的,直观地去解释多维 空间嵌入的数据是非常困难的问题m 。 聚类分析的算法可分为几大类: 1 分裂法 给定一个有n 个元组或者记录的数据集,分裂法将构造k 个分组,每 一个分组就代表一个聚类,k y 4 0 ,0 0 0 工作时n 5 年 高负债 低风险高风险 高风险低风险 图2 - 2 一棵简单的决策树 f i g 2 - 2 as i m p l ed e c i s i o nt r e e 决策树中最上面的节点称为根节点,是整个决策树的开始。本例中根 节点是“收入 ¥4 0 ,0 0 0 ”,对此问题的不同回答产生了“是”和“否”两个分支。 假如负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝哪 些贷款,那么他就可以用贷款申请表来运行这棵决策树,用决策树来判断风 险的大小2 6 1 。 建立决策树后需对其进行修剪。目前决策树修剪的策略有三种:基于代 价复杂度的修剪、悲观修剪和m d l 修剪。在实际使用中用的较多并且较好 的是m d l 修剪。 m d l 原理类似于最小消息长度原理,该方法主要用于归纳决策树。 对m d l 的一种解释方法是基于统计学的解释,即利用贝叶斯推理。对 于给定的数据d ,可以选择一个假设h ,使p ( h d ) 最大。可以从f i s h e r 的 最大似然度原理推导出m d l 原理。设h 是一个假设,h e h ,日。f h ;l ,d 是一个观察的数据集,则由b a y e s 法则有 p ( h d ) = 警 ( 2 - ,) 希望找到假设h + ,使p ( h d ) 最大,则有 h = a 唱h m a 印xp ( h d ) ( 2 2 ) 对式1 两边取对数得式( 2 - 3 ) _ l o g2p ( h d ) = - l o g2p ( 印- l o g2p ( d h ) + l o g2 尸f d ,( 2 - 3 ) 哈尔滨理t 大学工学硕一i :学位论文 使p 假佃) 最大化等价于使1 0 9 :p ( h d ) 最d 、。由于l o g :p 徊) 是常数,则 等价于使式( 2 4 ) 最小。 - l 0 9 2 p 例- l o g2 p ( d h ) ( 2 4 ) 若将1 0 9 :p 看作从假设,例中得到的信息量, 同理, l o g2 p ( d h ) = t ( d b ) ,式( 2 1 ) 与( 2 - 2 ) 可改写为: h = a r g n 已t ( j + j 徊刎) ( 2 5 ) 式( 2 5 ) 证明概率最大的假设使在假设及样本中的信息量之和最小, 即等价于m d l 原理卜“。 决策树算法的缺点是它很难基于多个变量组合发现规则,不同的决策树 分支之间的分裂也不平滑,计算复杂度高。因此在科技馆客户数据这种多变 量组合不适用此方法。 2 2 1 3关联规则算法及应用 关联规则是发现交易数据库中不同商品之间的联系,这些规则反映顾客 购买行为模式。发现这样的规则可以应用于顾客购物分析、目录设计、仓储 规划、网络故障分析等卜。 关联分析反映一个事件和其他事件之间依赖或关联的规则。如果两项或 多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行 预测。关联规则是形如x 专y 的规则,其中x ,y 为属性一值对集( 或称项目 集) 且x n y 为空集。在数据库中若a 的实例同时包含x 和y ( 或s 的实例 包含x u y ) 则关联规则x 专y 的支持率为s 。若c 的包含属性一值对集x 的事务也包含属性一值对集y ,则关联规则x 专y 的置信度为c 。一般来 说,需要找出的是支持率和置信度分别大于或等于用户指定的最小支持率 ( m i n s u p ) 和最小置信度( m i n c o n f ) 的关联规则。关联规则采掘过程可以分解 为以下两个子问题:找出所有的频繁项目集及其支持率;根据找到的频繁项 目集导出所有的置信度大于或等于用户指定的最小置信度的关联规则。第二 个子问题的解决是直截了当的,所以一般的研究集中在第一个子问题上 【2 9 】 关联分析本质是寻找大的项集问题,即寻找所有含有给定置信度的规则 的问题。发现所有大项目集的算法在数据上进行了多次遍历。在每次遍历 中,从大项目集的一个种子集合开始,并用这个种子集合产生新的潜在的大 哈尔滨理工人学工学硕i :学位论文 项目集,称为候选项目集。在遍历数据的时候寻找对这些候选项目集有价值 的支持。在遍历的最后,确定候选项目集中的哪些确实是大的,然后它们就 变成下一次遍历的种子。这个进程持续直到找不到新的大项集。在第一次遍 历中,计算单独项目的支持度,并确定其中哪些是大的。这可看作是潜在大 项目集的空间中的宽度优先搜索p 。 关联规则只反映客户需求信息关系,对大量客户关系深层挖掘不够,因 此在科技馆客户关系管理中并不适用此方法。 2 3c r m 系统需求与功能 根据黑龙江科技馆实际需要,c r m 系统的数据挖掘要知道各类客户的 相关资料。在科技馆的数据库中藏有大量的用户资料,通过我们设计的 c r m 系统及其数据挖掘功能,可以把这些平时不太为人所用的资源合理利 用,产生新的应用价值。建立本c r m 系统就是为以后的数据挖掘作准备。 2 3 1系统需求 由前面数据挖掘功能及算法分析建立c r m 系统。本c r m 系统以黑龙 江省科学技术馆的呼叫中心系统为基础,在其基础上进行c r m 系统建立及 数据挖掘应用。科学技术馆以面向公众开展科普展览、科技培训等科普教育 宣传活动为主要目的和工作任务的社会宣传教育场所。馆内可随时举办各种 临时展览、培训,举办各类大小不等的会议。黑龙江省科学技术馆长期地为 全省人民及外地参观者服务,是实现黑龙江省科技、经济、文化、教育发展 的重要窗口和城市形象工程。针对c r m 系统应用的实际情况,设计一个基 于w e b 数据库技术的呼叫中心c r m 系统。同时以此系统为基础,为科技馆 提供数据挖掘功能扩展。本系统的实现目标是:通过在网上操作本系统,使 座席人员在客户信息的管理上系统化、规范化。最终实现的应用系统应操作 简单、运行高效、界面友好。并具有方便的数据挖掘应用。系统的功能模块 应容易修改、容易扩充。 科技馆呼叫中心c r m 系统的主要服务内容包括:接听电话并记录用户 信息、接收和发送传真、接收和发送短信、接收并查看客户留言、定制工 单、查看电话记录等p ”。接听电话并记录用户信息的流程:用户接通科技 馆的呼叫中心电话后,会听到语音提示,用户可以通过按相应的数字键来听 取有关科学技术馆的各方面信息,如果用户没能得到想要的信息,则可以通 哈尔滨理工人学工学硕士学位论文 过按“o 键而转到人工座席处,这时座席人员便会与用户进行电话交流, 并在过程中将有关客户的部分信息记录下来。此外,座席人员可以通过 c r m 系统接收客户发来的传真和短信来得知客户的一些请求,也可以通过 发送传真和短信来通知客户一些消息或解决一些请求。当客户打入电话而座 席人员都繁忙而无人接听电话时,客户可以在语音信箱中留言,座席人员闲 暇时会查看留言并作出相应处理。座席人员尤其是班长座席还要经常和客户 定制一些工单,来详细记录业务往来中的细节信息,使得业务合作得以圆满 完成p “。系统还可以查看所有的电话记录,作为系统分析的依据以及从中 搜索一些重要的信息等。通过上述各功能,提供相应的数据,来进行数据挖 掘功能的应用。 系统的主要使用对象包括普通座席人员、班长座席、系统管理员以及职 能部门人员,系统的任务就是能够使这些用户通过在网页上进行操作,便可 以完成上述功能的所有流程。 2 3 2系统功能划分 本系统围绕科技馆座席人员管理客户信息的流程,主要围绕三个对象元 素一前台人员,包括普通座席人员和班长座席;后台人员,包括系统管理员 和外拨管理员:职能部门。为不同客户数据的数据挖掘做好了准备。 普通座席人员是是呼叫中心的主要角色,主要处理客户通过渠道的接入 和通过渠道的呼出任务,包括目标信息的收集、服务信息的收集等。这些信 息为以后的数据挖掘应用提供了数据,即处理客户信息。 班长座席具有呼叫中心的座席功能和座席管理功能,包括客户呼口l 的接 入( 主要通过软电话转接、咨询、会议等方式) 功能;工单的创建、处理功 能;报表的查看;座席监督功能;如拦截、监听等;任务的指派。 系统管理员进行系统权限的分配和参数的维护,包括用户管理、权限管 理、参数修改、增加、注销等。 外拨管理员进行外拨的管理,包括外拨活动的创建、外拨脚本的创建、 外拨活动的审核、外拨列表的管理等外拨管理工作。建立外拨数据备案,进 行数据挖掘。 职能部门主要协调处理呼叫中心的相关工作,如工单的处理、非系统业 务的处理等。处理数据存入数据库,以备数据挖掘。 通过上述分析,明确了具体管理客户关系流程及不同人员各自的工作安 排,合理的调配了任务,增加了企业工作的效率,这在我们实际应用中效果 哈尔滨理t 大学工学硕, :学位论文 良好。将客户数据进行有效的收集整理,再分别录入数据库,通过对数据库 客户资料的数据挖掘来实现更好的服务。 具体划分见表2 3 。 表2 3 角色描述图 t a b l e2 - 3d e s c r i p t i o no fr o l e 角色 角色描述 是呼叫中心的主要角色,主要处理客户通 座席 过渠道的接入和通过渠道的呼出任务,包 括目标信息的收集、服务信息的收集等 前台人员 具有呼叫中心的座席功能和座席管理功 能,包括客户呼叫的接入( 主要通过软电 班长 话转接、咨询、会议等方式) 功能;工单 的创建、处理功能;报表的查看;座席监 督功能;如拦截、监听等;任务的指派 进行系统权限的分配和参数的维护,包括 系统管理员 用户管理、权限管理、参数修改、增加、 注销等 后台人员 进行外拨的管理,包括外拨活动的创建、 外拨管理员 外拨脚本的创建、外拨活动的审核、外拨 列表的管理等外拨管理工作 主要协调处理呼叫中心的相关工作,如工 职能部门 单的处理、非系统业务的处理等 2 - 3 3 系统功日匕b 删t 4 4 - 述 科技馆c r m 系统具体包括系统操作、资料管理、多媒体信息查询、业 务信息查询和班长服务五个功能模块。每一个功能模块均与管理客户信息和 保持与客户的关系息息相关,从具体信息的管理到查询管理,不同权限的用 户所进行的操作及得到的信息都是不相同的。这样得到的信息都可为以后不 同功能的数据挖掘提供素材p “。系统功能模块分类情况见图2 - 4 所示。 系统操作模块主要完成座席人员的注册、登录和身份验证等功能。 资料管理模块主要负责用户资料管理和电话簿管理,完成更新、查询和 哈尔滨理丁大学丁学硕l :学位论文 管理用户的详细资料和座席人员常用和重要的电话资料。另外本模块可进行 数据挖掘功能的扩展,在电信等其他行业进行应用。 多媒体业务信息查询模块主要负责完成留言管理、传真管理、短消息管 理等功能。 业务信息查询模块主要负责完成对各种业务信息的查询和管理工作,诸 如即时消息管理、工单管理、提醒信息管理、电话记录查询、外拨记录查询 等。 班长服务模块主要负责完成只有班长座席才能设定的一些特殊的业务服 务,包括投诉信息管理、座席评分管理和特殊用户管理。 c r m 系统 系统操作ii 资料管理ii 多媒体信息查询li 业务信息查询ii 班长服务 用 户 退 出 囊ii 薹ii 羹i 耋i 耋il 薰i 童ll 耋 1 翼耄ll 萋萋il 垂 图2 4c r m 系统功能分泪示意图 f i g 2 - 4s c h e m a t i co ff u n c t i o no fc r ms y s t e m 2 4c r m 系统技术选型 殊 用 户 管 理 系统在设计开发过程中在众多选择中选用了一些技术,是出于深思熟虑 的。基于数据挖掘的实际需要,系统放弃了c s 模式而采用了b s 模式、 采用n e t 平台而非j 2 e e ,选用s q ls e r v e r2 0 0 0 而非o r a c l e 等数据库,下 面通过对这些选择进行比较来说明这样选择的原因。 2 4 1b s 模式与c s 模式选型 现代企业管理信息系统平台模式主要有c s 模式和b s 模式两种。通常 一个典型的应用可以分为以下四个部分:表示逻辑、事务逻辑、业务逻辑、 数据逻辑。它们分布在客户和服务器两端,c s 两层体系结构就是把表示逻 辑放在客户端,把数据逻辑和事务逻辑放在服务器端,而业务逻辑视情况而 定。从物理结构上来说,c s 两层体系结构的前端是客户机,即用户界面 ( c l i e n t ) ,接受用户的请求,并向数据库服务器提出请求;后端是服务器, 即数据管理( s e r v e r ) 将数据提交给客户端:客户端将数据进行计算并将结果 呈现给用户。服务器还要提供完善的安全保护及对数据的完整性处理等操 作,并允许多个客户同时访问同一个数据库。 在过去应用系统开发过程中,c s 两层体系结构得到了广泛的应用。其 优点是c s 结构在技术上很成熟、交互性强、具有安全的存取模式、网络 通信量低、晌应速度快、利于处理大量数据。但是它也有以下缺点:一是当 客户端数目激增时,服务器端的性能会因为负载过重而大大降低;二是客户 端和服务器端祸合度太高,变更不够灵活,维护和管理的难度较大,不利于 扩展:三是由于该结构的每台客户机都需要安装相应的客户端程序,一旦应 用的需求发生变化,客户端和服务器端的应用程序都需要进行修改,给应用 维护和升级带来了极大的不便,不能实现快速部署安装和配置,只能由具有 一定专业水准的技术人员去完成;四是大量的数据传输增加了网络的负载。 为了解决这些问题,人们将业务逻辑层提取出来作为单独的中间层。中 间层为所有用户共享,作为整个系统的核心,提供了以下主要功能:负责客 户机与服务器、服务器与服务器间的连接和通信;实现应用与数据库的高效 连接:提供一个多层结构应用的开发、运行、部署和管理的平台,具有事务 处理、安全控制以及为满足不同数量客户机的请求而具有进行性能调整的能 力。这样,就使传统的二层c s 结构演变成三层b s 结构,在层与层之间 相互独立,任何一层的改变不会影响其它层的功能,所以它极大地降低了客 户端和服务器的祸合度,企业需求变化时,改动业务逻辑层的内容即可,不 影响其他层,管理和维护变得相对简单;也使客户端的工作量减少,开发和 管理工作向服务器转移,使得分布式数据处理成为可能p 。但是三层结构 也有其缺点:一是计算能力过于分散,客户端维护费用随着客户端的增加而 递增;二是对数据库的资源使用限制在局域网范围内,无法使用i n t e r n e t 资 源。 w 曲客户和w 曲服务器之间通过h t t p 协议通信。在这种结构下,使 用浏览器( 如i e ) 与某一台主机或系统进行连接,并不需要更换软件或再启动 其他软件,所以用户的界面具有一致性,易于操作。另外,由于开发环境独 立于用户的前台应用环境,提高了系统应用的跨平台性,也便于系统的扩 展、管理和升级等。这种结构成为当今应用软件的首选体系结构。b s 三层 哈尔滨理t 大学丁学硕一i :学位论文 体系结构具有以下优点:一是瘦客户端结构。客户端只要安装浏览器,系统 扩展也非常容易,所有开发均集中在服务器端;二是具有开放性和可跨平台 性,可以很容易与互联网上资源连接p “。但是b s 也有其缺点:它采用点 对点、多点对多点的开放的结构模式,并采用t c p i p 这一类运用于i n t e m e t 的开放性协议,其安全性无法和适用于局域网的网络协议( 例如w i n d o w sn t 的n e t b e u i 协议) 相比,只能靠信息加密和身份验证来保证,需要构筑防火 墙来进一步提高系统的安全性p ”“。 综上所述,b s 与c s 这两种技术各有利弊。但由于b s 多层体系结构 是目前主流的开发模式,它具有分布性强、维护方便、开发简单且共享性 强、总体拥有成本低的优点,适合我们对数据挖掘功能开发简单、数据处理 快、共享性强等要求。所以我们决定采用b s 模式开发库存装备管理系 统。 2 4 2n e t 和j 2 e e 选型 目前b s 模式下的开发平台主要有两种:s u n 公司的j 2 e e 和微软公司 的n e t 平台。两种技术平台各有其优势,需要认真分析二者的不同来决定 适合c r m 系统的方案。c r m 系统需要一个稳定、高效能的开发和应用平 台,需要集成的开发环境和相对较低的成本投入。这样的c r m 系统能够适 应不同数据挖掘功能的需要,并为以后的功能扩展提供便利。j 2 e e 和n e t 两种平台都是经过市场上众多企业的实践检验的成熟、高效的平台,二者对 于x m l , w e bs e r v i c e 等的支持也相差不多,但是还是有很多区别。 1 开发环境 n e t 有强大的程序开发工具v i s u a ls t u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论