运用呼叫中心的电子邮件整合顾客信息用于客户流失预测_第1页
运用呼叫中心的电子邮件整合顾客信息用于客户流失预测_第2页
运用呼叫中心的电子邮件整合顾客信息用于客户流失预测_第3页
运用呼叫中心的电子邮件整合顾客信息用于客户流失预测_第4页
运用呼叫中心的电子邮件整合顾客信息用于客户流失预测_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.:.;经过呼叫中心电子邮件整合顾客的声音进入决策支持系统,为客户流失预测Kristof Coussement, Dirk Van den Poel比利时根特大学,经济及工商管理学院,市场营销系,比利时根特Tweekerkenstraat 2, 9000 Ghent,2006年10月9日收到;2007年8月7日收到修正方式, 2021年1月21日被接受;2021年三月十七日在线提供摘要:我们研讨流失预测决策支持系统性能优化的问题。 特别是,我们调查以下措施的有利影响,即经过呼叫中心的电子邮件参与顾客的声音, 即文字信息 到一个只运用传统营销信息的客户流失预测系统。 我们发现,参与非构造化文本信

2、息到传统的流失预测模型,使预测性能显著添加。 从管理的角度来看,这个综合框架协助 营销决策者更好确实定最容易改动的客户。 因此,针对他们的客户保管活动能更有效,由于这个预测方法能更好得预测客户谁更有能够分开。关键词: 客户关系管理CRM , 数据发掘 , 客户流失预测 , 文本发掘 , 呼叫中心电子邮件 , 顾客的声音VOC , 二元分类模型简介在过去,公司专注于销售产品、知识甚少的效力或针对购买产品客户的有关战略。今天的商业正在从这种“以产品为中心演化到“以客户为中心的环境。企业需求找到方法来获得和提高市场份额,同时降低本钱7。因此,现有企业必需重新思索与客户的业务关系24。客户关系管理CR

3、M正在成为在今天的商业环境中胜利的关键要素2,16。目前正经过实施数据发掘从构造化数据仓库获得客户信息35。管理客户流失的一种方法,是预测哪些客户最有能够分开,然后针对性实施鼓励措施使他们留下来。因此,这些是支持营销决策者对正确的客户实施正确的营销活动。一个由Burez和Van den Poel进展的田间实验9曾经阐明,公司从大范围转向针对性的营销战略转变,可以提高盈利才干。坚持和满足现有的客户比高耗费地吸引新客户利润更高26。确定哪些顾客最容易改动很重要17。为了建立一个有效的客户挽留方案,公司必需建立一个模型,该模型应尽能够地准确;现实上Van den Poel and Lariviere

4、 36的研讨阐明坚持率的一个小变化能够会导致盈利才干的显著变化。我们决议有必要经过呼叫中心电子邮件整合客户的声音进入一个传统的客户流失预测模型使其成为更好的模型:一个具有较高的预测性能的模型。资讯科技的急速开展和互联网使客户与公司沟通更加方便,呼叫中心正在迅速扩展范围,数量和规模1,由于许多公司依托他们处理客户关怀的问题,提供产品信息25。然而,市场营销经理往往忽视这些有价值的信息,由于i它不能直接适用于传统营销环境;ii很少关注内部知识如何转换为文字信息分析的方式;iii并无随时可以运用的框架整合信息。我们开发了一个客户流失预测决策支持系统,它从营销数据库的客户电子邮件中集成了自在格式的文字

5、资料。虽然以前的研讨中曾经过VOC了解客户的需求和行为如文献10,11,21,仍没有在流失预测模型中运用VOC的先例。方法论Fig. 1. An integrated churn-modeling system that uses structured, database-related information and free-formatted, textual information.采用构造化的、数据库相关信息和自在格式的、文本信息的一个完好的流失模型系统LSI:潜在语义索引CV:交叉验证数据搜集构造化的营销信息可以从普通的营销数据库中提获得到,普通营销数据库中一切事务和与市场营销相关

6、的信息都已储存。相比之下,呼叫中心的电子邮件是高度非构造化的。因此,从电子邮件中提取信息,需求细致的前期处置,获得相关细节并列入流失检测/预测决策支持系统。预处置数据和文本预处置构造化信息内部可以在一个非常低的本钱下,预加工和整合到我们的模型中。但是原始电子邮件本质上是非构造化的。他们经过索尔顿的向量空间被转换成一个构造化表示31: 电子邮件是被描画为一个向量加权频率指定的单词。因此电子邮件是n维向量,在字典中有n个不同的项。每个向量部分反映的遵守电子邮件6语义的相应项的重要性,并且假设项存在,每个组件有一个分量,否那么为零。因此,电子邮件的搜集用一个电子邮件项的矩阵表示。Fig. 2 sho

7、ws the steps in this pre-processing phase whereby raw emails become a term-by- matrix.raw text cleaning:原始文本清洗word-token separation:单词标志分别tokenization:标志化case conversion:实例转换part-of-speech taggingPOS:词类标注stemming:变形term filtering:项过滤stopwords removal:无用词移除manual check:人工检查term vector weighting:向量项加权

8、document vector aggregation:文档向量聚集 第一步,原始文本清洗,从文字中删除特殊字符和标点符号,与参考运用的代名词数据集的字典中的单词比较,拼写错误纠正。将输入流标志化转换成记号或文字。它对将被转换为小写大小写转换的单词运用空白分隔符。词性标注单词语法类别:有益的名词,动词,描画词和副词或者无益的。其次,项被他们的词干所取代,例如connect是 connected, connecting, connection, 等的词干,显著减少项数量5和提高检索性能19。一个基于字典的词干被运用。当一个项是不能识别的,规范的决策规那么适用于给这个项正确的词干。 这个过程的结果

9、是高维电子邮件的矩阵,有许多不同的项。这个矩阵经过恳求项过滤而减少:生僻字被淘汰,由于他们在未来的分类中很少有用。词频按照Zipf分布37:因此,其中一半只出现一次或两次。消除这些阈值内的单词,往往产生很大的节约22。无用词如“the或a也将被删除。下一步,讲话的无益的部分被排除在外。一个项过滤阶段的最后一步是手动检查暂时字典,删除不相关的字词。 在项的矢量加权阶段,构造每封电子邮件的加权项向量。到如今为止,在电子邮件项矩阵的值只是原始的项在一封电子邮件中出现的频率。Spark Jones33阐明当运用加权的项矢量时,检索性能显著改善,。项权重往往是经过确定产品的项的频率TF和逆电子邮件频率I

10、DF27-29,34。结果是一个高维加权电子邮件矩阵。附录A详细引见了项的矢量加权阶段。 在最后一步,产生聚合电子邮件的矩阵即电子邮件向量聚合。其目的是使属于同一客户的电子邮件向量聚集。这是必要的,由于客户可以在察看期间发送多个电子邮件,当从一个角度预测点出发,预测每个个人客户。作为这样一个聚集同一客户的一切电子邮件信息是必要的。一切邮件第i项的聚合权重Awij,属于下标j每个不同的项运用作为流失建模阶段特征会导致解释变量无力。此外,由于高维特征空间,一个电子邮件大部分权重是零。因此,运用大而稀疏的电子邮件矩阵将在预测建模方面适得其反。 维度缩减电子邮件矩阵汇总加权维度经过运用潜在语义索引LS

11、I被减少。组合在一同相关项减少了特征空间的维数 12。 Deerwester等人12利用奇数值分解SVD的方式从电子邮件语义上概括。它运用的某些项,出如今类似的电子邮件中建立项之间的关系。因此,SVD工程,从高维项空间的电子邮件到一个规范正交,语义,概念组合在一同的类似项的潜在的子空间。因此,每一个概念可以用许多不同的关键字来描画,由于相对于降低的特征空间中其他概念,它具有较高的区分才干。更详细的LSI运用SVD的信息,请参见附录B。最正确维度选择降维过程中的SVD阶段的强度是至关重要的。理想的情况下,数的概念k,必需足够大,以适宜在电子邮件中搜集的一切根底和相关的概念,又必需足够小,以防止模

12、型出现拟合抽样误差和不重要的细节。此外,获得最优的k必需是从一个角度预测点出发是可行的。在要素分析的文献中,这样的选择依然是一个悬而未决的问题。 Deerwester等人12建议运用业务规范,即K值,产生良好的性能。在我们的运用程序,我们对SVD的输出预测性能特别感兴趣。最初的预测模型验证时,不能够知道什么K值将导致一个最正确的处理方案时。因此,假设包含太少的概念,参数k的选择不当是无效的;假设有太多不相关的概念纳入,那么计算会很昂贵,。因此,参数选择程序是必要的。我们构建几个rank- K模型和最有利的rank- K模型基于交叉验证的性能保管作进一步分析。因此,最正确的K值是在运用了五倍交叉

13、验证的训练集上获得。训练集分为5个大小相等的子集。反复地,每个部分是用于验证,而其他部分用于训练。因此,在每一种情况下 训练集预测一次。交叉验证性能更好地反映了看不见的数据的真正性能。最后,它是可以选择最有利的交叉验证模型的根底上最正确的k值。kim18指出,对数据分析师来说思索信息量和预测模型的复杂性之间的关系是非常重要的,由于紧凑的信息模型显示了在预测性能和鲁棒性方面的大大提高。建模2.3.1. 建模技术与变量的选择运用逻辑回归。在运用它时, 为了变成一个适当的数据3,一个极大似然函数生成并最大化。利用训练集T = (xi,yi)和i = 1,2,N 和输入数据的xiRn代码和相应二进制目

14、的分类yi 0,1 ,逻辑回归是用来估计概率P(y = 1|x)经过以下公式:xiRn是一个n维输入向量,w为参数向量和w0为拦截。Neslin等23表示,运用这种技术是由于它的概念很简单8,后验概率的封锁方式的处理方案是可用的,它提供了在流失预测中的快速和稳定的结果。变量选择是根据他们的预测性能消除一些变量的一个子集选择的过程。Kim等人18指出,运用一个变量选择技术的主要有三个缘由:节省计算时间,从最少的变量中提取尽能够多的信息,提高模型的可了解性和使决策模型更好地概括。我们的研讨采用了前瞻性的选拔程序:该算法在一定时间内添加一个变量。第一个进入模型的变量,具有最高的X2统计。在每一步中,

15、其他的变量被以为是列入最终模型,直到停顿规那么触发,前瞻性选择添加变量停顿。本规范的变量选择技术的选择,使得它很容易实施,而更复杂的算法计算更加昂贵,并且需求额外的参数设置。2.3.2.评价规范为了评价分类模型的性能,运用两种常用的规范是:接纳操作曲线AUC下的电梯和地域。电梯是最常用的绩效衡量规范评价分类模型。它反映了事件的流失密度在总数据库中的密度相对添加。电梯越高,预测模型越好。在市场营销运用中,它的添加是有趣的,尤其是在排名前10的情况下最有能够流失。营销决策者通常是在整个营销数据库中只需10的权益,由于预算往往是有限的,为减少流失通常涉及的行动在整个客户数据库中只需10。实践上,一切

16、的案件都是按照从最有能够流失到最不容易流失。之后,排名前10的情况下最有能够流失的密度与整个客户搜集的流失的密度相比。这种密度的添加,被称为顶级等分电梯。直观地说,等分电梯的两种手段,在排名前10的情况下最有能够流失,流失的密度是在整个数据库中的流失的密度的两倍。AUC是思索与该事件的真正类的事件的预测类,思索一切能够的临界值。因此,AUC思索到能够的是阈值范围的个人级的性能。假设真阳性TP是正确识别的阳性数,假阳性FP是归类为阳性阴性数,假阴性FN被确定为阴性的真正阳性案例数,真阴性TN是归类为阴性的案例数然后灵敏度TP /TP + FN:预测为阳性的阳性例的比例;特异性TN /TN + F

17、P:预测为阴性的阴性例的比例对于这些多种多样不同的阈值。接纳机操作特性曲线ROC是一个相对于1-特异性灵敏度的二维图。为了比较两个或更多分类模型,接纳机操作特性曲线下计算面积的。这项措施是用来评价二进制分类系统的性能15。为了测试,假设两个AUCS 是不同的,可以恳求非参数检验等。 13。阅历证明研讨资料在我们的研讨中,我们运用了一个大型的比利时报纸出版公司获得的数据。用户支付一个固定的价钱,他们的报纸根据认购的长度而定套餐和促销优惠。公司不允许用户届满日期前终了其认购。因此,客户流失预测问题涉及预测客户能否将在到期后的4周内重新订阅。在此期间,报纸出版公司还提供报纸,为了让用户在规定时间更新

18、其认购,公司拥有一个构造化的营销数据库,买卖和认购的相关信息都存储在其中,他们保管一切客户的电子邮件发送到呼叫中心。图3显示我们的研讨分析中的时间窗口 Fig.3. Time window of analysis从2002年1月至2005年9月的订阅数据进展了分析,因此,它是能够的定义依赖和解释变量。2004年7月和2005年7月之间对一切重建点进展了审议。一位顾客被视为一个流失客户,未在到期日的4周后重新订阅。解释变量构建了两个可用的信息类型。这些都是用来预测能否将重新订阅。第一种类型的变量包含构造化营销数据库中的信息。这些变量包含在30个月内的信息。他们被分为4个类别见附录C:客户端/公司

19、的互动变量订阅相关变量重建和特定变量社会经济人口统计第二类信息,包括他/她在去年同期经过电子邮件发送的一切认购信息。由于这些信息是高度非构造化,邮件预处置代表他们在我们的客户流失预测模型中。为了比较从客户流失预测模型的呼叫中心电子邮件中获得的非构造化信息的有利影响,可以思索在认购的最后任期内至少发送一个电子邮件订阅。表1和表2总结了随机分成训练和测试集的数据特征。训练集,以获得最正确的SVD维和模型估计,而测试集是用来验证和比较不同的模型。 选择最优维度文本预处置阶段,生成高维电子邮件矩阵。从预测的观念来看,这是行不通的。其最正确的降低范围是经过在训练数据上运用一个交叉验证程序获得的。图4显示

20、了这种交叉验证的结果; X轴和Y轴代表的AUC交叉验证。很显然,在1-100范围内,交叉验证的性能显著提高。从100单位开场,交叉验证的AUC增长速度减慢,而在约170单位,交叉验证的性能稳定。包括超越170单位,导致一个更复杂的流失模型的预测性能,而难以提高。因此170的单位是在我们的研讨文本信息中的最正确选择。此时,在单位数和预测性能之间到达一个良好的平衡。Fig. 4. The cross-validated AUC during the optimal dimension selection phase.定义最正确的构造性销售变量 构造化的营销信息模型的预测性能和模型性能比较值钱,结合

21、构造化的营销信息和文字信息构造化非构造化模型,构造化的营销变量的最优集合是经过采用前瞻性选择方法建立的。它产生一个有20个营销变量的最优子集见表3。构造化模型经过运用20个营销变量建立,而构造化非构造化模型是经过20个营销变量和以文字信息为代表的变量结合建立的,如170个附加变量。表3. 运用前瞻性选择发现的最优构造化销售变量步骤步骤变量名1间隔 上次赞扬时长2货币价值3间隔 最后一次暂停时间4当前订阅时间长度5当前平均订阅赞扬定位6先前订阅到期前能否更新7用户能否是女人8到期前更新日期的差别天数9更新点数量10报纸版天性否是x111用户能否公共机构12先前订阅更新到到期所差的天数13悬架的x

22、次方的数量14平均悬架时间长度的x次方15悬架数量16平均悬架时间长度17购买鼓励能否是直接营销活动18报纸能否被商店收录19最后一次支付方式转变到当期的时间长度20支付方式转变X:可变性订阅长度折算步骤。决议了20个最正确销售变量预测性能比较表 4, 图 5 ,6阐明构造化非构造化模型性能显著超越构造化模型的。在传统的预测模型中参与文本信息,AUC从73.80增长到77.75.这样的提高是显而易见的(x2 = 23.1, d.f. = 1, p 0.001).构造化非构造化模型的接纳机操作特性曲线ROC比随机构造化模型曲线定位得更远,虽然覆盖的区域构造化非构造化模型ROC比构造化模型大得多。

23、构造化非构造化模型可以更好的区别流失客户和非流失客户。此外,文本信息在预测性能模型上的有效影响在top-decile lift得到确认。构造化-非构造化模型累积提升曲线在构造化模型之上,构造化-非构造化模型可以比构造化模型更好确实认处于危险边缘的消费者。Lift在第一等分或10的顶级等分,即10的点 - 从2.69添加到3.07。我们的研讨提供了一个现实的框架,为文本信息可获取的用户添加了流失的预测性能模型。表4. 构造化模型和构造化-非构造化模型性能: 测试集上的AUC and top-decile lift AUC Top-decile liftTop-decile lift构造化模型73

24、.802.69构造化-非构造化模型77.753.07Fig. 5. 构造化模型,构造化-非构造化模型的ROC曲线 和随机模型(或零信息模型).构造化模型和构造化-非构造化模型建立在那些和公司坚持最少一次邮件联络,和多次联络,不联络的订阅用户上的。必需核实那些至少发送一次电子邮件的用户的单独流失模型是建立最优预测模型的最好战略。实践上,经过随机选择订阅的客户拓展当前订阅者训练集,谁没有发送任何电子邮件构造化模型-k,k是随机选择的订阅数量,即K =0;5000;10000 ;100000与建立目前的测试集上具有更好的预测性能的流失模型的意图。 Fig. 7灵敏的表示了这种结果。程度线阐明了构造化

25、模型 和 构造化-非构造化模型的绩效,同时包括可比较的缘由。虽然,现实上他们相互独立于k。从Fig. 7上察看到的一点,为那些至少发过一次电子邮件的用户单独建立一个流失模型确实更好。构造化模型预测模型通常比构造化模型-k要高。这明晰的阐明具有文本信息的用户很能够具有独特的流失方式。构造化-非构造化模型比构造化模型 和构造化模型-k更具有主导位置。Fig. 6. 构造化模型 和 构造化-非构造化模型 累积提升图表.Fig. 7. 构造化-非构造化模型, 构造化模型 和 构造化模型-k 的AUC 性能结论经过呼叫中心电子邮件向规范流失预测系统添加voc,协助 营销决策者较准确的找出哪些顾客最容易转

26、变。因此向这些顾客保管活动更具有针对性。框架使得从呼叫中心传来的邮件文本信息和传统市场信息更加的协调。将无组织的呼叫中心电子邮件转化为有组织方式,更适宜流失预测及专业的预处置要求和降维的步骤此外,我们的研讨证明,经过沉思熟虑的电子邮件处置战略的重要性。它提供了一种方法,经过提供向市场决策者提供有用的用户文本信息的模型,这能够会添加呼叫中心的盈利才干。经过呼叫中心传来的非构造化信息丰富流失模型,市场营销经理能够提高保管活动的有效性。致谢:我们要赞赏匿名的比利时公司,为我们提供了数据。此外,我们也要赞赏BOF (01D26705)对Kristof phd工程的财政支持,BOF (011B5901)

27、对计算根底设备提供的资金支持,以及Jonathan Burez, Bart Lariviere 和 Ilse Bellinck在工程执行期间的建议和洞察力。这个工程用SAS v9.1.3, SAS Text Miner v5.2 和Matlab v7.0.4.实现的附录A 项项频率tf衡量了邮件文本中项索引词出现的频率。一个项越多,这个项在表征邮件内容上就越重要。像这些实义词出现的频率被用来指示项内容的表现意义。根据我们的研讨,项频率是在将传统项频率经过对数变换获得的。经过对数变换,降低了未加工项频率的重要性,对变化邮件的搜集具有重要的作用。逆文档频率idf也被合并,所以项在邮件信息中出现越少

28、就越容易识别。因此一个项的重要性相反地,与这个项在邮件中出现的次数有关。逆文档的对数是用来降低未加工的逆文档要素的影响。最后,一个项i在邮件中的权重被下面的式子给出:其中,tfij等于电子邮件j中第i项的频率;idfi等于第i项的逆电子邮件频率在数学上,其中,nij等于电子邮件j中第i项的频率其中,n等于整个电子邮件搜集到的电子邮件总数,dfi等于第i项存在的电子邮件数量附录B:运用基于SVD奇数值分解的LSI潜在语义索引降维第i项一个高维的电子邮件矩阵A被构造使位置i,j用email j表示wij第i组的权重。SVD用 把A因式分解成三个不同的矩阵其中等于一个包含奇特值矩阵A的对角矩阵,U等

29、于项的概念的类似矩阵,而且V等于电子邮件的概念上的类似矩阵。在数学上,当时是奇特值矩阵,其中U和V是列正交矩阵。原始矩阵的权重依赖于的潜在的概念 B.2基于SVD的LSI允许一个简单的战略用A的r列和当k=r的k来近似估计原始矩阵A。因此,LSI经过只保管已决议的等于或大于k如的奇特值,而无视在中的更小的值,只需U和V中第一个k列得到保管。其中Uk,k,Vk等于U,V各自k列的近似值矩阵近似VK 是k列概念电子邮件的类似矩阵。在矩阵VK的一个项代表一个特定的电子邮件装载的K概念之一。这个矩阵包含信息一个确定的电子邮件如何装载不同的k的概念。这个概念反映在文本数据的隐藏方式中。因此,这些概念在流失预测模型中被作为解释变量,由于他们代表了流失预测模型潜在语义方式的文本信息。重要的是,从训练向量上加载的概念与测试矢量是相当的。在测试过程中的概念的含义应该和训练时坚持一样。 因此,测试集的邮件被投射进潜在语义子空间就像在训练期间发明的一样。为了比较测试电子邮件d和训练中的电子邮

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论