




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
案例研究:电信行业市场研究案例研究:电信行业市场研究 将以台湾电信业手机购买情况和大众对电信公司的满意程度的调查,进行客户市场的 细分和流失模型的建立,由于本案例的特点是数据量相当庞大,异常数据参差不齐。因此, 研究这一数据分析方法具有重要的现实意义。 消费者行为研究-6W+2H:购买什么(what)?为什么要购买(why)?购买者是谁(who)? 何时购买(when)?何处购买(where)?信息管道来自何处(where)?购买多少(how much)?如 何决策购买(how)? 电信流失模型的基本概念 电信行业中的流失(churn)一词专指客户的流失,它通过影响客户流失可能的原因分 析,预测哪些客户不久将流失。建立客户流失模型是数据挖掘在许多不同行业的共同的应 用。特别对电信而言,全球几乎每一家电信企业(只要置身于市场竞争中)都正在或将要 建立客户流失模型,如果哪一个企业不想,或还没有准备建立流失模型,将使企业逐渐丧 失竞争力。此外,流失模型中的流失评分,除了帮助设计促销活动,保留客户的用途以外, 短期目标是提供一份可能流失者的名单。之后,建模技术可以自动地用于客户流失管理系 统的应用。进一步,客户流失管理系统又是更大的客户关系管理系统的子模块。显然,要 实现如此内容丰富的三个目标,建立流失模型是建立一套流失管理系统的第一步。建立流 失管理程系统是将数据挖掘应用于商业活动的优秀范例。数据挖掘从一开始就在引导建模 工作,而不是在最后才被引入。因此,一个流失模型主要研究的内容包括:1、影响流失的、影响流失的 变量;变量;2、易流失人群的特征提取;、易流失人群的特征提取;3、预测流失的得分模型的建立三部分内容。、预测流失的得分模型的建立三部分内容。 无论对电信公司还是手机的经销商来说,在市场竞争中采取怎样的决策,都是具有重 要意义的。过去对流失模型的建立主要依赖于电信公司的通话流数据,主要依赖的测量指 标是客户的通话时间。这些数据无法反映客户流失的主、客观原因,易流失人群的特征也 不容易得到,因此仅仅利用通话时间的长与短,来判断哪些客户容易流失的可能性,是有 局限的。我们试图从用户使用产品和感受服务的角度,探索客户流失模型的建立,解释客 户流失的不同性,为电信行业客户流失模型的建立提供新的参考模型。 电信行业的特点电信行业的特点 电话公司和金融业、保险业以及公共服务业一样,都属于典型的服务业。但是从另一 些方面看,电信服务营销更像零售产品的营销,电信客户市场具有以下几个特点: 1相对独立的服务供应商(“客户垄断”)。电信公司具有垄断客户的倾向。也 就是说,每一名客户都有只享用某家电信公司特定服务的倾向(尽管他们可能 有几种选择)。而在其他行业,客户每购买一次产品就做出一次选择,客户的 钱分流向两个甚至更多的竞争对手。作为垄断经营者也意味着电信业比其他行 业更能充分了解其客户与产品相关的行为。在我们的数据中 74%的手机用户有 过更换电信公司的记录,而相比之下,更换过手机的用户有 35%之多。 1 2争取客户的成本相对较高。手机的折扣以及信用卡结算,提高了争取客户的成 本,这超过了通常的营销成本。而每一名客户的服务支出决定了其对公司的价 值。这意味着留住一名现有客户比吸引一名新客户更具价值,因为挽留客户就这意味着留住一名现有客户比吸引一名新客户更具价值,因为挽留客户就 避免了预先争取客户的开销避免了预先争取客户的开销。 3没有直接的客户合同。电信客户与其服务供应商之间没有直接面对面的合同。 事实上,唯一的电信合同只是针对客户服务通常仅当服务出现问题时才履 行。这表明,电信公司主要通过品牌管理和营销活动来树立公司形象。 4手机,同其他零售产品一样,无线通信业也有其外部载体手机。新款手机 更加轻巧,拥有更多功能,因而也更具吸引力。结果是,手机在客户流失管理 中扮演越来越重要的角色。 流失按照客户流失意愿,应分为被动流失和主动流失被动流失和主动流失两大类。区别这两种不同的流失 非常重要。客户连续几个月不付费,则引发被动流失,原因可能是手机被盗、手机损坏或 客户离开服务区等,在被动流失中,客户流失的原因相对复杂,很多变量更突出地表现为 社会问题,大多不能依靠企业来加以改进。与被动流失相对的是主动流失。促成主动流失 与非主动流失的动机很不相同,不能用被动流失模型去预测主动流失。特别是在服务竞争 激烈的市场,找到影响主动流失的变量,是企业客户流失模型的核心所在。另一个明显不 同的应用是预先对客户群进行分类。如果某一客户群体明显可能会流失,或许他们就不应 该享受为新装机用户推出的惊人的折扣因为这要到几个月后才会开始盈利。 定义流失变量包括了下列几种不同的情况: 1. 迁出服务区的客户。 2. 已经去世的客户。 3. 无力承担电话费的客户。 4. 为其他服务供应商所拉走的客户。 5. 想买新手机的客户。 (一) 其中最后两类值得重视,为其他服务供应商所拉走的客户,以及被称作手机转移 族的最后一类。如果其他公司为客户提供更好的服务。或为新客户提供的手机折扣比 现有客户要多。就可能会鼓励现有客户先流失再重新加入,以获得更多折扣。而这两 者通常可以从为客户对现有公司服务满意程度、手机物理性能的满意度、手机的收讯 情况、手机外型的满意度等经营指标反映出来。MuIIer(1991)认为顾客满意度有助于 企业竞争优势的达成。当产品价格优势不显著,顾客满意度将是唯一有意义的竞争优 势,而拥有愈高的顾客满意度,公司将会获得持久竞争优势。KotIer(I997)认为顾客 满意度是增加企业竞争力的利器,顾客满意度是公司未来获利能力的最好评价根据。 案例分析案例分析 数据挖掘的核心是将数据转换成可以操作的结果,在案例研究中,我们将具体按照数 据挖掘的 DM 流程,对分析数据的每一重要步骤进行说明。我们要强调的是,数据挖掘过 程一个互动往复的过程。 6.2.1 数据的预准备数据的预准备 一、数据的来源和组织结构一、数据的来源和组织结构 论文实证研究的数据是台湾电话调查数据,共有 1,313,206 笔电信市场调查数据, 变量 32 个,以*.dat 的形式存在。问题按照用户使用手机的情况和服务公司展开,分别考 察了在手机使用情况和接受电信公司服务两个结构面上的基本使用(或服务)情况、更换 情况、满意程度,以及消费者的基本特征:数据结构如图 1 所示,组织结构对应的问项如 表 2。 图 1 数据组织结构框图 1、消费者使用手机的基本情况 A3 目前使用手机的品牌 A4 手机的付费方式 A6 手机的收讯情况 A17目前所使用手机的品牌 A18目前所使用手机的型号 2、手机的收讯情况 A5 在室内(不包括电梯和地下室) A6 在室外 A7 在郊外 A8 在车上 3、对手机物理特性的满意程度: A22 外形是否满意 A23 目前手机功能是否满意 A24 手机整体是否满意 A25 是否担心手机电磁波的危险 4、更换手机的情况 A19 是否更换手机 A20 更换次数 A21 再次购买的考虑因素 5、服务公司 A2 目前使用的移动电话所属的服务公司 6、对电信公司的满意程度: A9 通话清晰度的大、 A10 计费方式合理、 A11 服务效率 A12 服务人员的态度。 A13 整体服务态度 7、更换电信公司 A14 是否更换 A15 更换次数 A16 上次服务公司(90%缺失) 4、更换手机情况7、更换电信公司情况 现状层现状层 满意层满意层 流失层流失层 1、使用现状 2、收讯满意情况 5、服务现状 6、电信公司满意程度 8、消费者特征 3、物理特性 的满意程度 手机的满 意情况 手机使用 者 服务公司 客户层客户层 1 现现 状状 新客户未知潜在客户 问题:问题: 客户偏好 客户忠诚度 竞争对手客户 问题:问题: 客户偏好 客户购买意愿 问题:问题: 客户细分 目标市场定位 流失层 老客户 问题:问题: 交叉销售 风险管理 8、消费者的基本特征 A26性别 A27年龄 A28政治信仰 A29教育程度 A30籍贯 A31政治主张 A32职业 A33户籍 表 2 数据组织结构所对应的问项以及题目编号列表 二、研究假设和研究主题二、研究假设和研究主题 (一)主题的物理概念分析(一)主题的物理概念分析 定义业务问题是成功数据挖掘过程中最有技巧的一个阶段,因为它需要不断地对问题 进行交流,以得到对问题正确的理解。从结构图上,已经发现数据中存在横向和纵向,外 部和内部的复杂关系,这无疑是进行关联分析研究的非常好的数据。 如果我们从企业的角度来看数据结构图,则不同层面上的数据有着不同的分析用途。 比如:手机经销商客户关系管理的角度来看,流失层的作用非常关键。首先,由流失层和 现状层的综合分析,可以告知潜在客户“名单”,当前客户“名单”,竞争对手“名单”, 唯一不能回答的是新老客户的区分。其次,对三类客户“名单”,可以进行不同的分析目 的,如图 2 所示: 图 2 从生产和销售手机的企业,看市场研究和客户关系管理的关系 首先, 对当前的手机客户,主要可以集中在研究满意度评价模型,也就是说通过研究 客户对电信公司以及手机的满意度,建立手机或电信公司主动流失模型。在我们的数据中, 事实上,大部分用户都会倾向于对服务满意的状态,而对商家来讲,重点在于找到不满意 的人群,并针对这些人群,提出新的战略。分析的过程分为两步:首先,比较不同的满意 程度之间互相影响程度,找到有意义的不满意组合,提取不满意指标,降低变量的个数, 然后,建立不满意因素与人口特征方面的客户细分模型,通过这个模型的建立,来定位目 标市场,或进行一些有利于业务拓展的促销活动,抵御客户流失的风险。 1 其次,竞争对手的客户。虽然也可以类似研究客户的满意程度,找到不满意客户的族 群,这些客户将是可以拉动需求的潜在客户。但是,在电信行业,争取客户的成本相对较 高。手机的折扣以及信用卡结算,可能构成提高争取客户的成本的原因,这超过了通常的 营销成本。而每一名客户的服务支出决定了其对公司的价值。这意味着留住一名现有客户 比吸引一名新客户更具价值。因此,对于竞争对手,选择重点研究客户对不同手机的认知 差异程度,来帮助企业做到知己知彼。 最后,潜在客户的研究。这些客户虽然表面看来,调查问卷中并没有他们的信息。但 是,频繁更换手机者以及部分没有手机者构成了这一族的大部分成员。同其他零售产品一 样,电信产品也有其外部载体手机。新款手机更加轻巧,拥有更多功能,因而也更具 吸引力。结果是,手机的频繁更换就为制造商制造了一个竞争的空间。另外,没有手机的 用户大多都填写了背景资料,因此这也是可以挖掘的领域。所以,对品牌偏好的客户,主 要研究可以集中在品牌偏好研究,而对于目前还没有手机的客户来说,注重研究客户的特 征提取。 由于问卷调查数据的类型基本为定性或定序数据,数据之间的关系分析主要依赖关联 分析的结果。本案例将重点集中在下面四个问题中: (1)客户在对手机功能、服务、电信公司的不满意变量的研究,找到影响电信公 司易流失客户的数量模型。 (2)易流失客户的流失预测得分模型的建立。 (3)潜在手机客户的特征研究。 (4) 频繁更换手机的客户对手机品牌偏好研究。 (二)研究假设(二)研究假设 本研究的主要目的是探讨影响手机使用情况的客户满意度的因素有哪些,并希望借助 满意度得分建立客户流失模型,探讨不同背景的客户在满意度方面的差异如何。为验证上 面这些问题,本研究提出如下两条重要假设: 1、手机用户对手机性能、手机整体满意度以及对电信公司的满意程度是影响用户 主动更换电信公司的直接原因。 2、不同背景的客户由于年龄、性别、教育程度、户籍、政治信仰、政治主张、职 业的不同,会造成用户对手机满意度上的感受存在差异。 (三)数据质量的考察和主题进一步确定(三)数据质量的考察和主题进一步确定 本案例研究的调查数据,所以数据中会有大量的缺失和异常现象,缺失数据的严重情 况如图 3 所示。按照缺失数据的提示和缺失情况,来确定主题、主题数据库和分析的整体 框架,是本案例的最大的特点。 051015202530 0200400600800100012001400 nanumber 图 3 从数据的行看缺失数据个数的分布情况 我们首先从 110 万条数据中,随机产生 3808 笔数据,研究缺失数据的结构和分布情况。 图 3 表示的是每条数据上缺失数据个数的整体分布情况,我们从图上很容易发现,缺失数 据个数的众数比较明显,从缺失的个数相对集中,可以推断数据的缺失情况大致可以分为 4 类,也就是缺失个数较多的 2,3,23 和 31。原因如表 3 所示: 缺失数据 的个数 原 因 缺失率=缺失记录条数 /总样本容量 2a15,a16 没有填答,这些项目涉 及更换电信公司的详细信息 9.5% 3a15,a16,a20 没有填答,这些项目 涉及更换手机和电信公司的详细 信息 24% 23a2 上回答目前没有手机,但是 它们都填答了个人背景资料 31% 31a1 上资料有问题,因此后面的 选项均未填答 5% 表 3 缺失个数较多的原因分析 首先,问项中有三道题目是筛选题目,它们构成了无回答数据的主要原因。其中 a1表 示数据是否有问题,a1=1 的后续题目全部空白,这样的记录占总数据的 10.5%,这些数据 首先被删除,同时变量 a1也被删除,因为它只有一个值。变量 a2表示被访问者目前拥有手 机的情况,1 表示拥有手机,而 2 表示目前没有手机,所幸的是,在 a2=2 的被访问者在个 人资料方面填答的完整率高达 89%,因此,为手机潜在客户的研究提供了宝贵的数据。按 照 a2的取值,将数据分为潜在客户群和当前手机客户群,这样操作之后的缺失数据和整理 之前的缺失数据情况如表 4 所示: 1 表 4 缺失数据情况表(*表失该变量缺失严重) (四)研究框架(四)研究框架 下一步,确定分析的主题,商家提出的问题是否可行,数据挖掘的目的就是要让数据 说话。用来建立客户满意度模型的数据分布在 5 个层面的数据:用户对手机的满意评价、 用户对电信公司服务的满意情况、手机用户的收讯情况等等。由于变量之间的关系复杂, 直接建立模型,所以首要的问题是减少分析的变量,将有关系的变量组成主题,研究框架 如图 6.4 所示: NameValues Missing % 删除 a1=1NameValues Missing % 删除 a1=1 Name Values Missing % 删除 a1=1 A120%A12553%43%A23555%44% A2212%1.3%A13553%43%A24555%45% A3850%40%A14354%43%A25556%45% A4351%40%A15390%80%A26218%6% A5351%41%A16*890%79%A27717%6% A6351%41%A17954%43%A28727%15% A7351%41%A181254%43%A29421%8% A8352%41%A19254%44%A30522%9% A9552%42%A201083%72%A31722%9% A10553%42%A21254%44%A321022%10% A11553%42%A22555%44%A332422%10% 主成分提取 决策树 类神经网络 多维标度聚类 a2=2a2=1 a1=1 CATI 原始数据 数据 潜在手机 客户 目前手机 用户 关联分析 流失得分模型 潜在手机 客户的特征研究 频繁更换手机的客 户对手机品牌偏好 研究 手机满 意维 公司满 意度 手机更换 情况 更换公司 情况 手机物理 特性 主题数据库 删除 主题数据库主题数据库 满意度模型 图 4 确定主题和主题数据立方体生成 三、整理数据和准备建模数据集三、整理数据和准备建模数据集 (一)(一) 、软件使用说明:、软件使用说明: 由于所有的发现过程都只依赖于数据,这与传统、早期的数据分析一样,数据挖掘的 每一个步骤都面临着同样的挑战,需要经验和专业技术。上面这些步骤在后面的案例中很 清楚地描述。在我们的工作中,相当大的努力投入到这些数据挖掘的前期工作,而不是仅 仅用于建立模型,模型是否成功依赖于前面的对数据的探索。只有对数据有着良好的理解, 数据挖掘的过程,以及由数据挖掘技术发展出来的模型的才是有价值的。虽然发现过程的 很多工作已经由机器来代替,通过可视化的大大简化了上述的步骤,但是在半自动化的操 作中,人的因素起到关键的作用,特别是在建立模型和执行效率方面,最新发展起来的很 多工具,依然有很多限制。 基于上述诸多因素的考虑,我们对本案例的分析采用的主要工具是 S-plus2000 和 SASEM(试用版)。S-plus 的优点是统计计算效率高,很多 S 库函数在设计的时候,已经 考虑了缺失值和异常数值按用户指定的方式进行处理。它的缺点是不能容纳超过 5X106 的 数据量,即内存中不能一次性滞留 50 万笔以上的数据。但是,如果数据一旦进入数据库, 1 则其执行效率非常高。由于我们在分析中使用的是 SASEM 是由网络上下载的试用版本, 因此具有不可编程的特点(尽管 SAS 的其它模块都可以编写程序),这样阻碍了我们分析 的自由度,而 s-plus 本身的编程自由度相对较大,所以我们在本案例的所有数据的预处理, 都是在 s-plus 之下进行的,而只是在建立模型阶段,才使用了 SASEM,SASEM 的优势 在于,它设计了很友好的图形可视化界面,通过图形传达了数据挖掘对模型表达和模型评 价的基本概念。另外,由于关联规则的计算涉及到非项目集上的运算,而这一功能试用版 本 SASEM 中也不具备。为了提高运算效率,笔者首先将 110 万条数据拆分成 11 万条一 组,共计 10 个分段数据集(最后一组的数据量超过 10 万条)。由于本研究中,并未涉及 到抽样的方式,只用到随机抽样。因此,这样的拆分并不影响计算的结果,如果忽略在不 同的数据集上转换抽样所花费的时间,则在 S-plus 上的计算效率是很高的。总之,本案例 结合了 S-plus 自由的编程能力和 SASEM 的数据挖掘流程的良好输出功能,来辅助完成本 案例的研究,为数据挖掘软件的实践提供重要参考。 (二)(二) 、缺失、异常数据处理、缺失、异常数据处理 当确认了我们的数据适合问题的研究之后,就是复杂而琐碎的数据的清理。在建模的 时候,我们需要尽可能完整的数据。 首先计算缺失数据的情况,从表 2 中,比如:感兴趣的评价满意度的三个变量 a22,a23,a24,a25,缺失比例超过 40%。接下来,是有关缺失值的处理工作。怎样对付缺失 数据呢?通常情况下,有下面的几种方法: 漠然处之:漠然处之: 当使用决策树建立模型的时候,少量的缺失数据是可以被允许的。因为在 决策树建模过程中,为了防止过度拟合,都会假定训练样本的每个节点所允许的最少 的样本点的个数不能低于某个域值,我们在本案例中,选择目标变量的缺失率不超过 1%,则不对训练数据做任何处理。 删除含有异常值的行:删除含有异常值的行:这样做,可能意味着对数据进行了带有歧视性的抽样,如果删 除的数据很多,就会影响数据的分布,可能会造成数据的有偏,因此应该谨慎使用。 这里,首要的问题是缺失数据质量的判断。如果某条记录上数据缺失相当严重,那么 就应该采取删除的办法,删除最坏的影响就是样本代表性问题。因为我们的数据是电 话调查的数据,样本是根据各个地区人口的比例,分层抽样得到的,因此在删除的时 候,应该对比删除以后和删除以前各个地区删除的号码比例(计算公式=删除个数/地 区人口数)是否一致。在各个地区内数据的一致性问题。图 5 显示了删除 a1=1 之前和 之后的数据在各地区的分布情况,由图上,很容易发现号码代表性比例基本保持不变。 事实上,只要在可能删除的地方,插入 t 检验,就有可能避免错误的删除操作。 图 5 删除数据以后的比例和删除以前的比例比较图 忽略相应的变量:忽略相应的变量:忽略掉含有缺失值较高的变量,将注意力集中到完整的数据上。如 果仅有少量的列含有缺失值。通常,忽略掉它们是可以接受的,或者用一个显示数据 是否缺失的标示变量来替代这些变量。 采用预测值:采用预测值:一个较为粗糙的办法是将列均值或众数值插入缺失的列。当研究单一变 量的时候,这样做是可能的。而在多变量的情况下,可能造成不公平。另外,在已有 的 SOLAS for Missing Data Analysis 1.0 标准中,主张利用变量之间的关系,比如:采 用回归分析插补数据,而对于定性数据,可能通过关联规则插补。如果定性变量较多, 可以尝试使用决策树或神经网络算法值来预测缺失列中的值。这里,由于我们的目标 是预测,因此,将三种方法对比,从中选择表现较好的方法,筛选模型的方法采用累 积增长图。三种方法的预测效果在客户对手机性能和手机使用情况,删除缺失数据, 并保持抽样随机性不变的情况下,目标变量中仍然存在少量的异常数据。因此采用首 先忽略异常数值,建立模型之后,又将预测的结果用于目标变量的估计。 建立独立的模型:建立独立的模型:更换电信公司较为频繁的客户,可以作为一类特殊的群体来对待, 因为这部分的数据只有 6 万条,应该将这些数据单独提取出来,进行模型的建构。根 据所能获得的各个消费者的数据对他们进行划分可以消除许多棘手的问题。该方法对 取值不存在的缺失数据尤为有效。 如果将所有的缺失数据都除掉,也就是说,将会有怎样的后果。因为剔除哪一个数值 和剔除哪些变量,是和变量、以及记录之间的关系有关。本文这里剔除异常值和剔除缺失 数据,都采用了插补法,具体将在下面的关联规则中仔细叙述。除此之外,由于 a19 问项 “是否有更换手机历史”是筛选题,它用来筛选 a20,因此,对前一题目作出否定回答的 被访问者,在此 a20 上造成缺失数据者,恰恰是企业的忠实客户。这也解释了为什么 a20 的缺失率达到 83%。 从单变量分布的观察来看,由于问题中还有拒绝回答项,拒绝回答的数据显示为 “88”或“99”这样的数据,如果量不多,比如只占到 1%,可以考虑删除个别,或将无 回答数据用其它的变量按照取值的比例赋权重,分配到其它的回答中间。反之,如果客户 1 的变量相对无回答数据较多,则可以将无回答数据用其它的变量按照取值的比例赋权重, 必须将这些数值重新赋值,分配到其它的回答中间。 从我们的问题来看,有关手机满意度的 5 个指标拒答率极高,超过 5%,最高达到 26%, 因此需要进行处理。而客户特征变量相对较少。清理完的数据集用于满意度模型的数据只 有 10 万笔,而用于客户细分的数据只有 4 万笔。 粒度是指建模数据的级别大小。通常情况下,数据挖掘算法作用于原始数据的每一行。 所有关于一个客户(或者其他我们感兴趣的对象)的数据资料都应该放在同一行中,这些 数据通常会根据粒度的大小来汇总,如图 6。比如,在更换手机这个变量上,由于变量取 值较多,而缺失数据又比较多,因此就可能造成某些取值的记录过分稀少,不利于抽样和 推断。因此,将数据合并处理。 123456 0.3910.3020.1790.050.0350.017 7891088 0.0020.0060.00030.0170 01 2 以上 0.3910.3020.307 图 6 将 a20 合并汇总 (三)(三) 、在线抽样算法在关联规则计算中的应用、在线抽样算法在关联规则计算中的应用 关联规则在本案例的作用主要表现在以下两个方面: 首先,用于数据的分割和变量的选择,也就是说,哪些变量之间的关系值得研究,得 到的结果是有意义的,这称为变量的选择。使用手机物理性能、更换手机情况、以及对电 信公司的满意程度三组变量:a5、a6、a7、a8、 a22、a23、a24、a25、a9、a10、a11、a12、a13 变量建立客户对于电信公司的满意度模型, 首先,不考虑关联性如果将所有的对数据不实施分割,则计算得到的不满意度指数,在不 同的用户上没有太大的区别。将变量引入模型,由于 a5_a8 仅取两个数值,将数据 2 倍, 消除量纲,然后提取主成分,将主成分上的得分作为目标变量,建立客户细分模型,发现 只有 a33 上有明显不同。事实上,在没有选择变量的基础上,各满意度变量在用户的背景 上没有显著差异,表 5 显示的是各影响变量上满意的用户背景和不满意的用户背景之间的 t.test 检验 p-值: a5a6a7A8a9a10A11 1.001.001.000.980.850.970.96 a12a13a22a23A24a25 1.001.000.961.000.960.86 合并数据,整理成合适粒度 表 5 各影响变量用户背景差异的最小的 t.test 检验 p-值 主要原因,是没有进行变量的选择和数据的分割。我们限制输出为不满意的变量值, 采用关联分析,发现排列有意义的二、三元规则如表 6: 序号序号关联规则关联规则支持度支持度可信度可信度所用到的所用到的 样本容量样本容量 1A8=2-a7=120%2.5187 2A7=2-a6=120%2.3254 3A6=2-a5=120%1.6342 4A8=2,a7=1-a33=4 20%87%472 5A8=2,a7=1-a27=3 20%82%432 6A7=2,a6=1-a26=1 20%80%572 7A7=2,a6=1-a33=10 20%80%662 8A6=2,a5=1-a27=4 20%80%689 9A6=2,a5=1-a29=2 20%81%739 表 6 关联分析部分结果 按照 a8、a7、a6 上的取值,将数据分成三类,分别建立不满意度模型。 第二、将挂念分析用于缺失数据处理方法的选择上。虽然理论上可以用没有缺失的变 量估计缺失变量,但是,如果用于预测的变量上仍然缺失,即便回答数据的关联性非常强, 也无法做出预测。因此应该选择被预测的变量和预测变量之间缺失数量上关联性较差,作 为进入预测缺失数据的输入条件。也就是说,通过计算不同变量上缺失数据的关联情况, 可以推算用哪些变量进行预测,因为并由此推算出哪些变量上的缺失数据可以由与它关联 性较强的同行的数据来替代。 第三,可以利用变量之间的关联性进行估计。比如:更换过手机的用户相对于没有更 换过手机的客户更容易在手机的性能上回答满意,因此可以利用变量的关联性进行插补。 如果变量之间多元规则成立较多,也就是说缺失数据关联性强,那么就可以将这些数据删 除。如果缺失数据关联性差,如果将数据全部删除,则可能导致数据量的不足,一般统计 软件内设的成批删除(list-wise deletion)缺失值和异常数值。但若遗漏值较多则会损失大 量的资料,导致样本偏误这一标准如何制订,现在尚没有标准。已有的 SOLAS for Missing Data Analysis 1.0 标准中,主张采用回归分析来插补数据,其实也就是利用了连续变量要间 的关联性,而对于定性数据,需要通过关联规则的建立插补规则。 为简单起见,我们仅仅考察了二元关联规则的建立。以手机满意程度和手机的收讯情 况和手机的更换情况为例,所有可能的关联规则为 8*5=40。因此,将所有变量采用 ASAR 算法和 Apriori 算法相结合,去除缺失缺失的情况,就是我们需要的结果。为提高运行 效率,我们仅仅取前 10 位表现最好的规则,按照前一章符号表示,首先,我们规定最小支 持度为 15%,最小支持度的下界为=10%,也就是说,置信度取05 . 0 值为 0.1,按照第六章的定理 2,可以计算批量抽样的样本容量,另外,为提高计算效率, 将取值较多的变量 a33,a32,a20 暂时没有计算在内,原因是这两个变量的密度比较分散,这 样的分布情况,很难表现出高支持度成立的规则。计算可能的二元关联规则为|C|=798,由 Hoeffding 不等式计算所需要的样本容量为: 1 =7188 2 / )/ |ln(|2CN 而超过 15%的规则中,超过的部分越多,算法的执行效率越高,比如:某规则的支持 度在 15%以上,则只要 3594 个样本就足够达到以 90%的可能性,接受规则超过 15%,由 于规则的实际支持度和所需要的样本容量成正比,因此,从规则出现的先后顺序就可以决 定插补原则的顺序,比如规则 1 和规则 2 都支持 a19=1,但选择的先后顺序以前者为优先 考虑。最后的结果是在线产生了 4,718 笔数据,得到了近似的关联规则,这些关联规则均 以 90%的置信度成立,和理想值的支持度上差异在 0.05 左右,而置信度在 90%。在线抽样 的结果显示最先产生的 10 个关联规则,以及他们所用到的样本容量,以及支持度的反估计 如下: 序号序号关联规则关联规则支持度支持度可信度可信度所用到的所用到的 样本容量样本容量 支持度的反估计支持度的反估计 1A8=2-a19=120%89%13421.5% 2A8=2-a19=220%87%12321.5% 3A6=2-a19=120%91%20321.3% 4A6=2-a19=220%83%30420.3% 5A2=1-a19=520%87%20420% 6A5=2-a19=120%80%32020% 7A8=2-a19=120%80%59119.6% 8A6=2-a19=120%80%60719.5% 9A5=2-a19=220%81%65318.7% 10A5=1-a19=220%79%66818.3% 表 7 在线抽样算法排名前 10 位强关联规则 假定 ax 与 a19 的可信度为按照可信度,则如下建立估计原则如下: 。li,.,1, l 1i ii )xp(ax )xax|xp(a19x)p(a19 这些变量与 a19 不同时缺失的比例如表 8 所示: 序号序号解释变量解释变量P(A19P(A19缺失缺失|不缺失不缺失) ) 1A80.97 2A70.97 3A60.97 4A50.97 5A24100% 6A22100% 7A25100% 8A23100% 表 8 与 a19 不同时缺失的变量比例 实验中对 a19 进行插补的原则基本按上述强关联规则进行,插补以后的 a19 缺失率为 14%,和其他变量的强关联关系基本保持不变,插补前和插补后各个取值的比例如图 6 所 示,图中显示了插补后 a19 的取值和插补前基本比例没有改变。 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 12NA 插补以后 插补以前 图 6 插补前后数据分布变化不大 由图中,可以明显发现插补变量的分布没有造成巨大的有偏现象出现,表示插补基本 成功。我们的实验再次展示了在线抽样算法计算的效率,只要 700 个样本,就基本可以完 成我们的任务,而批量抽样则需要 8843 个样本,才能将好的规则挑选出来。 建立模型和分析结果建立模型和分析结果 1、电信公司满意度关联分析:、电信公司满意度关联分析: 调查问卷中有关手机和电信公司服务方面的满意度的评测,共计 10 个题目,被调查对 象需要对他们的回答从 5-1 进行排序,意思表示非常满意到不满意。一共有 136,0260 份问 卷。回答是一次的。这样大量的样本在数据库中,每个问答的问题的大代表着一种属性, 属性的取值从 1 到 4。除此之外,数据中的缺失数据平均达到 50%以上,对每个属性来讲。 其中的一些属性语义相关(独立),比如,只有当客户从竞争对手中购买了服务,客户对竞争 对手的评价才会出现在回答问卷中。理解这些互相的关系对于分类问题是至关重要。 这个数据集里的数据是定序数据所构成的。这些数据可以用传统的统计技术来测量客 户的满意程度。而我们现在的任务是要分析这些数据,提出建议的方案,得到客户的不满 意程度。在建立不同的模型的时候,将采用不同的整合数据的方法: 1、首先是模型的选择,电信因变量和自变量关系的研究,电信公司有 7 个,满意度影 响方式有 5 个变量,我们在线随机抽取了 50000 笔数据,得到下面的结果。在分析之前, 我们仍然像传统分析方法一样,将在线抽取部分数据和母体做适合度检验,得知样本与母 体间的结构相符,表示我们下面的分析是有效的。 支持中华电信 (0932 0933)清晰度、计费方式、服务效率和服务人员态度和整体服务品 质基本满意成立,支持度依次为 12%,12%,13%,8%,11%;支持台湾大哥大(0920 0922)清 晰度、计费方式、服务效率整体服务品质基本满意成立 10%,7%,7%,9%,其中服务效率规 则表现不明显。同时,从最先淘汰的规则是对五种服务完全不满意,而从不满意的维度来 看,对中华电信公司不满意的规则最后淘汰,说明对中华电信公司的满意程度存在两种, 其中大部分的观点是满意的,而有一小部分不满意的意见。到底哪些对象对台湾大哥大 (09200922)的哪些服务指标不满意,是我们下面要深入探讨的问题,这一问题的解决 1 有助于帮助企业找到他们服务方面的问题症结,从而为企业提供更有利的决策支持。 进一步分析发现,在满意度评价方面,下面三种规则得到支持: 1、对通话清晰度基本满意,但对计费方式认为有不合理倾向。(6%,90%) 2、对通话计费基本满意,但对电信公司的服务效率认为不满意倾向。(7%,90%) 3、对通话计费表示满意,但对整体服务表示不满。(6.5%) 2、不满意客户细分、不满意客户细分 由于篇幅所限,我们仅列出 a8=2,a7=1 分类上的不满意模型。通过关联分析得到的不 满意变量组合: a22、a23、a24、a25、a9、a10、a11、a12、a13 变量建立满意度模型。提 取满意度指数的方法是主成分分析方法,在采用主成分分析方法之前,首先,先考察缺失 数据的分布情况,以及删除缺失数据对样本有偏性的影响。通过类似于前面的关联分析和 t 检验,并没有发现删除后各个地区变量上的数值分布有很大的变化。事实上,两两比例之 间的比较,最小的 t 检验 p 值是 0.67,最大的是 0.99。主成分分析结果如图 7: 图 7:主成分分析结果 从中提取三个主成分: prin1=0. 31*a22+0.32*a23+0.41*a24+0.19*a25+0.53*a9 prin2=0. 11*a22+0.07*a23+0.03*a24-5.19*a25+0.11*a9+0.21*a10+0.11*a12 prin3=0. 35*a10+0.41*a11+0.56*a12+0.51*a13 prin1 反映用户对手机使用的不满意情况,prin2 反映的是用户对电磁波的影响,prin3 则主要反映用户对电信公司的不满意情况。按不满意度指数(prin1,prin2,prin3)进行分类, 分类权重为三个变量对方差的贡献率,手机在车上没有收讯正常,但在郊外有问题的用户 的类型如表 9 所示: 项目项目第第1 1群群第第2 2群群第第3 3群群 教育程度a29 职业a32白领级上班族学生、 党派a28 年龄a2730-3940-49岁20以下 民族闽南、原住客家、外省 户籍地理所 在地a33 (4,10,13)(5,11,1,3) 对电磁辐射 关心程度a25 非常 人数比例53%32%15% 表 9 手机在车上没有收讯正常,但在郊外有问题的用户的类型 从上面的分析中,第一群人的特征非常明显,这类人年龄中年,事业成功,有财力进 行野外旅游,因此会对郊外的手机使用较为敏感,是一类应该注意的群体。 3、客户流失模型的建立、客户流失模型的建立 找到对台湾大哥大不满意的群体类型。因此,以该变量上是否满意为类别,问卷中第 26-33 题是对客户对手机健康的重视程度、心理能力、性别、年龄、教育程度、职业、政 治信仰和地区五个变量进行的决策判断。 1 图 8 建立模型的步骤图 由于政治信仰两个题目均有 90%的数据反映有中立倾向,又由于台湾政治信仰方面的 信息了解不完善等原因。所以在分析满意度模型的时候,暂时将这两个变量去掉。由于数 据是定性的数据。首先,这里,有 25103 条记录接受中华电信的服务。而对中华电信不满 意的记录条数约占总记录的 12%,占中华电信客户的 68%,那么这部分人群有怎样的特征。 在抽样方法上,选择重抽样的,它的基本原理是少数全抽,多数的少抽。 图 9 待分析的数据比例太少 我们采用了类神经网络、逻辑斯回归和决策树模型,进行预测模型的建立,图中发现, 身体健康、性别和教育程度三个变量表现比较显著, 7.5%, 10,5053 图 10 SASEM 所呈现出来的预测模型的累积增益图比较 4、频繁更换手机的目标人群的客户细分模型:、频繁更换手机的目标人群的客户细分模型: 这类潜在客户定义为所有数据记录中,更换次数多于 2 次的客户,我们采用 CART 决 策树建立模型的方法,建立如下模型: 图 11 决策树预测模型结果精度较高 深度为 5 的树状图如图 12 : 图 12 树形图 如果用深度为 6 的树型图分析,则可以得到如表 10 所示的七个类别特征: 1 项目项目第第1 1群群第第2 2群群第第3 3群群第第4 4群群 教育程度a29高中职中居多 职业a32退休、家庭主 妇 上班族学生、白领级 党派a28国民党、亲民 党 国民党、亲民党146 年龄20-29岁、30-39岁、 40-49岁 20以下、30-39 岁、40-49岁 民族外省、原住客家、闽南 户籍地理所 在地a33 南部(4,9,14)北部、中部、东 部 (2,3,10,11,12,17,19) 北部居多2,11,17 对电磁辐射 关心程度a25 非常不太关心 政治主张民进、中立 更换频繁率93.2%95.368.7%70% 人数5656214187 项目项目第第5 5群群第第6 6群群第第7 7群群 教育程度a29 高中及以上、 大专 大学及以上高中、大专以上 职业a32主妇、白领白领、专业技术学生1347 党派a28 年龄20-29,40-49 民族 户籍地理所 在地a33 7,13,16,20 ,22 4571568,15,18 对电磁辐射 关心程度a25 不关心 政治主张新党 更换频繁率70.4%68.4%100% 人数886716 表 10 频繁更换手机的客户细分 从树形图中容易得到下面的分析结果: 对手机更换次数来讲,表现显著的变量有:地理位置、职业、民族、教育程度、健康 状况的影响以及党派观念六个变量,由于我们的目标在于更换手机较为频繁的人群。因此, 容易我们找到下面三种特征的人群(重度更换人群): 1、地处台中和台南、无党派或对政治不感兴趣的家庭主妇或退休人员, 为更换两次以上手机的高发人群,具体倾向估计为 88.1% 。 2、原住民、外省籍,稍有政治倾向的学生、白领、公务员,有较高的对 更换两次以上手机有较高的更换倾向。 3、台北一带学生、白领人员,是对电磁辐射较为敏感的人群,他们有较 高的更换倾向。 4、拥护民进,以及保持中立的高雄等南方一带。 5、居住在台南、台中、云村、台东等地,学历一般,对政治不感兴趣的 家庭主妇和白领人员。 6、居住在新竹、台中、台南,大学及以上,20-29,40-49 岁的白领和高 级技术人员。 7、居住在北部,拥护新党的人群。 5、目前没有手机的潜在客户、目前没有手机的潜在客户 项目项目第第1 1群群第第3 3群群第第3 3群群 教育程度a29 高中、大专及 以上 职业a32军公教、民营企 业白领上班族、 专业技术人员 医师、律劳力 工作者包括技 工 党派a28 年龄a2730-39、40- 49,50-59 40-49,50-59 政治信仰a31 主流党派4、5、6非主流党 派 主流党派 民族a30 本省闽南 外省籍 客家、外省 户籍地理所 在地a33 人数比例61%12%27% 表 11 目前没有手机的潜在客户类型 从上面的分类中,发现 88%的非手机用户的年龄在中年,政治信仰集中在主流党派, 这个年龄群体值得注意。 6、目标客户群的偏好分析、目标客户群的偏好分析 在这一部分,我们将重点研究不同品牌的手机和他们在手机功能上的满意度评价之 间的关系,首先,我们在上一节分析的基础上,找到我们感兴趣的潜在客户群,比如对于 第 6 组,女性小资类我们使用的工具是多维标度法,分别找到这类人群在手机各满意度上 的平均得分(平均的计算按中位数),如表 1。各个不同品牌的手机和他们在手机功能上 的满意度评价: MOTOROLANOKIAERICSSONSAGENPANASONICACER 功能 21365 4 收讯能力 413265 整体 256134 1 外型 41
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【道路运输企业主要负责人】考试题及答案
- 局部解剖学复习重点 考试重点
- 物流运输路线规划手册
- 2023-2024学年电子工业版(内蒙古)小学信息技术四年级下册信息与信息技术电子工业版(内蒙古)(教学设计)
- 2024年春八年级道德与法治下册 第一单元 坚持宪法至上 第一课 维护宪法权威 第2框 治国安邦的总章程教学实录 新人教版
- 设备维修与保养计划表格(月度)
- 5 雷锋叔叔你在哪里(教学设计)-2023-2024学年统编版语文二年级下册
- 9 古诗三首-雪梅教学设计2024-2025学年统编版语文四年级上册
- 2024-2025学年高中化学 第4章 第2节 课时2 Cl2的实验室制法和Cl-的检验教学实录 新人教版必修1
- 2024-2025学年高中历史 专题五 走向世界的资本主义市场 四 走向整体的世界(1)教学教学实录 人民版必修2
- 泛微协同OA与SAP集成应用解决方案V讲诉
- 探讨电磁感应现象对电能转化效率的影响
- 合肥娃哈哈厂劳动合同
- 【盒马鲜生生鲜类产品配送服务问题及优化建议分析10000字(论文)】
- 《江苏住宅物业管理服务标准》(DB32T538-2002)
- 桥梁定期检查-主要部件检查要点与评定标准
- 中西医诊所规章制度集合4篇
- 长途汽车客运站调研报告
- 陕西各市(精确到县区)地图PPT课件(可编辑版)
- 边坡土石方施工方案
- 《民航地面服务与管理》项目四
评论
0/150
提交评论