数据挖掘实践应用_第1页
数据挖掘实践应用_第2页
数据挖掘实践应用_第3页
数据挖掘实践应用_第4页
数据挖掘实践应用_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

据挖掘实践应用(93,

标用户特征分析的不同思路分享”

及“2011个人年度总结"

本日志的缘起:本文是我年后在数据分析团队内部分享的一个专题项目的思路汇总,条条大路通罗马,任何一个数据分析课题也一定是可以有不同的思路不同的算法不同的技术殊途同归的,我的分享的目的在于通过真实的业务需求和业务数据,引导分析团队内部集体讨论,发动大家参与,相互切磋,从而提升数据分析团队整体的分析能力和水平。

项目背景:P4P(在线广告竞价排名,paymentforperformance)产品是互联网行业平台型企业的一个重要收入来源,由于组织架构的因素,以前我们的P4P产品的相关数据挖掘模型(比如付费用户预测打分模型)是由数据仓库团队、算法团队开发、嵌入、固化业务流程,人工的销售服务还没有类似的分析模型可以支持。最近,随着新的组织架构调整,电话销售团队承担了P4P产品售卖的部分KPI,业务方因此提出了新的需求,“找出P4P消费用户的典型特征,由此可以让电话销售团队因地制宜圈定不同的目标群体,并同时制定相应的不同运营卖点,即运营抓手,。(提请注意的是,这里的典型特征不是指单一维度的分布特征,而是要找出多维度并存组合时的特征)

很明显,这里的业务需求就不是前期的“P4P目标付费用户预测打分模型”可以满足的;两者有什么区别呢?从数据挖掘理论上看似乎可以没有区别,但是在业务实践场景下,差别太大了。“打分模型”的产出物是一批潜在用户的member_id以及相应的付费概率数值,业务方不需要在乎模型里面的具体的预测变量有哪些,变量之间的线性或非线性关系,也不需要知道各个预测变量的阀值;打分模型的优点是精确,效率高,缺点是每个周期都要打分,而且比较死板,缺乏灵活性;而“付费用户典型特征模型,的产出物是不仅要找出付费用户典型特征的字段(这里的特征是不仅在统计上有意义,更要求在业务应用中有意义,有实用性。很多时候,统计上的显著性到了业务实践中其实并没有应用价值的,最典型的一个例子就是,付费用户中男女比例52:48,相对潜在目标群体来说,这个比例从统计学上看是显著的,但是在实践应用中,单纯看这个性别的显著性特征其实是没有什么运营价值的,没有谁会因此聚焦在男性群体里进行营销)更要找出这些典型特征字段组合在一起的数值区间阀僮比如近30天的登录天次大于25天,并且近30天交易订单数量大于15,等等);“付费用户典型特征模型”优点是灵活,可以由业务人员(电话销售)灵活组合不同的目标群体,但是其应用的(预测)准确度通常来说是没有'打分模型”高的;

“付费用户典型特征模型'以及类似的此类'典型特征”模型,有个核心的终极评价标准:优良的模型(准确的字段以及合理的相应阀值)能最大限度包含付费用户的数量,同时按照这些阀值圈定的运营受众的数量范围能满足运营资源的负荷(比方说,如果分析用的原始数据里有1000个付费用户,而这些付费用户是从10万个俱乐部会员中产生的话,那么一个比较满意的“付费用户典型特征模型’(即典型字段以及相应的阀值)能覆盖80%(左右)以上的付费用户(也即800个左右的上述分析数据中的付费用户包含在这些典型阀值的区间里)并且在10万个全体的俱乐部会员中,满足这些条件的用户在2-3万左右(这里的数据、比例只是为了举例方便,实际应用中的原则是阀值覆盖的付费用户数量尽可能多,满足这些阀值条件的潜在目标受众尽可能精简,如果上述例子中,分析的结果阀值是有8-9万人满足这些条件,那从全体10万人的基数看,这个8-9万的筛选其实并没有多大的效率的提升);

这样看来,“付费用户典型特征模型'从思路和分析技术上看可以分成两步:

第一步,确定有明显特征差异的字段,

第二步,确定这些显著差异性字段的各自的阀值。

如何有效锁定“有明显差异的字段'?有三种不同的思路以及更多的具体的算法:

我们可以按照预测模型的思路,通过逻辑回归、决策树、(RSquare\Chi_Square等不同的算法);

我们还可以另起炉灶,按照假设检验的思路,从付费用户和非付费用户中抽取等量的样本进行T检验和(或)者非参数检验,尝试这个假设检验的思路时,要注意,样本的抽取数量不能太少,也不能太多(样本太少,比如20-30个,很多显著性的差异也变得似乎不显著;样本太多,比如几万,很细微可以忽略不计的差异也变得显著,这样在实践应用中没有意义,这是大数定理)

第三种方法就是利用聚类技术,尝试不同字段组合进行聚类划分,这种方法的优点是快速,缺点是聚类技术很多时候的结果不可控不可预见,常常不能令业务方满意,而且参与聚类的字段如何挑选,还是有赖于前面两种思路的探索和实现的(关于聚类技术的判断,详见我之前的博客(数据挖掘交流讨论之23,与“汪生”分享我对于聚类实践应用的个人体会)

/blog/static/8167057720102118262485

4/

如何确定显著差异性字段的各自的阀值?至少有三种方法:

第一是聚类技术,不过这里稍微要延展一下,我自己的体会,在互联网的实践中,有不少项目的直接的聚类结果并不能令人满意,主要原因在于单纯聚类评价的指标(RSquare,RMSSTDroot_mean_square_standard_deviation等等)关注的是总体上的宏观上的结果评价,而如果这些字段的各自的标准差比均值大很多的时候,这些总体的宏观的判断指标会明显无法胜任合格的效果评判,结果是这些总体指标看上去可能比较满意,但是具体到各个细分出来的群体里,这些关键字段的分布过于分散,由此可以想见其均值是没有实际参考价值的;但是,就算如此,聚类技术至少可以给我们一些思路和启示,告诉我们哪些字段可以组合进行阀值权衡,这后一种方法我最近多次采用,效果比单纯聚类结果要好些,已经在业务项目中得到了验证。

第二种方法,就是分析师人工尝试,比如利用excel的透视表,按照前面的“典型特征模型的核心终极评价标准,来做判断和决定。

第三种方法,决策树的结果,如果决策树模型效果不错的话,从树根到树叶的几条显著的组合就是很好的答案了,不过在实践中,决策树模型是否能如我们所愿有好结果,要看具体项目数据是否有这种逻辑关系存在的!!!

“说的再多,也是说食不饱,哪有这多啰嗦,各位还是参,参,参”我喜欢虚云老和尚的单刀直入,各位,业务分析需求在这里,数据在这里,对数据挖掘应用感兴趣的同事,按照上面的框架尝试把!!

7. 独立承担(或牵头、负责、指导)PM,XPWP,FTP,

SDRZ,HKT等七大产品线的全部的运营数据分析挖掘支持,包括新签、续签预测模型、客户分层模型、优质定义分析建议书、活跃度定义划分建议书、用户行为轨迹分析报告以及在各业务领域(PD,UED,运营、客服)的应用建议书,交叉销售模型、运营效果评估模板、运营效果提升的应用模型、客户流失预警模型、服务细分模型;所有分析模型、分析报告、建议全部在实践落地应用中得到检验,模型应用准确率基本上都保持了相当的稳定度和准确度除了SDRZ这个新产品刚刚上线正在进行中外);一分耕耘一分收获,当你对一份工作,一分职业、一分爱好,充满了爱,充满了兴趣,在这个领域你想不做好都很难!!!

据挖掘交流讨论(33,再完美的数据挖掘模型也只是业务应用万

里长征第一步)

背景:2011年11月30日,汪生在本博客留言(“今年做了差不多一年的互联网方面的挖掘课题,现在我面临着你前面提及的瓶颈和困局。本来期望年底的注册响应模型能有起色,但不幸的是,互联网的确有特殊之处。能注册的自然注册了,不愿注册的即使给了OFFER还是不够大。不仅如此,营销配合的业务部门也不给力。对我而言,这是一个艰难时期。不知老兄可有良策。”

回复:汪生你好,我们不约而同想到了同样的话题。我在最近2个月做了一个挖掘应用课题(某核心产品高活跃免费用户防止流失的预警模型应用),建模阶段在业务部门的支持配合下进展顺利,实际数据验证模型也非常稳定可靠满意。一个优秀的完美的挖掘模型并不是必然带来运营落地应用效果的完美,落地应用相比建立模型来说更加复杂,更加挑战,涉及到更多的不可确定的因素。也正因为落地应用更复杂更挑战,所以数据分析师应该有勇气有热情突破自己的数据分析挖掘的领域,向业务应用延伸,这个要求短期看是对企业有功,长期看是对分析师个人的跨越式成长所必须的,只有不断突破自己,才可能真正成为实战型的数据分析专家。作为数据分析师来说,个人的含金量或者说个人的专业价值一定是要在实战中体现或者发挥的,仅仅能熟练搭建一些准确的完美的模型离市场所需的实战型优秀分析师的能力之间的距离有天壤之别。

项目建模阶段概述:免费客户运营部提出一个分析需求,鉴于免费客户中的高活跃用户群体(该群体是最有可能转化成付费用户的)流失率比较高(涉及东家商业隐私,本博客所有商业数据做了屏蔽或修改),业务方希望通过数据分析挖掘提前预警发现最有可能在近期流失的用户,并提交运营部门做精细化分层运营,力图有效挽回高流失风险的用户,降低该用户群体的流失率。通过与运营方前期沟通,首先明确定义了本分析课题中'什么是流失用户的定义',根据运营方的运营节奏和经验,“H层流失用户是指在A时间点属于H层用户,在A加7天的时间点已经跌落离开H层,并且在A加14天的时间点仍然没有回到H层的用户”。接下来,与运营方一起讨论潜在的分析变量字段,结果运营方为了省事,把宽表里所有70个字段全部作为潜在分析字段让我选,呵呵(“悟空,你又在调皮!”)。第一次提数据,

30万行70个字段,通过基础原始数据摸底和数据清洗,排除了空缺严重的或者分布过度集中的或者高度相关的字段共36个,同时,发现了两个字段数据矛盾(过去30天某某操作天数为零,但是过去30天某某操作次数不为零),这个相互矛盾的两个字段我们觉得不能忽视或者简单删除,要找原因,经过与数据仓库方面沟通,发现是数据仓库数据回滚错误造成的,这样必须重新提取数据。第二次重新提取数据后,按部就班边分析边分享,进展顺利,当模型搭建完成,验证比较满意,准备提交业务应用时,我突然想到一个关键问题,“这样大动十戈挖掘建模出来的结果,有没有更加简单直观的分析方法代替呢?”,换言之,如果我们直观猜想,在起初的A时间点,在H层定义的值域附近的人群是否可以直观判断在7天14天时间点最有可能跌落离开H层?”,无论这个直观猜想是否正确,我们最起码要验证一下吧。结果,我回头验证的时候,猛然发现,我们当初全部囊括的宽表里的70个字段,尽然没有包括H层定义的那几个字段(行业的登录标准天次,行业的关键A页面的pv,等),如果没有这些字段数据,那么上述的直观假设就无法验证,我们也就不能理直气壮证明挖掘模型的价值了。所以,尽管模型单方面看可以满足业务需要在这种情况下,我主持召开了课题阶段分享会,向业务方通报进展和无法对比直观假设的尴尬,面对当前的模型结论和发现的一些明显证明是与流失有密切关系的一些字段,业务方非常感兴趣,也支持我重新提取新数据,包括上面假设里的一些关键字段(在该分享会上,我首先承认遗漏上述关键字段是我的责任,但同时我也指出在前期的字段讨论中,业务方将近20人参加讨论也没有人想到跟H层定义有关的那几个关键字段),同时,在这次会上,业务方根据自己的经验提出的另外一个关键字段在后来的模型中证明是最重要的一个预测字段第三次重新提取经过增添的新的原始字段,按部就班,最后跟上面的直观猜想进行验证,发现这个直观猜想不成立(放心了)并且(由于增添了几个关键字段)新的预测模型比第二次数据建模的效果要提高6个百分点,最后,经过最刺激的开门见山的跟当时最新的实际数据验证,模型实际精度与建模时的测试精度完全吻合(说明很稳定可以投入业务试用);前期建模完成,数据分析挖掘告一段落,接下来是提交运营方开始试运营,每周一按照该预警模型,跑数据,预测4天后最有肯能流失的所有用户的流失概率分数,由运营部门按照流失概率分数从高到低,排名最前的30%的目标群体进行进一步的分层的精细化运营。我在模型投放业务应用的分享会上,重点提醒大家再好的模型也只是业务应用万里长征第一步,接下来的落地应用任务更加挑战,更加复杂,也更加有意义。下面节选的三个PPT是我当时在模型交付应用之前业务分享的几个主要分享点:

-对干褂期的“晅失群悻尾丈〃琏片界胡・岫文廛苦ft:

含毒是否荷合业著巨昔的打析样拿】

*时对疆夫队险♦大的^易鼻晃景「透T曾帝乂曜1运用的主要抻点.特此过面分,累芟,分布罪)I

■U里碧城应舞瓦钠致芽任tf

§•'"!••,riH^irjjii测效火?

—4

,蔑圣的ft此募我皆斑增用的应岸•……

•耗经条洋最“镇裂*员Bf惨”的定义的度化r

•y「<sw足皓台用牲也帐聃*・素的代:

•福丹建候晶提外疝海澎效果的。效手皮,

c«mi mm*v4M*-AftfiivI

也■/膏

•安为0J&L的!|议和直■有时擀可以一字千金卜擀值涯」

•醐博慢里与牌站分忻-Mb

止地; I

最Jkiji勺检验

落地应用环节的重点分享:

感谢上述流失预警模型的落地应用的运营部的同学们,尤其感谢牵头的资深运营专家MS。跟踪、关注、参与你们的运营过程实在是在下的好享受。从11月13日开始,第一次打分后,提取最可能流失的

30%的H层用户中,随机抽出其中10%的用户作为观察组(不做运营碰触),其余90%的目标用户由运营方根据他们经验中提取的几个核心指标进行人群细分和相应的运营方案细分(这个动作是我之前的很多模型落地应用中不同的地方,因为本模型的关键预测变量在业务方看来都没有运营应用“噱头,话题'的价值,所以他们提出了另外的几个字段来提炼细分方案,目前看来他们的方案起码还没有明显错误的)。首先应用的运营通道是电子邮件运营:EDM),包括观察组在内一共7个细分群体(其中6个群体进行不同内容和宣传的细分运营)持续两周时间,现在到了揭开神秘面纱的时候了,呵呵!!

第一次模型投放试运营为期两周,随后运营方做了详细的阶段性

(2周)运营总结分析报告,先摘录如下:

模型预挪膻确率。

根据模型评分选择流失预测评分最高的驰%作为运营目标,

最终流失的标准是11月20日流失至W房,并旦在”日之前没有同到H层的客户.

最终预测目标客户流失数量竟人.

同期,H屋忌痛流失客户为人,预测人群在总体实际流失客户中占比763%,与模型测试时的莪果相符,

从上面的运营效果报告里,可以看出,首先,预测模型到目前为止预测的准确率和稳定性还是很好的;其次,在第一轮电子邮件运营的六个不同细分群体的效果看,有的效果好,有的效果不好,具体原因有详细归纳;第三,综合对比运营群体和(没有运营的)对照组群体的14天后的流失率,两周没有明显差异。

对于上面的第三点,运营方主要归咎目前邮件运营通道阻碍、效果不好;其实,在我看来,既然第二点明确总结了有的运营细分群体效果比较好,有的不好,那么总的运营群体从逻辑推理上讲其运营效果一定会或多或少比(没有运营的)对照组的对应效果要好的吧。如何解释第三与第二点之间的貌似的'矛盾”呢?原来,这里出问题的就是来自运营方的KPI考量。从科学的合理指标看,上面总结的第二点,已经给出了合理评价现阶段运营效果的方法。但是,作为一个专门的运营部门,它希望本次活动的评估的指标能跟自己的部门KPI挂钩,而这里的KPI就是H层流失率的降低,从上面第二点里的合理评价效果的指标到这里的KPI,中间有个过程的,实际上是个从量变到质变的过程,如果强行忽视这个从量变到质变的过程,强行按部门KPI考核这个为期2周的阶段性运营活动,当然很难满足这个KPI的要求了。

上述情况,应该跟你在留言里提到的情况非常类似了吧,这里的关键是业务部门的认识问题,有急功近利,有大跃进思潮,这其实就是对“数据化运营”的一种误解,是蛮十,是霸王硬上弓。打个比方,婚恋网站百合网如果做一个营销活动,那么这个小活动的评估指标应该是本次活动带来的牵手数量或者报名数量的,但是如果你一定要把本次活动带来的“领证结婚的数量”作为活动评估指标,你说是不是要求有点急功近利???

当然,运营方式的变通也是一个探索的方向,比如本项目的落地应用,在上面的邮件运营之后,目前正在运营的方式是在线即时通讯IM的运营,根据我以往的项目经验,在线运营的通道和方式中,IM的效果总体来说是高于EDM的,目前运营正在进行中,运营方随后会有阶段性的效果报告和总结归纳。

综合我曾经碰到的类似你在留言里提到的落地应用不好的原因,除了上面提到的这个普遍性的原因外,还有:

落地应用的资源是否有保障,比如营销资源,促销预算,这些都是打仗的枪炮子弹,有还是没有,多还是少,对于运营效果有显著影响;

运营团队的数据化运营的能力,能有效细分受众,高效设计运营方案,有效执行在线运营方案,全程跟踪记录过程数据,能及时总结归纳提炼运营效果报告。我很庆幸在本项目中合作的资深运营专家MS在这方面非常专业,我从中也学到了不少新的经验和体会;

数据化运营是企业全方位竞争的综合较量,不是单单一个好的或者精准的挖掘模型就可以一了百了的,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论