家庭关联关系识别模型综述._第1页
家庭关联关系识别模型综述._第2页
家庭关联关系识别模型综述._第3页
家庭关联关系识别模型综述._第4页
家庭关联关系识别模型综述._第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、深圳市高新技术产业园区南区南七道T3大厦B三层 ADD:3/F,T3 Building,Nanqi Road,South Area Shenzhen Hi-Tech Industrial Park,Shenzhen, P.R.C 电话(TEL):+86-755-26745688传真(FAX):+86-755-26745666邮编(P.C.):518057-家庭关联关系识别模型 - 2n现状背景n模型目标n建模步骤n模型解读n应用价值目录 - 3 行业竞争日趋激烈 中国的通信行业走过了“引入竞争”和“市场尝试”两个过渡阶段,已经开始逐步进入“充分竞争”的阶段,行业竞争日趋激烈。固定电话用户数移动

2、电话用户数3G用户数固定宽带用户数其中:集团客户宽带用户数集团IDC用户数注:上述数据来源于赛立信通信竞争情报月刊2010年4月 截止2009年底,三大运营商用户分布情况 1.89亿约2500万1.03亿5609万5.22亿1.45亿675万551万274万5346万约600万3855万约1700万家(ADSL/LAN/各种光纤、专线)约2.2万家(专线用户)约900万家(ADSL/LAN/各种光纤、专线)约3万家约3200家约2万家如何利用已有的固网和宽带客户资源优势实现移动客户的增长?行业背景 - 4业务背景无法提供有效的策反政策营销手段模糊化营销效率低下已有客户资源的闲置传统本网融合/异

3、网策反方法不足移动、联通、电信手机客户群能提供适配用户的资费政策外呼用户信息明确,指导性强名单准确率高,效率大大提高充分利用了固网、宽带客户资源基于家庭关联关系的精确营销优点电信个人用户异网集团网用户异网个人用户电信家庭固话电信固话客户群家庭关系 - 5n现状背景n模型目标n建模步骤n模型解读n应用价值目录 - 6家庭关联关系识别模型的主要目标:n 通过移动电话与固定电话之间的通话频率、通话时长、通话时段、通话周期和交际圈相似度等变量,进行分类预测建模,从而准确地识别出手机号码与固定电话之间的家庭关联关系;n 根据模型预测结果,对于本网手机进行融合套餐营销,对于异网手机进行策反活动。通过营销活

4、动,实现两个提升:提升市场份额、提升品牌力度建模目标符合家庭特征电信单固话C网手机符合家庭特征电信单固话G网手机融合套餐营销异网客户策反 - 7n现状背景n模型目标n建模步骤n模型解读n应用价值目录 - 8 假设条件:家庭用户与非家庭用户,在通话行为上存在显著差异,并且一个有固话的家庭至少存在一个家庭手机用户. 基本思想: 根据固定电话的个性化特征,得到与之关联手机号码的家庭关系评分,最高分即为家庭关系(最高分须不小于0.5)。 基本流程: 样本选取:找出本网属于家庭关系的号码对作为正样本,并找出不属于家庭关系的号码对作为负样本; 宽表设计:分析正样本中号码对的通信行为特征,设计宽表; 模型建

5、立:使用挖掘工具clementine建立挖掘模型; 模型验证:根据技术指标以及抽样验证,对模型进行调优。分析思路 - 9样本选取正样本需剔除以下几类情况:1.资料不符:剔除客户编码、账户、身份证号码三者中有不相同项的号码对;2.互通异常:剔除两个月中有一月无互通行为的号码对;3.证件异常:剔除机主身份证号码不合理、年龄大于70岁或小于18岁的号码对;4.状态异常:剔除非在用状态、新增、公免的号码对;5.匹配多元:剔除固话与手机为一对多关系的号码对;最终选取符合上述规则的正样本1653号码对,负样本9152号码对,构成模型的样本集。样本选取宽表设计模型建立模型验证正样本负样本u已经办理e6或e9

6、套餐的【固话,手机】号码对u有通话但客户账户证件均不同且非e家的【固话,手机】号码对 - 10宽表设计 基础字段样本选取宽表设计模型建立模型验证字段名称字段名称描述描述字段名称字段名称描述描述CALLING_TIMES平均主叫次数WEEK_AM_CALLINGTIMES平均周中17-19:00主叫次数CALLED_TIMES平均被叫次数WEEK_AM_CALLEDTIMES平均周中17-19:00被叫次数CALL_TIMES总呼叫次数WEEK_AM_CALLTIMES平均周中17-19:00总呼叫次数CALLING_DURATION平均主叫时长WEEK_PM_CALLINGTIMES平均周中1

7、1-13:00主叫次数CALLED_DURATION平均被叫时长WEEK_PM_CALLEDTIMES平均周中11-13:00被叫次数CALL_DURATION总呼叫时长WEEK_PM_CALLTIMES平均周中11-13:00总呼叫次数SHORT_TIMES90秒以内通话次数WEEKED_CALLINGTIMES平均周末主叫次数LONG_TIMES90秒以上通话次数WEEKED_CALLEDTIMES平均周末被叫次数MIN_DURATION平均最短一次通话时长WEEKED_CALLTIMES周末呼叫次数MAX_DURATION平均最长一次通话时长AVG_DURATION平均通话时长 FLAG

8、2FLAG2家庭关系标志家庭关系标志设计字段原则:在该字段中,家庭用户和非家庭用户存在较显著的统计差异。 - 11宽表设计 标准化字段样本选取宽表设计模型建立模型验证字段名称字段名称描述描述字段名称字段名称描述描述CALLING_TIMES_R平均主叫次数比WEEK_AM_CALLINGTIMES_R平均周中17-19主叫次数比CALLED_TIMES_R平均被叫次数比WEEK_AM_CALLEDTIMES_R平均周中17-19被叫次数比CALL_TIMES_R总呼叫次数比WEEK_AM_CALLTIMES_R平均周中17-19总呼叫次数比CALLING_DURATION_R平均主叫时长比WE

9、EK_PM_CALLINGTIMES_R平均周中11-13主叫次数比CALLED_DURATION_R平均被叫时长比WEEK_PM_CALLEDTIMES_R平均周中11-13被叫次数比CALL_DURATION_R总呼叫时长比WEEK_PM_CALLTIMES_R平均周中11-13总呼叫次数比SHORT_TIMES_R90秒以内通话次数比WEEKED_CALLINGTIMES_R平均周末主叫次数比LONG_TIMES_R90秒以上通话次数比WEEKED_CALLEDTIMES_R平均周末被叫次数比MIN_DURATION_R平均最短一次通话时长比WEEKED_CALLTIMES_R周末呼叫次

10、数比MAX_DURATION_R平均最长一次通话时长比设计字段原则:不同的家庭用户在通信行为上存在较大差异,单纯用绝对值作为预测变量导致模型存在偏差,需要将其标准化,得出相对值。说明:比值是根据该固定电话用户与某一手机号码的变量值和该固定电话与全部手机号码的最大值的比例。 - 12宽表设计 衍生字段样本选取宽表设计模型建立模型验证字段名称字段名称描述描述字段名称字段名称描述描述CALLING_TIMESRANK当月主叫次数排名WEEK_AM_CALLINGTIMESRANK当月周中17-19主叫次数排名CALLED_TIMESRANK当月被叫次数排名WEEK_AM_CALLEDTIMESRAN

11、K当月周中17-19被叫次数排名CALL_TIMESRANK总呼叫次数排名WEEK_AM_CALLTIMESRANK当月周中17-19总呼叫次数排名CALLING_DURATIONRANK当月主叫时长排名WEEK_PM_CALLINGTIMESRANK当月周中11-13主叫次数排名CALLED_DURATIONRANK当月被叫时长排名WEEK_PM_CALLEDTIMESRANK当月周中11-13被叫次数排名CALL_DURATIONRANK总呼叫时长排名WEEK_PM_CALLTIMESRANK当月周中11-13总呼叫次数排名SHORT_TIMESRANK90秒以内通话次数排名WEEKED_

12、CALLINGTIMESRANK当月周末主叫次数排名LONG_TIMESRANK90秒以上通话次数排名WEEKED_CALLEDTIMESRANK当月周末被叫次数排名MIN_DURATIONRANK当月最短一次通话时长排名WEEKED_CALLTIMESRANK周末呼叫次数排名MAX_DURATIONRANK当月最长一次通话时长排名JW_GUHUA_RATION重合度在固话交往圈占比JW_SHUOJI_RATION重合度在手机交往圈占比设计字段原则:利用排名的连贯性和区间性,能消除数值的影响,并且数据字段稳定的特性。 - 13模型建立1,数据探索,处理正负样本比例,2,比较算法,选取最优算法3

13、,最优算法建模,4,使用模型节点预测家庭关系,并进行模型评估,5,家庭关系打分,输出家庭关系清单模型流展示:样本选取宽表设计模型建立模型验证n 使用clementine工具的决策树算法建立模型,通过固话与手机之间的通话行为,提炼家庭成员的通化特征,形成可应用的业务规则。 - 14模型验证样本选取宽表设计模型建立模型验证预测非家庭预测家庭合计实际非家庭86924609152实际家庭34013131653合计9032177310805n 判断一个模型是否可接受,主要根据该模型对已有数据集的分类效果。其中几个重要的检测指标为:准确率、命中率、覆盖率、提升度。3401313460实际家庭预测家庭869

14、2非家庭预测为非家庭 准确率:(8692+1313)/10805= 92.60% 命中率:1313/1773= 74.06% 覆盖率:1313/1653= 79.43% 提升度:打分前10%成功率提升5.45倍 - 15模型验证样本选取宽表设计模型建立模型验证n 通过小范围调查,验证模型的实际预测效果。在下述12个预测为家庭关系的号码对中,经实际调查,有9对正确,3对错误,准确率为75%。姓名固话手机识别结果错误原因陈琳莉87*06153*7327正确李俊犀87*87153*7678正确昌国朋友187*70138*6785正确昌国朋友287*27189*2572错误对应手机是固话朋友徐芳82*

15、10135*1767正确凯祥志84*38189*0099正确张柳85*57133*0720错误未知陈琳莉同事185*50133*5727正确陈琳莉同事284*46189*8989正确陈琳莉同事384*23153*7778正确陈琳莉同事487*98189*0037错误对应手机是固话堂弟庞敏61*31153*7912正确 - 16n现状背景n模型目标n建模步骤n模型解读n应用价值目录 - 1790秒以内通话排名相互呼叫次数与最大相互呼叫次数的比值周末主叫次数排名90秒内通话次数与最大90秒内通话次数的比值当月被叫次数排名排名第一的号码对,属于家庭的概率为78.1%比值超过99%的号码对,属于家庭的

16、概率为87.8%排名第一的号码对,属于家庭的概率为87.4%比值低于12.5%的,属于非家庭的概率为95.7%排名非首位的号码对,属于非家庭的概率为81.6%n 不同的变量对于模型分类起着不同的作用,通过各变量的交叉判定,可以准确的预测出结果。变量重要性 - 18判定决策树及业务规则u短时次数排名第一、u主叫时长排名第一、u周末主叫次数排名第一、u总呼叫次数占比超过99%、u周中17-19点固话呼叫手机次数排名第一 同时满足上述条件的号码对有1542对,其中符合家庭关系的占87.8%决策树业务规则 - 19固话号码手机号码是否家庭关系判断概率787211518955105685是0.97067

17、26199213355511528是0.8921346671613966694966否0.9565517137413866754174是0.7762766149713349193152否0.8643757139013205606569否0.6818431317518905609494是0.8182n 将模型的分类规则作用于关系未知的【固话,手机】号码对,可预测出其是否属于家庭关系、以及判断为该结果的概率。模型预测输出结果 - 20n现状背景n模型目标n建模步骤n模型解读n应用价值目录 - 21应用价值地市地市电信手机个数电信手机个数联通手机个数联通手机个数移动手机个数移动手机个数合肥6060166067421039安庆18121836蚌埠9111711巢湖122401581池州152392滁州72061353阜阳281831026淮北257317淮南142491425黄山450310六安373402421马鞍山891450宿州572464铜陵736369芜湖192151347宣城685384外省184593133063合计合计60962609627410674106467488467488占比占比10.12%10.12%1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论