家庭关联关系识别模型_第1页
家庭关联关系识别模型_第2页
家庭关联关系识别模型_第3页
家庭关联关系识别模型_第4页
家庭关联关系识别模型_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

家庭关联(guānlián)关系识别模型精品资料

-2现状(xiànzhuàng)背景模型目标建模步骤模型解读应用价值目录(mùlù)精品资料

-3

行业竞争日趋激烈中国的通信行业走过了“引入竞争”和“市场尝试”两个过渡阶段,已经开始逐步进入“充分竞争”的阶段,行业竞争日趋激烈。

固定电话用户数移动电话用户数3G用户数固定宽带用户数其中:集团客户宽带用户数集团IDC用户数注:上述数据来源于赛立信通信竞争情报月刊2010年4月

截止2009年底,三大运营商用户分布情况1.89亿约2500万1.03亿5609万5.22亿1.45亿675万551万274万5346万约600万3855万约1700万家(ADSL/LAN/各种光纤、专线)约2.2万家(专线用户)约900万家(ADSL/LAN/各种光纤、专线)约3万家约3200家约2万家如何利用已有的固网和宽带(kuāndài)客户资源优势实现移动客户的增长?行业(hángyè)背景精品资料

-4业务(yèwù)背景无法提供有效的策反政策营销手段模糊化营销效率低下已有客户资源的闲置传统本网融合/异网策反方法不足移动、联通、电信手机客户群能提供适配用户的资费政策外呼用户信息(xìnxī)明确,指导性强名单准确率高,效率大大提高充分利用了固网、宽带客户资源基于家庭关联关系的精确营销优点电信个人用户异网集团网用户异网个人用户电信家庭固话电信固话客户群家庭关系精品资料

-5现状背景(bèijǐng)模型目标建模步骤模型解读应用价值目录(mùlù)精品资料-6家庭关联关系识别模型的主要目标:通过移动电话(yídònɡdiànhuà)与固定电话之间的通话频率、通话时长、通话时段、通话周期和交际圈相似度等变量,进行分类预测建模,从而准确地识别出手机号码与固定电话之间的家庭关联关系;根据模型预测结果,对于本网手机进行融合套餐营销,对于异网手机进行策反活动。通过营销活动,实现两个提升:提升市场份额、提升品牌力度建模目标(mùbiāo)符合家庭特征电信单固话C网手机符合家庭特征电信单固话G网手机融合套餐营销异网客户策反精品资料

-7现状背景模型目标建模步骤(bùzhòu)模型解读应用价值目录(mùlù)精品资料

-8●假设条件:家庭用户与非家庭用户,在通话行为上存在显著差异(chāyì),并且一个有固话的家庭至少存在一个家庭手机用户.●基本思想:根据固定电话的个性化特征,得到与之关联手机号码的家庭关系评分,最高分即为家庭关系(最高分须不小于0.5)。●基本流程:样本选取:找出本网属于家庭关系的号码对作为正样本,并找出不属于家庭关系的号码对作为负样本;宽表设计:分析正样本中号码对的通信行为特征,设计宽表;模型建立:使用挖掘工具clementine建立挖掘模型;模型验证:根据技术指标以及抽样验证,对模型进行调优。分析(fēnxī)思路精品资料

-9样本(yàngběn)选取正样本需剔除以下几类情况:资料不符:剔除客户(kèhù)编码、账户、身份证号码三者中有不相同项的号码对;互通异常:剔除两个月中有一月无互通行为的号码对;证件异常:剔除机主身份证号码不合理、年龄大于70岁或小于18岁的号码对;状态异常:剔除非在用状态、新增、公免的号码对;匹配多元:剔除固话与手机为一对多关系的号码对;最终选取符合上述规则的正样本1653号码对,负样本9152号码对,构成模型的样本集。样本选取宽表设计模型建立模型验证正样本负样本已经办理e6或e9套餐的【固话,手机】号码对有通话但客户账户证件均不同且非e家的【固话,手机】号码对精品资料

-10宽表设计(shèjì)–基础字段样本(yàngběn)选取宽表设计模型建立模型验证字段名称描述字段名称描述CALLING_TIMES平均主叫次数WEEK_AM_CALLINGTIMES平均周中17-19:00主叫次数CALLED_TIMES平均被叫次数WEEK_AM_CALLEDTIMES平均周中17-19:00被叫次数CALL_TIMES总呼叫次数WEEK_AM_CALLTIMES平均周中17-19:00总呼叫次数CALLING_DURATION平均主叫时长WEEK_PM_CALLINGTIMES平均周中11-13:00主叫次数CALLED_DURATION平均被叫时长WEEK_PM_CALLEDTIMES平均周中11-13:00被叫次数CALL_DURATION总呼叫时长WEEK_PM_CALLTIMES平均周中11-13:00总呼叫次数SHORT_TIMES90秒以内通话次数WEEKED_CALLINGTIMES平均周末主叫次数LONG_TIMES90秒以上通话次数WEEKED_CALLEDTIMES平均周末被叫次数MIN_DURATION平均最短一次通话时长WEEKED_CALLTIMES周末呼叫次数MAX_DURATION平均最长一次通话时长AVG_DURATION平均通话时长FLAG2家庭关系标志设计字段原则:在该字段中,家庭用户和非家庭用户存在较显著的统计差异。精品资料

-11宽表设计(shèjì)–标准化字段样本(yàngběn)选取宽表设计模型建立模型验证字段名称描述字段名称描述CALLING_TIMES_R平均主叫次数比WEEK_AM_CALLINGTIMES_R平均周中17-19主叫次数比CALLED_TIMES_R平均被叫次数比WEEK_AM_CALLEDTIMES_R平均周中17-19被叫次数比CALL_TIMES_R总呼叫次数比WEEK_AM_CALLTIMES_R平均周中17-19总呼叫次数比CALLING_DURATION_R平均主叫时长比WEEK_PM_CALLINGTIMES_R平均周中11-13主叫次数比CALLED_DURATION_R平均被叫时长比WEEK_PM_CALLEDTIMES_R平均周中11-13被叫次数比CALL_DURATION_R总呼叫时长比WEEK_PM_CALLTIMES_R平均周中11-13总呼叫次数比SHORT_TIMES_R90秒以内通话次数比WEEKED_CALLINGTIMES_R平均周末主叫次数比LONG_TIMES_R90秒以上通话次数比WEEKED_CALLEDTIMES_R平均周末被叫次数比MIN_DURATION_R平均最短一次通话时长比WEEKED_CALLTIMES_R周末呼叫次数比MAX_DURATION_R平均最长一次通话时长比设计字段原则:不同的家庭用户在通信行为上存在较大差异,单纯用绝对值作为预测变量导致模型存在偏差,需要将其标准化,得出相对值。说明:比值是根据该固定电话用户与某一手机号码的变量值和该固定电话与全部手机号码的最大值的比例。精品资料

-12宽表设计(shèjì)–衍生字段样本(yàngběn)选取宽表设计模型建立模型验证字段名称描述字段名称描述CALLING_TIMESRANK当月主叫次数排名WEEK_AM_CALLINGTIMESRANK当月周中17-19主叫次数排名CALLED_TIMESRANK当月被叫次数排名WEEK_AM_CALLEDTIMESRANK当月周中17-19被叫次数排名CALL_TIMESRANK总呼叫次数排名WEEK_AM_CALLTIMESRANK当月周中17-19总呼叫次数排名CALLING_DURATIONRANK当月主叫时长排名WEEK_PM_CALLINGTIMESRANK当月周中11-13主叫次数排名CALLED_DURATIONRANK当月被叫时长排名WEEK_PM_CALLEDTIMESRANK当月周中11-13被叫次数排名CALL_DURATIONRANK总呼叫时长排名WEEK_PM_CALLTIMESRANK当月周中11-13总呼叫次数排名SHORT_TIMESRANK90秒以内通话次数排名WEEKED_CALLINGTIMESRANK当月周末主叫次数排名LONG_TIMESRANK90秒以上通话次数排名WEEKED_CALLEDTIMESRANK当月周末被叫次数排名MIN_DURATIONRANK当月最短一次通话时长排名WEEKED_CALLTIMESRANK周末呼叫次数排名MAX_DURATIONRANK当月最长一次通话时长排名JW_GUHUA_RATION重合度在固话交往圈占比JW_SHUOJI_RATION重合度在手机交往圈占比设计字段原则:利用排名的连贯性和区间性,能消除数值的影响,并且数据字段稳定的特性。精品资料-13模型(móxíng)建立1,数据探索,处理正负样本比例,2,比较算法,选取最优算法3,最优算法建模,4,使用模型节点预测家庭关系,并进行模型评估,5,家庭关系打分,输出家庭关系清单模型(móxíng)流展示:样本选取宽表设计模型建立模型验证使用clementine工具的决策树算法建立模型,通过固话与手机之间的通话行为,提炼家庭成员的通化特征,形成可应用的业务规则。精品资料

-14模型(móxíng)验证样本(yàngběn)选取宽表设计模型建立模型验证预测非家庭预测家庭合计实际非家庭86924609152实际家庭34013131653合计9032177310805判断一个模型是否可接受,主要根据该模型对已有数据集的分类效果。其中几个重要的检测指标为:准确率、命中率、覆盖率、提升度。3401313460实际家庭预测家庭8692非家庭预测为非家庭准确率:(8692+1313)/10805=92.60%命中率:1313/1773=74.06%覆盖率:1313/1653=79.43%提升度:打分前10%成功率提升5.45倍精品资料

-15模型(móxíng)验证样本(yàngběn)选取宽表设计模型建立模型验证通过小范围调查,验证模型的实际预测效果。在下述12个预测为家庭关系的号码对中,经实际调查,有9对正确,3对错误,准确率为75%。姓名固话手机识别结果错误原因陈琳莉87****06153****7327正确

李俊犀87****87153****7678正确

昌国朋友187****70138****6785正确

昌国朋友287****27189****2572错误对应手机是固话朋友徐芳82****10135****1767正确

凯祥志84****38189****0099正确

张柳85****57133****0720错误未知陈琳莉同事185****50133****5727正确

陈琳莉同事284****46189****8989正确

陈琳莉同事384****23153****7778正确

陈琳莉同事487****98189****0037错误对应手机是固话堂弟庞敏61****31153****7912正确

精品资料

-16现状背景模型目标建模步骤模型解读(jiědú)应用价值目录(mùlù)精品资料

-1790秒以内(yǐnèi)通话排名相互呼叫次数(cìshù)与最大相互呼叫次数(cìshù)的比值周末主叫次数排名90秒内通话次数与最大90秒内通话次数的比值当月被叫次数排名排名第一的号码对,属于家庭的概率为78.1%比值超过99%的号码对,属于家庭的概率为87.8%排名第一的号码对,属于家庭的概率为87.4%比值低于12.5%的,属于非家庭的概率为95.7%排名非首位的号码对,属于非家庭的概率为81.6%不同的变量对于模型分类起着不同的作用,通过各变量的交叉判定,可以准确的预测出结果。变量重要性…… ………………精品资料-18判定决策树及业务(yèwù)规则短时次数排名第一、主叫时长排名第一、周末(zhōumò)主叫次数排名第一、总呼叫次数占比超过99%、周中17-19点固话呼叫手机次数排名第一同时满足上述条件的号码对有1542对,其中符合家庭关系的占87.8%决策树业务规则精品资料-19固话号码手机号码是否家庭关系判断概率787211518955105685是0.9706726199213355511528是0.8921346671613966694966否0.9565517137413866754174是0.7762766149713349193152否0.8643757139013205606569否0.6818431317518905609494是0.8182将模型的分类规则(guīzé)作用于关系未知的【固话,手机】号码对,可预测出其是否属于家庭关系、以及判断为该结果的概率。模型预测(yùcè)输出结果精品资料-20现状背景模型目标(mùbiāo)建模步骤模型解读应用价值目录(mùlù)精品资料

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论