数据挖掘项目模型方法课件_第1页
数据挖掘项目模型方法课件_第2页
数据挖掘项目模型方法课件_第3页
数据挖掘项目模型方法课件_第4页
数据挖掘项目模型方法课件_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南方航空公司数据挖掘案例报告提纲一、项目目标二、客户细分三、客户价值四、客户流失五、航线分析六、交叉销售七、KPI报表一、项目目标(1)常客户数据挖掘分析包括如下主题:客户细分、客户价值、客户流失、航线分析、交叉销售等。(2)通过各大主题分析,提升南航客户关系管理水准,促进销售增长。二、细分模型1、模型需求目标

通过客户细分模型分析在一时间段从上海始发或到达的全体乘客的行为特征,从客户的订票行为、支付行为、值机行为和乘机行为入手对用户进行细分,并且要求细分结果需要具备客户的航线特征以满足航空业市场营销活动的需求。2、行为聚类(1)分析数据及变量目标群体:2008-01到2009-06的从上海出发或到达的常旅客分析时间窗口:2008-11到2009-10(训练样本)总数:563,4872008-12到2009-11(校验样本)总数:569,954初始分析变量(21个):(2)行为聚类结果2、行为聚类(3)行为聚类结果说明2、行为聚类(4)行为训练集与校验集的迁徙变化2、行为聚类虹桥-广州 虹桥-深圳 浦东-大连 浦东-沈阳浦东-武汉 虹桥-郑州 虹桥-长沙 浦东-郑州虹桥-北京 浦东-深圳 虹桥-乌鲁木齐 浦东-广州浦东-珠海 虹桥-汕头 虹桥-贵阳 浦东-海口浦东-哈尔滨 虹桥-南宁 浦东-三亚 浦东-台北(1)分析航线(20条)3、航线聚类(2)航线聚类结果3、航线聚类4、行为与航线交叉结果

采用聚类分析方法对客户行为及航线聚类。5、模型方法

从客户的订票行为、支付行为、值机行为和乘机行为入手对常客进行聚类分析,根据组群客户行为特征及航线特征挖掘满足航空业市场营销活动的目标会员群体。6模型结果(1)依据会员行为聚类,得到8个会员群体,依据航线聚类得到15个航线群体。(2)分析每个群体的优劣势,概括出群体的优势与劣势特征。(3)群体迁徙分析(4)行为与航线群体交叉分析7KPI展现1.查看模型基本信息描述2.模型结果高级条件组合查询3.加载\保存自定义查询条件4.使用模型结果查询条件5.使用上传的会员卡号6.导出到CSV文件7.导出到EXCEL文件具体参见KPI系统三、客户价值模型

1模型需求通过高质量的价值评分预测模型对客户进行评分,根据模型输出结果可让一线人员根据分值直观判断会员的价值高低,提供相应的服务标准。对会员按历史与近期价值分别进行评分。2、近期价值客户群体:

2008年1月1日-2009年4月30日有乘机记录的常旅客.

总数:2308246.分析的时间窗口:

2008-01-01——2009-04-30(训练样本)

2008-01-01——2009-07-30(校验样本)

最初变量(11个):

票价收入飞行次数两舱比例平均折扣基本积分票价利润最后一次乘机时间至今卡龄合作伙伴积分积分使用次数促销积分分析群体数量为:2308246,其中合作伙伴积分:最大值:4091612最小:0此项不为0的比例:8.4%;

促销积分:最大值:108350最小:0此项不为0的比例:5.1%;3、近期价值变量筛选过程积分使用次数:最大值:459最小:0此项不为0的比例:4.9%;

两舱次数:最大值:202最小:0此项不为0的比例:7.4%。

四个变量数据的特殊性,导致出现:有些会员飞行次数,基本里程分,票价收入并不高,但由于上述四个指标中有些指标远远高于其他会员,结果价值得分高,经过与业务部门商讨,最后达成一致:删除这四个分析变量。在进一步的模型建立中发现卡龄并不能准确的反映一个会员的价值:比如有的会员卡龄大但是最近两年乘机并不频繁,有的会员卡龄小,但是最近两年乘机频繁!因此将卡龄也删除了。对于“最后一次乘机时间至今时长”这个指标,也会导致模型不稳定及结果不合理性。例如:下面两个会员,从其他指标来看,后者的价值应该高于前者,但是由于最后一次乘机时间至今的影响,导致结果不合理!因此,建议采用五个指标。卡号价值得分票价收入飞行次数平均折扣基本积分票价利润最后一次乘机时间至今时长28000640819111.4011003120.6895114689.91068900032834411.4018858140.69172026093.0950一些特殊数据指标权重票价收入飞行次数两舱比例平均折扣基本积分票价利润最后一次乘机时间至今时长卡龄合作伙伴积分积分使用次数促销积分1.631.472.511.981.561.741.531.250.920.850.43票价收入飞行次数平均折扣基本积分票价利润最后一次乘机时间至今时长1.761.632.021.731.770.71票价收入飞行次数平均折扣基本积分票价利润1.791.701.661.741.7611个指标6个指标5个指标上图只选取得分≥0的会员的得分分布图:得分≥0的会员有:759379,占总人数2308246的32.9%,其中有大部分会员的得分集中在0分值附近,最高分为377,最低分为-15。最后得分、排位展示情况如下:

采用五个指标的结果得分排位示例分析群体:

2008年1月1日-2009年4月30日有乘机记录的常旅客.时间窗口:1998-11-1到2009-04-30.分析变量(9个):飞行次数,两舱比例,平均折扣,基本积分总和,促销积分总和,合作伙伴积分总和,积分使用比例,卡龄,最后一次乘机时间至今时长.4、历史价值考虑不同变量的结果比较飞行次数两舱比例平均折扣基本积分总和促销积分总和合作伙伴积分总和积分使用比例卡龄最后一次乘机时间至今时长0.941.831.380.851.161.200.950.761.809个变量得出的参数权重:4个变量得出的参数权重:飞行次数平均折扣基本积分总和最后一次乘机时间至今时长1.061.330.901.473个变量得出的参数权重:飞行次数平均折扣基本积分总和1.181.481.07去除两舱比例,促销积分总和,合作伙伴积分总和,积分使用比例和卡龄。根据上面各变量的系数,我们可以看到客户的价值与这些变量成正比。两舱比例:因为坐两舱的人很少,计算出来的两舱比例权重不合理;促销积分总和,合作伙伴积分总和,积分使用比例:经过与业务部门协商,该数据的数量级差别太大,且只有6%左右的人有此数据,于是导致计算出来的比例权重不合理;最后一次乘机至今时长:是因为有的人就在时间窗口末端乘机,导致此变量对客户价值的得分产生不合理的结果;卡龄:对于卡龄长但是最近两年飞的很少,所以在很大程度上反映不了客户的真实价值,所以这里不予考虑此变量。考虑不同变量的结果比较采用三个指标的得分最大值:15增量:1上图只选取得分≥0的会员的得分分布图:得分≥0的会员有:666420占总人数2308246的29%,大部分会员的得分集中在0附近。最后得分、排位展示情况如下:历史价值排位5模型结果(1)得到会员按价值评分大小的排序表,并根据业务需要进行一百等分划分,帮助客户部清晰认识会员价值的分布。(2)价值迁徙变化6

KPI展现1.查看模型基本信息描述2.模型结果高级条件组合查询3.加载\保存自定义查询条件4.使用模型结果查询条件5.使用上传的会员卡号6.导出到CSV文件7.导出到EXCEL文件具体参见kpi系统四、流失模型

1模型需求南航面临常旅客流失的问题,通过建立流失模型,对客户进行流失评分,及早发现客户流失倾向,并采取积极有效挽留措施。(1)数据情况目标群体:会龄>=1年(观察窗口末端日期-入会日期>=1年),并且乘机次数>=2的南航会员。观察时间窗口:2006-07-01到2008-06-30表现窗口:2008-07-01到2009-06-30校验窗口:2008-10-01到2009-09-302数据分析超高端:乘机次数位于排序前1%的客户或升级里程位于排序前1%),并且平均乘机折扣率>=0.8。人数:6427.比例:0.83%高端:不属于上面的这些会员,乘机次数位于排序前1%和排序前10%之间的客户,或升级里程位于排序前1%与排序前10%之间。人数:28614。比例:3.70%。(2)目标客户分群标准中端:不属于上面的这些会员,乘机次数位于排序前30%或升级里程位于排序前30%。人数:294429,比例:38.05%。低端:不属于上面的这些会员,人数:444335,比例:57.42%不同群体,流失标准不同,先将目标客户进行分群,然后针对不同的群体给出不同的流失标准。Notes:该标准是与业务部门经过多次讨论得到。各群组特征3、建模方法

LOGISTIC回归是一种特殊的回归模型,与古典的线性回归模型不同,其响应变量是一分类变量,而非连续变量。响应变量是一个二值化的变量,通常以1\0表示某一事件发生或者不发生。

应用Logistic回归得到的概率p通常表示在将来某段时间后某一事件发生的概率。pOdds:目标事件发生的数量/非目标事件发生的数量.Oddsratio=prob(目标事件)/prob(非目标事件)=p/(1-p)p=prob(目标事件)prob表示事件发生的概率Logit:logofoddsratio=log(p/(1-p))Logistic回归:拟合下面的模型logit=a0+a1*X1+…+ak*Xkp=prob(目标事件)=exp(logit)/(1+exp(logit))p的取值范围:[0,1]4、变量选取参与建模变量(12个):L1Y_Flight_Count最近1年乘机次数Ration_L1Y_Flight_Count最近1年的乘机比率L1Y_BASE_POINTS_SUM最近1年里程积分L1Y_Points_Sum最近1年观测窗口总累计积分Eli_Add_Point_Sum

非乘机积分总和Avg_discount

平均折扣率Days_from_last_to_end

最后一次乘机时间至观察窗口末端时长Max_flight_interval

观察窗口内最大乘机间隔Days_from_begin_to_first

观察窗口内第一次乘机时间至MAX(观察窗口始端,入会时间)时长Avg_flight_interval

平均乘机时间间隔Point_Chg_NotFlight

非乘机的积分变动次数Card_Age

卡龄5模型结果(1)给出会员十等分的流失评分分布图表(2)给出会员的累积流失曲线。(3)给出会员的交叉/迁徙变化表。训练样本:总数773805超高端:总数6427

表现窗口:2006-07-01到2008-07-01组别:根据流失概率划分成十等分校验样本:928576超高端:6954表现窗口:2006-10-01到2008-10-01组别:根据流失概率划分成十等分超高端流失判断规则:表现窗口的飞行次数<=观测窗口飞行次数的0.2

且里程积分<=观测窗口里程积分的0.26、分析结果

超高端流失判断规则:表现窗口的飞行次数<=观测窗飞行次数的0.4

且里程积分<=观测窗里程积分的0.3)

训练样本:773805超高端:6427

表现窗口:2006-07-01到2008-06-30组别:根据流失概率划分成十等分测试样本:928576超高端:6954表现窗口:2006-10-01到2008-09-30组别:根据流失概率划分成十等分训练样本:773805,超高端:6427表现窗口:2006-07-01到2008-06-30超高端ROC曲线(表现窗口的飞行次数<=观测窗飞行次数的0.2且里程积分<=观测窗里程积分的0.2)校验样本:928576,超高端:6954表现窗口:2006-10-01到2008-09-30超高端ROC曲线(表现窗口的飞行次数<=观测窗口飞行次数的0.4

且里程积分<=观测窗口里程积分的0.3

校验样本:928576

超高端:6954表现窗口:2006-10-01到2008-09-30训练样本:773805超高端:6427表现窗口:2006-07-01到2008-06-30流失结果展示7KPI展现1.查看模型基本信息描述2.模型结果展示3.模型结果查询4.交叉/迁徙表实际系统演示模型结果五、航线分析1模型目标目前公司促销的决策管理模式为:各个部门申请促销航线,经主管部门批准。这种方式有其不合理性,没有真正体现资源效率的合理与公平。期望:通过模型在数据分析的基础上选择合适航线,针对目标群体设计合适产品。从以上这些聚类,交叉以及预测的结果中联系航线分析模型需求,从航线聚类结果,可以找到比较有特征的的航线(航段组合)或重点航线进行促销,连接会员信息,找到并选取航线上的目标客户作促销或其他活动,帮助南方航空公司合理配置资源,实现利润最大化。目标群体:南航现有国内航段明细数据,总数:948821。独立航段数:1502.独立始发地:124.时间窗口:2008年1月1日—2009年10月30日。旅客承运量常客承运量常客乘机比两舱常客乘机比可累积舱位常客乘机比客座率两舱客座率客公里收入座公里收入旅客平均票价常客平均票价分析变量:

2、模型方法(1)按航段、始发地、按时间(月)聚类(聚类算法);(2)预测主要始发地、航段的旅客承运量、会员承运量、两舱旅客/常客流量、常客乘机比预测(回归分析法);(3)用HASH表数据结构设计商务圈算法.

3模型结果(1)得到航线聚类群体(2)得到5个指标未来1年每个月的预测值(3)得出外航与南航两舱钱包份额(4)得到会员商务圈。4、聚类结果始发地总体聚类该群优势特征突出该群劣势特征明显Notes:红色表示最大,橙色表示次大,绿色表示最小。按照始发地聚类结果描述以第一群、第三群、第四群为例:第一群包括的始发地:安庆市、长治市、大同市、香格里拉、黎平等。特点:旅客承运量、常客承运量、两舱常客乘机比、客座率、两舱客座率、客公里收入、常客平均票价均较低。第三群包括的始发地:阿勒泰市、阿克苏市、哈密市、库车市等。特点:客公里收入、座公里收入均最高,旅客承运量、常客承运量均低于平均水平。第四群包括的始发地:北京市、上海市、郑州市、常州市、深圳市等。特点:旅客承运量、常客承运量、两舱常客乘机比、客座率、两舱客座率、可累积舱位常客乘机比均最高;不过座公里收入最低。分群特征明显。航段总体聚类在上述聚类结果上进一步分析注:其他群其他月份均有类似的结果按航段、始发地聚类交叉结果始发地群1与航段群1交叉,时间段为1月份的特征表现5预测常客承运量、旅客承运量的结果5预测常客承运量、旅客承运量的结果5

KPI展现1.查看模型基本信息描述2.航段聚类1)聚类结果(聚类特征描述、类的月度数据描述)2)航段始发地交叉(始发地航段交叉表、具体航段、交叉月度明细表)3.按航段、始发地或航段始发地交叉查询1)汇总结果查询2)明细结果查询3)会员明细结果查询4.両舱会员钱包份额分析1)查看航空公司両舱份额2)航空公司両舱份额汇总查询3)南航外行共飞、南航独飞、南航不飞的份额查询4)钱包份额明细查询5.商务圈查询表1)商务圈查询2)两个时间段的商务圈对比查询6.商务圈会员明细查询7.预测表实际系统展现六交叉销售模型

1模型需求交叉销售模型主要是指南航和合作伙伴间的交叉销售,目前的交叉销售类型有:银行/联名卡/积分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论