互联网金融产品个性化营销算法方案_第1页
互联网金融产品个性化营销算法方案_第2页
互联网金融产品个性化营销算法方案_第3页
互联网金融产品个性化营销算法方案_第4页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、互联网金融产品个性化营销算法方案技术创新,变革未来目录1背景简介总结&展望核心问题阐述相关框架详解4金融领域的机器学习应用场景风险管理数据/AI产品智能分析智能用户增长个性化营销/推荐用户拉新与留存智能投顾量化投资价值预测风险预测欺诈识别贷中监控智能催收智能客服信用分画像产品个性化营销的核心问题我们的算法框架构建一套基于Matching + Ranking的通用的用户营销响应模型营销活动(产品) 种子人群Targeted UsersUser history and context营销人群 候选池精准营销群体Candidate Generation基于协同过滤的种子人 群扩散(lookalike

2、)Ranking人群优选排序算法Matching阶段Ranking阶段我们的算法框架多方向人群 lookalike召回特征工程排序样本构造排序学习二次排序营销提升模型(uplift model)业务规则输入输出目录背景简介1234核心问题阐述相关框架详解基于协同过滤的人群lookalike特征工程:离散化及稀疏性处理样本构造:PU-learning + DNN排序学习(learning to rank)营销提升模型(uplift model)总结&展望基于协同过滤的人群lookalike方法基于种子人群和属标签的多方向Lookalike策略人群召回人群产品行为人群金融属性人群产品偏好属性标签M

3、F-based CFDNN-based CF方法Rule-based CF目标金融产品 种子人群目标金融产品+“协同过滤”挖掘用户和产品的关系 “强度”,扩散方向确定用户和产品的关系“类型”,通过强度和方向两个维度适应不同的业务目标:拉新、 挽留、提升转化useritem2扩散强度: 协同过滤相关产品人群方向潜客人群方向 流失人群方向同好人群方向1扩散方向: 基于属性标签基于MF(矩阵分解)的协同过滤:LFM隐语义模型通过隐含特征(latent factor)联系用户兴趣和物品用户对金融产品的行为可以定义成一个m*n的评分矩阵,表示m个用户对n个产品的打分(隐式行为)。核心假设:打分矩阵是近似

4、低秩的,也就是说一个mn阶的打分矩阵 Rmn 可以用两个小矩阵Pkm和Qkn的乘积来近似item1item2item3item4user1R11R12R13R14user2R21R22R23R24user3R31R32R33R34class1class2class3user1R11R12R13user2R21R22R23user3R31R32R33item1item2item3item4class1R11R12R13R14class2R21R22R23R24class3R31R32R33R34mmkknRPQR矩阵:用户对物品的偏好P矩阵:用户对各物品类别的一个偏好信息Q矩阵:各物品所归属的的

5、物品类别信息损失函数: =#( -) (,)1= (,)( ,) + +n基于MF(矩阵分解)的协同过滤:LFM隐语义模型随机梯度下降法求解1、通过求参数p(u,k)和q(k,i)的偏导确定最快的下降方向C= + C= # ,1 # 1,+ 2、迭代计算不断优化参数,直到收敛 = + = + # ,1 # ,1 交替最小二乘法(ALS)求解损失函数是凸的,极值有解析解,在偏导=0处(, ) = # + = + + 令(, ) = x=+ I得:同理:=+ I我们对spark.ml中的ALS进行了本地化的改造,以适应金融大 数据中用户量大但产品量小的狭长的UI矩阵的数据特点基于神经网络的协同过滤

6、: NCFMF User VectorMLP User VectorGMF LayerMLP LayerXReLU000100User(u)000100Item(i)NeuMF LayerConcatenationElement-wised productMLP Layer2ReLUMLP Layer1ConcatenationMF Item VectorMLP Item VectorLNONOTraining Log lossNeural collaborative filteringScoreMFNCF矩阵内积计算广义MF+多层神经网络在基于隐式反馈行为(如: 用户对金融产品的点击、注 册

7、、申贷)来挖掘用户的产 品的偏好上,基于神经网络 的协同过滤对比传统方法有 更大的理论优势:Input layer(sparse)Embedding layerNeural CF layersOutput layer基于神经网络的协同过滤: NCFNDCGtopKNCF vs MF-based CF 的离线效果对比Conversion RatiotopKALS:基于矩阵分解的协同过滤LFM在spark上的实现NCF:基于TensorFlow实现在K=2的情况下,NCF比ALS无论是转化率的预估 还是推荐的排序性上,都有至少10%的提升目录背景简介1234核心问题阐述相关框架详解基于协同过滤的人

8、群lookalike特征工程:离散化及稀疏性处理样本构造:PU-learning + DNN排序学习(learning to rank)营销提升模型(uplift model)总结&展望特征工程:连续行为变量离散化及编码基于KS和IV的连续变量离散化策略采用类似单变量决策树的方式进行离散化,对连续型的变量进行二叉树的节点分裂,寻找分裂点的方式为目标变量的KS最大化, 收敛策略是节点对应的记录数小于某个确定的阈值,然后按一定策略进行剪枝。剪枝的策略是在保证变量分裂后的节点数不超过 某个确定的阈值且节点对应的正样本率满足单调性的前提下,使得变量的IV最大P-rate:60%P-rate:35%Fe

9、ature A 100k, 0,100015k, nullP-rate:80%P-rate:2%P-rate:40%P-rate:25%10k, null5k, null70k, 0,700)30k, 700,1000P-rate:90%P-rate:5%50k, 0,400)20k, 400,700)0100One-hot编码Woe化编码0.1121.230.1121.23特征工程: embedding的数据稀疏问题用户长期的金融产品偏好挖掘:user金融产品行为序列User session: (p1,p2,p3,p4)word2VectorDense vector问题:单一用户的行为很少,

10、大量用户在过去一年甚至只在一个产品上有行为,这导致很多 session sequence的长度为1有部分的产品本身总行为次数也很少,无法训练有效的embedding。解决方法: 对user和product在关键属性上进行聚合,并对(user, product)元组进行扁平化处理 :, , , :, , , 这里 p_type1 指的就是product l1对应的product type, u_type1 指的是该user在product l1时的user type,由于某一user的user_type会 随着时间变化,所以 u_type1,u_type2 不一定相同,这也带来了一些 额外的信息

11、输入。借鉴KDD 2018 best paper: Airbnb:Real-time Personalization using Embeddings for Search Ranking at Airbnb目录背景简介1234核心问题阐述相关框架详解基于协同过滤的人群lookalike特征工程:离散化及稀疏性处理样本构造:PU-learning + DNN排序学习(learning to rank)营销提升模型(uplift model)总结&展望样本构造: 典型的营销域业务问题在瞬息万变的互联网金融市场下,构建个性化营销模型时,两种典型的样本缺失问题:12只有购买订单数据,没有曝 光点击的

12、日志数据只有正样本, 没 有负样本纯新营销活动(全新的金融产品) , 只有少量“ 试验 期”反馈数据,稀疏、有偏正负样本稀缺或者不满足独 立同分布PU-learning半监督学习营销活动特点及时性阶段性被动性试验性“基础设施”落后样本构造: PU-learning在 只 有 正 样 本 , 没 有 负 样 本 的 营 销 建 模 中 , 我 们 构 建 : 1)正样本(positive samples)2)未知样本(unlabeled samples)Positive samplesUnlabeled samples正样本:目标营销产品的 典型种子人群未知样本:其他产品存 量用户人群PSSRe

13、liable NegativesClassifier gTwo-step Approach:两步法Round nUu可靠负样本基于spy技术的两步法:Pu-learning前:Pu-learning后:Pu-learning后正负样本区分度更明显,后续的分类模型效果有显著提升regular lrPU- lrPU- xgboostACC0.43090.70840.8303KS0.32710.53480.6794样本构造: PU-bagging用bagging的思想直接融合样本选择和打分模型Positive samplesUnlabeled samples正样本:目标营销产品的 典型种子人群未知样

14、本:其他产品存 量用户人群u1u2Bagging Approach:集成法PClassifier HClassifier h1Classifier h2Classifier hKSAUCRegular model0.71940.9049Pul(two-setp)0.83480.9456pu-bagging0.84780.9682Pu-bagging基本策略:随机采样出和正例数目相同的无标签数据当做负例数据使用1步骤采样的负例数据和正例数据训练分类器,并使用此分类器预测集之外的其他数据重复k次,最后预测结果取k次的预测平均值数据增广策略结合DNN学习未标记样本中的知识对于样本稀缺或者不满足独立同

15、分布的情况下,利用历史营销活动(金融产品)累积的人群及特征,我们 构建:1) labeled正负样本(少量)2)unlabeled样本(大量)用一种结合深度学习、数据增广的半监督方法,从过往营销活动中学习隐含知识少量本次营销 活动反馈数据大量过往营销 活动数据Labeled(x , p)Labeled(x1 , p)Unlabeled uUnlabeled u1Unlabeled d1Unlabeled diUnlabeled dkDNNAverage Sharpen(u21,q)(u2i,q)(u2k,q)W(concat+Shuffle)K增广Loss (CrossEntropyLoss+

16、MSELoass)mixup(x,p)DNN(u,q)DNNClassifier 低熵筛选增广更新参数更新参数更新参数反向传播数据增广策略结合DNN学习未标记样本中的知识DNN部分的网络结构:x缺失w1w2YNxRaw dense featureMissValueLayer output过往类似营销活动(金融产品)的样本在当前时间窗口下往往存在很多缺失的特征值,网络专门中增加一个layer专门 处理缺失值:当特征缺失时,x=w1,否则x=x*w2Output UnitHidden LayerMiss Value Layer1664128sigmoidmodelAUCKSDNN0.85970.6

17、972DNN + mixup + T sharpening0.91790.7557DNN + mixup + T sharpening + PU- learning0.93360.7713最终效果对比:目录背景简介1234核心问题阐述相关框架详解基于协同过滤的人群lookalike特征工程:离散化及稀疏性处理样本构造:PU-learning + DNN排序学习(learning to rank)营销提升模型(uplift model)总结&展望排序学习:baseline:rankNet排序学习是个性化营销建模的最核心部分概率预测 + I I实际概率 = = + j 交叉熵损失函数 = log

18、Oc log1 Oc= + log1 + IfghIgi3层神经网络输入层隐层 1隐层 2隐层 3U_iU_jsigmoid样本打分输出层 s(i)=f(u(i) + I IyTop percentiles申贷注册不响应0-10%78.&%14.3%6.9%10-20%23.7%49.6%26.7%20-30%13.4%51.1%35.5%30-40%11.1%41.7%47.2%40-50%8.5%33.2%58.3%50-60%6.3%25.7%68.0%60-70%5.0%18.3%76.6%70-80%3.8%12.4%83.4%80-90%2.4%8.1%89.4%90-100%1.

19、5%4.4%94.1%rankNet目标:对于用户u,构建打分函数f(u),当用户i比用户j对金融产品有更高响应度时,满足f(i ) f(j)样本pair构造U_iU_j申贷注册注册不响应申贷不响应排序学习:优化:lambdaMARTrankNet LambdaMART:更好地挖掘优质的营销人群LambdaMART 更倾向于优化营销价值更高的用户LambdaMART通过NDCG值来刻画用户对营销活动的响应程度的排序性LambdaMART采用MART也就是GBDT的集成模型红箭头表示lambdaMART,黑箭头表示rankNet损失函数梯度的变换jk = + Ijk = + I放款支用授信未支用

20、 申贷未授信 注册未申贷 不响应梯度Cjk = log1 + IghIgiOc损失函数排序学习:优化:lambdaMART某金融产品的营销人群分层:建模目标:用lambdaMart的方式对拟合score的用户,找到一种大数据帮助客 户的目标消费者群体进行价值分层的方法模型结果:对f(x)从高到底排序,按10%取百分位数,然后对比每段的score分布从结果上看,我们的lambdaMart能够很好的区分用户分层Score含义0营销未响应1营销响应:注册2营销响应:注册且申贷3营销响应:申贷且授信通过4营销响应:放款支用排序学习: 优化:deepFM我们期望通过复杂的模型去学习用户金融产品行为的隐含

21、信息1)模型的wide部分,由FM挖掘二阶特征组合2)模型的deep部分,由多层神经网络挖掘高阶特征组合model训练集测试集验证集rankNet0.85210.83110.8326FM0.81750.81490.8152deep0.86960.86780.8647deepFM0.87020.86880.8675模型效果对比(AUC)同时为了让模型更好地学习样本,按业务特点对特征进行了预处理1)对用户金融行为的异常值(超过正常业务范围)进行平滑处理,防止wide部分训练异常2)连续型特征同时等频归一化及基于IV离散化,让模型可以从不同角度 学到知识Feature PreprocessingDo

22、uble型连续 特征值特征值个数较 少的整型特征特征值个数较 多的整型特征等频归一化IV离散化Log平滑Categorical FeaturesDense EmbeddingsFM Layer+Hidden LayerOutput Unit+Inner productAddition Sigmoid目录背景简介1234核心问题阐述相关框架详解基于协同过滤的人群lookalike特征工程:离散化及稀疏性处理样本构造:PU-learning + DNN排序学习(learning to rank)营销提升模型(uplift model)总结&展望营销提升模型(uplift model)什么是upli

23、ft model?通常,在marketing campaign中,我们追求的不仅是消费者在营销活动中响应度,而且是ROI的最大化 Uplift Model的最终目标就是找到最有可能被营销活动影响的用户,从而提升ROI、提升整体的市场响应率!营销正向 提升营销负向 衰减自然反应无感NoYesNoYesBuy if not treatedBuy if treatedPersuadablesSure thingsLost causesSleeping dogs营销提升模型(uplift model)一种基于pairwise思想的模型策略:Label策略-2200NoYesControlTreat T

24、reatment labelOutcome label似然函数2n个人,随机分配到营销组t、控制组c。对于每个用户,原始和转换后结果分 别由y_i 和 z_i表示。11r = | - |= =11# # 1=# = 最终使用一个回归模型来得到升力= |, - |, = |评估指标:转化率的提升比 = , Model注册转化率产品偏好分模型0.24%产品偏好分+uplift score(低权重)0.37%产品偏好分+uplift score(高权重)0.43%模型融合的3个策略Uplift Score产品偏好分营销潜客 人群直接用uplift score 代替产品偏好分排序Targeted us

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论