基于因果机器学习及银行业应用_第1页
基于因果机器学习及银行业应用_第2页
基于因果机器学习及银行业应用_第3页
基于因果机器学习及银行业应用_第4页
基于因果机器学习及银行业应用_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于因果的机器学习及银行业应用李琨光大科技追光实验室负责人DataFunSummit#2023目录CONTENT应用难点因果关系的必要性DataFunSummit#2023以相关关系为基础的统计学TestTrainTest Distribution1Distribution2y=f(x)y=f(x)运动年龄胆固醇运动胆固醇因果科学与机器学习DataFunSummit#2023[1]苗旺,刘春辰,耿直.因果推断的统计方法.中国科学:数学,2018,48(12):1753-1778.因果理论的两个主要模型•由统计学家建立的潜在结果模型r=y1-"•分配可忽略性假定:倾向性得分、逆概加权估计、回归估计、双稳健估计等•潜在可忽略性假定:工具变量、阴性对照变量等辅助变量方法•由计算机科学家开创的因果网络模型[2]李家宁,熊睿彬,兰艳艳,庞亮,郭嘉丰,程学旗.因果机器学习的前沿进展综述[J].计算机研究与发展,2023,60(1):59-84.银行业应用探索DataFunSummit#2023客户营销渠道运营产品推荐76543210传统营销基于目标行为响应的建模Lift曲线图 10%20%30%40%50%60%70%80%90%100%主要的质疑:是营销干预带来的吗?增量营销增量提升(Uplift):主要方法:•直接评估型方法=1)-•S-learner,T-learner•X-learner=)+1-))•二分类问题a=w+a-wu-n1=2()-1•基于倾向性得分••基于分裂指标的树模型方法开源包:scikit-uplift•节点分裂基于不纯度/信息增益•如何选择规则•是否组合规则[1]K.Li,F.Zheng,J.Tian,X.Xiang.AFederatedF-scoreBasedEnsembleModelforAutomaticRuleExbasedsingle-branchEnsembleTreesforupliftmodeling.(AAAI2023W5:AIforWeb单枝树方法ll分裂准则ll带预剪枝的贪婪算法AAAI2023W5:AIforWebAdvertising抽取规则确实使用了有作用变量极低响应率下表现较好风控流程合规风控反欺诈贷前审批模型l地区l实名验证、OCR活体l评分模型(逻辑回归、机器学习)l年龄l黑名单、设备信息l数据(PBOC、三方数据、自有) 申请端准入规则l流量l多头借贷规则l先等额再定价l白名单l基于PBOC的规则l目标客群&价格美国的个人信用评分系统,主要是FairIsaacCompany推出的FICO,评分系统也由此得名。人行数字解读蚂蚁芝麻分微信支付分京东小白分度小满小满分评分卡模型建模目标•违约概率•证据权重编码基于逻辑回归的评分卡模型WOE=ln(•证据权重编码•逻辑回归模型•可解释性z=β0+β1x1+β2x2…..+βnxn•稳定性dP=β0+β1x1+β2x2…..+βnxn可能的其他方法•Covariantlearningalgorithms:识别因果特征•domaingeneralization/representativemethod:学习不变表示挑战•数据的维数•多次训练模型主要期望设计传统评分卡模型,希望其在跨域数据集上表现更稳定。参考[1]Kuang,K.,etal.StablePredictionacrossUnknownEnvironments.inACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining.2018.[2]Peng,C.andA.Susan,Stablelearningestablishessomecommongroundbetweencausalinferenceandmachinelearning.Naturemachineintelligence,2022.4(2):p.110-115.清华大学,崔鹏团队稳定学习结合因果正则化的优化问题最小化•定义sj={},对原始[1]K.Li,F.Zheng,J.Tian,X.Xiang.CausalregularizationforStableScoringCardModel,CreditScoringandCreditControlXVIIl特征X={C,V}独立的高斯分布,C和V分别是影响输出的变量和噪音变量。lV=r*Y+(1-r)*(1-Y).r>0.5时,Y和V正相关;r=0.5时,Y和V独立;r<0.5时,Y和V负相关.n噪音强度的变化,导致传统LR模型表现变化较大,因果正则化后的模型变化较小standardscorecardstandardscorecard二个月的借据表现,分别作为训练集和测试l训练集包括3361个未违约样本和33个违约样本,测试集4965个未违约样本和49个违约样本nAUC:0.08vs0.02SSCM数据表现的缺失带来的偏置有限的数据也并不一定代表客户真实的偏好【合集·Workshop:PCIC第二届华为因果推理挑战赛】https://b23.tv/OYyasju总结Data

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论