版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于因果的机器学习及银行业应用李琨光大科技追光实验室负责人DataFunSummit#2023目录CONTENT应用难点因果关系的必要性DataFunSummit#2023以相关关系为基础的统计学TestTrainTest Distribution1Distribution2y=f(x)y=f(x)运动年龄胆固醇运动胆固醇因果科学与机器学习DataFunSummit#2023[1]苗旺,刘春辰,耿直.因果推断的统计方法.中国科学:数学,2018,48(12):1753-1778.因果理论的两个主要模型•由统计学家建立的潜在结果模型r=y1-"•分配可忽略性假定:倾向性得分、逆概加权估计、回归估计、双稳健估计等•潜在可忽略性假定:工具变量、阴性对照变量等辅助变量方法•由计算机科学家开创的因果网络模型[2]李家宁,熊睿彬,兰艳艳,庞亮,郭嘉丰,程学旗.因果机器学习的前沿进展综述[J].计算机研究与发展,2023,60(1):59-84.银行业应用探索DataFunSummit#2023客户营销渠道运营产品推荐76543210传统营销基于目标行为响应的建模Lift曲线图 10%20%30%40%50%60%70%80%90%100%主要的质疑:是营销干预带来的吗?增量营销增量提升(Uplift):主要方法:•直接评估型方法=1)-•S-learner,T-learner•X-learner=)+1-))•二分类问题a=w+a-wu-n1=2()-1•基于倾向性得分••基于分裂指标的树模型方法开源包:scikit-uplift•节点分裂基于不纯度/信息增益•如何选择规则•是否组合规则[1]K.Li,F.Zheng,J.Tian,X.Xiang.AFederatedF-scoreBasedEnsembleModelforAutomaticRuleExbasedsingle-branchEnsembleTreesforupliftmodeling.(AAAI2023W5:AIforWeb单枝树方法ll分裂准则ll带预剪枝的贪婪算法AAAI2023W5:AIforWebAdvertising抽取规则确实使用了有作用变量极低响应率下表现较好风控流程合规风控反欺诈贷前审批模型l地区l实名验证、OCR活体l评分模型(逻辑回归、机器学习)l年龄l黑名单、设备信息l数据(PBOC、三方数据、自有) 申请端准入规则l流量l多头借贷规则l先等额再定价l白名单l基于PBOC的规则l目标客群&价格美国的个人信用评分系统,主要是FairIsaacCompany推出的FICO,评分系统也由此得名。人行数字解读蚂蚁芝麻分微信支付分京东小白分度小满小满分评分卡模型建模目标•违约概率•证据权重编码基于逻辑回归的评分卡模型WOE=ln(•证据权重编码•逻辑回归模型•可解释性z=β0+β1x1+β2x2…..+βnxn•稳定性dP=β0+β1x1+β2x2…..+βnxn可能的其他方法•Covariantlearningalgorithms:识别因果特征•domaingeneralization/representativemethod:学习不变表示挑战•数据的维数•多次训练模型主要期望设计传统评分卡模型,希望其在跨域数据集上表现更稳定。参考[1]Kuang,K.,etal.StablePredictionacrossUnknownEnvironments.inACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining.2018.[2]Peng,C.andA.Susan,Stablelearningestablishessomecommongroundbetweencausalinferenceandmachinelearning.Naturemachineintelligence,2022.4(2):p.110-115.清华大学,崔鹏团队稳定学习结合因果正则化的优化问题最小化•定义sj={},对原始[1]K.Li,F.Zheng,J.Tian,X.Xiang.CausalregularizationforStableScoringCardModel,CreditScoringandCreditControlXVIIl特征X={C,V}独立的高斯分布,C和V分别是影响输出的变量和噪音变量。lV=r*Y+(1-r)*(1-Y).r>0.5时,Y和V正相关;r=0.5时,Y和V独立;r<0.5时,Y和V负相关.n噪音强度的变化,导致传统LR模型表现变化较大,因果正则化后的模型变化较小standardscorecardstandardscorecard二个月的借据表现,分别作为训练集和测试l训练集包括3361个未违约样本和33个违约样本,测试集4965个未违约样本和49个违约样本nAUC:0.08vs0.02SSCM数据表现的缺失带来的偏置有限的数据也并不一定代表客户真实的偏好【合集·Workshop:PCIC第二届华为因果推理挑战赛】https://b23.tv/OYyasju总结Data
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年都江堰市社会招聘事业单位工作人员(公共行业类)笔试真题
- 2024年玉溪申请客运从业资格证考试题和答案
- 精准疫苗研发行业经营模式分析
- 2024年贵阳客运从业资格证培训资料
- 2024年郑州客运资格证考试题
- 2024年兴安申请客运从业资格证2024年试题
- 个体化营养药物行业三年发展预测分析报告
- 2024年呼和浩特客运资格证需要什么条件
- 农业科技与机器学习行业技术趋势分析
- 2024年沧州道路旅客运输资格证考试
- 2024贵州省机场集团限公司地服分公司招聘21人高频考题难、易错点模拟试题(共500题)附带答案详解
- 第一章 物态及其变化 单元测试- 2024-2025学年北师大版物理八年级上册
- 2024至2030年中国ITO薄膜行业市场全景调查及投资前景趋势报告
- 保密及排他性合同协议书范本(2024版)
- 第二单元集体备课表-2024-2025学年语文五年级上册统编版
- 2022智慧化风电场管理运维
- 盐城市统计局直属事业单位招聘工作人员(高频重点复习提升训练)共500题附带答案详解
- 《口语交际:讲民间故事》(教学设计)-2024-2025学年五年级语文上册统编版
- 建筑工程技术专业《全站仪测量》课程标准
- 中盐集团笔试
- DL∕T 1987-2019 六氟化硫气体泄漏在线监测报警装置技术条件
评论
0/150
提交评论