![机器学习系统和工程方面的优化方向 胡时伟_第1页](http://file4.renrendoc.com/view/badadd5e9406b80527ead7fb13a59eb1/badadd5e9406b80527ead7fb13a59eb11.gif)
![机器学习系统和工程方面的优化方向 胡时伟_第2页](http://file4.renrendoc.com/view/badadd5e9406b80527ead7fb13a59eb1/badadd5e9406b80527ead7fb13a59eb12.gif)
![机器学习系统和工程方面的优化方向 胡时伟_第3页](http://file4.renrendoc.com/view/badadd5e9406b80527ead7fb13a59eb1/badadd5e9406b80527ead7fb13a59eb13.gif)
![机器学习系统和工程方面的优化方向 胡时伟_第4页](http://file4.renrendoc.com/view/badadd5e9406b80527ead7fb13a59eb1/badadd5e9406b80527ead7fb13a59eb14.gif)
![机器学习系统和工程方面的优化方向 胡时伟_第5页](http://file4.renrendoc.com/view/badadd5e9406b80527ead7fb13a59eb1/badadd5e9406b80527ead7fb13a59eb15.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
技术实现第四范式胡时伟2017年8月5日AIWorks电商推荐授信审批精准营销计算广告内容推荐智能产品推荐差异化定价实时风控智能客服个性化和微观业务场景的分析和预测能力要求早已远超传统企业的想象达传统客户触达:•用少量特征将用户较为粗放的划分到少量类别中,每个类别中的用户被认为有相似的属性和相同的意愿,丢失了对每个用户的个性化描绘,准确性有限。同时也无法覆盖到部分客群中的个性化用户有意愿的用户无意愿的用户AI触达大数据机器学习模型:•基于日益丰富的海量数据样本,和千万以上量级数据特征,将用户细分到微观粒度,对每个用户做精细的个性化描述,直接定位到每个有意愿的用户,更精准,更全面有意愿的用户无意愿的用户历史数据机器学习•模型自动基于新样本数据更新,历史数据机器学习•模型自动基于新样本数据更新,自学习,自适应,自优化。•支持批量自学习、增量自学习、学习求企业能够适应不断变化的内外部环境,实现数据价值传统的决策规则政策迭代周期:数月、半年甚至一年以上互联网的决策规则政策迭代周期:小时甚至只需每分钟数据模数据模型练现实样本预测系统预测结果实际结果反馈和决策吞吐能力不断增强数据时效:预测和响应决策能力:数据时效:十天半月以上预测和响应决策能力:和决策吞吐能力不断增强数据时效:预测和响应决策能力:数据时效:十天半月以上预测和响应决策能力:依赖人工,吞吐量低立实时或准实时的数据采集传输、模型预测和响应决策能力古代驿站传书时代传统IT信息化时代数据时效性不断提高数据时效性不断提高人工+系统有限数据规模下快速响应现代书信时代数据时效:数天预测和响应决策能力:依赖人工,吞吐量低移动互联网时代数据时效:T+几分钟/几秒钟预测和响应决策能力:系统自动大数据环境下的高速吞吐能力大数据输入 输出人工智能构建商业AI能力的五个要素BBigdata大数据RResponse外部反馈AINIInfrastructure需求Pad数据,如何为每一现实与理想的距离想征工程进行少量特征工程探索的AI团队进行大规模特征工程探索规模几千维度到数十亿维度算法网络反复炼丹,通过模型变化适场景模机器学习算法,通过特征工程场景除错越、过拟合等问题,线下建模很好,上线之后失望用经验带领团队排除掉建模过程如何使数据工程师变成AI专家?•特征工程:使数据工程师能够有效探索出足够有效的特征集•模型规模:引入一套支撑超高维模型训练的机器学习系统•模型算法:使数据工程师能够训练出足够有效的模型•模型除错:使数据工程师能够快速了解到模型是否有错误并加以排除先知平台–敏捷AI应用构建平台BEFORE采集数据10%模型上线10%20%数据处理20%模型评估10%特征工程20%特征工程20%20%AFTER模型评估模型上模型评估5%模型调参10%特征工程10%采集数据65%采集数据65%5%AI算子区算子区参数配置区DAG操作区计划操作区t征组合函数方法:连续值特征和离散值特征支持多种高维特征处理方法:Log/Floor/Lineartrans等数值处理EliminatecharSplitMappingSplitbyKey符串处理•Combine(组合)/Wordseg(切词)/Top(排序)特征处理支持嵌套,例如:•Y=top(int(splitbykey(age,";",","),"2")境产环境业务系统\应用 系统对接\数据反馈\数据接口理接入接入处理处理训练征处理建训练服务部署评估服务更新请求模型方案服务更新更新发布境产环境业务系统\应用 系统对接\数据反馈\数据接口理接入接入处理处理训练征处理建训练服务部署评估服务更新请求模型方案服务更新更新发布台化的机器学习架构支撑机器学习全流程平台数据中心数据输出数据更新预估请求预估获取数据反馈数据反馈数据数据反数据反馈数据数据反馈调研数据预估调用预估反馈数据总线反馈总线调研平台学习平台调研平台学习平台服务接口例例服实服例模型模型模型模型模型分布式模型仓库\数据存储分布式模型仓库\数据存储分布式模型仓库\数据存储分布式模型仓库\数据存储分布式模型仓库\数据存储平台技术分享在工业应用中的4个象限需要高执行效率分布式并行计算系统是第一生产力习框架GDBT•GDBT是一个分布式机器学习框架,由C++14编写•机器学习过程抽象,隐藏分布式细节•兼容MPI/Yarn/Mesos/K8s等运行环境•实现了高性能的ParameterServer架构•优化多模型共同训练过程,大幅提升AutoML相关算法的性能标准算法优化:HDLR(第四范式)Vs.传统LR传统逻辑回归算法大规模离散逻辑回归算法(第四范式)特征维度几十到几千几千万到几十亿,甚至上万亿数据兼容性需要使用高饱和度数据样本数据抽样样本数据抽样,只使用抽样出来的样本建模无需抽样,使用全量样本建模差异。标准算法优化:GBDT(第四范式)Vs.传统决策树策树算法 (如Cart,C4.5算法)成学习决策树算法SAS等) (第四范式)确度树过深容易过拟合,确和过拟合难以兼得的树迭代,不容易的树迭代,不容易数量万到几千万甚至几百亿到数万,由平台节点规模而定征力大规模离散特征大规模离散特征t散特征的处理和使用高维离散嵌入树网络(Hyper-dimensionEnsembleTreeNet)•摘要•解决的问题实际情况中,连续特征和离散特征同时存在;•适用场景数据多,样本间有时序关系,时间跨度大;短时间内数据分布变化不大,近期样本分布对label影响更大;高性能特征工程框架-1•特征处理:将原始二维表转化为高维稀疏特征矩阵•无筛选、大规模:高维机器学习特定面对的问题•目标:支持使用某种领域特定中间语言描述特征处理过程•技术选型:为兼容Spark/在线程序,选用JVM上的语言•性能问题•特征处理占用机器学习计算过程的50%以上时间•类与方法、字符串、堆内存分配高性能特征工程框架-2•运行优化:AST遍历运行–运行时代码生成(脚本–DAG–代码)•死代码与公共子表达式消除•引入强类型系统与类型推断用原生类型数组int[]double[]char[]预先分配显式管理内存•Cache.解决核心问题:统计与序列特征的存储与查询.反欺诈中查询账户最近一个月的交易记录,并衍生大量特征.基于流式处理的预计算VS实时查询与特征衍生.千万特征千条历史实时交易反欺诈c4.xlargeTP9920msQPS400+.局部有序存储,满足高性能时序数据读取要求.并发读写友好,读写互不影响.高度定制的序列化协议撑组件•模型仓库:•线下DAG图到线上DAG图的自动转换•线上模型的滚动更新•基于Kubernetes的高可用架构•支持通过图形界面进行定义与执行•可以从任意节点开始执行,支持中断、恢复•支持中间计算结果持久化(运行过的算子不再运行)•支持全局异常校验与推断(Schema-aware系统)WebUINNodeMasterNNodeAgentYarnKubernetesGDBTTensorflowSpark器•背景:工作流的实际执行计划包括多种任务•多租户支持–Quota、身份(UserMapping)、沙箱与安全•动态资源调度–如何给第一个上班的人分配资源能调参–CostBasedVSModelBased•使用先知来优化先知云的部署架构•先知整体支持容器化部署•k7s=k8s–network–docker•实现一个符合容器标准的轻量级容器•基于IP/Port架构,避免Flannel等虚拟网络组件对企业内网架构的影响•ProphetonIngress=基于域名的服务请求转发•计算是第一生产力•分布式、框架、算法优化•平台的目标是使计算生产力易于获取•AutoML案例参考第四范式先知平台成功案例(金融领域)解决方案业务场景务效果风险控制模式某股份制银行信用卡中心Visa渠道的准确率从1%提升至7.62%精准营销信用卡分期产品营销:预测客户对于分期产品(交易分期、取现分期、账单分析)的响应率,对高响应率的客户进行精准营销某股份行信用卡中心:交易分期,响应率提升68%,收入提升某股份行信用卡中心:取现分期,响应率提升22%,收入提升某股份制银行信用卡中心:响应率提升200%~300%个性化推荐理财产品个性化推荐:预测客户对于不同理财产品的偏好千面的效果和个性化体验金额提升50%~500%某新闻客户端产品:产品第一版本的模型比基线提高20%智能客服测并性化问题;行中,目标为根据用户的行为进行实时预估,给出最有针对性和时效性的个性化知识推荐智能动态IVR菜单:通过对历史电话呼入纪录与处理数据学习模型,实现IVR渠道客户个性化动态菜单,精准命中客户来电需求某股份制银行信用卡中心原始基于规则的动态IVR菜单Top@5准确率为25%基于人工智能动态IVR菜单Top@3准确率为53%差异化定价准某股份制银行信用卡中心客
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《大学物理(上册)》课件-第1章
- 2025-2030全球车辆燃油油位计行业调研及趋势分析报告
- 2025-2030全球电积铜行业调研及趋势分析报告
- 2025年全球及中国直接空气捕获和储存(DACS)行业头部企业市场占有率及排名调研报告
- 2025-2030全球多层土壤传感器行业调研及趋势分析报告
- 2025年全球及中国阻燃塑料薄膜和片材行业头部企业市场占有率及排名调研报告
- 2025-2030全球医用手指康复训练仪行业调研及趋势分析报告
- 2025-2030全球化学谷物熏蒸剂行业调研及趋势分析报告
- 2025年全球及中国智慧教育公共服务平台行业头部企业市场占有率及排名调研报告
- 2025年全球及中国工业胶囊填充设备行业头部企业市场占有率及排名调研报告
- 2025年度院感管理工作计划(后附表格版)
- 励志课件-如何做好本职工作
- 化肥销售工作计划
- 2024浙江华数广电网络股份限公司招聘精英18人易考易错模拟试题(共500题)试卷后附参考答案
- 2024年山东省济南市中考英语试题卷(含答案解析)
- 2024年社区警务规范考试题库
- 2025中考英语作文预测:19个热点话题及范文
- 第10讲 牛顿运动定律的综合应用(一)(讲义)(解析版)-2025年高考物理一轮复习讲练测(新教材新高考)
- 静脉治疗护理技术操作标准(2023版)解读 2
- 2024年全国各地中考试题分类汇编(一):现代文阅读含答案
- GB/T 30306-2024家用和类似用途饮用水处理滤芯
评论
0/150
提交评论