美团点评-一站式机器学习平台架构搭建_第1页
美团点评-一站式机器学习平台架构搭建_第2页
美团点评-一站式机器学习平台架构搭建_第3页
美团点评-一站式机器学习平台架构搭建_第4页
美团点评-一站式机器学习平台架构搭建_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

配送业务介绍机器学习在美团配送中的应用美团配送算法数据平台数据闭环和平台化第一页,共36页。物流行业的分类物流成本居高不下,具备很大优化空间国际物流国内物流同城配送快递业务:401亿件物流成本:12.1万亿,GDP

14.6%2017年国内物流行业情况,From:中国物流与采购联合会第二页,共36页。同城即时物流的价值:到家服务即时配送给人们提供更多优质的服务餐饮商品快件准时品质安全配送时长60分钟以内平均30分钟高频度高密度第三页,共36页。美团配送的技术定位构建信息化+自动化+智能化的即时配送平台信息化自动化智能化商家画像骑手画像用户画像商圈数据全方位收集,构建数据闭环绩效管理骑手运营自动结算业务报表构建业务系统,提升运营效率智能调度智能定价智能规划智能运营通过人工智能技术,全面提升配送能力智能化是核心战略方向!第四页,共36页。配送业务介绍机器学习在美团配送中的应用美团配送算法数据平台演进历程数据闭环和平台化第五页,共36页。机器学习在配送中的应用全环节智能化覆盖1)浏览配送费定价供需平衡2)下单智能定价用户定位修正3)收发单用户商家骑手4)派单5)接单商家客户端美团收银7)出餐6)到店8)离店智能改派任务规划自动到店识别出餐提醒9)到客11)离客10)交付交付点提示自动交付识别骑手语音助手ETA出餐预估接单预估取餐时长交付时长行驶速度排序+推荐行驶取餐行驶交付接单压单合单派单路径规划智能定价第六页,共36页。机器学习在配送中的应用人工智能正在深入配送的各个环节机器学习时间预估骑手语音助手配送范围规划骑手补贴定价配送费定价智能调度天平爆单配送区域规划第七页,共36页。配送业务介绍机器学习在美团配送中的应用美团配送算法数据平台数据闭环和平台化第八页,共36页。石器时代当配送很小的时候LRRFGBDT特点算法简单性能要求低算法介入少快速试错配送费定价时间预测智能调度技术选型粗粒度高耦合能快速实现即可能解决问题即可第九页,共36页。石器时代当配送很小的时候时间预测服务离线特征读取模型加载消费运单消息(特征计数)上下文数据算法逻辑(线上预测)工程逻辑时间预估输出离线数据/日志(Hive)ETL/MR特征库MySQL离线特征提取(算法RD)离线数据/日志(Hive)SparkML模型训练(算法RD)特征库MySQL运单核心流程MQ实时特征收集(工程RD)工程RD充当算法翻译,算法任何改动都需经过工程RD第十页,共36页。石器时代当配送很小的时候特征工程模型预测业务服务B重复造轮子特征工程模型训练模型预测特征口径混乱特征重复开发统计口径不一致迭代效率低下算法之间难以协同特征工程模型预测业务服务A模型训练模型训练特征工程模型预测业务服务C模型训练第十一页,共36页。算法数据平台工业革命:算法数据平台搭建离线特征平台实时特征平台模型管理平台

数据图谱回放平台在线策略平台离线训练平台SparkMLXGBoostTensorFlowHadoop/Yarn第十二页,共36页。实时特征工程算法深入到配送各个环节调度站点批次规划静态

位置信息动态静态干线运力规划静态仓储批次传统物流即时物流调度骑手负载情况动态

位置信息动态动态商家出餐情况动态当前路网情况第十三页,共36页。实时特征工程数据到知识的淬炼过程收集分拣计算发布APP业务服务数据库API管道Binlog管道路由规则运单表结算表订单表骑手状态事件运单全流程预估运单信息宽表骑手信息表骑手状态事件骑手信息宽表并行调度区域1计算分片区域1计算分片区域1计算分片特征1特征2特征3区域维度特征池特征4特征5特征6商家维度特征池区域1特征1特征组1特征2商家1特征3特征组2特征4数据

=实时和数字信息

=有组织的数据知识

=提炼的信息数据上报统一标准化路由规则灵活配置化计算可扩展并行化存取高性能聚合化第十四页,共36页。收集侧实时特征工程数据

管道数据格式APPAPI网关上报SDK后端服务上报SDK数据库算法服务上报SDKCanalSchema转换Kafka实时数据总线Binlog通道Kafka实时数据总线API通道统一Schema表名:****维度:区域/商家/运单维度值:1101数据:{a:1,b:2,…}维度区域商家骑手运单GeoHash第十五页,共36页。分拣侧实时特征工程数据汇集数据存储订单ID菜品订单金额运单ID区域ID订单ID配送距离商家ID预计未来平均出餐时间运单ID骑手ID到店时间商家ID预计未来平均配送时长API管道Binlog管道订单表运单表区域维度时间预估商家维度时间预估骑手到店时间缓存关联配置分拣规则引擎运单ID区域ID订单ID菜品配送距离预计未来平均配送时长预计未来平均出餐时间到店时间运单维度内存宽表字段映射规则索引生成规则数据内存化Schema动态化数据量大分布式内存表动态Protobuf第十六页,共36页。计算侧实时特征工程调度层计算层数据层定时触发事件触发任务队列任务队列计算分片1内存数据库SQL引擎计算分片2内存数据库SQL引擎计算分片3内存数据库SQL引擎特征计算配置分布式内存表特征库计算架构逻辑表达效率学习成本低开发成本低无需发版表现力强开发成本高学习成本高SQLUDF第十七页,共36页。发布侧实时特征工程特征门户聚合特取门户调度提单页ETA补贴定价补贴定价C端定价实时特征库特征组1:区域维度特征1特征2特征3特征组2:商家维度特征4特征5特征6实时特征库特征1特征2特征3特征4特征5特征6特征4特征5特征6特征4特征5特征6读爆炸问题第十八页,共36页。离线特征工程算法深入到配送各个环节订单数据用户数据商家数据骑手数据智能配送系统骑手画像商家画像区域画像城市画像用户画像路线熟悉度个人承载能力骑手行为模型供需平衡情况地理路况情况取餐难度出餐时间品类体积精准交付点交付难度大数据平台(Hive/ETL/MR/Spark)配送业务时间预估骑手语音助手配送范围规划骑手补贴定价配送费定价智能调度天平爆单配送区域规划如何将线下的特征(画像数据)应用到线上,支撑配送各个子业务高并发以及算法快速迭代,是离线特征平台要解决的问题!线下线上第十九页,共36页。离线特征工程算法深入到配送各个环节缓存聚合骑手画像商家画像区域画像城市画像用户画像KV集群ETL20商家100特征2000KV每次100KV20次mget缓存mget的TP99约5~10ms,20次mget,TP99接近100ms,而上游超时时间约80ms,服务连2个9都无法保证。特征1特征2……特征n聚合KV同一维度特征特征1特征2……特征n特征1KV特征2KV……特征nKVDB集群ETL获取一个KV的耗时不到1ms,似乎性能不是问题Spark-JOB统一聚合完全配置化第二十页,共36页。算法模型平台算法深入到配送各个环节算法种类多样LRGBDTRFRNNLSTMXGBDNN训练平台多样SparkMLTensorFlowXGB异构资源支持GPUCPU移动设备提供统一的模型训练、发现、部署、切换、降级等解决方案,为ML和DL模型实时计算提供高可用线上预测服务目标第二十一页,共36页。算法模型平台算法深入到配送各个环节统一A适配b优化C模型格式预测接口LRGBDTSVMBayesRFPMML学习平台异构资源交互协议线下训练线上预测SparkMLTFXGBCPUGPULocalRemote统一接口gRPCThrift/RPC开源PMML库性能差?TF性能提升5倍第二十二页,共36页。算法模型平台算法深入到配送各个环节SparkMLTensorFlowXGBoost训练平台(YARN)HDFS算法模型平台(Web

Console)模型调度器ZK模型状态机指令中枢MetaStore(MySQL)资源路由HttpFS代理业务服务A(节点1)Model

Agent模型数据预测模块业务服务A(节点1)Model

Agent模型数据预测模块业务服务A(节点1)Model

Agent模型数据预测模块ModelServer(节点1)Model

Agent模型数据预测执行模块ModelServer(节点2)Model

Agent模型数据预测执行模块ModelServer(节点3)Model

Agent模型数据预测执行模块业务服务B(节点1)Model

Agent路由模块预测Facade业务服务B(节点2)Model

Agent路由模块预测Facade业务服务B

(节点3)Model

Agent路由模块预测Facade指令通道心跳保持HDFS本地计算方式远程计算方式第二十三页,共36页。本地计算vs.分布式计算算法模型平台本地计算效率分布式计算占用业务服务资源本地计算性能高无额外网络开销模型计算与业务解耦高度并行化集群计算资源异构额外网络开销业务服务1Model

AModel

B模型调度器业务服务1Model

AModel

BHDFS模型调度器HDFSModel

Server1Model

AModel

BModel

EModel

FModel

Server2Model

AModel

B业务服务2业务服务1业务服务1单机多线程多机多线程CPU

+

GPU第二十四页,共36页。模型Sharding算法模型平台分区模型1Model

Server

1分区模型3分区模型2分区模型4业务服务Model

Agent预测Facade路由模块分区模型1Model

Server

2分区模型5分区模型2分区模型6分区模型3Model

Server

3分区模型3分区模型4分区模型4大模型超大模型,单机资源装不下?按照配送区域、城市进行分区训练,每个区域或者城市产生一个小模型。第二十五页,共36页。A/B实验平台算法深入到配送各个环节更多更快更好第二十六页,共36页。配送AB实验的特点在线策略平台传统Ab实验策略之间相互影响配送AB实验特点策略效果滞后线下因素影响大调度时间预估骑手行为面向C端用户进行流量选择流量之间独立决策、互不干扰第二十七页,共36页。配送AB实验在线策略平台独占流量试验区并行试验区哈希分桶UUID哈希骑手ID哈希地理位置哈希调度提单页ETA补贴定价补贴定价列表页ETAC端定价分时间片哈希分桶区域城市ABABABBABABAABABABAAAAAA区域城市UUID哈希骑手ID哈希地理位置哈希单层实验必保证流量互斥才可保证实验正交分层实验每一层哈希均匀即可保证实验正交外卖C端第二十八页,共36页。分时间片对照在线策略平台策略A策略B策略A策略B策略A策略B策略A策略B策略A策略B策略A策略B第二天第三天第四天第五天第六天第一天策略A/B在两组区域类交替切换,最大限度减少线下因素的影响,确保实验科学、公正第二十九页,共36页。A/B实验平台算法深入到配送各个环节实验前实验中试验后流量选择AA回朔指标体系分流统一埋点效果分析实验报告第三十页,共36页。配送业务介绍机器学习在美团配送中的应用美团配送算法数据平台演进历程数据闭环和平台化第三十一页,共36页。数据闭环问题问题在哪里?上下文收集特征收集模型计算日志收集分流实验业务服务上层业务算法支撑线上数据线下数据特征平台模型管理版本管理分流实验算法Dashboard业务数据库MySQL特征缓存特征数据模型文件离线业务数据HiveFlume日志Hive54112331模型不知道由那些特征数据训练生产2Flume

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论