机器学习在美团:吃喝玩乐中的大数据与云计算_第1页
机器学习在美团:吃喝玩乐中的大数据与云计算_第2页
机器学习在美团:吃喝玩乐中的大数据与云计算_第3页
机器学习在美团:吃喝玩乐中的大数据与云计算_第4页
机器学习在美团:吃喝玩乐中的大数据与云计算_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器学习美团 吃喝玩乐中的算法问题 ?O2O行业及美团简介 ?机器学习在用户端的应用 ?机器学习在商户端的应用 ?算法应用八大“坑” 概要 背景 算法应用 总结 什么是O2O? O2O (Online to Offl ine) = 本地服务(LBS) + 线上连接 通过信息流动,减少物理流动 平台 用户需求信息结构化 来源:TalkingData及品途网 2014 O2O移动应用行业报告 O2O行业应用图谱 来源:TalkingData及品途网 2014 O2O移动应用行业报告 外卖 打车 电影票 频度 门票 酒店 机票 租房 挂号美业 租车 拼车 家政 垂直 vs.水平(平台) 什么样的领域

2、有机会? 用户获取成本 vs. 用户价值 渗透率 团购 买房 微信 刷牙 All That Is Solid Melts into Air. Karl Marx 猫眼电影 国内最大的电 影分销商 美团外卖 国内最大的外 卖平台 美团简介 美团团购 国内最大的本地生 活服务电商平台 美团酒店 国内第二大酒店 分销商 消费频度 vs 行业深度 O2O vs 网络电商 共同:双边市场 差异:LocaEon based, 消费距离受限 O2O的特点 市场规模大、增长速度快 懒人经济:质优价廉 低价格 高品质 低成本 高效率 低毛利 高科技 200 0 1000 800 600 400 1400 120

3、0 2010 2011 2012 2013 2014 2015e 美团网交易额(亿元) 2014年12月:美团网拥有1亿多活跃移动用户, 移动端贡献90%的交易额 80 70 60 50 40 30 20 10 0 2011 2012 2013 2014 美团移动交易占比 移动化 day:1 day:3-3.5 day:5-10 0hr 3hr 6hr 9hr 12hr 15hr 18hr 21hr 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 电影 酒店 美发/美容/美体 美食 摄影写真 生活服务 休闲娱乐 运动健身 所有品类 分品类持券时长 60.00%

4、 4000 3500 3000 2500 2000 1500 1000 500 0 北 广 天 福 杭 无 合 成 京 州 津 州 州 锡 肥 都 美容美发 休闲娱乐 生活服务 运动健身 摄影写真 电影 酒店 美食 场景化、即时化 分品类持券80%距离 4500 美团持券时长及消费距离 用户 ? 个性化 ? 场景化 ? 即时化 O2O平台 商户 ? 动态触达用户 ? 提供丰富产品 平台 ? 获取用户/商户 ? 匹配供给需求 传统模型:边际收益递减 平台模型:双边市场的网络效应=边际收益递增 =平台价值 平台:用户端 吸引访 问/再访 ? 自然流量 ? 站外广告 ? 主动推送 促成购 买 ? 信

5、息聚合 ? 用户行为引导 ? 运营拉新 提升多 次访购 ? 搜索、浏览主动 引导 ? 个性化推荐 ? 跨品类转新 平台:商户端 商机发现 ? 销售拜访 路线优化 商家入住 及上单 ? 预测可能入住商户 ? 自动写单提高上单效率 运营 ? 风控防刷单 ? 销量预估 ?O2O及美团介绍 ?机器学习在用户端的应用 ?机器学习在商户端的应用 ?算法应用八大“坑” 概要 背景 算法应用 总结 ? 运营拉新 ? 推送引导 ? 流量转化 用户 ? 个性化 ? 场景化 ? 即时化 机器学习美团 ? 销量预估 ? 电影票房预估 ? 商户 ? 动态触达用户 ? 提供丰富产品 平台 ? 获取用户/商户 ? 匹配供给

6、需求 用户端:运营拉新 背景:首购-留存,吸引已注册用户完成首购 目标:少花钱,多办事 用户端:运营拉新 方法:新用户画像 SVM分类 ? 准确率:75% ? 召回率:68% 效果 ? 拉新单位成本下降35% 单位用户营销成本=总花销/总新客数 ? 总开支节省30% 选择对象 ?选择准 则优化 用户端:推送引导 背景:对不活跃用户发个性化推送消息,提升访问及购买 目标:提高用户转化,减少打扰用户 方法: 效果:有效降低了对用户的打扰。 发出消息 ?目标:发出率 ?固定时间拉取改 为灵活推送 ?发送时机优化, 考虑用户的历史 联网时间,当前 位置 发出率提高100%+ 打开消息 ?目标:打 开率

7、 ?动态文案 (todo) 打开率提高21% 浏览/购买 ?目标:转化 率 ?类似推荐的 优化方式, 提高访购率 综合转化率提高94% 用户端:流量转化 搜索 浏览 推荐 意图 强度 流量 规模 用户偏好 用户端:流量转化 场景 位置 快速交互 首页推荐 个性化数据 同义词挖掘 专名识别 新词识别 user profile 挖 掘 deal/poi profile 挖掘 query/deal 的 topic model 评估框架 模型训练 数据清洗 特征抽取 数据流 推荐和搜索框架的统一 搜索推荐平台 Poil化列表浏览 人工规则干预 CTR model 相关性模型 Query Retriev

8、al 通用数据 Query补全 排序机制 Action model 业务规则 User Retrieval 关系数据 应 用 层 排 序 层 模 型 层 准 入 层 触 发 层 数 据 层 Flume Agent Impression Log Order/Click Log Deal DB Control Service Model 1 Model 2 API Online train feature Labeled Data Offline train 服务架构演进 feature monitor 高度可配置 LR SVM API Command 应 用 层 模 型 层 选特 择征 一特 化

9、征 归 Chi squared Standard Topic Model GBDT Mutual InformaEon MinMax 分级日志 模型评估 基于spark的离线训练平台 美团搜索 历史查询词 查询补全 结果页 搜索系统实践 数据获取时效性 清洗提高准确性 基础数据获取 查询引导 同义词挖掘 团单品类映射 查询分析 系统架构调整 增加吞吐量 改进协议 架构支撑 特征工程 LR + GBDT 融合效果 重排序 实时品类偏好 实时下单位置 模型在线更新 实时化 分词/归一 化 查询纠错 语义扩展 意图识别 查询分类 紧密度计算 Term赋权 召回及 排序策略 Query suggest

10、ion 相关搜索 热搜词 ? 用户查询自然语言化 ? 检索基于字面匹配,缺乏语义 扩展 ? 语义漂移 查询分析 查询分析面临的问题 ? 用户意图多元化 ? 精确/模糊查询 ? 领域多:寻找吃喝玩乐,购物,旅 游,住宿 策略类型 及占比 商 家 品 类 商 圈 地 标 酒 店 旅 游 商 品 电 影 复合 意图 其 他 改进前 12% 8% - 3% - - - 1% - 76% 改进后 21% 17% 7% 5% 6% 2% 1% 4% 9% 28% 意图识别 搜索意图歧义示例及解决方案 找门票还是酒店? 通过意图分类,将“旅 游”意图的POI排序提前 团单品类细分 品类内差异对用户造成的困扰

11、 “咖啡/酒吧/蛋糕”在后 台配置为同一个类目下的 品类 通过文本分类拆分子品类, 或者说打标签 人工定义体系+SVM学习,构建覆盖全面合理的品类类目,更好满 足用户精确品类检索的意图 美团频道筛选 groves 频道筛选实践 数据清洗 在线获取训练 所需特征 数据及特征工程 使用位置信息 引入排序模型 粗排序 新单推荐 使用位置信息 冷启动 Additive 使用位置 分品类细化 重排序 实时品类偏好 实时下单位置 实时特征更新 实时化 ? ? ? ? poi-user特征 当前距离 历史距离 最近点击/下单/支付 历史点击/下单/支付 ? ? ? ? deal特征 CTR/CVR ? ?

12、? ? CVR 折扣力度 是否新单 是否促销 deal-user特征 商圈 品类 价格 user特征 ?终端类型 ?地理位置 ?消费水平 ?品类偏好 ? ? ? ? CPR 重排序:特征 poi特征 #评论数 #有图评论/优质评论 CTR/CVR/CXR rank Additive Groves 数值类特征 详情页特有特 征 列表页特有特 征 GBDT LR 重排序:框架 数据实时化 ? 预测结果随数据更新而变化 ? 2小时销量数据 ? 2小时内数据预测用户实时偏好 ? 进入列表页请求用户地理位置,下单率提升3% ? 模型天级更新 ? Online learning继续尝试中 美团推荐 其他展

13、位: 搜索无结果推荐,购买后推荐,评价后推 荐,附近推荐 推荐系统实践 user/ item cf 相似性调整 经典算法改进 销量预估 用户分群 地理位置偏好 冷启动 附近热单 异地浏览 时间上下文 上下文筛选 LR GBDT 融合效果 重排序 特征实时化 偏好实时化 算法实时化 实时化 hap:/ 用户冷启动 ? 行为少,找不到有意义的相似用户 ? LocaEon,locaEon,locaEon ? 基于地理位置计算用户相似性:作为替 补策略,效果一般 ? 浏览地附近热单,作为上下文信息使用 20140609 20140610 20140611 20140612 20140613 20140

14、614 20140615 20140616 20140617 20140618 20140619 20140620 20140621 20140622 20140623 20140624 20140625 20140626 20140627 20140628 20140629 20140630 加入context baseline hot_for_local ? 附近热单 ? “本地人热单” ? “本地热单” 下单率 浏览 推荐 意图 强度 流量 规模 用户端:流量转化 统一框架,快速迭代,经验共享 搜索 商户端:不仅是算法挑战 训练数据规模小 标注标准复杂主 观 单用户特征不可 用 多团队合作 挖掘可扩展的特征 采用非线性、鲁棒模型 复杂目标进行模型分解 交叉验证减少噪音 人机结合提取稳定因素 使用用户统计特征 协调各方预期和利益 团购单销售额预估 背景:在线deal数量众多,需要关注deal的质量 目标:评估deal的质量 方法: 分解问题 ? 以销售额来代表质量 ? 再分解销售额 hap:/ 根据问题特征/模型并迭代 效果: 1.? 访购率预测准确率(R2): 0.8 2.? 价格特征权重符合产品预期 挑战: 电影票房预测 背景:电影票房预测数据可以 指导片方发行/院线排片 目标:得到可用票房预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论