阿里巴巴的个性化实践和技术技术课件_第1页
阿里巴巴的个性化实践和技术技术课件_第2页
阿里巴巴的个性化实践和技术技术课件_第3页
阿里巴巴的个性化实践和技术技术课件_第4页
阿里巴巴的个性化实践和技术技术课件_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

阿里巴巴的个性化实践和技术基础初敏Min.chum@1自我介绍2初敏

阿里妈妈事业部总监,负责全网大数据处理方向的研发工作

2009年加入阿里云计算,从事各种与数据相关的研发工作

之前,在微软亚洲研究院做了近10年研究工作,研究方

向语音合成与识别、自然语言处理、机器学习和数据挖

掘、大数据处理和计算等

在中科院声学所获博士学位内容提要3淘宝平台的责任和面临的挑战个性化技术实践

搜索中的个性化

广告的个性化投放

用户标签和用户模型大数据和云计算平台应用PV最大QPS宝贝详情1,243,667,272170,000搜索589,398,73069,000交易下单411,891,23041,525评价1,083,997,90846,550消息中心553,873,17335,241库存1,463,414,80171,502总成交额(亿元)

2012双11数据

520092010201120122013

双11:电商狂欢节

历年双11成交额对比350300250200150100

50

0淘宝平台的规模6淘宝平台的责任

在卖家与消费者之间建起高效的桥梁

了解每个店铺和消费者的需求,利用个性化技术把互相需要的卖家和消费者关联起来

引导卖家更关注自身质量以及用户的个性化需求

提升消费者的用户体验淘宝平台的责任

淘宝平台的责任解决问题的关键

——

个性化技术10个性化应用个性化信息抽取个性化搜索

消费者信息个性化推荐

商家信息个性化广告

商品信息……

……店铺CRM

网站信息信息源消费者的点击、购买、

收藏、加购物车行为网民的搜索、

浏览行为微博行为位置行为……演讲提纲11个性化应用案例个性化关键词导航个性化应用案例个性化商家选择个性化应用案例买了又买,看了又看个性化应用案例站内个性化广告投放个性化应用案例全网个性化投放个性化应用案例个性化定制:先订购、再生产个性化对电商平台的挑战从复杂的数据图中抽取信息

从几亿用户对几十亿商品(淘宝、天猫、聚划算、

无线等来源)的各种行为(浏览、搜索、购买、收

藏、支付等)数据中抽取有价值的信息

存在数据稀疏、不完整、虚假交易等各种缺陷

淘宝的类目体系和产品库在不断的变更、建设中个性化对电商平台的挑战大数据的处理和计算

每天新增几十T的数据

多种异构数据源服务的实时性和稳定性

支持双11,

双12这样的大增量并发访问质量和效果的评估

建立线下评估模型

线上分桶测试内容提要23淘宝平台的责任和面临的挑战个性化技术实践

搜索中的个性化

广告的个性化投放

用户标签和用户模型大数据和云计算平台用户query商品用户关系数据商品关系数据用户-商品

关系数据

Re-rank层

精排层(长期+实时个性化

海选层

&

轮播

个性化数据

+

模型协同搜索引擎个性化体系@淘宝搜索

个性化搜索结果展示

综合排序层

Query/user意图识别P

User-model@个性化搜索•

个性化搜索:

用户属性的挖掘和购买兴趣偏好预测

用户和商品大规模数据建模

千人千面的个性化搜索体验风格元素

购买力

地域

性别风格元素

价格

地域

B/C个性化管理平台US引擎TCIFUser

model

特征可配置

样本采样配置算法运营…算法主搜索微市场

商品特征

类目频道

垂直化人的特征

年龄……用户分群

管理模型特征

管理模型特征采样管理数据源管

理运营IC…店铺偏好

……品牌……广告@淘宝29这就是阿里妈妈,智慧领先的全网营销平台!阿里妈妈

搜索广告位置:淘宝搜索结果页右侧核心技术:1.

Query查询词分析、Query

扩展、

Query相似度计算2.数亿商品的内容分析、数亿用户的Query及行为分析3.

搜索广告的点击率预估、转化率预估阿里妈妈—定向/展示广告展示位置:淘宝首页、用户意图不明确时核心技术:1.

海量用户历史行为,兴趣点预测2.

用户user

profile属性预测3.

商品和Query语义树的构建4.

个性化推荐技术爱美一族汽车一族

媒体收益

¥5000媒体广告位

出价¥5000

出价

¥4000

服饰广告主汽车广告主传统营销阿里妈妈—定向/展示广告爱美一族汽车一族媒体广告位媒体收益¥7500

2500

出价¥4000服饰广告主汽车广告主↓

1000

出价¥3500↓

500RTB模式营销阿里妈妈—定向/展示广告

ADExchangeDMP基于DMP的RTBDSP4DSP3DSP230岁,男性对手机感兴趣30岁,男性,对手机感兴趣10¥

DSP18¥6¥7¥广告代码网站SSP浏览Cookie?Cookie手机广告

@DSP1投放<0.1秒阿里妈妈—定向/展示广告阿里妈妈—定向/展示广告DMP—数据管理平台

数据整合&标准化

用户标签管理

用户界面

渠道关联

效果评估和反馈阿里妈妈—定向/展示广告DMP—数据管理平台

数据整合&标准化

用户标签管理

用户界面

渠道关联

效果评估和反馈

根据用户行为细化商品类目用户兴趣树(User

Intention

Tree)

通过分析对用户query与商品间的关系,建立比商品分类体系中的叶

子类目还精细的分类节点

这些节点能更好的反应用户对某类商品的兴趣点类目UI

NodeItem/SPU根据用户行为细化商品类目UIT面临的技术挑战

兴趣节点的力度控制

太粗,人群刻画不够精确,如“所有买过裙子的人”

太细,不具备通用性,如“所有买过XX品牌XX款的裙子的人”

兴趣节点层级的控制

兴趣点向上的可回溯性

兴趣点的匹配

将广告挂载到兴趣点:千万级广告百万级兴趣点

将消费者匹配到合适的兴趣点:亿级用户百万级兴趣点

在兴趣点之间关联扩展根据用户行为细化商品类目UIT的应用效果

对消费者的影响

CTR提升22%;点击用户数提升20%;点击数提升5%

对广告主的影响

ROI提升15%

对广告收入的影响

RPM提升6%内容提要41淘宝平台的责任和面临的挑战个性化技术实践

搜索中的个性化

广告的个性化投放

用户标签和用户模型大数据和云计算平台用户标签体系达人淘宝知识图谱人

商品

店铺

属性店铺标签:小而美店铺特色店铺店铺运营质量店铺服务质量店铺spam度

43

店铺

买了又买

相似

看了又看

购买关系

商品

相似关系

跳转关系

属性类目属性体系商品特色标签同款,产品节点库商品质量标签:

{人气,点击满意度,文本质量}虚假交易标签Spam标签

自己

地域

微群

淘内

SNS

关系

属性

外部

关系

显示:淘内/微博关注

隐式:同好;

近邻;同小

区;

同公司User

Profile构筑

兴趣图谱User

活跃度分层User

spam

(批发商,代购,虚假买家)

点击

购买

收藏

加购物车

评论

Follo

w

Lik

e

隐性计算

时序关系五大类行为数据预测数据:用户对商品的点击、购买概率用户对店铺:购买关系评价关系投诉关系卖家对用户标签基于淘宝数据的各种信息预测基于淘宝数据产生的用户标签主要反映消费者的购物特征,并且受淘宝上的商品结构的限制用户在互联网上的其他行为(搜索、浏览、交友等)对了解用户的兴趣和需求也很重要全网用户行为分析实践案例将用户需求分为两层关注的主题(母婴、服装、玩具、房产、金融、旅游……)主题下的兴趣点(尿布、奶粉、幼儿出行、婴幼儿服装、……)附加属性孩子年龄段品牌兴趣全网用户行为分析全网用户行为分析Query分析

商业兴趣

检测页面分析爬虫关键词

抽取页面分类

/tagging用户兴趣聚合用户兴趣

检测用户兴趣

集成用户兴趣

检测用户兴趣标签网页内容淘宝产品库和类目体系

淘宝联盟

日志全网浏览日志

全网用户行为分析

页面分类:两层布尔分类器

需要处理的主题分类器可以逐步增加

需要检测出来的兴趣点也可以局部增减和调整

类别之间不要求排他

主要挑战:

兴趣点和业务细节之间的平衡与关联

分类器的训练数据采集(正样本和负样本、数据覆盖面)

分类器的测试数据集(改进优化效果的指南针)是否母婴

主题?是否婴幼

儿尿布是否婴幼

儿奶粉是否婴幼儿营养品……

是否-1~0岁

是否0~1岁

是否1~3岁

是否3~6岁是否玩具

主题是否儿童

玩具是否益智

游戏……

是否服装主题?是箱包学具主题?任意一个页面通过搜索引擎爬取相关

URL爬虫训练数据存储

和管理系统主题/兴趣点相关host列表主题/兴趣点

关键词抽取

全网用户行为分析

训练/测试数据采集和管理分类主题/兴趣点与淘宝类目体系的对应关系

淘宝产品库主题/兴趣点训练需求训练数据(包含正例和负例)分类边界样

本抽样

全结果集抽

样每日分类页面集合开发集测试集人工

标注优化模型测试效果Prefer𝑝𝑎𝑔𝑒

=

𝑆𝑖𝑔𝑚𝑜𝑖𝑑(𝑖=1𝑃𝑟𝑒𝑓𝑒𝑟

𝑝𝑎𝑔𝑒𝑖)𝑖=1θ𝑖

全网用户行为分析

页面信息到用户属性的聚合

当日信息聚合

综合来自页面内容和搜索query的信息•

𝑛–

一个用户一天看100个母婴页面反映出对母婴的兴

趣强度跟看500个页面的用户是一样强的–只看一两个相关页面不能表明有兴趣•𝑃𝑟𝑒𝑓𝑒𝑟𝑡𝑜𝑑𝑎𝑦

=

θ1

×

𝑃𝑟𝑒𝑓𝑒𝑟

𝑝𝑎𝑔𝑒

+

θ2

×

𝑃𝑟𝑒𝑓𝑒𝑟

𝑞𝑢𝑒𝑟𝑦––𝑃𝑟𝑒𝑓𝑒𝑟

𝑝𝑎𝑔𝑒:

来自于页面分析的当日用户属性𝑃𝑟𝑒𝑓𝑒𝑟

𝑞𝑢𝑒𝑟𝑦:

来自于query的当日用户属性–𝑛=1𝑖=0

𝑟

×𝑃𝑟𝑒𝑓𝑒𝑟𝑡𝑜𝑑𝑎𝑦−𝑖𝑖=0

𝑟

全网用户行为分析

用户的长期兴趣和短期需求的判断

一种简单的处理方法𝑛

𝑖𝑛

𝑖••𝑃𝑟𝑒𝑓𝑒𝑟ℎ𝑖𝑠𝑡𝑜𝑟𝑦

=其中:

𝑟

为时间衰减因子

𝑃𝑟𝑒𝑓𝑒𝑟𝑡𝑜𝑑𝑎𝑦−𝑖为前第i天的用户属性

更多的思考—不同类型的标签需要不同的处理方法

长期兴趣、临时需求、周期性需求

年龄、性别、孩子年龄

是否有车、有房

什么时候买车、买房内容提要52淘宝平台的责任和面临的挑战个性化技术实践

搜索中的个性化

广告的个性化投放

用户标签和用户模型大数据和云计算平台分布式云计算平台去IOE数据交阿里巴巴大数据路径

数据管理平台:换平台:

DMPDXP数据管理平台(DMP)CNZZ数据交换平台(DXP)数据交换平台

家淘宝信用金融物流聚划算阿里云新浪微博友盟

业天猫

司一淘金融机构大学开发者

宝数据交换平台(DXP)

离线存储

与计算

任务调度

与管理元数据管理

算法库

在线存储

与计算数据开发与可视

化界面

安全与审计

数据产品

实时计算

数据同步计量与计费

数据地图

流式计算数据质量监控

服务化

API

&

SDK

数据共享

与合作大规模机器学习平台-盖娅•

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论