中国数据资产管理峰会-唯品会大数据_第1页
中国数据资产管理峰会-唯品会大数据_第2页
中国数据资产管理峰会-唯品会大数据_第3页
中国数据资产管理峰会-唯品会大数据_第4页
中国数据资产管理峰会-唯品会大数据_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、唯品会大数据实践CONTENT目录关于唯品品会01数据平台台建设02大数据应应用建设设03一些想法法04数据平台台实践离线计算算分析平台演化化实时计算算平台演演化一些技术术选型和和经验数据应用用实践系统开发发和运营营业务和产产品运营营恶意用户识别别/风控系统统商品品牌牌推荐个性化排排序|产品|系统|算法数据仪表表盘、数据魔魔方、比比价系统统、地图服务等精准推荐荐基础算法法库选品、分分仓与预预调拨数据实时时接入离线计算算平台实时计算算平台VRC资源管理理平台运维监控测试|数据细分人群群用户Lookalike唯品会用用户画像像唯品会大数据据VIPBigData整体规划划平台服务务数据服务务数坊分析

2、师平平台对外服务务VRC开发者平平台画像计算算VRESqoop/VDP/Flume/KafkaJob调度/Yarn调度运维监控测试数据产品品HIVEPrestoSPARKRHbaseDruidHDFSRedis ClusterVRE实时算法预测MLLib实时训练分析统计任务GPStorm自助报表平台台应用产品服务接入计算存储调度系统-大数据基基础平台台规划自助取数平台台数据平台台的建设设离线计算算分析平平台选建建设混合平台台:Hadoop+Greenplum迁移策略略和计划划dailyjob, hourlyjob,minjob扩容,扩扩容,扩扩容离线和实实时的混混合开放平台台实时计算算平台的的

3、建设Binlog2KafkaVDPMySQL2KafkaSparkvsStormRedisChallenge稳定性挑挑战开放平台台碰到的问题离线平台台的演化-12012年底:CDC调度+GP10节点系系统稳定定2013 Q1:CDC调度+ETL Gp +QueryGp, Tuning2013 Q2:自有调度度平台开开发+自有抽取取系统+Hadoop流量开始始迁移+GP交易数据据+ Query GP2013 Q3:自有调度度平台+抽取迁移移Hadoop流量迁移移结束(70),交易数据据迁移开开始GP交易数据据+QueryGP核心数据据小时级级ETL2013 Q4元数据管管理系统统,数据质量量工具

4、ETLGp完整迁移移开始QueryGP扩容40节点2014Q1全部ETLHadoop200nodescluster+40Ad-HocEDWHybridnodeconfiguration离线混合合平台-2Referene:Netflex,LinkedIn,eBayGreenPlum+Hadoop保护现有有投资Hadoop海量数据据分析ETL复杂计算算权限打通通Greenplum:GP擅长adhocquery速度快,分析师适适应不足够scalable长期成本本HadoopMassivescalable,但是单单个查询询慢海量ETL计算Web查询离线开放放平台-3开放平台台自助ETL开发自助报表表开

5、发和和展现自助取数数分析成本breakdown, changeback性能,实实时,扩扩展性,成本PrestoDruid实时计算算系统架架构采集推荐建模 打点日志binlog消息数据实时增量抽取计算模型训练效果反馈Render & Router LayerCandidate Scan LayerCalculate LayerVRC模型训练练平台Flume/VDP/VMSVRE应用开发发:任务配置置可视化编编程EsperEPL平台组件件:输入组件件输出组件件UDFVRCPortal:任务发布布日志查看看监控告警警Rule LayerHbasevsRedis背景:个性化userprofile,hi

6、ghQPS,verytimesensitive用户信用用体系userprofile,lowQPS,non-critical用户实时时浏览,订单历历史,hightps,highqps都是海量量数据看上去Hbase更加合适适,但但是不放放心选择:Critical的RedisNon-critical的Hbase积累经验验,逐渐渐往Hbasedualwrite其实Hbase也不便宜宜,就是是scale不动系统统Redis某种程度度上也可可以实现现23:55:2211RedisStorm计算用redis保存中间间和结果果数据流量一直直增加大促流量量狂涨计算复杂杂度一直直增加不停拆分分。每次改代代码怎么办

7、?逐个模块块拆分一开始就就按模块块写不同同instance一开始就就ShardTwemproxy优化数据据结构Pipeline/Batch不求100%准确hlllogRedisCluster23:55:2212Challange实时计算算作为平平台离线和实实时的融融合离线向实实时的迁迁移成本本应用实践践业务应用用运营分析析帮助公司司买帮助公司司卖技术开发发和运营营Telescope业务监控控(storm)Logview/Titan服务监控控(spark)Applicationlogging(Spark)CDN日志分析析(Hive)Site speed分析(storm)安全审计计分析(impal

8、a/storm)大数据对对于技术术运营23:55:2215实时业务务监控7现有平台台访问地址址:商品展示示登录注册册订单信息息代金券信信息支付模块块商品展示示购物车登录注册册订单信息息代金券信信息支付模块块FDS探索号CDNNginx域B2C移动端用户增加加数移动端下下单数整体下单单数订单总金金额购物车增增加数购物车内内货品数数量业务集合合域流量集集合登录热力力地图注册热力力地图订单热力力地图购物车访访问热力力地图日志数据据WTWHeatMap大屏幕23:55:2216实时页面面加载时时间监控控实时PV分布监控控商业CDN质量分析析AppServiceQualitySparkStreaming

9、, 30 secmini-batch进去可以看到到每个pool,每个服服务器,每个url的请求次次数,响响应时间间,错误误率,在在过去两两周的各各个维度度的统计计数据和和曲线;可以看到到pool之间的互互相调用用关系,调用量全无入侵侵,应用用上线即即插即用用;Data ServiceQuality大数据在唯品会特卖模模式的业业务价值值大数据对对于数据据化运营营23:55:2224应用于唯唯品会全面客户户关系管管理数据化运运营-数据产品品对外:供应商:数据魔魔方对内:高管:手机机数据仪仪表盘,经营分分析商务:选选品,比比价物流:分分仓,预预调拨产品/运营:指指导产品品分析和和决策,经营分分析,效

10、效果评估估,产品品优化金融:供供应商贷贷款,消费者:个性化化推荐,唯品白白条营销:个个性化EDM,个性化化Push,CRM业务安全全:风控控用户管理及运营 供应商打法一:数据从按天更新向实时化转变丰富数据可视化交互方式数据仪表盘打法二:合规前提下,开放更多数据给供应商丰富数据接口格式及实时性数据魔方打法三:实时比价与价高告警比价数据与销售转化率数据关联分析比价系统数据仪表盘数据魔方比价系统统产品-数据产品品及服务务PC用户移动用户户AdapterAdapter算法模型型1算法模型型2算法模型型3算法模型型4stockdbmsdFlume-kafkaBinlog-kafkaStorm/C+Pro

11、file redisItem redisTraining DataBusiness RuleEPDebug Platformhadoop23:55:2227系统架构构挑战用户数据稀疏疏,有效效反馈少少长尾严重重用户体验验,50ms返回ITEM冷启动特征难抽抽取,比比如图片片素材场景缺少上下下文没有明显显意图,不同于于“搜索索”28底层数据据品牌历史和实实时销售售数据价格,品品类,颜颜色尺码码风格,季节品牌相似似性商品商品profile的长期开开发历史和实实时商品品信息(库存,销售,转化)用户用户点击击浏览,购物车车,购买买,收藏藏行为按品类,风格,价位,性别,尺码用户实时时行为路路径23:55

12、:2229我们走过过的路23:55:22302013Q4-2014Q1:基于人群群分组和和人工排排序的个个性化运营营尝试人群划分分首页人工工排序列表页人人工规则则自动排排序无效果。2014Q2:开始有机机会在小小流量新新版首页页尝试技技术主导导机器学习习+业务规则则首页动态态生成个个性化推推荐模块块首页动态态生成个个性化排排序页面面提高了首首页到列列表页转转化率,降低了了跳出率率,提高高了销售售我们走过过的路2014Q3-Now:首页和列列表页的的个性化化排序机器学习习trainmodelHadoop生成userprofile/brandprofileStorm计算实时时转化销销售数据据,用户

13、户实时行行为和意意图实时排序序首页和和列表页页下一步更多引入入个性化化因子(feature)细化user/brandprofile,更多数据据引入更多多其他算算法,做做到算法法可以灵灵活替代代不但个性性化排序序和推荐荐,还可可以有更更多23:55:2231个性化推推荐下一一个阶段段实时,实实时,再再实时实时计算算商品品品牌信息息,用户户profile实时推荐荐实时算法法迭代更更新实时Abtestverify个性化,个性化化,个性性化移动天然然是个个个性化的的好场所所更多的个个性化因因子更加全面面的数据据:用户户画像建建设,曝曝光数据据的收集集个性化阶阶段性成成果PC端推荐:10%12% PC销售占比比首页个性性化排序序4%销售金额额提升移动端(2014/12)首页个性性化排序序4%销售金额额提升列表页排排序优化化15%销售金额额提升Overall:17%23:55:2233推荐关键键点34推荐用户场景ITEM解决之道道35推荐数据算法系统一些小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论