搜索引擎与宝贝搜索不得不说的故事_第1页
搜索引擎与宝贝搜索不得不说的故事_第2页
搜索引擎与宝贝搜索不得不说的故事_第3页
搜索引擎与宝贝搜索不得不说的故事_第4页
搜索引擎与宝贝搜索不得不说的故事_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、搜索引擎与宝贝搜索不得不说的故事1认识淘宝宝贝搜索买个iphone5!送女朋友什么裙子好呢?手机大甩卖!连衣裙包邮!牛仔裤清仓买一送一!宝贝搜索2数据量大: 8亿数据更新量大: 2亿天查询量大: 3-4亿PV天查询准确率要求高对买家负责,降低查找成本查询召回率要求高对卖家负责,让每个宝贝搜索可达业务逻辑复杂:属性信息远大于倒排信息宝贝搜索的特点3宝贝搜发展史数据量4宝贝搜发展史查询量5淘宝网 2003年商城 2008年一淘网 2012年未来宝贝搜索发展史大事记C2C宝贝C2C宝贝B2C宝贝C2C宝贝B2C宝贝全网购物搜索一站式购物体验发现比较优惠券C2C宝贝B2C宝贝全网购物搜索一站式购物体验

2、发现比较优惠券个性化协同搜索6淘宝搜索架构演变解决搜索功能解决容量速度业务逻辑分离业务引擎分离引擎平台统一7不断增长的搜索 复杂多变的业务数据量日益增长庞大的属性信息频繁地数据更新灵活的运帷平台每年痛并快乐着的大促(1111/1212) 爆发式流量增长和更新量增长搜索引擎面临的技术挑战8关联非引擎服务(UPS、QP、Forest etc.)多路数据混排(同构数据、异构数据)搜索结果Rerank其他各种“异想天开”的业务逻辑统一服务入口解决之道数据聚合层(SP/Agg)9Build插件:允许对建索引的原始文档进行加工分词插件: 控制检索粒度QRS插件:改写Query定制业务逻辑、改写结果满足业务

3、需求属性信息定制化:直接使用Attr(price)、简单表达式(price+postage)、插件化(lib.so)Scorer插件:特殊的属性信息定制化功能丰富的配置接口解决之道灵活的配置插件接口10高召回率、低响应延时 内存引擎数据量的增长、属性信息的增多带来挑战根据业务需求不断对引擎进行瘦身倒排信息压缩(P4Delta等)正排信息精确存储(xBits, int8, int16, int32, )正排信息压缩(GroupVariInt等)正排信息去重(偏移存储)属性信息编码压缩解决之道减肥是永恒的主题11神级性能优化之道Cache奇迹般近乎无损的截断深入理解业务对付频繁更新带来的性能衰减UPI(运维支撑)商品搜索性能杀手正排信息的访问(L1/L2 Cache与RAM的博弈)业务发展永远都是粗旷型的定期Review业务实现常常会有意想不到的收获数据分层解决之道性能优化12伟大的Admin集中式管理故障自动恢复多集群管理按需索引分发索引自动切换和更新集群拓扑动态发现解决之道一体化运维体系13解决中小商业搜索应用大量小应用运维Search as a service自助式使用搜索在线修改schema全流程索引自描述核心技术HBaseFree schemaRank formular解决之道OpenSearch14业务的发展让一起问题回到原点:性能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论