淘宝大数据量产品技术架构

上传人：张*** IP属地：天津上传时间：2022-02-01 格式：PPT 页数：33 大小：806.50KB 积分：20 举报 版权申诉

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、淘宝大数据量产品技术架构张轩丞（朋春）淘宝网-数据平台与产品部关于张轩丞（朋春）淘宝数据平台与产品部（杭州） vi党，脚本语言爱好者关注NodeJS，cnode社区组织者之一：我是aleafs数据平台与产品淘宝网淘宝卖家供应商消费者搜索、浏览、收藏、交易、评价.一些数字淘宝主站： 30亿店铺、宝贝浏览 10亿计的在线宝贝数千万量级交易笔数数据产品： 50G统计汇总结果千万量级数据查询请求平均20.8ms的响应时间（6月1日）海量数据带来的挑战计算计算的速度处理吞吐量存储存储是为了更方便地查询硬盘、内存的成本查询 “大海捞针” 全“表”扫描架构总览主站备库RAC主

2、站日志数据源MyFOXProm存储层数据中间层 / glider查询层数据魔方淘宝指数开放API产品Hadoop集群 / 云梯计算层实时流数据DataX / DbSync / TimeTunnel1500节点，每日40000 JOB，处理数据1.5PB，凌晨2点结束，结果20T今天的话题关系型数据库仍然是王道 NoSQL是SQL的有益补充用中间层隔离前后端缓存是系统化的工程关系型数据库仍然是王道关系型数据库有成熟稳定的开源产品 SQL有较强的表达能力只存储中间状态的数据查询时过滤、计算、排序数据产品的本质拉关系做计算SELECT IF(INSTR(f.keyword, ) 0

3、, UPPER(TRIM(f.keyword), CONCAT(b.brand_name, ,UPPER(TRIM(f.keyword) AS f0, SUM(f.search_num) AS f1,ROUND(SUM(f.search_num) / SUM(f.uv), 2) AS f3,ROUND(AVG(f.uv),2) AS f4 FROM dm_fact_keyword_brand_d f INNER JOIN dim_brand b ON f.keyword_brand_id = b.brand_id WHERE f.keyword_type_id = 1 AND f.keywor

4、d != AND keyword_cat_id IN (50002535) AND thedate = 2011-07-07 GROUP BY f0 ORDER BY SUM(f.search_num) DESC LIMIT 0, 100存储在DB中的数据分布式MySQL集群字段+条目数分片 MyISAM引擎离线批量装载跨机房互备云梯APPMySQL集群数据装载数据查询MyFOX透明的集群中间层MyFOX 透明查询基于NodeJS，1200QPS 数据装载路由计算数据装入一致性校验集群管理配置信息维护监控报警MyFOX-数据查询取分片数据（异步并发）取分片结果合并（表达式求

5、值）合并计算缓存路由SQL解析语义理解查询路由字段改写分片SQL计算规则APC缓存XMyFOX-节点结构MyFOX热节点（MySQL）15k SAS盘，300G * 12，raid10内存:24G成本:4.5W / T冷节点（MySQL）7.2k SATA盘，1T * 12，raid10内存:24G成本:1.6W / T路由表30天无访问的冷数据新增热数据小结根据业务特点分库分表冷热数据分离降低成本，好钢用在刀刃上更有效地使用内存SQL虽牛，但是如果继续用MySQL来存储数据，你怎么建索引？NoSQL是SQL的有益补充全属性交叉运算不同类目的商品有不同的属性同一商品的属性对有很多

6、用户查询所选择的属性对不确定 Prometheus 定制化的存储实时计算Prom数据装载 PromHbaseHbaseHbase索引：交易id列表属性对交易1（二进制，定长）交易2Prom数据查询求SUM(alipay)属性属性值笔记本尺寸13寸笔记本定位商务定位节点11, 2, 3, 4, 5, 6, 7, 8, 9节点21, 2, 3, 4, 5, 6, 7查索引求交集节点21, 2, 4, 6, 7本地SUM运算（Hbase扩展）汇总计算写入缓存Prom数据冗余明细数据大量冗余牺牲磁盘容量，以得到：避免明细数据网络传输变大量随机读为顺序读小结 NoSQL是SQL的有益补充 “预

7、算”与“现算”的权衡 “本地”与“集中”的协同其他的数据来源 Prom的其他应用（淘词、指数等）从isearch获取实时的店铺、商品描述从主站搜索获取实时的商品数异构数据源如何整合统一？用中间层隔离前后端pengchun$ tail /logs/glider-rt2.log 14/Jun/2011:14:54:29 +0800 GET /glider/db/brand/brandinfo_d/get_hot_brand_top/where HTTP/1.1 200 17 0.065数据中间层Glider 多数据源整合 UNION JOIN 输出格式化 PERCENT /

8、 RANK OVER JSON输出Glider架构DispatcherController配置解析请求解析一级缓存actionMyFOXProm二级缓存datasourceJOINUNIONfilter缓存是系统化的工程glider缓存系统前端产品一级缓存data二级缓存URL请求，nocache?nocache?nocache?Min (ttl)ttl, http headeretag, http header小结用中间层隔离前后端底层架构对前端透明水平可扩展性缓存是把双刃剑降低后端存储压力数据一致性问题缓存穿透与失效回顾关系型数据库仍然是王道分库分表、冷热分离 NoSQL是SQL的有益补充用冗余避免网络传输和随机读用中间层隔离前后端异构数据源的整合缓存是系统化的工程数据一致性、穿透与雪崩矛盾之美SQLNoSQL计算时机“预算”Hadoop

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

淘宝大数据量产品技术架构

文档简介

温馨提示

最新文档

评论

淘宝大数据量产品技术架构

文档简介

温馨提示

最新文档

评论

相关文档