淘宝分布式数据处理实践_第1页
淘宝分布式数据处理实践_第2页
淘宝分布式数据处理实践_第3页
淘宝分布式数据处理实践_第4页
淘宝分布式数据处理实践_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1淘宝分布式数据处理实践淘宝数据平台及产品部 周敏 2010-09-04本资料由-大学生创业|创业|创业网http:/ 减肥药排行榜|淘宝最好的减肥药|什么减肥药效果最好|减肥瘦身药|http:/主要内容 淘宝的数据 云梯介绍 对Hadoop的主要功能扩展与改造 Hive实践 对Hive的改造 分布式数据仓库构思淘宝的数据Oracle 备库备库MySQL 备库备库日志系统日志系统云梯云梯1TimeTunnelJDBCDUMP数据平数据平台台搜索支付宝支付宝B2B云梯云梯2天网天网调度调度系统系统Gateway Servers数据魔数据魔方方量子统量子统计计口碑口碑DataExchange爬虫数

2、据爬虫数据Map Reduce Java JobsStreaming JobsHive Jobs广告广告BI淘数据推荐系推荐系统统搜索排行4淘宝数据的形状 核心数据来源于Oracle备库 大部分数据结构化,数据具有模式 稠密5云梯1规模 总容量9.3PB, 利用率77.09% 总共1100台机器 Master:8CPU(HT),48G内存,SAS Raid Slave节点异构 8CPU/8CPU(HT) 16G/24G内存 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD 12/20 slots 约18000道作业/天, 扫描数据:约500TB/天 用户数474人, 用户

3、组38个6云梯1规模-slave Slave机器异构 6T机器磁盘利用率较高 Rebalance 单机速度控制:10M/s 每天9:00 23:30运行 Slave故障率 每周10 20次硬盘故障 每周1 2次主板或其他故障7云梯1 Hadoop版本 基于0.19.1 大量Patch 主要来自官方社区0.19.2, 0.20, 0.21等 自己开发的 Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容8云梯主要功能扩展 安全性 密码认证 (hadoop.job.ugi) 扩展ACL,用户访问其他组的数据(开发中) Scheduler 基于FairSche

4、duler的改造 slots动态调整(网页形式,每小时更新) 各个组使用自己的资源 Slave单磁盘容错 DataNode坏掉一块磁盘不需要停止,减少数据分发 TaskTracker坏掉一块磁盘后不对作业造成影响9Master节点容灾方案 3个Master + 1个Standby节点 配置文件一致,上传至SVN Virtual IP (NameNode和JobTracker) JobTracker无元数据,JobHistory每天备份七天前的历史文件 NameNode和SecondaryNameNode Check point 1天做一次(晚上8点之后),降低NameNode启动时间 Fsim

5、age和edits同时通过NFS写到SNN上,元数据保存两份 Standby在NN或JT宕机时启用10将来的工作 开发一种新型的调度器 调度效率低下导致集群利用率不足 基于红黑树的调度器 NameNode HA Namenode 内存瓶颈 Heap Size 40G,CMS gc之后 23G 分布式NameNode, Dynamic Partition Tree Hadoop 升级 OSD及CRUSH算法11Hive使用 2009年3月调研,4月投入生产 CLI与Thrift Server并用 Web/SSH 界面 模板化 & 预加载 86个统一发布UDF Lineage Analys

6、is 极限存储 增量存储表 按数据的生命周期分目录12实践经验 数据倾斜 内存优化 I/O优化 Multi-Insert 数据压缩13淘宝对Hive的贡献与改造 UDFs 建立/删除临时函数 多线程 Thrift server GBK支持 完全JDBC Multi Distinct Aggregation支持 认证与权限 bug fix14将来的工作 Hive IDE Multi Distinct Aggregation优化 Multi Group By优化 极限存储的索引与文件 表统计信息的支持 采用TFile做列存储尝试15分布式数据仓库构思Hadoop 集群JobTrackerTaskTrackerPostgres实例MapTaskReduceTaskTaskTrackerPostgres实例MapTaskReduceTaskTaskTrackerPostgres实例MapTaskReduceTask提交MapReduce作业Anthill 服务器元数据库分析器优化器规划器执行器Anthill客户端网络16链接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论