模板淘宝分式数据处理实践_第1页
模板淘宝分式数据处理实践_第2页
模板淘宝分式数据处理实践_第3页
模板淘宝分式数据处理实践_第4页
模板淘宝分式数据处理实践_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1淘宝分布式数据处理实践主要内容淘宝的数据云梯介绍对hadoop的主要功能扩展与改造hive实践对hive的改造分布式数据仓库构思淘宝的数据oracle 备库mysql 备库日志系统云梯1timetunneljdbcdump数据平台搜索支付宝b2b云梯2gateway servers数据魔方量子统计口碑dataexchange爬虫数据map reduce java jobsstreaming jobshive jobs广告bi淘数据推荐系统搜索排行淘宝数据的形状核心数据来源于oracle备库大部分数据结构化,数据具有模式稠密云梯1规模总容量9.3pb, 利用率77.09%总共1100台机器ma

2、ster:8cpu(ht),48g内存,sas raidslave节点异构8cpu/8cpu(ht)16g/24g内存1t x 12 / 2t x 6 / 1t x 6 sata jbod12/20 slots约18000道作业/天, 扫描数据:约500tb/天用户数474人, 用户组38个云梯1规模-slaveslave机器异构6t机器磁盘利用率较高rebalance 单机速度控制:10m/s每天9:00 23:30运行slave故障率每周10 20次硬盘故障每周1 2次主板或其他故障云梯1 hadoop版本基于0.19.1大量patch主要来自官方社区0.19.2, 0.20, 0.21等

3、自己开发的hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容云梯主要功能扩展安全性密码认证 (hadoop.job.ugi)扩展acl,用户访问其他组的数据(开发中)scheduler基于fairscheduler的改造slots动态调整(网页形式,每小时更新)各个组使用自己的资源slave单磁盘容错datanode坏掉一块磁盘不需要停止,减少数据分发tasktracker坏掉一块磁盘后不对作业造成影响master节点容灾方案3个master + 1个standby节点配置文件一致,上传至svnvirtual ip (namenode和jobtracke

4、r)jobtracker无元数据,jobhistory每天备份七天前的历史文件namenode和secondarynamenodecheck point 1天做一次(晚上8点之后),降低namenode启动时间fsimage和edits同时通过nfs写到snn上,元数据保存两份standby在nn或jt宕机时启用将来的工作开发一种新型的调度器调度效率低下导致集群利用率不足基于红黑树的调度器namenode hanamenode 内存瓶颈heap size 40g,cms gc之后 23g分布式namenode, dynamic partition treehadoop 升级osd及crush算

5、法hive使用2009年3月调研,4月投入生产cli与thrift server并用web/ssh 界面模板化 & 预加载86个统一发布udflineage analysis极限存储增量存储表按数据的生命周期分目录实践经验数据倾斜内存优化i/o优化multi-insert数据压缩淘宝对hive的贡献与改造udfs建立/删除临时函数多线程 thrift servergbk支持完全jdbcmulti distinct aggregation支持认证与权限bug fix将来的工作hive idemulti distinct aggregation优化multi group by优化极限存储的索引与文件表统计信息的支持采用tfile做列存储尝试分布式数据仓库构思hadoop 集群jobtrackertasktrackerpostgres实例maptaskreducetasktasktrackerpostgres实例maptaskreducetasktasktrackerpostgres实例maptaskreducetask提交mapreduce作业anthill 服务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论