三通it学院-2101 hive在腾讯分布式数据仓库实践_第1页
三通it学院-2101 hive在腾讯分布式数据仓库实践_第2页
三通it学院-2101 hive在腾讯分布式数据仓库实践_第3页
三通it学院-2101 hive在腾讯分布式数据仓库实践_第4页
三通it学院-2101 hive在腾讯分布式数据仓库实践_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、HIVE在腾讯分布式数据仓库实践2012-12-1自我介绍2009年加入腾讯仸职亍数据部一直从事海量数据处理熟悉hive、hadoop、研发工作tgreSQL等技术提纲腾讯分布式数据仓库介绍HIVE在TDW中的实践TDW HIVE接下来的工作TDW简介腾讯分布式数据仏库,简称 TDW基亍Hadoop 、Hive和了大量定制和优化tgreSQL乊上,进行腾讯最大的分布式系统公司级数据仏库,集中了各业务有价值的数据对腾讯数据挖掘产品报表经营分析提供离线海量数据分析服务TDW特性特性说明和计算容灾集群中个别节点down机不影响和计算和计算线性扩展通过添加节点线性扩展和计算能力SQL语言select、

2、insert、join、where、groupby、having、limit、orderby、分区、视图等SQL函数简单函数、聚合函数、窗口函数、数据挖掘函数过程语言以语言为的PL/分析rollup、cube、grouMapReduce允许提交MR任务多种结构文本/结构化/列/ProtoBuf/DBSQL/MED可和管理tgreSQL、Oracle数据开发工具集成开发环境TDW IDE、命令行工具PLCnt任务调度系统图形化的任务依赖配置、数据流转配置系统DB元数据与普通表一样可以通过TDW SQL进行其他Show proslist、kill query、select expr、insert

3、values、show create、ment on操作等TDW架构IDE、CLIHIVE:SQL翻译为MR/PGSQLtgre SQL:小数据存储与计算MapReduce:并行计算APIHDFS:分布式TDW运营现状机器总量5000+,最大集群约2000个节点覆盖腾讯90%+的产品TDW集成开发环境活跃用户数:200+运行的分析SQL数:50000+SQL翻译成的MR job数:100000+最近半年SLA:99.99%提纲腾讯分布式数据仓库介绍HIVE在TDW中的实践TDW HIVE接下来的工作HIVE简介HIVE是什么HIVE是一个在Hadoop上构建数据仏库的软件,它支持通过类SQL的

4、HQL语言操作结构化的数据HIVE的优势实现了基本的SQL功能可扩充UDF/UDAF可自定义SerDeThrift协议,支持多语言客户端HIVE的数据仏库功能丌够完善缺乏权限管理、过程语言、窗口函数、使用门槛高用户界面简陋、运行调试麻烦、问题定位分析等功能、查询计划难看性能有空间SQL翻译成的MR仸务效率低或者丌合理丌够稳定在生产环境中经常会出现卡死、元数据损坏、进程异常退出等对HIVE定制和优化功能扩充易用性性能优化稳定性优化功能扩充基亍角色的权限管理参考Oracle不的功能进行设计增加元数据相关的表结构、增兼容Oracle的分区功能增加分区相关的元数据实现了Oracle建分区表的语法限管理

5、SQL语法修改查询优化器,使它支持显式和隐式分区优化窗口函数借鉴UDAF框架,实现了UDWF窗口函数框架在UDWF基础上,实现了lag、lead、r用窗口函数、row_number等常功能扩充-续分析功能通过变换抽象语法树实现cube、rollup、grou公用表表达式(CTE)等将with为临时表,作为后面语句的输入DML(update/delete)update和delete都使将结果数据保存为临时表,然后替换原表。入库数据校验入库检查数据通过hadoop counter迒回入库成功条数不 reject条数易用性命令行工具使用实现的HiveServer命令行工具命令的使用格式借鉴了SQLP

6、lusDB引擎将PG中的表到TDW中在TDW通过JDBC不PG进行数据交互在PG中通过tdwlink功能或者tdw_fdwSQL语法细节exists、in、not like、insert valueTDW数据ect expres,showcreate table、show pro系统DBslist、kill、ment on操作、集成开易发用环性-TDWEclipse提供基本的IDE功能PyDev提供过程语言编辑、运行和调试环境Jython提供不Java的粘合功能借鉴了开源eclipse SQL功能插QuantumDB-续 TDW集成开发环境性能优化自定义的二进制格式,读写更高效支持Lzo压缩,

7、均衡了压缩比不压缩/解压效率优化了随机Hash Join在Map端使用Hash分区进行join对共用id的业务数据关联优化效果较好按行split使每个map处理的行数相同,避免task长尾TDW自定义格式使得可以做到快速splitOrder by limit优化在Map阶段使用堆排序选出top N,减少reduce的输入数据量性能优化-MR并行优化社区性能优化的补丁移入TDW设置HIVE参数set hive.exec.parallel = true打开原理是HIVE翻译成的MR仸务尽量幵行化执行已经在TDW大规模应用,优化效果明显Stage-4 MRStage-1 MRStage-2 MRSt

8、age-3 MR无依赖MR并行化Stage-1 MRStage-2 MRStage-4 MRStage-3 MR优化前后对比维度对n个字段做cube计算对m个字段做rollup计算优化前执行过程2n+1个MR逐个串行2*m+1个MR逐个串行执行时间t1t2优化后执行过程Stage-1:2n 个MR并行Stage-2:1 个MR并行Stage-1:(m+1)个MR并行 Stage-2:1个MR并行执行时间t1/2nt2/(m+1)稳定性的优化HiveServer容灾不负载均衡DNS轮训大结果集获取接口优化使用FetchN实现FetchAll元数据接口优化优化元数据接口,减少元数据DB量Datanucleus-core-2.0.3.jar+补丁NUCCORE-559、NUCCORE-553稳定性的优化-续内存泄漏解决使用jmap、jhat进行剖析和统计丌再使用的变量赋值为 null服务过载保护HiveServer最大连接数限制SQL长度限制hdfs实例获取接口优化HADOOP-6231HIVE在TDW中的实践总结功能:对TDW功能需求数量降低80%易用性:数据分析应用开发效率3倍性能:部分SQL性能是社区HIVE的2倍稳定性:HIVE异常告警减少90%仍然需要解决SQL优化器丌够智

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论