大数据生态系统之基于Inceptor的典型场景设计_第1页
大数据生态系统之基于Inceptor的典型场景设计_第2页
大数据生态系统之基于Inceptor的典型场景设计_第3页
大数据生态系统之基于Inceptor的典型场景设计_第4页
大数据生态系统之基于Inceptor的典型场景设计_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、202X大数据生态系统之基于Inceptor的典型场景设计主题01信息收集02存储引擎/格式介绍03根据应用选择表结构04详细设计注意事项第一节01信息收集02存储引擎/格式介绍03根据应用选择表结构04详细设计注意事项信息收集应用场景信息收集应用场景统计分析类批处理大表参与计算,复杂的sql统计交互式即席查询查询统计性能要求较高,多表的join、group by检索查询综合搜索返回记录条数少,复杂多变的查询条件,前模糊,后模糊,范围检索,关键字检索,全文检索等高并发检索查询历史数据的检索查询,返回记录小于1W,固定条件检索,并发要求高流处理 - 实时流数据处理信息收集数据信息容量历史存量大小

2、每天增量大小字段信息时间序列?递增序列?主键?分布情况,是否倾斜第二节01信息收集02存储引擎/格式介绍03根据应用选择表结构04详细设计注意事项Text表主要对导入数据建立过渡表sqoop导出flume导出oracle/TD/自身工具的导出文件行存储,支持无压缩文本,Gzip/Bzip2压缩格式只支持批量insert和load操作支持分区分桶ORC表统计分析表类型Optimized Row Columnar列存储压缩比38轻量级索引minmaxFilterBloomFilter只支持批量insert,不支持load支持分区分桶ORC事务表满足事务性需求列式存储,压缩比跟orc相近,多事务版本

3、存储,compact机制当系统中没有base版本,则当delta版本大于10时触发major compact当系统中有base版本,则当所有delta版本的数据量达到base版本数据量的10%或者delta版本个数大于50时,自动触发major compact轻量级索引minmaxFilter(只有base的情况下可用)支持insert,update,merge,delete,commit,rollback必须分桶,支持分区分桶Holodesk表交互式统计分析需求相比于ORC,SQL更快基于Cube模型,加速group by存储在SSD/RAM列式存储,压缩比ORC差一些支持Index/Cub

4、e只支持insert操作支持分桶、分区(不推荐使用)Hyperbase表历史数据检索,固定条件检索查询场景,非结构化数据存储列族式存储,支持SNAPPY压缩,compact机制索引rowkeyglobal indexfulltext index支持insert,update,delete没有分区分桶概念,region存储Stream表inceptor中对流数据的建表方式数据源kafkasocketstream支持定义窗口大小和滑动步长只能通过ad-hoc进行select,需要insert到一张固化表中SELECT /*+ADHOC*/ * FROM s1 STREAMWINDOW w1 AS(

5、LENGTH 2 SECOND SLIDE 1 SECOND);Text表语法create table table_name(尽量使用String,BigIng,Decimal)partitioned BY RANGE (sj string)(partition values less than (2014-11-04 23:59:59),partition values less than (2014-11-05 23:59:59),)clustered by (mbbh) into 21 bucketsROW FORMAT DELIMITED FIELDS TERMINATED BY t;

6、ORC表语法create table table_name(尽量使用String,BigIng,Decimal)partitioned BY RANGE (sj string)(partition values less than (2014-11-04 23:59:59),partition values less than (2014-11-05 23:59:59),)clustered by (mbbh) into 23 bucketsstored as orc;大表的分桶数应该接近或大于inceptor 1轮的计算线程数,分桶数取质数,桶文件大小在100200M与大表join的其他表应

7、尽量使用同样的分桶字段和分桶数ORC事务表语法create table table_name(尽量使用String,BigIng,Decimal)partitioned BY RANGE (sj string)(partition values less than (2014-11-04 23:59:59),partition values less than (2014-11-05 23:59:59),)clustered by (mbbh) into 23 bucketsstored as orcTBLPROPERTIES (transactional=true);Holodesk语法cr

8、eate table table_name(尽量使用String,BigIng,Decimal)clustered by (mbbh) into 23 bucketsTBLPROPERTIES (cache=RAM,holodesk.index=column_name_index,holodesk.dimension=column_name_a_dim1,column_name_a_dim2|column_name_b_dim1,column_name_b_dim2);创建的Index和dimension都会增加创建的计算开销和存储开销Hyperbase表语法CREATE TABLE tabl

9、e_name(a string,b string,c int,)stored by org.apache.hadoop.hive.hbase.HBaseStorageHandler withserdeproperties (hbase.columns.mapping=:key,info:cbm,info:csx#b)tblproperties (= table_name_2“,hbase.table.splitkey=aaa,aab);对于Int等类型,在mapping中必须使用#b查询时eger.transform=true;S

10、tream建表语法CREATE STREAM ( , ,.)ROW FORMAT DELIMITED FIELDS TERMINATED BY COLLECTION ITEMSTERMINATED BY MAP KEYS TERMINATED BY TBLPROPERTIES(topic=, source=kafka, kafka.zookeeper=, kafka.broker.list=, transwarp.stream.kafka.principal=, transwarp.stream.kafka.keytab= =, .);Stream窗口定义系统时间切分CREATE STREAM

11、 s1(id INT, name STRING, ts TIMESTAMP);INSERT INTO t1 SELECT * FROM s1 STREAMWINDOW w1 AS(LENGTH 2 SECOND SLIDE1 SECOND);以系统时间切分,窗口大小2s,滑动间隔为1s。Stream窗口定义事件时间切分SET streamsql.use.eventtime=true;CREATE STREAM s12(id INT, name STRING, ts TIMESTAMP) tblproperties(timefield=ts);INSERT INTO t1 SELECT * FR

12、OM s12 STREAMWINDOW w1 AS(LENGTH 2 SECOND SLIDE1 SECOND);以字段ts为窗口切分的依据。ESDriver(4.6可用)CREATE EXTERNAL TABLE ( STRING, , ,.)STORED AS ESWITH SHARD NUMBER REPLICATION TBLPROPERTIES(elasticsearch.tablename=);id字段必须为String第二节01信息收集02存储引擎/格式介绍03根据应用选择表结构04详细设计注意事项批处理表类型Text表:贴源层,数据导入ORC表:Text数据处理后生成,带有轻量

13、索引,可建分区分桶,批处理的主要表类型,只支持增量插入ORC事务表:针对于分布式事务场景以及统计分析需求设计出的表结构,支持增、删、查、改场景判断大表参与计算(10G以上的表)复杂的sql统计(多表join,多字段group by聚合)综合搜索表类型Hyperbase表+全文索引支持增、删、查、改,不支持事务场景判断历史数据的检索查询,返回记录小于1W(排序小于1000)复杂的查询条件前模糊,后模糊,范围检索,关键字检索,全文检索等单节点并发50查询低延时(秒级别)高并发检索查询表类型Hyperbase表+全局索引支持增、删、查、改,不支持事务场景判断历史数据的检索查询,返回记录小于1W简单的

14、查询条件后模糊,精确查询单节点并发1000查询低延时HDFS-Text外表(-orc表)-holodesk表优化策略set reduce 数量与distribute by,改变数据分布reduce数量控制输出文件数量,distribute by控制每个reduce的数据量,应选择尽量均匀的字段每个文件会作为一个map task,常见问题:map task非常多(set reduce加distribute by 重新建表),某几个task运行时间过长或者出错(数据倾斜或者某个文件过大)sort by,指定每个文件中以哪些列排序存储,可以起到类似索引的作用,对where条件起到优化作用如果DISTRIBUTE BY和SORT BY子句中的列是同一个而且SORT BY顺序选择是升序,那么DISTRIBUTE BY col

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论