




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据技术分享0102数据存储/Hbase,MongoDB03数据分析/Hive,MR,R04实时计算/Storm,Spark05数据传输/Sqoop,Kafka演讲提纲06数据采集/Flume,KafkaDPI大数据架构NoSqlNoSql数据库NoSql(Not Only Sql)hbaseMongoDBLucene/Solr等HbaseHbase是什么HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HB
2、ase进行操作,如下图所示:HRegionServerHRegionServer、HRegionHRegion、HmemcacheHmemcache、HlogHlog、HStoreHStore之间的关系HBaseHBase表中的数据与HRegionServerHRegionServer的分布关系为什么采用HBaseHBase?HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式,这样方面读写大数据的数据。hbase是基于列存储,查询速度为秒级一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的,因此
3、用户可以给行定义各种不同的列什么是列存储?什么是列存储?列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因 此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就 更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别:MySQLMySQL中现有的表结构迁移至HBaseHBase中的表结构原来系统中有2张表blogtable和comment表,采用HBase后只有一张blogtable表,如果按照
4、传统的RDBMS的话,blogtable表中的列是固定的,比如schema 定义了Author,Title,URL,text等属性,上线后表字段是不能动态增加的。但是如果采用列存储系统,比如Hbase,那么我们可以定义blogtable表,然后定义info 列族,User的数据可以分为:info:title ,info:author ,info:url 等,如果后来你又想增加另外的属性,这样很方便只需要 info:xxx 就可以了。对于Row key你可以理解row key为传统RDBMS中的某一个行的主键,Hbase是不支持条件查询以及Order by等查询,因此Row key的设计就要根据
5、你系统的查询需求来设计了额。 Hbase中的记录是按照rowkey来排序的,这样就使得查询变得非常快。hivehive简介Hive是基于hadoop构建的数据仓库基础架构,通过提供一系列的工具,使得用户能够方便的做数据ETL,数据结构化,并针对存放在hadoop上的海量数据进行查询和分析hive的设计目标是:可伸缩、可扩展、容错及输入格式松耦合。数据单元按照数据的粒度大小,hive数据可以被组织成:1)databases: 避免不同表产生命名冲突的一种命名空间2)tables:具有相同scema的同质数据的集合partitions:一个表可以有一个或多个决定数据如何存储的partition k
6、eybuckets(或clusters):在同一个partition中的数据可以根据某个列的hash值分为多个bucket。partition和bucket并非必要,但是它们能大大加快数据的查询速度。数据类型(1)简单类型:TINYINT - 1 byte integerSMALLINT - 2 byte integerINT - 4 byte integerBIGINT - 8 byte BOOLEAN - TRUE/ FALSEFLOAT - 单精度DOUBLE - 双精度STRING - 字符串集合(2 2)复杂类型:Structs: structs内部的数据可以通过DOT(.)来存取,
7、例如,表中一列c的类型为STRUCTa INT; b INT,我们可以通过c.a来访问域a。Maps(Key-Value对):访问指定域可以通过element name进行,例如,一个Map M包含了一个group-gid的k-v对,gid的值可以通过Mgroup来获取。 Arrays:array中的数据为相同类型,例如,假如array A中元素a,b,c,则A1的值为b。内建运算符和函数 包括关系运算符(A=B, A!=B, AB等等)算术运算符(A+B, A*B, A&B, A|B等等)逻辑运算符(A&B, A|B等等)复杂类型上的运算符(An, Mkey, S.x)各种内建函数。语言能力
8、 hive查询语言提供基本的类sql操作,这些操作基于table和partition,包括:1. 使用where语句过滤制定行2. 使用select查找指定列 3. join两张table或多张表 4. group by 5. 一个表的查询结果存入另一张表6. 将一个表的内容存入本地目录7. 将查询结果存储到hdfs上8. 管理table和partition(creat、drop、alert)9.hive提供jdbc功能,方便从关系型数据库中读取数据HiveHive和普通数据库的区别由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。HiveRDBMS查询语言 HQLSQL数据存储 HDFSRaw Device or Local FS数据格式用户定义系统决定数据更新不支持支持索引 无有执行 MapReduce Executor执行延迟 高低处理数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 龙池镇屋顶防水施工方案
- 三亚市海棠区青田健康养护中心项目环境影响报告表环评报告表
- 铺装广场专项施工方案
- 庭院洗手池设计与施工方案
- 低压输电线路抢修施工方案
- 天津阳台垂直绿化施工方案
- 郑州餐厅防滑地板施工方案
- 遵义铝合金防滑条施工方案
- 数控加工工艺与编程技术基础 教案 模块三 项目一 任务5 孔的加工
- 茶叶多角度精细化栽培种植优势与路径的建议分析
- 春运旅客心理状况的调查分析与对策研究
- a04-hci深信服超融合配置指南_v1
- 医药代表培训教程(完整版)
- 双重预防体系建设分析记录表格
- 电子技术基础(数字部分_第五版_康华光)华中科大课件第四章第4节
- 电力系统远动原理
- 论中小学管弦乐队的组织与训练
- 炼钢工艺操作说明
- 模拟电子技术基础课后答案(完整版)
- 小学生读书笔记模板(共10页)
- 扁平化生活常用PPT图标素材
评论
0/150
提交评论