版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术分享0102数据存储储/Hbase,MongoDB03数据分析析/Hive,,MR,,R04实时计算算/Storm,Spark05数据传输输/Sqoop,Kafka演讲提纲纲06数据采集集/Flume,KafkaDPI大大数据架架构NoSql数据据库NoSql
(NotOnlySql)hbaseMongoDBLucene/Solr等Hbase是什什么HBase是ApacheHadoop中的一一个子项项目,Hbase依托托于Hadoop的HDFS作为最最基本存存储基础础单元,,通过使使用hadoop的DFS工工具就可可以看到到这些这这些数据据存储储文件夹夹的结构构,还可可以通过过Map/Reduce的框框架(算算法)对对HBase进进行操作作,如下图所示::HRegionServer、HRegion、、Hmemcache、Hlog、、HStore之间的的关系HBase表中中的数据据与HRegionServer的的分布关关系为什么采采用HBase?HBase不不同于一一般的关关系数据据库,它它是一个个适合于于非结构构化数据据存储的的数据库库.所谓谓非结构构化数据据存储就就是说HBase是基基于列的的而不是是基于行行的模式式,这样样方面读读写大数数据的数据。hbase是基基于列存存储,查查询速度度为秒级级一个数据据行拥有有一个可可选择的的键和任任意数量量的列。。表是疏疏松的存存储的,,因此用用户可以以给行定定义各种种不同的的列什么是列列存储??什么是列列存储??列存储储不同于于传统的的关系型型数据库库,其数数据在表表中是按按行存储储的,列列方式所所带来的的重要好好处之一一就是,,由于查查询中的的选择规规则是通通过列来来定义的的,因此此整个个数据库库是自动动索引化化的。按按列存储储每个字字段的数数据聚集集存储,,在查询询只需要要少数几几个字段段的时候候,能大大大减少少读取的的数据量量,一个个字段的的数据聚聚集存储储,那就就更容容易为这这种聚集集存储设设计更好好的压缩缩/解压压算法。。这张图图讲述了了传统的的行存储储和列存存储的区区别:MySQL中现现有的表表结构迁移至HBase中的的表结构构原来系统统中有2张表blogtable和和comment表,,采用HBase后只只有一张张blogtable表,如如果按照照传统的的RDBMS的的话,blogtable表表中的列列是固定定的,比比如schema定定义了Author,,Title,,URL,text等等属性,,上线后后表字段段是不能能动态增增加的。。但是如如果采用用列存储储系统,,比如Hbase,那那么我们们可以定定义blogtable表,,然后定定义info列列族,,User的数数据可以以分为::info:title,,info:author,,info::url等,,如果后后来你又又想增加加另外的的属性,,这样很很方便只只需要info:xxx就就可以以了。对于Rowkey你你可以理理解rowkey为为传统RDBMS中的的某一个个行的主主键,Hbase是不不支持条条件查询询以及Orderby等查查询,因因此Rowkey的的设计就就要根据据你系统统的查询询需求来来设计了了额。Hbase中中的记录录是按照照rowkey来排序序的,这这样就使使得查询询变得非非常快。。hive简介Hive是基于于hadoop构建的的数据仓仓库基础础架构,,通过提提供一系系列的工工具,使使得用户户能够方方便的做做数据ETL,,数据结结构化,,并针对对存放在在hadoop上的海海量数据据进行查查询和分分析hive的设计计目标是是:可伸伸缩、可可扩展、、容错及及输入格格式松耦耦合。数据单元元按照数据据的粒度度大小,,hive数据据可以被被组织成成:1)databases:避避免不不同表产产生命名名冲突的的一种命命名空间间2)tables:具具有相同同scema的的同质数数据的集集合partitions:一个个表可以以有一个个或多个个决定数数据如何何存储的的partitionkeybuckets(或clusters)::在同一一个partition中的的数据可可以根据据某个列列的hash值值分为多多个bucket。partition和和bucket并非必必要,但但是它们们能大大大加快数数据的查查询速度度。数据类型型(1)简简单类型型:TINYINT-1byteintegerSMALLINT--2byteintegerINT--4byteintegerBIGINT--8byteBOOLEAN-TRUE/FALSEFLOAT--单精精度DOUBLE--双双精度STRING--字字符串集集合(2)复复杂类型型:Structs:structs内部的的数据可可以通过过DOT(.))来存取取,例如如,表中中一列c的类型型为STRUCT{aINT;bINT}},我们们可以通通过c..a来访访问域a。Maps(Key-Value对)):访问问指定域域可以通通过[''elementname']进进行,例例如,一一个MapM包含了了一个group->>gid的k--v对,,gid的值可可以通过过M[''group'']来获获取。Arrays::array中中的数据据为相同同类型,,例如,,假如arrayA中元素素['a',''b',,'c''],则则A[1]的值值为'b'。内建运算算符和函函数包括关系系运算符符(A==B,A!==B,A<B等等))算术运算算符(A+B,,A**B,A&B,A|B等等等)逻辑运算算符(A&&B,A|B等等等)复杂类型型上的运运算符((A[n],M[key]],S.x))各种内建建函数。。语言能力力hive查询语语言提供供基本的的类sql操作作,这些些操作基基于table和partition,包包括:1.使使用where语句过过滤制定定行2.使使用select查找找指定列列3.join两张table或多张表表4.groupby5.一一个表的的查询结结果存入入另一张张表6.将将一个表表的内容容存入本本地目录录7.将将查询结结果存储储到hdfs上上8.管管理table和partition(creat、drop、alert)9.hive提提供jdbc功功能,方方便从关关系型数数据库中中读取数数据Hive和普通通数据库库的区别别由于Hive采采用了SQL的的查询语语言HQL,因因此很容容易将Hive理解为为数据库库。Spark是什什么?参考spark学习..ppt由于Spark是由Scala语言言编写的的,学习习Spark首首先要有有Scala基基础Scala的学学习可参参考以下下学习网网站http:///zh..scala--//#/overviewhttp:///twitter.github..io//scala__school/zh_cn/DPI大大数据平平台1Flume日志采集集Flume日志采集集Flume日志采集集大数据平平台CDH5.3UI展现现(报表、、柱状图图、曲线图等等)存储(hbase、、mysql))查询接口口分析(hive、mr)以往项目目架构图图安徽省公公安厅图图云项目目kafka服务务器(收集实实时数据据,转发)全国缉查查布控数据库(数据源源)二次识别别机(图片
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农田无偿代耕代种合同模板
- 全州租房合同模板
- 浙江代理记账报税合同模板
- 2024年工程分包合同要点:协调总分包关系
- 合同模板照顾病人
- 养殖标准合同模板
- 公司用电租赁合同模板
- 建筑工地外架搭建合同
- 公司室外培训合同模板
- 沙子水泥供货合同模板
- 资产评估事务所投标服务方案总体工作方案评估工作关键性内容及重难点分析
- T∕CECA-G 0074-2020 T∕CAAMTB 23-2020 质量分级及“领跑者”评价要求 纯电动汽车 (含2022年第1号修改单)
- 五四制青岛版2022-2023三年级科学上册第五单元第16课《浮和沉》课件(定稿)
- 一年级下册音乐课件- 第一课 小鹿小鹿|湘艺版 15张
- 阿里巴巴步行街经济报告
- 人教版小学三年级上册数学应用题假期专项练习题
- 经纬度转换工具(简易版)
- 教材使用情况自查报告(6篇)
- 试运行方案计划-
- 湘少版级英语单词表吐血整理
- 2022版义务教育(英语)课程标准(含2022年修订和新增部分)
评论
0/150
提交评论