




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
#大数据常见术语解释续编胡经国大数据是如今IT行业最热门的话题和发展趋势之一。它催生出了处理大数据的一批全新技术。这些新技术带来了许多新的热门词汇,包括首字母缩略词、专业术语和产品名称等。连“大数据”这个术语本身也都让人难以理解。许多人一听到大数据,觉得是指大量数据,而大数据的涵义绝不仅仅涉及数据量的多少。下面是作者编写的《大数据常见术语解释》一文的续编,供读者参考。125、ACIDACID(Atomic,Consistency,Isolation,Durability)的全称是原子性、一致性、隔离性和持久性。数据库事务是由一组SQL语句组成的逻辑处理单元,事务具有原子性、一致性、隔离性和持久性4个属性,通常简称为事务的ACID属性。如果这4个方面的属性都能得到遵守,就能在数据处理过程中确保数据库事务的数据完整性。虽然ACID问世已有一段时日,但是随着事务数据量的急剧增长,已把更多的注意力投向在处理大数据时需要满足ACID的规定。126、大数据三要素如今的IT系统正在生成数量、速度和种类都很庞大的数据。大数据三要素就是指其数量、速度和种类。数量:IDC公司估计,2013年全球信息总量将达到2.7泽字节(这相当于27亿太字节),而且每两年就翻一番。泽字节(ZettaByte,ZB),1ZB=1024EB。太字节(TeraByte,TB),1TB=1024GB。速度:让IT管理人员们头痛的不仅仅是数据的数量,还有数据从金融系统、零售系统、网站、传感器、无线射频识别(RFID)芯片以及Facebook(脸书)和推特等社交网络源源而来的速度越来越快。种类:如果回到5年前或可能10年前,IT人员处理的主要是字母数字数据。它们很容易存储在关系数据库里整齐排列的行和列中。现在,不再是这样了。如今,推特和Facebook(脸书)上的帖子、各种文档及网页内容等非结构化数据都是大数据组合的一部分。127、列式(或列型)数据库一些新一代数据库(如开源Cassandra和惠普的Vertica数据库)被设计成为按列存储数据;而不像传统的SQL数据库那样按行存储数据。这种设计提供了更快的磁盘访问速度,提高了处理大数据时的性能。对于数据密集型业务分析应用系统而言,列式数据库尤其受到欢迎。128、数据仓库数据仓库这个概念存在至今已有大约25年了,具体是指将数据从多个操作IT系统复制到面向业务分析应用系统的辅助离线数据库。但是,随着数据量急剧增长,数据仓库系统正在迅速改变。由于它们需要存储更多的数据以及更多种类的数据,因而数据仓库管理成为一大难题。在10年或20年前,数据可以每周或每月复制到数据仓库系统中;而如今,数据仓库的更新要频繁得多,有的甚至需要实时更新。129、ETLETL(Extract,Transform.Load)用来描述将数据从来源端经过提取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用于数据仓库,但是其对象并不限于数据仓库。在将数据从一个数据库(比如支持银行应用事务处理系统的数据库)转移到另一个数据库(比如用于业务分析的数据仓库系统)时,就要用到提取、转换和加载(ETL)软件。在数据从一个数据库传送到另一个数据库时,常常需要对数据进行重新格式化和清理操作。由于数据量急剧增长,数据处理速度大大加快,因而对ETL工具的性能要求也大大提高了。130、FlumeFlume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume是属于ApacheHadoop大家族的一项技术。这种框架用于为Hadoop填充数据。该技术使用散布于应用服务器、Web服务器、移动设备及其他系统上的软件代理,收集数据,并将数据传送到 Hadoop系统。比如说,公司可以使用在Web服务器上运行的ApacheFlume,收集来自推特帖子的数据,以便分析。131、地理空间分析由IT系统生成和收集的地理空间数据越来越多,这是推动大数据潮流的一个趋势。据说,一幅图片的信息量抵得上1000个单词。所以,难怪越来越多的地图、图表、照片及其他基于地理位置的内容,是导致如今大数据呈爆炸式增长的主要动因。地理空间分析是指一种特殊形式的数据可视化(请参阅下面的“可视化”条目)。在地理地图上覆盖数据,以帮助用户更清楚地理解大数据分析的结果。132、Hadoop及其相关术语Hadoop是一种分布式系统基础架构,一种开源平台,用于开发分布式、数据密集型的应用程序。它由Apache软件基金会控制。Hadoop的发明者是雅虎公司的开发者道格•卡廷(DougCutting)。他在谷歌实验室的MapReduce概念这个基础上,开发出了Hadoop,以他儿子的玩具象命名(Hadoop的发音:[h?du:p])。另外,HBase是一种非关系型数据库。它是作为Hadoop项目的一部分开发而成的。Hadoop分布式文件系统(HDFS)是Hadoop的一个关键组成部分。而Hive则是建立在Hadoop基础上的数据仓库系统。133、内存中数据库计算机在处理事务或执行查询时,一般从磁盘驱动器获取数据。但是当IT系统处理大数据时,这个从磁盘驱动器获取数据的过程可能实在太慢。内存中数据库是指利用计算机的主内存来存储经常使用的数据的数据库。它可以大大地缩短处理数据的时间。内存中数据库产品,包括:SAPHANA和甲骨文TimesTen内存中数据库。134、JavaJava是指一种编程语言。它由现在隶属于甲骨文公司的 Sun开发,于1995年发布。Hadoop和其他许多大数据技术都是使用Java开发而成的。现在,它仍然是大数据领域的一种主要的开发技术。135、Kafka及其相关数据Kafka是由Apache软件基金会开发的一个开源流处理平台,由 Scala和Java编写。Kafka是一种高吞吐量的分布式消息传送系统。最初是在 LinkedIn开发而成,用于管理该服务网站的活动流(关于网站使用情况的数据)和操作数据处理流水线(关于服务器组件的性能)。Kafka在处理大量流式数据时很有效。流式数据是许多大数据计算环境的一个关键问题。由推特开发的Storm是另一种大行其道的流处理技术。流式数据是指一组顺序、大量、快速、连续到达的数据序列;一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。它应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。大数据处理系统可分为批式(Batch)大数据和流式(Streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。Apache软件基金会已将Kafka列为一个开源项目。所以,别以为这是有缺陷的软件。136、延迟时间延迟时间是指数据从一个点传送到另一个点的过程中的延迟时间,或者是某个系统(如应用程序)响应另一个系统的延迟时间。虽然延迟时间不是什么新术语,但是随着数据量不断增长,IT系统竭力跟上步伐,如今更常听说这个术语。简单地说,“低延迟”是好事,“高延迟”是坏事。137、映射/化简映射/化简(Map/Reduce)这种方法,是指把一个复杂的问题分解成多个较小的部分;然后将它们分发到多台计算机上;最后把它们重新组装成一个答案。谷歌的搜索系统用到了映射/化简概念。这家公司有一个品牌名为MapReduce的框架。谷歌在2004年发布的一份白皮书中描述了它使用映射 /化简的情况。Hadoop之父道格•卡廷充分认识到了它潜力,开发出了同样借用映射 /化简概念的第一个版本的Hadoop。138、NoSQL数据库大多数主流的数据库(如甲骨文数据库和微软 SQLServer)基于关系型体系结构,使用结构化查询语言(SQL),用于开发和数据管理。但是,名为“NoSQL”(有些人现在称NoSQL表示“不是只有SQL”)的新一代数据库系统,基于支持者们认为更适合处理大数据的体系结构。一些NoSQL数据库是为了提高可扩展性和灵活性而设计的;而另一些NoSQL数据库则在处理文档及其他非结构化数据方面比较有效。典型的NoSQL数据库包括:Hadoop/HBase,Cassandra,MongoDB和CouchDB。甲骨文等一些知名开发商已推出了各自的NoSQL产品。139、OozieApache的Oozie是一种开源工作流引擎,用于帮助管理面向Hadoop的处理工作。使用Oozie,—系列工作可以用多种语言(如Pig和MapReduce)来加以定义;然后彼此关联起来。比如说,一旦从操作应用程序收集数据的作业已完成,程序员就可以启动数据分析查询任务。140、PigPig是Apache软件基金会的另一个项目。Pig这个平台用于分析庞大的数据集。就其本质而言,Pig是一种编程语言,可用于开发在Hadoop上运行的并行计算查询。141、定量数据分析定量数据分析是指使用复杂的数学或统计模型,解释金融和商业行为,或者甚至预测未来的行为。由于如今收集的数据量急剧增加,因而定量数据分析已变得更加复杂。但是,如果公司知道如何利用海量数据,获得更好的可视性,深入了解公司业务,并且洞察市场发展趋势,那么更多的数据也有望在数据分析方面带来更多的机会。一个问题是,拥有这种分析技能的人才严重匮乏。知名咨询公司麦肯锡表示,仅仅美国就需要150万名拥有大数据分析技能的分析员和管理员。142、关系型数据库关系型数据库(RelationalDataBase,RDB)是建立在数据关系模型基础上的数据库。它是如今使用最广泛的一种数据库,包括: IBM的DB2、微软的SQLServer和甲骨文数据库。从银行应用系统、零售店的销售点系统到库存管理应用软件,大多数的企业事务处理系统都在关系型数据库管理系统(RDBMS)上运行。关系型数据库管理系统(RelationalDatabaseManagementSystem,RDBMS)是指包括相互联系的逻辑组织和存取这些数据的一套程序(数据库管理系统软件)。关系型数据库管理系统就是管理关系数据库并将数据进行逻辑组织的系统。但是,据认为,关系型数据库已经跟不上如今数据量和数据种类都呈爆炸式增长的形势。比如说,RDBMS当初在设计时着眼于处理字母数字数据(结构化数据),而在处理非结构化数据时不是同样有效。143、分片随着数据库变得越来越庞大,因而处理起来也就变得越来越困难。分片(Sharding)是指一种数据库分区技术,把数据库分成更小、更容易管理的部分。具体来说,数据库被横向分区,以便单独管理数据库表中的不同行。分片方法让庞大数据库的片段,可以分布在多台服务器上,从而提高数据库的整体运行速度和性能。另外,Sqoop是一种开源工具,用于将来自非Hadoop来源(如关系型数据库)的数据转移到Hadoop环境。144、 文本分析导致大数据问题的因素之一,是从推特和 Facebook(脸书)等社交媒体网站、外部新闻源,甚至公司内部收集而来以便分析的文本数量越来越多。由于文本是非结构化数据(不像通常存储在关系型数据库中的结构化数据),主流的业务分析工具面对文本时常常束手无策。文本分析采用了一系列方法(关键字搜索、统计分析法和语言研究法等),从基于文本的数据中获得洞察力。145、 非结构化数据从前,大部分数据还是结构化数据。这种字母数字信息(如来自销售交易的财务数据)很容易存储在关系型数据库中,并由商业智能工具来分析。但是,如今共计2.7泽字节(ZettaByte,ZB)的存储数据中,很大一部分是非结构化数据,比如基于文本的文档、推特消息、发布在Flickr上的照片、发布在YouTube上的视频等等(颇有意思的是,每分钟有长达35个小时的视频内容上传到YouTube)。处理、存储和分析所有这些凌乱的非结构化数据,常常是如今的IT系统面临的难题。146、数据可视化随着数据量的增长,人们使用静态的图表和图形来理解数据变得越来越困难了。这就导致开发新一代的数据可视化和分析工具,以便以新的方式呈现数据,从而帮助人们理解海量信息。这些工具包括:标以色码的热图,三维图形,显示一段时间内变化的动画可视化,以及在地理地图上覆盖数据的地理空间呈现。今天的先进数据可视化工具还具有更强的互动性,比如允许用户放大某个数据子集,进行更仔细的检查。147、WhirrApache的Whirr是一组Java类库,用于运行大数据云服务。更确切地说,它可以加快在亚马逊弹性计算云(EC2)和Rackspace等虚拟基础设施上开发Hadoop集群的过程。1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 制冷空调设备销售与市场分析考核试卷
- 农业会计培训课件
- 收车合同范本
- 合伙注册公司合同范本
- 劳动合同范本签字
- 佳利租赁合同范本
- 酒店前厅服务操作流程制度
- 云计算数据中心建设合同
- 培训课件的获取方法
- 农业信息技术服务及智能应用合同书
- 2024年上半年教师资格证《初中英语》真题及答案
- 危重患者的体位管理
- 西南师大版小学数学三年级下册教材分析
- 人教版(新起点)小学英语二年级下册教案(全册)
- GB 1002-2024家用和类似用途单相插头插座型式、基本参数和尺寸
- 中医备案诊所污水、污物、粪便处理方案及周边环境情况说明
- 小学英语趣味选择题100道附答案(完整版)
- 《房地产开发与经营》全套教学课件
- DL∕T 838-2017 燃煤火力发电企业设备检修导则
- 炭素厂工艺设计规范
- 银行外拓营销方法
评论
0/150
提交评论