大数据存储-绪论_第1页
大数据存储-绪论_第2页
大数据存储-绪论_第3页
大数据存储-绪论_第4页
大数据存储-绪论_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据存储绪论随着互联网、物联网及云计算等技术的快速兴起,人类社会中数据的增长方式与以往任何时期都有了巨大的不同。不仅数据规模越来越大,数据形式越来越复杂,数据的更新速度越来越快,数据与人们生活的密切程度也越来越高。据美国互联网数据中心研究,仅仅互联网上的数据每年就呈现50%左右的增长。除此之外,全世界的工业设备、交通工具、生活电器、移动终端,也都随时测量和传递着有关震动、位置、温度、湿度乃至人类之间相互联系的变化情况,海量数据已成为目前数据信息最明显的标签之一。人类已经进入了一个“大数据”时代,数据的规模更加庞大,数据的种类不再单一,快速查询、定位并提供数据的要求也越来越高,与此紧密相关的数据存储与传统的数据存储相比亦发生了巨大变化。项目描述项目背景为后续更好地学习大数据存储的相关知识,本项目将通过大数据简介及大数据存储技术的介绍,让读者对大数据技术体系及大数据存储技术有一定的了解,为真正生产环境中的存储技术选型奠定好架构设计的基础。项目描述项目目标随着互联网、物联网及云计算等技术的快速兴起,人类社会中数据的增长方式与以往任何时期都有了巨大的不同。不仅数据规模越来越大,数据形式越来越复杂,数据的更新速度越来越快,数据与人们生活的密切程度也越来越高。据美国互联网数据中心研究,仅仅互联网上的数据每年就呈现50%左右的增长。除此之外,全世界的工业设备、交通工具、生活电器、移动终端,也都随时测量和传递着有关震动、位置、温度、湿度乃至人类之间相互联系的变化情况,海量数据已成为目前数据信息最明显的标签之一。人类已经进入了一个“大数据”时代,数据的规模更加庞大,数据的种类不再单一,快速查询、定位并提供数据的要求也越来越高,与此紧密相关的数据存储与传统的数据存储相比亦发生了巨大变化。项目描述项目分析1大数据的存储技术目录大数据简介2大数据存储是大数据技术体系中的一部分。为此,了解大数据的概念、特征和应用领域,熟悉大数据技术体系,是理解大数据存储技术的前提和基础。任务描述

“大数据”一词早在上世纪80年代就已提出,并于2009年开始成为IT行业的流行词汇,但作为一个较为抽象的概念,至今业界还没有对“大数据”给出一个确切、统一的定义。维基百科:在合理的时间内,无法运用传统的数据库管理工具或数据处理软件,完成捕获、管理和处理等功能的大型而复杂的数据集。麦肯锡:大数据是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合。Gartner:大数据是指需要借助新的处理模式才能拥有更强的决策力、洞察发现力和流程优化能力的具有海量、多样化和高增长率等特点的信息资产。大数据的概念大数据的特征处理速度快数据价值密度低数据种类多数据规模大目前,大数据已渗透到各行业和各业务职能领域。电商行业:通过海量的商品交易数据,不仅可以统计出消费热点、客户的消费习惯、消费特点、影响消费的因素等,还能预测出消费趋势、流行趋势等。医疗行业:在疫情追踪、溯源与预警、辅助医疗救治、助力资源合理配置及辅助决策中得到广泛应用,提升各地疫情防控工作效率。为防控“战役”提供了重要支持。交通行业:通过提前预测道路交通情况,为出行提供优化方案,在助力交通部门提高道路交通把控能力,防止和缓解交通拥堵等方面起到了极为重要的作用。大数据的应用领域

大数据的技术体系,就是以从各种类型海量数据中快速获取有价值的信息为目的,由大量在大数据领域涌现出的数据采集、存储、处理和呈现等相关技术所组成的相互联系的技术整体。大数据的技术体系1大数据的存储技术目录大数据简介2数据可以存储在文件、数据库或数据仓库中。为此,首先解释3种数据存储的方式,然后对数据库存储中常用的分布式数据库进行简要介绍。任务描述数据存储简介1.基于文件系统的数据存储分布式文件系统架构图文件系统是操作系统用于在分区上、存储设备上负责组织、存取与管理文件的机构,主要由3部分组成:与文件管理有关软件、被管理的文件以及实施文件管理所需的数据结构。其中,被管理的文件,即数据,是以文件的形式存储在各存储设备上,并由操作系统统一管理。数据存储简介2.基于数据库的数据存储数据库(Database)就是按照一定的数据结构(数据的组织形式或数据之间的联系)进行组织、存储和管理数据的仓库。通过数据库提供的多种方式可以方便地管理数据库里的数据。T指采用了关系模型来组织数据的数据库,以由行和列所组成的二维表格的形式存储数据。指那些非严格关系型的、分布式的、不保证遵循ACID原则的数据库关系型数据库非关系型数据库数据存储简介2.基于文件系统的数据存储关系型数据库与非关系型数据库是人类社会在处理数据不同阶段而出现的不同产物,分别适用于不同的场景。关系型数据库非关系型数据库优势易理解建表灵活易使用储存灵活易维护处理数据量巨大不足海量数据处理效率低复杂查询能力弱数据库系统升级或扩展时,需要停机事务处理能力弱数据存储简介3.基于数据仓库的数据存储数据仓库存储的主要是历史数据,并通过维度表用于对数据的分析。数据仓库通过系统的分析、整理和组织大量的历史数据,以联机分析处理(OLAP)和数据挖掘等各种方法,帮助决策者快速有效的从大量数据中,分析出有价值的信息,以实现辅助决策,构建商业智能。0面向主题0集成0相对稳定0反应历史变化分布式数据库简介1.分布式数据库及其管理系统分布式数据库是在传统集中式数据库的基础上发展而来的,是针对大数据存储管理而快速发展起来的关键技术,是数据库技术和网络技术不断发展、互相融合、互相促进的结果。其基本思想是借助计算机网络技术,将海量数据分散存储在网络中的不同存储节点,并通过分布式计算技术,将这些分散的物理存储单元连接起来组成一个逻辑上统一的数据库,从而在获取更大存储容量的同时,实现更高的并发访问量。分布式数据库管理系统是一种专门为分布式数据库所设计的,用于建立、使用和维护分布式数据库的大型软件,通过借助存储引擎和计算引擎,对分布式数据库进行统一的管理,以保证分布式数据库的安全性和完整性。分布式数据库2.NoSQL数据库的特点灵活的数据模型可扩展性强高可用性高并发性NoSQL(Not

Only

SQL,可意为“不仅仅是SQL”)数据库,是对不同于传统的关系数据库的统称。0000分布式数据库3.NoSQL数据库的分类键值数据库Redis、SimpleDB列族数据库文档数据库图形数据库HBase、BigTableMongoDB、CruchDBNeo4J、GraphDB在大数据的储存与处理上,NoSQL具备传统关系型数据库无法比拟的性能优势。随着人们对非关系型数据库的日益重视,目前已开发出众多性能优秀的NoSQL数据库产品。人类已经进入了一个“大数据”时代,数据的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论