《商务大数据分析与应用》课件-3-2 数据存储和管理_第1页
《商务大数据分析与应用》课件-3-2 数据存储和管理_第2页
《商务大数据分析与应用》课件-3-2 数据存储和管理_第3页
《商务大数据分析与应用》课件-3-2 数据存储和管理_第4页
《商务大数据分析与应用》课件-3-2 数据存储和管理_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业大数据分析与应用数据存储和管理项目四存储和管理能运用数据存储和管理技术等知识做好准备工作能根据学习需要查阅资料能够区分传统的数据存储和管理技术与大数据时代的数据存储和管理技术间的区别养成对事物分析的客观、敏感的职业思维养成对数据进行存储与管理的职业习惯职业能力职业素养知识图谱数据存储概述任务一任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR任务描述自人类诞生以来,数据的存储就一直伴随人们左右。最早的原始人类采用结绳记事的方式实现数据的记录与存储,后来商代利用甲骨文记录信息,西周和春秋时期则利用竹简作为信息记录的载体,再到东汉造纸术的成功出现都持续地体现了数据存储对人类生活的重要性。从公元1900年到现在,人们相对较快地经历了机器打孔、电子存储计算器、在线数据库、关系型数据库、多类型数据处理5个阶段后,正式进入了大数据处理阶段。张明不禁有些疑惑,该怎样向学弟学妹们解释数据存储的概念呢?数据存储的方式又有哪些?它们有什么异同呢?知识准备

数据存储是指数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。定义数据存储的概念一数据以某种格式记录在计算机内部或外部存储介质上。常用的存储介质为磁盘和磁带。知识准备数据存储的方式二(一)DAS(DirectAttachedStorage)直接附加存储

DAS这种存储方式与普通的PC存储架构一样,外部存储设备都是直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分。

DAS存储方式主要适用的环境小型网络地理位置分散的网络提高DAS存储性能特殊应用服务器知识准备数据存储的方式二(二)NAS(NetworkAttachedStorage)数据存储方式

NAS(网络附加存储)方式全面改进了以前低效的DAS存储方式。NAS是通过网线连接的磁盘阵列,具备磁盘阵列的所有主要特征:高容量、高效能、高可靠。NAS是部件级的存储方法。NAS的缺点真正的即插即用存储部署简单存储设备位置非常灵活管理容易且成本低NAS的优点存储性能较低可靠度不高知识准备数据存储的方式二(三)SAN(StorageAreaNetwork)存储方式

SAN存储方式创造了存储的网络化。存储网络化顺应了计算机服务器体系结构网络化的趋势。SAN的支撑技术是光纤通道(FCFiberChannel)技术。它是ANSI为网络和通道/O接口建立的一个标准集成。SAN的硬件基础设施是光纤通道,用光纤通道构建的SAN由以下三个部分组成:包括备份软件、存储资源管理软件和存储设备管理软件

包括磁带、磁盘和光盘库等

包括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI间的桥接器1.存储和备份设备2.光纤通道网络连接部件3.应用和管理软件知识准备数据存储的方式二(三)SAN(StorageAreaNetwork)存储方式

SAN的优势网络部署容易高速存储性能因为SAN采用了光纤通道技术,所以它具有更高的存储带宽,存储性能明显提高。SAN的光纤通道使用全双工串行通信原理传输数据,传输速率高达1062.5Mb/s。良好的扩展能力由于SAN采用了网络结构,扩展能力更强。光纤接口提供了10公里的连接距离,这使得实现物理上分离,不在本地机房的存储变得非常容易。知识准备数据存储方式的比较三

DAS、NAS和SAN三种存储方式比较存储应用最大的特点是没有标准的体系结构,这三种存储方式共存,互相补充,已经很好满足企业信息化应用。从连接方式上看:DASNASSAN采用了存储设备直接连接应用服务器,具有一定的灵活性和限制性通过网络(TCPIP,ATMFDD)技术连接存储设备和应用服务器,存储设备位置灵活,随着万兆网的出现,传输速率有了很大的提高通过光纤通道(FibreChannel)技术连接存储设备和应用服务器,具有很好的传输速率和扩展性能课堂研讨数据存储方式的变化给人们的生活带来了哪些变化?拓展训练01简述你所了解的生活中数据存储的情形。传统的数据存储和管理技术任务二任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR张明发现,由于云计算、物联网、社交网络的发展使人类社会的数据产生方式发生了变化,社会数据的规模正在以前所未有的速度增长,数据的种类不胜枚举。这种海量、异构的数据不仅改变人们的生活,也带来了数据存储技术的变革与发展。那么在传统的数据存储中用到了哪些管理技术呢?任务描述知识准备文件系统是操作系统用于明确存储设备(常见的是磁盘,也有基于NANDFlash的固态硬盘)或分区上的文件的方法和数据结构;即在存储设备上组织文件的方法。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统。定义一文件系统文件系统由三部分组成:文件系统的接口对对象操纵和管理的软件集合对象及属性知识准备二关系数据库

目前市场上常见的关系数据库产品包括Oracle、SQLServer、MySQL、DB2等。一个关系数据库可以看成是许多关系表的集合,每个关系表可以看成一张二维表格,如表4-1学生信息表所示。知识准备二关系数据库

关系数据库的特点序号项目内容1存储方式采用表格的储存方式,数据以行和列的方式进行存储,要读取和查询都十分方便2存储结构按照结构化的方法存储数据,每个数据表的结构都必须事先定义好,然后再根据表的结构存入数据,但数据模型不够灵活,存入后修改困难3存储规范把数据按照最小关系表的形式进行存储。当存在多个表时,表和表之间通过主外键关系发生关联,并通过连接查询获得相关结果。4扩展方式一般的关系型数据库只具备有限的纵向扩展能力5查询方式采用结构化查询语言(即SQL:StructuredQueryLanguage)来对数据库进行查询6事务性可以支持事务的ACID特性(原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability))7连接方式不同的关系数据库产品都遵守一个统一的数据库连接接口标准,即ODBC(OpenDatabaseConnectivity)知识准备三数据仓库

数据仓库(DataWarehouse)是一个数据集合,用于支持管理决策。特点数据仓库中的数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统相关。面向主题在构建数据仓库时,会每隔一定的时间(比如每周、每天或每小时)从数据源抽取数据并加载到数据仓库。反映历史变化数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询。相对稳定数据仓库的数据来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成、统一与综合之后才能进入数据仓库。集成知识准备三数据仓库

如图4-1所示,一个典型的数据仓库系统通常包含数据源、数据存储和管理、OLAP服务器、前端工具和应用等四个部分。图4-1数据仓库体系架构知识准备四并行数据库定义:在无共享的体系结构中进行数据操作的数据库系统。关系表的水平划分和SQL查询的分区执行两个关键技术高性能和高可用性目标没有较好的弹性系统的容错性较差主要缺点并行数据库课堂研讨传统的数据存储与管理技术有哪些特点?拓展训练01请在网上查找有关传统的数据存储与管理技术的应用实例。大数据时代的数据存储和管理技术任务三任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR存储本身就是大数据中一个很重要的组成部分,随着大数据技术的到来,对于结构化、半结构化、非结构化的数据存储也呈现出新的要求,特别对统一存储也有了新的变化。大数据集容易消耗巨大的时间和成本,从而造成非结构化数据的雪崩。也即是说如果没有合适的大数据存储方式,就不能轻松访问或部署大量数据。于是张明想知道大数据时代的数据存储与管理技术优势是怎样的呢?任务描述知识准备

分布式文件系统(DistributedFileSystem)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。定义分布式文件系统一作用:可以有效解决数据的存储和管理难题:将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的节点组成一个文件系统网络。知识准备分布式文件系统一分布式文件系统的发展的三个阶段第一阶段是网络文件系统第二阶段是共享SAN文件系统第三阶段是面向对象的并行文件系统知识准备分布式文件系统一图4-2分布式文件系统的整体结构知识准备NewSQL和NoSQL数据库二(一)NewSQL数据库

NewSQL是对各种新的可扩展、高性能数据库的简称,这类数据库不仅具有对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。定义目前具有代表性的NewSQL数据库主要包括Spanner、Clustrix、GenieDB、ScalArc、Schooner、VoltDB、RethinkDB、ScaleDB、Akiban、CodeFutures、ScaleBase、Translattice、NimbusDB、Drizzle、Tokutek、JustOneDB等。知识准备NewSQL和NoSQL数据库二(二)NoSQL数据库

NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。定义NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束,因此,与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储。知识准备NewSQL和NoSQL数据库二(三)大数据引发数据库架构变革美国著名数据库科学家迈克尔·斯通布雷克(Michael·Stonebraker)指出,行业技术的发展趋势是由一种架构支持所有应用转变为用多种架构支持多类应用。在大数据和云计算的背景下,这一理论导致了数据库市场的大裂变:数据库市场分化为三大阵营,包括OldSQL(传统数据库)、NewSQL(新型数据库)和NoSQL(非关系型数据库)。迈克尔·斯通布雷克知识准备NewSQL和NoSQL数据库二(三)大数据引发数据库架构变革图4-3大数据引发数据库架构变革知识准备云数据库三研究机构IDC预言,大数据将按照每年60%的速度增加,其中包含结构化和非结构化数据。如何方便、快捷、低成本地存储这些海量数据,是许多企业和机构面临的一个严峻挑战。云数据库就是一个非常好的解决方案。通过云

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论