数据存储类型分析_第1页
数据存储类型分析_第2页
数据存储类型分析_第3页
数据存储类型分析_第4页
数据存储类型分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据存储类型分析胡经国本文作者的话云计算具有很强的知识性和专业性。对于业外读者来说,云计算可谓“博 大精深”。业外公众要学习云计算,有必要循序渐进地学习有关云计算的一系 列基础知识。本文作为漫话云计算系列文稿和笔者学习云计算的笔录之一, 供云计算业外读者进一步学习和研究参考。希望能够得到大家的指教和喜欢!下面是正文一、针对数据存储形式的数据类型分析结构化数据、非结构化数据和半结构化数据,是针对数据存储形式的一种 数据类型分析。1、结构化数据结构化数据,是指行数据,存储在数据库里,可以用二维表结构来逻辑表 达实现的数据。结构化数据,是指以固定字段驻留在一个记录或文件内的数据。它事先被 人为组织过

2、,也依赖于一种确保数据如何存储、处理和访问的模型。结构化查 询语言(SQL)通常用于管理在数据库中的结构化数据表。结构化数据,简单来说就是数据库里的数据;具体到典型场景中更容易理 解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审 批;其他核心数据库等。这些应用需要哪些存储需求呢?基本包括:高速存储 应用需求、数据备份需求、数据共享需求以及数据容灾需求。链接:ERPERP (Enterprise Resource Planning,企业资源计划),由美国 Gartner Group 公司于1990年提出。企业资源计划是MRP II(企业制造资源计划)下一代的制 造业系统和资

3、源计划软件。除了 MRP II已有的生产资源计划、制造、财务、 销售、采购等功能外,还有质量管理,实验室管理,业务流程管理,产品数据 管理,存货、分销与运输管理,人力资源管理和定期报告系统。目前,在中国 ERP所代表的含义已经被扩大,用于企业的各类软件,已经统统被纳入ERP的范畴。它跳出了传统企业边界,从供应链范围去优化企业的资源,是基于网 络经济时代的新一代信息系统。它主要用于改善企业业务流程以提高企业核心 竞争力。链接:HIS医院信息系统(HIS)是管理和利用医院信息的计算机网络系统,是一个大 型的数据库应用系统。链接:教育一卡通教育一卡通:、教育一卡通主要分为三部分:基础教育、成人教育和

4、职 业教育。、基础教育部分又包含了幼教平台、学生平台(中、小学生以及高中 生)、教师平台。、职业教育主要针对各行各业从业人员所需的再教育课程, 课程与国家职业教育要求相对应,学完可根据国家规定时间参加考试,获相关 专业的证书。、成人教育主要面对企业在职员工、负责人、公务员及其它需 要学习的人群;提供网上在线答疑,可根据众多学者需求提供相应课程。一卡通:、就是在同一张卡上实现多种不同功能的智能管理。本质上是 一套由卡片、器具和上位管理软件所构成的特殊信息管理系统。其核心内容是 利用卡片这种特定的物理媒介,实现从业务数据的生成、采集、传输到汇总分 析的信息资源管理的规范化和自动化。、一卡通系统最根

5、本的需求是信息共 享、集中控制。、由于信息共享、集中控制的基本思想,一卡通被广泛应用 于各行各业,比如社区一卡通、校园一卡通、企业一卡通等。链接:数据容灾数据容灾系统,就是为计算机信息系统提供的一个能应付各种灾难的环 境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以 及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作 错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾);甚至一个 更加完善的容灾系统,还能提供不间断的应用服务(应用容灾)。可以说,容灾 系统是数据存储备份的最高层次。一般来说,为了保护数据安全和提高数据的持续可用性,企业要从 RA

6、ID 保护、冗余结构、数据备份、故障预警等多方面考虑。一套完整的容灾系统应 该包括本地容灾和异地容灾。对于那些关键业务不能中断的用户和行业,如电 信、海关、金融行业来说更应如此。链接:RAIDRAID(Redundant Array of Inexpensive Disks,廉价冗余磁盘阵列),顾名思 义,它由几个廉价、有冗余能力的磁盘组成的磁盘组,通过一个控制器协调运 动机制使单个数据流依次写入这几个磁盘中。磁盘阵列是一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效 果提升整个磁盘系统效能。利用这项技术,将数据切割成许多区段,分别存放 在各个硬盘上。磁盘阵列还能利用同位检查(Parit

7、y Check)的观念,在数组中任意一个硬 盘出现故障时,仍可读出数据;在数据重构时,将数据经计算后重新置入新硬 盘中。链接:冗余冗余,是指重复配置系统的一些部件;当系统发生故障时,冗余配置的部 件介入并承担故障部件的工作,由此减少系统的故障时间。2、非结构化数据、非结构化数据的概念相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据,称为 非结构化数据。它包括所有格式的办公文档、文本、图片、图像、音频、视频非结构化数据是结构化数据的反面,是指没有一个预先定义的数据模型或 不是以一种预先已经定义好的方式进行组织的数据。它不必以某种方式组织, 直接按照学科方式分组分类,主要是文本,但也可以

8、是图像、音频和视频。非结构化数据,包括视频、音频、图片、图像、文档、文本等形式的数 据。具体到典型案例中,比如医疗影像系统、教育视频点播、视频监控、国土 GIS (地理信息系统)、媒体资源管理等具体应用。这些行业对于存储需求包 括:数据存储、数据备份以及数据共享等。、非结构化数据:新价值和新挑战IT调研公司IDC研究表明,数字领域当前存在着1.8万亿GB的数据。其中, 除了传统数据库的结构化数据以外,还有像文件、文献、表单、影像等无以计 量的非结构化数据。比较记录了生产、业务、交易和客户信息等的结构化数据,非结构化数据 涵盖了更为广泛的内容。它包括:如合约、发票、书信与采购记录等营运内 容;如

9、文书处理、电子表格、简报档案与电子邮件等部门内容;如 HTML与 XML等格式信息的Web内容;以及如声音、影片、图形等媒体内容。目前,非结构化数据的内容占据了当前数据海洋的80%,并将在2020年之 前以44倍的速度迅猛增长。同时,因为非结构化数据的信息量和信息的重要程 度很难被界定,分析成为了难点。如果说结构化数据用详实的方式记录了企业 的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的 信息蕴含着诸多企业效益提高的机会。因此,只有解决非结构化数据的分析困 难,才能有效挖掘这些数据背后的价值,克服逐渐攀升的数据量和复杂性对企 业生产发展的重大阻碍,驱动企业价值提升。3、半

10、结构化数据半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据 库中的数据)和完全非结构化数据(如声音、图像文件等)之间的数据。例如, HTML文档就属于半结构化数据。半结构化数据是结构化的数据,但是其结构变化很大。因为,我们要了解 数据的细节,所以不能将数据简单地组织成一个文件按照非结构化数据处理。 由于其结构变化很大,因而也不能够简单地建立一个二维表和它对应。半结构化数据,包括邮件、HTML文档、报表、资源库等等。其典型场景 如:邮件系统、Web集群、教学资源库、数据挖掘系统、档案系统等等。这些 应用的存储需求包括:数据存储、数据备份、数据共享以及数据归档等基本存 储需求。链

11、接:Web集群Web集群是由多个同时运行同一个Web (全称World Wide Web,全球广域 网,也称为万维网)应用的服务器组成的集群,在外界看来就像一个服务器一 样,这些多个服务器共同来为客户提供更高性能的服务。“集群”更标准的定 义是:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模 式加以管理,此单一系统为客户工作站提供高可靠性的服务。二、基于网络应用的非结构化数据库1、非结构化数据库概述随着网络技术的发展,特别是Internet (互联网)和Intranet (企业内部网) 技术的飞速发展,使得非结构化数据的数量日趋增大。主要用于管理结构化数 据的关系型数据库的局限

12、性暴露得越来越明显。数据库技术相应地进入了 “后 关系型数据库时代”,发展进入了基于网络应用的非结构化数据库时代。基于网络应用的非结构化数据库,亦即基于Internet、Intranet的数据库,称 为非结构化Web数据库,通常简称为非结构化数据库。非结构化数据库,是指其字段长度可变,其变长纪录由若干不可重复和可 重复的字段组成,而每个字段又可以由可重复或不可重复的子字段构成的基于 Internet、Intranet的数据库。用它不仅可以处理结构化数据(如数字、符号等信 息),而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等 信息)并在互联网上发布。简单地说,非结构化数据库就是

13、字段长度可变的数据 库。非结构化数据库,主要是针对非结构化数据而产生的。与以往流行的关系 型数据库相比,其最大的区别在于:它突破了关系型数据库结构定义不易改变 和数据定长的限制,支持重复字段、子字段以及变长字段,并实现了对变长字 段和重复字段进行处理和数据项的变长存储管理。在处理连续信息(包括全文信 息)和非结构化信息(包括各种多媒体信息)中,具有传统关系型数据库所无法 比拟的优势。2、非结构化数据库IBase在中国,非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数 据库为代表。IBase数据库,是一种面向最终用户的非结构化数据库。它在处理 非结构化信息、全文信息、多媒体信

14、息和海量信息等领域以及Internet/Intranet 应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得了突 破。IBase数据库主要有以下几个优点:、在Internet应用中,存在大量的复杂数据类型。iBase通过其外部文件 数据类型,可以管理各种文档信息、多媒体信息;并且对于各种具有检索意义 的文档信息资源,如HTML、DOC、RTF、TXT等,还提供了强大的全文检索 能力。、它采用子字段、多值字段以及变长字段的机制,允许创建许多不同类 型的非结构化的或任意格式的字段,从而突破了关系型数据库非常严格的二维 表结构,使得非结构化数据得以存储和管理。、iBase将非结构化和结构

15、化数据都定义为资源。这使得非结构化数据库 的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化 的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实 现了数据库系统数据管理到内容管理的转化。、iBase采用了面向对象的基石,将企业业务数据和商业逻辑紧密结合在 一起,特别适合于表达复杂的数据对象和多媒体对象。、iBase是适应Internet发展的需要而产生的数据库。它基于Web是一个 全球广域网的海量数据库的思想,提供一个网上资源管理系统iBase Web,将网 络服务器(Web Server)和数据库服务器(Database Server)直接集成为一个整 体

16、。这就使数据库系统和数据库技术成为Web的一个重要有机组成部分,突破 了数据库仅充当Web体系后台角色的局限,实现数据库和Web的有机无缝组 合。从而,为在Internet/Intranet上进行信息管理乃至开展电子商务应用,开辟 了更为广阔的领域。、iBase全面兼容各种大中小型的数据库,对传统关系型数据库,如 Oracle、Sybase、SQLServer DB2、Informix等提供导入和链接的支持能力。通过从上述分析可以预言,随着网络技术和网络应用技术的飞速发展,完 全基于Internet应用的非结构化数据库,将成为继层次数据库、网状数据库和关 系型数据库之后的又一重点、热点技术。链

17、接:记录(Record)与字段(field)在数据库中,表的每一“行”叫做一个“记录”,每一个记录包含这一行 中的所有信息,就像在通讯录数据库中某个人的全部信息。但是,记录在数据 库中并没有专门的记录名,常常用它所在的行数表示这是第几个记录。在数据 库中,存放在表行列交叉处的数据叫做“值”;它是数据库中最基本的存储单 元;它的位置要由这个表中的记录和字段来定义。在数据库中,大多数时候,表的每一“列”叫做一个“字段”。每个字段 包含某一专题的信息。就像在“通讯录”数据库中,“姓名”、“联系电话”这 些都是表中所有行共有的属性,所以把这些列相应地称为姓名字段和联系电话 字段。但是有时候,字段也不一

18、定是表中的列。三、半结构化数据存储常用方式先举一个半结构化数据的例子:存储员工的简历。它不像员工基本信息那 样一致,每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育 情况;而有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情 况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料 的信息。通常我们要完整的保存这些信息并不是很容易的。因为,我们不会希 望系统中的表的结构在系统的运行期间进行变更。下面介绍半结构化数据存储的两种常用方式。、化解为结构化数据这种方法通常是对现有的简历中的信息进行粗略的统计整理,总结出简历 中信息所有的类别,同时考虑系统真正关心的信息。对每一类别建立一个子 表,比如上例中我们可以建立教育情况子表、工作情况子表、党籍情况子表等 等;并在主表中加入一个备注字段,将其它系统不关心的信息和已开始没有考 虑到的信息保存在备注中。优点:查询统计比较方便。缺点:不能适应数据的扩展,不能对扩展的信息进行检索,对项目设计阶 段没有考虑到的同时又是系统关心的信息的存储不能很好地处理。、用XML格式来组织并保存到CLOB字段中XML( extensible Markup Lang

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论