




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代索引与数据库
事业的发展与创新大纲结语大数据时代索引与数据库事业面临的挑战及创新索引与数据库的发展现状大数据时代引言“大数据”(BigData)已经在全球引起了广泛关注,正在引领了又一轮数据技术的革命。美国EMC公司于2011年5月在美国拉斯维加斯举办第11届EMCWorld大会,大会的核心是帮助企业利用IT变革的重要趋势。此次大会以“云计算相遇大数据(CloudMeetsBigData)”为主题,着重展现当今两个最重要的技术趋势,正式提出了“大数据”概念。1引言根据IDC《数字世界》研究项目在2012年的统计,2010年全球数字资源的规模首次突破了ZB(1ZB=1万亿GB)级别,达到了1.227ZB;而2005年只有130Eb,五年增长了10倍。如果保持这种爆炸式的增长速度,到了2020年,我们的数字资源规模将超过40ZB,相当于世界上每个人拥有超过5200GB的数据。无疑,我们已进入了大数据时代。1引言单位:ZB在2011年12月,我国工信部发布了物联网“十二五”规划,提出了4项关键技术创新工程。信息处理技术的内容包括海量数据存储、数据挖掘、图像视频智能分析等,都是大数据技术的重要组成部分;另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,这些也都与“大数据”密切相关。我国也对大数据技术给予了足够的重视。1引言基于以上概述,我们认为,大数据时代已经到来,已经对我们的社会产生了重大影响。本文将尝试对大数据时代我国的索引和数据库事业的发展与创新进行研究和展望。1引言2.1大数据的定义和特征许多权威机构和企业对大数据给予了不同的定义。麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。”2大数据时代IBM公司认为,可以用3个特征相结合来定义大数据:数量(Volume)、种类(Variety)和速度(Velocity),即庞大容量、极快速度和种类丰富的数据。IDC公司认为,“大数据不是一个事物,而是一个跨多个信息技术领域的现象。大数据技术描述了新一代的技术和架构,通过使用高速(Velocity)的采集、发现或分析方法,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”2大数据时代综合以上几种不同的见解,我们认为,具备以下特征的就是大数据。(1)数量大(Volume)。大数据所包含的数据量很大,而且在急剧增长之中。但是,在可供使用的数据数量不断增长的同时,可处理、理解和分析的数据比例却在不断下降。2大数据时代(2)种类多(Variety)。随着技术的发展,数据源不断增多,数据的类型也不断增加。不仅包含传统的关系型数据,还包含来自网页、互联网、搜索引擎、论坛、电子邮件、传感器数据等原始的、半结构化和非结构化数据。(3)速度快(Velocity)。除了收集数据的数量和种类发生变化,需要处理和生成数据的速度也在变化。数据流动的速度在加快,要有效的处理大数据,需要在数据变化的过程中实时的对其进行分析,而不是滞后的进行处理。2大数据时代(4)价值量((Value)。在信息息时代,,信息具具有很重重要的商商业价值值。但是是,信息息具有生生命周期期,数据据的价值值会随时时间快速速减少。。另外,,大数据据的数量量庞大,,种类繁繁多,变变化也快快,数据据的价值值密度很很低。如如何从大大量多样样的数据据中尽快快的分析析出有价价值的信信息非常常重要。。对海量量的数据据进行挖挖掘和分分析,这这也是大大数据技技术的难难点。2大数据时时代(5)真实性((Veracity)。这是一一个衍生生特征。。真实有有效的数数据才具具有意义义。随着着新数据据源的增增加,信信息量的的爆炸式式增长,,我们很很难对数数据的真真实性和和安全性性进行控控制,因因此需要要对大数数据进行行有效的的信息治治理。大数据在在结构类类型上也也有其特特点:大多数的的大数据据都是半半结构化化或非结结构化的的。2大数据时时代半结构化化的数据据是指具有有一定的的结构性性并可被被解析或或者通过过使用工工具可以以使之格格式化的的数据,,如包含含不一致致的数据据和格式式的员工工薪酬数数据。非结构化的数数据是指没有固定定结构,通常常无法直接知知道其内容,,保存为不同同类型文件的的数据,如各各种图像、视视频文件。根据目前大数数据的发展状状况,未来数据增长长的绝大部分分将是半结构构化或非结构构化的数据。2大数据时代2.2大数据时代已已经到来(1)大数据时代代已经到来理论的提出:2008年,《Nature》杂志出版一期期专刊,专门门讨论未来的的大数据(BigData)处理相关的的一系列技术术问题和挑战战。现实的节点:2007年是人类创造造的信息量有有史以来第一一次在理论上上超过可用存存储空间总量量的一年。2大数据时代(2)大数据时代代到来的原因首先,信息技术和计计算机网络技技术的发展,,为大数据时时代的到来奠奠定了坚实的的技术基础。各种技术的发发展,使得数数据的来源、、类型、数量量变得越来越越多,由此产产生出了的数数目庞大且不不断急剧增长长的非结构化化数据、半结结构化数据,,整个社会发发展进入到了了大数据时代代。2大数据时代其次,大量智能终端端的广泛应用用与网络应用用的不断增长长,为大数据据时代的到来来奠定了坚实实的物质基础础。通过互联网和和社交网络、、数码相机等等工具,每个个人的日常生生活正在被数数字化,人们们可以随时方方便的根据自自己的需要,,产生大量的的非结构化数数据、半结构构化数据。特特别是智能手手机和笔记本本电脑的普及及,是当前数数据量爆炸增增长的一个重重要原因。2大数据时代最后,信息社会的快快速建立,信信息成为越来来越重要的经经济资源,也也是大数据时时代到来的重重要原因。在信息时代,,数据已经成成为社会资源源的重要组成成部分,基于于数据的处理理、分析、挖挖掘等服务都都被信息服务务机构广泛应应用和开展,,信息的经济济价值越来越越大,人们对对数据的重视视程度越来越越高,由此也也产生了大量量的数据。2大数据时代(3)大数据时代的的到来,必定定会对索引和和数据库事业业也产生重大大影响。本文将论述大大数据为索引引和数据库带带来的机遇和和挑战,探讨讨大数据时代代索引和数据据库事业的发发展与创新,,以引起业界界学者对相关关问题的关注注与探讨。2大数据时代3.1索引事业的发发展现状按照钱亚新教教授的说法,,“将一种书书报或一套书书报中讨论所所及的人名、、物名、事名名、地名、时时名或篇名等等分析而组合合,用一定的的方法排列它它们的次序,,并表明它们们在书报中所所在的地位的的表,叫作索索引。换言之之,索引是一一种检查指定定范围内的书书报所有特项项知识的工具具。”3索引与数据库库的发展现状状一般来说,索索引的编制有有手工和计算算机编制两种种方式,随着科科技和时代的的发展,目前前基本都使用用计算机编制制索引的方式式。九十年代以来来,随着当代代数字化、网网络化、智能能化技术的发发展,索引研研究对象也随随之从传统的的印刷型扩大大到了数字型型,出现了索索引数据库、、文摘数据库库、全文数据据库,以及网网页索引、网网址索引、搜搜索引擎、学3索引与数据库库的发展现状状目前使用最多多的索引产品品是数据库索索引,南京政治学学院上海分院院信息管理系系的张琪玉教教授直接提出出了现代的索索引就是数据据库的判断。。目前国内外外的索引事事业随着计计算机和网网络技术的的发展也取取得了很大大的进展。。3索引与数据据库的发展展现状在国际,SCI等三大索引引在科技界界形成了重重大影响,,其他领域域的索引应应用也取得得了广泛的的成果。在国内,各各种类型的的中文全文文文献数据据库纷纷上上网,为科科研工作者者提供了很很好的帮助助,传统索索引事业也也稳步发展展。网络信信息检索工工具是国内内外索引研研究和应用用的热点,,影响越来来越大。3索引与数据据库的发展展现状根据本中心心的研究,,目前国内外外在索引领领域的研究究表现出明明显的差异异性,但发发展趋势基基本一致。具体表现在在以下四个个方面:第一,国内内外对电子子索引技术术的研究日日益成熟,,在国内正正处于研究究网络的中中心,而在在国外已逐逐渐处于网网络边缘。。这与国内内信息技术术研究比国国外起步稍稍晚的原因因是分不开开的。3索引与数据据库的发展展现状第二,传统统的索引理理论的研究究仍然占据据重要地位位。国内外外学者对传传统索引理理论的研究究仍然非常常重视。相相对而言,,国外学者者的理论研研究更具全全面性和系系统性。第三,索引引的应用研研究将成为为索引研究究中的重要要内容,国国外的应用用研究相对对国内更为为广泛。国国外对索引引的实践与与应用的研研究已经深深入到了引引文分析、、文献计量量学、科学学计量学、、评价、绩绩效评估、、医学等多多个具体领领域。3索引与数据据库的发展展现状第四,与其其他学科相相结合开展展研究可能能成为未来来索引研究究的发展趋趋势之一。。在索引研研究的过程程中注重与与其他学科科的结合,,一方面可可以引入新新的理论与与方法,如如社会学、、本体、知知识地图、、元数据等等,为索引引理论和方方法的研究究带来新的的视角;另另一方面,,索引的方方法与研究究成果也可可以应用于于其他学科科,为促进进其他学科科研究的发发展做出贡贡献。3索引与数据据库的发展展现状此外,自从从改革开放放到现在,,我国的索索引从业人人员数量一一直在稳步步增加,这这一方面与与国家重视视图书馆的的建设有关关,另一方方面也是索索引事业发发展的需要要。但是我们与与国外相比比,索引事事业的从业业人员仍然然数量偏少少,素质有有待提高。。特别是在在索引教育育方面,我我们取得的的成绩还不不够,比如如我们至今今没有一本本公认的比比较权威的的索引学教教材。3索引引与与数数据据库库的的发发展展现现状状3.2数据据库库事事业业的的发发展展现现状状数据据库库((Database)是是按按照照数数据据结结构构来来组组织织、、存存储储和和管管理理数数据据的的仓仓库库。。相对对于于索索引引事事业业,,数数据据库库事事业业的的发发展展更更为为迅迅猛猛。目目前前,,全全世世界界大大约约有有书书目目型型数数据据库库、、参参考考型型数数据据库库、、参参考考文文献献数数据据库库、、全全文文型型数数据据库库等等几几十十种种不不同同类类型型的的数数据据库库。。各各种种数数据据库库的的具具体体数数量量更更是是难难以以估估计计。。3索引引与与数数据据库库的的发发展展现现状状1980年以以前前,,数数据据库库技技术术的的发发展展,,主主要要体体现现在在数据据库库的的模模型型设设计计上。。进入90年代后,计计算机领域域中其它新兴技技术的发展展对数据库库技术产生生了重大影影响。数据库技技术与网络络通信技术术、人工智智能技术、、多媒体技技术等相互互渗透,相相互结合,,使数据库库技术的新新内容层出出不穷。3索引与数据据库的发展展现状至今,数据据库的许多多概念、应应用领域,,甚至某些些原理都有有了重大的的发展和变变化,形成成了数据库库领域众多多的研究分分支和课题题,产生了一系系列新型数数据库。如:分布布式数据库库、联合数数据库、大大规模并行行处理数据据库等。国外数据库库的发展大大致经历了了四个阶段段:3索引与数据据库的发展展现状1970年以前为初初步发展阶阶段;1970-1980年数据库数数量迅速增增加,开始始进入联机机检索阶段段;1980年至2010年数据库数数量剧增,,类型也发发生了巨大大变化,而而且开始全全球化,是是数据库的的深入发展展阶段;2010年至今,数数据的类型型和数量均均发生了重重大变化,,数据库也也必须随之之发生改变变,于是进进入了变革革发展阶段段。3索引与数据据库的发展展现状我国数据库库的研究和和应用相对国外来来说,起步步较晚,也也可以大致致参照国外外的发展状状况划分为为四个时期期:介绍学习时时期(70-80年代)、初初步发展时时期(80-90年代)、稳稳定发展时时期(1990-2010年)、变革革发展时期期(2010年至今)。。总的来说,,国内外的的数据库技技术发展非非常迅猛。。3索引与数据据库的发展展现状分析我国数数据库建设设现状,目目前仍处于较低低的发展阶阶段。虽然已经建建立了种类类众多的数数据库,全全国各高校校的计算机机和信息管管理专业都都开设了数数据库课程程,数据库库、商业数数据库的建建设和使用用越来越广广泛。3索引与数据据库的发展展现状但是,我国国的数据库库建设仍然然普遍存在在以下一些些制约因素素:政府缺乏统统一的整体体规划;各地的信息息机构对数数据库的建建设不够重重视;数据库的技技术发展仍仍滞后于国国外;商业数据库库的建设和和应用不够够广泛;数据库技术术人员的素素质还有待待提高等。。3索引与数据据库的发展展现状而在国外,,从六十年年代末期开开始,数据据库系统的的研究和开开发已经走走过了四十十多年的历历程,取得得了辉煌的的成就,形成了庞大大的产业。数据库技术术和系统已已经成为世世界各国信信息基础设设施的核心心技术和重重要基础。。3索引与数据据库的发展展现状进入大数据据时代,当当我国还在在研究大数数据的概念念时,英国国的维克托托•迈尔•舍恩恩伯伯格格早早在在2010年就就在在《经济济学学人人》上发发布布了了长长达达14页对对大大数数据据应应用用的的前前瞻瞻性性研研究究,,已已写写出出了了《大数数据据时时代代》这本本对对大大数数据据系系统统研研究究的的先先河河之之作作,,并并被被誉誉为为““大大数数据据商商业业应应用用第第一一人人””。。3索引引与与数数据据库库的的发发展展现现状状4.1面临临的的挑挑战战大数数据据对对于于索索引引和和数数据据库库事事业业而而言言,,既既是是巨巨大大的的机机遇遇,,又又是是巨巨大大的的挑挑战战。。面对对海海量量的的种种类类繁繁多多的的半半结结构构化化和和非非结结构构化化数数据据,,从从中中迅迅速速的的进进行行分分析析,,找找出出有有效效的的价价值值,,这这一一方方面面具具有有重重大大的的经经济济意意义义,,另另一一方方面面也也要要求求我我们们必必须须改改进进现现有有的的技技术术,,使使用用新新方方法法来来从从数数据据中中提提取取价价值值。大数数据据时时代代对对索索引引和和数数据据库库事事业业提提出出了了如如下下的的重大大挑挑战战:4大数数据据时时代代索索引引与与数数据据库库事业业面面临临的的挑挑战战及及创创新新(1)理念念更更新新。大大数数据据带带来来的的是是一一种种全全新新的的模模式式,,索索引引和和数数据据库库的的观观念念也也要要随随之之跟跟随随变变化化,,以以适适应应时时代代的的需需要要。。同同时时要要更更加加注注重重商商业业思思维维,,充充分分利利用用大大数数据据,,获获取取经经济济利利益益。。(2)及时有效。大数据时代代的数据产生生迅速,数据据的价值生命命周期却很短短暂,如何能能够及时有效效的从数据中中发现商机并并付诸行动才才能获取价值值。4大数据时代索索引与数据库库事业面临的挑挑战及创新(3)集成分析。如果将分析析集成到与数数据所面临的的环境中,将将加快信息分分析的速度,,使分析结果果能够更快的的实现可操作作化。(4)可扩展。面对大数据据必须采取新新方法来处理理数据,要实实现从规模较较小的数据集集到大规模数数据集的分析析,因为我们们不能控制所所面临的数据据源产生数据据的规模。4大数据时代索索引与数据库库事业面临的挑挑战及创新4.2技术的创新目前,大数据据时代的索引引和数据库事事业已经创造出了了很多重要的的基础性的新新技术,如下:4大数据时代索索引与数据库库事业面临的挑挑战及创新云计算虚拟化数据存储智能索引数据分析(1)云计算(cloudcomputing)云计算是在分分布式处理、、并行处理和和网格计算等等技术的基础础上发展起来来的,是一种种新兴的共享享基础架构的的方法。它可可以自我维护护和管理庞大大的虚拟计算算资源(包括括计算服务器器、存储服务务器、宽带资资源等等),,为我们提供供了跨地域、、高可靠、按按需付费、快快速部署的能能力。甚至可可以说,云数数据库是数据据库技术的未未来发展方向向。4大数据时代索索引与数据库库事业面临的挑挑战及创新云数据库具有有以下特性::动态可扩展展,理论上,,云数据库具具有无限可扩扩展性;高可可用性,不存存在单点失效效问题;较低低使用代价,,可以实现按按需付费;可可以大规模并并行处理。云计算和大数数据之间关联联非常紧密,,大数据为云云计算提供了了应用空间,,云计算为大大数据提供了了处理工具。。4大数据时代索索引与数据库库事业面临的挑挑战及创新(2)虚拟化(virtualization)虚拟化技术是是云计算所有有要素中最重重要的部分,,主要包括计计算虚拟化、、存储虚拟化化和网络虚拟拟化。利用虚拟化技技术可以在一一台主机上运运行多台虚拟拟计算机,允允许很多用户户共享一台高高性能设备的的使用,可以以极大的节约约成本,也为为云计算的实实现奠定了技技术基础。4大数据时代索索引与数据库库事业面临的挑挑战及创新(3)数据存储大数据的特征征,需要新的的数据存储技技术和数据存存储工具来满满足。目前已已经出现了一一些新型的大大数据存储系系统,具有优优秀可扩展能能力的分布式式存储成为大大数据存储的的主流架构方方式。大数据存储还还需解决一些些问题:如何何对数据进行行去重;如何何更好地实现现分层存储;;如何解决数数据的安全性性问题等。4大数据时代索索引与数据库库事业面临的挑挑战及创新(4)数据分析大数据时代的的数据分析需需要满足及时时有效的要求求,既要能处处理高速的数数据,又要能能够实现实时时的分析。目前产生了一一些新型的在在线事务处理理系统,如NoSQL方案和NewSQL方案。4大数据时代索索引与数据库库事业面临的挑挑战及创新NoSQL方案通过消除除SQL的语言查询来来实现性能的的提高和扩展展性的增加。。有以下特征征:不需要预预定的模式;;没有共享架架构;具有弹弹性可扩展性性;可对数据据进行分区处处理;能够异异步复制等。。常用的产品品有HBase、MongoDB等。NewSQL方案是既能保保留SQL查询的方便性性,又能提供供高性能和高高扩展性的新新型数据分析析工具,是一一种新型的关关系数据库管管理系统。常常见的系统有有GoogleSpanner、Clustrix、VoltDB等。4大数据时代索索引与数据库库事业面临的挑挑战及创新对大数据进行行处理,目前前有两大主流流的方向:一一个是MPP数据库(大规规模并行数据据库)为首的的并列关系数数据库方向,,一个是以MapReduce为首的分布式式NoSQL方向。除此之外,流流数据管理也也是大数据处处理分析的一一种解决方案案。4大数据时代索索引与数据库库事业面临的挑挑战及创新为了成功的实实现对大数据据的分析,还还要建立具有有敏捷的计算算平台,线性性扩展能力,,全方位、协协作性用户体体验的大数据据分析平台,,还需要聚类类分析等高级级的分析理论论和方法以及及方便易用的的数据可视化化技术。4大数据时代索索引与数据库库事业面临的挑挑战及创新(5)智能索索引技技术当前硬硬、软软件环环境越越来越越好,,从而而为索索引技技术向向智能能化、、多语语种化化、索索引手手段的的自动动化的的方向向发展展提供供了物物质条条件,,使搜搜索引引擎向向高层层次发发展成成为可可能。。目前前在搜搜索引引擎智智能化化、用用户接接口的的多语语种化化、索索引手手段的的自动动化等等方面面已取取得了了一定定的成成果。。4大数据据时代代索引引与数数据库库事业面面临的的挑战战及创创新4.3事业的的发展展与创创新索引和和数据据库事事业的的发展展和创创新,,既离离不开开技术术的发发展,,又需需要理理念的的转变变,方方式的的创新新和人人才的的培养养。4大数据时代索索引与数据库库事业面临的挑挑战及创新(1)技术的创新新需要进一步满满足对容量大大、种类多、、变化快的数数据进行及时时有效分析的的要求。进一一步拓展对NoSQL方案和NewSQL方案的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 暑假工兼职档案协议书
- 有两个孩子离婚协议书
- 烧烤店安全合同协议书
- 小区充电桩免责协议书
- 老年征婚协议书
- 聘请股份协议书
- 有其他垃圾收运协议书
- 贝壳认购协议书
- 空乘培训协议书
- 经营担保协议书
- (完整)注册安全工程师考试题库(含答案)
- 电子政务概论-形考任务5(在线测试权重20%)-国开-参考资料
- 2024年贵州省贵阳市中考生物地理合卷试题(含答案逐题解析)
- 概率论在实际生活中的应用
- 山西省电子政务外网初步设计方案
- 办公楼室内装饰工程施工设计方案技术标范本
- 执业医师法培训课件
- 新时代新型职业农民素养课件讲解
- 2024年咸阳市城市发展集团有限公司招聘笔试冲刺题(带答案解析)
- 2023年电力安全生产工作规程
- 小学新眼保健操比赛总结
评论
0/150
提交评论