大数据时代索引与数据库事业的发展与创新_第1页
大数据时代索引与数据库事业的发展与创新_第2页
大数据时代索引与数据库事业的发展与创新_第3页
大数据时代索引与数据库事业的发展与创新_第4页
大数据时代索引与数据库事业的发展与创新_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据(shj)时代索引与数据(shj)库事业的开展与创新第一页,共五十七页。大纲(dgng)结语(jiy)大数据时代(shdi)索引与数据库事业面临的挑战及创新索引与数据库的开展现状大数据时代引言第二页,共五十七页。“大数据Big Data已经在全球引起了广泛关注,正在引领了又一轮数据技术的革命。美国EMC公司于2021年5月在美国拉斯维加斯举办第11届EMC World大会,大会的核心是帮助企业利用IT变革的重要趋势。此次大会以“云计算相遇大数据Cloud Meets Big Data为主题,着重展现当今两个最重要的技术趋势,正式提出(t ch)了“大数据概念。1 引言(ynyn)第三页,

2、共五十七页。根据IDC?数字世界?研究工程在2021年的统计,2021年全球数字资源的规模首次突破了ZB1ZB=1万亿GB级别,到达了1.227ZB;而20*年只有130Eb,五年增长了10倍。如果保持这种爆炸式的增长速度,到了2021年,我们(w men)的数字资源规模将超过40ZB,相当于世界上每个人拥有超过5200GB的数据。无疑,我们(w men)已进入了大数据时代。1 引言(ynyn)单位(dnwi):ZB第四页,共五十七页。在 2021年12月,我国工信部发布了物联网 “十二五规划,提出了4项关键技术创新工程。信息处理技术的内容包括海量数据存储、数据挖掘、图像视频智能分析等,都是大

3、数据技术的重要组成局部;另外3项关键技术创新工程,包括信息感知(gnzh)技术、信息传输技术、信息平安技术,这些也都与“大数据密切相关。我国也对大数据技术给予了足够的重视。1 引言(ynyn)第五页,共五十七页。基于以上概述,我们认为,大数据时代已经到来,已经对我们的社会产生了重大影响。本文将尝试对大数据时代我国的索引和数据库事业(shy)的开展与创新进行研究和展望。1 引言(ynyn)第六页,共五十七页。2.1 大数据的定义和特征许多权威机构和企业对大数据给予了不同的定义。麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统(chuntng)数据库软件获取、存储、管理和分析的能力。2 大数据

4、(shj)时代第七页,共五十七页。IBM公司认为,可以用3个特征相结合来定义大数据:数量Volume、种类Variety和速度Velocity,即庞大容量、极快速度和种类丰富的数据。IDC公司认为,“大数据不是一个事物,而是一个跨多个信息技术领域的现象。大数据技术描述了新一代的技术和架构,通过使用高速Velocity的采集、发现(fxin)或分析方法,从超大容量Volume的多样Variety数据中经济地提取价值Value。2 大数据(shj)时代第八页,共五十七页。综合以上几种不同(b tn)的见解,我们认为,具备以下特征的就是大数据。1数量大Volume。大数据所包含的数据量很大,而且在急

5、剧增长之中。但是,在可供使用的数据数量不断增长的同时,可处理、理解和分析的数据比例却在不断下降。2 大数据(shj)时代第九页,共五十七页。2种类多Variety。随着技术的开展,数据源不断增多,数据的类型也不断增加。不仅包含传统的关系型数据,还包含来自网页、互联网、搜索引擎、论坛、电子邮件、传感器数据等原始的、半结构化和非结构化数据。3速度快Velocity。除了收集数据的数量和种类发生变化,需要处理和生成数据的速度也在变化。数据流动的速度在加快,要有效的处理大数据,需要在数据变化的过程中实时的对其进行分析,而不是(b shi)滞后的进行处理。2 大数据(shj)时代第十页,共五十七页。4价

6、值量Value。在信息时代,信息具有很重要的商业价值。但是(dnsh),信息具有生命周期,数据的价值会随时间快速减少。另外,大数据的数量庞大,种类繁多,变化也快,数据的价值密度很低。如何从大量多样的数据中尽快的分析出有价值的信息非常重要。对海量的数据进行挖掘和分析,这也是大数据技术的难点。2 大数据(shj)时代第十一页,共五十七页。5真实性Veracity。这是一个衍生特征。真实有效的数据(shj)才具有意义。随着新数据(shj)源的增加,信息量的爆炸式增长,我们很难对数据(shj)的真实性和平安性进行控制,因此需要对大数据(shj)进行有效的信息治理。大数据在结构类型上也有其特点:大多数的

7、大数据都是半结构化或非结构化的。2 大数据(shj)时代第十二页,共五十七页。半结构化的数据是指具有一定的结构性并可被解析或者通过使用工具可以使之格式化的数据,如包含不一致的数据和格式的员工薪酬数据。非结构化的数据是指没有固定结构,通常无法直接知道其内容,保存为不同类型文件的数据,如各种图像、视频文件。根据目前大数据的开展状况,未来(wili)数据增长的绝大局部将是半结构化或非结构化的数据。2 大数据(shj)时代第十三页,共五十七页。2.2 大数据时代已经(y jing)到来1大数据时代已经到来理论的提出:2021年,?Nature?杂志出版一期专刊,专门讨论未来的大数据Big Data处理

8、相关的一系列技术问题和挑战。现实的节点:20*年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。2 大数据(shj)时代第十四页,共五十七页。2大数据时代到来的原因首先,信息技术和计算机网络技术的开展,为大数据时代的到来奠定了坚实的技术根底。各种技术的开展,使得数据的来源、类型(lixng)、数量变得越来越多,由此产生出了的数目庞大且不断急剧增长的非结构化数据、半结构化数据,整个社会开展进入到了大数据时代。2 大数据(shj)时代第十五页,共五十七页。其次,大量智能终端的广泛应用与网络应用的不断增长,为大数据时代的到来奠定了坚实的物质根底。通过(tnggu)互联网和社交网络

9、、数码相机等工具,每个人的日常生活正在被数字化,人们可以随时方便的根据自己的需要,产生大量的非结构化数据、半结构化数据。特别是智能 和笔记本电脑的普及,是当前数据量爆炸增长的一个重要原因。2 大数据(shj)时代第十六页,共五十七页。最后,信息社会的快速建立,信息成为越来越重要的经济资源,也是大数据时代到来的重要原因。在信息时代,数据已经(y jing)成为社会资源的重要组成局部,基于数据的处理、分析、挖掘等效劳都被信息效劳机构广泛应用和开展,信息的经济价值越来越大,人们对数据的重视程度越来越高,由此也产生了大量的数据。2 大数据(shj)时代第十七页,共五十七页。3大数据时代的到来,必定会对

10、索引和数据库事业也产生(chnshng)重大影响。本文将论述大数据为索引和数据库带来的机遇和挑战,探讨大数据时代索引和数据库事业的开展与创新,以引起业界学者对相关问题的关注与探讨。2 大数据(shj)时代第十八页,共五十七页。3.1 索引事业的开展现状按照钱亚新教授的说法,“将一种书报或一套书报中讨论所及(su j)的人名、物名、事名、地名、时名或篇名等分析而组合,用一定的方法排列它们的次序,并说明它们在书报中所在的地位的表,叫作索引。换言之,索引是一种检查指定范围内的书报所有特项知识的工具。3 索引与数据库的开展(kizhn)现状第十九页,共五十七页。一般来说,索引的编制有手工和计算机编制两

11、种方式,随着(su zhe)科技和时代的开展,目前根本都使用计算机编制索引的方式。九十年代以来,随着当代数字化、网络化、智能化技术的开展,索引研究对象也随之从传统的印刷型扩大到了数字型,出现了索引数据库、文摘数据库、全文数据库,以及网页索引、网址索引、搜索引擎、学科导航等各种新兴工具,检索语言、标引方法和索引技术等领域都有了新的突破。3 索引(suyn)与数据库的开展现状第二十页,共五十七页。目前使用最多的索引产品是数据库索引,南京政治学院上海分院信息管理系的张琪玉教授直接提出了现代的索引就是数据库的判断。目前国内外的索引事业随着(su zhe)计算机和网络技术的开展也取得了很大的进展。3 索

12、引(suyn)与数据库的开展现状第二十一页,共五十七页。在国际,SCI等三大索引在科技界形成了重大影响,其他领域的索引应用也取得了广泛的成果。在国内,各种类型的中文全文文献数据库纷纷上网,为科研工作者提供了很好的帮助(bngzh),传统索引事业也稳步开展。网络信息检索工具是国内外索引研究和应用的热点,影响越来越大。3 索引与数据库的开展(kizhn)现状第二十二页,共五十七页。根据本中心的研究,目前国内外在索引领域的研究表现出明显的差异性,但开展趋势根本一致。具体表现在以下四个方面:第一(dy),国内外对电子索引技术的研究日益成熟,在国内正处于研究网络的中心,而在国外已逐渐处于网络边缘。这与国

13、内信息技术研究比国外起步稍晚的原因是分不开的。3 索引与数据库的开展(kizhn)现状第二十三页,共五十七页。第二,传统的索引理论的研究仍然占据重要地位。国内外学者对传统索引理论的研究仍然非常重视。相对而言,国外学者的理论研究更具全面性和系统性。第三,索引的应用研究将成为索引研究中的重要内容,国外的应用研究相对国内更为广泛。国外对索引的实践(shjin)与应用的研究已经深入到了引文分析、文献计量学、科学计量学、评价、绩效评估、医学等多个具体领域。3 索引(suyn)与数据库的开展现状第二十四页,共五十七页。第四,与其他学科相结合开展研究可能成为未来索引研究的开展趋势之一。在索引研究的过程中注重

14、与其他学科的结合,一方面可以引入新的理论与方法,如社会学、本体、知识地图、元数据等,为索引理论和方法的研究带来新的视角;另一方面,索引的方法与研究成果也可以应用(yngyng)于其他学科,为促进其他学科研究的开展做出奉献。3 索引(suyn)与数据库的开展现状第二十五页,共五十七页。此外,自从改革开放到现在,我国的索引从业人员数量一直在稳步增加,这一方面与国家重视图书馆的建设有关,另一方面也是索引事业开展的需要。但是我们与国外相比,索引事业的从业人员仍然数量偏少,素质有待提高。特别是在索引教育方面,我们取得的成绩还不够,比方我们至今(zhjn)没有一本公认的比较权威的索引学教材。3 索引(su

15、yn)与数据库的开展现状第二十六页,共五十七页。3.2 数据库事业的开展现状数据(shj)库Database是按照数据(shj)结构来组织、存储和管理数据(shj)的仓库。相对于索引事业,数据库事业的开展更为迅猛。目前,全世界大约有书目型数据库、参考型数据库、参考文献数据库、全文型数据库等几十种不同类型的数据库。各种数据库的具体数量更是难以估计。3 索引与数据库的开展(kizhn)现状第二十七页,共五十七页。1980年以前,数据库技术的开展,主要表达在数据库的模型设计上。进入90年代后,计算机领域中其它新兴技术的开展对数据库技术产生了重大影响。数据库技术与网络通信技术、人工智能技术、多媒体技术

16、等相互渗透,相互结合(jih),使数据库技术的新内容层出不穷。3 索引(suyn)与数据库的开展现状第二十八页,共五十七页。至今,数据库的许多概念、应用领域,甚至某些原理都有了重大的开展和变化,形成了数据库领域众多的研究分支和课题(kt),产生了一系列新型数据库。如:分布式数据库、联合数据库、大规模并行处理数据库等。国外数据库的开展大致经历了四个阶段:3 索引(suyn)与数据库的开展现状第二十九页,共五十七页。1970年以前(yqin)为初步开展阶段;1970-1980年数据库数量迅速增加,开始进入联机检索阶段;1980年至2021年数据库数量剧增,类型也发生了巨大变化,而且开始全球化,是数

17、据库的深入开展阶段;2021年至今,数据的类型和数量均发生了重大变化,数据库也必须随之发生改变,于是进入了变革开展阶段。3 索引与数据库的开展(kizhn)现状第三十页,共五十七页。我国数据库的研究和应用相对国外来说,起步较晚,也可以大致参照国外的开展状况划分为四个时期:介绍学习时期70-80年代(nindi)、初步开展时期80-90年代(nindi)、稳定开展时期1990-2021年、变革开展时期2021年至今。总的来说,国内外的数据库技术开展非常迅猛。3 索引(suyn)与数据库的开展现状第三十一页,共五十七页。分析我国数据库建设现状(xinzhung),目前仍处于较低的开展阶段。虽然已经

18、建立了种类众多的数据库,全国各高校的计算机和信息管理专业都开设了数据库课程,数据库、商业数据库的建设和使用越来越广泛。3 索引与数据库的开展(kizhn)现状第三十二页,共五十七页。但是,我国的数据库建设仍然普遍存在以下一些制约因素:政府缺乏统一的整体规划;各地的信息(xnx)机构对数据库的建设不够重视;数据库的技术开展仍滞后于国外;商业数据库的建设和应用不够广泛;数据库技术人员的素质还有待提高等。3 索引(suyn)与数据库的开展现状第三十三页,共五十七页。而在国外,从六十年代末期开始,数据库系统的研究和开发已经走过了四十多年的历程,取得了辉煌的成就,形成了庞大的产业。数据库技术和系统(xt

19、ng)已经成为世界各国信息根底设施的核心技术和重要根底。3 索引(suyn)与数据库的开展现状第三十四页,共五十七页。进入大数据时代,当我国还在研究大数据的概念(ginin)时,英国的维克托迈尔舍恩伯格早在2021年就在?经济学人?上发布了长达14页对大数据应用的前瞻性研究,已写出了?大数据时代?这本对大数据系统研究的先河之作,并被誉为“大数据商业应用第一人。3 索引(suyn)与数据库的开展现状第三十五页,共五十七页。4.1 面临的挑战大数据对于索引和数据库事业而言,既是巨大的机遇(jy),又是巨大的挑战。面对海量的种类繁多的半结构化和非结构化数据,从中迅速的进行分析,找出有效的价值,这一方

20、面具有重大的经济意义,另一方面也要求我们必须改进现有的技术,使用新方法来从数据中提取价值。大数据时代对索引和数据库事业提出了如下的重大挑战:4 大数据时代索引(suyn)与数据库事业面临的挑战及创新第三十六页,共五十七页。1理念更新。大数据带来的是一种全新的模式,索引和数据库的观念也要随之跟随(n su)变化,以适应时代的需要。同时要更加注重商业思维,充分利用大数据,获取经济利益。2及时有效。大数据时代的数据产生迅速,数据的价值生命周期却很短暂,如何能够及时有效的从数据中发现商机并付诸行动才能获取价值。4 大数据时代索引与数据库事业面临(minlng)的挑战及创新第三十七页,共五十七页。3集成

21、分析。如果将分析集成到与数据所面临的环境中,将加快(ji kui)信息分析的速度,使分析结果能够更快的实现可操作化。4可扩展。面对大数据必须采取新方法来处理数据,要实现从规模较小的数据集到大规模数据集的分析,因为我们不能控制所面临的数据源产生数据的规模。4 大数据(shj)时代索引与数据(shj)库事业面临的挑战及创新第三十八页,共五十七页。4.2 技术的创新目前,大数据时代的索引和数据库事业(shy)已经创造出了很多重要的根底性的新技术,如下:4 大数据时代索引与数据库事业(shy)面临的挑战及创新云计算虚拟化数据存储智能索引数据分析第三十九页,共五十七页。1云计算cloud computi

22、ng云计算是在分布式处理、并行处理和网格计算等技术的根底上开展起来的,是一种新兴的共享根底架构的方法。它可以自我维护和管理庞大(pngd)的虚拟计算资源包括计算效劳器、存储效劳器、宽带资源等等,为我们提供了跨地域、高可靠、按需付费、快速部署的能力。甚至可以说,云数据库是数据库技术的未来开展方向。4 大数据时代(shdi)索引与数据库事业面临的挑战及创新第四十页,共五十七页。云数据库具有以下特性:动态可扩展(kuzhn),理论上,云数据库具有无限可扩展(kuzhn)性;高可用性,不存在单点失效问题;较低使用代价,可以实现按需付费;可以大规模并行处理。云计算和大数据之间关联非常紧密,大数据为云计算

23、提供了应用空间,云计算为大数据提供了处理工具。4 大数据时代索引与数据库事业(shy)面临的挑战及创新第四十一页,共五十七页。2虚拟化virtualization虚拟化技术(jsh)是云计算所有要素中最重要的局部,主要包括计算虚拟化、存储虚拟化和网络虚拟化。利用虚拟化技术可以在一台主机上运行多台虚拟计算机,允许很多用户共享一台高性能设备的使用,可以极大的节约本钱,也为云计算的实现奠定了技术根底。4 大数据时代索引(suyn)与数据库事业面临的挑战及创新第四十二页,共五十七页。3数据存储大数据的特征,需要新的数据存储技术和数据存储工具来满足。目前已经(y jing)出现了一些新型的大数据存储系统

24、,具有优秀可扩展能力的分布式存储成为大数据存储的主流架构方式。大数据存储还需解决一些问题:如何对数据进行去重;如何更好地实现分层存储;如何解决数据的平安性问题等。4 大数据时代索引与数据库事业面临的挑战(tio zhn)及创新第四十三页,共五十七页。4数据分析大数据时代的数据分析需要满足及时有效的要求,既要能处理高速的数据,又要能够实现实时的分析。目前产生了一些新型的在线事务处理系统(xtng),如NoSQL方案和NewSQL方案。4 大数据时代索引(suyn)与数据库事业面临的挑战及创新第四十四页,共五十七页。NoSQL方案通过消除SQL的语言查询来实现性能的提高和扩展性的增加。有以下特征:

25、不需要预定(ydng)的模式;没有共享架构;具有弹性可扩展性;可对数据进行分区处理;能够异步复制等。常用的产品有HBase、MongoDB等。NewSQL方案是既能保存SQL查询的方便性,又能提供高性能和高扩展性的新型数据分析工具,是一种新型的关系数据库管理系统。常见的系统有Google Spanner、Clustrix、VoltDB等。4 大数据时代(shdi)索引与数据库事业面临的挑战及创新第四十五页,共五十七页。对大数据进行处理,目前有两大主流的方向:一个是MPP数据库大规模并行数据库为首的并列关系数据库方向,一个是以MapReduce为首的分布式NoSQL方向。除此之外,流数据管理也是

26、大数据处理分析(fnx)的一种解决方案。4 大数据时代(shdi)索引与数据库事业面临的挑战及创新第四十六页,共五十七页。为了成功的实现对大数据的分析,还要建立具有敏捷的计算平台,线性扩展能力,全方位、协作性用户体验的大数据分析平台,还需要(xyo)聚类分析等高级的分析理论和方法以及方便易用的数据可视化技术。4 大数据时代索引与数据库事业(shy)面临的挑战及创新第四十七页,共五十七页。5智能索引技术当前硬、软件环境越来越好,从而为索引技术向智能化、多语种化、索引手段的自动化的方向开展提供了物质条件,使搜索引擎向高层次开展成为可能(knng)。目前在搜索引擎智能化、用户接口的多语种化、索引手段

27、的自动化等方面已取得了一定的成果。4 大数据时代(shdi)索引与数据库事业面临的挑战及创新第四十八页,共五十七页。4.3 事业的开展与创新索引和数据库事业的开展和创新,既离不开技术的开展,又需要理念的转变,方式的创新和人才(rnci)的培养。4 大数据(shj)时代索引与数据(shj)库事业面临的挑战及创新第四十九页,共五十七页。1技术的创新需要进一步满足对容量大、种类(zhngli)多、变化快的数据进行及时有效分析的要求。进一步拓展对NoSQL方案和NewSQL方案的研究,以取得更好的效果。同时在大数据存储、管理、分析的方面需要革命性的理论和新算法的出现,需要新的兼备大规模并行处理数据库的

28、高效率同时又具有Hadoop平台的高扩展性特点的系统的出现。4 大数据时代(shdi)索引与数据库事业面临的挑战及创新第五十页,共五十七页。2理念(l nin)的转变主要是对索引和数据库的理论进行更新,效劳提供方式进行创新,以实现商业价值。不能只满足于传统的理论,要对已有的理论进行创新,需要对大数据中蕴含的价值进行深入的挖掘,积极主动的提供给需要数据的对象,积极主动的去创造商机。4 大数据时代(shdi)索引与数据库事业面临的挑战及创新第五十一页,共五十七页。3方式的创新是指如何满足人们的小型化、便捷化的需要,如何实现商机的主动获取和推介。随着智能设备的普及,人们使用的移动终端越来越小型化,便

29、捷化,索引和数据库的效劳提供要重视这些终端,要开放接口,使用云技术,极大的改进移动终端上的用户(yngh)体验。4 大数据时代索引与数据库事业面临(minlng)的挑战及创新第五十二页,共五十七页。4人才(rnci)的培养一方面是加强对传统的索引和数据库专业的人才的教育和培养,更重要的是适应大数据的要求,重视对数据科学和数据研究人员的教育和培养。数据研究人员应该是具有良好视野的复合型人才,既有坚实的技术根底,又有广泛的业务知识和经验,从而能够熟练的使用各种大数据工具,分析并制定出各种策略和方案。4 大数据时代索引(suyn)与数据库事业面临的挑战及创新第五十三页,共五十七页。5国家的支持政府相关(xinggun)部门也要从整体规划、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论