大数据库下电子资源的有效利用_第1页
大数据库下电子资源的有效利用_第2页
大数据库下电子资源的有效利用_第3页
大数据库下电子资源的有效利用_第4页
大数据库下电子资源的有效利用_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据库下电子资源的有效利用物理科学与技术学院2014级物理学基地班刘竹友0141121776目录大数据库下电子资源的有效利用 11、 研究依据 21.1、 问题背景 21.2、 研究意义 21.3、 研究现状 32、 研究手段 42.1、关键理论技术 42.2、研究基本思路 92.3、研究框架 92.4、具体方案 113、 预期成果 123.1、理论成果 123.2、模型 124、 参考文献 12

研究依据问题背景大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。如今的数据已经成为一种重要的战略资产,它就像新时代的石油一样,极富开采价值。如果能够看清大数据的价值并且迅速行动起来,那么在未来的商业竞争中占据会占得先机。大数据市场机会一部分集中在集中在各实体企业对海量数据处理、挖掘的应用上,而这些应用必然带动“数据存储设备和提供解决方案”,“大数据的分析、挖掘和加工类企业”等环节的爆发性发展。虽然目前国内数据库、服务器、存储设备等领域,仍是国际巨头占绝对领先优势,大数据应用也还处在起步阶段,但发展前景可以期待。而另一部分集中在各大高校图书馆电子资源的利用方面。目前信息量大、共享性强、不受空限制、更新及时、使用方便、检索快捷的电子资源。已成为高校广大师生教学、科研活动中普遍使用的信息资源。目前,各高校图书馆为了满足各学科、多层次读者的信息需求,都购买或自建了多个甚至几十个网络数据库,各高校图书馆电子资源占馆藏文献的比例逐年增加,使得图书馆信息资源形成由单一型的纸质图书与电子文献资源共存的局面。随着数字图书馆的不断发展,电子资源的建设与利用逐渐成为衡量一个图书馆实力的重要指标。充分开发利用高校图书馆的电子信息资源,满足广大师生信息需求已成为图书馆文献信息服务的重要形式。本文将以图书馆电子资源的有效利用为例,主要运用文献分析法,其中部分实例采用内蒙古大学图书馆的实例及数据,探究大数据库下电子资源的有效利用。研究意义根据目前一份来自南京邮电大学的对读者就“电子资源建设与利用的情况”进行问卷调查,在对收回的问卷调查分析时发现,读者认为目前图书馆已购买的电子资源比较丰富的达53.8%.不够丰富的达30.6%.96.2%的读者认为有必要申请各类数据库的免费试用。读者经常利用图书馆电子资源的达38.7%,不常利用的占53.5%,未利用过的占9.8%。不利用或不常利用电子资源的主要原因是不了解。33.7%的读者认为是校外访问权限问题.30.1%的读者认为缺少必备的数据库.27.6%的人是由于缺乏检索知识,还有一部分读者是因为不r解数据资源内容以及获取原文的问题。而影响电子资源利用的因素主要有以下几个方面:电子资源种类繁多质量不高。不同的电子资源数据库之问有重复和交叉等现象,造成读者很难了解自己到底需要哪些电子资源:一些数据库存在内容少且不具备独特性.数据来源的权威不高.数据更新不及时,其检索软件功能较差等问题。由此造成读者对电子资源信赖度降低。不愿意使用数据库。、读者的文献检索技能欠缺。近年来,虽然院校都开设了文献检索课,但文献检索与利用的教学多偏蓐于理论,缺乏实际操作,读者的检索技能往往得不到真正的提高,再加再加电子资源的使用较为复杂,每种电子资源都有其不同的使用规则和方法,包括不同的逻辑算符、位置算符、截词符以及不同的检索方法等。影响了读者对电子资源的使用。电子资源的使用受到网络环境的限翩。高校图书馆斥巨资购买大量的电子资源.由于数据库供应商为保护自己的知识产权。一般都要求高校图书馆只向校园网IP地址范围之内开放;其次,由于学校设有分校区。不少分校的IP地址因跨网段不在校园网范围之内;再着,大多数的专家学者和教师在校外居住,经常外出讲学和参加会议学术交流,这些合法用户由于IP地址限制无法使用学校的电子资源,势必会对其学习、教学和科研造成一些的影响。所以,针对以上限制电子资源的有效使用的因素,我们从大数据库的角度来分析,以提高电子资源的有效使用具有极大的研究意义。研究现状从20世纪70年代初开始.欧美发达国家相继开始建立文献数据库.发行数据库磁带,或者通过计算机联机开展服务。例如著名的Derwent专利数据库和《化学文摘》(CA)的检索数据库磁带,DIALOG联机检索数据库、OCLC联机书目数据库等。80年代末,新的载体CD—ROM出现了,大量的检索类期刊《生物学文摘》(BA)、《工程索引》(EI)、《化学文摘》(cA)、《科学文摘》(SA)等都出版了光盘版.许多著名的国际出版商Blackwell科学出版公司、Elsever出版集团、wrlnger国际出版集团将他们旗下的学术期刊制成CD—ROM.至于光盘版的图书更是不计其数。继光盘之后是数据库镜像,它的数据容量比光盘更大,服务能力更强。90年代中期,随着互联网的普及,大量的电子文献转为网络出版.DIALOG、OCLC等专线联机数据库都转向网络服务。与此同时,便携式的电子图书也诞生了。为此,图书馆的电子资源有光盘、数据库镜像和网络版三大存在形式。国外的电子期刊和检索数据库较多采用网络版的方式.例如Blackwell、EL-sever,springer等全文期刊数据库,MEDLIN、DIALOG等大型检索数据库;有些大型检索数据库和国内的大型电子书刊库使用镜像站方式,例如《生物学文摘》(BA)、《工程索引》(EI)、《化学文摘》(CA)数据库,维普、万方、清华同方全文期刊数据库,超星电子图书数据库;小型检索数据库和电子图书采用光盘形式。90年代后期网络的发展.大大推进了图书馆电子资源的使用,在局域网的支持下.无论网络版、镜像点或者光盘塔的电子文献都能便捷地传送到网络的每个信息终端,读者可以在自己的桌面上浏览电子文献和检索数据库。与此同时,图书馆的公共网络服务也发展起来了,把电子资源挂到图书馆网页上,向公众开放,任何人可以随时随地上网浏览和检索。图书馆电子资源服务朝着更加开放和更加方便的方向发展,赢得了广大读者的青睐。以内蒙古大学图书馆为例,目前内蒙古大学图书馆独立建成了馆藏汉文、英文、蒙古文等书目数据库,特别是馆内的蒙古文特色数据库、生命科学导航库的建设成果和联机编目数量在全国高校图书馆中排名前25名、45名和13名;共引进购入了ISI数据库、SpringerLink数据库、Apabi数字图书馆系统等18个数据库,自建数据库10个,极大地丰富了图书馆的网络文献信息资源,成为内蒙古自治区规模最大的网络信息中心。伴随着图书馆局域网的建成,图书馆绝大部分工作已经基本上摆脱了传统的手工作业方式,实现了网络化的计算机管理。文献采编工作由最初的单机管理到馆内局域网的运行,进而发展到互联网上联机编目,阅览室采用了藏、借、阅一体化的布局模式,师生共用,绝大多数文献资料在阅览室实行了全开架的开放式管理;图书文献的查询、读者借阅文献的管理、业务统计等工作也已实现了计算机自动化管理,有效地提高了图书馆馆藏文献的利用率和读者服务工作的科学管理水平。另外在我校开展的图书馆特举办数据库系列讲座,旨在介绍期刊、报纸、图书、数据、视频等多种形式的电子资源的使用方法,助力科研和教学。截止目前,已举办的数据库讲座有万方数据库、阿帕比电子教参书、阿帕比报纸全文库、月旦知识库、EBSCOhost数据库、Emerald全文数据库讲座、Elsevier期刊数据库。讲座均由各文献资源出版集团培训讲师讲授,讲授内容含如何合理规划时间进行快速文献调研,如何有序管理海量文献信息,如何查找文献信息之外的包括词条概念、图片等多角度的信息,讲授内容专业、精深、新颖。极大的提高了师生对数据库电子资源的有效利用。研究手段2.1、关键理论技术技术是大数据价值体现的手段和前进的基石。关键技术包括云计算、分布式处理技术、存储技术和感知技术,处理过程包括采集、处理、存储到形成结果。具体包括以下几个方面:2.1.1、大数据系统的架构大数据处理系统不管结构如何复杂,采用的技术千差万别,但是总体上总可以分为以下的几个重要部分。大数据系统结构如图l所示。从数据处理的一般流程可以看到,在大数据环境下需要的关键技术主要针对海量数据的存储和海量数据的运算。传统的关系数据库经过40年的发展已经成为了一门成熟同时仍在不断演进的数据管理和分析技术,结构化查询语言(sQL)作为存取关系数据库的语言得到了标准化,其功能和表达能力也得到的不断增强。但是,关系数据管理系统的扩展性在互联网环境下遇到了前所未有的障碍,不能胜任大数据分析的要求。关系数据管理模型追求的是高度的一致性和正确性。纵向扩展系统,通过增加或者更换CPU、内存、硬盘以扩展单个节点的能力,终会遇到“瓶颈”。大数据的研究主要来源于依靠数据获取商业利益的大公司。G009le公司作为全球最大的信息检索公司,其走在了大数据研究的前沿。面对呈现爆炸式增加的因特网信息,仅仅依靠提高服务器性能已经远远不能满足业务的需求。如果将各种大数据应用比作“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算。正是云计算技术在数据存储、管理与分析等方面的支持,才使得大数据有用武之地。G009le公司从横向进行扩展,通过采用廉价的计算机节点集群,改写软件,使之能够在集群上并行执行,解决海量数据的存储和检索功能。2006年Google首先提出云计算的概念。支撑Goo甜e公司各种大数据应用的关键正是其自行研发的一系列云计算技术和工具。G00de公司大数据处理的三大关键技术为:Go091e文件系统GFs{”、M印Reduc一和Bigtabl一。Google的技术方案为其他的公司提供了一个很好的参考方案,各大公司纷纷提出了自己的大数据处理平台,采用的技术也都大同小异。下面将从支持大数据系统所需要的分布式文件系统、分布式数据处理技术、分布式数据库系统和开源的大数据系统Had00p等方面介绍大数据系统的关键技术。2.1.2分布式文件系统文件系统是支持大数据应用的基础。G00l!le是有史以来唯一需要处理如此海量数据的大公司。对于G009le而言,现有的方案已经难以满足其如此大的数据量的存储,为此G009le提出了一种分布式的文件管理系统——GFS。GFs与传统的分布式文件系统有很多相同的目标,比如,性能、可伸缩性、可靠性以及可用性。但是,GFS的成功之处在于其与传统文件系统的不同。GFS的设计思路主要基于以下的假设:对于系统而言,组件失败是一种常态而不是异常。GFS是构建于大量廉价的服务器之上的可扩展的分布式文件系统,采用主从结构。通过数据分块、追加更新等方式实现了海量数据的高效存储,如图2所示给出了GFS体系结构。但是随着业务量的进一步变化,GFS逐渐无法适应需求。Google对GFS进行了设计,实现了Colosuss系统,该系统能够很好地解决GFS单点故障和海量小文件存储的问题。除了G00—e的GFS,众多的企业和学者也从不同的方面对满足大数据存储需求的文件系统进行了详细的研究。微软开发的cosmospl支撑其搜索、广告业务。。类GFS的分布式文件系统主要针对大文件而设计,但是在图片存储等应用场景中,文件系统主要存储海量小文件,Facebook为此推出了专门针对海量小文件的文件系统Haystac妒l,通过多个逻辑文件共享同一个物理文件,增加缓存层、部分元数据加载到内存等方式有效地解决了海量小文件存储的问题。是一种大规模、安全可靠的,具备高可靠性的集群文件系统,由suN公司开发和维护。该项目主要的目的就是开发下一代的集群文件系统,可以支持超过10000个节点,数以拍字节的数量存储系统。2.1.3、分布式数据处理系统大数据的处理模式分为流处理和批处理两种”。“l。流处理是直接处理,批处理采用先存储再处理。流处理将数据视为流,源源不断的数据形成数据流。当新的数据到来即立即处理并返回所需的结果。大数据的实时处理是一个极具挑战性的工作,数据具有大规模、持续到达的特点。因此,如果要求实时的处理大数据,必然要求采用分布式的方式,在这种情况下,除了应该考虑分布式系统的一致性问题,还将涉及到分布式系统网络时延的影响,这都增加了大数据流处理的复杂性。目前比较有代表性的开源流处理系统主要有:Twiner的stom,coogle公司2004年提出的MapReduce编程模型是最具代表性的批处理模型。MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心如何分割输入数据,在大量计算机组成的集度,集群中计算机的错误处理,管理集群中的计算机之间必要的通信。对于有些计算,由于输入数据量的巨大,想要在可接受的时间内完成运算,只有将这些计算分布在成百上千的主机上。这种计算模式对于如何处理并行计算、如何分发数据、如何处理错误需要大规模的代码处理,使得原本简单的运算变得难以处理。MapReduce就是针对上述问题的一种新的设计模型。M印Reduce模型的主要贡献就是通过简单的接口来实现自动的并行化和大规模的分布式计算,通过使用MapReduce模型接口实现在大量普通的Pc上的高性能计算。MapReduce编程模型的原理:利用一个输入键一值(Key厂value)对集合来产生一个输出的ke丫/value对集合。MapReduce库的用户用两个函数表达这个计算:Map和Reduce。用户自定义的Map函数接受一个输入的key,value值,然后产生一个中间key/value对集合。MapReduce库把所有具有相同中间key值的value值集合在一起传递给Reduce函数。用户自定义的Reduce函数接收一个中间kev的值和相关的一个value值的集合。Reduce函数合并这些value值,形成一个较小的value值集合,如图3所示。MapReduce的提出曾经遭到过一系列的指责和诟病。数据专家Stonebmker就认为MapReduce是一个巨大的倒退,指出其存取没有优化、依靠蛮力进行数据处理等问题。但是随着M印Reduce在应用上的不断成功,以其为代表的大数据处理技术还是得到了广泛的关注。研究人员针对M印Reduce进行了深入的研究,目前针对MapReduce性能提升研究主要有以下几个方面:多核硬件与GPu上的性能提高;索引技术与连接技术的优化;调度技术优化等。在MapReduce的易用性的研究上,研究人员正在研究更为高层的、表达能力更强的语言和系统,包括Yalloo的Pig、Micmsoft的LINQ、Hive等。除了G00de的M印Reduce,YurdlongGu等人设计实现了SectorandSphere云计算平台””,包括Sector和sphere两部分。sector是部署在广域网的分布式系统,sphere是建立在Sector上的计算服务。sphere是以sector为基础构建的计算云,提供大规模数据的分布式处理。sphere的基本数据处理模型如图4所示。针对不同的应用会有不同的数;Sphere统一地将它们以数据流的形式输入。为了便于大规模地并行计算,首先需要对数据进行分割,分割后的数据交给SPE执行。sPE是Sphere处理引擎,是Sphere的基本运算单元。除了进行数据处理外sPE还能起到负载平衡的作用,因为一般情况下数据量远大于sPE数量,当前负载较重的SPE能继续处理的数据就较少,反之则较多,如此就实现了系统的负载平衡。2.1.4、分布式数据库系统传统的关系模型分布式数据库难以适应大数据时代的要求,主要的原因有以下几点:规模效应带来的压力。大数据时代的数据远远超出单机处理能力,分布式技术是必然的选择。传统的数据库倾向于采用纵向扩展的方式,这种方式下性能的增加远低于数据的增加速度。大数据采用数据库系统应该是横向发展的,这种方式具有更好的扩展性。数据类型的多样性和低价值密度性。传统的数据库适合结构清晰,有明确应用目的的数据,数据的价值密度相对较高。在大数据时代数据的存在的形式是多样的,各种半结构化、非结构化的数据是大数据的重要组成部分。如何利用如此多样、海量的低价值密度的数据是大数据时代数据库面临的重要挑战之一。设计理念的冲突。关系数据库追求的是“一种尺寸适用所有”,但在大数据时代不同的应用领域在数据理性、数据处理方式以及数据处理时间的要求上千差万别。实际处理中,不可能存在一种统一的数据存储方式适应所有场景。2.1.5大数据系统的开源实现平台除了商业化的大数据处理方案,还有一些开源的项目也在积极的加入到大数据的研究当中。Hadoop瞄’是一个开源分布式计算平台,它是MapReduce计算机模型的载体。借助于Hadoop,软件开发者可以轻松地编出分布式并行程序,从而在计算机集群上完成海量数据的计算。Intel公司给出了一种Hadoop的开源实现方案,如图6所示。在该系统中HDFs是与GFS类似的分布式文件系统,它可以构建从几台到几千台常规服务器组成的集群,并提供高聚合输入输出的文件读写访问。Bigtable类似的分布式、按列存储的、多维表结构的实时分布式数据库。可以提供大数据量结构化和非结构化数据的高度读写操作。Hive㈣是基于Hadoop的大数据分布式数据仓库引擎。它可以将数据存放在分布式文件系统或分布式数据库中,并使用sQL语言进行海量信息的统计、查询和分析操作。zooKeepe严1是针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。它可以维护系统配置、群组用户和命名等信息。sqoop㈣提供高效在Had00p和结构化数据源之间双向传送数据的连接器组件。它将数据传输任务转换为分布式Map任务实现,在传输过程中还可以实现数据转换等功能。Flume田I是分布式、高可靠的和高可用的日志采集系统,它用来从不同源的系统中采集、汇总和搬移大量日志数据到一个集中式的数据存储中。2.2、研究基本思路以往谈及大的数据通常用来形容一个公司创造的大量非结构化和半结构化的数据。如今把“大数据”作为一个专有名词提及,通常指的是解决问题的一种方法,即通过收集和整理生产生活中方方面面的数据,然后对其进行整理、挖掘、分析、处理,进而从中获得有用的价值信息。虽然通常意义上的大数据解决方案描述了一种通常的行为,但要实现这种通常的行为,往往会遇到诸多技术和硬件上的问题。一个显而易见的问题就是:大数据包络万象,而且像音频、文本信息、视频、图片等非结构化数据正以突飞猛进的速度增长,加上移动互联网的普及所带来的如位置、生活信息等富含价值的数据,现有的,或者传统的对数据的处理手段和硬件配置已越来越跟不上数据发展的步伐。在电子资源的利用中,这种问题就显得尤为明显,其具体表现在以下几方面:数据库来源需要扩展。虽然现在例如阿帕比电子教参书、阿帕比报纸全文库、月旦知识库、EBSCOhost数据库、Emerald全文数据库讲座、Elsevier期刊数据库等大型数据库均可利用,但部分外文网数据库国内还不可以阅览,或有偿阅览或阅览后无法下载。这都使得数据库内容受限。数据库限制较多。现在大部分高校的文献阅览都是在校内ID才可以,但如果学生或老师回到家,或者有事急需论文的查找,这时就显得尤为不便。另外下载的权限也有很多限制,例如内蒙古大学图书馆的部分期刊图书就仅提供在线阅读,而且一次申请的页数也有限制。搜索内容不明确,不细致化。数据缺少权威化。搜索方法较为复杂,缺少智能化,针对所需要的文献需要较长时间才能的到想要的论文。数据需要存储,存储需要设备,存储设备的容量和可扩展性以及读取的速度成为了一大问题(容量问题)2.3、研究框架来源更加广泛化,发表论文周期缩短2、数据分类详细化,改变搜索方式3、限制减少化,提供可在指定ID范围之外的信息检索2.4、具体方案大数据的解决方案不同于纯粹云计算的解决方案,虽然云计算带来了看上去更便宜的处理能力和存储能力,但对于往往都有相当数量级规模的大数据应用而言,在基础架构上巧妙地整合和部分的集中,反而能更好地解决安全性、可靠性、稳定性和绿色环保的需要。针对研究思路中提出的问题,我们提出如下解决方案:1、对现有电子资源的进行整合。电子信息资源的整合,可有效促进电子资源的有序化。有序化的方式表现在两个方面,一是加强分散在不同数据库之中、具有某种关联的电子信息资源的有序化。按照全文电子期刊的期刊名称字母顺序排列或数据库按学科内容分类进行重新整合,整合成一个互动、互连的有机整体。建立跨库的一站式检索平台,实现异构数据库的跨库榆索。从而提高检索效率和资源的利用率。二足加强对分散在网络之中的。原本杂乱无序的零散电子信息资源的数据整合.将分布在各网站上的有关符合本院校某一科研专题的信息进行查找、筛选、分类和整理,然后以专题导航的形式放在一个网站上为读者提供服务。2、利用VPN技术实现图书馆电子资源远程访问。开设校外访问电子资源的有效途径。方便家住校外的师生使用.而利用VPN(虚拟专用网)技术可以实现读者在校外对校内图书馆信息资源的远程访问,它是一种安全可靠、切实可行的解决方案。如采用SSLVPN技术,管理员可以根据远程用户的身份和权限为其分配可访问的各种电了源.通过行为跟踪引擎.可以查看远程接入用户的所有访问记录,进一步了解电子资源的访问情况,实时地掌握流量信息,避免下载超量等问题。从而实现了对访问的实时监控和有效管理。另外,数据库有并发用户数限制,读者往往很难顺畅地登录和使用,需要加强对读者的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论