分析图书馆化学资源检索系统面临的困境和发展,文献检索论文_第1页
分析图书馆化学资源检索系统面临的困境和发展,文献检索论文_第2页
分析图书馆化学资源检索系统面临的困境和发展,文献检索论文_第3页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分析图书馆化学资源检索系统面临的困境和发展,文献检索论文Abstract:Takingthechemicalresourceretrievalsystemasanexample,thispaperanalyzestheproblemsexistedinthelibrarychemicalresourceretrievalsystem.Onthisbasis,itputsforwardtheframeworkideas,in-cludingthefollowingthreeaspects:macro-construction,technicalsupportandsystemdetermination,whichaimstoprovidenewresearchdirectionsforthefurtherstudyinthisfieldandpromotetheconstructionprocessoflibraryresourceretrievalsystem.Keyword:chemicalresources;bigdata;dataanalysis;ideas;化学学科的研究和发展以及相关研究领域的实践应用,需要查阅和参考大量文献。随着科学技术的发展,化学知识的广度和深度都在不断扩大,文献资源数量也急剧增长,加之数字资源改变了传统信息资源依托的载体和存在方式,增加了相关主题化学文献查阅和分析的困难。因而,建立一套完善、科学、有效的化学文献检索系统,降低化学研究者与工作者的负担等,成为当前学术界亟待解决的课题。一、图书馆化学资源检索系统面临的窘境传统的化学文献检索系统主要以期刊文献资源为数据总库,以主题词表、索引式等不同的主题系统分类,进行特定化学领域知识的查找与分析。然而随着时代发展和相关文献的大量增加,化学科研工作者不能快速挑选出自个所需文献,阻碍了查找资料的效率和研究进程。当前,化学资源检索系统主要从文献内容定义化学数据分析,根据文献外部显着特征加以解析,辅以数字、符号或多重组合、片语等,对所记录文献主题进行标引入库,以此作为数据查询的检索入口。面临的窘境主要有下面两点:一是文献构成的丰富与检索数据的对接不通畅。文献资源的构成种类异常丰富,除去传统的纸质图书、期刊等,电子资源的比例也在急速增长,包括电子图书、期刊、网络资源等。因开放数据的使用和发布,使资源的总量变得不可估量。而在检索数据的纳入上,因图书馆存在经费、版权、异构数据的技术处理等问题,大部分资源还未进入到图书馆的检索数据中。二是文献检索需求的广泛与检索入口的限制。文献检索者在面对资源检索时,因检索目的、个人习惯、知识构成等因素影响,表现出资源检索的多样化需求,而检索入口及后台对应的数据搜索方式均存在一定局限,不能知足文献查找者的检索需求。二、图书馆化学资源检索系统构建思路〔一〕立足宏观,重视对大数据的利用和挖掘2008年,(自然〕〔Nature〕杂志第一次出版了关于Bigdata专刊,大数据概念开场出现,并被广泛关注。期间,最有影响力的当属2018年麦肯锡公司发布的(Bigdata:thenextfrontierforinnovation,competition,andproductivity〕〔(大数据:下一个前沿、竞争力、创新力和生产力〕〕的调研报告。短短几年之间,大数据的影响扩展到各个行业。麦肯锡报告指出:进行大数据研究将会为社会带来宏大的价值.2020年3月29日,美国奥巴马在其颁布的大数据研发计划〔BigDataResearchandDevelopmentInitiative〕中,明确将该研发计划的目的确定为为了提高以及改善从海量和复杂的数据中获取知识的能力,加快美国在科学和工程领域研究的步伐,以此为基础稳固国家安全,转变现有的教学和学习方式,美国为该计划投入2亿美元。由此可见,大数据的影响力度。[1]对于大数据的定义,当前还没有构成统一的概念。学术界普遍以为,大数据根据其现象表征和特点,能够用五个V字词语来形容〔IBM提出〕:Volume,大量,主要形容数据体量宏大,一般可达TB级,甚至PB级。Variety,多样,指数据种类繁多,而且来源复杂、格式多样。在数据的构成上,除了构造化数据,还有半构造化和非构造化数据。Value,低价值密度,即大数据所包含的信息价值与其存在数量呈现低价值密度。一方面,在海量数据中,有价值的信息比例较低,大量无用信息充斥华而不实;另一方面,合理运用大数据,能够以较低成本挖掘到可靠信息,进而获得较高价值,数据的可挖掘性较高。Velocity,速度,在大数据概念中,数据的产生量和增长量的速度很快,同时,数据的处理速度也很快。Veracity,真实性,主要指大数据的质量。大量数据的真实性需要判定。大数据的出现影响着各行各业的发展,其带来的社会效应及以小带大的价值效应得到了社会各界的一致关注和认同。如,在商业界,大数据的关联和分析能够反映出消费行为的形式变迁和发展趋势,进而寻找新的商机,做出优化策略及战略调整,以纠正或改变现有的商业形式,获取更大的经济效益;在医学研究及临床实践领域,大数据的采集和分析能够为一些疑难病症的诊断、治疗、研发等提供可靠的数据分析资料;在图书馆领域,大数据蕴藏信息丰富,且处理数据速度快,被广泛应用于文献检索系统,用来扩大检索信息量,加快文献检索速度,提高文献检索效率。〔二〕研判技术的适用性推进大数据相关机制的建设进度云技术是一种分布式计算方式方法,是在广域网或局域网内将硬件、软件等系统资源统一在一起,进行数据存储、计算、分享等的一种技术。Google公司在其云技术方案中,提出分布式文件系统〔GFS〕、分布式数据库〔BigTable〕、批处理技术〔MapReduce〕以及开源实现平台〔Hadoop〕.华而不实,分布式文件系统是一种基于分布式集群的大型分布式处理系统,利用数据分块、追加更新等方式实现海量数据的高效存储,为批处理技术计算框架提供低层数据存储和数据可靠性保障。分布式数据库通过一个多维稀疏排序表以及多个服务器实现对大数据的分布管理,是云技术的核心,即通过批处理实现对大数据的分析。批处理技术主要由映射和归约两部分组成[2].大数据时代,与云技术的产生有很大关联,脱离云计算的超计算能力,大数据将无法分析和利用。相比拟传统数据保存办法,如此海量和复杂的信息,处理难度可想而知,除无法在时间上及时完成外,其不可预估的成本也是不可回避的事实。而在云技术的支持下,分布式文件系统已经成为大数据的传输中心。当前,云技术中文件系统的存储技术主要包括Google的GFS和Hadoop的HDFS.集群文件系统的构建原理能够表述为:将一个大数据文件分解成若干子块,存储于块服务器,每个块存储对应为相应的元数据,元数据存储于主服务器,以此完成一个大数据的存储经过。元数据在主服务器中的保存类型分为3种:一是文件和块的命名空间;二是块的映射文件;三是每个块复本的位置。文件和块的命名空间元数据用于维护文件系统的命名空间,通过命名空间的查询来查找和定位指定文件和目录的途径等属性信息,进而找到该途径所对应的相应内容。华而不实,关于文件存储位置信息的元数据,能够准确定位数据块位置的偏移量。在信息检索中,由于文件信息描绘叙述及存储信息的描绘叙述存在不一致等错误,常会误导搜索引擎执行检索工作,进而影响信息检索效果。因而,元数据的准确描绘叙述相当重要。〔三〕基于需求分析确立系统架构的模块和因素随着我们国家信息技术的快速发展,国内对于化学资源数据的分析系统研究获得了长足发展。近年来,关于化学数据分析研究的课题逐年增长,为化学信息资源检索和分析做了大量基础工作。ChemDBPortal化学深层网检索引擎是中科院高性能计算与化学信息学课题组建立的网络化学化工信息资源检索平台,是利用深层网检索技术实如今线检索多来源数据库的化学检索引擎,可实现一次查询请求、自动检索多个专业库、统一返回结果等检索经过。当前,ChemDBPortal检索平台索引有约50万个化合物、超过100万种产品信息,检索经过中,可同时在线检索十几个化学数据库的数据、MSDS等数据源。在这里基础上,逐步衍生出更多的数据服务,如建立相应的动态链接、建立原始实验数据资源库、构建基于化学品在线服务等功能[3~6].化学信息管理系统包括两大功能:化学构造检索及文字检索,具有便于数据库维护、图形存储和中文处理等特点[7].相类似的还有名为MORT〔molecularobjectsandrelevanttemplates〕的函数库,能够作为计算生物学和计算机辅助药物设计〔CADD〕等相关软件的开发基础[8].但总体来看,国内对化学数据分析系统的研究起步较晚,以致于国内化学数据分析系统整体研究成果水平仍较低,发展进程也相对滞后,而且少有相关人士进行化学数据检索系统的整体研究。在对图书馆化学资源检索系统架构的经过中,现在状况研究和需求调研特别重要,应以此为基础确定系统架构的整体方向及模块确立。现前阶段,能够把图书馆化学资源检索系统的模块拟定为4个:检索模块、数据处理模块、系统维护模块、统计分布模块,围绕模块建设架构整个资源检索系统〔如,确立服务器端和客户端、联立化学文献数据库等〕.三、结束语随着文献资源数量的指数式增长,大数据分析系统研究已经成为文献检索系统的趋势,其系统架构所带来的检索效应、对相关学科的推动作用已经得到了学术界的广泛认同和关注。以化学资源检索系统架构为研究点,从检索策略、检索技术、检索环境等入手进行系统搭建,对推动化学研究检索效率及学科建设进程有重要影响。结合该研究的跨学科性、穿插性、技术支撑性等特点,研究进程仍需要更多的人付出努力,希望通过上述研究思路的呈列,对该领域研究提供有益帮助。以下为参考文献[1]刘言,蔡文生,邵学广。大数据与化学数据挖掘[J].科学通报,2021〔8〕:694-703.[2]陈近,文庭孝。基于云计算的图书馆大数据服务研究[J].图书馆,2021〔1〕:52-56.[3]ChuCM,LiXX,GuoL.DirectedQueryEngineAp-plicationintheIntegratedRetrievalofChemicalWebDatabases[J].ComputApplChem,2005〔22〕:659-666.[4]ZhuoLY,LiXX,GuoL.ChemicalDeepWebDataEx-tractionwithXML-basedTechnology〔inChinese〕[J].ComputApplChem,2006〔23〕:1137-1141.[5]袁小龙,李晓霞,郭力,等。开源软件在化学数据库分子构造检索中的应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论