版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种面向大数据的图书馆系统架构研究0引言在云计算、物联网等信息技术的推动下,全球已步入大数据;时代。面对大规模、复杂数据,作为文献信息中心和知识组织机构的图书馆,使用传统的数据管理模式、分析框架和统计方法已无法适应大数据时代的要求,如何构建面向大数据的新型系统架构来高效地管理和分析数据已成为当前十分重要的研究课题。1概述麦肯锡认为,大数据是指其大小超出了常规数据库采集、储存、管理和分析等能力的数据集【1】。当前,图书馆大数据主要包括:用户服务过程中产生的访问和借阅数据,读者意见调查、反馈等交互数据,读者位置、阅读兴趣等行为数据,以及描述数据的元数据和主数据等【2】,体现出海量、多样、高速、高价
2、值等特征。大数据时代,图书馆现有系统架构主要面临以下三个方面的挑战。1.1数据量指数上升带来的存储与计算能力的挑战信息技术的发展极大促进了图书馆数字资源的积累。方面,电子图书、期刊、音视频等海量数字信息已超越纸质文献成为图书馆数据的主体。以清华大学图书馆为例,2008年在使用服务器数量为110台【3】。另方面,手机、平板等移动设备提供了新的学习体验,RFID技术、Web 2.0和云计算的发展提供了广泛的数据来源,使图书馆数据具备大数据特征。但现有图书馆存储计算能力远远落后于数据量的增长,高效精准的知识服务越来越需要更为合理的分层分级存储架构和数据分析计算能力。1.2处理非结构化数据面临硬件设施
3、的压力大数据的4V;特征,除了海量(Volume),还有类型多样(Variety)的特点。著名大数据专家涂子沛把大数据分为结构化、非结构化数据两大类。目前,全世界的数据大约有75%都是非结构化数据,比如微博、微信等社交数据,这类数据没有规范的结构,处理起来困难较大。对图书馆来说,文档、图片、报表、音视频、XML等非结构化数据蕴含着丰富的信息,学术和文献价值很大,但管理难度也很大,每一项操作都要耗费大量资源,加工成本高,读取效率低。很多知识服务机构由高端服务器转向中低端硬件构成的大规模计算机集群,对支持非结构化数据存储与分析的硬件设施提出了更高要求。1.3信息服务更加强调智能化数据不断增长,但大
4、部分数据没有升华为对读者有用的知识。用户面对图书馆的海量数据很难全面准确地检索到所需信息,传统以互联网搜索为基础的信息服务已经不能满足用户需求。大数据时代,图书馆应该从海量不规范、模糊、随机的数据中提取出隐含的、未知的、有价值的知识和信息,把读者对数据的需求从低层次的简单查询提升到挖掘有价值信息和知识的高度。同时,更加强调数据挖掘在数字资源建设、个性化信息服务等方面发挥智能分析、评估和预测的作用。既要清楚现在知识服务过程发生了什么,更要通过数据分析预测科研创新和知识合作将要发生什么。2图书馆现有系统架构存在的问题目前大数据的存储、处理和分析已成为图书馆面临的重大挑战,现有系统架构已无法满足大规
5、模分布式计算和实时性处理的要求。2.1现有架构无法适应海量数据的存储和处理要求目前图书馆的服务器和存储主要部署信息服务类应用。采购时硬件配置很高,但过不了几年就会过时,性能无法满足需求,需要硬件升级或重新购买。每台服务器通常只部署一个应用,方面性能难以充分发挥。据统计,90%的服务器运行单个应用程序平均利用率不超过20%c4;另方面只能通过增加服务器数量、升级内存和CPU的方式来解决数字资源种类逐年增加的问题。这样会导致服务器增多、能耗增大、机房空间紧张、电力和空调告急、布线混乱等一系列问题。另外,服务器或存储_旦出现单点故障,则无法提供正常服务,严重的还会导致数据丢失。目前图书馆用于支撑自身
6、运行和数字资源应用的服务器数量已具有较大的规模。据统计,清华大学图书馆1 996年至2008年间,机房空间、UPS和空调都经历了23次改建和扩容,以满足用户快速增长的信息需求【3】。为解决服务器增加带来的设备、运维和人员成本急剧增长的问题,部分图书馆选择将信息服务外包给第三方公司以减少投入,但这种模式也很难大幅度地降低成本,同时服务质量会大打折扣;部分图书馆尝试将多个应用整合到一台服务器上,但不同应用对应不同的功能需求,整合面临太多困难,花费较长时间,而且系统出错概率会大大增加。2.2现有架构面临数字资源整合的挑战数据整合是大数据服务的基础。当前,图书馆数据的开放程度较低,信息孤岛;随处可见,
7、数据整合步履维艰。图书馆虽然引进了很多数字资源,但不同资源的主权归属、数据格式和存储方式各不相同,难以进行资源整合。数字资源购买后只拥有文献检索和下载权限,无法获取数据本身,不能进行跨库检索、数据挖掘等方面的研究。目前图书馆大多按名称简单罗列数字资源,形成多种维度的导航页,但无法实现更深层次的知识组织和发现。有些图书馆在信息采集上缺乏协调,导致数字资源与纸质文献重复采购。有些馆担心数据权属和信息安全问题,不愿在信息资源共享工程、数据分析平台建设方面投入资金和承担数据共享成本。面对信息服务快速、简单、准确;的要求,图书馆未来需加大数字资源的整合力度,通过异构数字资源的融合、聚类和重组来提供智能化
8、的一站式大数据服务。3面向大数据的图书馆系统架构3.1架构概述1)架构的核心思想借助分层设计思想,本文提出了-一个面向大数据的新型图书馆系统架构,如图1所示,按照功能从上而下划分为4层:服务层、大数据平台层、资源层和基础层。该架构主要以云计算、物联网、分布式计算等大数据技术为依托,各种类型、来源的数据通过分布式数据存储系统、统一的文件分发系统、高效的分布式索引和数据挖掘模块,为用户提供知识发现与获取、情报分析、个人学习空间、智能信息推送等图书馆大数据服务。2)架构的层间关系服务层位于架构的最高层,是图书馆大数据服务的集合,是架构价值的直接体现,它构建在底层提供的资源和环境之上,直接面向用户。大
9、数据平台层是架构的核心部分,介于服务层和资源层之间,承上启下,负责为服务层提供开发、测试和应用等所需的基础服务和管控环境,包括存储访问、资源部署分配、数据分析等。资源层是存放信息资源的实体层,整合了各类数据,包括业务数据、资源数据、管理数据和用户数据。基础层是整个架构的基础,为上面三层提供计算和存储资源支撑,特别是能够通过虚拟化技术将资源池化,实现按需分配和快速部署。3)架构的创新之处与传统图书馆架构相比,面向大数据的图书馆系统架构的创新之处在于:各种资源不再是简单的集合,而是将各种异构资源动态融合成一个有机整体;架构能够使用户得到一站式;服务,满足多维的资源需求,实现信息资源的共享;基于分布
10、式文件系统的可靠大数据存储和高性能并行大数据处理,更加合理、灵活、动态,能够进行快速可靠的数据分析。3.2架构各层的功能描述1)基础层基础层提供计算、存储和网络等硬件资源,具体包括服务器虚拟化技术、云存储技术、RFID技术、刀片基础融合架构、SAN光纤阵列和快速以太网等。传统一个服务器一个应用的模式造成服务器数量的机械增长,刀片架构凭借较高的部署密度、可管理性和更少的线缆大大节省了机房空间和运维费用。服务器虚拟化技术通过把一个物理服务器虚拟成若干独立的逻辑服务器,或把若干分散的物理服务器虚拟成一个大的逻辑服务器实现了资源的合理分配。该层将图书馆各节点能提供闲置存储资源和计算能力的计算机、服务器
11、集群构成云;,提供云存储和云计算,并通过RFID技术解决物理实体之间的连接,为整合异构资源提供了基础支撑【6】。2)资源层传统理解的图书馆数据包括业务数据和资源数据。其中,业务数据是指图书馆在运转过程中产生的采编流检;数据;资源数据是指图书馆根据本机构学科专业设置规划和配置馆藏,并经过专业规范的揭示与组织后所形成的信息(文献)资源集合,具体包括:纸质和数字资源,及描述和揭示资源的结构化数据(即元数据)。随着数字图书馆发展进程的快速推进,资源数据发生了从实体到在线、从拥有到授权、从馆藏到存取、从用户使用到用户创造的重要变迁。机构知识库、管理数据等也纳入到图书馆建设、管理和服务的视野。此外,在以用
12、户为中心的资源建设与服务理念下,用户数据的价值也日益受到关注。图书馆数据可梳理归纳为如下4类:业务数据、资源数据、用户数据和管理数据【7】。3)大数据平台层大数据平台层的主要任务是对图书馆的海量数据提供分布式的数据分析、编程模型、数据存储和文件存储,从而实现数据的部署、分配、调度、监控等系统管理。数据分析中的Hive和Pig均可与HBase组合使用,能够简单快速地分析数据。Hive是建立在Hadoop上的数据仓库基础构架,可以通过类SQL语句快速实现简单的MapReduce统计,十分适合数据仓库的统计分析。Pig是另外一个Hadoop数据仓库系统,与类SQL的语言不同,它使用轻量级脚本语言-P
13、ig Latin,能够处理非常庞大的数据集。编程模型有MapReduce、Yarn、Samza和Storm。MapReduce用于大规模数据集(大于1TB)的并行运算,Yarn是第二代的MapReduce,可以通过统一的资源管理和调度来实现一个Hadoop集群的集群共享、可伸缩性和可靠性。Samza是一个分布式流处理框架,Storm是一个分布式、容错的实时计算系统,二者都可实时或接近实时地处理大数据流。数据存储,HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式和可扩展的大数据仓库,适合于非结构化数据存储;HCatalog是Hadoop的元数据和数据表的管理系统,允许用户通过H
14、ive、Pig、MapReduce共享数据和元数据;Redis是一个key-value存储系统,主要存储string(字符串)、list(链表)、set(集合)、hash(哈希类型)等value类数据。文件存储有Hadoop分布式文件系统(HDFS)和关系数据库管理系统(RDBMS)两种方式,二者可结合起来使用,在功能上实现互补,侧重于数据分析和对实时响应要求较低的数据存入HDFS,实时响应要求高的存入RDBMS。4)服务层服务层为用户提供了应用服务和交互接口,用户可利用手机、平板等云终端设备访问图书馆提供的各种大数据服务,主要包括统一身份认证、资源管理、知识发现与获取、智能信息推送、情报分析、个人学习空间、虚拟参考咨询等。3.3架构的主要特征1)用户导向。以用户需求为导向,随着用户行为需求的变化,及时调整图书馆服务模式和策略;同时,面向用户的资源定制能力增强,图书馆更具个性化服务能力。2)共享性。架构将各种资源进行整合集成,实现了数据交换,能够为用户提供更好的个性化服务。同时,共享性也将进一步拓宽图书馆的服务范围和领域,为社会、政府、企业提供高水平的知识服务。3)可拓展性。架构设计思想为模块化,为未来可能出现的新服务留出可用的硬件配置和接口,便于扩展
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开放获取科技期刊管理新动向
- 期货公司税务筹划指南
- 电子商务外协产品管理办法
- 家具制造业质量异常管理策略
- 桌球室墙面施工协议
- 别墅装修隔层施工合同
- 军工级元器件选用管理办法
- 广告宣传居间人管理规则
- 电力设施安装简易合同
- 建筑改造安全施工合同范本
- 无人驾驶汽车发展历史原理技术发展前景专题资料PPT课件
- 锚杆框架梁护坡施工方案
- 小学语文二年级上册单元整合教案——畅所“寓言”
- 软件项目管理实验报告(共17页)
- CNC84操作手册
- 同步器设计手册
- 部编版二年级道德与法治上全册教学反思(详细)
- 发展心理学思维导图
- 【中期小结】《初中语文课堂问题有效设计的研究》课题研究中期小结
- 诊所执业情况工作总结诊所执业期间业务开展情况.doc
- 内外脚手架施工方案
评论
0/150
提交评论