大数据挖掘视角下的图书馆智慧服务_第1页
大数据挖掘视角下的图书馆智慧服务_第2页
大数据挖掘视角下的图书馆智慧服务_第3页
大数据挖掘视角下的图书馆智慧服务_第4页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 大数据挖掘视角下的图书馆智慧服务 柳益君+何胜+熊太纯+冯新翎+武群辉摘 要在当前“互联网+”背景下,应用大数据挖掘技术提高知识服务的智能化、个性化、自动化水平,实现智慧性的知识服务是图书馆服务的发展趋势。首先提出基于大数据挖掘的图书馆智慧服务模型,通过用户群挖掘、用户兴趣挖掘、学科和领域知识挖掘、业务关联挖掘来沟通大数据应用和智慧服务需求;然后提出基于Hadoop平台的图书馆大数据挖掘技术支撑体系,为智慧服务应用落地提供技术方案;最后探讨大数据挖掘支持下的场景化知识推荐服务和微知识自动问答服务。Key图书馆;智慧服务;大数据挖掘;场景化知识推荐;微知识自动问答DOI:10.3969/j.i

2、ssn.1008-0821.2017.11.013G250.76 A 1008-0821(2017)11-0081-06The Smart Service of Library from the Perspective of Big Data MiningModel,Technology and ServiceLiu Yijun1,3 He Sheng1,3 Xiong Taichun2 Feng Xinling1,3 Wu Qunhui2(1.School of Computer Engineering,Jiangsu University of Technology,Changzhou 2

3、13001,China;2.Library,Jiangsu University of Technology,Changzhou 213001,China;3.Key Laboratory of Cloud Computing & Intelligent Information Processing of Changzhou City,Changzhou 213001,China)AbstractUnder the current background of Internet+,using the big data mining technology to promote the level

4、of intellectualization,personalization and automation of knowledge service to realize the smart knowledge service is the development trend of library service.Firstly,the smart service model of library based on big data mining was proposed,and user group mining,user interest mining,subject and domain

5、 knowledge mining and business association mining were used to bridge the gap between the big data application and requirements of smart service.Then the technical support system of library big data mining based on Hadoop platform was suggested to provide technical solution for implementation of sma

6、rt service applications.And finally,the scenario knowledge recommendation service and the automatic micro-knowledge Q&A service with the support of big data mining were discussed.Key wordslibrary;smart service;big data mining;scenario knowledge recommendation;automatic micro-knowledge Q&A1 大數据环境下图书馆

7、智慧服务研究现状梳理1.1 “智慧性”知识服务是图书馆智慧服务的核心随着网络和信息技术的发展,图书馆服务在历经文献服务、信息服务、知识服务3个阶段后,正在智慧图书馆环境下迈入智慧服务阶段。图书馆智慧服务内涵丰富,而“智慧性”知识服务是其核心。芬兰学者Aittola M等1最早提出,智慧图书馆为用户提供一种可被感知的打破空间限制的移动图书馆服务。北京邮电大学董晓霞等2认为,智慧图书馆通过对物联网等感知数据的分析和处理,为用户提供泛在的智能化服务。黄幼菲3-4认为,公共智慧服务是知识服务的高级阶段,帮助用户“易知”、“易用”和“易悟”知识。陈远等5认为,智慧服务包含智慧的服务和为智慧而服务两个层面

8、的含义,前者阐释了技术智慧和服务智慧,后者表达了智慧服务在“转知为慧”方面的作用,即激发用户的知识创新。李小涛等6指出,智慧服务具有个性化、智能化的特点,能让用户充分吸收、利用知识,实现知识创新与增值。武汉大学曾子明等7综合各方观点,提出智慧服务是提供“智慧性”的知识服务,具有泛在化、个性化、主动性需求,为用户解决问题提供新的知识理念、创造新的知识服务模式。在图书馆智慧服务的实践方面也有诸多探索。陈臣8构建了基于读者行为大数据分析的图书馆个性化智慧服务体系。曾子明等9设计了融合情境的智慧图书馆个性化服务模型和体系,根据用户情境数据,如位置的实时变化,进行文献图书精准导航。Kiril Antev

9、ski等10提出了一种基于低功耗蓝牙和WiFi的混合定位系统,用于在智慧图书馆中创建学习群,使图书馆中有相同兴趣的用户可以一起学习讨论。endprint1.2 大数据是图书馆智慧服务的重要资源在当前“互联网+”背景下,大数据成为图书馆智慧服务的重要资源。南京大学苏新宁11认为图书馆建设应采用大数据思维,从大数据的角度考虑图书馆的各类问题及其解决方法,把数字图书馆作为“互联网+”的重要分子。陈卫静12探讨了智慧图书馆大数据的构成及其智慧分析,认为其大数据主要由用户行为数据、海量资源数据、自身业务流程数据三者构成。豆洪青等13探讨了“互联网+”给图书馆发展带来的变革,指出互联网+图书馆是以用户数据

10、为驱动源,强调图书馆用户社区构建、线上线下服务的协同、用户的互动与分享、用户粘性与个性化场景服务。作为一种全新的互联网应用,社交网络具有强调分享和深度互动的特点,它被图书馆应用以拓展服务,吸引特定用户群,创建多面的个性化服务14-15。微信、QQ等丰富多彩的社交工具的应用产生了大量半结构化、非结构化数据。运用大数据思维,加强大数据建设能为图书馆改善服务和制定决策提供精确的数据支撑16。1.3 大数据挖掘是图书馆服务“转知成智”、“转识成慧”的关键 在处理和分析数据量巨大、数据类型丰富、增长迅速的大数据时,数据挖掘技术的重要性日益凸显17。挖掘大数据蕴含的知识和价值成为图书馆实现智慧服务的关键。

11、中国人民大学孙涛18提出,智慧化地提供知识服务,需要深入挖掘海量信息,进行知识发现与获取、组织与整合、开发与利用。储节旺等19讨论了智慧科技在智慧图书馆建设中的运用,指出数据挖掘技术是关键支撑组件之一,它将海量知识资源和用户大数据动态串联起来,最大程度地开发其价值。田梅20认为,智慧服务是基于对信息资源进行深度知识挖掘以及具有用户需求分析功能的专家系统服务。黄幼菲3-4认为,实现智慧服务需要注重知识挖掘工作,对文献资料知识进行深度挖掘,以促使用户对知识的应用、创新,“转知成智”、“转识成慧”。2 基于大数据挖掘的图书馆智慧服务模型综合学界观点,作者认为图书館智慧服务的核心服务模式至少有4方面:

12、1)智慧性的群体知识共享,促使知识隐性到显性的转化、知识转移和传播,使知识“易知”;2)智慧性的知识推荐和推送,根据用户兴趣和需求,为用户提供泛在化、个性化、场景化的知识服务,使知识“易用”;3)智慧性的知识导航,为用户提供知识主题、热点、发展趋势、知识关联和拓展,使知识“易悟”。4)智慧性的图书馆业务优化,以用户需求为导向,开展阅读推广、讲座等活动。互联网技术使图书馆资源之间、用户之间、用户和资源之间的互联和协同达到前所未有的广度和深度。特别是随着阅读终端的多样化和社交工具的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源包括3大类:1)用户数据

13、:用户行为数据,包括显式行为数据和隐式行为数据,终端感知数据、社交数据等;2)知识资源数据;3)业务流程数据。其构成见表1。大数据挖掘是使图书馆大数据发挥作用的关键技术之一。本文提出图1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘技术作为沟通图书馆大数据应用和智慧服务需求的桥梁。1)用户群挖掘挖掘用户群,实现群体知识共享。依据用户个人工作经历、科研方向等基础数据,以及微信、微博、论坛等社交数据,构建大规模社会网络,应用分类、聚类、频繁模式发现等挖掘方法挖掘用户群社区或关键人物,研究隐性知识到显性知识的转化、知识的转移和传播,实现用户群知识共享。2)用户兴趣挖掘挖掘用户兴趣,实现个性化

14、、场景化、泛在化的知识推荐和推送。分析用户显式和隐式行为大数据,以及手机、平板等阅读终端感知数据,挖掘用户深层需求,根据用户当前所处的特殊场景,分领域、分层次、分阶段向用户推荐各类资源,实现智慧性的知识推荐和推送。3)学科和领域知识挖掘挖掘学科和领域知识,实现自动知识导航。建立学科和领域知识语义网络,结合共词分析和聚类分析方法,依据Key和关键字挖掘知识主题及主题关联,获得学科知识热点;加入时间纬度,可以表现学科研究动态变化、发展方向;挖掘学科知识图谱,使基于问答语料的生成式知识问答成为可能。4)业务关联挖掘挖掘业务关联,实现业务优化。对咨询数据、检索查新数据、资源采购数据等管理数据进行关联规

15、则分析,发现用户需求相关的各种关联,如某时间段、某类用户与某种业务需求的关联等,优化图书馆业务流程;对流通数据与外部数据进行关联规则分析,发现如进馆人数与天气的关联、某时间节点或某事件与进馆人数的关联,为图书馆开展阅读推广、讲座等服务活动提供支持。3 面向智慧服务的大数据挖掘技术体系3.1 基于Hadoop的技术支撑体系“互联网+”催生了图书馆大数据,海量数据的实时计算和挖掘成为图书馆大数据智慧服务应用真正落地的关键问题。江苏大学刘桂锋等21探讨了图书馆大数据知识服务生态体系构建,提出以目前流行的Hadoop大数据处理平台实现图书馆大数据管理系统。梁俊荣22设计了基于Hadoop的图书馆大数据

16、存储系统。柳益君等23针对高校图书馆个性化服务需求设计了基于Hadoop的大数据挖掘方案。何胜等24在Hadoop平台上将用户行为本体建模和大数据挖掘技术相结合为用户提供个性化服务。智慧服务要求高实时性,面向智慧服务的图书馆大数据挖掘除了静态大数据,还需要考虑大流量动态数据,进行实时数据分析和动态整合,发现有价值的知识25。Hadoop本身并不是一个产品,而是由多个软件产品构成的一个生态系统,共同为大数据分析服务。本文构建了基于Hadoop的图书馆大数据挖掘技术支撑体系,以支持图书馆大数据的实时计算和挖掘,见图2。3.2 图书馆大数据收集、存储和处理endprint图2最底层是图书馆大数据收集

17、。外部行业动态、行业新闻等信息可通过Nutch、Heritrix等开源网络爬虫系统从互联网上采集,而图书馆内部产生的数据则可以通过Cloudera提供的Flume系统进行采集。Flume是一个开源的分布式海量日志收集系统,安全可靠,可以将用户的访问日志定期传送并保存到分布式存储中,以供后续跟踪和分析。在图2的图书馆大数据存储层,Hadoop的HDFS提供了最基本的持久化分布式文件系统。HDFS适于存储数据查询和处理要求不高的信息,例如图书情报学界近一年的重大新闻集合。对于高级应用开发,HBase和MongoDB则提供了类似关系型数据库的功能。HBase的列式存储便于数据定义的随时更改,且适于大

18、规模本体数据、知识库和知识图谱的存储、查询。MongoDB的嵌入式文档则支持复杂的层级结构,为存储欠缺规范的社交文本大数据提供了更高的灵活性。应用开发者不必一开始就严格定义用户访问日志格式,而是可以随着应用需求的不断更新而变化。Redis、Berkeley DB和Memcached等支持非持久化的数据库则为HBase和MongoDB數据库提供了缓存机制,从而大幅度提升系统响应速度,降低持久化存储的压力。在图2的图书馆大数据处理层,Hadoop的MapReduce和Spark Core核心组件皆是为批量处理而设计,使用映射和规约的思想可以进行海量数据的分析和操作。比如,可以统计最近行业新闻里发生

19、的重大事件,近期用户检索文献产生的热门Key。Spark SQL融合多数据源的不同格式结构化数据,为熟悉关系型SQL语言的使用者提供了捷径,他们可以对Spark数据执行类SQL查询。但是,为了提供泛在性、实时性的图书馆智慧服务,还需要进行大数据实时处理,例如,新闻和用户行为往往都是实时发生的,若批量处理则延迟太高。利用Kafka消息机制,可以将数据的变化及时推送到各个数据处理系统进行增量更新。Spark Streaming则在映射和规约的思想基础上提供流式计算框架,进一步提升处理的实时性。3.3 大数据挖掘算法及其应用大数据挖掘可以使图书馆大数据产生更大价值,展现出数据智慧。与大数据收集、存储

20、和处理的3个基础设施相比,数据挖掘在过去的二三十年间已经得到了充分的发展。然而,在大数据时代,数据挖掘面临着新的挑战,传统的理论模型遇到海量数据后,单机无法应付,基于Hadoop的大数据计算框架为其分布实现提供了解决方案。在图2的图书馆大数据挖掘层,MLlib、Mahout、R皆是可以运行在Hadoop平台上的数据统计、挖掘和分析软件。其中,MLlib是Spark中可扩展的数据挖掘和机器学习库,不仅包括分类、回归、聚类、协同过滤等各类传统算法,还融入了新兴的深度学习算法。表2列出了MLlib库中主要大数据挖掘算法,以及它们在图书馆智慧服务大数据分析中的应用。在图2所示的智慧服务应用层中,Luc

21、ene是Apache提出的一个开源全文搜索引擎工具包,Solr和Elasticsearch则是两个基于Lucene实现的搜索服务器,可以为检索、推荐、推送、知识导航、知识问答等应用提供实现基础。将大数据挖掘获得的数据智慧融入各种服务应用,为用户提供高质量的智慧性知识服务。4 大数据挖掘支持的智慧服务探讨应用大数据挖掘技术,使大数据展现数据智慧,进而为用户提供智慧服务是图书馆服务的发展趋势。本文对大数据挖掘支持下的场景化知识推荐和微知识自动问答两种智慧服务作简单探讨。4.1 场景化知识推荐服务图书馆场景化的知识推荐服务根据用户当前所处的特殊场景向其推荐知识资源。而区分标定当前特殊场景,需要利用所

22、有与人机交互相关的情境信息26。在互联网+图书馆,图书馆随时随地接入的“3W”(Whoever,Whenever,Wherever)目标成为现实。智能手机、平板电脑等智能移动终端的应用不仅为用户提供便利,也为场景化知识推荐提供了丰富的情境信息。实时感知并挖掘移动情境数据,可以为用户提供实时动态的个性化推荐,使知识资源推荐与用户所处场景高度契合,更好地满足用户的需求,使知识易用。时间和位置是两种重要的移动情境信息,可以利用多种传感器收集,如全球定位系统GPS、WiFi、蓝牙等。移动情境的个性化推荐关键在于用户行为模式挖掘,通过分类与回归等挖掘算法,揭示用户个人偏好和生活规律,进而提升推荐效率。例

23、如,通过分析用户的移动情境日志,发现某位学生在周六日上午1000左右,习惯于在自习教室内用平板电脑浏览计算机专业电子书籍,便可以根据该学生的行为规律,在该时间段向他集中推送最新计算机专业书籍、多媒体资源等,从而有效地提升用户体验,使用户更易接受推荐结果。4.2 微知识自动问答服务自动问答系统是一种新型智能检索系统,用户以自然语言查询作为输入,系统查找并返回答案。其特点是直接给出用户所需要的答案,而不是传统的排序文档。目前,一些高校图书馆,如清华大学、南京大学、哈尔滨工业大学的图书馆,已经引入自动问答系统为用户提供咨询服务27-29,但是,这些问答系统主要提供信息咨询服务,比如向图书馆推荐购买新

24、书、借阅书籍的超期费用、研修间预约等,在提供知识服务方面还有待深入。作为一种语义网络,知识图谱表达了各类实体、概念及其之间的语义关系。可以通过对知识图谱的深度学习,挖掘其中的知识,最后以自然语言的形式将知识提供给用户。近年来,有学者将深度学习技术用于自动问答系统,取得了良好的效果30-33。Jun Yin等30应用卷积神经网络对知识图谱进行深度学习,构建了简单知识的问答系统。侯志江34提出了“微知识”的概念,微知识可以直接被用户使用,具有现成化、碎片化、通俗易懂化等特点,侯志江认为图书馆可以借鉴百度知道、新浪爱问、知乎等问答式网站的经验,打造开放、共建的微知识库,为用户提供微知识服务。作者认为

25、,知识图谱和深度学习技术相融合的智能问答系统为图书馆自动微知识服务提供了可能性和可行性,可以使图书馆自动问答系统从信息服务上升到知识服务层次,以比问答式网站更主动、更智能的方式,为诸多高学历高水平用户提供专业性、权威性、本地性的微知识。随着知识图谱和深度学习技术的发展,微知识自动问答服务或将成为图书馆智慧服务新模式。endprint5 结束语在“互联网+”背景下,资源和数据的共享使数据量激增。应用大数据挖掘技术实施智能化、个性化、主动性的智慧服务,进而推进知识创新是图书馆服务发展的必然趋势。利用大数据挖掘方法发现图书馆大数据蕴含的知识和智慧,满足智慧性的群体知识共享、知识推荐、知识导航等智慧服

26、务需求;基于Hadoop平台的图书馆大数据挖掘技术支撑体系可以完成大数据收集、存储和处理,实现图书馆大数据实时挖掘;在大数据挖掘的支持下,场景化知识推荐、微知识自动问答等智慧服务成为图书馆服务的新模式。本文的研究对图书馆应用大数据挖掘方法和技术实现智慧性知识服务有一定的借鉴意义。Reference1Aittola M,Ryhanen T,Ojala T.Smart Library:Location-Aware Mobile Library ServiceC.5th International Symposium on Human Computer Interaction with Mobile

27、 Devices and Services,2003:411-415.2董晓霞,龚向阳,张若林,等.智慧图书馆的定义、设计以及实现J.现代图书情报技术,2011,27(2):76-80.3黄幼菲.公共智慧服务图书馆知识服务的高级阶段J.情报资料工作,2012,33(5):83-88.4黄幼菲.图书馆知识服务的扬弃和“飞跃”:公共智慧服务J.情报理论与实践,2013,36(2):26-30.5陈远,许亮.面向用户泛在智慧服务的智慧图书馆构建J.图书馆杂志,2015,34(8):4-9.6李小涛,邱均平,余厚强,等.论智慧图书馆与知识可视化J.情报资料工作,2014,35(1):6-11.7曾子明

28、,金鹏.智慧图书馆个性化推荐服务体系及模式研究J.图书馆杂志,2015,34(12):16-22.8陈臣.图书馆个性化智慧服务体系的构建J.图书馆建设,2014,(11):37-45.9曾子明,陈贝贝.公共智慧服务融合情境的智慧图书馆个性化服务研究J.图书馆论坛,2016,(2):57-63.10Kiril Antevski,Alessandro E.C.Redondi,Razvan Pitic.A Hybrid BLE and Wi-Fi Localization System for the Creation of Study Groups in Smart LibrariesC.9th

29、IFIP Wireless and Mobile Networking Conference,2016:41-48.11苏新宁.大数据时代数字图书馆面临的机遇和挑战J.中国图书馆学报,2015,41 (6):4-12.12陈卫静.智慧图书馆在大数据环境下的智慧分析J.图书情报工作,2015,(S2):49-52.13豆洪青,劉柏嵩.互联网+图书馆:要素、模型与服务J.情报资料工作,2017,38(3):91-95.14Doralyn Rossmann,Scott W.H.Young.Social Media Optimization:Making Library Content Shareab

30、le and EngagingJ.Library Hi Tech,2015,33(4):526-544.15刘璇.图书馆领域社交网络应用研究述评与展望J.中国图书馆学报,2016,42(6):102-116.16陈远,蔡金奎,许亮.互联网思维环境下智慧图书馆发展的思考J.现代情报,2015,35(11):38-42.17洪亮,李雪思,周莉娜.领域跨越:数据挖掘的应用和发展趋势J.图书情报知识,2017,(4):22-32.18图书馆报.图书馆未来的样子“智慧图书馆”(上)EB/OL.图书馆报,https:/ aba,2017-06-05.19储节旺,李安.智慧图书馆的建设及其对技术和馆员的要求

31、J.图书情报工作,2015,59(15):27-34.20田梅.基于关联主义学习理论的智慧图书馆服务模式构建J.图书馆学研究,2014,(19):64-67.21刘桂锋,卢章平,化慧.图书馆大数据知识服务生态体系及其动力机制研究J.国家图书馆学刊,2016,25(3):52-60.22梁俊荣.基于Hadoop的图书馆复合大数据存储系统研究J.现代情报,2017,37(2):63-67.23柳益君,何胜,冯新翎,等.大数据挖掘在高校图书馆个性化服务中应用研究J.图书馆工作与研究,2017,(5):23-29.24何胜,冯新翎,武群辉,等.基于用户行为建模和大数据挖掘的图书馆个性化服务研究J.图书

32、情报工作,2017,61(1):40-46.25Jian Ruan,Shengbin Wang.Study on Innovation of Smart Library Service Model in the Era of Big DataC.4th International Conference on Electrical & Electronics Engineering and Computer Science,2016:1077-1081.endprint26陈恩红,徐童,田继雷,等.移动情境感知的个性化推荐技术J.中国计算机学会通讯,2013,9(3):18-24.27Yao Fei,Chengyu Zhang,Wu Chen.Smart Talking Robot Xiaotu:Participatory Library Service based on A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论