基于web数据挖掘的数字图书馆个性化服务模型研究_第1页
基于web数据挖掘的数字图书馆个性化服务模型研究_第2页
基于web数据挖掘的数字图书馆个性化服务模型研究_第3页
基于web数据挖掘的数字图书馆个性化服务模型研究_第4页
基于web数据挖掘的数字图书馆个性化服务模型研究_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于web数据挖掘的数字图书馆个性化服务模型研究

近年来,信息技术的成熟和完善迅速在多个领域普及,图书馆领域也不例外。图书馆作为信息资源收集、加工和服务的中心,随着信息技术的不断渗透,积累了丰富的数字信息资源,包括各种电子期刊、电子图书、光盘数据库、多媒体数据以及海量级的Web数据,也即产生了所谓的数字图书馆。如何才能使用户方便、快捷地在如此众多、各具特色的信息资源中找到目标,更好地为用户提供个性化的服务是数字图书馆服务过程中面临的一大难题。将Web数据挖掘技术应用于数字图书馆领域就是解决这一难题的有效途径之一。1数字图书馆的个性化服务1.1国外数字图书馆个性化服务系统现状1991年美国率先开始数字图书馆的研究,其后,英国、法国、日本、德国、意大利等国也相继进行数字图书馆研究。在数字图书馆个性化信息服务方面,这些国家同样也先行一步。目前,个性化数字图书馆在国外已经形成了初步成果,进入实际应用阶段。比较完善的数字图书馆个性化服务系统主要有美国洛杉矶国际研究实验室研究图书馆的MyLibrary@LANL系统、康纳尔大学图书馆的MyLibrary@Cornell系统、多伦多大学图书馆的MyLi-brary系统等,并在一定范围内得到推广,取得很好的社会效益;英国南安普敦大学使用Ontology技术描述用户个性化信息,并提出获取用户个性化信息的方法【1】。此外,美国华盛顿大学、北卡州立大学图书馆、加州数字图书馆、新加坡国立图书馆等都相继采用信息定制和推送等方式开发了自己的网络个性化服务系统,并收到了良好的应用效果【2】。(2)国内学界对数字图书馆个性化服务发展的观点我国对数字图书馆个性化服务的研究起步较晚,但近年有了突飞猛进的发展,已成为当前图书情报界研究的一个热点。早在1999年底,国家科技部支持的“中国数字图书馆示范系统”项目【3】中就提到了数字图书馆的个性化服务问题;2000年初,由北京大学余锦风教授负责承担的国家社会科学基金资助的“基于Web的数字图书馆定制服务系统”项目【4】开始研究开发实用的数字图书馆个性化定制系统。其后,因个性化服务对数字图书馆的重要性,研究者们更是给予了高度的关注,如李阳晖【5】等人从四个方面探讨数字图书馆个性化服务的发展动因;彭骏【6】等人对基于本体的个性化知识检索模型进行了研究,建立了基于本体的个性化知识检索模型;熊拥军【7】等人以关联挖掘理论为技术基础,设计出数字图书馆个性化推送服务模型;吴志强【8】等人对协同信息推荐应用于数字图书馆个性化服务领域进行了分析;王发社【9】利用SWOT分析法,具体分析了目前高校数字图书馆个性化服务的优势、劣势、机遇和威胁,并在此基础上提出了数字图书馆个性化服务应该采取的发展策略等。目前,已有一些个性化服务系统投入使用,如深圳市图书馆开发的ILASⅡ图书馆自动化集成系统捆绑的个性化服务子系统,专门为图书馆用户提供个性化的服务;中国科学院国家科学数字图书馆推出的个性化服务系统,是一个用户驱动的个性化集成定制门户;浙江大学图书馆的MyLibrary以及天津市图书馆的“网上家庭虚拟图书馆”等。总体看来这些系统虽然在一定范围内得到了应用,但在智能性、灵活性、针对性等方面还有待进一步完善。1.2为用户提供特色的信息服务所谓数字图书馆的个性化服务,是一种针对不同用户提供不同的服务策略和服务内容的服务模式,其实质就是以用户为中心,满足用户的个性特征和需求特征的服务。个性化服务是基于信息用户的信息使用行为、习惯、爱好、特点及用户特定的需要,向用户提供满足其个性化需求的信息内容和系统功能的一种服务。它既是一种能够满足数字图书馆用户的个体需求的服务,即根据用户提出的明确要求提供信息服务,或通过对用户特征、使用习惯的分析而主动的向用户提供其可能需要的信息服务,又是一种培养个性、引导需求的服务。个性化服务包括个性化和主动性两个方面。个性化的实质是针对性,即对不同的用户采用不同的服务策略,提供不同的服务内容;主动性则是指很少需要用户做什么,系统自动按照用户的信息需求提供相应的服务。个性化主动服务将使用户通过尽可能小的努力获得尽可能好的服务。1.3提供个人成长的和个性化的需求个人书架是数字图书馆为用户建立个性化的信息资源库,即私人数据库。在为用户提供个性化服务的过程中,以提供保存其私人信息的空间。用户找到的符合自己需求的资源收藏在私人数据库中,也称其为个人收藏夹。(2)用户兴趣识别数字图书馆个性化服务系统中应该建立用户的个人档案,可依据历史访问信息等识别用户兴趣,为用户分类。在不同类型的用户输入相同检索条件时,根据不同用户的兴趣爱好,过滤无关信息,从而提高检索结果的针对性,实现个性化检索。(3)信息反算机服务功能信息分类定制是指用户可以按照自己的目的和需求,设定所需信息资源的类型、表现形式、系统服务功能等。信息推送服务是运用推送技术来实现的一种个性化主动信息服务方式。推送技术又称“Web广播”,它是通过一定的标准和协议,在In-ternet上按照用户的需求,主动传送用户感兴趣的信息的一项计算机技术【10】。(4)智能代理技术的运用用户在检索信息时,有时很难清楚地知道自己的兴趣爱好和需求,或者用户知道自己的兴趣和需求,但却不知道如何贴切地表达出来。智能代理技术的运用很好地满足了用户的这一需要,它是一种能够完成委托任务的智能计算机系统,能模仿人的行为执行一定的任务,不需要或很少需要用户的干预和指导。智能代理通过跟踪用户在信息空间中的活动,自动捕捉用户的兴趣爱好,主动搜索并提供可能引起用户兴趣的信息【11】。2web挖掘技术Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和信息。Web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似,都是在对大量的数据进行分析的基础上,作出归纳性的推理,预测用户的行为。一般地,Web挖掘可以分为三类:Web内容挖掘(Webcontentmin-ing)、Web结构挖掘(Webstructuremining)、和Web使用模式的挖掘(Webusagemining)。这三类Web挖掘都可应用于数字图书馆领域,为数字图书馆更好地满足用户个性化服务提供技术支持。通常,Web数据挖掘的流程分为四个阶段:源数据的收集、数据预处理、进行挖掘、挖掘结果的分析。下面重点结合数字图书馆的特征分析源数据收集阶段的关键内容,其他阶段与普通领域基本相同,在此不再赘述。2.1记录和存储访问记录方式在Web挖掘中有一个很重要的步骤就是要为挖掘算法找到合适的数据。在数字图书馆领域进行Web数据挖掘的数据来源主要有以下两个方面:(1)服务器端数据的收集(ServerLevelCollec-tion)。可以从数字图书馆的Web服务器、代理服务器的Web日志(Weblog)文件中收集数据,此部分信息是最简单和最方便的数据来源,它记录了每一次网页请求信息。启动数字图书馆Web服务器的日志记录功能后,每当用户通过浏览器请求一个网页时,这个请求被记录在访问日志中。代理服务器就把所记录的信息保存在文本文件中,通常以“.txt”或“.log”作为文件的扩展名。数字图书馆Web日志文件是由一条条记录组成,一条记录就记录了用户对Web页面的一次访问。Web服务器的日志记录格式如表1所示:另外,数字图书馆Web服务器还可以存储其他的Web使用信息,比如Cookie,以及用户提交的查询数据等。Cookie是由服务器产生的,用于记录用户的状态或者访问路径。由于涉及到用户的隐私问题,使用Cookie需要用户的配合。查询数据是用户在查询自己需要的信息时在服务器端产生的记录。另外,服务器同时也记录文件的有关信息,例如,文件创建者、修改时间等。此外,用户的借阅数据也可用于进行个性化特征的分析。(2)包监测技术(packetsniffingtechnology)。包监测技术是指监视所有到达服务器的数据,提取其中的HTTP请求信息。此部分数据主要来自浏览者的点击流(Click_stream),用于考察用户的行为表现。网络底层信息监听过滤指监听整个网络的所有信息流量,并根据信息源主机、目标主机、服务协议端口等信息过滤掉不关心的垃圾数据,然后进行进一步的处理,如关键字的搜索等,最终将用户感兴趣的数据发送到给定的数据接受程序,存储到数据库中进行分析统计。其工作流程如图1所示。2.2利用前访问者的学习体验将Web数据挖掘技术应用于数字图书馆,可以发现许多有用信息,如访问者的兴趣爱好,频繁访问路径、用户的期望位置、重要页面等,从而为数字图书馆个性化服务提供了重要的信息基础。(1)eb签到访问Web站点的设计一般遵循一种分类结构,即一个页面下的子页面的组织是根据其子页面的类别来安排的。用户对Web站点访问,反映了用户的兴趣爱好。通常用户浏览某Web页面所用的时间与该Web页中字符的数目的比值能有效地揭示用户兴趣。用户在不感兴趣的页面的访问时间较短,在感兴趣的页面停留的时间较长。我们可以利用用户浏览路径信息和时间信息挖掘用户对页面信息的感兴趣程度,从而预测用户的兴趣爱好,为其定制个性化的访问空间。(2)用户访问页面的相关性对数字图书馆Web站点的链接结构的优化可以从两方面来考虑:一方面,通过对Weblog的挖掘,发现用户访问页面的相关性,从而对密切联系的网页之间增加链接,方便用户使用;另一方面,通过对Weblog的挖掘,发现用户的期望位置。如果在期望位置的访问频率高于对实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对数字图书馆Web站点的优化。(3)检索所产生的利益以数字图书馆历史访问记录为基础,通过Web数据挖掘技术分析出各用户所关注的重点领域及内容,从而使用户输入关键字后,只检索出该用户重点关注领域的内容或将该用户重点关注领域的检索结果排在前面,方便用户使用,从而提高了信息检索的个性化及智能性。(4)基于web数据挖掘的用户群体分析通过Web数据挖掘对已知类别的个体进行归纳,找出各类的特征属性,即分类模式。用户分类研究包括用户的分类、用户的属性和特征分析、用户满意度分析、学科交叉分析及学科发展方向预测等。数字图书馆可以应用Web数据挖掘技术对用户群体按照年龄、学历、学科等因素进行分类,将用户进行群体细分。通过这种手段,可以更清楚地了解用户,了解他们的特点,分析不同的群体借阅量,从而有针对性地提供不同的服务,以提高数字图书馆的服务质量。(5)利用资源优化服务通过对用户借阅的文献信息进行关联分析,可以及时去除旧的、使用较少的信息,而不断补充新的、需求较多的资源,包括书籍在内的其他资源都可以得到及时的优化。这样既可以优化各类资源,减少冗余的空间以及节省开销和成本,同时也提高了服务的效率。从而可以更加客观、全面、智能地建立馆藏资源,合理引导数字图书馆的馆藏建设。(6)问的路径及所使用的页面通过Web数据挖掘技术,可识别出数字图书馆网站内频繁访问的路径及所有页面中的重要页面(用户访问次数比较多的页面),这样就可将重要的分类信息及新书信息放在这些页面或频繁访问路径上,从而方便访问者浏览阅读,提高图书利用率。3基于web数据库的解用户需求分析工具将Web数据挖掘技术应用于数字图书馆领域,可为用户提供深层次的个性化服务,通过Web数据挖掘可从历史数据中发现用户的访问模式、用户兴趣以及资源之间的关联等信息。基于Web数据挖掘的数字图书馆个性化服务模型建立在数据仓库、联机分析和数据挖掘的基础之上,该模型是数字图书馆了解用户需求的综合分析工具,运行在网站的WebLog数据库、用户数据库或数据仓库之上。主要包括以下几部分(如图2所示):(1)数据提取和净化功能:用来根据挖掘目标从Web服务器日志数据库或数据仓库中抽取相关数据进行二义性分析,消除不一致性,为下一步挖掘提供优质的数据源。(2)数据挖掘功能:是一个挖掘驱动部件。它根据挖掘要求到Web数据挖掘算法库中去选择合适的挖掘方法,并且使用该方法去执行挖掘任务。(3)Web数据挖掘算法库:是一个数据挖掘分析方法的综合性算法库。它以插件的方法来组织各种挖掘算法,使各种方法可以方便的插入,实现了可扩充性和易选择性,同时它还可以不断的融入新的挖掘方法,从而提高挖掘的效率。(4)评估界面:以一种直观的方式来表现数据挖掘的结果,提供一个和分析人员交互的友好界面。(5)挖掘结果的输出功能:将挖掘结果用最直观的报表等形式输出。利用挖掘出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论