网络知识挖掘在数字参考咨询中的实现_第1页
网络知识挖掘在数字参考咨询中的实现_第2页
网络知识挖掘在数字参考咨询中的实现_第3页
网络知识挖掘在数字参考咨询中的实现_第4页
网络知识挖掘在数字参考咨询中的实现_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络知识挖掘在数字参考咨询中的实现【内容提要】文章着重阐述了网络知识挖掘产生的背景及其概念、技术,讨论了网络知识挖掘在数字参考咨询效劳中的应用。【摘要题】信息需求与效劳【关键词】数字参考咨询/数据挖掘/网络知识挖掘【正文】1网络知识挖掘产生的背景及其概念、技术对知识挖掘的设想始于20世纪80年代末。当时出现了从源数据中开掘新信息形式及算法,被称为数据中的知识发现knledgedisveryindatabase,kdd。这种想法的出现是由于此前的信息或知识数据库存在着种种局限,限制了对数据库中蕴涵知识的有效利用1。知识发现被认为是今后具有重要影响和应用前景的关键技术。知识发现knledgedis

2、very也称数据挖掘dataining,源自人工智能的机器学习领域,是在一个状态的数据集上,通过设定一定的学习算法,从数据中获取所需的知识2。数据挖掘广泛应用于数据仓库和分布式数据库中,根据数据间的互相关系进展数据分析,提取潜在有用的信息和知识,经挖掘后被发现的知识可用于信息管理、查询优化、科学研究、决策支持、过程控制等。现有的数据挖掘工具有:delquestiner、knledgeseeker、businessiner、ansertree等几十种。数据挖掘是网络知识挖掘的基矗网络知识挖掘是指利用数据挖掘技术,自动地从由异构数据组成的网络文档中发现和抽取知识,从概念及相关因素的延伸比拟上找出用

3、户需要的深层次知识的过程3。网络知识挖掘可分为网络内容挖掘ebntentining、网络构造挖掘ebnstrutining、网络使用挖掘ebusageining。一般而言,网络知识挖掘的发现技术主要包括以下几个方面。1.1途径分析可以用许多曲线图解法来进展途径分析,一个曲线代表了eb页面间或者其他事物之间的一些联络。1.2关联规那么关联规那么用于发现数据项之间的联络,在网络挖掘中就是发现某一顾客的引用页面和效劳器上多种页面之间的联络。1.3序列形式应用序列形式是为了发现一些交互形式,如在一时间段内某一数据项后面跟着另一个数据项。在效劳器日志文件中,记录了一段时间内客户的访问信息,对eb效劳器中

4、访问日志的序列模型分析可以使用企业预测用户访问形式,帮助广告进展目的定位,发如今一个时间段内访问某一文件的所有客户的一样特征等。1.4聚类和分类根据一些数据项的共同特征来对数据库进展分类。在网络挖掘中,分类技术可以基于用户的一些人口统计信息和访问形式对访问某文档的用户进展偏好描绘。聚类分析可以将有相似特征的用户或者数据聚集在一起,聚类eb日志的用户信息和数据可用来制定将来市场营销策略4。2网络知识挖掘与数字参考咨询知识库的建立数字参考咨询的概念起源于20世纪80年代的美国,早期的电子邮件咨询效劳起源于1984年的华盛顿大学安康科学图书馆和马里兰巴尔迪摩大学安康图书馆5。在美国,图书馆界对数字图

5、书馆的开展存在两种看法,其中一种把图书馆看作是一个在图书馆员的协助下为广阔用户提供智能效劳的透明的知识网络。数字参考台就是根据这种意见建立起来的对话式的智能效劳系统6。数字参考咨询是伴随着数字图书馆的研究和理论热潮出现的又一大热点,也是网络环境下列图书馆参考咨询效劳的主流开展方向。利用网络知识挖掘技术,可以理解用户访问图书馆的目的和趋势,理解用户的兴趣和需求,改良效劳质量,变被动效劳为主动效劳,进步数字参考咨询效劳的效率。数字化信息资源是数字参考咨询的物质根底,它由各类知识库构成。数字参考咨询是从积累知识库到进展知识效劳,可以在面对面与用户沟通中判断用户的实际需求,由此来加深知识效劳层面的深度

6、和广度。知识库的建立直接影响到数字参考咨询效劳。可想而知,假如没有知识库或知识库内容非常少,仅凭咨询员个人的知识经历很难满足不同用户的各类需求。网络在提供丰富资源的同时,也给查找和获取有效信息带来了难度。传统的数据挖掘涉及的主要是构造化及半构造化的数据库,而网上的信息变化频繁且具动态性,是一个宏大而又复杂的异构型数据库,对网上的信息进展挖掘要比面向单个数据库复杂得多。数字资源的多元性和分散性,使数字化信息的知识化挖掘和链接成为信息效劳所面临的前沿挑战。因此,对数据的进一步加工和内容分析显得越来越重要。在这样的背景下,网络知识挖掘的新技术应运而生。网络知识挖掘的类型可分为对网络知识的挖掘和对用户

7、知识的挖掘。对网络知识的挖掘主要是指通过对网络信息的定性定量的增值处理,找出信息分布的规律,发现信息内在的关联性,挖掘隐藏在网络信息中的知识并形成模型。对用户知识的挖掘是指对用户访问网络时的信息和用户个人信息的挖掘。网站效劳器会保存用户的访问记录,记录关于用户访问和交互的信息,对此进展分析和挖掘,有助于理解用户的信息活动,理解用户的信息需求,从中得出用户的访问形式和访问兴趣,从而改良网站的构造,也可以用于为用户提供个性化的效劳7。此类知识库建立方法在实际中的应用如复旦大学,复旦大学的实时咨询提醒用户假如在线咨询员没有空闲,可以参考图书馆faq中的一些常见问题的解答;假如用户的问题仍未解决,不妨

8、使用电子邮件咨询效劳,或稍候使用实时在线咨询效劳。用户所提的问题及其相应答复可能被收入复旦大学图书馆参考咨询台后台知识库中,在知识库中用户的所有个人信息都会被删除,收入数据版权归复旦大学图书馆所有8。基于internet建立起来的知识库,其质量好坏直接影响数字参考咨询。作为信息资源的知识库,要形成一定的规模且检索便捷、内容新颖,可以不断地更新,以保持数据的准确、全面和及时。如当今世界上最大的图书馆网络l把互联网上的信息经过系统化的整理,通过主题词即可检索;且l的rldat数据库随时更新,每年以200多万条记录的速度增长9。l之所以始终保持在高新技术前列,是由于在研究开发上的大量投资。l平均每年

9、投资研究与开发工程达1000万美元以上,仅在2002-2022财政年度就投资1400万美元10。所以研究开发先进的知识挖掘、分析和提炼技术,形成一个丰富的知识库来满足用户的需求,进步用户的满意度,给用户更好的效劳,是做好数字参考咨询效劳所必需的。3网络知识挖掘为数字参考咨询提供技术支撑图书馆对新技术尤其是信息技术保持高度敏感。随着电子技术、计算机技术和通信技术的迅猛开展,互联网在全球范围得到迅速普及,同时多媒体技术、实时交互技术等与之配套的技术如雨后春笋般出现,这为图书馆开展数字参考咨询效劳提供了技术保障。经过几年的努力,图书馆的数字化建立与效劳已具备了较好的技术和硬件根底,这也为开展数字参考

10、咨询效劳提供了强有力的技术支撑。知识挖掘的技术根底是统计学与人工智能。知识挖掘的主要特点是能对原有的数据进展高度自动分析、归纳推理,从中挖掘出潜在的形式,预测用户的行为,帮助决策者调整策略,作出正确的决策。人工智能是以自动机为手段,通过模拟人类宏观外显的思维行为,从而高效率地解决现实世界问题的科学和技术。可以看出,人工智能的目的非常高,除需要复杂的算法外还需要特定的机器。但知识挖掘仅仅利用了人工智能中一些已经成熟的算法和技术,如人工神经网络artifiialneutralnetrks、遗传算法genetialgriths、决策树deisintrees、规那么推理ruleindutin即通过统计

11、学方法归纳提取有价值的if-then规那么,如关联规那么挖掘、模糊逻辑fuzzylgi、vs等11。数字参考咨询效劳无非是在保证提供符合用户要求的同时缩短提供时间和提供个性化效劳。数字参考咨询效劳的交流方式主要由解答式和交互式两种。前者是比拟初步而简单的效劳方式,如faq、非实时的电子邮件、eb表单、bbs和essagebard留言版等;后者主要是指实时性的交互形式,如2002年7月,l与美国国会图书馆协同研制开发推出网上结合数字参考咨询效劳questinpint。但不管是哪一种,如今的提供方式虽然也在借鉴和应用计算机的自动处理,但智能化的程度有待进步。其中最主要的一点是要进步对提问信息的分析

12、正确度,如何从提问信息中提取最相关的单词、词组,并对提取的单词、词组在已有知识库中进展准确无误匹配,这就用到词表技术。目前,词表技术研究的一个重要开展趋势就是与网络检索这类应用系统的结合。通过概念空间词表界面,用户可以随意输入任何一个单词或词组,这时搜索界面会在一个显示框中显示按与用户检索词相关程度排序的空间词汇,用户可以从中选择合意的词添加到搜索框中,从而检索出用户所需的信息,更进步检索的准确度。其次是对检索结果集的挑选和提炼问题。网络知识挖掘的目的是将用户从浩如烟海、错综复杂的网络信息源中解放出来,摆脱原始数据细节,直接与数据所反映的知识打交道,使处理结果以可读、精练、概括的形式呈现给用户

13、,使用户能把主要精力真正用到分析本质问题、进步工作效率和资源利用率方面。网络知识挖掘可以真正支撑起数字参考咨询效劳系统的显性知识与隐性知识全方位开发策略。目前对检索结果的挑选和提炼这个工作环节大局部是由人工完成的,虽然保证了质量,但随着以后工作量的日益增加,采取智能处理是必然趋势。知识挖掘虽然仍处在开展的前期,还有很多研究难题,但我们在建立数字参考咨询效劳系统的时候,必须考虑对知识管理功能的开发,预先设计好底层数据标准和二次开发接口等。4网络知识挖掘在数字参考咨询个性化效劳中的应用数字图书馆的内涵不仅仅应表达在其数字化资源的建立上,更应表达在效劳上。数字参考咨询效劳是数字图书馆建立的必然结果。

14、数字参考咨询的用户需求不仅是简单的查询,而且是需要深化内容的信息处理技术,希望摆脱表层信息的干扰,对网络数据作更深层次的分析与挖掘。这就要求图书馆从纷繁复杂的信息资源中,以面向“个人的方式来挖掘知识,提取真正有用的信息。这是数字图书馆建立中要考虑的问题之一,是做好数字参考咨询的前期基矗个性化效劳是指使用多种数据分析技术,根据用户兴趣的信息向用户及时、主动地推荐用户需要的且以往没有获得的知识资源信息,并能根据用户对推荐内容的反应进一步改良推荐结果。个性化效劳是一种高层次的智力技术活动,其重要的特点是知识增值与智能重组。网络知识挖掘工作运用最新的智能工具来挖掘蕴藏于海量显性信息中的隐性知识,并形成

15、专业知识库和知识仓库,将隐性知识显性化并给予管理、利用,非常符合网络用户对个性化、隐性知识的需求。网络知识挖掘在数字参考咨询个性化效劳中的应用主要表达在以下两个方面。4.1搜集与用户有关的信息,建立用户信息库通过各种方式搜集用户兴趣,比方表单、跟踪日志、系统导入等,从而建立用户个性化的信息库。1填写表单。数字参考咨询效劳可以在主页上提供个性化效劳的注册入口。在进入页面,设计一个表单,内容包括用户的背景信息,如用户的学历、年龄、职业、地域、要求等和用户的特殊信息,如感兴趣的专业、方向,想获取的信息以及获取方式和联络方式等。2跟踪日志。数字参考咨询效劳可以在用户进入图书馆网站开场,对用户的行为进展

16、跟踪,产生日志文件,并将该日志文件并入用户信息库。对用户的eb日志记录进展挖掘可以比拟真实地反映其信息需求。从eb日志记录中可以挖掘出关联形式、序列形式和eb访问趋势等,从而理解用户的反映和动机。3系统导入。通过结合图书馆方式将其它图书馆的用户信息库导入,也可以与其它网站合作,导入其用户数据。4.2利用知识挖掘技术,分析用户信息库为了开展个性化效劳,必须理解用户,理解用户的信息需求,包括显性需求和隐性需求,进展以下分析。1用户分类。通过对用户的兴趣、爱好、研究领域、知识构造、利用图书馆的程度和对图书馆提供效劳手段掌握的纯熟程度等方面,将用户进展分类。2用户行为分析。要将信息主动推送给用户,必须

17、理解用户的信息需求,它包括显性需求和隐性需求。显性需求是通过填问答表的方式理解,做到这一点比拟容易,关键是如何理解用户的隐性需求。隐性需求主要是系统通过观察用户信息使用行为,比方用户访问的页面、访问次数、逗留时间、保存行为等,以此来准确地获取用户的信息需要。要做到这一点,必须完善相应的人工智能方法和机器学习等技术。3用户反应挖掘。用户反应挖掘是通过自动聚类技术将用户相关反应的结果聚类,形成某些层次以描绘用户信息需求,详细包括关联聚类、矩阵聚类、标量聚类,其目的是找出用户感兴趣的区域。为了进步效劳质量,要求用户对所提供的信息作出反应,并将用户的反应信息再次分析、调整。如厦门大学图书馆在主页上列有

18、问题反应类目,包括留言讨论、馆长信箱、致信ebaster、鼓浪听涛xu-library版。4协同过滤。不考虑资源具有什么形式的详细内容,仅通过搜集到用户对一些资源的评价一般通过评级打分,比拟用户之间的兴趣相似程度间隔 ,根据他与其它用户之间兴趣的相似程度间隔 和其它用户对资源集合的评价进展资源的推荐和共享12。【参考文献】1李宏.知识管理与知识挖掘在情报研究工作中的实现.情报理论与理论,20223:199-2012晏创业,张玉峰.智能检索中的网络数据挖掘技术探究.中国图书馆学报,20023:49-513侯雅木冉.网络环境下的知识挖掘.情报科学,20228:887-8904史田华.论internet知识挖掘.图书情报知识,20023:44-465rutha.hdges.assess

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论