版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络知识开掘在数字参考咨询中的实现【内容提要】文章侧重阐述了网络知识开掘产生的配景及其观点、技能,探究了网络知识开掘在数字参考咨询办事中的应用。【摘要题】信息需求与办事【关键词】数字参考咨询/数据开掘/网络知识开掘【正文】1网络知识开掘产生的配景及其观点、技能对知识开掘的假想始于20世纪80年代末。其时出现了从源数据中掘客新信息形式及算法,被称为数据中的知识创造knledgedisveryindatabase,kdd。这种想法的出现是由于此前的信息或知识数据库存在着种种范围,限定了对数据库中蕴涵知识的有效利用1。知识创造被以为是以后具有紧张影响和应用远景的关键技能。知识创造knledgedis
2、very也称数据开掘dataining,源自人工智能的呆板学习范畴,是在一个状态的数据集上,通过设定一定的学习算法,从数据中猎取所需的知识2。数据开掘普及应用于数据堆栈和漫衍式数据库中,按照数据间的彼此干系举行数据阐发,提取埋伏有效的信息和知识,经开掘后被创造的知识可用于信息办理、查询优化、科学研究、决议支持、历程操纵等。现有的数据开掘东西有:delquestiner、knledgeseeker、businessiner、ansertree等几十种。数据开掘是网络知识开掘的基矗网络知识开掘是指利用数据开掘技能,主动地从由异构数据构成的网络文档中创造和抽取知识,从观点及相干因素的延伸比力上寻出用
3、户必要的深条理知识的历程3。网络知识开掘可分为网络内容开掘ebntentining、网络布局开掘ebnstrutining、网络利用开掘ebusageining。一样平常而言,网络知识开掘的创造技能重要包罗以下几个方面。1.1途径阐发可以用很多曲线图解法来举行途径阐发,一个曲线代表了eb页面间大概其他事物之间的一些接洽。1.2关联规矩关联规矩用于创造数据项之间的接洽,在网络开掘中就是创造某一主顾的引用页面和办事器上多种页面之间的接洽。1.3序列形式应用序列形式是为了创造一些交互形式,如在一时间段内某一数据项反面随着另一个数据项。在办事器日记文件中,记载了一段时间内客户的拜候信息,对eb办事器中
4、拜候日记的序列模子阐发可以利用企业猜测用户拜候形式,帮助告白举行目的定位,创造在一个时间段内拜候某一文件的全部客户的雷同特性等。1.4聚类和分类按照一些数据项的配合特性来对数据库举行分类。在网络开掘中,分类技能可以基于用户的一些生齿统计信息和拜候形式对拜候某文档的用户举行偏好形貌。聚类阐发可以将有相似特性的用户大概数据聚拢在一起,聚类eb日记的用户信息和数据可用来订定将来市场营销计谋4。2网络知识开掘与数字参考咨询知识库的创立数字参考咨询的观点劈头于20世纪80年代的美国,早期的电子邮件咨询办事劈头于1984年的华盛顿大学康健科学图书馆和马里兰巴尔迪摩大学康健图书馆5。在美国,图书馆界对数字图
5、书馆的生长存在两种见解,此中一种把图书馆看作是一个在图书馆员的帮助下为宽大用户提供智能办事的透明的知识网络。数字参考台就是按照这种意见创立起来的对话式的智能办事体系6。数字参考咨询是陪同着数字图书馆的研究和理论高潮出现的又一大热门,也是网络情况以下图书馆参考咨询办事的主流生长标的目的。利用网络知识开掘技能,可以相识用户拜候图书馆的目的和趋势,相识用户的爱好和需求,革新办事质量,变被动办事为主动办事,进步数字参考咨询办事的服从。数字化信息资源是数字参考咨询的物质底子,它由种种知识库构成。数字参考咨询是从积聚知识库到举行知识办事,可以在面劈面与用户雷同中断定用户的实际需求,由此来加深知识办事层面的
6、深度和广度。知识库的建立直接影响到数字参考咨询办事。可想而知,假设没有知识库或知识库内容非常少,仅凭咨询员小我私家的知识履历很难满意差异用户的种种需求。网络在提供富厚资源的同时,也给查寻和猎取有效信息带来了难度。传统的数据开掘涉及的重要是布局化及半布局化的数据库,而网上的信息变革频仍且具动态性,是一个宏大而又庞大的异构型数据库,对网上的信息举行开掘要比面向单个数据库庞大得多。数字资源的多元性和疏散性,使数字化信息的知识化开掘和链接成为信息办事所面对的前沿挑衅。因此,对数据的进一步加工和内容阐发显得越来越紧张。在如许的配景下,网络知识开掘的新技能应运而生。网络知识开掘的范例可分为对网络知识的开掘
7、和对用户知识的开掘。对网络知识的开掘重要是指通过对网络信息的定性定量的增值处置惩罚,寻出信息漫衍的纪律,创造信息内涵的关联性,开掘隐蔽在网络信息中的知识并形成模子。对用户知识的开掘是指对用户拜候网络时的信息和用户小我私家信息的开掘。网站办事器会保存用户的拜候记载,记载关于用户拜候和交互的信息,对此举行阐发和开掘,有助于明白用户的信息运动,相识用户的信息需求,从中得出用户的拜候形式和拜候爱好,从而革新网站的布局,也可以用于为用户提供本性化的办事7。此类知识库创立要领在实际中的应用如复旦大学,复旦大学的及时咨询提示用户假设在线咨询员没有空闲,可以参考图书馆faq中的一些常见题目的解答;假设用户的题
8、目仍未办理,不妨利用电子邮件咨询办事,或稍候利用及时在线咨询办事。用户所提的题目及其相应回复大概被收入复旦大学图书馆参考咨询台背景知识库中,在知识库中用户的全部小我私家信息都市被删除,收入数据版权归复旦大学图书馆全部8。基于internet建立起来的知识库,其质量优劣直接影响数字参考咨询。作为信息资源的知识库,要形成一定的范围且检索便捷、内容新奇,可以或许不竭地更新,以保持数据的正确、全面和及时。如当当代界上最大的图书馆网络l把互联网上的信息颠末体系化的整理,通过主题词即可检索;且l的rldat数据库随时更新,每年以200多万笔记载的速率增长9。l之以是始终保持在高新技能前线,是由于在研究开拓
9、上的大量投资。l均匀每年投资研究与开拓工程达1000万美元以上,仅在2002-2022财务年度就投资1400万美元10。以是研究开拓先辈的知识开掘、阐发和提炼技能,形成一个富厚的知识库来满意用户的需求,进步用户的满意度,给用户更好的办事,是做好数字参考咨询办事所必须的。3网络知识开掘为数字参考咨询提供技能支持图书馆对新技能尤其是信息技能保持高度敏感。随着电子技能、盘算机技能和通讯技能的迅猛生长,互联网在环球范畴得到敏捷普及,同时多媒体技能、及时交互技能等与之配套的技能如雨后春笋般出现,这为图书馆开展数字参考咨询办事提供了技能保障。颠末几年的积极,图书馆的数字化建立与办事已具备了较好的技能和硬件
10、底子,这也为开展数字参考咨询办事提供了强有力的技能支持。知识开掘的技能底子是统计学与人工智能。知识开掘的重要特点是能对原有的数据举行高度主动阐发、归纳推理,从中开掘出埋伏的形式,猜测用户的举动,帮助决议者调解计谋,作出准确的决议。人工智能是以主动机为本领,通过模拟人类宏不雅外显的头脑举动,从而高服从地办理实际天下题目的科学和技能。可以看出,人工智能的目的非常高,除必要庞大的算法外还必要特定的呆板。但知识开掘仅仅利用了人工智能中一些已经成熟的算法和技能,如人工神经网络artifiialneutralnetrks、遗传算法genetialgriths、决议树deisintrees、规矩推理rule
11、indutin即通过统计学要领归纳提取有代价的if-then规矩,如关联规矩开掘、模糊逻辑fuzzylgi、vs等11。数字参考咨询办事无非是在包管提供切适用户要求的同时收缩提供时间和提供本性化办事。数字参考咨询办事的交换方法重要由解答式和交互式两种。前者是比力开端而简朴的办事方法,如faq、非及时的电子邮件、eb表单、bbs和essagebard留言版等;后者重要是指及时性的交互形式,如2002年7月,l与美国国会图书馆协同研制开拓推出网上团结数字参考咨询办事questinpint。但不管是哪一种,如今的提供方法固然也在鉴戒和应用盘算机的主动处置惩罚,但智能化的程度有待进步。此中最重要的一点
12、是要进步对提问信息的阐发准确度,怎样从提问信息中提取最相干的单词、词组,并对提取的单词、词组在已有知识库中举行正确无误匹配,这就用到词表技能。如今,词表技能研究的一个紧张生长趋势就是与网络检索这类应用体系的团结。通过观点空间词表界面,用户可以随意输入任何一个单词或词组,这时搜刮界面会在一个表现框中表现按与用户检索词相干程度排序的空间词汇,用户可以从中选择合意的词添加到搜刮框中,从而检索出用户所需的信息,更进步检索的正确度。其次是对检索效果集的挑选和提炼题目。网络知识开掘的目的是将用户从浩如烟海、错综庞大的网络信息源中解放出来,挣脱原始数据细节,直接与数据所反响的知识打交道,使处置惩罚效果以可读
13、、简练、归纳综合的情势出现给用户,利用户能把重要精神真正用到阐发本质题目、进步事情服从和资源利用率方面。网络知识开掘可以或许真正支持起数字参考咨询办事体系的显性知识与隐性知识全方位开拓计谋。如今对检索效果的挑选和提炼这个事情环节大部门是由人工完成的,固然包管了质量,但随着以后事情量的日益增长,接纳智能处置惩罚是一定趋势。知识开掘固然仍处在生长的前期,另有很多研究困难,但我们在建立数字参考咨询办事体系的时间,必须思量对知识办理成效的开拓,预先方案好底层数据尺度和二次开拓接口等。4网络知识开掘在数字参考咨询本性化办事中的应用数字图书馆的内涵不但仅应表如今其数字化资源的建立上,更应表如今办事上。数字
14、参考咨询办事是数字图书馆建立的一定效果。数字参考咨询的用户需求不但是简朴的查询,并且是必要深化内容的信息处置惩罚技能,盼望挣脱表层信息的滋扰,对网络数据作更深条理的阐发与开掘。这就要求图书馆从纷繁庞大的信息资源中,以面向“小我私家的方法来开掘知识,提取真正有效的信息。这是数字图书馆建立中要思量的题目之一,是做好数字参考咨询的前期基矗本性化办事是指利用多种数据阐发技能,按照用户爱好的信息向用户及时、主动地保举用户必要的且以往没有得到的知识资源信息,并能按照用户对保举内容的反响进一步革新保举效果。本性化办事是一种高条理的智力技能运动,其紧张的特点是知识增值与智能重组。网络知识开掘事情运用最新的智能
15、东西来开掘蕴藏于海量显性信息中的隐性知识,并形成专业知识库和知识堆栈,将隐性知识显性化并赐与办理、利用,非常切合网络用户对本性化、隐性知识的需求。网络知识开掘在数字参考咨询本性化办事中的应用重要表如今以下两个方面。4.1网络与用户有关的信息,创立用户信息库通过种种方法网络用户爱好,好比表单、跟踪日记、体系导入等,从而创立用户本性化的信息库。1填写表单。数字参考咨询办事可以在主页上提供本性化办事的注册入口。在进入页面,方案一个表单,内容包罗用户的配景信息,如用户的学历、年事、职业、地区、要求等和用户的特别信息,如感爱好的专业、标的目的,想猎取的信息以及猎取方法和联结方法等。2跟踪日记。数字参考咨
16、询办事可以在用户进入图书馆网站开始,对用户的举动举行跟踪,产生日记文件,并将该日记文件并入用户信息库。对用户的eb日记记载举行开掘可以比力真实地反响其信息需求。从eb日记记载中可以开掘出关联形式、序列形式和eb拜候趋势等,从而明白用户的反响和动机。3体系导入。通过团结图书馆方法将别的图书馆的用户信息库导入,也可以与别的网站互助,导入其用户数据。4.2利用知识开掘技能,阐发用户信息库为了开展本性化办事,必须相识用户,相识用户的信息需求,包罗显性需求和隐性需求,举行以下阐发。1用户分类。通过对用户的爱好、爱好、研究范畴、知识布局、利用图书馆的程度和对图书馆提供办事本领把握的纯熟程度等方面,将用户举行分类。2用户举动阐发。要将信息主动推送给用户,必须相识用户的信息需求,它包罗显性需求和隐性需求。显性需求是通过填问答表的方法相识,做到这一点比力轻易,关键是怎样相识用户的隐性需求。隐性需求重要是体系通过不雅察用户信息利用举动,好比用户拜候的页面、拜候次数、停留时间、保存举动等,以此来正确地猎取用户的信息必要。要做到这一点,必须美满相应的人工智能要领和呆板学习等技能。3用户反响开掘。用户反响开掘是通过主动聚类技能将用户相干反响的效果聚类,形成某些条理以形貌用户信息需求,详细包罗关联聚类、矩阵聚类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024马脑山养殖户合同
- 2024楼顶广告牌安装合同范本
- 房产交易资金托管服务合同
- 社区环境卫生维护合同
- 授权经营合同范本
- 房屋建筑工程协议2024年
- 标准伤残赔偿协议书参考
- 2023年高考地理第一次模拟考试卷-(广东B卷)(考试版)A4
- 【人教版系列】四年级数学下册全册专项测评(含答案)
- 关于离婚协议书的撰写指南
- 辽宁省大连市金普新区2024-2025学年七年级上学期11月期中英语试题(无答案)
- 生态文明学习通超星期末考试答案章节答案2024年
- 区病案质控中心汇报
- 期中测试卷(1-4单元)(试题)2024-2025学年四年级上册数学人教版
- 教育局职业院校教师培训实施方案
- 《万维网服务大揭秘》课件 2024-2025学年人教版新教材初中信息技术七年级全一册
- 2024年新华社招聘应届毕业生及留学回国人员129人历年高频难、易错点500题模拟试题附带答案详解
- 人教版(2024新版)七年级上册英语Unit 5单元测试卷(含答案)
- 美食行业外卖平台配送效率提升方案
- 中国民用航空局信息中心招聘笔试题库2024
- 芯片设计基础知识题库100道及答案(完整版)
评论
0/150
提交评论