版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、近十年我国信息检索相关性研究现状分析一一基于共词分析的视角 摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息 检索的效率,推动信息检索的研究。本文将通过共词分析的方法,利用知识图谱对其进行可 视化分析研究。关键词:信息检索;相关性;共词分析刖言相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到17世纪 的早期图书馆用户认识到查找相关信息的问题。但由于客观原因,相关性只是作为一种朦胧 意识停留在人们头脑中,直到20世纪20年代少数学者Lotka (1926)、Zipf (1949)、Urquhart (1959)、Price (1965)才陆
2、续从各个领域开始了相关性的研究工作。在信息科学界Saracevic 认为Bradford是最先使用相关性一词的学者。其在20世纪30年代发表的文献的混沌状 态一文中首次提出“主题相关”的概念。而此后关于“相关性”的探讨并未引起学界更大 范围的关注。直到1958年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为 信息科学领域的一个重要概念被学术界认可。至此“相关性”逐渐成为信息科学尤其是信息 检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic认为信息科学之所 以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在 于相关性能够
3、解释科学交流中的诸多问题。足见“相关性”在信息科学中的重要地位。当前, 各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图 谱对其进行可视化处理分析。信息检索相关性基本概念对信息检索相关性基本概念方面的研究工作始于20世纪50年代末,各国学者借助数学 工具及各种概念提取方法从各个角度对“相关性”的含义及内容进行了深入剖析。而相关性 的基本概念研究以1976年为边界经历了刖后两个阶段第一阶段1959-1976的主要成果有 Maron和Kuhns利用概率论定义相关性的概念,提出相关性并非只是简单的是/非选择问题。 Rees认为相关性受文档所包含的信息概念的影响,认为相
4、关信息是对用户原来所具备的知 识而言有用的信息Goffman和Newill把相关性当成连接有效性的一种测度,并试图用数学 方法证明相关性(Relevance)与关联性(Relation)之间具有等价关系。Saracevic则建议从 文档、词与文献引用等各种文献特征上来定义检索的相关性。Cooper利用数理逻辑给相关 性做了一个明确的定义。Wilson则在Cooper研究的基础上对数理逻辑相关性描述做了进一 步扩充,并将“情境相关性”的概念首次引入到相关性的研究中,这些成果成为第二阶段研 究工作的基础。在第二阶段,1977年至今,由于相关性各领域研究成果的相继出现,使相 关性的概念描述也呈现出许
5、多新的时代特征。首先是从面向用户及认知方法的观点重新审视 相关性,认为相关性是个多维的认知概念,在很大程度上依赖于用户个人对信息的理解以及 信息需求的情境。相关性是一个动态的概念它依赖于信息与用户某一特定时间所需信息之间 关系质量的评价,以用户的观点来看,相关性是个复杂的、系统的、可测度的概念。其次是 一些学者试图给信息检索定义一个逻辑模型来理解相关性概念这项工作由Rijsbergen开创 之后又吸引了众多学者的参与。信息检索相关性共词分析2.1数据收集处理本文研究的数据收集是以中国知网(cnki)中文数据库中的期刊文献为基础,期刊来源 为SCI、EI、CSSCI,以“信息检索”并含“相关性”
6、作为主题进行检索,检索年限为 2004年至2013年,共检索文献95篇。对其关键词进行统计分析,共有关键词202个, 对其进行词频统计,将词频超过2次的关键词作为高频关键词,共有高频关键词42个 (表1),本文的数据分析将基于这些高频关键词。表1高频关键词及其频次统计关键词频次关键词频次信息检索59信息系统成功模型2相关性29信息素养2搜索引擎8信息检索模型2用户相关性5相关性判据2情报学4模糊聚类2评价4模糊矩阵2检索模型4模糊方法2查准率4可视化2用户交互3检索系统2信息检索系统3检索评价2相关性判断3关联理论2相关性反馈3个性化2相关度3次序效应2系统相关性3词频矩阵2网络信息检索3查询
7、扩展2数字图书馆3查全率2模型3测试集2跨语言信息检索3标准2检索3本体2用户需求2TEDS模型2用户行为2学术信息检索系统22.2建立共词矩阵在EXCEL表格中,删除低频关键词之后,对确定的42个关键词所在列进行两两配对, 统计其在文献同时出现的频次,建立透视表,并通过Ucinet软件将42个关键词建立共词矩 阵,图1为共词矩阵部分效果图。2.3分析数据结果本文利用社会网络分析软件Ucinet6.0版本和Netdraw2.0版本对获取的关键词数据进行 分析并绘制出社会网络分析图谱。2.3.1K-core 分析在本文中,首先使用Ucinet6.0软件建立共词矩阵的电子表格,然后采用Netdra
8、w2.0软件绘制科学知识图谱,在此基础上,采用K-core分析法进行社会网络分析,建立不同连接 度k核(最高为4)的共词网络图谱,经过处理后得到可视化结果,如图2所示,其中红色 代表关联度为4的关键词,绿色为关联度为3的关键词,蓝色为关联度为2的关键词,黑色 为关联度为1的关键词。测试集网络信息检索示准言息检索模型检索青报学g关性查全率字图书馆查询扩展相关度尸需求言息检素阿佥索模型模型查推率目美性反愦户行为羊用户交互模糊聚美语言信息检索K信息佥索系统模糊方法词频:矩阵/信息素养模糊矩阵系统相关性里M琴系折次序效应本体目户相关性个性化图2 K-core分析效果图2.3.2多维尺度分析使用Ucin
9、et6.0软件中的非量纲式多维尺度分析方法分析近十年我国信息检索相关性的 关键词的数据结构,统计这些关键词坐标,统计结果如表2所示,并形成散点图,效果如图 3所示。表2关键词分布坐标关键词X坐标Y坐标所处象限关键词X坐标Y坐标所处象限TEDS 模型-0.7941.984第2象限评价-0.234-0.438第3象限本体0.4-0.145第4象限情报学-0.0180.168第2象限标准-0.368-0.089第3象限数字图书馆-0.215-0.92第3象限测试集-0.8590.175第2象限搜索引擎-0.3170.409第2象限查全率-0.048-0.261第3象限网络信 息检索-0.7160.9
10、05第2象限查询扩展0.315-0.505第4象限系统相关性0.3170.358第1象限查准率-0.056-0.524第3象限相关度0.2530.135第1象限词频矩 阵0.676-0.556第4象限相关性0.023-0.057第4象限次序效 应-0.4490.128第2象限相关性 反馈0.902-0.545第4象限个性化-0.689-0.11第3象限相关性 判断-0.2310.057第2象限关联理 论0.540.056第1象限相关性 判据-0.4852.055第2象限检索-0.52-0.571第3象限信息检 索0.175-0.256第4象限检索模 型0.127-0.858第4象限信息检 索模
11、型-0.0620.363第2象限检索评 价-0.244-0.73第3象限信息检 索系统0.558-0.773第4象限检索系 统0.5420.268第1象限信息素养0.699-0.233第4象限可视化-1.1640.349第2象限信息系 统成功 模型-0.4052.366第2象限跨语言 信息检 索0.389-1.334第4象限学术信 息检索 系统-0.8032.397第2象限模糊方 法0.111-0.689第4象限用户交 互0.384-0.956第4象限模糊矩 阵0.6-0.374第4象限用户相 关性0.1270.471第1象限模糊聚 类0.846-0.061第4象限用户行 为0.057-1.1
12、02第4象限模型-0.4-0.284第3象限用户需 求1.036-0.275第4象限2.62.42.221.81.61.41.210.80.60.40.20-0.2-0.4-0.6-0.8-1-1.2学术信息检索系统系统成功模型TED率型相关性判据网络信息检索可视化测试集搜索引信息、检用户型系统相关检索系统次序效应关性判情报学相关度关联理论个性化 标准 相关性 本体 模糊聚类模型查全率信息检索模糊矩息素养用户需求评价模糊矩阵检索查准率 查询扩展词频矩阵关性反馈检索平价模索模型信息检索系统数字图书馆检索模型用户交互用户亍为跨语言信息检索-1.4-1.2-1-0.8-0.6-0.4-0.200.2
13、0.40.60.811.21.41.61.822.22.42.6图3多维尺度分析散点图分布效果图根据多维尺度分析图和表2的统计可以看出,42个关键词中,分布在第一象限的有: 关联理论、检索系统、系统相关性、相关度、用户相关性,共五个;分布在第二象限的有: TEDS模型、测试集、次序效应、可视化、情报、搜索引擎、网络信息检索、相关性判断、 相关性判据、信息检索模型、信息系统成功模型、学术信息检索系统;分布在第三象限的有: 标准、查全率、查准率、个性化、检索、检索评价、模型、评价、数字图书馆;分布在第四 象限的有:本体、查询扩展、词频矩阵、检索模型、跨语言信息检索、模糊方法、模糊矩阵、 模糊聚类、
14、相关性、相关性反馈、信息检索、信息检索系统、信息素养、用户交互、用户行 为、用户需求。信息检索相关性研究分析通过核心关键词所处的象限分布情况以及K-core分析图所示,我国信息检索相关性的 研究热点主要集中在两个方面:第一,信息检索系统的相关性评价标准及模型的研究,包括 查全率、查准率、相关度、TEDS模型、学术信息检索系统、信息系统成功模型等;第二, 有关用户的研究,包括用户需求、用户行为、用户相关性、信息素养等。3.1信息检索系统的相关性评价及模型研究对于信息检索系统的相关性评价研究是这一研究领域的研究重点,也一直是研究者们 关注的重点。传统的相关性评价指标为查全率和查准率,目前系统相关性
15、评价可用相关度作 为相关性好坏的评价指标,相关度是文档表示与查询表达式间的匹配程度,相关度越高则说 明文档与表达式越相近。作为相关性的量化指标相关度已广为接受。系统相关性评价的模 型包括布尔模型、向量空间模型、概率模型、模糊模型、逻辑模型、概念模型、网络模型等。信息检索系统是相关性评价的一个重要极点,检索系统性能的好坏直接影响到反馈结果 质量的高低,从而影响用户相关性的判断。从系统的角度看,提高信息检索的相关性可以从 以下五个方面来考虑:系统设计的用户观。信息组织的合理化。系统实现的智能化。 检索功能的全面化。相关算法的最优化。3.2与用户有关的信息检索系统相关性的关系研究信息检索的目的是要预
16、言信息对于用户需求的适用性,即信息能否满足用户需求或在 何种程度上满足用户需求,但情报检索系统所能提供给我们的只是信息表示和查询表示之 间的关系。一般认为相关性是最终用户对信息检索结果输出的认可或明确的判定,它隐含地 表明了用户对使用系统的满意程度。因此在信息检索的相关性研究中,与用户相关的研究显 得十分必要。用户是信息检索活动的主体,是检索结果的最终判定者和使用者,从提出信息需求的 时刻起,用户所进行的每一个步骤都与最后的检索结果相关,是相关性评价的另一极点。从 用户的角度看,提高信息检索相关性需提高信息用户的五种能力:提高用户对信息需求的 认知能力。提高用户对信息需求的表达能力。提高用户对检索系统的选择能力。提高 用户对领域知识的识别能力。提高用户对检索结果的判断能力。4.结论目前,信息检索的相关性研究已经越来越引起人们的重视,其发展也已经取得了一定的 成效。但纵观现有的研究成果,主要还是集中于相关性的理论探讨阶段。由于相关性研究领 域的技术不成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年佛山物业管理与运维服务合同
- 2024年加工设备租赁合同3篇
- 2024年度演艺活动演出合同与报酬支付3篇
- 2024年度软件开发人员聘用协议样本版B版
- 2024年度化妆品冷链运输与储存委托协议3篇
- 旅游景区地砖施工合同
- 城市供水水厂改造监理合同范例
- 科技馆照明安全管理办法
- 2024年二手房交易资金保障服务协议样本一
- 烟草制品采购合同调解书
- 上海中考语文一轮复习:综合运用提高题(教师版)
- 《EXCEL基础教程》课件
- 2025届高考语文复习:议论文拟题指导+课件
- 糖尿病足与压疮
- 2024年江苏省公务员录用考试《行测》题(A类)
- 人教版八年级英语上册期末复习选词填空练习
- 赔偿协议书范文模板电子版
- 文化遗产与自然遗产学习通超星期末考试答案章节答案2024年
- 反向开票政策解读课件
- 2024年军队文职(护理学)考前通关知识点必练题库(含答案)
- 2024年时事政治试题【带答案】
评论
0/150
提交评论