版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
社科文献检索(六)文献信息检索原理2023/2/61本课要点一、检索的意义二、检索的基本原理三、检索点四、检索手段五、检索效果2023/2/62一、检索的意义
“意义”一词有两个意义:
1、他清楚地阐释了“人文”这个术语的意义。
2、你们这样做到底有什么意义?在句1中的意思是“含义”,在句2中是“功用”。就前者而言:文献信息具有共享性,信息资源共享(informationresourcesharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索(searching)。2023/2/63检索的意义就后者而言:信息具有可扩充性,人们对信息的处理能力越强,信息扩充得就越快。检索在信息处理和增值中有重要意义。信息的检索、利用和创造是一个循环和增值的过程,人们通过工具检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具,再提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。
2023/2/64检索的意义进一步说,信息的检索是与信息的存贮对应的。从广义上讲,信息检索应包括信息存贮与检索两方面的含义。没有存储就无所谓检索。图书馆里没有书,就用不着检索;有了很多书,放了很多书架、甚至有很多书库,就需要检索,否则就找不到要用的那一本书。所以信息检索应包括信息存贮与检索两方面的含义。2023/2/65检索的意义存贮(informationstoring):将信息按一定的方式有序的组织起来。检索
(informationretrieval):根据用户特定的需求将相关信息准确的提取出来。所以当前更普遍使用的术语是信息存取。
信息存取
(informationaccess):"Access"该词源于计算机学科领域,指计算机访问文档或数据集的方式。引入信息检索范畴,则从本质上拓宽了检索的内涵及其应用。信息存取将所有信息的组织、检索活动及其先进的技术手段融合在一起。如果检索的对象是文献信息,那么就属于文献检索。
2023/2/66二、检索的基本原理
信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。
2023/2/67检索的基本原理
一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)相关的信息。
2023/2/68检索的基本原理匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。其图示如右:
2023/2/69三、检索点
检索点(accesspoint)是检索的出发点,切入点。
每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。
2023/2/610检索点文献信息特征是多方面的,可供用于文献检索的检索点很多。反映文献信息内容特征的有: 分类检索,按照图书的分类来检索主题检索;按照书或文章内容主题词(关键词)来检索反映文献外部特征的有:作者检索,按照书或文章的作者来检索名称检索,按照书名或篇名来检索号码检索,按照书刊号码来检索,
等等。2023/2/6111.分类检索广泛用于图书资料的是图书分类法。图书分类法的作用是指示用户根据学科内容检索图书资料,指导用户从开架书库(openshelf)中按类号顺序找到指定的图书及其内容相关的资料。许多出版物上都有“图书在版编目”CIP(CatalogingInPrint)。在我国出版的图书、专著上“图书在版编目”数据中有"中图法分类号"一项。2023/2/6122.主题检索
主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。我国出版的《汉语主题词表》是通用的汉语叙词表,分为自然科学和社会科学两个部分。《中国分类主题词表》是一部大型综合性的分类语言和主题语言兼容的文献标引工具,是一种新型的文献检索语言。词表共收录分类法类目5万多个,主题词(串)21万多条,包括社会科学和自然科学各学科领域的主题概念。2023/2/613
3.作者检索作者(author)检索是从文献的作者姓名出发来检索其文献。
"作者"广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoringbody)、译者(translator)等。
2023/2/6144.名称检索名称(title)检索点包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。2023/2/6155.号码检索号码包括文献的编号(number)、代码(code)等。
在对图书和期刊检索时常用到两个号码:国际标准书号ISBN(InternationalStandardBookNumber)及国际标准刊号ISSN(InternationalStandardSerialNumber),它们分别是一种图书和一种期刊的唯一标号。
2023/2/616国际标准书号ISBNISBN号有十位,分四段构成,第一段为组号,第二段为出版社编号,第三段为图书序号,第四段为校验码。如:
ISBN7-215-04848-9(《潇洒人生》)其中:组号有:0(英、美、加拿大、南非等英语区),1(其它英语区),2(法语区),3(德语区),4(日本),5(俄语区),7(中国),8(印度等),9(新加坡等东南亚地区)。
2023/2/617国际标准刊号ISSNISSN号有八位数字组成,前七位为出版物序号,最后一位为校验码。如:
ISSN
1008-4339(天津大学学报[社科版])2023/2/618检索点
由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点,比如:文献类型、文献属性、参考文献、语种、出版年份等检索点,它们提供了更多的检索途径。
2023/2/619四、检索手段
1.检索手段的分类2.计算机检索的优势3.计算机检索系统
2023/2/6201.检索手段的分类检索从技术手段上分有:手工检索(手检)和计算机检索(机检)
2023/2/621手工检索手工检索(manualretrieval)使用的多为印刷型或书本型检索(paper-basedretrieval)
工具,早些有检索卡片,现在使用最多的是检索刊,手检工具能提供的检索点十分有限,检索结果往往不尽人意。
2023/2/622计算机检索计算机检索(computer-basedretrieval)技术含量高,它通过数据库系统来实现的。机检不仅需要先进的技术设施,也要求较高的人的文化素质。
2023/2/6232、计算机检索的优势2、计算机检索的优势
计算机检索明显优于手工检索,主要表现为1)检索的信息量大,2)数据更新快,3)检索功能强,4)检索结果输出的多样性等。
2023/2/6241)检索的信息量大
且不说大型机器的海量存贮,一张普通光盘的信息存贮量就达650M,相当与几十万页的书。高密度的光盘可以容纳4G以上的信息。计算机若与全球网络相连,就能获得世界范围的信息。
2023/2/6252)数据更新快计算机处理与电子传输的迅速、数据的动态和即时、及时的更新、检索的实时性都是手检工具无法比拟的。但是我们也不能迷信计算机。有时候计算机业会让我们上当。商家常常说“电脑哪会有错”,坑害顾客。
2023/2/6263)检索功能强
机检系统可提供很多检索点,对一个检索点还可以同时取若干个检索属性值,从多点交叉切入,有多重限定,有多种组合方式,允许人机交互,能达到高效、高精度的检索效果。并具多库检索,多媒体和知识检索功能。2023/2/6274)检索结果输出的多样性用户可以选择各种输出形式和输出格式,比如屏幕显示、拷贝、下载、打印等都是常用的方式,输出的内容、格式和形式可选择或自行定义。
总的趋势是机检方将逐步取代手检方式。当前许多经典的印刷型工具都有其对应的电子数据格式、数据库,印刷工具则成了电子数据加工输出的"副产品",许多新生的数据库不再与印刷型工具有缘,仅有其电子版本。
2023/2/6283.计算机检索系统
1)信息主体。2)检索语言。
2023/2/6291)信息主体信息主体。这里指的是文献全文数据库、文献书目数据库等。
书目型数据库有字段,记录,文档等构成。文献全文数据库还包括文献的全文(文本型或照片型)2023/2/6302)
检索语言
检索语言。语言是一种人们用以交流沟通的重要工具,用于人与人之间的通信活动(communication)。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrievallanguage)。
2023/2/631检索语言的分类
A)根据检索语言不同的特征将检索语言进行分类。
2023/2/632检索语言的分类
B)按其规范的情况分类可分为:人工语言
(规范语言)
自然语言(非规范语言);
2023/2/633自然语言自然语言有较大的灵活性,使用随意,专指性强,查准率高。它能及时地反映最新出现的词汇,反映规范词难于表达的特定概念或新概念。在全文检索中自然语言独领风骚。大容量、高速、高性能的计算机检索系统的自动标引,使得自由词的全文检索,即自由文本检索(free-textsearch)占的比例越来越高。自然语言的缺点是由于它不规范,缺乏对词汇的控制能力,也无法指示概念之间的关系,影响到检索效率。
2023/2/634人工语言人工语言(规范语言)(artificiallanguage,controlledlanguage)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。
2023/2/635检索语言
在实际检索中,检索词的选择是个复杂的问题,必须考虑表达概念的准确与完善,通常是规范语言和非规范语言交混使用来满足各种不同的需要。
2023/2/636五、检索效果
检索效果(retrievaleffectiveness)的评价指标有6项,包括:收录范围查全率查准率响应时间用户负担输出形式。其中两个主要的衡量指标是查全率(Recallratio)和查准率(precisionratio),分别用R和P大写字母表示。
2023/2/637检索效果2023/2/638检索效果2023/2/639检索效果一系列的实验结果表明查全率与查准率之间存在互逆关系。即查全率高时,查准率较低,反之亦然。R和P各自的最佳状态是逼近100%,鱼和熊掌不可得兼。
2023/2/640检索效果
其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度产学研合作项目研发成果转化与知识产权保护协议4篇
- 2024版软件源码授权保密协议范本
- 二手房私人交易协议模板2024版B版
- 2025年度新能源电池研发与采购安装合同范本3篇
- 2025年度厂房修建与绿色建筑节能检测服务合同4篇
- 2025年度智慧城市建设规划与实施合同4篇
- 2025年度地理信息数据库建设测绘合同4篇
- 2025年度企业培训中心场地租赁及课程开发服务合同3篇
- 二零二五年度传统烟酒品牌传承保护协议
- 二零二五年度研学旅行安全保障及责任划分合同
- 银行2025年纪检工作计划
- 2024-2024年上海市高考英语试题及答案
- 注射泵管理规范及工作原理
- 山东省济南市2023-2024学年高二上学期期末考试化学试题 附答案
- 大唐电厂采购合同范例
- 国潮风中国风2025蛇年大吉蛇年模板
- GB/T 18724-2024印刷技术印刷品与印刷油墨耐各种试剂性的测定
- IEC 62368-1标准解读-中文
- 15J403-1-楼梯栏杆栏板(一)
- 2024年中考语文名句名篇默写分类汇编(解析版全国)
- 新煤矿防治水细则解读
评论
0/150
提交评论