计算机检索第二章网络信息资源检索与利用_第1页
计算机检索第二章网络信息资源检索与利用_第2页
计算机检索第二章网络信息资源检索与利用_第3页
计算机检索第二章网络信息资源检索与利用_第4页
计算机检索第二章网络信息资源检索与利用_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章网络信息资源检索与利用

第一节网络信息资源检索的概念和发展历程

第二节网络信息资源检索的基本技术

第三节网络信息资源检索策略的制定及调整

第一节网络信息资源检索的概念和发展历程

网络信息资源检索:是利用计算机通过网络来查找、

利用各种信息资源。

包括图书馆的公共书目(OPAC-Online

PublicAccessCatalogue)、各种联机数据库、

Internet上的信息资源等。

信息的特征

■一篇文章、一本书、一份报告等一般都有以下特征:

■外表特征:题目、作者、作者工作单位,专利和科技报告

还有专利号或报告号等,这些可以表征一篇特定文献的特

征可以在文献的封面或扉页,即不打开书本,或不看文献

的具体内容就可以确定一篇文献。

■内部特征:假如我们深入到文献内容中间,则可以发现还

可用另外两种方法来表征它:

a.一般,一篇文献都是论及某一方面的特定问题的,也就是

说,与论题相关的词出现的频率较大。以前的研究表明,

无论哪一种类型的文献,若对文献中出现的词进行频率统

计的话,会发现所有的词可分为三类:

■文献中出现频率最高的词是冠词、介词和连词等,即其本

身没有具体含义的词,如a、an、the>this>that>or、

and>in>on、wVh等;

■绝大部分词在文献中出现的频率较低;

■在文献中出现的频率既不高也不低的词,在文献中约3-20

个之间,这些词恰恰是与文献的主题相关度较大的词,我

们称之为文献的主题词或关键词。

b.另外,一篇文献还可以按照各种自然科学和社会

科学的分类方法进行归类,如《中图法》:

■0数、理、化

■01数学

■012初等数学

■0123初等几何

检索点:又称检索途径或检索标目,每条文

献记录均有内部特征,即信息内容,也有

与其相关的外部特征,即进行检索时的检

索点或途径。

检索点:

关键词检索:从文章作者所列出的、反映自己文献主题内爸的关

键词为出发点,来查找、林索文献信息的,关键词为检赛点。

题名检索:是以各种事物的名称为出发点来检索文献信息,题名

为检索点。

主题检索:是以反映文献内容的有关主题词作为检索点,主题词

是表达一定概念主题的规范化的名词术语。主题标引须有专门

的主题词表。

分会检索:把文献信息由卷所述的学科类别作为检索点,从计算

机系薪的文献数搪库审检索文献信息。

作者检索:包括司体作者,都是从文献的作者姓名出发来检索其

文献信息的,鸟索点是作者姓名。

号码检索:以文献信息的号码特征为检索点来检索文献信息的,

包括文献的编号(number)、代码(code)莓。

国冰怀/住中亏:弱际逋行的出版物代码,由13位阿拉伯数字

组成,ISBN号具有专指性,唯一代表某种书的某一版本,

2007年1月1日起正式使用13位ISBN号。

■前缀号:国际物品编码协会(ENA)为图书分配的商品代码。目前

使用978,预留979。

■组号:端号由国家、地区、语言或其他组织集团的代号。由国际书号

中心(InternationalISBNagency)负责分配。申府组号为一位数

字“7”

■出版社号:由国家标准书号中心负责分配,其位数视申请出版社图书

出版量夕少而异。

■书序号:由出版社负责管理分配,每个出版社所出各种图书的序号

■校验号:是校验ISBN编号是否合法。

■国际标准刊号:由以ISSN为前缀的8位数字

组成,

■前7位数字为单纯的数字序号,无任何特殊

含义,

■最后一位为计算机校验码。

■其结构形式是:

□ISSNXXXX-XXXX,如ISSN1002-

1027

网络信息资源检索的发展历程

脱机检索

联机检索

国际联机检索

单机光盘检索

光盘网络检索

Web信息资源检索

■1.脱机检索(50年代末~60年代中期)

三这时是计算机检索的原始时期。

三只能进行简单的检索。

b为满足专业检索人员定期批量处理用户的

情报要求。

三用户不能立刻获得检索结果O

■2.联机检索(60年代末~70年代初)

行1963年-1964年间,美国洛克希德导弹与宇航公

司的情报实验室建立了”人一机“对话的联机情

报检索系统(DIALOG的前身),此后在60年代

末到70年代初联机检索系统得以快速发展。国际

著名的DIALOG系统、ORBIT系统、MEDLINE系

统都是从这个时期发展起来的。

k用户可随时浏览检索结果

m由于这个阶段的计算机网络主要是通过电话线联

接,因而联机检索受到地区的限制

■3.国际联机检索(70年代中期一)

三卫星通讯技术的出现,使得联机检索系统

打破了地域限制。而数据库生产的迅速发

展及微机大量的涌现,更使得国际联机检

索蓬勃发展。

三联机检索系统进入发展的黄金时期。实现

了人类情报资源的共享。

■4.单机光盘检索(80年代■■)

三CD-ROM技术促使计算机检索成本迅速下

降(一张光盘可存贮600〔MB)兆字节机

读数据、成本价格便宜,而一张DVD光盘

的容量最少可达4.7G)

■5.光盘网络检索(90年代一)

三光盘网络是一种计算机网络,如图书馆局

域网

三实现多用户光盘资源共享

■6.Web信息资源检索(90年代末一)

-进入90年代后,随着网络技术的发展,尤

其是互联网的迅猛发展,使计算机检索进

入一个崭新的时期。

宅检索方法更简单,检索结果更全面

网络信息资源检索的特点

■检索速度快

■检索途径多

■更新快

■济源共享

■检索更方便灵活

■检索结果可以直接输出

网络信息检索系统的构成

■从物理构成来说,包括计算机硬件、软件和

数据库、通讯线路附3检索终端五部分

第二节网络信息资源检索的基本技术

计算机检索式(逻辑表达式):

检索词+有关算符

1、布尔逻辑算符

2、截词算符

3、位置算符

4、字段限定符

1、布尔逻辑检索(booleanlogic):

是当今检索理论中最成熟的理论之一,也是

构造检索表达式最基本、最简单的匹配模式。布

尔逻辑检索是通过布尔逻辑算符来实现的,这些

运算符能把一些具有简单概念的检索词(或检索

项)组配成为一个具有复杂概念的检索式,用以

表达用户的检索要求。

布尔逻辑运算符:逻辑与(AND)、逻辑或

(OR)、逻辑非(NOT)

逻辑与:AND

常用表示,检索时,命中信息同时含有两

个概念,专指性强。可以缩小检索范围,提高查

准率。

例如:查找“胰岛素治疗糖尿病”的检索式为:

胰岛素and糖尿病

逻辑或:OR

B

检索提问式:A+B或A❶rB

常用“+”表示,检索时,命中信息包含所有关于A

或B或同时有A和B的,可以扩大检索范围,提高查

全率。

例如:高清晰电视+HDTV

逻辑非:NOT

常用“一”表示,命中信息包含A、不包含B或同

时有A和B的,排除了不需要的检索词,可以排除不

必要的信息,提高查准率。

例如:能源-太阳能

使用逻辑算符时应注意的事项:

①逻辑算符的优先级为:NOT、AND、OR,可用括号

来改变优先顺序。

()>NOT>AND>OR

②在逻辑组配时,算符的两侧必须各留有一个空格。

2、截词检索(truncation)—截词符

截词是指将检索词在适当的地方截断,截词

检索是用截断词的一个局部进行的检索,凡是满

足这个截词所有字符(串)的记录,系统都为命中。

截词检索在西文数据库中广泛使用。是在词

干后可能变化的位置加上截词符号。检索词的单

复数形式,同一词英、美不同拼法,词根相同的

词都可用截词检索。这样既可减少检索词的输入

量,又可扩大查找范围,提高查全率。

按截词的位置划分

■前截断:又称左截断,截词符在词的左边,例如:

.magnetic

■中截断:截词符在词的中间,例如:organi?ation,

可以检索organisation、organization

■后截断:是前方一致检索,又称右截断,截词符

放在被截词的右边,是最常用的检索技术,例如:

librar*

根据截断的数量不同

■无限截断:是在检索词词干后面加一个截词符,

表示不限制词尾可变化的字符位数,即查找词干

相同的所有词。

例如:comput?,可以检索compute、

computed>computes>computing、computer、

computers>computerize...

■有限截断:是在检索词词干后面加若干个截词符,

表示限制可变化的字符数。

例如:educat**,可以检索educator、educated...

鼠?均可以表示截词的截断符号,各

检索系统有不同的规定,没有统一标准。

使用截词应注意的几个问题

一是截词符要紧接在词干后面,截词符和词干之间

不能有空格。

二是避免将检索词的词干截得过短,一般应在三个

字母以上。

三是截词应该使用得合理。一般不可能出现词尾变

化的单词,其后不必再使用截词。

四是从希望出现的单词中取尽可能多的公共字母作

为词干,以提高查准率

3、位置算符

用来规定检索词之间的位置关系的算符。

位置运算符的使用,进一步强化了对概念的限

制,比布尔逻辑运算符更能表达复杂的概念,并

避免AND逻辑组配产生的词义含糊或误检。

(1)W-With

•W算符是W此的缩写,表示在此算符两侧的检索词必须按

输入时的前后顺序排列,不能颠倒。所连接的词之间除可

以有一个空格、标点或连接号外不得夹有任何其他单词或

字母。

例:solarwenergy

•Wn(或nW)表示在此算符两侧的检索词必须按输入时的前

后顺序排、歹必、不能颠倒。但允许在连接的两个词之间最多

插入n个单兀词。

例:solar3wenergy

(2)N-Near

•N算符是Near的缩写,表示此算符两侧的检索词必须

紧密相连,所连接的词之间不允许插入任何其他单词或字

母。但词序可以颠倒。

例:intelligentNrobot

•Nn(或nN)表示在两个检索词之间最多可插入n个单词,

且两词的词序任意。

例:intelligent3Nrobot

(3)F-Field

同字段邻接

例:environmentFprotection

(4)P-Paragraph

同自然段邻接

例:environmentPprotection

(5)S-Sentence

同句邻接词序可以颠倒,两词必须出现在同一

句子中

例:environmentSprotection

使用位置算符时应注意的事项:

1、以上是计算机检索中常用的位置算符,但并非所

有的系统都可用,不同的检索系统有其自己的规

2、位置算符优先于逻辑算符。

3、位置算符的执行顺序是按语句中位置算符的输入

次序从左至右执行的。如有括号,则优先执行括

号内的位置算符。

4.字段检索(rangesearching)

字段检索即指定检索词出现的字段,被指定的

字段也称检索入口,检索时,系统只对指定字段

进行匹配运算,提高了效率和查准率。西文数据

库,字段检索常用代码来表示,如下表所示。

西文数据库常用字段

中文数据库常用字段

字段名称字段代码

AbstractsAB文摘

AuthorAU作者

CotporateSource、Organization、CompanyCS机构名称

Descriptor^SubjectDE叙词/主题词

DocumentTypeDT文献类型

Full-textFT全文

ISBNISBN国际标准书号

ISSNISSN国际标准连续出版物号

JoumalName、PublicationTitleJN期刊名称

Keyword、TopicKW关键词

LanguageLA语言

PublicationYearPY出版年

TitileTI题名

■常用字段:

篇(题)名字段TI=Title

文摘字段AB=Abstract

叙词字段DE=Descriptor

自由词字段ID=ldentified

著者字段AU=Author

著者机构字段CS=CorporateSource

刊名字段JN=Journal

出版年字段PY=publicationYear

文献类型字段DT=DocumentType

语种字段LA=Language

分类号字段CC=Classification

注意:目前各个检索系统所设立的字段是各不相同的,

即同一字段,也可能采用不同的字段代码表示。

如题名字段:EiCPXWeb中,用highway

transport*withinTI来表示;

OCLCFirstsearch中,用TI:highway

transport*来表示。

在进行字段检索时,为了避免出现检索误差,应先看

一下该数据库的使用指南或说明。

禁用词

■在西文数据库中,系统对信息进行标引时,不能

做标引词或检索词的词

■包括介词、冠词、代词、连接词、某些形容词或

副词等

■如a、and、for>in>she>should>the>well>

only

从课题名中确定检索词

六大方法:

■切分

■删除

■替换

■聚类

■补充

■限定

从课题名中确定检索词

切分:将课题语句分割为一个一个词。

例如:

“计算机情报检索方法”

可切分为:I计算机I情报I检索I方法I

从课题名中确定检索词

删除从语句切分出来的词中删除那些

(1)不具有检索意义的虚词(包括介词、连词、助

词、副词等)及其他非关键词;

(2)过分宽泛和过分具体的不必要的限定词,过分

宽泛难以触及问题实质,太狭义具体的限制词则

会挂一漏方;

(3)存在蕴涵关系的可合并词。

例如:

“基于Web的数据库”,经删除后,Web|数据库

稀土材料的研究现状及发展趋势少稀土材料

稀土材料钦铁硼的研究少铉铁硼

从课题名中确定检索词

■替换从课题语句中得来的词也许偏于模糊、宽

泛、狭窄或不可行,不能取得所希望的结果,这

时可以引入更明确、更具体、更本质、更可行的

概念词来替换原词。

例如:

稀土材料的研制少钺(Tb)镇(Er)(用户实际上是研

究饿饵材料)

空气中细菌的计算方法少空气污染的计算方法

从课题名中确定检索词

聚类即把切分、删除、替换后所得出的单元词

按语义概念进行同类合并,将那些可以相互等效、

相互替换、相互补充的同(近)义词、相关词归

成一组。聚类的实质是进行组面分析,将语句和

词转换成概念(组面)的集合。

从课题名中确定检索词

补充包括:

(1)补充来源词,即找出缩略词的来源词组,

将两者一并作为检索词;

(2)补充同义词和相关词(包括上位词、下位

词和同位词等)。

模拟计算机可以表示为:

高清电视HDTV:HDTVorHighDefinitionTelevision

模拟计算机+模拟系统*计算机

“毫米波”:“millimeterwave"or“millimetrewave”

从课题名中确定检索词

限定:

针对一词多义导致误检的问题,需采取限定措施,

即增加"限定词

具体方法有两种:

一是逻辑与*

二是逻辑非-

线路少线路*(电子+无线电+……)

线路少线路-(道路+车辆+……)

检索策略的制定及调整

1.概念的选取

(1)核心概念的选取:

变温条件下煤层损伤与瓦斯运移的热流固耦合模型

(2)发掘隐含概念:并购一剥离、拍卖;石质文物的保护

(3)考虑同义词包括术语和俗称:

保护conservation,preservation,protection

自行车■单车■脚踏车

(4)排除不必要的概念:使用专业数据库或通用词

(5)使用准确的代码:标准号、专利号、产品代码

2.数据库的选择

(1)合适的主题范畴(社科、工程技术、化学、

医学…)

(2)合适的数据库类型、年度范围(专利、标准、

期刊、书…)

3.检索策略的制定及调整

(1)拟定检索式:变温条件下煤层损伤与瓦斯运移的热流固耦

合模型

(非等温or变温)and(煤层and(损伤or破坏or损坏)or

煤岩体and(损伤or破坏or损乐and(尤斯or摩层攵

or燎气)and(运移or漂移or如动)and热流固

(2)如果检索结果太少,适当调整策略,以扩大检索范围(增

加同义词或隐含概念)a.热流固有没有同义词势-流-固;b.

去掉热流固;c..去掉第一个检索词(非等温or变温)

(3)如果检索结果太多,也要适当调整策略,以缩小检索范围

(增加概念(检索词)或用字段、年代等限制)。

(非等温or变温)and(煤层/标题and(损伤or破坏or损坏)

or煤岩祢and1损伤or破斥。匚谈坏))and(应斯or煤层气

or煤气)and佟移or漂移or运动)and热流周and(藕合

模型or数学模型。r数值模拟)

第一检索式结果为0

1索结果页

瑞就奈激谖策数字出懒踊的蒋亚铸函书醺亨丽藕闻薮手薛丽丽音画出版合作单而藤肄的萄原中心1购买知网卡I充值中心I奔阖藉西

当前位置:数字出版物超市>>中国学术贡献网络出版总库>>文献检索

简单检索标推检索专业检索引文检索学者检索科研基金检索句子检索工具书及知识元搜索文献出版来源

首先诘选择学科象域:

口到

二|发表时间具体日期V从

检索箭选历史:_________

《主题V排等温枝温_______1田1或含5|精确V)

本次检索条件:□□

_________困1或含.腰隔j由上精确vb

「主题=中英文扩展:串行)并且主并含7(主题7________

并含V《主题_________[用或含W恤坏|用精确V)

查看检索历史我收藏的检索式y损伤H螂

按学科类别分期;或含M假气」图画切

-II并含V(主题V瓦斯+煤层气

分俎词按文献篇数倒序排序________1由国含闯南I对1精确5b

并含V(1主题—v运移+漂移

123

口圉并含V二J图耦确R

用自动化技术(577)并含V(主题V热流固

,计菖机硬件技术(H6)

□仅限优先出版文献0中英文扩展检索g1在结果中检索Igg检索加1

0电力工业Q43)

电信技术“31》

,计算机软件及计算机应用(1的桧索结果分担菊选:(仅对前,万篇文献分组.取前的个分姐词,检索结果不错,生成检索报告定制或收藏本次检索式

无线电电子学(62)

分组分析方法:学科类别中文关犍词研究层次文献作者作者单位文献出版来源研究获得资助发表年度来源数据库不分组

回汽车工业⑸)

C仪器仪表工业(45)

排序:相关度发表时间被引频次下载频次显示方式题图|摘要显示记录数:10图]50

0金属学及金属工艺Q5)

「航空航天科学与工程■

Q0)全选共有记录136膝

「互联网技术(20)TindovsInternetExplorer区]’

「生物医学工程(20)序号文献来源发表时间被引频吹下载频次

匚;船舶工业(H)!\没检索到符合条件的结果,谙检三乏您设定的导航或检索条件.

【硕士】吉林大2010-05*

不建筑科学与工程U3)凶口1学018OQ8

,工业通用技术及设备(11)

检索司在工具书中的解葬:定I科技【期刊】电子与2010-03-X

EI口2封装2026

详细

基于嵌入式系统的CAN总统与基于嵌入©L一如由丹抵+…【硕士】华中科2009-0S1

国口3式系统的以太网的网关设计越,硫十甲机、大,技大学0154

详细

母腔

><《

s

w

画g

£器

-&-

«

煤®

黑s

2

i善

i

g五

E

®点

墨i

s

^—一

@

A变

s

起*喧

-

r

(

:三

亘叶i今

8

蒸i一

蹙%

辕n

)

+f

慧母司s钞

l好

―钞

f”鲁

毒.

罂K需居

孽„

Qet

i

S

w业

'

一s一

的口一E〕,

再去掉(变温+非等温)条件:89条。

第6条为煤层变形与瓦斯运移耦合系统动力学研究

孔海陵中国矿业大学【博士】中国矿业大学2009-

06-01

■可以看出变形也可以做为损伤的同义词,把

变形加进去

检索结果156条,太多,再把非等温”加上

嗦结果贞俭,£3

登录注明

@PKI血却何

不登瑞技线数字出版物超市I学科专业数字图书馆I数字图书馆超市[数字化学习研兖平台“I网络出版合作单位服务平台,客服中心上|购买知网卡I充值中心I手机版I杂志订阅I

当前位置:数字出版物超市>>中国学术攵献网络出版总库>>文献检索

简单检索标准检索[J专业检索引文检索学者检索科班基金检索句子检索工具书及知识元搜索文献出版来源

首先请选择学科银垓:

发表时间具体日期阊

检索帝选历史二::I>L____|»L

(主题▼

本次检素条件:田日11幅川或含511卜*1精确

|并含y

(■f主题=中英文扩展;:煤层:或者(主题”煤层i同|或含阕隰*JE3[精确V)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论