信息检索原理与技术课件_第1页
信息检索原理与技术课件_第2页
信息检索原理与技术课件_第3页
信息检索原理与技术课件_第4页
信息检索原理与技术课件_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

作业3分别利用清华同方《中国期刊全文数据库》、万方数据《学术期刊》、维普资讯《中文科技期刊数据库》检索所在院系任意一名教师在2006年以后发表的研究论文,下载其篇名、作者、期刊刊名及卷、期信息。并评价三个数据库的检索过程与结果。4信息检索原理与技术维普数据库源于重庆维普资讯有限公司1989年创建的《中文科技期刊篇名数据库》数据来源:1989年至今的8000余种期刊刊载的2000余万篇文献,并以每年180万篇的速度递增。分类体系:按照《中国图书馆分类法》进行分类,所有文献被分为8个专辑:社会科学、自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报。采用国际标准的PDF全文数据格式4信息检索原理与技术系统默认快速检索浏览器下载五种检索方式4信息检索原理与技术传统检索导航区检索方式切换概览区细阅区检索区4信息检索原理与技术模糊检索与精确检索4信息检索原理与技术精确检索4信息检索原理与技术高级检索4信息检索原理与技术4信息检索原理与技术高级检索同义词库使用4信息检索原理与技术4信息检索原理与技术4信息检索原理与技术高级检索同名作者库使用4信息检索原理与技术4信息检索原理与技术张三*Organ=(中国社科院研究生院,北京+中国社科院研究生院+中国社会科学院研究生院)4信息检索原理与技术专家检索(直接输入检索式)4信息检索原理与技术分类检索4信息检索原理与技术维普数据库的特点维普数据库的分类检索可以提供多个不同学科的交叉类目检索维普数据库除了具有一般检索功能外,还具有同义词库、同名作者库,用来提高查全率和查准率。值得注意的是,同义词功能只适用于三个检索字段:关键词、题名或题名与关键词;同名作者功能只适用于两个检索字段:作者、第一作者。4信息检索原理与技术万方数据库1)概况

是由中国科技信息研究所、万方数据集团公司开发的网上数据库联机检索系统。2)收录特色

以科技信息为主,也包括经济、金融、社会、文化、教育、卫生等各行业期刊。3)我馆资源我馆有访问权限的万方资源有数字化期刊、科技信息、中国学位论文全文数据库、中国学术会议论文全文数据库、中国标准数据库。4信息检索原理与技术万方数据资源系统数字化期刊:万方数据共收录期刊约6000种,覆盖哲学政法、社会科学、经济财政、教科文艺、基础科学、医药卫生、农业科学、工业技术等八大类别。中国学位论文全文数据库:该库由国家法定学位论文收藏机构——中国科技信息研究所提供,并委托万方数据加工建库,收录了自1980年以来我国自然科学领域博士、博士后及硕士研究生论文,其中学位论文全文超过152万篇。中国学术会议论文全文数据库:主要收录1998年以来国家级学会、协会、研究会组织召开的全国性学术会议论文,数据范围覆盖自然科学、工程技术、农林、医学等领域。中国标准数据库(2006年后未更新):标准是在一定地域或行业内统一的技术要求。本库收录了国内外的大量标准,包括中国国家发布的全部标准、某些行业的行业标准以及电气和电子工程师技术标准;收录了国际标准数据库、美英德等的国家标准,以及国际电工标准;还收录了某些国家的行业标准,如美国保险商实验所数据库、美国专业协会标准数据库、美国材料实验协会数据库、日本工业标准数据库等。4信息检索原理与技术4信息检索原理与技术信息检索原理与技术4信息检索原理与技术信息检索原理与技术信息检索基本原理计算机信息检索技术计算机信息检索流程

4信息检索原理与技术1、信息检索的基本原理

信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)

相关的信息。

信息集合需求集合相关信息4信息检索原理与技术信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:InformationNeed信息需求DocumentObjects文献对象Representation表述Representation标引Query信息提问IndexedObjects标引对象Comparison比较匹配Evaluation/Feedback评价/反馈RetrievedObjects检出对象4信息检索原理与技术信息检索点

检索点(accesspoint)是检索的出发点,常被称为“检索途径”(approach)。常用的检索途径有:

1)分类检索

2)主题检索

3)作者检索

4)名称检索

5)号码检索

反映文献的外部特征

反映文献内部(信息内容)特征4信息检索原理与技术1)分类检索(classification)

分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(classificationsystem)。

分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。较权威的图书分类法有:

国内:中国图书馆图书分类法(中图法)、中国科学院图书馆图书分类法(科图法)、中国人民大学图书馆分类法(人大法)

国外:杜威十进分类法(DeweyDecimalClassification,DDC)

国际十进分类法(UniversalDecimalClassification,UDC)美国国会图书馆分类法(LibraryofCongressClassification,LC)4信息检索原理与技术4信息检索原理与技术2)主题检索

主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词的合理选择与使用对检索结果的优劣直接相关。

通用词表:汉语主题词表

医学专业词表:美国医学主题词表MeSH、中国中医药主题词表4信息检索原理与技术3)作者检索

作者(author)检索是从文献的作者姓名出发来检索其文献。

“作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoringbody)、译者(translator)等此外,还有代表机构、团体作者(corporateauthor),包括作者所在单位(author'saffiliation)。

4信息检索原理与技术4)名称检索

名称(title)检索点是从各种事物的名称出发来检索文献信息。这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。数据库中常有名称索引。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如查找出版社信息,作者简介等。

4信息检索原理与技术5)号码检索

号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。比如分类号也是号码(特殊的号码检索)。它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。4信息检索原理与技术图书期刊的号码国际标准书号ISBN:InternationalStandardBookNumber国际标准刊号ISSN:InternationalStandardSerialNumberISBN号:十位分四段构成,

例如:0-471-81086-x其中:0:组号(语种、地区)

组号有:0(英、美、加拿大、南非等英语区),1(其它英语区),2(法语区),3(德语区),4(日本),5(俄语区),7(中国),8(印度等),9(新加坡等东南亚地区)。

471:出版社编号

81086:图书序号

x:一位效验码(x代表10)。4信息检索原理与技术4信息检索原理与技术ISSN号:

ISSN有八位数字组成,例如:1000-6761其中:1000-676:前七位为出版物序号,

1:最后一位为校验码。

由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点,比如:作者单位、文献类型、文献属性、参考文献、语种、出版年份等检索点,它们提供了更多的检索途径。4信息检索原理与技术4信息检索原理与技术2、计算机信息检索技术初级检索技术A.逻辑运算B.截词检索C.位置检索D.检索字段控制4信息检索原理与技术A.逻辑运算(布尔算符)

用来表示两个检索词之间的逻辑关系,常用的有三种;逻辑(and)、逻辑或(or)和逻辑非(not)。这里用A和B分别代表两个检索词,它们的逻辑关系由下表和图说明。

在逻辑算符中,其运算优先级顺序一般为:NOT、AND、OR。但可用括号改变它们之间的运算顺序。应先运算括号内的式子。4信息检索原理与技术B.截词检索

截词符也称通配符,用来对检索词(干)进行扩展。其作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。4信息检索原理与技术C.位置检索

位置算符(proximationoperator),表示其连接的两个检索词之间的位置关系,常用的有(W),(nW),(N),(nN),(L),(S),(F)等。4信息检索原理与技术D.检索字段控制

检索字段符是对检索词出现的字段范围进行限定,执行时,机器只对指定的字段进行检索,经常应用于检索结果的调整。检索字段符分作两类:后缀式和前缀式。后缀式对应基本索引,如标题、文摘、关键词等,反映文献的主题内容;前缀式对应辅助索引,如语种、出版年、分类号、机构等,反映文献的外部特征,用“=”连结。4信息检索原理与技术D.检索字段控制例如:(minicomputer/DEORpersonalcomputer/ID)ANDPY=2002这个检索式所表达的检索要求是:查找2002年出版的关于微电脑或者个人电脑的文献,并要求“微电脑”一词在命中文献的叙词字段出现,“个人电脑”一词在命中文献的自由词字段出现。4信息检索原理与技术2、计算机信息检索技术高级检索技术A.加权检索B.自然语言检索C.相关信息反馈检索D.模糊检索E.概念检索4信息检索原理与技术A.加权检索加权检索,即在检索时,给某个检索词一定的权值,以表示其重要程度。计算机检索时,首先在数据库中找到满足提问词的文献,然后对提问词加权,文献按匹配的检索词权数之和从大到小排列。设定检索阈值,当文献的权值大于阈值时,输出命中文献。4信息检索原理与技术

例如:W=计算机(1)情报检索(4)自动化(2)组合号包含的提问词权和数计算机自动化情报检索1√√√72√√63√√54√45√√36√27√14信息检索原理与技术加权检索加权检索的优点是可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,表达式简捷。它的缺点是,加权法提问式含义不如逻辑式那么明显直观,而且在盲目地给出权数的情况下容易出现误检。4信息检索原理与技术B.自然语言检索自然语言检索,指用户在检索时可输入自然语言表达的检索要求。例如,用户输入检索提问:“pleasefindformesomethingaboutautomobilesaleinNewYorkstate”,检索工具会按照提问检索出关于在纽约州(NewYorkstate)汽车销售(automobilesale)的信息。这种检索的基本处理过程是:检索工具在收到用户提问后,首先利用一个禁用词表从提问中剔除那些没有实质主题意义的词汇,然后将余下的词汇作为关键词进行检索。例如,各种副词、介词、代词、常用请求词(please、help、would、may等)、检索提问词(find、search、locate、check、information、materials等)例如,纽约州(NewYorkstate)、汽车销售(automobilesale)4信息检索原理与技术B.自然语言检索自然语言检索的效果取决于检索工具选择关键词的效率,而这方面仍然面临一些问题,如禁用词表的构成。中文分词的难题切分歧义新词识别ExampleExample4信息检索原理与技术切分歧义“和服”?

“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。“中将”?在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。“拍卖”?

“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”

,Next4信息检索原理与技术新词识别

新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,机构名、地名、产品名、商标名、简称、省略语等。

Example:“王军虎去广州了”中,“王军虎”是个词,在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

4信息检索原理与技术C.相关信息反馈检索在检索过程中人们会发现某个结果非常符合自己需要,因此希望能进一步检索到与该结果类似的结果,这称之为相关信息反馈检索。在网络环境中,相关信息反馈检索可由检索工具自动进行。例如,Excite的“Searchformoredocumentslikethisone”检索、Lycos的“MoreLikeThis”检索、google的“类似网页”检索,以及百度的“相关搜索”等。

4信息检索原理与技术C.相关信息反馈检索相关信息反馈检索的基本原理:是检索工具将用户所选定的结果网页中包含的关键词找出,通过它们在这个网页中出现的频率和位置等来计算各自的相关度,然后选出相关度较高的词汇作为下一步检索的检索词。但由于词汇选择只考虑了词汇出现的频率和位置,而没有考虑用户对各个词汇重要性的主观判断,所以其结果并不一定非常合适。4信息检索原理与技术D.模糊检索模糊检索,指允许检索词和检索提问之间存在一定的差异,这种差异即“模糊”在检索中的含义。模糊检索中所指的差异往往来自于用户在输入检索提问时的输入错误,如少键入一个字,打错一个字母等等。另一类差异来自某些词汇不同的拼写形式,例如,单复数,“catalog”和“catalogue”。这时检索工具应该能够检索到用正确词汇或其它变形形式标引的结果,而不是简单地告诉“输入错误”或“没有结果”。4信息检索原理与技术E.概念检索概念检索,是指当用户输入一个检索词后,检索工具不仅能检索出包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一类概念的词汇的结果。例如,检索“automobile”时能找出包含“automobile”、“car”、“truck”、“van”、“bus”等任一词汇的结果。又如,在查找“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检得。在此意义上,概念检索实现了受控检索语言的一部分功用,即考虑到了同义词、广义词和狭义词的使用。至今为止,Excite在概念检索方面取得了比较明显的成就。4信息检索原理与技术4信息检索原理与技术4信息检索原理与技术3、计算机信息检索流程检索课题主题分析选择检索系统选择数据库确定检索点/词制定检索式计算机处理数据库索引词典原文标引分析结果检验用户NY4信息检索原理与技术信息检索的程序1、明确检索的目的2、检索前的准备工作3、选择检索系统和数据库4、规划检索程序5、分析检索结果4信息检索原理与技术1、明确检索目的4信息检索原理与技术确定检索目的

分析课题,确定检索主题确定检索的范围:地理、时间段、文献类型等预期所需文献信息数量4信息检索原理与技术2、检索前的准备工作

明确学科通用的关键检索词是否对特定的作者、专家学者的研究感兴趣?

是否有特定的出版机构的文献与你的研究主题相关?其它?4信息检索原理与技术

检索要求:新、准、全

如要了解科技的最新动态、学科的进展、了解前沿、探索未知,则强调一个"新"字;

如要解决研究中的具体问题,则要强调一个"准"字;

如要了解一个全过程、写综述、作鉴定、报成果,就要回溯大量文献,要求检索的全面、详尽、系统,则要强调一个"全"字。4信息检索原理与技术3

、选择检索系统和数据库

掌握数据库资源所覆盖的学科范围掌握各种数据收录文献的类型查看数据库的详细介绍和说明请教图书馆员介绍检索的最佳数据库4信息检索原理与技术检索点与检索词的选择

利用学科通用的关键检索词,从篇名、文摘、正文入手进行检索。利用检索到的文献,从检索结果中选择检索词扩展、替换现有检索词。已知有关文献的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论