信息检索基本方法及技术_第1页
信息检索基本方法及技术_第2页
信息检索基本方法及技术_第3页
信息检索基本方法及技术_第4页
信息检索基本方法及技术_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.,信息检索基本方法及技术,.,一、信息需求 (一)文献信息需求 文献信息需求以获得一定的文献原文来满足人们的信息需要。 1、写论文需要的文献信息 主要是要求能给论文帮助的新的、有代表性的文献信息。2。2、科学研究需要的文献信息 要求能全面、系统地掌握某一阶段内相关的全部文献信息。 3、解决某种具体问题需要的文献信息 要求文献种能提供相同或相似情况下的解决方法。4、知识学习 要求较新的、成熟的学术性资源 (二)非文献信息需求 非文献信息需求以获得一定的有关事实或数据来服务人们。这种检索通常利用能直接提供事实或数据的工具来检索。,.,二、信息检索工具 (一)计算机检索工具 1、搜索引擎、元搜索引

2、擎;Google、Alltheweb、百度 飓风搜索通、 iTools 2、网络资源目录: yahoo、 BUBL LINK 3、各类网站:http:/sosig.esrc.bris.ac.uk、 、 、 、国家精品课程导航、EconWPA、 4、学术性检索系统: ISI Web of Knowledge、OVID、OCLC、 CNKI平台、NSTL、CSDL、CALIS、维普资讯、万方数据系统 5、数据库 (二)手工检索工具 二次文献、工具书 (三)线索检索工具、原文检索工具、馆藏检索工具,.,(四)各类文献的网络检索工具 1、图书信息检索工具 各地图书馆的公共

3、检索目录(OPAC)(Online Public Access Catalog) 联合目录数据库 Worldcad: 是由OCLC及其成员图书馆共同建设联机联合目录 数据库 CALIS 联合目录数据库 网上书店 A, 当当网上书店, 电子图书 超星数字图书馆, 书生之家, 北大方正Apabi 数字图书馆, 书同文, 读秀学术搜索 ,.,2、学术期刊检索工具 期刊收藏信息: OPAC和期刊联合目录 期刊内容信息: 中国期刊网中国期刊全文数据库 万方数据资源系统之数字化期刊子系统 中文科技期刊数据库 UnCover, :世界上规模最大、更速度最快 的期刊检索系统。 UMI-ProQuest、 OC

4、LC FirstSearch、Ovid、SciFinderScholar Wilson Web, Kluwer Online、Elsevier 、 Spring Link IEEE/IEE Electronic Direct Library(IEL) (The Institute of Electrical and Electronics Engineers/The Institute of Electrical Engineers),IEL是世界信息量最大的电子、工程类信息源之一。 电子期刊、期刊网站、集合型期刊,.,3、学位论文检索工具 UMI的学位论文服务, UMI还开发了PQDD 万方

5、数据系统学位论文库 中国优秀博硕士学位论文全文数据库 , Calis系统的学位论文数据库, 4、专利的检索工具 欧洲专利局专利检索网站, Delphion知识产权网, 世界知识产权组织的IPDL, 美国国家专利与商标局USPTO的网站, 国家知识产权局的专利检索平台, 中国专利信息网、中国知识产权网 易信专利信息网、万方系统专利数据库 CNKI中国专利数据库,.,标准信息的网上检索 国际标准化组织ISO Online, 中国标准服务网, 国家标准化管理委员会, 中国标准咨询网 美国国家标准学会ANSI,

6、,.,(五)参考信息的网上检索工具 百科知识: 不列颠百科全书网站(Encyclopedia Britannica Online), Mcgraw-Hill 科技百科全书网站 (McGraw-Hill Encyclopedia of Science & Technology Online/Access Science), 人物信息: Marquis Whos Who, Biographical dictionary, Biography Center, www.biography- Yahoo!People search, IAFInternet Finde

7、r, 3 A, 4. LOOK4U, ,.,地理信息 哥伦比亚利平特世界地名词典(The Columbia Lippincott gazetteer of the world, 3rd ed., New York: Columbia Univ. Pr., 1998) MapQuest, 图行天下中国地图搜索引擎, Lonely Planet, 是国际景点指南 Virtual Tourist, 旅游指南网站 E 预订网站 Sky Auction, 拍卖网站 中国旅游网 天下行旅游网 TripA 国际景点指南 最大的旅馆目录,.,时事、新闻 Google news, http:/ Yahoo ne

8、ws, http:/ news.Y AllTheWeb News, Cat=news 百度新闻, Newslibrary, 电视新闻档案文件 网络版年鉴选介 年鉴(almanac or yearbook)是指“以年为周期出版的统计数据和事实的汇编。” Infoplease, Fastfacts, 中国年鉴网, ,.,机构信息 政府机构、学术机构 World of learning online, Yearbook of International Organization On-Line, /organizations/ybon

9、line.php 联合国及其专门机构站点目录(WEB Site Locator for the UN System of Organizations,) 中国政府上网工程中心, FirstGov, /index.shtml 黄页信息 Yahoo黄页, Google(Google Local), Bigbook, SmartP, 中国大黄页 中华大黄页,.,词语信息 D, 美国传统英语词典, 韦氏大学词典, www. merriam- 牛津英语大词典, Longman Web Dictionary, 金山词霸在线,www.icib

10、a.ne 统计信息 1. UNESCO Institute for Statistics, 2. InfoNation, /Pubs/CyberSchoolBus 3. Your Nation, www.your- 4. ,.,三、检索语言,检索语言是根据文献检索需要创造的一种人工语言,又称检索标识。从反映文献特征的角度来看,那些代表了文献外表特征的著者姓名、题名、报告号、标准号、专利号、档案号等检索标识和代表了文献内容特征的类号、叙词、标题词和关键词都是检索语言。从检索标识规范化的角度来看,检索语言可分为自然语言检索标识和规范语言检索

11、标识。,.,分类检索语言 主题分类语言 其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而不是按逻辑顺序排列。 优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题揭示非常有利。 缺点:容量小,类目覆盖面十分有限。,.,科学分类语言 学科分类语言是以知识分类为基本,按照学科性质及从属、层次关系来组织资源,类目排序以字顺为标准。 优势:类目容量大,内容更有针对性,学术性更强,符合科技工作者族性检索的要求。 图书分类语言 目前采用的主要有杜威十进分类法(DDC)、国际十进分类法(UDC)、美国国会图书馆分类法(LCC)和中国图书馆图书分类法(中图法),.,.,.,二、主题法

12、与主题检索语言,主题检索语言是直接以代表文献内容特征和科学概念的词汇作为检索标识。主题语言可分为标题语言、叙词语言和关键词语言。它们的优点是:在表达主题内容方面具有较大的灵活性,抛弃了人为的号码系统,代之以通用的规范语言,并在各主题之间建立有机的参照系统,代替了等级制的直线排列。它使用组配和索引等方式,较好地满足多元检索的要求。,.,四、检索方法及检索途径,(一)检索方法 查找(Searching)就是实施检索策略、搜寻所得文献信息的过程。以下几种方法,无论是计算机还是手工检索,都是常用的方法。 1.“拉网法” 在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web 页面开始浏览,沿

13、着专题链接层层查找,直至找到有关的内容为止。然后用“书签”保存这个页面的URL,转向另一个分支。这种方法可以迅速获得较多的相关地址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应时间快的引擎。,.,2.引文法(跟踪法) 文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指明了与用户需求最密切的文献线索,往往包含了相似的观点、思路、方法,具有启发意义。,.,引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过,

14、以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。由远及近地追寻,越查资料越新,研究也就越深入,但这种查法主要依靠专门的引文索引,如 科学引文索引、社会科学引文索引 。,.,另一种较为普遍的查法是由近及远地追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。这种方法适合于历史研究或对背景资料的查询, 其缺点是越查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。因此,最好是选择综述、评论和质量较高的专著作为起点,它们所附的参考文献筛选严格,有时还附有评论。,.,3.常规法,所谓常规法就是利用常规检索工具查找有关文献的方法,是信息时代应掌握

15、的最基本的信息查找方法。现在对文献的书目控制手段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工具层出不穷,有很大的挑选余地。用户应根据自己的检索知识和条件选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。,.,4.排除、限定和合取法,这实际上是将信息加工的方法融入检索中去。思维中使用排除这一概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定。排除的结果必然是限定,反之亦然。,.,(二)检索途径(检索入口),所谓检索途径就是检索时切入

16、信息群体的路径。检索途径有两大类,一类是用信息的外部特征,如题名、责任者、某种序号、机构名等作为检索标识;另一类是用能够描述信息内容的分类号、关键词、主题词等作为检索标识。在数据库中检索时,几乎所有的字段都可以作为检索的途径。,.,分类检索 这种检索是根据信息内容的学科分类来进行的。最大的优点能保证信息的系统性,而且具有较好的族性检索功能。 分类检索的要点:1。对待检课题的概念及学科间的各种关系清楚;2。正确掌握相关课题的分类名称、分类号,手工检索中掌握工具的分类排检。,.,分类检索的步骤:,1。分析待检课题,确定其学科,并弄 清学科间的各种关系。 2。查出待检课题的分类号(工具简单时可以 省

17、略) 3。选择适当的检索工具 4。进入检索系统后选择分类号途径,并在对话框内 输入分类号,开始检索。 5。对比题目,阅览相关信息,选出所需信息,并下载相关信息 6。原文的索取,.,词汇检索,与分类号检索相比,词汇检索具有直观、灵活、专指性和适应性好的特点,同时检索速度也比分类检索快。 词汇检索的要点:首先是要选好检索词,正确理解词间关系,检索中还要注意词间关系的正确表达。常用的词汇检索有关键词检索和主题检索。计算机检索时,选择任意字段检索时,检索项也可以是各种词汇。,.,词汇检索的步骤: a、 分析课题,确定检索词及词间关系 b、选择适当的检索工具 c、选择词汇检索途径,在对话框内输入检索词

18、(注意词间关系的表达) d、 根据快捷显示,选出有用信息并下载。 e、 原文的索取,.,其他检索途径 1、题名检索 包括书名、刊名、篇名和其他信息的标题等 2、作者 3、机构 4、号码 分类号、 报告号、登记号、专利号、ISBN、ISSN 记录号等 5、来源 6、其他特殊途径,.,五、 基本检索技术 1、布尔检索 AND(默认、空格、+、all of these words) OR(必须大写,关键词1、关键词2,|,/,any of these words) NOT(-, none of these words) NEAR,.,下面以“计算机”和“文献检索” 两个词来解释三种逻辑算符的含义。

19、计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。 计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。 计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 这里需要说明的是,在Windows 环境下,尤其是在中文数据库及网站中,逻辑检索可以用算符将检索要求编成综合表达式向计算机一次输入检索提问,也可以用窗口上的逻辑指令按钮(与、或、非)进行分步组配提问和检索。,.,例 检索水稻和小麦不包括除草和施肥有关栽培的文献 (水稻 + 小麦) * 栽培 * (除草 + 施肥

20、) in TI,.,2. 截词检索(*、?) 截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。按截断字符数量分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。 综合搜索引擎一般不支持截词检索,.,后截断,中截断,前截断,无限截断,如: economic? ?,有限截断,截词检索与截词检索算符,economic,economics,economicst,economicalism,economic,economics,economicst,如: e

21、conomic*,如:wom?n,woman,women,一般仅允许有限截断,如: ?lish,sul*ur,sulfur,sulphur,无限截断,有限截断,前后截断,如: ?computer?可检出: computer、computers、 computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers,.,3、位置检索 位置检索一般用用来限制检索项之间的位置关系和前后次序。其目的是增强检索项组配的灵活性,更准确地表达复杂的检索概念。常用的位置算符有以下几种: 邻近位置算符(W) (W)算符也

22、可以简写为()算符,A(W)B,表示A紧挨着B,并且顺序不能颠倒。A和B之间除允许有一个空格、一个标志符号或一个连接号以外,不得插入任何单位或字母。 邻词位置算符(nw) A(nw)B,表示两个词的次序不变,其间可以插入n个词。,.,句子位置算符(S) A(s)B,表A和B必须同时出现在记录的同一个句子或短语中,但次序可能随意改变,A与B之间可以有若干个其他的词。 字段位置符(F) A(F)B,表示A和B 必须同时出现在记录的同一个字段之中,但位置和次序不限,两者之间还可以任意加词。如Rice(F)Genetics/Ti 要求Rice和Genetics必在同时出现在篇名之中。 (字段标识符:T

23、I 、AU、AB、SO、PY、LA、DE、TN) 记录位置算符(C) A(C)B 其作用等同于A and B,均表示 A和B同时出现在同一记录内,但词序不限,也不要求在同一字段内。,.,4、加权检索 这种检索是对检索词之间的关系从量上加以限制。通过判定检索词或字符串在检索中对信息命中与否的影响程度,根据权值的大小依序输出结果。 5、字符串检索(词组检索或短语检索) 这种检索将字符串当作一个独立的运算单元,进行严格地匹配。 6、概念检索 同时对同义词、近义词、广义词、狭义词进行检索。 7、深入检索(二次检索) 指在检索结果中作进一步查询,以得到更精确的结果。 8、模糊检索与精确匹配 9、自然语言

24、检索(Ask Jeeves)、实名检索(3721) 10、组合检索: 检索项组合、检索途径组合、分次检索结果组合等、,.,11、限定检索 就是将检索词限定在一定的范围内进行检索 (1)限定网站 【实例】 输入“金庸 古龙 site:”搜索包含“金庸”和“古龙”的中文新浪网站页面。 (2)限定网页 【实例】输入“inurl:midi 沧海一声笑”查找MIDI曲“沧海一声笑”。 【实例】输入inurl:plog/register.php,搜索plog注册文件(现在用的很普遍的一套PHP博客程序,在其安装说明中明确说明希望用户安装后删除register.php文件)。 【实例】输入“inurl ec

25、urity windows2000 site:”查找微软网站上关于windows2000的安全课题资料。,.,(3)限定标题 【实例】输入“intitle: 张娜拉 写真”查找韩国张娜拉的照片集。 (4)限定文件类型 【实例】输入filetype:lit lit (booksebooks),搜索网络图书(FILETYPE可以更换)。 【实例】利用后缀名来搜索电子书,输入“存在与虚无 chm”、“菜根谭 exe”、 “水煮三国 chm ”。 (5)其他类型限定 【实例】输入“related: 【实例】输入“cache: 【实例】输入pwd inurl:(service or authors or

26、 administrators or users) ,搜索密码文件。,.,6 信息检索的基本步骤,分析检索课题 1.主题概念 2.信息类型 3.时间范围 4.检索目的,构造检索式 (试验性检索) 1.简单提问式 2.上下文提问式 3.复合提问式 4.结构性提问式,调整检索策略(正式检索) 1,信息量过多时 2.信息量太少时,输出检索结果 1.文摘 2.全文,选择检索系统 1.学科范围 2.系统类型 3.系统功能,确定检索词 1.切分 2.删除 3.替补 4.组合 5.增加,用户评价,.,确定检索词,1切分 切分是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语

27、言检索。 例1:检索“妇女吸烟与肺癌的关系研究”相关文献。 直接切分:妇女|吸烟|与|肺癌|的|关系|研究) 注意,当词切分后将失去原来的意思时,不应再切分,如“中国科学院”、“电子邮件”,.,2删除 删除是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。,.,例2:检索“中国IT业的发展前景研究”方面的相关文献。进行拆分以后,发展、前景、研究这三个自由词具有一定的检索意义,但是由于或

28、者是意义过于宽泛、或者是不能表达课题实质、或者是存在蕴含关系的原因,没有必要全部作为检索词,根据需要可以保留1-2个作为检索词。,.,3替补 替补就是在进行切分、删除后,对检索词进行替换和补充。 “公交”应替换为:公共交通; “绿色包装”中的“绿色”,应替换为:环保、无污染、可降解; “煤气中毒”应替换为:一氧化碳中毒; “非典”应考虑补充:SARS、非典型肺炎、传染性非典型肺炎、严重急性呼吸综合征(severe acute respiratory syndrome);,.,4增加 增加“限义词”。有两种方法:直接增加限义词、挖掘隐含词、提取潜在的检索词;把限义词以逻辑的方式加入,可采用逻辑“

29、与”或逻辑“非”的方法增加限义词。 分析隐含概念。挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其它相关主题词。如例1:“妇女吸烟与肺癌的关系研究”,切分、删除后得:吸烟、肺癌两个检索词,分析、补充上位词可增加检索词:烟、癌症、恶性肿瘤。,.,构造检索式(试验性检索),所谓的检索提问式(query,search formulation),是信息检索中用来表达用户检索提问的逻辑表达式,主要是使用各种布尔逻辑算符、位置算符、截词符、限制算符以及系统规定的其他组配连接符号将检索词进行组配,确定检索词之间的概念关系或位置关系。,.,简单提问式含一个检索词的提问式; 上下文提问式精确短语或近似精确短语的提问式,也可称为短语提问式; 复合提问式含有布尔算符和至少2个检索词的提问式; 结构性提问式含有2个以上布尔算符和至少4个检索词的多层结构组合的提问式。,.,例如: “华中农业大学研究生招生” 计算机*网络安全-病毒 番茄*基因*(果实成熟+果实软化+ 耐贮藏+衰老+滞绿+叶绿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论