版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
导学.文献信息检索课的意义“文献检索课”正是“关于哪儿可以获得这些知识的知识”的一门课程。高校开设《文献检索与利用》课的目的是使学生了解文献和文献检索的基本知识,训练学生检索与利用文献的技能,以提高学生的自学能力和独立研究的能力。提高信息素养是新型人才的必备能力、终身教育的需要、科学研究工作者的基本素质。.信息素养“信息素养(素质)”的本质是全球信息化需要人们具备的一种基本能力。信息素养的内涵信息意识、信息知识、信息能力、信息道德。第一讲绪论文献信息检索的重要意义提高信息素养(素质)(见导学);帮助人们实现终身教育信息、知识、文献信息的概念信息是物质的一种属性,是物质存在方式或运动状态的显示或反映,是由物质发出的消息、指令和数据。信息这一概念应用非常广泛。不同学科、不同领域的人们分别从各自的角度研究信息、描述信息,因此,有关信息的概念就有众多不同的表述。据统计,目前关于信息的定义已有百余种之多。信息的基本性质:普遍性、客观性、中介性、无限性、传递性、时效性、依附性、共享性。知识“知识是人类认识的成果或结晶”,是人类在认识和改造世界的社会实践中获得的对客观事物本质和运动规律的认识。从不同角度分类。如按成熟程度可分为经验知识、理论知识;按知识内容的学科性质将知识划分为哲学知识、自然科学知识和社会科学知识等。文献“文献是记录有知识的一切载体”。这个定义明确了构成文献的三要素,即:知识、记录手段和载体。知识是文献的内容,载体是文献的形式,记录手段则是联系文献内容与形式的桥梁。信息知识文献之间的关系信息是生产知识的原料;知识来源于信息,是被人们认识并系列化了的那部分信息;文献是记录、存储、传播知识信息的载体。文献的类型文献的类型按出版形式划分的文献类型图书:图书是对已有的科研成果知识的系统地全面地概括和论述,并经过作者认真地核对、鉴别、筛选、提炼和融会贯通编写而成。特点:系统、全面、成熟、可靠,但编辑出版周期较长。分类:阅读型图书:教科书、专着、论文集、科普读物等;工具书:字典、辞典、百科全书、年鉴、手册等。ISBN=International?Standard?Book?Number现行13位数的ISBN由5部分组成,分为:前缀号、组号、出版者号、书序号、校验号。如:ISBN?978-7-200-07127-6校验号的确:9X1+7X3+8X1+7X3+2X1+0X3+0X1+0X3+7X1+1X3+2X1+7X3=94 9牛10=9……4 校验号=10-4=6期刊:期刊是“一种以印刷形式或其他形式逐次刊行的,通常有数字或年月顺序编号的,并打算无限期地连续出版下去的出版物”。广义的期刊则包括一切定期或不定期刊行的连续性出版物,如杂志、报纸、年度报告等。特点:出版周期短,刊载论文速度快、数量大,内容新颖'专深,发行与影响面广,及时反映了专业科学技术水平。ISSN=InternationalStandardSerialNumber如:ISSN1671-489X会议文献:会议文献指在国际或国内重要的学术或专业会议上宣读和交流的论文、报告及其他有关资料。可分为:会前文献、会中文献、会后文献。学术会议按级别和范围可分为四类:国际会议、全国性会议、地区性会议、基层会议。科技报告:科技报告是指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告。专利文献:广义的专利文献包括专利申请审批全过程产生的各种文件(如专利申请说明书、专利说明书等),以及专利公报、专利分类表、专利索引等出版物。狭义的专利文献仅指专利申请说明书和专利说明书。特点和作用:资料新颖、内容广泛、实用性强、分类逐渐趋向统一,格式标准化。标准文献:指标准化工作的文件,是经过公认的权威当局批准的标准化工作成果。国际标准:ISO(国际标准化组织)标准、IEC(国际电工委员)标准。我国标准分为四级:国家标准:强制性、推荐性;行业标准:强制性标准、推荐性标准;地方标准;企业标准。学位论文:学位论文是指为申请学士以上学位而撰写并通过答辩的论文,包括学士论文、硕士论文、副博士论文和博士论文。政府出版物:政府出版物指各国政府部门及其设立的专门机构出版的文献。产品样本档案按文献的加工深度划分的文献类型零次文献:指未经正式发表或未形成正规载体的一种文献形式。如书信、手稿、会议记录、笔记等。一次文献:又叫原始文献。是指作者以本人的生产或研究成果而创作的文献。主要包括期刊论文、科技报告、学位论文、会议文献、专利说明书等。二次文献:是对一次文献进行加工、简化、压缩的产物。此类文献将各种形式的一次文献予以简要化、系统化、条目化,具有报导性、检索性、汇编性和简明性的特点。因而二次文献是检索一次文献的工具。如目录、题录、文摘、索引等。三次文献:是指在一、二次文献的基础上,对文献内容进行筛选、综合、分析、浓缩后的产物。如动态综述、进展评论、辞典、年鉴、百科全书、手册等,它具有综合性、浓缩性、参考性等特点。按载体形式划分的文献类型(1)印刷型文献:以纸张为载体,以手写、石印、油印、胶印、铅印、影印、复印等为记录手段的传统的文献类型。(2)缩微型文献:以感光材料为载体,以缩微照相为记录手段而产生的文献类型也称缩微复制品,包括缩微胶片(或缩微平片)、缩微胶卷、缩微卡片等。(3)机读型文献:是以磁性或塑性材料为载体,以穿孔或电磁、光学技术为记录手段,通过编码和程序设计,将文字变成计算机可以识别的机器数据后输入计算机存储,阅读时再由计算机将其内容按要求输出。其载体主要有磁带、磁盘、光盘等。(4)视听型文献:这种文献以磁性材料或感光材料为载体,以磁记录或光学技术为手段直接记录声音、视频图像,也叫声像型文献或直感型文献。这一类文献主要包括唱片、录音带、录像带、科技电影、幻灯片等。第二讲文献检索基本知识信息检索的概念与类型概念广义的信息检索是指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息的过程。其全称是“信息存储与检索”。(附图)狭义信息检索是指从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻或信息获取。广义:存---取(信息存储与检索);狭义:取信息检索的本质:信息用户的需求和信息集合的比较与选择,即匹配的过程。获取所需信息的渠道一般包括:文献信息渠道、实物信息(物化信息)渠道、口头信息渠道、体语信息渠道文献信息检索:通过查阅文献资料以获取所需信息、知识的过程就叫做文献信息检索。分类1)按检索对象分:数据检索;事实检索;文献检索2)按检索手段分:手工检索(手检);计算机检索(机检)信息检索的发展沿革手工检索 80年代以前:检索者通过翻阅、查找印刷型检索工具进行检索。特点:检索过程灵活、检索结果准确、检索不易查全、检索速度不快。联机检索 80年代初期:联机信息检索,是指信息用户利用终端设备,通过国际通讯网络与世界上的信息检索系统,进行直接的人机对话,从检索系统的数据库中查找出用户所需信息的全过程。特点:检索速度快,检索效率高、信息资源丰富且质量较高、可及时提供最新信息、费用较高。光盘检索 80年代末:光盘检索是利用计算机和光盘驱动器,对光盘数据库进行文献信息检索。按存储内容及读写功能可分为:只读光盘、可读写光盘、可擦写光盘,目前应用于信息检索的主要是只读光盘。特点:采用菜单驱动方式、直接检索、易操作,存储能力强,介质成本低,数据可靠性高,便于携带。网络检索 90年代:指通过Internet检索和获取网上的电子信息。特点:检索范围广,界面友好,响应速度快,具有多媒体信息采集、存储、加工、检索、传递功能文献信息检索的工具概述检索工具是将大量分散无序的文献资料经过加工整理,按照一定的规则和方法编制起来,用来报道、存储和查找文献的工具,是附有检索标识的某一范围文献条目的集合。作用(1)检索工具能将不同类型、不同语种的文献按学科或主题加以集中、组织在一起,避免了直接检索的分散性、盲目性和偶然性。(2)借助于检索工具检索文献可以缩短检索过程,节省读者的时间。(3)检索工具中的标识(分类号、主题词等)是按照一定的检索语言来编排的,因此,它可以提供有规律的检索途径,使检索者得以根据需要灵活地从多种角度进行检索。(4)帮助科技人员消除了语言文字的障碍。检索工具的类型按处理手段分类有:手工检索工具和计算机检索工具按照文献信息揭示方式划分,可以分为:目录、题录、索引、文摘(1)目录(书目):目录又称书目,是着录一批相关文献并按照一定的次序编排而成的一种揭示与报导文献的工具。目录对文献的描述比较简单,每一个条目的着录项有:书(刊名)、卷(期)数、作者、出版年月、出版地及书(刊)收藏情况等。(2)题录:题录是将图书和报刊中论文的篇目按照一定的排检方法编排,供人们查找篇目出处的工具。着录项:篇名、着者(或含其所在单位)和来源出处。无内容摘要。特点:广、全、快(3)索引(引得):索引是将书刊内容中所论及的篇名、语词、主题等项目,按照一定的排检方法加以编制,注明出处,供读者查检使用的检索工具。(4)文摘:文摘是一种摘录文献内容要点来报道文献的检索工具。着录项目比题录多了一个文摘项。计算机信息检索的方法与策略【分析信息需求、选择检索系统、确定检索用词、构造检索式、分析检索结果等】计算机信息检索过程中的几个概念数据库:至少由一个文档组成,并能满足某一特定目的或某一特定处理系统需要的一种数据集合。根据载体不同,可分为:联机数据库、光盘数据库、网络数据库二次检索:在前一次检索结果的基础上,进一步限定检索条件所进行的再次检索。二次检索可多次使用,逐步缩小检索范围。排序:指检索结果输出时的排列顺序。检索词匹配:一般表示为前方一致、后方一致、完全一致(精确匹配)、任意一致(模糊匹配)等。信息检索方法(1)常用法:利用检索工具或检索系统查找文献资料的方法。①顺查法:从课题分析所得出的该课题研究的起始年代起,由远及近地进行逐年查找的检索方法。特点:较高的查全率、在一定程度上反映出该课题研究发展的全过程、耗时费力,效率较低。②倒查法:利用选定的检索工具,由近及远地逐年进行查找的检索方法。特点:以“查准”为主、宜于新的研究课题、较节省时间,效率较高。③抽查法:是在课题研究所处的发展高峰期的若干年中进行查找。特点:快速检索的课题、较高的检索效率、前提是必须事先了解课题研究发展的历史背景。(2)回溯法:回溯法又称追溯法、引文法,是利用文献末所附的参考文献或引用文献,由近及远地进行追踪查找。(3)循环法:是常用法与回溯法的结合,即先利用检索工具查找出一批有用的文献,然后利用这些文献所附的参考文献或原文中涉及的重要线索进行追溯查找。检索策略的含义和作用所谓检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。关键:构造能够确切表达信息需求的检索式。检索表达式(课件《第三课》P30-53)简称检索式。检索式一般由检索词和各种逻辑运算符组成。它是用检索系统规定的各种算符将检索词之间的逻辑关系、位置关系等连接起来,构成的计算机可以识别和执行的检索命令式。检索表达式主要有逻辑表达式、截词表达式等。(1)逻辑表达式:是指利用布尔逻辑算符,对检索词的关系进行表达,又称布尔逻辑表达式。布尔算符:“逻辑与"(“AND”“*”) “逻辑或”(“OR”“+”) “逻辑非”(“NOT”“-”)(2)截词检索表达式用截词符号“钎、“”或“$”加在检索词的前后或中间,以检索一组概念相关或同一词根的词。按截断的位置可分为:前截断、中间截断、后截断。按截断的字符数量可分为:有限截断()、无限截断(*)。如:输入检索式“Comput*",将检出包含Computer、Computing、Computed、Computerization等词汇的结果。输入%的n”可同时检索到含有woman和women的结果。检索禁用词:检索系统一般将出现频率特别高的词规定为禁用词,它们不能在检索式中出现,除非是用于"”标示的词组里。这种规定是为了提高检索效率。检索策略的构造步骤信息检索策略的构造一般包括分析信息需求、选择检索系统、确定检索用词、构造检索式、分析检索结果等。具体过程如下:分析信息需求,明确检索要求选择检索系统选择检索途径和方法,确定检索词或检索式实施信息检索获取原始文献信息检索效果评价检索效果指开展检索时产生的有效结果。检索效果的评价主要根据以下几个指标进行:查全率、查准率、响应时间、输出方式等。查全率指检出的相关文献信息量与检索系统相关文献信息量总量的比率,它反映出信息检索系统检出相关文献信息的能力。具体公式如下:查全率二[检出相关文献信息量/检索系统中相关文献信息总量]X100%查准率指检出的相关文献信息量与检出文献信息总量的比率,它反映出信息检索系统的精确度。具体公式如下:查准率二(检出相关文献信息量/检出文献信息总量)X100%第三讲图书馆利用图书馆基本知识图书馆的概念、类型图书馆就是通过文献的搜集、整理、存储和利用,为一定社会读者服务的文化、科学和教育机构。图书馆的类型:国家图书馆、公共图书馆、科学和专业图书馆、高等学校图书馆、其它类型图书馆。文献的分类文献分类就是指根据文献分类法对文献的学科性质及其它具有检索意义的显着性特征进行分析、归纳,确定所属类目并给出分类号,用以揭示和组织文献以及编制分类目录索引的一种方法。(1)图书分类法:图书分类法是在一定的哲学思想指导下,运用知识分类的原理,结合图书的特点,采用逻辑方法编制出来的对图书进行分类的体系分类表。图书分类法是图书分类的依据,是组织藏书的工具。《中图法》:《中图法》由编制说明、类目表、标记符号、说明和注释、索引五个部分组成。《中图法》以科学分类为基础,遵循从总到分,从一般到具体,从理论到应用,从简单到复杂,结合文献的特征,将文献分成个基本部类、22个基本大类(用拉丁字母表示)。在每一大类下再层层展开为二级、三级、四级……类目(用阿拉伯数字表示类除外),形成一个等级列举式的分类体系,类目之间的内在逻辑关系非常严谨。《中图法》五个基本部类:马克思主义、列宁主义、毛泽东思想、邓小平理论;哲学、宗教;社会科学;自然科学;综合性图书《中图法》22个基本大类:A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输航空、宇宙飞行X环境科学Z综合性图书总论复分表:0理论与方法论1现状及发展2机构、团体、会议3研究方法、工作方法4教育与普及43教材44习题、试题及题解5丛书、文集、连续出版物6参考工具书79非书资料、视听资料(2)索书号索书号是图书馆赋予每一种馆藏图书的号码,这种号码具有一定结构并带有特定的意义。在馆藏系统中,每种书的索书号是唯一的,可借以准确地确定馆藏图书在书架上的排列位置,是读者查找图书必要的代码信息。索书号由两部分组成:分类号和书次号。分类号依据《中国图书馆图书分类法》取号。书次号最常用的方式是种次号或着者号。种次号是指相同分类号的图书,以其到馆的先后顺序,分别给以流水号。着者号一般由第一责任者拼音首字母和3位阿拉伯数字组成,同时要根据馆藏多少、分类详简来决定着者号的数字位数。高校图书馆一巨大的知识宝库高校图书馆的性质和地位高校图书馆的学校的文献情报中心,是为教学和科学研究服务的学术性机构,它的工作是学校教学和科学研究工作的重要组成部分。高校图书馆的职能(1)传递文献信息的职能(2)开发信息资源的职能(3)参与社会教育的职能(4)保存文化遗产的职能高校图书馆的资源与服务(1)文献外借与阅览文献外借包括:馆内外借、馆际互借(2)电子资源的利用——中文数据库:中国知网、中文科技期刊数据库(维普)、万方数据资源系统——外文数据库:EBSCO、OCLC—FIRSTSEARCH、SpringerLINK、GALE、PQDD、LexisNexisAcademic、IIMPFullText(3)参考咨询服务:主要受理解答用户在利用图书馆过程中遇到的各种问题。(4)用户教育和培训;是图书馆开展的培养用户利用信息的意识和能力的教育。如“文献信息检索”课、“百分讲座”等。(5)代查代检、文献传递:是图书馆以馆内外各种类型资源为依托,为用户提供的信息服务。文献传递服务注册及使用流程:联机公共目录联机公共目录概况(1)概念:常被称为图书馆书目数据库,是一种在因特网上对馆藏信息资源进行查询的工具。(2)类型:按反映文献入藏单位的多少,OPAC可分为馆藏目录查询系统和联合目录查询系统。馆藏目录查询系统,只反映某个特定图书馆的文献入藏情况。联合目录查询系统,可反映多个文献信息服务机构文献的收藏情况。(3)检索步骤a.分析检索课题;b.选择适当的联机公共目录数据库;c.确定检索方式、检索途径、检索词和限制条件,构造合适的检索式;d.实施检索;e.根据馆藏信息获取所需的文献。首都师范大学图书馆书目数据库(课件《第五课》P7~32)联合书目数据库(课件《第五课》P33~42;课件《第六课》P9-16)CALIS概述:CALIS是“中国高等教育文献保障系统”简称,CALIS面对读者提供的服务有联合目录数据库检索;引进的各种类型的文献数据库检索;馆际互借;文献传递;电子资源导航等。CALIS联合书目数据库是全国高校图书馆馆藏联合目录数据库。全国期刊联合目录(课件《第五课》P43~46;课件《第六课》P17~19)第四讲数据库检索数据库:至少由一个文档组成,并能满足某一特定目的或某一特定处理系统需要的一种数据集合。数据库往往集目录、题录、索引、文摘几种类型于一身,可以同时获得以上各类信息,乃至文献的原文。特点:数据库存储的信息量大,更新及时;检索速度快,节省时间;不受时空间限制,使用方便;查全率、查准率较高;可下载、编辑…简介概况CNKI即中国知识基础设施工程,是以实现全社会知识信息资源共享为目标的国家信息化重点工程。目前我馆购买的数据库有:中国学术期刊网络出版总库,中国博士学位论文全文数据库,中国优秀硕士学位论文全文数据库,中国统计年鉴数据库
中国学术期刊网络出版总库概述“中国学术期刊网络出版总库”原名“中国期刊网",是CNKI的主要组成部分。它通过光盘和网络为全社会提供信息服务,是国内重要的大型综合性期刊文献数据库,也是目前中国比较权威的和广泛使用的全文数据库之一。特点:学科覆盖面广;数据量大;更新及时;能比较系统地反映我国目前各学科的发展动态,是教学科研必不可少的信息资源。数据库基本情况收录对象:国内公开出版的约7500种核心期刊或有专业特色的期刊(包括英文期刊)的文献全文。学科范围:理、工、农、医、社科、人文等各个学科。收录年限:1915年至今。数据类型:文献的题录、摘要、全文、引文数据量:全文文献约2600万篇。数据组织:全部文献按学科分为十大专辑,共168个专题文献数据库,每个专题库下还设有多级学科类目,可逐级点开。出版形式:网络版;光盘版更新周期:网络版每日更新;专辑光盘每月更新(文史哲专辑为双月更新);专题光盘年度更新。数据库网址:数据库检索使用(课件《第六课》P37〜55)维普中文期刊数据库概述维普中文科技期刊数据库是重庆维普资讯公司2000年正式推出的大型全文文献数据库,内容以科技类为主,也有部分社科门类,包括自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报七大类。收录从1989年至今的期刊12000种。优势:无需宽带账号,无并发用户限制,收录科技类期刊较为丰富,检索速度较快,检索功能较强,界面简洁、易用登录图书馆IP图书馆IP地址:两个路径:“资源与检索”和“快速链接”4.3.4检索(课件《第七课》P27〜40)检索规则:检索执行的优先顺序:从上到下;逻辑运算符:*、+、-在检索入口中,篇名是相关度最高的。维普“中文科技期刊全文数据库”与CNKI“中国学术期刊网络出版总库”检索之简单比较二者都为用户提供了多种“检索方式”;“维普”提供了“同义词”和“同名作者”的选择;在“CNKI”的“标准检索”页面上提供了较为完备的检索式;“维普”高级检索属向导式检索,界面简洁、易用;“维普,,查全率较高中文社会科学引文索引(CSSCI)(课件《第七课》P43〜51)数据库名称中文社会科学引文索引(。$$。|)收录范围经济学、政治学、教育学、历史学、语言学、中国文学、考古学、哲学、新闻学与传播学等期刊种类500余种功能我国社会、人文科学主要文献信息查询与评价工具创建机构南京大学中国社会科学研究评价中心电子图书的检索与利用1、电子图书概述电子图书又称e-book,是指利用计算机技术将一定的文字、图片、声音、影像等信息,通过数码方式记录在以光、电、磁为介质的设备中,通过计算机或类似设备来读取、复制、传输的数字化书籍。是电子资源的重要组成部分。特点:容量大、价格低、使用方便。2、我馆电子图书数据库简介我馆现有各类电子图书数据库十余个,电子图书总量近130余万册。3、电子图书数据库的检索与利用一一以“读秀学术搜索”为例(课件《第八课》P9〜23)读秀学术搜索是由超星公司推出的中文图书数据库。目前,该库提供近290万种中文图书元数据、200万种图书全文,我校购买了其中100万种图书全文。对于数据库提供全文而我校未购部分,可以通过文献传递来获取。《中国大百科全书》网络(课件《第八课》P25〜26)中国大百科全书网络版是一部使用面广、方便实用的大型综合性事实类电子工具书,涵盖了印刷本《中国大百科全书》全部4卷的内容,涉及哲学、社会科学、文学艺术、文化教育、自然科学、工程技术餐个学科领域。报纸数据库报纸数据库简述报纸是重要的文献资源之一,我校图书馆现有“《人民日报》图文数据库”、“金报兴图全文数据库”、“全国报刊索引数据库”,在一定程度上补充了纸质报纸的不足。报纸数据库的检索与利用1)《人民日报》图文数据库(课件《第八课》P29〜37)(1)登录(2)数据库检索a.检索界面该库的默认页面显示《人民日报》最近一天的全部数据(数据库为每日更新,逢节假日顺延),还可通过“日期导航”浏览任何一日的数据,同时提供高级检索切换方式。在数据库高级检索页面提高了多字段检索,界面友好。b.检索:根据检索课题,既可进行单一字段的检索,也可进行版次、作者、标题、正文字段的组合检索,并以“日期选择”进行限定。检索示例:温家宝总理发表在人民日报上代表国务院所做的《政府工作报告》的全文。即可利用“文章作者”、“文章标题”进行检索。确定数据库:《人民日报》图文数据库文章作者:温家宝文章题名:政府工作报告2)全国报刊索引(课件《第八课》P38~43)第五讲学位论文、会议论文的检索与利用学位论文的检索与利用5.1.1我馆现有学位论文数据库简介(1)我馆购买中、外文数据库总体情况(2)我馆中文学位论文全文数据库基本情况中文学位论文全文数据库检索(1)CNKI“中国优秀硕士学位论文全文库”A.登录:图书馆主页 快速链接——学位论文资源一一中国知网:博硕士论文——中国知网首页——中国优秀硕士学位论文全文数据库B.检索方法(课件《第九课》P5~7)C.检索结果的处理:浏览或下载(2)万方“中国学位论文全文数据库”(课件《第九课》P10~20)(3)首都师范大学学位论文库(课件《第九课》P21~27)5.1.3本科生对学位论文的利用综述一一论文研究背景(国内外发展现状)内容——研究思路与方法会议论文的检索与利用5.2.1部分会议论文数据库概况万方“中国学术会议论文全文数据库”的检索与利用(课件《第九课》P30~34)第七讲Internet检索工具搜索引擎概述搜索引擎(SearchEngine)的定义搜索引擎就是一种为帮助信息需求者快速方便、准确地进行信息检索服务的网站。搜索引擎是一种用于帮助Internet用户在互联网上查询信息的搜索工具,它以一定的策略在Internet中发现、搜集信息,并对搜集的信息进行加工整理和组织存储,为用户提供检索服务,从而起到信息导航的作用。搜索引擎系统的组成:巡视软件、索引数据库、检索代理。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎的发展:根据搜索引擎不同时期的研究重点和服务性能,可以将搜索引擎分为三代。第一代搜索引擎1994年YahooAltaVistaInfoseek第二代搜索引擎1998年Google第三代搜索引擎2004年中国搜索、搜狗工作原理1)抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到多数的网页。2)处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。3)提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL(网页地址)外,还会提供一段来自网页的摘要以及其他信息。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎不能真正理解网页上的内容,它只能机械的匹配网页上的文字。搜索引擎的分类:1)全文搜索引擎全文搜索引擎利用网络机器人(Robot)或网络蜘蛛(Spider)以某种方法自动地对Internet资源进行搜索、索引。这类搜索引擎的服务方式是面向网页的全文检索服务。其优点是查询全面而充分。百度(Google AltavistaInfoseek2)目录索引目录索引类搜索引擎是一种目录型检索工具,也称网络目录酬06Directory)、专题目录、主题指南、站点导航系统等。它是网站级的检索。目录索引就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。Yahoo!雅虎中国新浪3)元搜索引擎元搜索引擎是搜索引擎之上的搜索引擎,是一种要调用其它搜索引擎的搜索引擎。Metacrawler(Dogpile(Infospace(觅搜 (搜索引擎的检索功能布尔逻辑检索:常用的布尔逻辑包括逻辑“与”、逻辑“或”、逻辑“非”,算符分别为:and、or、not几乎所有的搜索引擎都具有布尔逻辑功能。词语检索在一串词的前后加双引号(“")限定检索结果中的词语必须以同样的顺序出现,并且相邻。截词检索如:检索式“computer大”可以检索出:computer、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年通信广播有效载荷项目评价分析报告
- 2024至2030年中国气体燃料发动机油数据监测研究报告
- 2024至2030年中国拱形门数据监测研究报告
- 2024至2030年中国多圆网多缸瓦楞纸机数据监测研究报告
- 交易安全防范
- 广东省佛山市顺德区多校2024-2025学年四年级上学期期中语文试卷
- 国家预算和预算管理体制课件
- 如何准备并发表一场成功的TED演讲
- 内蒙古呼和浩特市(2024年-2025年小学五年级语文)统编版期末考试(上学期)试卷及答案
- 标准工程设计合同范例
- 公司职称、证书补贴管理办法
- 医学心理学(广东药科大学)智慧树知到答案章节测试2023年
- 全国河流水文站坐标
- 单片机原理与应用说课
- 修辞手法课件(共46张PPT)
- 河道整治工程毕业设计
- SB/T 10482-2008预制肉类食品质量安全要求
- GB/T 20307-2006纳米级长度的扫描电镜测量方法通则
- GB/T 13912-2020金属覆盖层钢铁制件热浸镀锌层技术要求及试验方法
- GB/T 11270.2-2021超硬磨料制品金刚石圆锯片第2部分:烧结锯片
- GB 39552.1-2020太阳镜和太阳镜片第1部分:通用要求
评论
0/150
提交评论