第六章 网络信息检索_第1页
第六章 网络信息检索_第2页
第六章 网络信息检索_第3页
第六章 网络信息检索_第4页
第六章 网络信息检索_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息检索南京中医药大学文献检索教研室教学内容网络信息检索基础网络信息采集网络信息的组织网络信息的整合网络信息的搜索搜索引擎常用搜索引擎的检索与利用网络信息检索基础网络信息检索:借助Internet检索信息资源的一种方式,是检索技术、网络技术及信息存储和处理技术相结合的产物。广义:信息采集、组织、存储与检索浏览器:是为了阅读浏览网页而编制的客户端应用程序。如IE浏览器、360浏览器、QQ浏览器、GoogleChrome、NetScape浏览器等WEB图结构WEB图中的一些概念节点(Node):指每个网页,当图中每个连接的单位是网站时,每个网站看成一个Node。入度(Indegree):每个Node的入度指的是指向该Node的Node数目。出度(Outdegree):每个Node的出度指的是该Node指向的Node数目。网络信息检索的特点检索主题广泛:存取范围覆盖Internet上的所有资源内容新颖实时功能完善友好:用户界面友好易操作;具有良好的导航及编辑功能检索灵活多元:传统检索方法与全新检索技术相结合用户透明网络信息检索工具:构成信息采集机制(Harvestingmechanism)自动程序Robot人工选择、采集网络用户递交标引机制(Indexingmechanism):自动、人工组织机制:数据库检索机制(Searchingfacility):检索代理软件、用户界面(Interface)网络信息检索工具:分类按检索对象分:Web资源检索工具:主流非Web资源检索工具:FTP:Archie等Usenet:DejaNews等Lists:Liszt等Gopher:Veronica等全文信息:WAIS等按包含检索工具数量分:单一型(Singularsearchtools)集合型(Collectivesearchtools):元搜索引擎(MetasearchEngine或MegasearchEngine)网络信息检索工具:分类按检索机制分:目录型(Subjectdirectory,catalogue)索引型:搜索引擎(SearchEngine)混合型(Hybridtools)目录型检索工具和搜索引擎之间的界限越来越模糊,大多数流行的网络检索工具均同时提供两种方式的检索,担负网络资源主题指南和索引双重责任。目前这种混合型(hybrid)检索工具代表了网络检索工具的发展趋势,多被混称为搜索引擎。按检索内容分:综合型专题型特殊型网络信息检索工具:优势内容丰富、信息存储量大内容更新快、新颖检索便捷、途径众多使用方便,不受限制网络信息检索系统网络信息检索技术网页搜索技术标引技术索引技术检索技术排序技术网络信息采集主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程,信息采集系统也常常称为Robot,Spider,Crawler等等信息采集是搜索引擎获得数据来源的过程,地位相当重要信息采集的目标:快速获得高质量的网页信息采集是一项十分繁杂和庞大的工程不同的协议不同的网络情况时效性的要求网页质量的要求实际上是图的遍历过程通过种子页面或站点(Seed),获取更多的链接,将它们作为下一步种子,循环这个过程一般永远不会结束!网络信息采集步骤:站点索引:网站搜索,提供站点列表(盲目搜索和定向搜索)网络搜索:由网络机器人(网络蜘蛛)在网络在爬行,访问Web上所有用户可以访问的地方,收集Web上的资源。网络蜘蛛的类型通用网络蜘蛛增量式网络蜘蛛主题网络蜘蛛基于用户个性化的网络蜘蛛基于代理的网络蜘蛛迁移的网络蜘蛛信息采集的基本结构采集的遍历算法宽度优先vs.深度优先宽度优先:先采集完同一层的网页,再采集下一层网页深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采集有研究表明:宽度优先的方法得到的网页集合的重要性更好网站采集vs.全局URL采集网站采集:一个网站一个网站采集全局URL采集:将所有URL放入一个URL池,从中使用某种方法进行选择网站采集在支持应用方面灵活性大一些,但是采集效率可能不如全局URL采集,通常的搜索引擎采用全局URL采集的方法。采集中的“礼貌”问题遵守网站上发布的Robot.txt采集限制协议采集时尽量不要太过密集地采集某个网站,这种密集访问类似于DoS攻击,导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为。信息采集的研究趋势高速、高质量信息采集个性化信息采集只采集符合用户的兴趣的数据基于主题的信息采集采集某个领域的数据信息采集及抽取采集后提取结构化信息主题信息采集策略基于内容评价的搜索策略基于链结构的评价策略基于未来回报价值评价的搜索策略基于综合价值评价的搜索策略基于动态价值评价的搜索策略网络信息的组织分三个层次:语法信息组织、语义信息组织和语用信息组织组织规范:元数据、MARC元数据标准、DC元数据标准、RDF、SGML(标准通用标记语言)、HTML(超文本标记语言)、XML(可扩展标记语言)组织方法:分类(分类标引、网站的主题分析和网站归类)和主题(分类主题一体化、信息自组织)实现方式:数据库组织方式、超链接方式、主页方式、文件方式和主题树方式元数据的作用(1)用来组织和管理空间信息,并挖掘空间信息资源。通过它可以在广域网或因特网上准确地识别、定位和访问空间信息。(2)帮助数据使用者查询所需空间信息。可以按照不同的地理区间、指定的语言以及具体的时间段来查找空间信息资源。(3)组织和维护一个机构对数据的投资。(4)用来建立空间信息的数据目录和数据交换中心。通过数据目录和数据交换中心等提供的空间元数据内容,用户可以共享空间信息、维护数据结果,以及对它们进行优化等。(5)提供数据转换方面的信息。使用户在获取空间信息的同时便可以得到空间元数据信息。上实现空间信息的网络共享。MARC元数据标准MARC是英文机器可读目录格式4个单词的缩写,国内通常在前面加上CN,即CNMARC表示中国机读目录格式MARC主要用于图书馆管理软件中,采访、编目、典藏等环节都有重要的作用方便馆际之间的数据交流,是统一文献著录规范,加速图书馆自动化管理的所必需的数据格式MARC元数据优点具有标准的信息交换方式,方便数据交流。完整的书目描述,并且具有多种检索点。各类信息资源在图书馆目录中的集成。兼容性比较强。MARC元数据的局限性无法及时处理海量的网络数字信息对信息标引的专业性要求很高,不适于大多数普通信息用户。格式著录的工作流程比较复杂,需专用编目软件,要掌握软件的操作方法和熟悉著录规则。对于网络资源而言,其所设计的项目过于繁杂。MARC元数据的产生速度不如其他元数据标准快。DC元数据标准即“都柏林核心(DublinCore)元数据”,由OCLC首倡于1994年,因创始地在美国俄亥俄(Ohio)首府都柏林而得名。DC元数据规范最基本的内容是包含十五个元素的元数据元素集合,用以描述资源对象的语义信息十五个元素是:题名Title、创建者Creator、日期Date、主题Subject、出版者Publisher、类型Type、描述Description、其他责任者Contributor、格式Format、来源Source、权限Rights、标识符Identifier、语种Language、关联Relation和覆盖范围CoverageDC元数据标准的优势可以直接处理网络数据通用性:不针对特定学科扩展性:允许网页制作者为了特定目的增加著录项目。适应性:适应网络信息不断变化的发展兼容性:与其他元数据兼容灵活性:每一著录项目可选,也可重复简单性:为网页制作者提供的一种网络信息的著录格式。RDF资源描述框架是万维网联盟(W3C)提出的一组标记语言的技术标准,以便更为丰富地描述和表达网络资源的内容与结构。主要含义:a、资源:包括一切在Web上被命名、具有URL引用的东西;b、描述:对资源特性的一个声明,包括资源本身的属性和资源之间的关系;c、框架:与被描述资源及其领域无关的能用模型。RDF用形如“主体-谓词-客体”的三元组(资源-属性-属性值)来描述Web上的各种资源和它们之间的关系,并提供一种基本的结构在Web上对这些元数据进行编码、交换和重用。通过两个工具的支持:a、URL:用来区分和标识一个声明中的主体、谓词和客体的机器可处理的标识符系统;b、XML:用以表示以这些声明并这些声明可在机器间交流的机器可处理的语言。具有独立性和可以使用XML作为其描述语法的特点。网络信息的整合作用解决信息资源分散性与读者信息需求综合性的矛盾。提高信息资源的利用率。追求最大程度的资源共享。发展历程面向网络信息组织的整合阶段:主题指南和搜索引擎面向异构数据源的数据整合阶段:不同的网络库面向应用的信息整合阶段:数据整合和功能整合Z39.50标准是严格基于ISO的OSI(开放系统互联)参考模型的应用层协议,是一个美国国家标准,其全称是AmericanNationalStandardInformationRetrievalApplicationServiceDefinitionandProtocolSpecificationforOpenSystemInterconnection:信息检索:应用服务定义与协议规范目的是为了信息系统的开放互联,由于各信息系统分别采用各自的数据库软件,数据的描述格式、访问方式等都各不相同,必须为各自数据库系统建立一个抽象、通用的用户视图,将各个系统的具体实现映射到抽象模型上,才能使不同的系统在一个相互理解的、标准的通信平台上进行交互允许计算机搜索远程系统上馆藏信息的一种协议,产生可进一步处理的检索结果和检索信息,主要用于检索书目信息。基本服务:初始化、查询、检索、删除结果集、浏览、分类、存取控制、资源控制、解释、扩展服务和终止。应用:资源整合、OPAC、集中编目、馆际互借和采购协调网络信息资源挖掘Web内容挖掘:从Web数据中抽取知识,实现Web资源自动检索Web结构挖掘:对Web文本结构进行挖掘:HITS算法和PageRank算法Web使用挖掘:Web日志挖掘挖掘方法:路径分析技术、关联挖掘技术、序列模式挖掘技术、分类技术和聚类技术。网络信息搜索:搜索引擎搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。分类:基于目录的搜索引擎基于信息收集程序的搜索引擎基于客户的搜索引擎元搜索引擎分布式搜索引擎三大特点:事先下载,事先组织,实时检索。搜索引擎也是信息检索(InformationRetrieval)这门学科的典型应用。搜索引擎的发展历程1986年,Internet正式形成。现代搜索引擎的祖先:1990年由加拿大蒙特利尔McGill大学学生AlanEmtage发明的Archie,是对FTP文件名搜索,首次采用“机器人”自动爬行程序。第一个用于监测互联网发展规模的“机器人”程序是1993年MIT的MatthewGray开发的WorldwideWebWanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。Lycos:第一个现代意义上的WEB搜索引擎,CMU机器翻译中心的MichaelMauldin于1994年7月创建Yahoo:斯坦福大学博士生DavidFilo和JerryYang(杨致远)创建1995年Google:斯坦福大学博士生LarryPage与SergeyBrin于1998年9月创建,目前是全世界最受欢迎的搜索引擎。Baidu:超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇发布于2001年10月,是目前最受欢迎的中文搜索引擎之一。网络搜索引擎和一般信息检索的区别检索对象不同:前者面向大规模、半结构化、质量不一、位置分散、交叉互联、冗余繁杂的WEB数据。后者通常只考虑较高质量自然语言表述的书面文本(如新闻等)。查询方式不尽相同:前者通常为1~3个词的短查询,后者考虑各种方式的查询。用户对结果的反应不同:前者的用户通常只关心前几页的结果,更关注准确度。而后者准确度和全面度并重。搜索引擎与全文检索的区别数据量:要大于全文检索的数据量内容相关性:安全性:基本无限制个性化和智能化:不足搜索引擎类型按照检索机制分类检索型/目录型/混合型按照检索内容分类综合型(通用型)/专题型/特定型按照检索工具数量分类单独型/集合型(元搜索引擎)按照检索资源的类型分类WEB型/非WEB型搜索引擎基本组成www索引器检索器用户接口robot…robot文档库索引库组成模块的功能信息收集或采集(InformationGathering)获取信息,通常是指从Internet上自动获取信息信息整理和组织(InformationOrganization)预处理文本分析和处理信息标引—将查询和文档表示成方便检索的某种方式信息搜索(InformationSearch)查询的分析相似度计算和排序(Ranking)结果摘要搜索引擎的结构与原理在互联网中发现、搜集网页信息对信息进行提取和组织,建立索引库根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。爬行器索引生成器查询检索器搜索引擎的工作流程搜索引擎的组成用户接口输入用户查询,显示查询结果,提供用户相关性反馈机制。搜索引擎的组成与工作流程的关系

爬行器负责信息的采集工作。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。搜索引擎的信息采集机制按照人工程度划分,可分为人工采集和自动采集;按照信息时新性,可分为定期搜集和增量搜集两种。人工采集是由专门的信息采集人员跟踪、选择有用的Web站点或页面,对站点的内容和性质进行规范化分析的分类标引,并组建索引数据库。自动采集则是利用能够自动跟踪、收集并标引网页的Robot软件,自动访问WWW,并沿着WWW超文本链,在整个WWW上搜寻页面,建立、维护、更新索引数据库。人工采集与自动采集由于网络信息资源众多,每天都有新的信息出现,人工采集的速度有限;而自动采集能够自动搜索、采集和标引网络上众多的站点和页面,从而保障了对网络信息资源跟踪与检索的有效性和及时性。虽然人工采集的速度不及自动采集,但它是基于专业性的资源选择和分析标引,因此可以保证所采集的资源质量和标引质量。利用人工采集的搜索引擎具有查准率高,查全率低,搜索范围较小的特点;而自动采集搜索引擎虽然获得的信息量大、信息更新及时而且不需要人工干预,但它返回的信息过多,掺杂着有很多无关信息,需要用户从结果中甄选。定期搜集和增量搜集定期搜集,每隔一定的时间就重新搜集一次,而且每次的搜集都替换掉上一次的全部内容。由于每次都全部重新搜集,对于规模比较大的搜索引擎来说,每次搜集的时间通常都会花费几周的时间。而且因为这样做开销比较大,通常两次搜集所间隔的时间相对来说会比较长。这种做法的好处是系统实现比较简单,缺点主要是网页“时新性”较低,重复搜集会带来额外的带宽消耗。增量搜集,在开始时搜集一批网页,以后便只搜集新出现的和在上次搜集后有所改变的网页,并检查自从上次搜集之后已经不再存在了的网页,并将其从库中删除。因为除新闻网性站外,许多网页内容的变化频率并不是很高,这样做每次搜集的网页量不会很大,可以经常启动搜集过程。这样的系统的优点是网页时新性比较高,主要缺点是搜集和标引的过程都比较复杂。索引生成器是理解收集器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,使检索者能够快速地检索到所需信息。建立索引需要进行以下处理:(1)信息语词切分和语词词法分析;(2)进行词性标注及相关的自然语言处理;(3)建立检索项索引。索引表一般使用某种形式的倒排表,倒排表中的每项包含一组指针,指向它出现的网页,即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或邻近关系。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(LinkPopularity)等内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。注意:单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。索引数据库索引数据库的更新有重建式和累积式两种方式。重建式就是每次搜集之后将原有的索引数据库全部重新更新;累积式只是对新出现或发生变化的网页进行索引并增加到数据库中,同时删除已经不存在的网页的索引。搜索引擎的有效性在很大程度上取决于索引数据库的质量。索引数据的规模越大,与用户检索请求相关的信息出现的几率就越高,检索结果越多,查全率也就越高。同时,索引数据库的更新周期也决定了信息查全率:周期越长,查全率越低;反之,查全率越高。

倒排索引(Invertedindex)查询检索器负责根据用户的检索请求,从索引数据库中快速查找相匹配的网页,并将结果按顺序以Web方式呈现给用户。常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。相关性确定方法基本上都采用基于Web文档内容的方法,即考虑用户所提出的检索项在文档中出现的情况,主要有概率方法、位置方法、摘要方法、分类或聚类方法等。概率方法判断文件的相关性的指标是关键词在文中出现的频率,关键词出现的频率越高,该文件的相关性就越高。位置方法判断文件相关性的指标是关键词在文中出现的位置,关键词出现得越靠前,文件的相关性越高。摘要方法指搜索引擎自动地为每个文件生成一份摘要,让检索者自己判断结果的相关性。分类或聚类方法指搜索引擎采用分类或聚类技术,自动把查询结果归入不同的类别。用户接口用户接口接受检索者提交的查询请求(包括查询内容及逻辑关系),搜索引擎根据检索者所输入的关键词在其索引中查找,并寻找相应的Web页地址。用户接口的主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时地信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适用人类的思维习惯。用户输入接口可以分为简单接口和复杂接口两种。简单接口和复杂接口简单接口只能提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(AND、OR、NOT)、相近关系(NEAR)、域名范围、出现位置(如标题、内容)、信息时间、长度等。目录导航式搜索引擎还提供另外一种查询接口,用户可以在网页上直接点击树状目录,一层一层地点击查看下去,直到找到用户需求的相关类目下的网站信息。

信息检索模型信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是IR中的核心内容之一。基于内容的相似度计算方法布尔模型向量空间模型概率模型统计语言建模IR模型基于内部结构的相似度计算方法对于半结构化数据,在内容相似的基础上,加大部分数据的权重(如HTML网页中的Title、<B></B>、<H1>等重要标签中的内容)。对于无结构数据,根据不同位置(段首、段尾等),赋予不同的权重。基于链接结构的相似度计算方法链接分析方法(LinkAnalysis)Google的PageRank:与查询无关受启发于文献引用,越多越重要的文献引用的文献越重要WEB上的链接关系看成引用IBM的HITS算法:与查询相关每篇文章具有两个值:authority和hub通过递归计算文章的这两个值不是传统的相关度概念一般不单独使用,和内容相关度融合使用PageRank算法是Google检索结果的一种排序算法,中文通常译为页面级别或页面等级根据这个算法,Google认为每个网页都有一个反映其重要性的值,值越高表明其页面级别越高,即网页越重要一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。PageRank值的计算u为一个网页N(v)表示从网页u向外的链接数目R(v)表示链接到网页u的网页集合R(u)表示网页u的PageRank值C为规范化因子,作用是保证所有网页的PageRank总和为常量。例如为保证总的PageRank值为1,可以通过网页PageRank总和的倒数求得公式也可以适当变形简单计算的例子(c=1)PageRank值的计算前面所定义的PageRank有一个假设前提,就是所有的网页形成一个牢固的链接图。但是实际的网络超链接环境存在着两个主要问题等级泄漏(RankLeak)一个独立的网页如果没有外出的链接就产生等级泄漏,将会丢失其它所有的等级等级沉没(RankSink)整个网页图中的一组紧密链接的网页如果没有外出的链接就产生等级沉没。PageRank值的计算可以进一步改进为:衰减系数d(0<d<1)使得网页的PageRank值仅d部分在它所链接到网页中分配,剩下的部分用在整个网络的所有网页中分配,此值通常为0.85左右。原来的简单定义是d=1的特例设想一个名为http:///的网站,被链接至PR值为1,外部链接数为9的网站XYZ.COM,则计算公式如下:

PR(AKA)=(1-0.85)+0.85*(1/10)

PR(AKA)=0.15+0.85*(0.1)

PR(AKA)=0.15+0.085

PR(AKA)=0.235也就是说,如果我的网站获得一个PR值为1,外部链接数为9的网站的链接,最后我的网站将获得0.235的PR分值。再让我们看看如果我的网站获得的是一个PR分值为8,外部链接数为16的网站的链接,那么我将获得的PR分值将是:

PR(AKA)=(1-0.85)+0.85*(8/16)

PR(AKA)=0.15+0.85(0.5)

PR(AKA)=0.15+0.425

PR(AKA)=0.575上述两个例子表明,外部链接站点的PR值固然重要,该站点的外部链接数也是一个需要考虑的重要因素。转化成矩阵形式一个稍微复杂的例子计算过程IBM的HITS算法Hyperlink-InducedTopicSearch每个网页计算两个值Hub:一个Web页指向其他网页的数量,即该网页的出度值,作为目录型网页的权重;出度值越大,其越高Authority:一个权威型网页被其他网页引用的数量,即该网页的入度值,作为权威型网页的权重;引用越多,值越大Hub&Authority计算方法PageRankvs.HITS网页的PageRank与查询主题无关,可以事先算好,因此适合于大型搜索引擎的应用。HITS算法的计算与查询主题相关,检索之后再进行计算,因此,不适合于大型搜索引擎。搜索引擎的评价查全率和查准率响应时间信息收录范围数据库的大小及其覆盖率用户界面更新周期信息搜索的研究趋势更精确的查询分析方法更鲁棒的信息检索模型多因素综合检索方法快速并行检索相关查询的快速推荐方法结果的聚类常用搜索引擎的检索与利用Google搜索引擎Baidu搜索引擎Google搜索引擎Google简介Google的创立

Google是由2位斯坦福大学的博士生LarryPage和SergeyBrin在1998年创立的。LarryPageSergeyBrinGoogle简介2006年正式启用中文名称“谷歌”;中文Google的网址:

http://

http://.hk

http://谷歌搜索服务产品主要有:网页搜索、自定义搜索引擎、图片搜索、视频搜索、图书搜索、学术搜索、专利搜索。基本检索学术检索Google大全是其自我介绍!Google基本检索运算符逻辑与:“+”或空格查询语法:「关键词1」+「空格」或「+」+「关键词2」例如:针灸中风或针灸+中风注意:使用「+」时不可以有空格如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。例如:+www+的历史

搜索有关+www+的历史的中文(简体)网页。Google基本检索运算符逻辑或:“OR”或(|)查询语法:「关键词1」+「空格」+「OR」+「空格」+「关键词2」注意:运算符OR必须以大写的形式出现,否则会把它看成是普通的检索词。例如:大黄OR川军Google基本检索运算符逻辑非:“-”查询语法:「关键词1」+「空格」或「-」+「关键词2」例如:苹果-计算机注意:在「-」号之前要先空一格Google基本检索运算符短语检索:“”,可以查到各个单词按相同顺序在一起出现的网页。另外将关键字用英文双引号引起来也是一种强制搜索的方法。如”worldwarI”中,“I”其实是忽略词,但因为被英文双引号引起来,搜索引擎就强制搜索这一特定短语。Google高级语法Site:

将检索局限在特定网站或者网站频道。如局限在“”、“”,或者是某个域名,如“”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。例如:搜索新浪网站中关于H7N9的信息。检索:H7N9site:注意:site后的冒号为英文字符,而且,冒号后不能有空格。网站域名不能有“http://”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。Google高级语法intitle:将搜索范围限制在网页的标题内。例如:查找大黄对肝炎影响的信息。检索:intitle:大黄肝炎allintitle:所有的关键词都需要出现在网页标题内。注意:intitle和allintitle与后面的检索语之间不可以有空格Google高级语法Filetype:检索特定类型的文件,即搜索后缀或者文件的扩展名。它能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。查询语法:「filetype」:「档案类型」+「空格」+「关键词」或关键词+「空格」+「filetype」:「档案类型」例如:搜索一些针灸推拿PPT文档检索:针灸推拿filetype:PPTGoogle高级语法Link:检索所有链接到某个特定URL的页面列表。例如:搜索所有含指向南京中医药大学“”链接的网页。检索:link:注意:“link”不能与其他语法相混合操作。Google高级语法Inurl:返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。例如:查找MP3曲致青春。检索:inurl:mp3致青春注意:“inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索。“allinurl”:返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。

高级语法注意事项缩小搜索范围最好的选择:混合使用intitle、site。例如:intitle:自动化site:不混合使用有抵消的搜索。如“知识管理site:-inurl:edu”这样输入也搜索不到相应的结果。不要简单重复使用同一语法结构。如“知识管理site:cn

site:com”这样是不可以的,可以以这样的形式搜索:知识管理(site:cn|site:com)手气不错首页检索时按下【手气不错】按钮将自动进入Google查询到的第一个网页。而无需看到其他的搜索结果,省时方便。例如:要查找南京中医药大学的主页,只需在搜索字段中输入“南京中医药大学”,然后单击【手气不错】按钮。Google将直接进入http:///南京中医药大学的官方主页。Google图像检索在Google首页点击“图片”链接就进入了Google的图像搜索界面“images.G”。可以在关键

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论