下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、如何使用Internet的查询工具internet就像一个浩瀚的知识海洋,里面蕴藏着取之不尽的信息宝藏。如何挖掘开采它,获得人们需要的东西,目前还存在着两方面的问题:首先,人们手头的查询工具太多,有/netrk/网络地址,通常这类目录会很大,而且有按专题组织的地址表。这种情况下,我们一般喜欢用yah(地址:/)查找,它列出了8万个网络地址(包括eb页、gphers、ftp地址以及usenet新闻组),顶层又按艺术、计算机、卫生、保健等分成14类子题目。用鼠标点一下就可以选定子题目表,反复地查找子表,直到你找到需要的信息为止。除了yah一类人们普遍感兴趣的目录外,专题目录那么覆盖了从古文物到青年
2、工人等各方面的信息。找到这些专用目录的最正确途径是可以去密执根大学(地址:/gngxue/科学专业的研究生对之感兴趣。每一个查询引擎代表一个数据库,里面含有eb页的url(universalresurelatr或经专门格式化后的internet地址)地址以及其他网络资源。大多数查询引擎数据库是由raler程序、遨游eb的软件程序通过页与页的连接顺次查找新的地址搜集而来的。这里,raler又被称为机器人或蜘蛛。当蜘蛛找到新的页时,就把新页增加到数据库中。这些数据库存有成千上万个eb页,在引擎头的位置每天都在增加新的页。其中,多数人感兴趣的引擎如lys和exite覆盖面最广,其中每个数据库有150
3、万个索引eb页,其次是pentextindex,据称也有130万个eb页。每个数据库引擎的大小对查找是否成功起着很大的作用,例如,我们想用字符串reipeheatbeer(酿啤酒秘诀)查询每一个引擎,其结果是:最大的lys数据库引擎提供给我们437个匹配页(hit),infseek和pentextindex数据库那么每次提供200个页,用其他数据库那么少于100页,有几种情况下,甚至查不到一个eb页。通常的情形是,数据库越小,查到的eb页就越少。大多数数据库引擎严格限制其只能检索eb本身,infseek和exite那么比其他引擎更进一步,它们增加了usenet新闻组索引。infseek还允许用
4、户查询就近的一组非internet数据库的信息。索引中的信息eb的蜘蛛程序比url采集信息做得要多一些,它们还搜集有关每一页的信息,一旦你提交一个查询,查询引擎的bakend软件就建立起一个你所需信息的索引。从一个引擎到另外一个引擎,其索引技术是各不一样的,你不要因此感到奇怪。在每个引擎中,都有一个页的索引url地址和题目。多数引擎还有每一段的索引标题,其他的引擎那么只是记录了频繁提到的词或者文本的头几行。在pentextindex数据库引擎中,页的每一个单词都有索引,甚至包括and一类别的引擎忽略的词也有。结果可想而知,它理所当然成了唯一能在查找过程中返回是或者不是的查询工具。即使不包含你所
5、指定的关键字,exite基于概念的索引也可以帮助人们找到相关的页。找到匹配页并不意味着查询成功。一方面,数据库的大小确定了它查到的匹配页的多少,另一方面,索引质量的好坏还要由有多少个匹配页与你的查询相关来确定。如我们通过每一个查询引擎查找北卡罗来纳三角地的房地产信息,然后算一算在hapelhill地区有多少个与之相关的匹配页数。据统计,eb的raler返回19个匹配页,我们从infseek上获得200多个匹配页。但是实际上19个当中只有9页是我们所想要的东西。大多数infseek的匹配页与房地产有关,但是又有许多东西与北卡罗来纳没有任何关系。使用正确的工具无论数据库有多大,待查数据库有多么复杂
6、,查询引擎是你进展检索的独一无二的好工具。有时需要进展词组的查询,不同的数据库处理词组的方式不尽一样。infseek用词的主干部分来检索与该部分匹配的页,如欲查ipressinis一词,只需查找与ipressin匹配的页即可。lys那么将查询项作为主干词来处理,所以在这种引擎中,etal一词就与etalli匹配。有几种引擎允许用户检索所有的词组,而不只是检索被查询串的个别单词,它们检索串组合成词组的偶尔搭配。有两种引擎可以查到一个词组的多种变化,这两个引擎是alieb(地址:eb.nexr.uk/publi/alieb.htl)和ui的3atalg(地址:另外,使用这些可用工具还有一个问题。在
7、某些引擎中,允许用户按指定的操作对用户的查询项求精。这将意味着在最根本的底层,你检索到的地址包括待查串中的任何一个单词或者项的全部,lys就是这样进展的。其他一些引擎允许用户使用更多的布尔项,如and、r,有时还用nt。只有infseek和pentextindex两个引擎允许用户使用相近操作,它们允许你查询与被查串相邻的项。使用这些可用的工具动态地增加了匹配页的查询质量。例如,我们使用pentextindex简单查询页查找酿造小麦啤酒的秘诀,可以得到90个匹配页,这里面只有很少的几页与自酿小麦啤酒有关(多数页与饮酒有关)。但当翻开per页进展小麦啤酒秘诀的相邻项查询时,我们可得到6个匹配页,其
8、中有3个正是我们所需的东西。分开有用和无用的信息当你获得匹配页表时,你的检索工作才刚刚开场。你得将这些地址分类以找到你真正想要的东西,多数引擎可以在结果页的顶部显示它们确实已检索到的词。你可能已经查找过好的、坏的和丑的东西,而检索引擎也告诉你它确实是在查好的、坏的和丑的东西,记住一点,你可以通知许多引擎查找全部词组,而不只是关键字。多数引擎返回的匹配页与查询项亲密相关。即使你获得200个以上的匹配页,你也不用担忧要将所有的页都搜集起来,可能顶多你只需10个。不同的引擎采用不同的方法计算查询页的关联度。infprseek根据被查项在整个数据库出现频度相近的页中出现的次数来排列匹配页,lys那么基
9、于项在页中的出现次数、与其他项的临近度以及在页中的位置来排列。大多数引擎提供了匹配页的几种描绘。在这方面lys是最正确的,它不仅提供了关联的比率、每页的描绘,而且还有文本的简单摘要。人们只需阅读一下摘要,就可以判断是否是你需要找到的匹配页。元级检索(etasearhing)人们可能不大喜欢忙繁忙碌地从一个检索引擎到另一个去查找想要的信息,那么你应该学习使用元级检索地址。它们是几个检索引擎同时开场查询得到的页面。有两种页面:savvysearh(地址:/dreiling/sartfr.htl)和etaraler(地址:.s.tl),它们可同时在假设干个引擎上查询。savvysearh还会覆盖ar
10、hieplex(用于检索ftp地址)和dejanes(用于检索新闻组)。这种并行检索引起的唯一问题是用户访问不到每一个引擎查询工具,例如布尔和相近操作,用这种方法进展查询就不如实际的词汇查询准确。另一些元级检索地址允许你在某一时间查询一个主要引擎。用户可以想用的引擎格式填写并启动它。这样做也许会漏掉一些查询工具,但是这些页可被保存在文件上供将来快速查询用。查询后的工作前述工具你会喜欢用哪一种?这里,我们挑选了3种检索引擎:exite、infseek及lys。这3种工具都提供了易于使用的界面,人们可以从中得到准确的结果。此外,我们还增加了一个目录yah。这是迄今我们用到的最完好的目录,它提供了一
11、个完美的缺省hepage。幸运的是这些工具经常改进。infseek已经宣布方案把一个目录编入它的检索地址。而pentextindex也宣布方案与yah合作形成一个可能会令人吃惊的产品。在开拓者的头脑中,无论你最终使用哪一种工具,它们都会使得eb更有市常查找内部消息tips一个检索引擎数据库实际上就是与url地址有关的词和词组的索引。你要做的工作是查找与该索引匹配的词。这里有几条通用规那么可便于用户最大限度地进展查询。1.阅读一下引擎的指令许多检索引擎提供了自身的操作、定义符及规那么集,这些东西有助于你进展高效查询。试着用一用它们。2.选择不常用的词检索词与其他词的区别越大,对于加快搜索越有用。
12、举个例子,你检索埃塞俄比亚弥猴科就比非洲的绿钱币获得的索引项要多。在检索时,应尽量挑选可以表达你意思的词。3.注意拼法假如你在查astrnut一词,你可以得到符合拼字正确要求的eb页。对字符串形式看来很相似的词,切记也要检索一下该词的合理变化,如你要查fly-fishing一词,应该试试查flyfishing和flyfishing两个词。4.同义词记住,你可能查的是一个概念,而并非只是一个单词。例如,假如你想查找有关背包徒步旅行的地址,在你的查询中就应包含这些项:徒步旅行、乘牛车旅行、背包徒步旅行以及露营。5.勿用自然语言某些地址支持自然语言的查询,即允许用户以说话的方式提问。不要去用这个功能,你要将焦点放在可以识别你概念的术语和词组上。6.重复你查询的东西在第一次查询过后,回到你最有希望查找的匹配页,把其他一些你可能会快速广泛进展查询的术语摘录下来。7.不要忘了nt有一些查询引擎支持nt(非)操作,这个操作允许你进展输入项的查询。因此,你对非重非音乐的金属进展查询,就可以找到与工业金属有关的地址,从而防止去查重金属。8.使用多个查询引擎我们惊奇地
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二手房买卖意向金合同完整协议书2024年
- 2024年实验室技术咨询与技术服务合同
- 2024年工程承包反担保合同范本
- 2024年印刷机械设备安装分包合同
- 2024年产品供应与安装合作协议
- 借款合同还款协议书范本(2024版)
- 2024年东南亚基础设施项目融资与建设合同
- 重型机械设备租赁合同范本
- 2024年国际借款协议:外汇资金借贷
- 2(2024版)淘宝店铺信用评价服务合同
- 2024年中华人民共和国企业所得税年度纳税申报表(带公式)20240301更新
- CH-T 1026-2012 数字高程模型质量检验技术规程
- 小学英语基础语法
- 展厅设计施工合同
- 2024年中国邮政集团有限公司校园招聘考试试题及参考答案
- DZ∕T 0148-2014 水文水井地质钻探规程(正式版)
- 认识城市轨道交通安全管理讲解
- 档案管理系统用户操作手册
- 场内运输机械检查验收表
- 不锈钢加工检验标准
- 康复治疗技术专业《疾病学基础》课程标准-康复
评论
0/150
提交评论