下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网上搜索的方法和技巧我们已经知道网上有多种多样的教育资源,从技术上讲,它们是在In ternet的多种服务功能的支持下实现的,包含WWW、e-mail、Use net、FTP、BBS等,其中发展最快,也是最为流行的是WWW。因此我们着重介绍 WWW信息的检索方法。据1999年底的统计,网上大约有15亿个网页,并且以每天增加190万个网页的速度在 增长,到2002年已达到80亿个网页。要想在这么大的一个资源库中查找一条具体的信息, 犹如大海捞针一般。因此,有人发出这样的感叹:"我们淹没在数据资料的的海洋中,却又在忍 受着知识的饥渴”。现在出现了许多种在网上查找信息的方法。这些方法可以分
2、为两类:一类是有既定目标的查找,一类是没有目标的查找,而后者往往是指一种网上”冲浪"游戏。在具有既定目标的情况下,如果已有信息线索,可以用浏览器航行的办法寻找信息对象;如果信息线索未定,则需要利用搜索工具首先获得信息线索。搜索工具又有传统工具和现代工具之分。传统工具是在索引数据库中进行主题树/目录检索或KWDSEs(关键词搜索引擎)进行建设而索引库的建设是一个极其繁重的任务,现在已经可以利用"机器人"程序来帮忙,它们通过跟踪最新建立的HTML网页的URL对整个网络进行浏览,可以在网上从这一个网站爬到另一个网站,并记录下它们访问过的网页的各自特征(这种只有十来年历史
3、的搜索技术就被称为传统工具了,你觉得奇怪吗?)。而现代搜索工具是利用智能代理来工作,它们不是对整个网络进行索引,而是在接到一个新任务时就出发, 去搜索网上资源并提取有价值的信息。因此,智能代理是利用神经网络技术进行搜索,它试图去发现自然语言与样本网页的模式及它们之间的相互关系,这些将与新近发现的网上资源相匹配,最后以一串网址的形式供用户访问。图2_3_10显示了网上信息检索工具的选择方法。传娩工具H卜題朝# H敢I搜* EM.fl1T现代工和I-*岳傩论理"|I 航行T 任僉卜冲舉2*3*10 州上瞋"检索工具的迭捋(一)搜索工具在In ternet上现有的检索工具成百上千
4、,比较普及且功能较强的就有几十种。这些检索1. 主题目录主题目录有时也 称为主题 指南,什 么是主题 目录呢?让我们打 开雅虎中 国网站 来看一看。 在网页首页的中部正是雅虎自定义的一级主题目录, 其中 一个类目就是 "教育"。如果我们点击 "教育 "将会看见其下一级类目,如果接着点击其中一个 子类目,还可以进入更下一级类目,直到某一个具体网站或网页。主题目录是按照等级排列的主题类索引, 排列的方法有字母顺序法、 时间顺序法、 地点 法、主题法等等,或是各种方法综合使用。主题目录能让用户通过主题浏览 Web 站点列表 检索相关信息。主题目录主要是依靠图书
5、馆和信息专业专家对已知的网站根据其主要内容进行筛选、 组 织和评论, 从而编制的等级式的主题目录。 有时也允许网站拥有者对他们自己的网站加以归 类或进行类别描述 ;有的网站则干脆邀请随机的网站访问者来对网址进行分类。这些主题目 录以超文本链接的方式将不同学科、 专业、行业和区域的信息按照分类目录的方式组织起来, 类目之间按照等级系统排列, 然后将待收录的网页与相应的类目或主题相连。 这样, 用户就 可以通过主题目录的指引, 在相应的等级结构中逐层浏览, 直到找到与自己的需求相关的信 息。目前以主题目录为核心,并且收录网络信息较多的网站有雅虎中国 l() 、 图 书 馆 员 索 引 (http:
6、/) 、 信 息 开 采 () 等。由于主题目录要由人工编制和维护,在信息的收集、编排、 HTML 编码以及信息注释 等方面要花费大量的人力和时间。 人工干预虽然减少了主题目录下不切题结果的可能性, 但 也往往会造成某一主题下的站点不够多、不够全面的缺陷。同时由于 Internet 上网页数最庞 大并且在不断变化, 所有的主题类别都要能跟上站点内容的发展, 也很难办到, 所以碰上部 分站点为 "死链 "或已经过期也就不奇怪了。总体而言, 主题目录特别适宜于一般性的、 比较笼统的主题的浏览和检索。 其等级式分
7、类令用户可以自由选择检索范围, 并且从大到小的范围逐级浏览也十分方便。 但是使用主题 目录很难检索到较为专业的信息, 且由于人类的分析判断带有主观性, 网址分析归纳者的网 站分类方法也不一定与用户的需要相适应。如果思路碰巧与网址分析归纳者的思路合拍的 话,这些主题目录可能会对用户有巨大的价值; 但假如情况相反,用户则会感到它们牵强而且不可捉摸, 精心分析和归纳的数据与实际需求风马牛不相及。 在许多时候, 用户需要的信 息会分散在好几个不同的主题类别下, 用户容易错过交叉有关的信息。 另外, 不同的网站提 供的主题目录的分类和结构不尽相同,用户有时要找到合适的类别也有相当的难度。2. 搜索引擎搜
8、索引擎的基本概念出现于 20世纪 20年代,但真正发展和应用却是 20世纪 90 年代的事情,特别是在 90 年代中期得到快速的发展。 搜索引擎一般包含两大核心技术:自动网页搜索技术和全文检索技术。目前得到普遍认可并且功能较强大的、以搜索引擎为核心的网站很多,例如 :?AltaVista:?Excite:http:/WWW?lycos:?Google:httP:/搜索引擎与主题目录最大的区别在于:搜索引擎主要依靠被称为蜘蛛、机器人、爬虫、漫游者等的网页搜索工具, 而不是人工编制。 其基本工作可分成以下 3 个方面。 (l) 首先搜索 引擎派出网页搜索工具如spider(蜘蛛)在In terne
9、t上搜索信息,并把信息带回搜索引擎;(2)将信息进行分类索引,建立网页数据库 ; (3)通过 Web 服务器端软件,为用户提供浏览器界面 下的信息查询。对用户来说, 搜索引擎的可见部分就是它的用户界面。 当用户在输入框中输入需要查询 的关键字, 点击"查询 "之类的启动按钮后, 搜索引擎就会使用一定的检索算法从网页数据库 中找出与查询关键词相匹配的相关记录, 并以列表的方式显示给用户。 当然, 不同的搜索引 擎其检索算法也不一定相同。一般搜索引擎不仅提供键入一个或多个关键字的简单查询, 大多数还提供附加的查询选 项。比如说 :?布尔运算符号:AND(与)、0R(或)、NOT
10、(非);?多媒体检索 :检索包含 Java Applets、 Shockwave 等对象的网页 ;?专用检索 :检索在链接、图象名称、文档标题中的关键字或URL;?多种检索约束条件 :限定检索文档的创建时间,文档使用的语言等。 提交给用户的查询结果一般包括文档标题、 URL 和概述,有时也包括文档建立的时间、 文档的大小等。 有的搜索引擎还会根据一定的算法, 给出每一条查找结果与查询关键词之间 的相关程度评分。 网页的概述内容, 通常是用户决定是否链接上该网页仔细浏览的依据。 而 网页概述部分的形成有好几种办法 :?将网页制作者的描述作为网页的概述;?将文档的前面 100 一 200 个字符作
11、为概述 ;?采用一种提炼文档语句的算法来形成概述。全文检索技术则是以文本信息作为检索对象, 建立全文数据库。 其基本工作方式就足能 够把所有包含检索词的文档检索出来, 不论这个词是出现在文档的标题, 还是出现在文档的 任何一个位置。 全文检索系统能够对文档中出现的任意词进行检索, 或者说文档中出现的任 意词都可以作为检索到该文档的条件,这就是 "全文 "两字真正含义之所在。3. 元搜索引擎元搜索引擎(metasearch engine)又称多元搜索引擎或者并行搜索引擎,也称作大容量 搜索引擎, 是近两年才陆续出现的新型搜索引擎。 它是为弥补搜索引擎的不足而出现的一种 辅助检
12、索工具。 一般搜索引擎的检索范周仅局限于其自身的数据库, 而且即使是世界上功能 最强大的搜索引擎数据库也只能涵盖世界上不到三分之一的公用网页。同时, 由于不同的搜索引擎各自的信息收集方式和范围、 检索算法和结果排序方法都各 不相同, 同一检索表达式得到的结果大不相同, 要想得到较全面的网上信息, 不得不使用多 个搜索引擎,费时费力。而元搜索引擎允许你同时搜索若干个数据库和搜索引擎,有的甚至可以向你提交单一 的、集成的、 分级排列的搜索结果清单。 实际上, 它将用户的检索提问同时送到数个搜索引 擎的不同数据库中进行检索, 在短短几秒钟时间就能从这些搜索引擎数据库中找到相关记录 的集合并进行不同程
13、度的处理。 这比一次只能访问一个搜索引擎方便得多。 并且同样进行一 次搜索,元搜索引擎使得你能够比使用单一搜索引擎查找到更多的网址。元搜索引擎本身可以有也可以没有自身的数据库。 它就好像是有智能的中间代理, 它发 布用户的搜索请求, 然后收集独立搜索引擎返回的结果, 最后为用户提供一个统一界面的搜 索结果报告。由于元搜索引擎刚出现,影响比较大的主要来自国外,比如 :?Dogpile:?Inference Find:?Search:元搜索引擎也有缺点。 由于其出现的时间不长, 一些搜索引擎的强大的检索功能还不能 实现。并且由于它要借助于别的搜索引擎,而不同的搜索引擎解析查询表达式的方式不同;处理
14、大小写字母的方式不同 ; 有的允许自然语言查询而有的不允许;有的可以采用 NEAR( 邻接)操作符而有的不可以。为了借用尽可能多的搜索引擎,元搜索通常只使用简单、直接的 搜索策略,一般仅支持AND 、OR、 NOT 等简单的比较低级的通用搜索操作。这样就很难甚至不能利用每个搜索引擎的特色功能。最新最全面的检索功能和一些专门化的信息还是只能在特定的搜索引擎中获得。假如您的需求比较一般化, 用元搜索引擎会有很好效果。 但假如您需要更精细的搜索结果,元搜索并不一定合适。另外,与需要信息无关的检索结果大量出现的问题仍然不能解决。(二)搜索策略前面已经阐明, 一种搜索引擎适用于一项任务, 而且没有任何两个搜索引擎的搜索结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民间借款展期合同范本
- 服装设计招标南航寻找创意人才
- 出口木柴销售协议
- 来料加工合同版协议
- 合伙协议合同合作方合作方利益
- 安全顾问咨询招标
- 下骨架工的施工内容和流程
- 2024按揭购车合同范本
- 2024标准企业集体合同
- 塑料制品在玻璃印刷上的应用考核试卷
- 分行业每度电产出
- 某医院拆除施工方案
- 银行培训手册:流动性覆盖率(LCR)
- 小学三年级上册道德与法治课件-9.心中的110-部编版(12张)ppt课件
- 《蓝色的雅德朗》教案
- 《加盟申请表》word版
- profibus现场总线故障诊断与排除
- 当前住房公积金管理中存在的问题和解决建议
- 高考数学立体几何中的翻折、轨迹及最值(范围)问题
- 光伏土建工程监理实施细则
- 药品GMP自检检查表
评论
0/150
提交评论