网络信息检索(一)基础与搜索引擎课件_第1页
网络信息检索(一)基础与搜索引擎课件_第2页
网络信息检索(一)基础与搜索引擎课件_第3页
网络信息检索(一)基础与搜索引擎课件_第4页
网络信息检索(一)基础与搜索引擎课件_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息检索(一)

基础与搜索引擎王建涛

2007-10QQ:470720051信息检索能力的三个层次知道在哪里能找到信息(了解不同的信息源)能从信息源中检索出合适的信息(课题分析和检索技术)能对检索结果进行评价和分析(选择、综合利用)2网络社会

在现在的网络信息环境下,网络信息资源是我们学习、工作、生活中利用率最高的信息资源之一。对网络信息资源的利用是终身学习的需要,也是个人信息素养中的重要内容。相对与本馆纸质文献信息资源和数字资源的检索利用,其对人的影响更为深远。所以在本课程中不仅仅介绍网络信息资源及其利用,还对网络融入生活、网络融入学习与方面的内容做了介绍。3聚沙成塔:网摘工具收集网页信息,天天网摘:先进行免费注册。然后下载下载并安装插件(一个注册表文件)。安装完后,重启浏览器就能够使用天天网摘了。使用时,在页面点右键,从弹出菜单中选择“加入天天网摘”。天极网摘:使用方法同上。文章按类型整合,阅读方便。

有文摘、图摘、闪摘、MP3摘。能制作图文并茂的网摘,更生动形象。其它:GoogleNotebook4移动网络导航:网络收藏夹收集网址央库百度收藏:Winodwslivefavorites四楼Googlebookmark(基于google工具栏)

首页网

抽屉

socialbookmarking

http://del.icio.us

5个人仓库:网络存储空间、网络硬盘存储你的文档

超大邮箱

Livemail(原Hotmail)5GB(3个月不登录将自动清除)其实,有1个G就可以存很多文章了。6网络信息资源检索基础网络基础(自学)网络信息资源概念、类型及其特点网络信息资源的评价与选择网络信息检索工具[教材P35~40]71.1认识IP地址人们为了通信的方便给每一台计算机都事先分配一个类似我们日常生活中的电话号码一样的标识地址,称作网络协议地址,是分配给主机的一个32位地址,由4个字节组成。分为动态IP地址和静态IP地址两种。动态IP地址指的是每次连线所取得的地址不同,而静态IP地址是指每次连线均为同样固定的地址。如在图书馆无线上网就是动态IP地址,每次所取得的地址不同。静态地址如学校网站的IP02

通常一经设定,变动较少。81.2网络地址和认识域名虽然可以通过IP地址来访问每一台主机,但是要记住那么多枯燥的数字串显然是非常困难的,为此,Internet提供了域名(DomainName)。域名也由若干部分组成,各部分之间用小数点分开,例如我校主机的域名是:“”。域名前加上传输协议信息及主机类型信息就构成了网址(URL),例如我校www主机的URL就是:

“http://”。通常,进行网络访问时,域名的www可以省略。如http:///,可以直接输入。不能省略的与域名服务器的配置有关。域名一般不会变动。91.3网络地址网址URL网络地址是URL(Uniform

Resource

Locator)的俗称,一般由三个部分构成,各个部分如下:

服务器标识符

通过选择服务器标识符能够确定将要访问的服务器的类型,URL中的服务器标识符可以有HTTP://、、GOPHER://、TELNET://、NWES://等等类型,分别指定为采用超文本传输协议连接、采用文件传输协议连接、与GOPHER服务器连接、与TELNET会话连接、与USENET新闻组相连接。信息资源地址

信息资源地址是由两部分构成的,一是机器名称,如是用来指示资源所存在的机器,另一个是通信端口号,如HTTP的标准端口号为80,TELNET的标准端口号为23,FTP的标准端口号为21等等。路径名

路径名是给出资源在所在机器上的完整文件名.如:/index.php101.4域名与网络信息资源有什么关系?由于Internet最初是在美国发源的,因此最早的域名并无国家标识,人们按用途把它们分为几个大类,它们分别以不同的后缀结尾:随着Internet向全世界的发展,除了edu、gov、mil、一般只在美国专用外,另外三个大类com、org、net则成为全世界通用,因此这三大类域名通常称为国际域名。ac代表科研机构由于国际域名资源有限,各个国家、地区在域名最后加上了国家标识段,由此形成了各个国家、地区自己的国内域名,如:

.中国的商业.org.hk香港的组织.net.jp日本的网络对网络信息资源的获取与评价有参考作用.com商业公司.org组织、协会等.net网络服务.edu教育机构.gov.政府部门.mil军事领域11全世界为美国打工

目前,全世界共有13台根服务器,其中10台在美国,而且2台由美军使用,1台由美国国家航空航天局使用。也就是说,每天世界各地的电子邮件有很多要先由美国人“过目”之后才能去它该去的地方。此外,美国私营公司掌握着全世界互联网域名的分配大权。假如美国与日本的关系急剧恶化,只要美国通过技术手段删去日本的域名“.jp”,日本马上就会成为“网上孤岛”,无法通过网络与外界联系。全世界的网络用户都要向美国支付费用,“全世界都在为美国打工”。中国已经建成了世界第一个同时也是规模最大的纯IPv6网12更多……www指的是什么?

即是万维网(WideWeb):是基于超文件的、方便用户在因特网上搜索和浏览信息的信息服务系统。它将位于全世界因特网上不同地点的相关数据信息有机地纺织在一起。媒体形式可以是文本、图片、动画、声音等,可以跳转,“网上冲浪”。浏览web信息的网络浏览器有哪些?

微软IE(InternetExplorer)

遨游(maxthon)

火狐(FireFox)

网景(Netscape)

腾讯TT浏览器13更多……在以后的上机和课余时间,欢迎就更多的计算机基础知识和网络话题进行探讨,我很乐意同大家一起学习。今后的社会,网络是一个基本要素,它将对社会经济、科技教育、国防乃至政治产生决定性的影响142网络信息资源概念、类型、特点2.1概念网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和。152.2网络信息资源的类型按信息内容的表现形式和内容划分可分为全文型信息:它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文等;事实型信息:天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等;数值型信息:主要是指各种统计数据;数据库类信息:如DIALOG,万方等,是传统数据库的网络化;微信息(web2.0特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等。其它类型:投资行情和分析,图形图象,影视广告等。16按所采用的网络传输协议可分为WWW网络资源:因特网信息资源的主流,它使用http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息。FTP信息资源:它使用ftp协议,该协议主要用语连网计算机之间传输文件。FTP相当于在网络上两个主机之间复制文件。目前仍是发布、传递软件和长文件的主要方法。TELNET信息资源:telnet是远程登陆协议。telnet信息资源包括硬件资源和软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。用户服务组资源:包括新闻组,电子邮件组等。这些电子通信组形式所传递和交流的信息资源是网络上最自由、最具有开放性的资源。news172.3网络信息资源的特点复杂性:网络信息资源具有大数量、多类型、多媒体、非规范、跨时间、跨地域、跨行业、多语种等特点。在很大程度上网络的增长和信息资源的动态快速增加是由用户驱动的,但缺乏有效的统一管理机制,信息安全和信息质量的不均衡性。信息分布和构成缺乏结构和组织,信息源不仅分散无序,而且其更跌和消亡也往往无法预测,因此增大了信息资源管理和利用的难度。信息发布具有很大的自由性和任意性,隐私型信息进入了公共信息传播渠道;由于缺乏必要的过滤、质量控制和管理机制,不仅学术信息、商业信息,政府信息、个人信息、不合适(反动、黄色)的信息混为一体,质量良莠不齐。增加了信息识别和利用的难度。30个月全球网站数量翻一番总数已突破1亿大关【2006年11月03日】18续正式出版物和非正式信息交流交织在一起,使传统的人类信息交流链的格局被打破,各方在网络上既可以是信息的生产者、发布者,也可以是传播者和使用者,对学术交流环境和信息利用产生了深刻的影响。网络营造了“地球村”,既极大地促进了人类信息资源的共享,又带来了一些意想不到的问题,如文化冲突、信息侵略、信息威慑等。使用成本低

共享程度高

是信息资源的宝库……193网络信息资源的评价与选择相同内容的信息资源的载体形态或利用、获取的方式不同,可以根据需要选择。网络信息资源的评价与选择主要是针对信息源。内容因素。内容是评价与选择的核心和重点,从中可以反映网络信息资源的本质。评价网络信息资源的内容因素主要有:权威性、完备性、可靠性、原创性、新颖性、稳定性等。形式因素。形式指标反映了外部特征以及操作使用等方面,是为提示内容服务的,主要包括:美观性、条理性、查检性、帮助性、快捷性、低耗性等。定量的评价:Google的pagerank,星数评价等级。20权威性在本学科领域具有一定的影响、具有较高的学术水平、具有较高的知名度;Google网页级别评价作为重要的指标,非独特性资源网页级别需3/10以上。主要关注如下问题:所采集的网站(页)的主办者是否为有声誉的大学、学会/协会、实验室?网站是否通过权威评价机构评价过?所选的站点是否被多个internet站点链接?网站是由某公司、机构还是某领域的著名的权威或专家赞助?信息提供者的教育背景和职业背景及其研究方向?责任者有知名的出版物吗?信息是否经过过滤?信息是否经同行评议过?资源是否由相关的权威推荐?是否有与权威机构的页面的共同链接?出版社是否知名和有声望?出版社是否是公认的出版界的权威?出版社是否是大学的出版社?是否有任何原创作品?选择的资源与其它作品有相关性吗?

21准确性信息资源需严肃正规、准确无误、完整规范。一方面是内容的准确性,另一方面是格式和链接的准确性。对资源的导航需能正常访问。主要考虑所选网站(页)提供的信息是否准确?是否提供了信息的来源和出处以备用户进一步核查;网页引证的书目或提供的参考能否证实信息的准确性?页面的句法和拼写是否准确?有否排印错误?提供的信息是否完整规范?22稳定性信息资源需有较长的稳定期或有稳定运行的保障机制。主要看所选网站(页)提供信息的时间、更新频率、最近的修改日期,链接速度,断线率等。是否能持续提供给用户使用?23可获得性信息资源揭示信息的层次中,至少一个能无障碍地获得。

主要要考虑的是题名信息还是文摘信息或全文信息?是否有对信息结论的阐述标准?是否给出了表明信息内容的关键词或主题词?希望在该网页上找到何种信息?主题的涵盖面是否全?索引或目次页是否隐含了综合性的内容?是否免费?是否注册?是否国际流量?是否符合标准?是否有其它格式或镜像?某种类型的信息有使用期限制吗?访问资源的方式是否依赖用户使用的设备?是否需要专门软件(如浏览器)?是否有方便的导航?是否容易链接所需的信息?是否有清晰的链接标签?是否能分别打印页面和文献的某一部分?是否能发送到电子邮箱?是否提供多种检索方式?检索信息的效率如何?244网络信息检索工具当已经知道地址时直接通过地址访问。当不知道地址的时候,需要借助检索工具4.1搜索引擎4.2网络资源目录4.3信息门户4.4搜索软件254.1搜索引擎[P41]搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。

获取更多定义:define:搜索引擎“机器人”工作机理起始URL分析页面URL新页面26都有哪些搜索引擎……中文搜索引擎指南网[搜网]:

搜索引擎观察[专业、元、多媒体、购物]

/

著名搜索引擎简介:

274.1.1水平门户_综合搜索引擎[中文]中文常用搜索引擎百度中文搜索引擎:http:///

Google中文搜索引擎:搜狐搜狗搜索:http:///

雅虎:新浪:网易有道:TOM搜索:/

北大天网搜索引擎:http:///

奇虎284.1.1水平门户_综合搜索引擎[英文]国外英文常用搜索引擎Google—以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。Fast/AllTheWeb—总部位于挪威的搜索引擎后起之秀,风头直逼google。AltaVista—曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。Overture—最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。Lycos—发源于西班牙的搜索引擎,网络遍布世界各地。HotBot—隶属于LycosNetworks,搜索结果来自其他搜索引擎及目录索引。294.1.2

垂直搜索引擎垂直搜索引擎:即专业或专用搜索引擎,它专门用来检索某一主题范围或某一类型信息,追求专业性与服务深度是它的特点。垂直搜索引擎不但可保证此领域信息的收录齐全与更新及时,而且检索深度和分类细化远远优于综合搜索引擎。垂直搜索引擎的检出结果虽可能较综合搜索引擎少,但检出结果重复率低、相关性强、查准率高,适合于满足较具体的、针对性强的检索要求。目前已经涉及到购物,旅游,汽车,工作,房产,交友等行业。30垂直搜索引擎举例:1

找工作的搜索引擎:http:///

google学术搜索:/

google图书搜索:

PatentSearch

比价购物搜索引擎:

http:///

博客与RSS搜索引擎:http:///[中客]

/[博客中国人]

http:///

[八方]

人脉搜索引擎:http:///[交友,找工作,商机]

https:///

http:///[人物、软件]

论坛搜索引擎:http:///

31垂直搜索引擎举例:2TheMusicFinder

Singingfish(只能搜寻声音和录像)http://

旅行TripAdvisorhttp://

计算机科学研究和文章http://

图像搜索引擎:/[图像词典]商业搜索引擎

Businesshttp://

生意定向搜索引擎。DailyStockshttp://

可以了解被查询公司存货的信息已经相关的新闻报导,研究,引述和其他数据。

FMLXhttp://

英国定向的关于公司,存货数据,分析和研究的搜索引擎。eBizSearchhttp://

关于电子商务的文章和报告。324.1.3综合搜索引擎的专门化趋势搜狗(Sogou)[人物、音乐、购物、图片、地图]

GOOGLE学术搜索:

/GOOGLE图书搜索

AllTheWeb[能专门对图像、多媒体信息。]

33参见“搜索引擎观察”之专门搜索引擎AnswersSearching

|ComputerSearchEngines

DomainSearching

|FinancialSearchEngines

GovernmentSearch

|InvisibleWeb

LegalSearchEngines

|MailingLists

MedicalSearchEngines

|NewsgroupSearch

ScienceSearchEngines

|ShoppingSearch

TravelSearchEngines

|Engines

更多搜索引擎:344.1.4元搜索引擎元搜索引擎(matesearch)又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的检索提问一次搜索多个搜索引擎,并将结果返回给用户。有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合。

优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的广度。缺点:因为有时后并不能对一个搜索引擎全部查完,有时后也会漏掉一些重要信息。35中文元搜索引擎早期的元搜索引擎metaFisher中文元搜索引擎http:///fish/做的较早,核心功能较弱,没有现代主流搜索引擎的界面风格。万纬搜索http:///功能上和第一个元搜索引擎一样,核心功能很弱,制作一般多元搜索/做得较早,虽然号称整合的搜索引擎最多,但实际使用效果很差,查询速度也慢,返回结果基本未作处理。

新近出现的元搜索引擎集合了Google,Baidu,Sogou,Yahoo四大中文搜索引擎的结果。特色:有深入搜索提示知识搜索http:///search/主要用作学习工具,功能上尽量保证全面实用一家搜http:///对相似结果的处理有点特色bbmaohttp://是国内唯一具有自动聚类功能的元搜索引擎,技术和功能上都比较强狠搜http:///可以定制源搜索引擎,同时提供商业信息搜索,核心功能一般364.1.5搜索引擎举例:GOOGLEA.通用检索法则:关键词的选择是核心。

Google的关键词检索,所使用的关键词可以是字、单词,也可以是短语、词组或句子。使用Google进行检索非常简单,只要在搜索框内输入一个关键字,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。单个关键字搜索得到的信息量巨大,会带出海量的不相关信息,通常检索多是使用词语作为关键词。复杂课题检索,主题分析后就要进行正确选词。使用Google,不同关键词的选择,将决定检索结果排列不同,而且选词不准,无法发挥Google强大的检索功能,影响检索效率。Google搜索技巧[2005]

37如果检索专业或学术性信息,建议在选择关键词时应注意以下几点:

(1)选择专指性强的词关键词专指性强弱是影响查准率的重要因素之一,选用专指性强的关键词,则检出的网站针对性较强,查准率较高。专指性强弱是对选词表达主题的深度而言,要深入分析检索主题,选择研究的对象及其重要参数、概念等名词术语;选择所应用的对文章起关链作用的基础理论、方法、设备等名称;选择反映重要研究成果的词。例如,查找“网络检索工具的历史”有关的信息,选词时选用“搜索引擎”一词,比选用“检索工具”一词,查准率会更高。

38(2)多角度选词

关键词的确定必须经过对检索主题正确分析得到。复杂主题的关键词,要将反映该主题的各个主要方面的词汇都提炼出来,以提高文献的查全率。例如,查找“搜索引擎发展的历史”,因为搜索引擎的历史,是与互联网早期的文件检索工具“Archie”相关的。此外,搜索引擎有个核心程序,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,“Yahoo”是优秀搜索引擎的代表。因此,除了选择“搜索引擎”、“历史”外,还要选择“Archie”、“蜘蛛”、“Lycos”、“Yahoo”等词。这些词都是起关键作用的检索词。39(3)选择限制主题的词

在关键词确定之后,运用检索技术并不能保证检索出来的信息都满意,有时查询的结果太多太泛。由于Google只搜索包含关键词的网页,除了增加表达主题的关键词,还可增加限制性的词语作为关键词,以排除多余的信息。例如:输入“红旗-汽车”,将会找到关于红旗但不含“汽车”的网页。40B检索语法(技术)为了完整准确地表达检索需求,提高检索的精确度,正确选择关键词后,还需要了解和运用Google各种检索语法与技巧,根据Google提供的操作、运算符和使用规则说明,设计出一个高质量的检索式。41谷歌和百度检索语法谷歌和百度的技术几回都一样语法符号全部是半角符号(也就是英文或大写状态下输入)搜索引擎搜索结果摘要部分,优先显示网页中含有搜索词的内容,当没网页内容中没搜索词的相关内容时,显示才网页的部分具体内容,而不仅仅是网站简介;字母大小写不敏感,BOOK和book的搜索结果一样;空格表示逻辑“与”,OR表示逻辑“或”,减号-表示“非”;空格和减号-

常常会用到,OR不常用。当结果中明显有不是你需要的信息的时候,用减号-

去掉相关信息。默认为模糊检索,并会自动拆分搜索的词组和句子;精确检索用双引号””。可以搜索词组或句子,如:【”检索技术”】和【”关于google使用的文章网”】出现频率极高的词(主要是英文单词),如“i”、“com”,以及一些符号如“[”、“.”等,作忽略处理,如果用户必须要求关键字中包含这些常用词,就要用强制检索用加号+。但是英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。42

通配符“全词通配符”(full-wordwildcard)是指代替一个单词而不是单词中的某个或几个字母的键盘字符。“词间通配符”(partial-wordwildcard),一些搜索引擎如:AltaVista、Inktomi、NorthernLight、Yahoo等支持通配符*,AOLSearch、Inktomi等支持通配符?,NorthernLight等支持通配符%。在这里*、?、%只能代替单词中的一个或几个字母,而非整个单词。google的通配符是星号*,包括全词和词间通配功能,一次检索可以使用若干个省略词和字母。如【comput*】。在查找歌词、诗歌、短语等方面比较有用。比如想看看“天涯何处五芳草”的另类说法:【”天涯*无芳草”】,注意,用了精确检索语法符号。【iwillberight*foryou】。436.In-\allin-系列搜索语法:“位置检索语法”In-系列搜索指令往往最为简洁,能够大幅简化搜索结果,提高搜索精确度。一般情况下allin的结果多一些。(1)Intitle--标题搜索:搜索热门话题的杀手锏,诸如“NBA赛程”、“GeForce7800”、“Vista鼠标指针”等具有一定关注度的搜索词组最适合进行标题搜索--这些热门词的使用频率高,搜索结果误差较大,直接通过标题搜索往往能够获得最佳效果。(2)Intext--正文内容搜索:与标题搜索相比,正文内容搜索的搜索目标更明确,而且适合于一次性搜索某一网页内容包含多个方面细节的网页。44(3)Inurl:直接搜索网址(如)中的字符.只要略微了解普通网站的URL格式,就可以极具针对性地找到你所需要的资源--甚至隐藏内容。如[网络搜索大赛inurl:lib],搜索和图书馆有关的网络搜索大赛的网页.inurl的应用范围十分广泛,如:A.利用inurl搜图片--inurl:photo,搜索所有包含图片的关键词页面结果,如果说Google图象搜索侧重于展示图片,inurl搜索则让你在看到图片之前了解到页面大致的文字内容,更方便判断。利用这一语法,你往往能够找到搜索词的组图内容(指令中的photo也可以替代为picture、image等)

例:搜索“乔丹经典”图片,输入:乔丹经典inurl:photo,首个搜索结果上便提供了所有值得收藏的乔丹瞬间.B.利用inurl搜音乐--inurl:mp3,直接获得包含mp3音乐内容的页面搜索结果,Google中搜索音乐的另一有效方式(MP3可以替换为wma/ogg等)例:搜索T.A.T.U的经典歌曲“showmelove”输入:"showmelove"inurl:mp3,直接找到这首歌的下载页面45C.利用inurl搜软件--inurl:download,直接查找某个软件的下载页面,亦十

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论