




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章网络信息检索主要阐述网络信息资源及搜索引擎理论基础第一节网络信息资源及其评价第二节网络信息检索的发展趋势第三节搜索引擎的类型第四节中文搜索引擎举要第五节英文搜索引擎举要第一节网络信息资源及其评价
一、因特网上的信息资源的类型
1.从是否付费角度划分,有付费和免费两大类
付费的网络资源:大多是技术含量高、整理有序、具有很高利用价值的各信息公司开发的数据库系统,如CNKI、DIALOG等。免费信息资源:大多是由单位或个人提供的各种信息资源。回首页2.从内容角度划分,有政府机构信息、科研信息、教育信息、文化信息、消遣娱乐性信息资源等。3.从表现形式角度划分,有网络数据库、联机馆藏目录库、电子出版物等。(1)网络数据库又称为文献库、资料库,是发展最早、影响最广的一种主要电子资源,主要为收费资源。INTERNET上的数据库不计其数,除了DIALOG、STN所提供的收费商业性数据库外,也有许多免费供用户使用的数据库。除文献数据库外,还有各种如公司名录库、专利库、标准库、招聘求职库、征婚交友库等,涉及各个领域、不同专业。(2)联机馆藏目录库,也是信息检索的重要对象,大多数是免费的。目前有6000多个馆藏目录库通过网络对外开放,以便读者了解图书馆资源并实现资源共享。用户可以通过INTERNET进入世界各大学的图书馆、公共图书馆、专业图书馆。不同的图书馆所提供的信息不同,但一般都会提供本馆的馆藏目录,用户可以从作者名、篇名、主题、出版年代、出版社等多种途径查询该馆馆藏情况。http://www.ouls.ox.ac.uk/OxfordUniversityLibraryServices
Aboutus
Libraries
Services
Collections&Catalogues
E-resourcesSearch
QuicklinksUsingthelibrariesOLIS(onlinecatalogue)OxLIP(e-resources)InformationskillsSupportthelibraryVisitorsContactusSitemap
StaffPages
WelcometothewebsiteoftheOxfordUniversityLibraryServicesWeareproudtobethelargestuniversitylibrarysystemintheUnitedKingdom.MostoftheUniversity’slibraryfacilitiesaremanagedundertheumbrellaoftheintegratedOxfordUniversityLibraryServices(OULS).ThisincludestheBodleianLibrary,whichhasbeenalibraryoflegaldepositforalmost400years.ThecombinedcollectionsoftheOULSnumbermorethan11millionprinteditems,inadditiontovastquantitiesofmaterialsinmanyotherformats.OxfordUniversityhasanextremelyrichanddiverselibraryserviceprovidedbyoveronehundredlibraries.Therearemajorresearchlibrariesaswellaslibrariesattachedtofaculties,departmentsandotherinstitutionsoftheUniversity.Thecollegesalsohavelibraries,andthoughtheircurrentholdingsareprimarilyfortheirownmembers,manycollegelibrariescontainimportantspecialandhistoriccollectionsopentoallresearchers.[Thiswebsiteiscurrentlybeingdeveloped,toprovideaccessforreaderstoall
singlesourceof
informationabouttheLibraryServices.Pleasebearwithusaswe
continue
thisworkduringthecomingmonths.]
NewsandEventsCurrentExhibition:Children'sGames&Pastimes,28November2005to29April2005
AUniversityLibraryforthe21stCenturyReadingLightisnowavailableBodleianLibraryCJKCatalogues
CHINESECATALOGUEBrowseIndexIndex:Displayfrom:Numberoflines:SearchPersonalauthorTitlekeyword1Titlekeyword2Titlekeyword3Combinewith:AND
ORSearchmode:truncated
exact
Withthetruncatedoption(default),alltermslongerthanthesearchtermarealsofound.
HelpOtherCJKcatalogues
BodleianLibrary
Allegro-W3V2.5,(C)1996UniversitaetsbibliothekBraunschweig
Revised:12Nov1997BodleianLibrary.Revised:11Dec1997
ThaddeusLipinskitsl@bodley.ox.ac.uk
BodleianLibraryCJKCatalogues
CHINESECATALOGUE
Titlekeyword1:culture??=truncatedsearch
Page1(of8)
中國文化研究
/
北京語言學院
19uu基督教文化評論.
9
/
劉小楓主編
1999基督教文化評論.
10
/
劉小楓主編
1999翻譯‧文學‧文化
/
孔慧怡著
1999台灣原住民文化藝術
/
劉其偉編著
1999禮教與情慾
:
前近代中國文化中?nbsp;/
熊秉真
1999六朝文化國際學術研討會暨中國魏
/
南京博物院<東南文化>雜誌社
1998英漢‧漢英文化考古詞典
/
吉林大學<英漢‧漢英文化考古詞典>?nbsp;
1998歷史與文化
/
香港浸會大學歷史學系
1998故鄉常新,
文化常青
:
86年度全?nbsp;/
國立藝術學院傳統藝術研究中心
1998
...
Marktherequiredrecordsfirst.
BodleianLibraryCJKCatalogues
CHINESECATALOGUE中國文化研究=Chinesecultureresearch/北京語言學院主辦.-北京:北京語言學院出版社,[19??]-.-冊;26公分.-ISSN1005-3247藏館:BODPer.Chin.d.80123(1994:春),4(1994:夏),6(1994:冬),7(1995:春)ChangeDisplayISBD
Tagged
(3)电子出版物,包括电子图书、电子期刊、电子报纸、其它电子文档电子图书(electronicbook,e-book),是指以数字化方式发行的、有ISBN编号的单卷本正式出版物。目前绝大多数电子图书是印刷版图书的光盘版和网络版,只有少数电子图书是没有印刷版的。目前可见到的电子图书大多是辞典、指南、百科全书、文摘、索引等工具书。电子型工具书比印刷型有更多的检索点和更灵活的检索方法,因而特别受到用户欢迎。现在,越来越多的图书馆纷纷购买(CD-ROM)或租用(Online)电子型图书。这些电子型图书和期刊往往都会在每个图书馆的HomePage上专列一项,称之为电子图书馆资源(ResourcesintheElectronicLibrary)。电子期刊(electronicjournal,e-journal)
,是指以数字化方式发行的、有ISSN编号的系列正式出版物。电子期刊是非常重要的网络资源,其数量超过电子图书,网络载体反映信息的快捷特性满足了期刊的要求。电子期刊一般比较正规,和印刷型期刊一样有专门的出版社。目前网络上有上万种期刊提供服务,有很多是全文或部分免费。最为用户关注的是免费的电子期刊。
许多出版社为宣传其期刊,在其主页下不仅会列出它们出版的期刊名称、内容介绍、投稿指南、订购方式,并且还会列出样本,刊出全文;有的出版社在网上提供全部期刊的目次,并提供部分全文.有的只列出近期目录不提供全文,如:ReviewsofModernPhysics();有的还提供近几年的全部目次及少数全文,如:Sciencemagzine();有的不仅提供目次,还提供文摘,并具有检索功能;也有的学会期刊可供会员阅读,如美国电气与电子工程师学会IEEETransactions.现在有网上电子期刊的目录可以提供搜索帮助,如渥太华大学网络系统研究人员MichaelStrangelove编辑的《电子期刊目录(DirectoryofElectronicJournalsandNewsletters)》。电子报纸,网上也有许多报纸全文免费。人民网(),光明网,《纽约时报》(NewYorkTimes,),《金融时报》(TheFinancialTimesArchive,http://ft.chadwyck.co.uk)等等。可以通过网上的报纸目录和重要报纸网站来获取搜索帮助。光明日报网的“中国网上报刊大全”,新闻时空网站.其它电子文档。网上其它电子文档层出不穷,许多文档对用户有很高的利用价值,主要有以下几种:商业公司、企业单位免费提供其产品样本和目录;大学和研究机构提供单位的有关信息;电子布告栏、电子论坛等。
二.网络信息资源评价1.评价的意义网上信息资源的广泛可存取性(accessibility),使得网上信息广泛、丰富,却缺乏组织和质量控制,呈现无限、无序、优劣混杂的发展状态。因特网改变了传统的信息发表和评价程序,网络信息评价更多地由用户自己承担。因此掌握评价标准,显得更为重要。2.评价的标准网络信息资源的评价标准仍处于发展之中。目前对网络信息资源的评价一般以网站或者网页为评价单位,评价标准是在借鉴传统的对印刷型文献的基础上,结合网络信息的特点,对网页和网站所提供信息内容质量和信息存取方式等综合而成。(1)目的(purpose)(2)范围(scope)(3)内容(content)――准确性(accuracy)、权威性(authority)、新颖性(currency)、独特性(uniqueness)、可靠性(reliability)、链接(links)(4)图形和多媒体设计(graphicandmultimediadesign)(5)信息的展示与设计(informationpresentationanddesign)(6)可操作性(workability)――用户友好性(userfriendliness)、检索性能(searching)、交互性(interactivity)、连通性(connectivity)(7)费用(cost)――连通费用、资源费用(8)评论(review)3.评价的方法采用定性和定量评价方法。4.几个重要的评价站点TheArgusClearinghouse—-《面向主题的Internet资源指南》(TheClearinghouseforSubject-orientedResource)()TheWWWVirtualLibrary()OCLC的NewFirst服务。
第二节网络信息检索回顾过去十多年信息检索领域的发展变化,最引人注目的是互联网的出现以及随后应运而生、用于检索网络信息的搜索引擎和浏览目录。回首页万维网和互联网不是同义词,它只是互联网的一部分,且使用频率始终居于电子邮件之后,但万维网正在逐渐成为各种检索工具和系统的平台,且有发展成为信息检索唯一平台的趋势。在不远的过去,数据库(如Dialog)和联机公用图书馆目录都有与各自相应的检索平台。然而,这种不同类型的信息检索系统采用独有的平台的状况,正在渐渐地成为历史,取而代之的是以万维网作为共同的平台。一.源于万维网和基于万维网的信息检索以万维网作为共同的信息检索平台地现实,使我们可将信息检索分为源于万维网(Web-born)与基于万维网(Web-borne)两类。现有的三大信息检索系统即数据库、联机公用图书馆目录和网络检索工具则各得其位。万维网检索工具有着许多与数据库、联机公用图书馆目录截然不同的特点。二.联机信息检索(数据库)与网络信息检索的比较
1.两者异同的比较相似之处:检索实质相同,逻辑组织大体相同,提供检索的逻辑组配手段相似,检索入口相同。不同之处:标引所依据的语言不同,系统界面设计不同,信息组织方式不同。
2.两者优劣势的比较
2.1联机信息检索的优势和缺陷优势:联机系统在信息数量上的优势,联机系统在信息质量上的优势,联机系统在检索效率上的优势。缺陷:联机信息检索费用高,联机信息检索需要一定的检索技巧。2.2网络信息检索优势和不足优势:检索费用低,用户界面友好,信息内容及形式较新颖多样、原文可获得性高。不足:信息质量、时效性、可靠性无法得到保证,网络信息检索效率低,增加用户的时间成本。具体比较见下表:比较项目DIALOG等系统搜索引擎信息量约数亿页面约80亿页面(不断变化)信息内容可靠的专业信息一般信息,可靠性有待提高操作检索的人员信息检索专业人员普通网络用户费用昂贵低廉标引方式人工标引文献自动标引(及人工分类)检索的复杂性较高一般检索界面非图形化界面,不太友好图形化界面,较为友好检索效率及质量高低检索的时间短长原文的可得性较高高三.网络信息检索机遇和挑战通过网络信息检索,人们可以便捷地获取遍布全球、各种各类的网络信息。信息检索不再局限于特定的地点和特定的系统,终端用户也不必在检索信息之前,接受相关的检索技能训练。人们可以在自己选定的地点,查询自己需要的网络信息。网络信息检索工具的出现导致了信息检索领域的历史性变革。然而,网络检索工具的出现也在信息检索领域引发了从未遇到的问题。例如,如何筛选和标引数量庞大、质量参差、瞬息万变和来源复杂的网络信息?如何提高网络信息检索的查准率?如何研制开发老少咸宜、新手和专家兼可的检索界面?如何向用户提供有针对性和个性化(personalized)的检索结果,而不是将系统检索得到的少则成千条、多则上亿条的信息鱼目混珠地和盘托出?等1.网络信息的筛选IBM公司在其名为WebFountain(万维网喷泉)研究项目报告中指出,所有的万维网信息中有30%内容淫秽,有30%内容重复;每天有5000万网页是新添加的或被修改过的,加之目前互联网还缺乏有效的质量控制,所以网络信息数量庞大、质量参差、瞬息万变和来源复杂的特点,决定了网络检索工具在筛选工作方面的艰巨性。网络检索工具在决定信息取舍时,一般依据词频、词与词之间的距离(proximity)、检索词在文献中出现的位置和被链接次数(backlinking)的次数等等,这些依据本身后来被一些人有意利用,以达到自己的网络信息不但被检索工具标引收录,而且还出现在检索结果最前列的目的。词语密植和链接滥置是两种比较突出的手段。词语密植(wordstuffing),又称为词语滥置(textspamming),是在网页的有关部位,如<title>、
<keyword>、
<meta>等标识(tag)处,多次重复与网页主题内容相关的关键词语.更有甚者,为了不被肉眼察觉,,特意将重复的词语文字和背景的颜色调为相同,即所谓的“伪装隐蔽”(cloaking)。链接滥置(linkspamming)方式通常以两种方式实现,一是链接农场(linkfarm),即在特定网站各网页末尾设立指向本网站网页的超链接(hyperlink);二是为链接门户(doorwaypages),即在特定网页上只设立指向其想要提高相关性排序(relevanceranking)位置的目标网页的超链接而不登载内容。两种链接滥置方式殊途同归,均为提高特定目标网站或网页的相关性排序,以增加被网络检索工具选入其数据库和作为检得结果的几率。网络信息的筛选问题面临着不可低估的挑战。为此越来越多的网络信息检索工具在继续使用传统信息筛选方法(如词频)的基础上,结合考虑“万维网依据”(web-evidence),以便更准确地判断网络信息的质量。万维网依据是链接名称(linkname或anchortext)、被链接次数、
URL构成(URLstructure)等的总称。2.网络信息的查准率网络信息检索的高噪音、低查准率的原因大致包括来源信息混杂、自动标引技术有待完善、针对网络信息特点的检索技术正在发展等等。检索提问修改和问题解答检索是解决问题的两个突出例子。3.网络结果的显示相关性由高至低的顺序显示,而数据库可以按照时间顺序显示,这是不易为人所更改.网络检索结果数量的庞大和用户通过浏览结果数量的有限之现实.检索结果的聚类和可视化是尝试解决这一问题的方法之一.检索结果的聚类和可视化均由网络检索工具自动完成.三.新兴的网络信息检索领域分支基于内容的多媒体信息检索多语种和跨语种信息检索交互型信息检索四.人工智能在网络信息检索领域的应用信息检索智能代理自然语言检索个性化信息检索第三节搜索引擎一.网络信息检索方法1.浏览1.1偶然发现1.2顺“链”而行2.利用搜索引擎回首页二.搜索引擎及其类型搜索引擎(SearchEngine)是Internet上具有查询功能的网页的统称,是提供给用户进行关键词、词组或自然语言在因特网上检索信息的工具。目前已多达数百种,包括WebSearchEngine(万维网搜索引擎)、UsenetSearchEngine(新闻论坛搜索引擎)、YellowPageSearchEngine(黄页搜索引擎)、WhitePageSearchEngine(白页搜索引擎)、Meta-SearchEngine(元搜索引擎)等类型。
1.按信息内容的组织方式划分1.1目录式搜索引擎目录式搜索引擎(Directory,Catalog)提供由网页作者所呈送的因特网资源的链接集合,同时对这些资源作出评价并组织成主题目录。典型代表是Yahoo()。
1.2机器人搜索引擎(狭义的SearchEngine)不是靠人工发现和甄别信息,而是由一个被称为“蜘蛛”(Spider)的计算机程序在网中爬行,依据一定的网络协议在因特网中发现、加工、整理信息,并为用户提供检索服务。由自动索引程序、数据库、检索代理软件三部分构成。典型代表是AltaVista,Excite,HotBot,Infoseek,Lycos,中文的百度等。2.按专业范畴划分2.1综合性搜索引擎,如AltaVista,Excite。2.2专业性搜索引擎,如SocialScienceInformationGateway(http://www.sosig.ac.uk),Medicalworldsearch(),Checkdomain(http://),E-mailaddresses(http://www.E-)3.按检索功能划分3.1独立搜索引擎(单一搜索引擎、常规搜索引擎),如AltaVista等3.2元搜索引擎(多元搜索引擎metasearchengine或集成式搜索引擎multiplesearchengine)三.搜索引擎的搜索方式1.简单搜索(SimpleSearch):指输入一个单词(关键词),提交搜索引擎查询,这是最基本的搜索方式。2.词组搜索(PhraseSearch):指输入两个单词以上的词组(短语),提交搜索引擎查询,也叫短语搜索,现有搜索引擎一般都约定把词组或短语放在引号“”内表示。
3.语句搜索(SentenceSearch):指输入一个多词的任意语句,提交搜索引擎查询,这种方式也叫任意查询。不同搜索引擎对语句中词与词之间的关系的处理方式不同。4.目录搜索(CatalogSearch):指按搜索引擎提供的分类目录逐级查询,用户一般不需要输入查询词,而是按照查询系统所给的几种分类项目,选择类别进行搜索,也叫分类搜索(ClassifiedSearch)。
5.高级搜索(AdvancedSearch):指用布尔逻辑组配方式查询,也叫定制搜索。常用的逻辑运算为AND(和)、OR(或)、NOT(非),对A、B两词而言,AANDB是指取A和B的公共部分(交集),AORB是指取A和B的全部(并集),AANDNOTB是指取A中排除B后的部分,其中NOT只作用于一个词,故称为一元操作符,其余作用于二个词,故称作二元操作符。A、B本身为多词时,可以用括号()分别括起来作为一个逻辑单位。此外,还有NEAR(邻近)算符。上述前三种搜索方式可以合称为语词搜索(WordSearch),与高级搜索和目录搜索一道构成三类常见搜索方式。在所有搜索方式中,还可使用通配符,通配符用于指代一串字符,不过每个搜索引擎所用的通配符不完全相同,大多用*或?,少数用$。不少搜索引擎还支持加(+)、减(-)词操作。
搜索引擎目录
1)SearchEngineWatch()1997年7月以现名正式发行,1997年11月成为I网站的一部分。该网站分几大类列出国外大量优秀搜索引擎网站,如主要搜索引擎、新闻类搜索引擎、儿童用搜索引擎、多媒体搜索引擎、各学科专业搜索引擎、收费搜索引擎、各地搜索引擎等。对主要搜索引擎,有较详细的对其产生历史、功能等文字介绍,还有大量对主要搜索引擎的各项主要功能指标的评价和比较,是了解搜索引擎总体概况、具有实际价值的指南性搜索引擎。(Searchenginelisting主要搜索引擎的分类和介绍;Reviews,Ratings&Tests,可得到有关搜索引擎的评价、比较数据)2)SearchEngineColossus()该网站最初于1998年4月在加拿大面世,原先是个人产品,现已归并于DigitalValley公司.该数据库收录全世界228个国家和地区的1900多个搜索引擎.其最突出特点是允许按国家点击各国的主要的搜索引擎,而且主要页面用英语和法语两种语言构成,另外有西班牙语检索界面,此外还按学科列出所属的搜索引擎的目录.3)SearchEngineShowdown()
这是个人网站,由美国的一位叫作GregR.Notess的作家开发维护,1999年开始上网,主要功能在于比较和评价各种搜索引擎.该网站有大量的各种搜索引擎特征的比较和评价表格\数据.另外,在主页上还及时地报道有关搜索引擎的最新消息.4)SearchEngineGuide()
该网站由RobertClough开发,其特点是学科分类细、搜索引擎类别清楚;另外,该网站还提供有关搜索引擎的市场分析和消息新闻.5)SearchEngineTutorial()
该网站分别列出了各大主要搜索引擎的各种主要指标,如大小、范围、历史、检索技术、查询方法等明细的内容,便于用户掌握.但相对来说,该网站对搜索引擎最新发展的动态反映不足,有不少描述性的内容更新不及时。6)美国纽约Buffalo大学图书馆搜索引擎介绍(http://ublib./libraries/search/searchint.html)
这是一个组织得很好得搜索引擎目录,其专题名为“如何通过网络查找所需信息”,其下列出了大量英文版搜索引擎,并有检索指导。第四节中文搜索引擎举要中文搜索引擎的含义中文搜索引擎的分类当前中文搜索引擎检索结果的排序方式全球最大的中文搜索引擎――百度中文Google一、中文搜索引擎的含义
中文搜索引擎是指以Internet/Intranet网络上的中文信息为主要对象,提供信息的自动收集、自动过滤、自动索引和检索导航等服务的搜索引擎。中文搜索引擎的最关键组件是能够在海量中文数据上进行高效全文检索的信息管理系统。中文搜索引擎的最关键组件是能够在海量中文数据上进行高效全文检索的信息管理系统。
返回
二、中文搜索引擎的分类
1.根据是否采用词语切分技术,中文搜索引擎可分为基于字的搜索引擎和基于词的搜索引擎。
基于字的搜索引擎将文章中的每一个汉字都录入到索引库中,用户的检索提问根据单汉字匹配的原则去检索,此法的优点是能够保证很高的查全率,但查准率低基于词的搜索引擎则是按词建库,当然这种词语是按一定的规则与方法对文章切词得来的,这种搜索引擎的优点是拥有较高的查准率,用户检索时往往能一次命中,缺点是对切词技术要求高。2.由于网页的汉字所采用的编码方式不同,中文搜索引擎按其检索内容的编码方式可分为简体中文搜索引擎和繁体中文搜索引擎。
3.按检索机制不同,可以分为目录型、关键词型和混合型中文搜索引擎
目录型中文搜索引擎一般是由专家根据网站内容来描述网站,其优点是查准率高,检索目的明确;缺点是检索范围小,容易产生漏检。
关键词型中文搜索引擎是依靠机器人,在Web页面上进行不断的搜索,建成庞大的索引数据库,其优点是检全率高,能够全文检索;缺点是误检率高,返回的结果仍需用户筛选。混合型中文搜索引擎是前面两者的结合,用户可在某一分类目录下使用关键词检索,这样可以提高检准率。
返回三、当前中文搜索引擎检索结果的排序方式
1.搜索引擎检索结果的排序规则1.1地点和频率法地点和频率法最主要的算法就是看网页关键词出现的地点和频率。搜索引擎先检查标题中含有关键字的网页并认为它比其它网页的相关性更强。该算法认为与要检索的关键字相关的网页应该从一开始就含有该关键字。
1.2人气质量定律科学引文索引机制认为被引用次数多的论文就是权威论文、好论文。那么在网上谁的网页被链接次数多,就认为该网页的质量高、人气旺。1.3自信心定律向那些网站的拥有者们拍卖他们网站在检索结果中的排名,谁付的钱多,谁的网站就排在前面,且付费是根据网民点击该网站的情况来计算的,仅在检索结果中出现并不需要付费。2.中文Google检索结果排序方式
2.1Google的排序技术
(1)PageRankTM技术(网页级别)(2)“超文本匹配分析”技术(Hypertext-MatchingAnalysis)
2.2Google的“关键词广告”(GoogleAdWords)
Google根据客户购买的关键字,以纯文本的方式把网站客户信息安置在检索页面的右侧空白处,并标有“赞助商链接”的标记。
3.百度的排序方式3.1百度的“超链分析”技术(LinkAnalysis)统计每个网页被其它网页链接指向的情况,次数越多则级别越高,排名也就越靠前。
3.2百度的竞价排名方式竞价排名服务是百度在2001年7月建立的一个商业模式,它是由客户为自己的网页购买关键字排名、按访问量计费的一种服务。也即搜索引擎排序的自信心定律。竞价排名是否削弱了检索结果的可靠性?
百度声称,其竞价排名系统不会降低检索结果的相关性:“百度竞价排名系统对客户选择关键字和填写信息的规定和审核非常严格,保证结果都是跟该关键字最相关的信息。”总之,搜索引擎结果排序是多种因素综合而成,如何在检索结果的公正性、客观性与搜索引擎提供商的经济利益之间求得平衡事关搜索引擎的未来。中文Google和百度的排序方式可以用下表总结如下:搜索引擎检索范围主要排序技术影响排序的广告形式中文GOOGLE
所有中文网页PageRankTM技术(网页级别),超文本匹配分析技术—百度所有中文网页超链分析技术,内容相关度评价技术百度竞价排名中文Google和百度的排序方式返回三.全球最大的中文搜索引擎――百度1.基本情况百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。百度搜索引擎拥有目前世界上最大的中文信息库,并且还在以每天几十万页的速度快速增长。2.功能特点1)基于字词结合的信息处理方式2)支持主流的中文编码标准3)智能相关度算法4)检索结果能标示丰富的网页属性5)百度搜索支持二次检索(又称渐进检索或逼进检索)6)相关检索词智能推荐技术7)运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度8)可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎9)检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式10)智能性、可扩展的搜索技术保证最快最多的收集互联网信息11)先进的网页动态摘要显示技术12)百度快照,巧妙解决了搜索用户经常遇到的死链接问题13)支持多种高级检索语法,使用户查询效率更高、结果更准14)百度不断提供多种特色服务图片搜索(/)、MP3搜索(/)、新闻中心()、信息快递(/)、黄页搜索、影视搜索等。
返回四、中文Google
采用的是英文Google的搜索技术,而且服务器也在总公司,但其在功能上,除传统网页检索和类目查询外,仅保留了英文Google的部分特色服务。如:图片检索、网上论坛(即新闻组检索)、特定文件检索、网页快照和计算器等。
Google检索功能
1.查找Flash文件Google已经可以支持13种非HTML文件的搜索。Google同时也提供用户不同类型文件的“HTML版”,查找Flash文件。只需搜索“关键词filetype:swf”
2.网页快照
Google在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。3.计算器Google为用户提供了一个内置计算器。这个计算器可以用来做所有简单的计算、一些复杂的科学计算、单位换算以及提供各种物理常数
4.相关搜索Google能够提供与用户原搜索相关的搜索词。
5.类似网页单击“类似网页”时,Google便开始寻找与这一网页相关的网页。
6.按链接搜索有一些词后面加上冒号对Google具有特殊的含义。比如“link:”。查询link:显示所有指向该网址的网页。但不能将link:搜索与普通关键词搜索结合使用
7.指定网域有一些词后面加上冒号对Google有特殊的含义。其中的一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在Google搜索框中输入“site:”
8.手气不错按下“手气不错™”按钮将自动进入Google查询到的第一个网页。用户将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多9.错别字改正Google的错别字改正软件系统会对输入的关键词进行自动扫描,检查有没有错别字。如果发现用其他字词搜索可能会有更好的结果,它能提供相应提示来帮助纠正可能有的错别字。例如搜索“互连网”10.中英文字典Goo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论