信息检索搜索引擎 含百度谷歌【高教知识】_第1页
信息检索搜索引擎 含百度谷歌【高教知识】_第2页
信息检索搜索引擎 含百度谷歌【高教知识】_第3页
信息检索搜索引擎 含百度谷歌【高教知识】_第4页
信息检索搜索引擎 含百度谷歌【高教知识】_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索 搜索引擎,刘喜平,1,全面分析,内容提纲,搜索引擎概述 Baidu发展历程 Baidu网页搜索 Baidu更多网络服务 Google发展历程 Google中国发展历程 Google搜索服务 Google更多服务,2,搜索引擎概述,3,全面分析,定义,搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统,4,工作原理,每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联

2、网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页,5,分类,语种区分 单语种搜索引擎 多语种搜索引擎 工作方式 全文搜索引擎 目录搜索引擎 元搜索引擎,6,什么是元搜索引擎,用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持,7,搜索引擎盈利模式,竞价广告 广告主在购买该项服务后,注册一定数量的关键词,

3、通过出价与推广信息的质量决定关键词的展示排序。 广告出现在搜索结果中按照点击次数收费,如果没有被用户点击,则不收取广告费,8,Baidu竞价广告,竞价广告,9,Google AdSense,Google AdSense,10,Baidu发展历程,11,全面分析,大事记,2000年1月1日,公司创始人李彦宏、徐勇从美国硅谷回国,创建了百度公司。 2000年5月,百度首次为门户网站硅谷动力提供搜索技术服务。 2005年8月5日,百度在美国纳斯达克上市。 2008年1月23日,百度日本公司正式运营,百度全面启动国际化战略。 2009年8月,百度提出全新技术概念“框计算” 。 2011年3月,百度市值

4、超腾讯成为中国互联网企业第一,12,Baidu网页搜索,13,全面分析,检索界面-1,一般检索,一般检索,14,搜索结果页面,A、搜索结果标题 点击标题,可以直接打开该结果网页。 B、搜索结果摘要 通过摘要,你可以判断这个结果是否满足你的需要。 C、百度快照 “快照”是该网页在百度的备份,如果原网页打不开或者打开速度慢,可以查看快照浏览页面内容。 D相关搜索 “相关搜索”是其他和你有相似需求的用户的搜索方式按搜索热门度排序。如果你的搜索结果效果不佳可以参考这些相关搜索,15,百度网页搜索高级功能,百度快照 相关搜索 拼音提示 错别字提示 英汉互译词典 计算器和度量衡转换 专业文档搜索 股票 列

5、车时刻表和飞机航班查询 高级搜索语法 高级搜索,地区搜索和个人设置,16,1. 百度快照,每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果您无法连接原网页,那么快照上的图片等非文本内容会无法显示,17,2、相关搜索,搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。 下面是“小说”的相关搜索。点击这些词,可以直接获得他们的搜索结果,1

6、8,3、拼音提示,如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,该怎么办? 百度拼音提示能帮您解决问题。只要您输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。 拼音提示显示在搜索结果上方。如,输入“zhurongji”,提示如下:您要找的是不是: 朱鎔基,19,4、错别字提示,由于汉字输入法的局限性,我们在搜索时经常会输入一些错别字,导致搜索结果不佳。别担心,百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。如,输入“唐醋排骨”,提示如下:您要找的是不是: 糖醋排骨,20,5、英汉互译词典,百度还有线上英汉互译词典?

7、没错。 随便输入一个英语单词,或者输入一个汉字词语,留意一下搜索框上方多出来的词典提示。如,搜索“apple”,点击结果页上的“词典”链接,就可以得到高质量的翻译结果。百度的线上词典不但能翻译普通的英语单词、词组、汉字词语,甚至还能翻译常见的成语!您也可以通过 百度词典搜索 界面(http:/) ,直接使用英汉互译功能,21,6、计算器和度量衡转换,1、计算四则运算 35*82-(32+11) 2、公式计算 log(sin(5)2)-3+pi =0.1051612789959 3、单位换算 1海里?公里,22,7、专业文档搜索,很多有价值的资料,在互联网上并非是普通的网页,而是以Word、Po

8、werPoint、PDF等格式存在。百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行的全文搜索。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。例如,查找张五常关于交易费用方面的经济学论文。“交易费用 张五常 filetype:doc”,点击结果标题,直接下载该文档,也可以点击标题后的“HTML版”快速查看该文档的网页格式内容。 您也可以通过 百度文档搜索 界面

9、(http:/) ,直接使用专业文档搜索功能,23,8、股票、列车时刻表和飞机航班查询,在百度搜索框中输入股票代码、列车车次或者飞机航班号,您就能直接获得相关信息。例如,输入深发展的股票代码“000001”,搜索结果上方,显示深发展的股票实时行情。 也可以在百度常用搜索(http:/,24,25,9、高级搜索语法,把搜索范围限定在网页标题中intitle网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。例如,找林青霞的写真,就可以这样查询:写真 intitle:林青霞注意,i

10、ntitle:和后面的关键词之间,不要有空格,26,把搜索范围限定在特定站点中site有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。例如,天空网下载软件不错,就可以这样查询:msn site:注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格,27,把搜索范围限定在url链接中inurl网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟

11、需要在url中出现的关键词。例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意,inurl:语法和后面所跟的关键词,不要有空格,28,精确匹配双引号和书名号如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。例如,搜索 上海科技大学 ,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学

12、”,获得的结果就全是符合要求的了。 书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。 书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影方面的了,29,要求搜索结果中不含特定查询词“-”如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含

13、有特定关键词的网页。例如,搜 神雕侠侣,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页。那么就可以这样查询:神雕侠侣 -电视剧 注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可,30,10、天气查询,使用百度就可以随时查询天气预报。再也不用四处打听天气情况了。在百度搜索框中输入您要查询的城市名称加上天气这个词,您就能获得该城市当天的天气情况。例如,搜索“福州天气”,就可以在搜索结果上面看到福州今天的天气情况。百度支持全国多达400多个城市和近百个国外著名城市的天气查询,31,搜索引擎应用实例,赟 不认

14、识这个字。 百度一下: 关键词:文 武 贝 网上已经有人帮你了,复制“赟”粘贴到Word。选中,“格式”“中文版式”“拼音指南”,得出读音是yun,32,33,34,Baidu更多服务,35,全面分析,更多服务导航,更多,36,更多服务导航,37,更多服务-1,图片搜索,38,更多服务-2,Mp3 搜索,39,更多服务-3,百度贴吧,40,更多服务-4,百度百科,41,更多服务-4,百度百科,42,更多服务-5,百度知道,总有一个人知道你问题的答案,43,更多服务-5,百度知道,44,更多服务-6,百度文库,45,更多服务-6,百度文库,46,更多服务-7,百度地图,47,更多服务-7,百度地

15、图,48,更多服务-7,百度地图,49,更多服务,50,Google发展历程,51,全面分析,Google于1998年9月7日以私有股份公司的形式创立,总部位于加利福尼亚山景城,创始人是毕业于斯坦福大学的 Larry Page 和 Sergey Brin,52,2000年5月:雅虎选择Google作为默认的搜索结果供应商,53,2004年8月19日,google纳斯达克上市,当日募集资金16.7亿美元,市值达270亿美元,54,2012年3月15日,每股615.99美元、市值2002.81亿美元。 苹果公司-市值为5497.07亿美元 微软公司-市值为2749.70亿美元 IBM公司-市值为2

16、372.01亿美元 沃尔玛公司-市值为2091.81亿美元 雅虎公司-市值为184.72亿美元,55,Google中国发展历程,56,全面分析,2000年9月12日Google 启用中文搜寻服务,57,2005年7月,Google宣布,前微软全球副总裁李开复已正式加盟Google,58,2006年4月12日,Google发布其全球中文名称“谷歌,59,2009年9月,谷歌大中华区总裁李开复宣布离职,60,2010年3月,G退出中国,网站转向.hk,61,Google网页搜索服务,62,全面分析,搜索的网页:超万亿 图片:100 亿+ Google 界面的可用语言:100种 + Google 搜

17、索结果所采用的语言:50 国际域名:100 个+ 员工:全球 30000,63,Google的检索规则,And规则: 在Google的检索规则中,最基本的一条是默认And规则,即当你输入多个检索词之后,Google默认为要检索所有的包含所有检索词的网页,它们之间为And连接,64,Google的检索规则,排除常用词规则: 在Google的检索规则中,有些常用词如 “的”、“the”或者“of”等这些词是不被当作检索词的,而被忽略掉,65,Google的检索规则,不区分大小写规则: Google对于检索词中的大小写是完全不做区分的,这个规则的设置是为了改善检索结果,因为利用这样一个规则,就可以检

18、索到包含该词的所有网页,避免了因为大小写不规范而造成的在查全率上的损失,66,Google的检索规则,排除标点符号规则: Google并不认为标点符号具有与文字一样的重要地位,因此Google会忽略检索之间绝大多数的标点符号。但是对于单引号和连字符而言,它们是不被省略的,67,Google的检索规则,检索词的词序和邻近规则: 在Google中,检索词的排序方式对于整个检索式具有重要的影响,它将首先匹配按照检索式给出的次序进行搜索。同时它也将优先匹配检索词相互邻接的网页,68,Google的检索运算符,双引号“” 双引号界定多个检索词,可以查到各个单词按相同顺序在一起出现的网页,69,Googl

19、e的检索运算符,通配符*: 在检索时,如果只知道某字句的一部分,可以通过通配符来进行检索。在Google中,使用星号作为通配符运算符,表示匹配用它代表的任何词,70,Google的检索运算符,OR”、“+”、“-”、“”。 在检索式中运算符OR必须以大写的形式出现,否则会把它看成是普通的检索词。OR运算符告诉Google查找包含其中任何一个词的网页。运算符“+”表示包含运算符后面的词。运算符“-”表示不包含该运算符后面的词。运算符“” 让Google检索该词及其同义词,71,Google的检索运算符,72,Google的检索运算符,73,Google的检索运算符,74,Google的语法结构,

20、使用Google所提供的特殊的语法结构,能够帮助用户缩小检索范围,更有效地找到所需要的内容。在一般情况下,Google将整个网页进行收录和索引,通过专门的语法结构,可以让用户搜索网页的某些特定部分或者特定信息,75,Google的语法结构,Intitle: 将搜索范围限制在网页的标题内。即检索词仅匹配(在网页标题中)字词出现在检索结果的网页的链接内和打开网页后浏览器的标题栏内,76,Google的语法结构,Intext: 只在网页的正文中检索关键词,即忽略超链接文本、URL以及题目等,77,Google的语法结构,Inanchor: 在页面的链接锚点进行搜索,即在一个链接的描述文本内进行检索,

21、78,Google的语法结构,Site: 将检索局限在特定网站或者网域内,即将搜索限制在某个特定站点或者顶级域名内,79,Google的语法结构,Inurl: 将搜索结果限制在URL或者网站页面上,他可以查询网站的子目录。一般通过这个语法,我们可以查找某些特定的内容页,如帮助页,也可以查找特定的文件,如音乐或者视频文件,80,Google的语法结构,Link: 检索所有链接到某个特定URL的页面列表。例如,搜索所有链向新浪的链接,其结果如下,81,Google的语法结构,Filetype: 检索特定类型的文件,即搜索后缀或者文件的扩展名。在我们寻找特定格式的内容的时候,这项语法是必不可少的。例

22、如,仅搜索关于经济的pdf文件,结果如下,82,Google的语法结构,Daterange: 查找在一定的日期或者一定的日期范围内,Google索引的网页(该语法只关注被Google收录的时间,而不关注网页创建的时间) Related: 检索与某特定网页类似的网页。这在搜寻相关内容或者具有类似功能的网页的时候,非常有帮助,83,Google的语法结构,Info: 检索有关特定网页的信息,获得关于该URL更多信息的页面列表,包括指向该网页的网页快照、类似网页、链接到该URL的所有网页的列表、该URL相关的页面列表以及含有该URL的页面。例如,搜索关于新浪的信息,其结果如下,84,AND,双引号,

23、OR,减号,filetype,daterange,intitle”、“intext”、“inURL” “inancher,和上述的字词位置相配合使用,同时可以选择特定网域进行检索,related,link,85,检索界面,一般检索、高级搜索,一般检索,高级搜索,语种切换,86,检索界面,高级搜索选项,87,检索界面,搜索小技巧(1,88,检索界面,搜索小技巧(2,89,检索界面-7,搜索小技巧(3,90,Google更多服务,91,全面分析,更多服务导航,更多,92,更多服务-1,图片搜索,93,更多服务-2,地图搜索,94,更多服务-2,地图搜索-切换到卫星地图状态,95,更多服务-3,音乐

24、搜索,96,更多服务-3,音乐搜索,97,更多服务-4,学术搜索,98,更多服务-4,学术搜索,99,更多服务-5,翻译服务,100,更多服务-5,翻译服务,101,更多服务-6,邮箱服务,102,更多服务-7,文档在线创建服务,103,更多服务-8,浏览器服务,104,更多服务,105,怎样成为搜索高手,106,选择适当的查询词,搜索技巧,最基本同时也是最有效的,就是选择合适的查询词。选择查询词是一种经验积累,在一定程度上也有章可循: 1、表述准确 百度会严格按照您提交的查询词去搜索,因此查询词表述准确是获得良好搜索结果的必要前提。 一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。例如,要查找2004年国内十大新闻,查询词可以是“2009年国内十大新闻”;但如果把查询词换成“2009年国内十大事件”,搜索结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论