认识神秘搜索引擎_第1页
认识神秘搜索引擎_第2页
认识神秘搜索引擎_第3页
认识神秘搜索引擎_第4页
认识神秘搜索引擎_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 搜索引擎优化搜索引擎优化Search Engine Optimization 主讲:狄冬丰 任务任务1-1 认识神秘搜索引擎认识神秘搜索引擎搜索引擎发展简史1990年,加拿大麦吉尔大学的Alan Emtage等开发出Archie,这是所有搜索引擎的鼻祖1993年,内华达州高教系统能检索文件和网页的搜索工具1993年,Excite(2002年被InfoSpace收购),对字词关系进行分析1994年,Lycos,除了相关性排序外,Lycos还提供了前缀匹配等功能,Lycos第一个在搜索结果中使用了网页自动摘要1994年,Infoseek,以友善的界面和附加服务著称。95年和netscape达成合

2、作,在netscape浏览器中嵌入其搜索()1994年,Yahoo诞生搜索引擎发展简史1995年,元搜索引擎(Meta Search Engine)出现。这种搜索引擎本身并没有相关的搜索能力,只是将搜索需求提交给其他的搜索引擎并返回集合的结果华盛顿大学学生发明的Metacrawler1995年,DEC公司AltaVista诞生。它是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)1995年,HotBot诞生。1996年Inktomi公司成立,负责Hotbot的商业化运作。它声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎

3、的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置搜索引擎发展简史1995年,Larry Page开始学习搜索引擎技术1997年,注册域名1997年底,Larry Page、Sergey Brin等开始提供google的前身BackRub的Demo1999年2月,Google完成了从Alpha到Beta版本的转换Google在PageRank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。2000年中Google数据库进行了升级,并被Ya

4、hoo选作搜索引擎搜索引擎发展简史2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。2001年8月发布B搜索引擎Beta版2001年10月22日正式发布Baidu搜索引擎搜索引擎发展简史1997年7月,微软与Inktomi签订协议,由后者为微软的 MSN搜索引擎提供技术支持2005年1月,Google成为搜索市场的领头羊,微软也完成了自己搜索引擎的开发,并推出了全新的MSN搜索,网址为“”2006年3月,微软推出了 “Windows Live搜索”,地址为“”。微软随后在搜索引擎中抛弃了Windows

5、的品牌,将搜索引擎直接称为“Live搜索”2009年,微软发布新的搜索引擎品牌:Bing(必应)搜索引擎分类全文搜索引擎代表:Google、Yahoo、Bing、Baidu从互联网上提取各网站的信息建立数据库,再从这个数据库中检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。目录搜索引擎代表:DMOZ,早期的Yahoo其实质是按目录分类的网站链接列表,并非真正的搜索引擎搜索引擎分类元搜索引擎代表:Dogpile、Xisoso、Vivisimo等在接受用户查询的时候,会同时在多个搜索引擎上进行搜索,并将结果返回给用户搜索引擎工作原理 搜索引擎工作主

6、要分为:页面抓取页面分析建立索引页面排序搜索引擎工作原理-抓取页面 这个工作主要由叫做“机器人(robot)”、“爬虫(crawler)”或者“蜘蛛(spider)”的程序,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。 为保证采集的资料最新,它还会回访已抓取过的网页。 这个工作是搜索引擎所有工作的基础搜索引擎工作原理-页面收录原理URL列表列表抓取页面抓取页面提取提取URL存储原始页面存储原始页面搜索引擎工作原理-用户提交 搜索引擎还允许用户自己提交网站(一般只需要提交首页或者网站域名即可)Google:http:/ 搜索引擎在存储原

7、始页面时,不单只存储原始页面,还会存储其他的附加信息,例如:文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等搜索引擎工作原理-页面分析 对页面内容进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等) 对页面正文内容进行“切词”,为这些词建立索引,得到页面和关键字之间的对应关系搜索引擎工作原理-网页分析 网页分析主要包括:正文信息提取:主要是对标签和注释等信息的过滤切词/分词:对页面内容进行切分,形成与用户查询条件相匹配的关键字为单位的信息列表 匹配分词:和预设的海量词汇的“辞典”中的词比较,如果有

8、匹配的词,则为命中 统计分词:根据相邻的2个或者多个字(词)出现的概率判断这2个字(词)是否会形成一个词。搜索引擎工作原理-建立索引 关键字索引:在切词处理后,形成了关键字列表。关键字列表的每条记录包含:关键字、关键字编号、出现次数、在网页中的位置信息等。 根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库 对抓取回来的网页建立索引,以实现对页面的快速定位;搜索引擎工作原理-建立索引搜索引擎工作原理-页面排序 用户在搜索引擎中输入查询条件后,搜索引擎就在数据库中检索相关的信息,并将检索结果返回给用户

9、搜索引擎在往用户端返回数据的时候,并不是随机的,而是按照一定的计算方法进行排序的 涉及到排序的因素主要有:页面相关性页面相关性链接权重链接权重用户行为用户行为搜索引擎工作原理-页面排序 结合页面的内外因素,计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面索引列表页面排序-页面相关性 页面相关性通过对检索结果进行相关性排序,搜索引擎的最终目的是将最相关的网络信息尽可能地优先显示在搜索结果的前面部分,以改进搜索结果的输出。虽然各个搜索引擎中相关度排序的具体实现各不相同,但基本上都采用了基于网站内容的分析方法,即考虑用户所查询的关键词在文档网页中的出现情况,包括关键字匹配度、关键词密度

10、、关键词位置、关键字的关键字匹配度、关键词密度、关键词位置、关键字的权重标签权重标签等因素。页面相关性关键字匹配度关键字匹配度:是指网页中的内容与用户所查询的关键字之间的匹配程度,主要是2个因素: 页面中是否包含关键字 关键字在页面中出现的次数关键字密度关键字密度: 关键字出现的次数与该网页总词汇量的比例页面相关性关键字分布关键字分布: 关键字在网页中出现的位置 关键字在网页中出现的位置会影响到关键字的分布值关键字的权重标签关键字的权重标签 关键字是否使用了HTML标签实现了不同的视觉效果(如加粗、颜色变换等)页面相关性计算公式: R(relevance)=M(match)+D(density)+P(position)+T(html Tag)链接 页面之间的超链接反映了页面之间的引用关系,页面被其他站点或其他网页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论