第7章搜索引擎工作原理_第1页
第7章搜索引擎工作原理_第2页
第7章搜索引擎工作原理_第3页
第7章搜索引擎工作原理_第4页
第7章搜索引擎工作原理_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎工作原理第7章SEO基础2023/3/6课程目标认识搜索引擎的工作原理记忆搜索引擎的工作流程2023/3/6目录网页收集1预处理2检索服务32023/3/6网页收集搜索引擎是如何收集互联网中的网页?蜘蛛程序抓取2023/3/6认识蜘蛛什么是蜘蛛?网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取互联网中网页的程序或者脚本蜘蛛的工作方式蜘蛛是通过链接进行爬行并抓取网页的2023/3/6认识种子站点种子站点蜘蛛起始的抓取站点,这类站点具有一定的权威性和导航性,如新浪、hao123等2023/3/6搜索引擎收集机制收集机制根据网站的更新周期三天打鱼两天晒网定期定量的收集2023/3/6原始数据原始数据库蜘蛛抓取的页面所要储存的位置百度快照2023/3/6目录网页收集1预处理2检索服务32023/3/6思考什么是预处理?蜘蛛抓取的原始页面并不能直接用于查询排名,需要对其进行一定的处理预处理提取文字分析链接建立索引中文分词去除重复页面计算网页重要度213456预处理的工作流程2023/3/6提取文字1.提取文字搜索引擎是以文字内容为基础的,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容2023/3/6中文分词2.中文分词分词分词是搜索引擎特有的步骤,把网页中提取的文字按照词组进行划分消噪对内容没有任何影响却大量出现的词,如:的、地、得、啊、哦、呀、不但、而且等2023/3/6去除重复页面3.去除重复页面镜像网页内容完全相同,网址不同倾向原创2023/3/6计算网页重要度4.计算网页重要度积分制计算通过被指向链接计算网页的原创性2023/3/6认识索引5.建立索引索引是建立关键词与网页之间的对应表,建立索引的最大好处在于可快速获取对应的数据页面关键词关键词页面正排索引倒排索引2023/3/6认识索引索引示意图网站A网站B关键词C关键词C关键词C正排索引正排索引倒排索引倒排索引2023/3/6提取链接6.提取链接根据页面中存在的链接继续抓取预处理提取文字提取链接2023/3/6小结43054501提问搜索引擎的预处理包含哪些工作?提取文字中文分词去除重复网页计算网页重要度建立索引分析页面中的链接2023/3/6小结WWW蜘蛛网页分析器索引器检索器百度用户原始数据库索引数据库2023/3/6目录网页收集1预处理2检索服务32023/3/6思考43054501提问如何展现用户所搜索的关键词?查询词的处理获取倒排索引2023/3/6检索服务查询词的处理搜索词进行分词获取排序获取倒排索引2023/3/6总结网页收集认识蜘蛛、种子站点、收集机制、原始数据预处理提取文字、分词、去除重复页面、计算重要度、建立索引、提取链接检索服务查

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论