




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索改变营销第4章 搜索引擎工作原理目标认识搜索引擎的工作原理记忆搜索引擎的工作流程目录网页收集1预处理2检索服务3找工作搜索引擎是如何收集互联网中的网页?蜘蛛程序抓取认识蜘蛛什么是蜘蛛?网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取互联网中网页的程序或者脚本蜘蛛的工作方式蜘蛛是通过链接进行爬行并抓取网页的认识种子站点种子站点蜘蛛起始的抓取站点,这类站点具有一定的权威性和导航性,如新浪、hao123等搜索引擎收集机制收集机制根据网站的更新周期三天打鱼两天晒网定期定量的收集原始数据原始数据库蜘蛛抓取的页面所要储存的位置百度快照目录网页收集1预处理2检索服务3思考什么是预处理?蜘蛛抓取的原始页面并不能直接用于查询排名,需要对其进行一定的处理提取文字分析链接建立索引中文分词去除重复页面计算网页重要度21预处理
3456预处理的工作流程提取文字提取文字搜索引擎是以文字内容为基础的,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容中文分词中文分词分词分词是搜索引擎特有的步骤,把网页中提取的文字按照词组进行划分消噪对内容没有任何影响却大量出现的词,如:的、地、得、啊、哦、呀、不但、而且等去除重复页面去除重复页面镜像网页内容完全相同,网址不同倾向原创计算网页重要度计算网页重要度积分制计算通过被指向链接计算网页的原创性认识索引建立索引索引是建立关键词与网页之间的对应表,建立索引的最大好处在于可快速获取对应的数据页面关键词关键词页面正排索引倒排索引认识索引索引示意图网站A网站B关键词C关键词C关键词C正排索引正排索引提取链接提取链接根据页面中存在的链接继续抓取预处理小结43054501提问搜索引擎的预处理包含哪些工作?提取文字中文分词去除重复网页
计算网页重要度建立索引分析页面中的链接小结WWW蜘蛛原始数据库网页分析器索引器索引数据库检索器百度用户目录网页收集1预处理2检索服务3思考43054501提问如何展现用户所搜索的关键词?查询词的处理获取倒序索引检索服务查询词的处理搜索词进行分词获取排序获取倒序索引总结网页收集认识蜘蛛、种子站点、收集机制、原始数据预处理提取文字、分词、去除重复页面、计算重要度、建立索引、提取链接检索服
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网时代的产品销售模式
- 人工智能与绿色能源的结合应用
- 注册会计师滑模考试试题及答案解析
- 精益物流的实施策略国际物流师试题及答案
- 竞争策略与市场分析试题及答案
- 农场动物管理试题及答案
- 计算机二级考试新方向试题及答案分析
- 语言表达能力2024人力资源管理师试题及答案
- 2024年陪诊师考试的资格要求试题及答案
- 透析银行从业资格考试试题及答案
- HYT 083-2005 海草床生态监测技术规程
- 中医盆腔炎的个案护理
- 江苏省扬州市2022-2023学年八年级下学期物理期中试卷(含答案)1
- 部队涉枪涉弹安全教育课件
- 电商仓库发货与打包关键细节培训课件
- 重大责任事故罪的认定课件
- 人教版小学数学五年级下册《同分母分数加减法》课件
- 260吨汽车吊地基承载力验算
- 2023超星尔雅《创新创业》答案
- 110kV变电站短路电流计算书
- 后腹腔镜下输尿管切开取石术课件
评论
0/150
提交评论