版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SEO搜索引擎优化:基础、案例与实战(第2版)第2章搜索引擎概述目录Contents2.1认识搜索引擎2.2搜索引擎的工作原理2.3搜索引擎的使用方法2.4本章实训2.1.1搜索引擎的定义搜索引擎(SearchEngine)指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,再对信息进行组织和处理后,为用户提供检索服务,最后将用户检索的相关信息展示给用户的网站系统。简而言之,搜索引擎通过收集并整理互联网上众多网页中的关键词并进行索引,进而建立索引数据库。当用户搜索某个关键词时,所有页面内容中包含该关键词的网页都将被作为搜索结果展现出来。搜索结果展现2.1.2搜索引擎的发展史1990年,加拿大麦吉尔大学(McGillUniversity)计算机学院的AlanEmtage研发了Archie。Archie可以定期搜集并分析FTP服务器上的文件名信息,为用户提供查找分散保存在各个FTP主机中的文件的服务。Archie搜集的信息资源被公认为搜索引擎的雏形。工作原理自动搜集信息资源建立索引提供检索服务2.1.2搜索引擎的发展史随着互联网的出现,为了方便查询互联网中的网页信息,真正的搜索引擎也应运而出,并随着互联网的发展不断地发展和进步。总体说来,搜索引擎分为4代。1234分类目录时代用户中心时代文本检索时代整合分析时代2.1.3搜索引擎的分类全文搜索引擎(FullTextSearchEngine)是目前应用较广泛的主流搜索引擎。1.全文搜索引擎全文搜索引擎从互联网中提取各个网站的信息(以网页文字为主),建立起网页数据库,并检索与用户搜索条件相匹配的记录,按一定的排列顺序返回结果。国外搜索引擎Google国内的百度和360搜索2.1.3搜索引擎的分类全文搜索引擎又可以分为两类。1.全文搜索引擎租用其他搜索引擎的数据库这种搜索引擎不能够创建自己的数据库,无法满足用户的需求,现已逐渐被第一类搜索引擎所替代。拥有自己的检索程序能够自己从互联网中抓取网页建立数据库,从自身的数据库中调用搜索结果。2.1.3搜索引擎的分类目录搜索引擎(SearchIndex/Directory)也被称为“分类检索”,是以人工方式或者半自动方式搜索网页的内容,并根据网页的内容和性质将其归纳到不同层次的类目之下,形成一定的人工信息摘要,最终形成像图书馆目录一样的树状分类结构索引。2.目录搜索引擎目录搜索引擎的结构图2.1.3搜索引擎的分类元搜索引擎(MetaSearchEngine)是为了弥补传统搜索引擎的不足而出现的一种辅助搜索工具,它可以使用户只搜索一次就得到在多个搜索引擎中搜索的结果。典型的元搜索引擎有以下几个。3.元搜索引擎InfoSpaceDogpileVivisimo2.1.3搜索引擎的分类元搜索引擎由3个部分组成,分别是搜索请求处理模块、搜索接口代理模块、搜索结果显示模块。3.元搜索引擎元搜索引擎的工作原理2.1.3搜索引擎的分类4.垂直搜索引擎垂直搜索引擎(VerticalSearchEngines)更专注于特定的搜索领域和搜索需求,如图片搜索、视频搜索、法律搜索、专利搜索、论文搜索等,它是对通用搜索内容的细分。在其特定的搜索领域有更好的用户体验,如百度学术、百度文库、Google学术等都是垂直搜索引擎。垂直搜索引擎的工作原理2.1.3搜索引擎的分类4.垂直搜索引擎相比于其他无序化的搜索引擎,垂直搜索引擎更加专业和深入,进而保证所收录信息的完整性和及时性,且其返回的结果重复率低、相关性强、查准率高。垂直搜索引擎最大的特点有如下几点。最大特点精准深行业色彩2.1.4常用的搜索引擎介绍1.百度百度是全球知名的中文搜索引擎,致力于向人们提供“简单,可依赖”的信息获取方式。2000年1月,百度创立于北京中关村,百度的“百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。百度的服务器分布在全国各地,能直接从最近的服务器上把所搜索信息返回给当地用户,使用户享受极快的搜索体验。百度首页2.1.4常用的搜索引擎介绍360搜索属于全文搜索引擎,是目前广泛应用的主流搜索引擎之一,360搜索包含网页、新闻、影视等搜索产品,能为用户带来更安全、更真实的搜索服务体验。360搜索不仅掌握通用搜索技术,而且独创PeopleRank算法、拇指计划等创新技术。目前,360搜索已建立由数百名工程师组成的核心搜索技术团队,拥有上万台服务器,庞大的蜘蛛爬虫系统每日抓取网页数量高达十亿,收录的优质网页数量超过数百亿,网页搜索速度和质量都非常领先。2.360搜索360搜索首页2.1.4常用的搜索引擎介绍搜狗搜索是搜狐公司于2004年推出的第三代互动式中文搜索引擎。其致力于中文互联网信息的深度挖掘,帮助中国上亿互联网用户加快信息获取速度,为用户创造价值。其中音乐搜索具有小于2%的死链率,图片搜索具有独特的组图浏览功能,新闻搜索具有能够及时反映互联网热点事件的看热闹首页,地图搜索具有全国无缝漫游功能。3.搜狗搜索搜狗搜索首页2.1.4常用的搜索引擎介绍谷歌(Google)是目前被公认的全球最大的搜索引擎,是互联网上最受欢迎的网站之一,在全球范围内拥有无数的用户。Google允许以多种语言进行搜索,有多达30余种语言可供选择。Google以简单、干净的页面设计和最有关的搜索结果赢得了用户的认同。但目前Google退出了中国市场,在国内暂时无法访问。4.谷歌谷歌首页2.1.4常用的搜索引擎介绍雅虎(Yahoo!)是美国著名的门户网站之一,其服务范围包括搜索引擎、电子邮件、新闻等,服务业务遍及24个国家和地区。Yahoo是最早实行“分类目录”的搜索数据库,也是目前重要的搜索服务网站之一。5.雅虎雅虎首页目录Contents2.1认识搜索引擎2.2搜索引擎的工作原理2.3搜索引擎的使用方法2.4本章实训2.2.1蜘蛛爬行数据抓取系统是搜索引擎最重要组成系统之一,主要负责互联网信息的搜集、保存和更新等,它就像蜘蛛一样在互联网上爬来爬去,因此也被叫做网络蜘蛛(spider)或机器人(bot)。搜索引擎抓取网页时会同时运行多个蜘蛛程序,从一些重要的种子网址开始,通过其网页上的超链接,不断发现新的网址并抓取,并不断重复这个过程,尽最大可能抓取到更多网页。由于互联网中每时每刻都存在网页被修改、删除或出现新的超链接的可能,所以对于百度这样的大型搜索引擎来说,还要不断地对过去抓取过的页面进行更新。2.2.1蜘蛛爬行当网络蜘蛛爬行到某个网站时,会首先检查网站的根目录下是否存在Robots文件,如果有,则会根据其约定不抓取禁止抓取的网页。进入允许抓取的网站后,网络蜘蛛会采用如下3种策略爬行网站中的所有网页。最佳优先宽度优先深度优先2.2.1蜘蛛爬行深度优先策略是早期使用较多的网络蜘蛛爬行策略。在网站中,当网络蜘蛛发现一个链接后,网络蜘蛛就会沿着这个链接爬到下一个网页,然后在这个网页中又沿着新发现的链接爬下去,直到没有未爬行的链接,再返回到第一个网页,沿着另一条链接继续爬行。当不再有新的超链出现时,整个爬行过程结束。如图所示,为深度优先爬行策略,其中的数字为网络蜘蛛爬行网页的顺序。1.深度优先策略首页12345678910111213142.2.1蜘蛛爬行宽度优先策略指网络蜘蛛来到一个网页后,先爬行该网页上的所有链接,然后再爬行下一层网页的链接。如图所示,为宽度优先爬行策略,网络蜘蛛首先爬行第1层的所有页面,再爬行第2层的所有页面,然后以此类推,直到爬行完所有页面。2.宽度优先策略首页14101151226131437892.2.1蜘蛛爬行最佳优先策略指网络蜘蛛到达一个网页时,将网页中的所有链接收集到地址库中,并对其进行分析,从中筛选出重要性较高的链接进行爬行。影响链接重要性的因素主要有网页权重、网站规模和反应速度等。当某个链接的网页权重值越高、网站规模越大、反应速度越快时,就会优先被抓取。3.最佳优先策略2.2.2抓取建库网络蜘蛛在经过较长时间的爬行后,就可以爬行完互联网上的所有网站,但这些网站资源极其庞大,而且其中还夹杂着大量的垃圾网站,再加上搜索引擎的资源有限,通常只会抓取其中的部分网页到数据库中。网络蜘蛛到达一个网页后,会对其内容进行检测,判断其中的信息是否为垃圾信息,如大量的重复内容、乱码以及与已收录的内容高度重复等。检测通过后,搜索引擎会对有价值的网页进行收录,将网页的信息存储到数据库中。2.2.3网页处理网络蜘蛛抓取到的网页数据中,除了用户在浏览器上可以看到的可见文字外,还包含了HTML标签、JavaScript程序、导航、友情链接、广告等无法用于排名计算的内容。结构化网页就是从网页数据中去除这些内容,保留可以用于排名的正文文本、Meta标签、锚文本、图片视频的注释等内容。1.结构化网页如图所示,这段HTML代码,在经过结构化网页后,剩下的用于排名的文字为“2019年新款运动鞋”。2.2.3网页处理分词是中文搜索引擎所特有的处理操作,这是因为英文等语言的单词与单词之间是有空格分隔的,而中文的词与词之间则没有任何分隔符,所以搜索引擎必须首先将一句话分解成若干个词语。2.分词基于字典的分词法基于理解的分词法基于统计的分词法分词的方法2.2.3网页处理无论是中文还是英文,出现频率高,对页面内容没有任何影响的词,被称为停止词。因为它们对句子的主要意思没什么影响,所以搜索引擎会去掉这些词。这样就可以使索引数据的主题更为突出,也可以减少一些无谓的计算量。3.去停止词4.降噪与网页主题完全不相关的内容都属于噪声,而搜索引擎需要识别并消除这些噪声,其基本方法是:根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,剔除无关区域的内容,剩下的就是页面主体内容。5.去重互联网中还存在大量的重复内容,这些重复内容主要是由于网站之间的相互转载以及使用网页模板产生的。如果用户的搜索结果中包含大量的相同内容,则说明用户体验太差,因此需要搜索引擎只返回其中的一篇,这就要求搜索引擎在索引前对重复内容进行识别和删除,这个过程就称为“去重”。2.2.3网页处理搜索引擎会记录每一个关键词等信息,并根据这些信息计算出每个关键词的重要性,再按照重要性对关键词进行排序。然后搜索引擎会将页面及其对应的关键词构建为正排索引并存储到索引库。6.建立索引库文档ID网页内容1小米手机22019年新款手机3华为手机4苹果手机5小米手机评测6华为手机评测关键字ID关键词1手机2小米3华为4苹果5评测62019年7新款假设的6个页面内容对关键词按照重要性进行排序后的结果2.2.3网页处理在实际搜索中搜索引擎是通过关键词来查找包含它的页面,因此正排索引就需要扫描每一个页面来判断其是否包含该关键词,这样计算量就会非常大,因而搜索引擎还会将正排索引重新构建为倒排索引,将页面对应到关键词的映射转换为关键词到页面的映射。6.建立索引库倒排索引简化表关键字ID关键字文档ID1文档ID2文档ID3文档ID4文档ID5文档ID61手机1234562小米15
3华为36
4苹果4
5评测56
62019年2
7新款2
2.2.3网页处理搜索引擎在对页面进行排序时,还需要引入网页以外的标准来衡量网页。在这些网页以外的标准中,链接分析是最为重要的,搜索引擎会分析链接到这个网页的所有外部链接,这些外部链接的数量和质量都能反映该网页的质量,以及和关键词的相关度。7.链接分析8.数据整合除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型。用户在搜索结果中,但只能通过其说明性文本进行处理。不同的数据格式被分别存储,但是在建立索引以及排序时,往往又会联系与数据相关的内容,以判断其相关性与重要性,然后最终形成一个有利于搜索排名的检索数据库。2.2.4检索服务搜索引擎建好检索数据库后,就可以为用户提供检索服务了。当用户输入一个查询关键词后,搜索引擎首先会处理搜索关键词,将其进行过滤和拆分,然后从索引库中将与之匹配的页面提取出来,再通过不同的维度对页面的得分进行综合排序,最后再通过收集用户搜索数据对结果进行优化,此时就可以得到最终的搜索结果。如图所示为基数服务基本流程。2.2.4检索服务和处理页面的关键词一样,对用户输入的搜索关键词也需要进行拆分和降噪等操作,将其拆分为关键词组,并剔除掉对搜索结果影响不大的词。1.处理搜索关键词拆分搜索关键词2.2.4检索服务确定好关键词后,搜索引擎就会从检索数据库中提取出包含有这些关键词的页面。但要全部进行排名会使计算量非常大、速度非常慢。因此搜索引擎通常,只会显示权重最高的几百条搜索结果。2.提取页面搜索结果页数2.2.4检索服务搜索引擎会根据不同方面的得分对参与排名的页面进行综合排序,以得到最终的搜索结果。3.综合排序 相关性 权威性 时效性 丰富度 降权 加权降权指降低有作弊嫌疑的网页的位置的做法。丰富度指页面内容的丰富程度。时效性指页面是否为新出现的网页,且页面内容是新鲜的加权指通过人工方式提高某些页面(如官方网站、特殊通道页面等)的排名。权威性更高的网站提供的内容更真实可靠,所以其网页排名越靠前相关性指页面内容与搜索关键词的匹配程度。2.2.4检索服务搜索引擎还会根据用的IP地址、搜索时间、以往的搜索记录以及浏览过的网页等信息对搜索结果进行优化。通过IP地址可以获取用户所在的地区,根服各地区用户的搜索习惯,可以返回用户特定地域的排名结果。通过搜索时间、以往的搜索记录以及浏览过的网页等信息可以了解用户的搜索习惯、以及对哪些内容更为关心,从而给出更准确化和个性化的搜索结果。4.检索优化2.2.5结果展现搜索结果的展现形式是多种多样的,最简单的展现形式由标题、摘要、网页链接、“百度快照”超链接组成,这种展现形式也称为摘要式。标题摘要网页链接“百度快照”超链接2.2.5结果展现图片式视频式软件下载式步骤式除了摘要式外,搜索结果的常见展现形式还有图片式、视频式、软件下载式、步骤式等。目录Contents2.1认识搜索引擎2.2搜索引擎的工作原理2.3搜索引擎的使用方法2.4本章实训2.3.1基本查询基本查询指直接输入搜索关键词进行查询。其具体操作如下。1搜索结果2输入网址2.3.1基本查询3选择文件类型4搜索结果2.3.1基本查询5选择发布时间6搜索结果2.3.2高级查询使用搜索引擎的高级查询方法可以在搜索时实现包含完整的关键词、包含任意的关键词或不包含某些关键词等功能。其具体操作如下。1高级搜索2搜索结果2.3.3使用搜索引擎指令site指令有两种用法:一种是查询某个网站中被搜索引擎收录的页面数量。1.site指令site+半角冒号“:”+网站域名一种是在指定的网站范围内搜索包含相应关键词的网页。site+半角冒号“:”+网站域名+空格+关键词2.3.3使用搜索引擎指令1.site指令其具体操作如下。1京东网站被百度收录的网页数量2在京东网站中进行搜索2.3.3使用搜索引擎指令网页URL中包含的某些信息常常具有某种特殊价值的含义。因此,使用inurl指令对搜索结果中的URL进行限定,就可以获得比较精准的搜索结果。2.inurl指令inurl+半角冒号“:”+指定文本inurl+半角冒号“:”+指定文本+空格+关键词2.3.3使用搜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度劳动仲裁与诉讼代理服务合同范本3篇
- 2024版授权代理合同
- 二零二五年度婚纱礼服租赁与租赁期限合同3篇
- 2025年度压力罐安装与现场安全监督合同3篇
- 运动会技术代表发言稿简短
- 粉末冶金课程设计结论
- 写给合作单位的感谢信范文
- 2024版建筑工程门窗供应与安装合同
- 2024版权购买合同 明确版权范围与购买价格
- 2024年版汽车租赁与服务合同样本版B版
- 滕州市九年级上学期期末语文试题(原卷版+解析版)
- EPC项目投标人承包人工程经济的合理性分析、评价
- 三相三线计量装置运行状态评估与错接线排障、反窃电现场处置技巧
- 房建工程监理大纲范本(内容全面)
- JB-T9092-1999阀门的检验与试验
- 社区电动车棚新(扩)建及修建充电车棚施工方案(纯方案-)
- 钣金行业的年度计划
- 代谢性脑病教学查房
- 全国职业学校教师说课大赛一等奖电工技能与实训《触电急救方法说课》说课课件
- 小儿流感疾病演示课件
- 奔驰调研报告swot
评论
0/150
提交评论