




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲了解搜索引擎了解搜索引擎1搜索页面结果google、百度、搜搜雅虎、新浪、搜狐InfoSpace、Dogpile、搜星google学术、百度音乐、搜酷视频等等1搜索页面结果自然搜索结果广告1
.1经典搜索结果列表目录说明链接、时间、快照1
.2整合搜索结果涵盖了垂直搜索结果1.3缩进列表1.4全站链接1.5迷你全站链接1.6One-box1.7富摘要
2工作原理简介2.1爬行和抓取蜘蛛通过跟踪链接访问网页,获得HTML代码存入数据库,完成数据收集的任务蜘蛛协议:robots.txt,是否允许搜索引擎抓取文件或目录1.Google爬虫名称
1)Googlebot:网站索引和新闻索引中抓取网页
2)Googlebot-Mobile:移动索引抓取网页
3)Googlebot-Image:图片索引抓取网页
4)Mediapartners-Google:抓取AdSense,在AdSense广告情况下,Google才会使用此漫游器来抓取您的网站。
5)Adsbot-Google:抓取AdWords目标网页的质量,在GoogleAdWords为你的网站做广告的情况下,Google才会使用此漫游器。
2.百度(Baidu)爬虫:Baiduspider3.雅虎(Yahoo)爬虫:YahooSlurp4.有道(Yodao)蜘蛛:YodaoBot5.搜狗(sogou)蜘蛛:sogouspider6.MSN蜘蛛名称:Msnbot跟踪链接深度优先和广度优先混合使用吸引蜘蛛地址库建立地址库:为了防止重复爬行和抓取网址,会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面文件存储和内容检测文件存储:搜索引擎抓取的数据存入原始页面数据库,每个Url有个唯一的文件编号复制内容检测:权重低的网页是否存在大量抄袭内容,如果有就可能不再抓取内容。2.2预处理预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用中文分词中文分词方法基于词典匹配:正向匹配和逆向匹配;最大匹配和最小匹配;正向最大匹配和逆向最大匹配基于统计:分析大量文字样本,计算出字与字相邻出现的统计概率。该方法反响快速,有利于消除歧义。搜索引擎页面分词取决于词库的规模、准确性和分词算法、而非取决于页面中文分词去停止词:除去“的、得、地”等词消除噪音:通过区分页头、导航、正文、页脚、广告等,排除与页面内容不相关的信息去重:识别和删除具有相同内容页面中权重较低的页面。特殊文件处理:PDF、Word、WPS、TXT、PPT等,图片、视频等的处理?正向索引记录每个关键词在页面出现的频率、次数、格式、位置等倒排索引2.3排名用户输入关键词后,排名程序调用索引数据库,计算相关性,然后按一定格式生成搜索结果页面。搜索词处理中文分词去停止词指令处理:多个关键词时,默认的处理方法是在关键词之间使用“与逻辑”拼写错误矫正文件匹配初始子集的选择搜索结果并非完全包括所有页面信息相关性计算对初始子集中页面计算关键词相关性,影响因素包含:关键词常用程度:戴尔电脑,我们冥王星词频及密度:通常认为搜索词在页面出现的次数越多,密度越高关键词位置及形式:标签、标题、正文、黑体等关键词距离:搜索关键词中分词间在页面中出现的距离链接分析及页面权重:锚文字、外部链接等排名过滤及调整在排名大体确定后,进行一些过滤算法,如百度11位、google的负6对有作弊嫌疑的网页加以惩罚,往后调整。排名显示搜索缓存2/8定律,长尾理论,为了节约资源,搜索引擎会把最常见的搜索词存入缓存,便于用户搜索时直接搜索,缩短时间。查询及点击日志搜索用户地址、搜索关键词、搜索时间、点击页面等信息3链接原理李彦宏超链分析专利HITS算法TrustRank算法GooglePRHilltop算法李彦宏超链分析专利1997“超链文件检索系统方法”专利申请链接词库:链接锚文字,及其链接指向:///netacgi/nph-Parser?patentnumber=5,920,859一个用于检索查询相关的文件与索引文件的超链接指向那些按照文件的搜索引擎。
遍历的索引数据库,发现超文本信息,包括文档的超链接指向的地址和每个超链接的锚文本。
该信息存储在一个倒排索引文件,它也可用于计算各指向一个特定的文档的超链接文件链接载体。
当输入一个查询,搜索引擎发现因在其锚文本的查询字词的文件所有文件载体。
也是一个查询向量计算,点查询的载体,每个文件链接向量积的计算方法。
产品的点与特定文件的总结,以确定每个文件的相关性排名。李彦宏超链分析专利建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。李彦宏超链分析专利要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其它页面怎么评价。当一个关键词被搜索的时候,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面HITS算法1997,JonKleinber,Hyperlink-InducedTopicSearch,“超链诱导主题搜索”:///netacgi/nph-Parser?patentnumber=6,112,202HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。典型的枢纽页面就是如雅虎目录、开放目录或好123这样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。权威页面通常是提供真正相关内容的页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。而权威页面有很多导入链接,其中包含很多来自枢纽页面的链接。HITS算法枢纽值〔HubScores〕、权威值〔AuthorityScores〕枢纽值:页面上所有导出链接指向页面的权威值之和。权威值:所有导入链接所在页面的枢纽值之和。缺点:查询时间长TrustRank算法2004,斯坦福大学和雅虎联合研究,2006年专利根本假设:好的网站很少会链接到坏的网站如果能挑选出可以百分百信任的网站,这些网站的TrustRank评为最高,这些trustRank最高的网站所连接的网站信任指数稍微降低,但也会很高。与此类似,第二层别信任的网站链接出去的第三层网站,信任度继续下降。离第一层网站点击距离越近,信任指数越高,反之亦反。挑选种子网站,设定TrustRank值,挑选种子网站有两种方式:一种是选择导出链接最多的网站;另一种挑选种子网站的方法是选PR值高的网站。两种计算TrustRank随链接关系减少的公式:一是随链接次数衰减;二是设置一个最低TrustRank值门槛。TrustRank算法影响网站TrustRank的因数1.域名注册时间在五年或五年以上;2.网站托管在专用效劳器上;3.网站加载时间快;4.网站内容是原创的;5.访客在每个网页的停留时间超过90秒;6.网站被多个国际IP段引用;7.网站在其所属行业中拥有权威性GooglePRPageRank,网页排名,又称网页级别,Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学创造了这项技术。反向链接越多的页面就越重要。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源〔甚至来源的来源,即链接到A页面的页面〕和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。GooglePR根本思想:如果网页T存在一个指向网页A的连接,那么说明T的所有者认为A比较重要,从而把T的一局部重要性得分赋予A。这个重要性得分值为:PR〔T〕/C(T)其中PR〔T〕为T的PageRank值,C(T)为T的出链数,那么A的PageRank值为一系列类似于T的页面重要性得分值的累加。PR〔A〕=〔1-d〕+d〔PR〔t1〕/C〔t1〕+…+PR〔tn〕/C〔tn〕〕A代表页面APR〔A〕那么代表页面A的PR值d为阻尼指数。通常认为d=0.85t1…tn代表链接向页面A的页面t1到tnC代表页面上的到外链接数目。C〔t1〕即为页面t1上的到外链接数目优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。缺乏:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。GooglePRPR意义和重要性网站收录深度和总页面数:蜘蛛爬行深度和广度的重要因素之一更新频率:蜘蛛访问和更新的频繁程度重复内容判定排名初始子集的选择GooglePR影响GooglePR值的因素Hilltop算法可以简单理解为与主题相关的PR值。HillTop算法集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的KrishnaBharat和多伦多大学的GeorgeA.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。传统PR值与特定关键词或主题没有关联,只计算链接关系。这就有可能出现某种漏洞。如大学网站上出现售货信息。Hilltop算法就尝试矫正这种可能出现的疏漏。Hilltop算法同样是计算链接关系,不过它更关注来自主题相关页面的链接权重。在Hilltop算法中把这种主题相关页面称为专家文件。Hilltop算法主要包括两个步骤:专家页面搜索和目标页面排序。用户搜索关键词后,Google先按正常排名算法找到一系列相关页面并排名,然后计算这些页面有多少来自专家文件的、与主题相关的链接,来自专家文件的链接越多,页面的排名分值越高。优点:相关性强,结果准确。缺乏:专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性,而专家页面的质量和公平性难以保证;忽略了大量非专家页面的影响,不能反响整个Internet的民意;当没有足够的专家页面存在时,返回空,所以Hilltop适合对于查询排序进行求精。Hilltop算法提示SEOer,建设外部链接时更应该关注主题相关的网站Hilltop算法HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。与PageRank的不同之处:仅考虑专家页面的链接。HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的奉献比主题不相关的链接价值要更高。如果网站是介绍“服装”的,有10个链接都是从“服装”相关的网站链接过来,那这10个链接比另外10个从“电器”相关网站链接过来的奉献要大。英文搜索结果页面中文搜索结果页面4用户浏览和点击搜索结果整合搜索及个人化搜索用户对搜索引擎返回的10个结果的浏览和点击存在很大差异。研究方法:视线跟踪〔eye-tracking〕,用特殊设备跟踪用户目光在结果页面上的浏览及点击数据。Enquiro中文页面和英文页面的差异4用户浏览和点击搜索结果英文搜索结果页面%ofclick%time56.3628.4313.4525.089.8214.7248.74.736.023.274.010.353.012.913.881.468.012.652.34
英文搜索结果页面幂律分布?Why?中文搜索结果页面
中文搜索结果页面中文用户无论是在Google和百度上都花了更长时间找到想要的结果。语言差异?中文搜索比英文搜索结果准确度低?
整合搜索及个人化搜索整合搜索,图片作用
整合搜索及个人化搜索个人化搜索:更关注熟悉的网站5高级搜索指令5.1双引号5.2减号5.3星号5.4inurl5.5inanchor5.6intitle5.7allintitle5.8allinurl5.9filetype5.10site5.11link5.12linkdomain5.13related5.14总和使用高级搜索指令5.1双引号完全匹配搜索5.2减号搜索不包含减号后面的词5.3inurl命令用inurl搜索命令可以帮你搜索到在URL当中出现你搜索的关键词,很有针对性。
使用格式:inurl:〔+你需要搜索的内容〕5.4filetype命令在搜索引擎里面用filetype命令是可以帮助搜到相关的文档
使用格式:filetype:+文件格式+搜索内容
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 技巧和习惯打造福建事业单位考试试题及答案
- 花艺设计中的数字化工具应用试题及答案
- 代收款合同样本
- 成功策略分享福建事业单位考试试题及答案
- 企业涨薪合同样本
- 二层别墅出售合同样本
- 福建事业单位考试课程内容精炼技巧试题及答案
- 民族饮食文化试题及答案
- 农艺师考试解析2024年试题及答案
- 将要开考2024年园艺师考试的学问分析试题及答案
- 电梯电磁兼容检验技术解决方案
- 用人单位劳动合同书范例
- 数学-江西省部分高中2025届高三下学期3月联合检测(一模)试题和解析
- 运动营养学(第三版)全套课件第1-10章
- 浙江省温州市2024年九年级数学八校联考学生素养检测中考模拟试卷(含答案)
- 2025年吉林司法警官职业学院单招职业技能测试题库审定版
- 2025届甘肃省白银市部分学校高三下学期开学检测物理试题(含答案)
- 雅安建筑垃圾循环利用项目可行性研究报告
- 2025-2031年中国工业自动化设备行业发展前景预测及投资方向研究报告
- 2025年仓储物流合作管理协议
- 2024年10月自考13683管理学原理中级试题及答案含评分参考
评论
0/150
提交评论