版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、浅谈互联网页面价值 搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用 户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些 需 求被满足了, 我们可以认为结果中的某些页面对特定用户的特定需求产 生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要 研究页面价值, 技术 上怎样判断页面的价值呢 ?本文将逐一回答这些问题。一、什么是页面价值。前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面 对用户的价值。 那么对搜索引擎而言, 价值体现在哪些方面呢 ?一个简单的 推论, 所 有可能会对用户产生价值的页面都是对搜索引擎有价值的, 将这 些页面建
2、入搜索引擎的索引中能够满足最终检索到它们用户的需求,我们 称这种价值为检索价值。只要是能解决某个用户信息需求的,并且是可以 通过某些正常检索需求到达的,那么就是有检索价值的。 小学生张三喜欢在 qzone 上写日记,写他前天吃了什么,今天玩了什么。 这些内容,是有价值的。它们对张三的家长、同学、老师,以及其他小学 生,和对小学生日记感兴趣的人来说,都是有价值的。对于这个信息体来 说,“张三”这个名字是检索的“ key ”。有一些信息单元,只有“浏览”价值,而没有到达该信息的检索途径,那 么该资源可能是有价值的,但检索价值就很低。比如一张百度大厦附近的 地图,从浏 览角度,是有价值的 ; 但是如
3、果没有任何周边文字说明 ( 或者 link 的 anchor text) ,只有一张光秃秃的地图,就没有检索价值。当然, 如果图片的内容识别技术,有朝一日能自动识别出这个是“百度大厦附近地图”,或者能够自动分析 出地图内的各种大厦、街道、餐馆等的名称, 那么这张图一样变得有检索价值了。所以一个页面是否有检索价值,应该 取决于两点:1) 是否能解决某个特定的需求 ( 价值)2) 是否可以通过某个常规的搜索方式获得该信息 ( 检索) 那么,没有检索价值的页面,是否对搜索引擎就没有价值了呢 ?仔细想想, 答案是否定的。索引只是搜索引擎的一个环节,对于其他环节而言,没有 检索价值 的页面有可能对我们更
4、好的收录那些检索价值高的页面有帮助。 比如对负责抓取互联网资源的 spider 而言, 有一些页面, 本身没有检索价 值,但通过这些页面 的抓取和分析, 能够更快的帮助我们掌握这一类页面 没有检索价值这一重要信息,从而节省更多的流量进行更加有效的抓取。 考虑到这种价值可以算作一种“间接的”检索价值,最终还是立足于索引 价值的,在本文中就不再展开论述,我们只关注“检索价值”这一根本问 题。下文中提到的“页面价值”特指页面的“检索价值” 。二、为什么要研究页面价值 首先,互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想 用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断, 不
5、收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面 价值在收录控制方面的应用。第二,搜索引擎 spider 的抓取能力是有限的,出于访问友好性的考虑,对 于一个网站或一个 IP 抓取速率需要有一个抓取速率的上限。在这一限制 下, 抓取或页面更新就需要有一个先后顺序, 而这一排序的主要参考依据就是页面价值,或者说对页面价值的预测( 未抓取时 ) 。这是页面价值在spider 调度方面 的应用。 第三,对于某些页面,页面内容发生变化,导致它的检索价值从有到无, 典型的就是变为“死链” ,或者“被黑”。对于这些页面,好的搜索引擎会 在第一时 间将其排除出索引, 或在检索时对其进行屏蔽,
6、以保证返回给用 户的结果是更多检索价值高的“好页面” 。对于另一些页面,它不仅具有很 高的检索价值,而且有很 强的“时效性”,能够第一时间让用户检索到这 些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页 面意味着越多的额外资源开销, 以多快的速 度收录和以多短的周期更新索 引,需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时 效性两大搜索引擎指标提升上的应用。 最后,普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也 存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性 进行排序的,在相关性大体相当的情况下,用户更倾向与浏览普遍意义上 页面价值高
7、的网页。这是页面价值在 ranking 方面的应用。 可以说,页面检索价值的研究是搜索引擎中的一项较为基础的工作,对页 面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率、死链率、 时效性等几大主要指标。三、如何判断页面价值 前文中提到过一个小学生张三 qzone 日记的例子。我们认为这个页面是有 价值的,对张三的同学,朋友,家人都有价值。与此类似的,百度CEO李彦宏 在 i 贴吧上发表一条十几个字的 i 贴,也是有价值的, 对李彦宏的上 千万粉丝都有价值。虽然李彦宏的 i 贴长度可能远小于张三的日记,但就 这两个页面的价值来 说,我们都会有一个共同的认识, 即从普遍意义上讲, 李彦宏的
8、i 贴价值远大于张三的日记。 ( 当然,对于张三的妈妈来说很可能 这个价值的关系是相反的 ) 再举个例子,搜索某个人的手机号码,搜索引擎返回了一个结果,是这个 人在某个论坛上的一个回复。虽然这个手机号码关心的人不多,但因为资 源是绝对稀缺的,对于关心这个手机号码的查询需求,这个页面是完全不 可替代的,因此具有极高的价值。 另外,页面检索价值,还受到页面质量的影响。相似的页面,对于满足用 户需求来说,往往会有很大差异,比如资源下载速度,页面的布局,广告 的多寡。这类差异,姑且称之为页面质量。 最后,有些页面具有明显的公众话题性质,且这些资源往往在刚刚产生时 有非常高的关注度,随着时间的推移热度显
9、着下降,有着“新闻”的特征。 典型的像各种“门”事件,地震、火灾等大型的自然灾害。我们认为这类 资源具有“时效性”特征。 所以,一个页面的检索价值,大致受以下四个要素的影响: 感兴趣的受众群大小 该页面的稀缺程度 (可替代性 ) 该页面的质量高低 该页面的时效性特征强弱 这四种要素,简称受众,稀缺,质量和时效性。1. 受众受众群体的大小,即代表了用户检索需求的大小。评价受众的大小主要依 据信息发布源的受众和信息内容本身受众两大方面。具体因素包括且不限 于:网站忠实用户群大小 一般来说,拥有自己忠实用户群的知名网站,他们的成功,在于他们的内 容和服务,比别人更能吸引和满足用户。从这个角度来说,我
10、们可以推论, 拥有更多 忠实用户群的网站上的内容, 会比忠实用户群较少的网站上的内 容,有更多的既有和潜在受众群。这样的话,忠实用户群大小,就可以变 成对站点内资源检索价值的 一种衡量指标。 忠实用户群的好处在于, 它是 变动的。如果一个网站变差了,那么用户就会用脚投票。超链有过期问题, 作弊问题,而虚假用户群作弊很难。一般所 谓的网站知名度,会和忠实用 户群数量密切相关。资源分布规律 我们再考虑一个网站内部的资源分布所体现的受众群大小问题。比如新浪 新闻首页的那些推介内容。 新浪编辑为什么要推这些内容 ?因为他们认为这 些是用户 最感兴趣的。 那么从索引价值角度而言, 相当于有一个庞大的编
11、辑团队,已经对这些内容打上了“符合大众口味”的标签。搜索引擎只需 要乐享其成就行了。这样的 话,资源相对于某些结构性关键页面 ( 首页、 频道页等 )的链接深度,也可以成为衡量一个资源受众群大小的指标了。 访问热门度我们再从访问热门度角度来考虑受众群大小问题。 这个是最直接的, 当然, 它需要第三方的工具来获取关键数据。通过这个途径,获取的不应仅仅是 需要入库的页面,还有用户访问一个网站的访问模式。超链 超链某种程度上也是受众群大小的反映。某个资源的质量越高,接触的受 众群越大,那么获得正常链接的数量往往也越大。内容特征A:我写博客:“传言郭德纲要上春晚了。”B:我写博客:“我今天吃早饭了。”
12、同样的来源,前者的受众必然高于后者。即:当在发布源相同的情况下, 具有公众属性的内容分值会更高。2. 稀缺 稀缺主要是描述页面在互联网中的独特性。说到稀缺往往会想到重复,稀 缺是否等同于无重复,我们应该怎样解读这一概念呢 ?可以看一个例子: 某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频 道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的 重复,一方 面它的转载带来了访问速度、稳定性等方面的增益,并且之后 的检索用户还有可能用“新闻事件 +新浪”来检索此新闻。这可以被称之为 站点增益。另一方面,它在 转载过程中可能会改变页面的标题,而且依托 其受众,在转载页面上
13、,还有可能出现更多的有价值评论和回复等,还有 可能存在指向其它相关事件的新闻链接。 这些 可以被称之为内容增益。 因 此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度 也是较高的。同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名 / 稳定 性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或 者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重 复的,与采集源相比,就是没有检索价值的了。综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益 和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀 缺度较低。3. 质量 页
14、面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应 该是从最基础的需求依次递进的。首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。 其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。 最后,信息是否丰富、延伸出的次级需求是否满足。典型的低质量页面存在以下一些特征:主需求无效 /未满足(过期分类广告 /软件下载页面,下载链接无效等 ) 死链虚假信息 /诈骗等空页面站点不稳定影响主需求的权限问题 (下载/ 浏览需要注册会员 /积分等)信息不完整 (转载不全等 )浏览体验差 (广告/字体/页面布局等 )典型的高质量页面存在以下一些特征:访问速度快 (页面加载快
15、/ 资源下载速度快 ) 页面整洁干净,主体内容在显着位置。 页面信息完整。页面元素丰富 ( 文字、图片、评论、相关推荐等 )4. 时效性“时效性”是页面价值的一个属性,它一般体现在两个方面:一是页面所 描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一 个体现。 二 是页面所描述的事物仅在第一时间有较高热度, 随着时间推移 热度显着下降。这是一种“新闻”性。对于具有上述两种属性的页面,如 果搜索引擎 spider 发现 页面的时间正处于该事物的“爆发期”或“爆发 期”之前,我们认为该页面具有时效性。需要说明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的及 时收录提供检索,
16、而所有的有价值新资源中,有一大部分其收录速度的提 升对用户的 搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文 章,张三的日记。页面价值中的“时效性”指得是一种突发时效性,也就 是所有有价值页面中最需要及时 收录的那些。 对页面时效性的判断是为了 指导我们将搜索引擎有限的资源投入到最关键的地方, 产生最好的性价比。 判断页面的时效性价值,主要通过下面一些途径:页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一 个典型的例子。描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆 发出大量相关讨论、报道,和这一事件相关的所有内容都具有了时效性属性。根据一个集合内的页面是否具有上述两种特征, 推测该集合的时效性价值。 比如魔兽世界吧经常爆出一些热门帖子,公众话题,我们推测出自魔兽世 界吧的帖子其时效性“潜在价值”比较高。四、 页面价值的研究重点 前文已经介绍了页面价值的含义,研究的意义与价值判断的方法。最后我 们再看一下,从技术角度上,这一方向的研究中的重点方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025转让购房合同范本
- 校园文化导论模板
- 四年级安全课教案下册
- 护理部干事岗位竞争
- 山东医学高等专科学校《ED器件与应用技术》2023-2024学年第一学期期末试卷
- 深圳劳务公司合同范例
- 汽泵租赁合同范例
- 炊具合同范例
- 人防车位购买合同范例
- 售后包租合同范例
- 学校体育特色课程
- 国防教育ppt国防教育资料国防教育课件
- GB/T 912-2008碳素结构钢和低合金结构钢热轧薄钢板和钢带
- 个人资料表(美国-DS-160新表格)
- 炉后QC外观检验培训
- GB/T 20080-2017液压滤芯技术条件
- GB/T 11085-1989散装液态石油产品损耗
- 跨学科教学研究:跨界融合视域下的劳动教育课程体系构建研究
- 汽车电线产品标准简介
- eNSP简介及操作课件
- 最新北师大版五年级数学上册《第五单元复习》优质教学课件
评论
0/150
提交评论