网页网站相似度判别方法研究_第1页
网页网站相似度判别方法研究_第2页
网页网站相似度判别方法研究_第3页
网页网站相似度判别方法研究_第4页
网页网站相似度判别方法研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网页网站相似度判别方法研究【摘要】当今时代是一个以信息技术为代表的知识经济时代,各种 先进的科学技术迅猛发展,给人们的生活带来了深远的影响,它极大的改 变了我们的生活方式。以计算机技术和网络通信技术为代表的信息科技改 变着我们的生活。在这个信息高速传播的时代,互联网已经成为用户浏览 信息,搜索信息的主要来源,然而搜索引擎再采集网页时会出现许多相同 或者近似的网页,这样不仅降低了用户在检索屮的效率,同事也增加哦了 存储空间,并且减少了用户的体验。我们就这个问题进行了讨论。【关键词】相似度;搜索引擎;算法一、引言现代搜索引擎屮的爬行程序在巨大的网络屮采集网页时会搜集到许 多相同或者是近似的网页,这

2、样不仅降低了用户在检索过程中的效率,同 时也增加了存储空间,并且减少了用户的体验。因此,判别网站页面的相 似度并在此基础上去除重复的网页已经成为搜索引擎领域目前所研究的 热点和重点问题。本文所研究的是网站页面相似度判别的方法,文中第一 章分析了研究该课题的目的和意义,然后在第二章简单介绍了当前最好的 检测网站页面相似度的儿种算法以及它们各自的优点和缺点,对前人的研 究成果作进一步的分析和学习,接着在第三章提出了一种相对先进的相似 网页检测的算法,这种比较先进的算法采用的是基于最长公共子序列的相 似性度量方法去判别网站页面的相似度,它能够很好地去度量出网页之间 的相似程度和它们的包含关系,并能够

3、获得较为理想的准确度。这个方法 中同时也设计了一个有效的检测过程框架,此框架包含有三个步骤,可以 用来保证算法运行时候的效率。二、日的与意义互联网诞生到现在,从共亨性和开放性等特点以及对人类社会生活和 工作等方面的影响來说,它无可厚非地已经成为了新世纪最伟大的创造之 -o但是在网络迅猛发展的同时也给人们带来了一系列难题,最明显的就 是现在的网络中已经存在着很多经过转载的网页,即一篇网页文档的内容 会以相同的或者是以近似的形式去出现在其他的网页文档当中。而在这些 重复的网页文档中有的是没有经过任何改动的粘贴复制,有的在内容上稍 微做了一些改动,而有的则仅仅只是网页文档的格式不同而已。因为这个 缘

4、故,搜索引擎在收集网页文档时肯定会收集到很多主题内容相同或者是 内容近似的网页文档,对这些相同或近似的网页文档如果不去进行处理, 不仅会造成大量的存储资源浪费、索引的效率降低,而且也会造成最终用 户检索困难和阅读困难的不良后果。所以,判别网站页面的相似度并在此 基础上去除重复的网页已经成为搜索引擎领域目前所研究的热点和重点 问题。在此,我们所指的“相似度”是指不同两个网页之间相同部分的代码 字节数占两个网页总字节数的百分比。合理降低网页相似度是网站优化中 重要的一步。网页相似度顾名思义就是不同网页的相似程度,如果你的网 站转载了其他网站的文章,那么可以说你这个网页和之前原创文章的网页 是“相彳

5、以”的。而对于那些重复度相対比较低的网页文档,比如以聚类的 形式去呈现给用户的同一主题的新闻资源,如腾讯资讯、google资讯等, 我们却可以根据用户的个人喜好去进行显示。所以,对那些在内容上相同 或者是近似的网站页面作一定的处理是一项非常有实际意义和价值的工 作。三、算法的优点与缺点在网络的发展历程中,关于如何检测那些相似网页的方法始终是学者 们研究的一个热点问题。用于检测相似网站页面的方法在那些与web信息 有关系的应用方面长期來都扮演着非常重要的角色。也正是因为这样,这 些年来有许许多多检测相似网页的方法不断被提出来,并且被应用于实 践,还都得到了有关专家的评估。不过在这些诸多方法中,比

6、较具有权威 性的当属由美国人broder所研究提出的shingling算法3和由charikar 所研究提岀的simhash算法4以及由chowdhury所研究提出的 hatch 算法10,这三个算法被人们公认是目前对相似的网站页面进行检测时比 较实用的算法。虽然说是比较实用,但这三种算法中也都存在着这样或那 样的不足:一方面,这三种算法都只是采用了基于语法和基于语义的方法 去评估两篇网页文档之间的相似度,而不是采用基于文档内容的匹配;另 一方面,虽然高的评估分数可以代表很高的相似率,但是它并不代表很高 的相似程度。完全可以这样说,就算存在两个网页文档,它们的内容是一 点都不相同的,但这两篇文

7、档仍然有可能会被判定为相似的两个网页文 档。针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了 一种基于聚类算法dbscan的搜索结果优化算法。该算法选取源搜索结果 中排名靠前的部分网页,对这部分网页根据网页相似度进行dbscan聚类, 最大限度剔除兀余网页,实现搜索结果的优化。实验结果表明本算法可以 提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度。四、先进算法对于如何检测网络中存在的相似网页文档,这方面的研究早期只是针 对那些比较大型的文件系统,但后来很快就被投入应用到搜索引擎领域, 在这方面最典型的检测系统应该是美国斯坦福大学的scam检测系统。针 対目前搜索引擎搜索

8、结果中普遍存在大量重复网页的现象,提出了一种基 于聚类算法dbscan的搜索结果优化算法。该算法选取源搜索结果中排名 靠前的部分网页,对这部分网页根据网页相似度进行dbscan聚类,最人 限度剔除冗余网页,实现搜索结果的优化。实验结果表明本算法可以提高 搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度。到现在为 止,许多研究人员对网页文档相似性的检测提出了大量的方法,而经过研 究分析,这些诸多方法大致又可以被分为这样的两大类:从网页文档屮去 提取出网页文档特征的方法和由网页文档的这些被提取出的特征去计算 网页文档签名的方法。五、结论总体来说,虽然判断网页网站的相似度被很多国内外学者所关注,所 研究的兴趣点越来越多,研究成果也越来越丰富,但依然存在一些问题, 比如说发表的相关论文总量偏少,而国内学者在实践上的欠缺更使得其成 果没有经典技术的可用性高,因此,判断网页网站的相似度还需要经过多 次周密的实践去进行严格的考证。【参考文献】1 胡瑜,王立志基于iitml结构特征的网页信息提取j.辽宁石油 化工大学学报,2009 (03)2 宋明秋,张瑞雪,吴新涛,等网页正文信息抽取新方法j大连 理工大学学报,2009 (04)3 董全中当代搜索引擎存在的问题及其改进j.图书馆理论与实 践,2007 (05)4 宋睿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论