Web数据挖掘综述_第1页
Web数据挖掘综述_第2页
Web数据挖掘综述_第3页
Web数据挖掘综述_第4页
Web数据挖掘综述_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Web数据挖掘综述 摘要:过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,因 此如何从Web庞大的数据中提取出有价值的信息成为一大难题。Web数据挖掘正 是为了解决这一难题而提出的一种数据挖掘技术。本文将从Web数据挖掘的概 念、分类、处理流程、常用技术等几方面对Web数据挖掘进行介绍,并分析了Web 数据挖掘的应用及发展趋势。 关键词:Web数据挖掘;分类;处理流程;常用技术;应用;发展趋势 OverviewofWebDataMining Abstract:Overthepastfewdecades,therapiddevelopmentofWebmakesitbecomi

2、ngtheworldslargestpublicdatasources.SohowtoextractvaluableinformationfromthemassivedataofWebhasbecomeamajorproblem.Webdataminingisthedataminingtechnologywhatisinordertosolvethisproblem.ThisarticleintroducestheWebdataminingfromitsconcept,classification,processing,andcommontechniques,andanalyzestheapp

3、licationandthedevelopmenttendencyofWebdatamining. Keywords:WebDataMining;Classification;Processing;CommonTechniques;Application;DevelopmentTendency 0.引言 近些年来,互联网技术的飞速发展,带来了网络信息生产和消费行为的快速拓展。电脑、手机、平板电脑等终端的普及,SNS、微博等Web2.0应用的快速发展,促进了互联网信息数量的急剧增长,信息资源前所未有的丰富。但同时,海量级、碎片化的信息增加了人们获取有效信息的时间和成本1o因此,迫切需要找到这样的

4、工 具,能够从Web上快速有效地发现资源,发现隐含的规律性内容,提高在Web上检索信息、利用信息的效率,解决数据的应用问题,Web数据挖掘正是一个很好的解决方法。 I.Web数据挖掘概念 Web数据挖掘蔺称Web挖掘,是由OrenEtzioni在1996年首先提出来的2。Web数据挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及数据库技术、信息获取技术、统计学、机器学习和神经网络等多个研究领域的技术3。 2 .Web数据挖掘分类 Web上包括三种类型数据:Web页面数据、Web结构数据和Web日志文件4。依据在挖掘过程中使用

5、的数据类别,Web数据挖掘可以分为Web内容挖掘,Web结构挖掘,Web使用挖掘三类。 2.1 Web内容挖掘 Web内容挖掘是从文档内容或其描述中抽取有用信息的过程。Web内容挖掘 有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。根据挖掘出来的数据可以将 Web内容挖掘分为文本挖掘和多媒体挖掘两个部分。 2.2 Web结构挖掘 Web结构挖掘是从Web组织结构和链接关系中推导知识、挖掘页面的结构和Web结构,可以用来指导页面采集工作, 提高采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档间的超链接结构挖掘。 2.3 Web使用挖掘 Web使用挖掘是从服务器端记录的

6、用户访问日志或从用户的浏览信息中抽取感兴趣的模式。通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做 出预测性分析,从而改进站点的结构或为用户提供个性化服务5。这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用记录追踪。 图IWeb数据挖掘分类示意图 3 .Web数据挖掘处理流程 与传统数据和数据仓库相比,Web上的信息具有高度异构和半结构化特性6,并且是动态的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理,典型的Web数据挖掘的处理流程如下7: 3.1 查找资源 任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包

7、括电子邮件、电子文档、新闻组或者网站的日志甚至是通过Web形 成的交易数据库中的数据。 3.2 信息选择和预处理任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告链接,去除多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至关系表。 3.3 模式发现 对预处理后的数据进行挖掘,自动进行模式发现,从Web站点间发现普遍的模式和规则。 3.4 模式分析 对发现的模式进行解释和评估, 必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。可以是机器自动完成,也可以是 与分析人员进行交互来完成。 图2Web数据挖

8、掘处理流程示意图 4 .常用的Web数据挖掘技术 4.1 路径分析技术 我们通常采用图的方法来分析Web页面之间的路径关系。G=(V,E,其中V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站的结构图,从图中可以确定最频繁的访问路径。路径分析技术常用于改进站点的结构8。 4.2 关联规则挖掘技术 关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引

9、(Reference关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。同时点击的用户越多,其相关度就可能越高。系统就可以利用这种思想为用户推荐相关信息或产品服务。 4.3 序列模式挖掘技术 序列模式挖掘技术就是挖掘出交易集之间的有时间序列关系的模式。它与关联规则挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,注重事务内的 关系,而序列模式挖掘技术则注重事务之间的关系。发现序列模式,便于预测用户的访问模式,有助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式,能够在服务器方动态地创立特定的有针对性的页面

10、,以满足访问者的特定需求。 4.4 分类、聚类技术 分类规则可挖掘出某些共同的特性, 而这一特性可对新添加到数据库中的数据项进行分类。在Web数据挖掘中,分类技术可根据访问用户而得到个人信息,共同的访问模式以及访问某一服务器文件的用户特征。 而聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘9。发现分类规则可以识别一个特殊群体的共有属性的描述,这种描述可以用于分类新的检索。聚类可以从Web访问信息数据库中 聚集出具有相似特性的用户群。在Web事务日记中聚类用户信息或数据项能够使于开发和执行未来的市场战略。 5 .Web数据挖掘的应用 5.1 在社交网络上的应用 近年来,在线的社交网络成

11、为Web2.0时代最广泛的应用实例。社交网络允许用 户在Web的环境里进行自由的沟通交互。一些社交网站已经成为网络上最受欢迎 的网站。Web内容挖掘可以对社交网站的文档进行分类或分级,特别是针对博客、微博或是以文字内容为主的论坛。Web结构挖掘可以对社交网站的结构进行分析,为网站的改进建设提供有价值的建议。Web使用挖掘可以用来分析用户的阅读兴 趣和习惯,为用户推送最新的阅读内容3。 5.2 在电子商务上的应用 网络的发展使得电子商务成为了人们生活与企业发展中不可分割的一部分。电子商务平台是一个拥有海量数据信息资源的大型数据库,利用Web使用挖掘可以提高用户满意度发现潜在的消费者,提供个性化的

12、服务等。利用Web结构挖掘可以优化网站结构,为用户提供更加有效且快速的访问渠道,帮助商家制定更准确的市场营销策略10。 5.3 在远程教育上的应用 现代远程教育站点是采用多种媒体手段进行远程系统教学的教育形式。它是随着现代信息技术的发展而产生的一种新型教育形式,是构筑知识经济时代人们终身学习体系的主要手段。使用Web数据挖掘,站点页面之间的链接得到优化,极大方便学习者学习,知识点之间的关联变得更为密切。同时,日常教学管理能更好地以学习者为中心11。 5.4 在搜索引擎上的应用 通过Web数据挖掘,对网页上的一些相关内容以及用户的搜索习惯进行挖掘和采集提高用户的检索效率,同时提高搜索引擎的准确性

13、。 6 .Web数据挖掘的发展趋势 Web数据挖掘处理的是海量数据,且数据量以指数级增长,同时所涉及的挖掘算法相当复杂。有的算法需要多次扫描数据库,当数据量增加时会增加扫描的代价;有的算法需要存储各系列的相关信息,当信息量很大时,会带来存储上的问题。与传统Web数据挖掘相比,基于云计算的Web数据挖掘通过云”中多个资源完成原来由一个节点承担的挖掘工作,使资源得到了充分利用,提高了数据挖掘的效率,因此,将云计算融入Web数据挖掘中将具有非常重要的现实意义,可以解决Internet上广域分布的海量数据挖掘问题12。通过云计算,Web数据挖掘的代价将大大降低,所以有理由相信云计算挖掘是Web数据挖掘

14、今后的趋势。 7.结束语 人类的发展离不开信息的传播和使用,在数据量急剧增长的当今社会,如何快速有效地检索有价值的信息显得更为重要,Web数据挖掘正是由于满足了这方面的需要才能获得如此迅速的发展。随着网络技术的发展以及网络用户的增加,Web数据 挖掘技术将成为重要的研究课题和方向。 参考文献 1全巧梅.云计算环境下WEB数据挖掘的研究J.信息技术与信息化,2012,05:96-99+105. 2EtzioniO.TheWorld-WideWeb:quagmireorgoldmine?J.CommunicationsoftheACM,1996,39(11:65-68. 3高华.Web挖掘技术在社

15、交网络分析的应用研究J.科技信息,2013,09:91-92. 4薛鸿民.Web数据挖掘技术研究J.现代电子技术,2006,15:99-101. 5PierrakosD,PaliourasG,PapatheodorouC,etal.Webusageminingasatoolforpersonalization:AsurveyJ.Usermodelinganduser-adaptedinteraction,2003,13(4:311-372. 6由海涌,姜达.浅谈Web数据挖掘技术的应用J.电子技术与软件工 程,2013,06:55-56. 7曹聪聪,康耀红.Web数据挖掘研究J.现代电子技术,200

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论