Web数据挖掘研究综述_第1页
Web数据挖掘研究综述_第2页
Web数据挖掘研究综述_第3页
Web数据挖掘研究综述_第4页
Web数据挖掘研究综述_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 Web数据挖掘的概念Web Mining(Web挖掘是由Oren Etzioni在1996年首先提出的1,因特网 的数据挖掘”、“We供口识发现”、网络信息挖掘”、“WebfF息挖掘”等也可以认为 是Web挖掘的同义词。一般,对Web数据挖掘做如下定义:Web数据挖掘是指 Web 从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出, 那么Web挖掘的过程就是从输入到输出的一个映射2。W e b数据挖掘是一项综合技术,是从W W W资源上抽取信息(或知识的过程, 是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多 种数据挖掘算法,从观测数据中确定模

2、式或合理模型,也是将数据挖掘技术和理论应 用于对W W W资源进行挖掘的一个新兴的研究领域3。Web挖掘研究覆盖了多 个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和 神经网络等。2 Web数据挖掘流程Web数据挖掘过程是一个完整的 KDD过程,但与传统数据和数据仓库相 比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型 Web挖掘的处理流程包括如下四个步骤:查找资源:根据挖掘目的,从Web资源中提取相关数据,构成目标数据集,Web 数据挖掘主W e b数据挖掘研究综述李

3、森1,2 胡学钢1 李正吉2(1合肥工业大学计算机与信息学院安徽合肥230009;2山东信息职业技术学院信息工程系山东潍坊 261041摘 要:随着Internet/Web技术的快速普及和迅猛发展,各种信息可以以非常 低的成本在网络上获得,如何在这些信息中找到用户真正需要的内容,成为数据组织 和Web相关领域专家学者关注的焦点。 Web数据挖掘旨在发现隐藏在 Web数据中 潜在的有用知识、提供决策支持,已经成为数据挖掘领域中新兴的研究热点。本文 综述了基于Web的数据挖掘概念、流程、主要技术及分类,分析了 Web数据挖掘的 热点研究方向。关键词:数据挖掘;Web挖掘中图分类号:TP393.09

4、文献标识码:A文章编号:1673-0968(200801-0098-03要从这些数据通信中进行数据提取。其任务是从目标 Web文档中得到数据。 值得注意的是,有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、 新闻组,或者网站的日志数据甚至是通过 Web形成的交易数据库中的数据。信息选择和预处理:从目标数据集中除去明显错误的数据和冗余的数据,进一步精简所选数据的有效部分,并将数据转换成有效形式,以使数据开采算法(包括选 取合适的模型和参数寻求感兴趣的模型。其任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从 Web文档中自动去除广告链接、去除多余 格式标记、自动识

5、别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。模式发现:对预处理后的数据进行挖掘,自动进行模式发现,从Web站点间发 现普遍的模式和规则。模式分析:对发现的模式进行解释和评估,必要时需返回前面处理中的某些步 骤以反复提取,最后将发现的知识以能理解的方式提供给用户。可以是机器自动完 成,也可以是与分析人员进行交互来完成。web数据挖掘中的主要技术W e b数据挖掘中常用的技术有 Web使用的特有的路径分析技术,数据挖掘领 域常用的关联规则、序列模式、分类聚类技术等。路径分析技术2008年第1期(总第143期山东纺织经济计算机应用98用路径分析技术进行Web数据挖掘时,最常用的是图。因为

6、Web可以用一个有 向图来表示,G=(V, E,其中:V是页面的集合,E是页面之间的超连接集合,页面定义为 图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路 径。关联规则挖掘技术关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规 则,就是要挖掘出用户在一个访问期间(Session从服务器上访问的页面/文件之间的 联系,这些页面之间可能并不存在直接的参引(Reference关系。最常用的是用 APRIOR算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖 掘出来的

7、用户访问模式。序列模式挖掘技术序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式。它与关 联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。聚类分类技术分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的 数据项进行分类。在 Web数据挖掘中,分类技术可以根据访问这些用户而得到的个 人信息或共同的访问模式,得出访问某一服务器文件的用户特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。最后进行模式分析挖掘出人 们可理解的知识的模式解释Web数据挖掘的分类W e b挖掘的对象包括一切通过

8、 W e b形成的数据,根据挖掘对象的不同,可将 Web挖掘分为 Web内容挖掘、Web结构挖掘和 Web使用挖掘4。Web 内容挖掘(Web Content MiningWeb上的信息多种多样,传统的Internet由各种类型的服务和数据源组成,包括 W W W、F T P、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、 数字图书馆、电子商务数据,以及其他各种通过 Web可以访问的数据库。Web内容挖掘是从文档内容或描述中抽取知识的过程,是对网页上真正的数据 进行挖掘包括网页内容挖掘和搜索结果挖掘。Web内容挖掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据

9、。其中针对无结构化文本进行的 Web挖掘被归类到基于文本的知识发现 (KDT领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引 起了许多研究者的关注。最近在 Web多媒体数据挖掘方面的研究成为另一个热 点。Web 结构挖掘(Web Structure MiningWeb可以看成一个以网页为节点、链接为边的图结构 ,超链接反映了网页间的 包含、引用或从属关系。W e b结构挖掘是挖掘 W e b潜在的链接结构模式。通过分析一个网页链接和 被链接数量以及对象来建立 Web自身的链接结构模式,既可以用于网页归类,并且可 以由此获得有关不同网页间相似度及关联度的信息,有助于用户找

10、到相关主题的权 威站点。在Web结构挖掘领域最著名的算法是 HITS算法和PageRank算法。它们的共 同点是使用一定方法计算 Web页面之间超连接的质量,从而得到页面的权重。著名 的Clever和Google搜索引擎就采用了该类算法。此外,Web结构挖掘另一个尝试是在 Web数据仓库环境下的挖掘,包括通过检查 同一台服务器上的本地连接衡量 Web结构挖掘Web站点的完全性,在不同的Web 数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超链接的层 次属性去探索信息流动如何影响 Web站点的设计。Web 使用挖掘(Web Usage MiningWeb使用挖掘面对的是在用户和网

11、络交互的过程中抽取出来的第二手数据,这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户 简介、注册信息、用户对话或交易信息、用户提问式等。W e b使用挖掘对用户背景和访问信息进行挖掘,以便理解和更好地服务 Web 应用需求。它通过挖掘相关的 Web日志记录,来发现用户访问 Web页面的模式,通 过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用 户,增强站点的服务竞争力。根据对数据源的不同处理方法,Web使用挖掘可以分为两类,一类是将Web使用 记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对2008年第1期(总第143期山东纺织经济

12、计算机应用99关系表中的数据进行常规挖掘;另一类是将Web使用记录的数据直接预处理再 进行挖掘。Web使用挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环 境下如何标识某个用户,如何识别属于该用户的会话和使用记录,这个问题看起来不 大,但却在很大程度上影响着挖掘质量,所以有人专门在这方面进行了研究。通常来讲,经典的数据挖掘算法都可以直接用到 Web用法挖掘上来,但为了提高 挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列 发现算法等。Web挖掘的研究热点5在未来一段时间内,Web挖掘中的以下方面可能成为研究和应用热点。高性能Web搜索引擎。尽管搜索引擎性能已

13、有了较大提高,但搜索引擎的 最终目标是 理解用户需求精确返回所需”如何翻译用户的非专业搜索请求,实现自 然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索、移动搜索和多媒体搜索等方 面的研究。Web数据的特征描述与监控。如何表示 Web文本内容的特征数据,如何表 示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤 和报警等,对于不良网站的监控等有着积极意义。Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广 泛兼容的半结构化数据模型表示网页;如何抽取动态网页中的数据;如何在分布的 Web中获取信息,如何在指定网页中快速定位所需的数据区,如何利用数据库

14、和数据 仓库技术查询和存储Web内容等。Web数据流的挖掘。Web日志、cookie、点击流等流式数据量巨大,如何 识别和过滤爬虫的访问信息;如何有效收集和处理日志以外的访问数据;如何有效标 识用户、设置用户会话时间等。安全与非法访问检测。如何评价 Web数据信息本身的可靠和安全性;如何 对Web内容、邮件、各种日志和用户访问行为的分析,识别出威胁、欺诈、入侵、 无用的数据和异常行为,从而构建安全的网络环境。个性化与安全的隐私。如何跟踪、学习和表达多变的用户兴趣及行为模式在个性化服务中过滤信息,实现商业应用,在提供个性化服务时不侵犯用户隐私等都 是亟待解决的问题。基于Web的模式分析技术和工具

15、。如何将Web挖掘的结果在浏览器中可 视化地表达包括统计、关联、聚类、分类等工具开发等。Web挖掘的算法改进与质量的评估。由于 Web数据自身的特点,使得 Web挖掘不能照搬数据挖掘的理论和技术,而需要对现有的算法等方面都进行改 进。Web挖掘算法和挖掘系统的性能通常需要大量用户的反馈、实际运行测试 ,因 而缺乏有效的评价模式。Web挖掘在社会领域的应用。Web已经是人类社会活动的一面镜子,如何 在Web中发现社会现象、问题和热点的规律,为社会学家、经济学家、教育学者提 供有价值的知识。止匕外,分布式Web挖掘、语义 Web挖掘、无线网络下的 Web挖掘、Web2.0时 代的Web挖掘、多语言

16、环境下的 W e b挖掘等是值得研究的方向。同时,Web挖掘 技术应用于具体领域的研究将持续受到关注,例如,银行证券、企业ERP、医疗卫 生、农业、电子商务、网络教学、BLOG等。6结束语Web数据挖掘是一个新兴的研究领域,已广泛地应用于金融业、远程通讯业、 政府管理、制造业、医疗服务以及体育事业中,对它的应用和研究正在成为一个热 点,并取得了一定成就;但从整体上看,目前的研究仍处于起步阶段,许多问题有待深 入研究。参考文献:Etzioni O. The World Wide Web: Quagmire or gold mine J.Communication of the ACM, 1996;39(11.2王玉珍.Web数据挖掘的分析与探索J.计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论