

下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、科技论文发表基于 Web 数据挖掘技术的研究论文互联网的不断得到发展,网页中数据量迅速增加,如何从这么多 的网页信息中获取有用的数据己经成功数据挖掘领域的一个热门的 研究方向,数据挖掘是近几年来迅速发展的进行信息获取的一个重 要渠道,尤其大量运用与社会和科学的方方面面。一般来说数据挖 掘主要利用计算机和相关的信息技术,把有用的数据从海量的网页 数据中挖掘出来,为我们从事其他方面的运用。基于网页的数据挖 掘是一门技术的综合研究方向,它的思想是从Inter中提取网页中 的大量数据,也就是从网页的数据结构中发现隐含的模式1。1)数据挖掘的特点之一就是半结构化,这个特别算是网页数据挖 掘的最大特点2,
2、因为网页上的数据分布没有规律,非常复杂,没 有任何固定的模式能够很好的描述它的特点。因此称它为半结构 化。2)数据挖掘的特点之二是网页中的数据比较分散,这些网页数 据存在世界各地的很多服务器上,因此是一种数据源分散的结构。3)数据挖掘的特点之三是数据库的结构存在不同,因为互联网 上的一个网站可以存为一个数据源,它们的结构互不相关,异构性 特点比较强,由它们构成的数据库自然而然也属于一种异构的形 式。4)数据挖掘的特点之四是动态性强,网站上的数据资源是不断 更新变化的,找不到固定的形式,网站与网站的直接访问的链接是 形式变化的。基于Web的数据挖掘与传统的数据仓库相比,网页上的信息是半 结构化的
3、或非结构化、不容易识别、变化的,正因为它这些特点, 要想在网页上开展直接数据挖掘,可谓很费功夫,就要借助一些方 法来预处理数据,才能方便挖掘。通常进行网页数据挖掘可分为的 如图1所示的四个步奏。1)数据源的获取,在网站的各个页面中获取数据信息,组成目标 数据信息源,再从这些信息源中找到相关有用的数据。这个过程的 目的就是从像网页文档、email.网页记录、新闻信息、各种网站数 据库中挖掘出有用的数据。2)把获取的数据进行加工处理,网页数据挖掘的好坏直接与数据 源的好坏相关,如果获取的数据源有大量的垃圾数据,对数据挖掘 过程有很大的影响,因此挖掘之前需要对数据源进行筛选,消除那 些杂音数据,保证
4、数据源的纯正,然后将这些己经过滤的数据再次 装入数据库中进行下一步的分析。3)对数据经过提纯处理后,进入模式寻找阶段,这需要各种挖掘 算法分析、挖掘大量的、隐藏的、潜在的、可被利用的数据模式。 在挖掘的过程中,经常会使用到一些相关的方法,例如聚类分析 法、关联规则发等挖掘方法。4)在对数据模式发现后,需要对这些模式进行挖掘,也就是知识 的转换过程,把提取到的模式再进行信息转化,转化为我们能够理 解,识别的知识,为我们的决策需要提供有用的参考源。在进行数据挖掘的时候,针对不同的数据结构,会采用不同的挖 掘方法,这样才能有效、合理挖掘到有用的数据,不能笼统采用一 种方法,这样挖掘的数据相应的杂音数
5、据就比较多。大体上,我们 把数据挖掘分为三种类型,即:网页使用挖掘、网页结构挖掘、网 页内容挖3,如图2所示。互联网的发展促进网页数据挖掘得到越来越多的应用,于是针对 网页挖掘的各种方法和技术不断出现,就这些相关的技术4,下面 分别一一介绍。4. 1网页内容挖掘4. 1. 1网页文档挖掘网页文档挖掘就是分析网站上存在的数量很多的网页文档采用聚 类、分类、关联处理等多种方法进行分析,然后根据网页文档进行 预测。在Inter的文档数据一般都是以html格式的网页文档岀现, 要采集这些网页文档数据,然后把这些文档数据变成记录的形式存 贮进数据库,把这些记录用来表示文档内容特征,为后续的分析提 供保障
6、。表示文档的特征形式通常使用文档特征向量形式,由于文 档的特征表示中存在一些缺陷,文档的特征向量的维数非常高,对 数据分析不利,因此一个好特征表示主要集中在特征集的选取方 而,特征集需求好,对数据进行分析的时间就相对少,如果选取不 好, 将要花很长时间去等待。 因此特征集选取好坏成为数据分析额 关键。一旦特征集选择好后,就可以采用聚类、分类、数据关联等 方法来进行提取信息,然后对这些提取的信息进行评价分析,找到 有用的信息,为后续的决策工作提供指导。4. 1.2挖掘网页多媒体在进行网页多媒体挖掘主要关注的是特征提取,这点网页内容挖 掘不一样。在网页多媒体挖掘中提取的多媒体特征主要关注视频或 者图片的颜色特征、键值、形式以及它们的URL,最后根据这些特 征进行数据挖掘。4. 2挖掘网页结构挖掘网站空间中的知识,不仅关注包含在各个网页内容中的信息 数据,同时也关注网站与网站之间的网页结构和超级链接结构,这 也是非常重要的。进行网页结构挖掘主要分析网页结构之间的特 征,利用聚类和分类来分析页而结构特征,找到特征模式。4.3网页使用挖掘木文介绍了网页数据挖掘的相关概念、挖掘过程、分类方法以及
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子竞技活动承包合同
- 仓库租赁协议解除流程
- 铁路旅客运输服务铁路客运服务补救课件
- 2025年广西高考数学适应性试卷(4月份)(含答案)
- 保姆与家长的互动频率协议
- 铁路桥隧无损检测任务一检测意义方法及原理23课件
- 铁路调车综合实训调车手信号课件
- 铁路运输市场营销宏观环境分析课件
- 中国人的脸课件
- 中国上课课件
- 期中(试题)-2024-2025学年人教精通版(2024)英语三年级下册
- 2025-2030中国煤焦油杂酚油行业市场发展趋势与前景展望战略研究报告
- 防洪防汛安全教育知识培训
- 2020-2025年中国辽宁省风力发电行业发展潜力分析及投资方向研究报告
- GB 15269-2025雪茄烟
- 规模养殖场十项管理制度
- 2025航天知识竞赛考试题库(含答案)
- 2025中考英语热点话题阅读《哪吒2魔童闹海》
- 劳务派遣劳务外包项目方案投标文件(技术方案)
- 疟疾2025培训课件
- 流行性感冒诊疗方案(2025版)解读课件
评论
0/150
提交评论