




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于Web的数据挖掘技术研究 胡秀Summary:随着因特网的迅速发展,数据资源量越来越庞大,为从这些资源里迅速、准确找到需要的知识,数据挖掘技术应运而生。介绍了基于Web的数据挖掘技术,阐述了该技术的特征并分类作了介绍,对数据挖掘技术的几大研究方向作了展望。Key:Web;数据挖掘技术;XMLDOIDOI:10.11907/rjdk.143785:TP392:A :16727800(2015)0010149021 Web挖掘简述数据挖掘指从随机又模糊的庞大数据里,把那些潜在但很实用的信息、趋势或模式提取出来。被视为新兴领域的Web挖掘,实质是数据挖掘的升级版。Web信息有着极为特殊之处,这
2、样在数据挖掘上必须添加匹配的新特性。这些特性包含:在挖掘对象上,Web挖掘的数据源全部是异构的; Web文档是机器理解不到或者没有结构、半结构的语义。2 Web挖掘特性2.1 缺乏智能化理解Web中的数据的格式几乎都是HTML,与主题相关的信息往往杂乱地在Web站点的目录下散布开来。因此,必须有非常强大的一个搜索引擎,通过对关键字查找,实现对超文本位置的定位。数据格式不尽相同,必须有一个智能化的系统对自然语言陈述的数据作理解。然而,当下自然语言理解的有关技术还不成熟,所以很难对所有数据都理解到位。另外,数据源冗余或极为矛盾等问题也对此产生影响。2.2 数据源过于庞大Web对于有效的数据仓库和数
3、据挖掘而言似乎太大了1。目前在计算上,Web数据已经达到用几百兆字节来表示的地步,并朝着更大单位来表示的趋势发展,有两点特别明显:(1)动态性强。因特网时时刻刻都在变化、更新中,于是需要借用某些数据仓库技术,才能保留Web上已更新过的数据。(2)多样性。过滤后的Web数据包含4种:以实型、整型为实例的数值型;布尔型;描述数据及分类数据;邮箱地址、网址等仅为Web所有的数据型。新的数据类型有新的特征,原先的挖掘方式行不通,必须对原有方式作扩充、改进。2.3 用户目标极为模糊在基于因特网下作数据挖掘,用户往往对挖掘主题认识很粗浅,说不出特别准确的目标。因此,数据挖掘系统必须具备学习机制及智能化特征
4、,对用户的兴趣不断跟踪,才能详细、清晰地对挖掘结果做出阐述。它涵盖Web的结构、存取模式及动态查找,由此表明Web挖掘极具挑战性。3 Web挖掘分类3.1 基于内容的Web挖掘指在Web文件内容、描述信息中,取得潜在但实用的知识、模式的过程,分为文本挖掘、多媒体挖掘。(1)文本挖掘。特指对文本文档的挖掘。在Web庞大文档里,可对内容作出分类别、总结、关联性分析及趋势分析等。(2)多媒体挖掘。指对多媒体文档的挖掘,即对Web上图像、音视频预处理,利用挖掘技术对有意义的、潜在信息及模式作挖掘的一个过程。提取特征不同是多媒体与文本挖掘最不一样的地方。在挖掘时,对文件或者视频的键值表、文件名、颜色向量
5、及类型等进行提取。3.2 基于结构的Web挖掘在结构上,Web包括超链接结构、树形结构及目录路径结构等2。这样,在结构上,可用有向图对Web进行表示,有向图中点对应的是页面,有向图中边对应的是超级链接。用此方法可得到站点的主页到任一定点的最短路径,也就是用较小代价获取最多文档。(1)HITS算法。对一给定的话题进行搜索,往往不只期望获取相关联的Web页,还期望被检索出的页面质量高且具权威性。而Web不只包含页面,还包含超链接。超链接简单说就是一个页面向另一个页面指向。若作者先建立一个页面,接着又让该页面向另一页面指向,就可认为作者对另一页面持认可态度。同一页面,收集源自不同作者的不同注解,便能
6、反映此页面的重要性,而且可非常自然地用作权威页面。可是在链接结构上,Web有一定的局限:并非每个超链接都认可此寻找;商业竞争中,不可能有Web页面与自家竞争的页面指向;难有权威页面具备特别性描述。鉴于以上情形,研究者不得不提出另一种Web页面(俗名Hub页面)。一个Hub页面可代替一个或多个Web页面,提供的是集合性链接。同时,任何话题,Hub页面都向着最显眼的链接指向。(2)PageRank算法。Web超链接有下列几种假设:网页A的作者向网页B推荐;网页A、B在主题相同时,超链接便把两个网页连接;基于前两种,某页面数次被引用,说明此页面也许特别重要;某页面虽然未被数次引用,但却被某重要页面引
7、用,说明它也很重要。此算法便是针对上述4种情形做的专门研发。3.3 基于访问的Web挖掘网页点击数、浏览量、独立IP 等是显示网站访问情形的核心指标3。可细致分析网站关联的LOG文件,取得关系访问情形的详尽数据,这种挖掘归属于静态访问,这对完善网站极为有益。譬如:对访问者来源细致分析,可使网站内容更有针对性;对在不同时段访问者人数的细致分析,可依据时段来更新,这种Web挖掘利用极为广泛。不只是静态研究,动态访问研究也很热门。4 Web挖掘研究方向4.1 搜索引擎挖掘当下的搜索引擎几乎全是基于关键字,搜出的文档数量极大,高质量的内容却极少。加上某些文档跟话题是关联的,但Key:找不出来,这就使得
8、搜索结果不全面。针对这种情形,某些专家提出用概念层或多义字的办法对文档进行搜索。4.2 日志挖掘对日志文件(Web服务器)细致分析,会发现用户访问网站所用的浏览模式,这对有效改进网站提供了信息。信息包含:对系统设计作改进、对导航功能作改善等。日志挖掘有3个阶段:预处理数据;挖掘数据;分析模式。由于存在代理服务器及防火墙,使得日志数据难以准确,所以在第一阶段便必须做用户识别、数据净化、路径补充、会话识别工作。挖掘阶段指依据语义,将用户的会话作分割,形成一项项事务,利用挖掘算法,对识别结果作出规则、模式。 4.3 XML结合Web挖掘4.3.1 XML简述XML由万维网协会设计,是特别为Web应用
9、服务做的一个分支4。XML是一种典型的中介标识语言,它为结构化资料提供对应的格式。半结构化是Web数据所有特征中最显著的一点,因为只有把半结构化对应的抽取技术作为前提,才能面向Web做需求的数据挖掘。新生代的www环境把XML作为基础,它可直接面向Web 数据。一方面兼容已有的Web应用,另一方面对Web中的信息更好地交换、共享。XML可看作是半结构化下的数据模型,所以它能把属性(关系数据库)与文档描述一一对应,实施模型抽取、精确查询。4.3.2 XML应用XML已经成为正式规范5。开发时,XML格式可当作数据标记。在三层架构情况下,用XML对数据处理是最好的方法。运用XML,设计员不仅能对文
10、字、图形进行创建,还可对数据树、超链接结构、样式表、元数据等进行构建。Web数据挖掘是非常复杂的一项技术,因XML的出现,使Web挖掘中遇到的问题迎刃而解。因为XML可以让来源不同的结构化数据轻松地结合在一起,让不兼容的多样数据库搜索变成可能。由于XML具备灵活性、可扩展性,因此对不同类型应用软件中的数据XML都能描述,从而对Web中的各种数据记录也能描述;再加上XML下的数据全为自我描述,所以即使在内部描述数据完全缺乏时,处理、交换一样可实现。4.4 未来趋势目前, Web挖掘研究处于初始阶段,有价值的几大研究方向是:动态更新;Web知识库维护;内在机制研究;专注多媒体挖掘,研发出高效算法;图像、文本对应的挖掘算法(结构、半结构下);搭建自组织网站时,对序列模式、关联规则进行细致研究。Reference:1 李泽文.基于Web的数据挖掘技术J.现代计算机,2011,3(15)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中水使用合同标准文本
- 会议管理服务合同范例
- 个人债权置换合同标准文本
- 产品造型设计招标合同样本
- 企业关联咨询合同样本
- 修建农村房屋合同标准文本
- 企业门卫合同标准文本
- pos押金合同标准文本
- 丽水遮光窗帘加盟合同样本
- 产权物业转让合同标准文本
- GB/T 20424-2025重有色金属精矿产品中有害元素的限量规范
- 2025年兰考三农职业学院高职单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析
- 2025电动自行车集中充电设施第2部分:充换电服务信息交换
- 输油管道安全培训
- 2025美国急性冠脉综合征(ACS)患者管理指南解读课件
- 统编历史七年级下册(2024版)第7课-隋唐时期的科技与文化【课件】f
- 2025年河南省高校毕业生“三支一扶”招募1100人高频重点模拟试卷提升(共500题附带答案详解)
- 2025年国家林业局西北林业调查规划设计院招聘4人历年高频重点模拟试卷提升(共500题附带答案详解)
- 桥梁检测报告模板
- 2025年浪潮数字企业技术有限公司招聘笔试参考题库含答案解析
- 课时精讲14-物质的聚集状态与晶体的常识(学生版)
评论
0/150
提交评论