下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、面向的数据挖掘技术摘要随着internet的开展,eb数据挖掘有着越来越广泛的应用,eb数据挖掘是数据挖掘技术在eb信息集合上的应用。本文阐述了eb数据挖掘的定义、特点和分类,并对eb数据挖掘中使用的技术及应用前景进展了讨论。关键词数据挖掘eb挖掘途径分析电子商务一、引言近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进展探查。可以发现有用的知识,从而为决策支持提供有力的根据。eb目前已成为信息发布、交互和获取的主要工具,它是一个宏大的、分布广泛的、全球性的信息
2、效劳中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息效劳。面向eb的数据挖掘就是利用数据挖掘技术从eb文档及eb效劳中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。二、概述1.数据挖掘的根本概念数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、internet信息库以及新兴的数据仓库等。2.eb数据挖掘eb上有少量的数据信息,相对传统的数据库的数据构
3、造性很强,即其中的数据为完全构造化的数据。eb上的数据最大特点就是半构造化。所谓半构造化是相对于完全构造化的传统数据库的数据而言。由于eb的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为eb挖掘所要解决的一个难点,也使得用于eb的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的eb挖掘技术以及对eb文档进展预处理以得到关于文档的特征表示,便成为eb挖掘的重点。三、eb数据挖掘分类eb数据有三种类型,它们分别是:htl标记的eb文档数据、eb文档内的廉洁的构造数据和用户访问数据,相应地,eb数据挖掘可分为三类:内容挖掘(ebnte
4、ntining)、构造挖掘(ebstrutureining)和用户访问形式挖掘(ebusageining)。如下列图所示。1.eb内容挖掘eb内容挖掘是从文档内容或其描绘中抽取有用信息的过程,eb内容挖掘按实现方法分为两大类:信息检索ir方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的根底上进展改良。ir方法主要处理非构造数据和eb中由htl标记的半构造化数据。前者一般采用词集方法,用一组组词条来表示无构造的文本。后者主要利用传统的数据挖掘技术:如关联规那么、分类算法、演绎逻辑和规那么学习等。2.eb构造挖掘eb构造挖掘是从eb组织构造和链接关系中推导知识。挖掘页面的构造和
5、eb构造,可以用来指导对页面进展分类和聚类,找到权威页面、中心页面,从而进步检索的性能。同时还可以用来指导页面采集工作,进步采集效率。eb构造挖掘可以分为eb文档内部构造挖掘和文档问的超链接构造挖掘。eb构造挖掘的根本思想是将eb看作一个有向图,他的顶点是eb页面,页面间的超链就是图的边。然后利用图论对eb的拓扑构造进展分析。常见的算法有hits(hypertextinduedtpisearh),pagerank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。eb构造挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进展一次超链分析从而
6、进展一次值的指派;而查询独立算法那么为每个文档仅进展一次值的指派,对所有的查询都使用此值。hits和pagerank分别是查询相关算法和查询独立算法的代表。3.eb访问挖掘eb访问挖掘是从效劳器端记录的用户访问日志或从用户的阅读信息中抽取感兴趣的形式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为形式,做出预测性分析,从而改良站点的构造或为用户提供个性化的效劳。eb访问挖掘一般分为两种:一般访问形式跟踪和定制使用跟踪。一般访问形式跟踪通过分析eb日志来理解用户的访问形式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问形式为每个用户定制符合其个人特色的eb站点。eb的lg数据包括:senr
7、erlg,prxyserverlg,lient端的kielg等。eb使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据清洗和事物识别两个局部):形式识别阶段(采用统计法、机器学习等成熟技术从eb使用记录中挖掘知识):形式分析阶段(采用适宜的成熟的技术和工具进展形式的分析,从而辅助分析人员理解使采用各种工具挖掘出的形式得到很好利用)。对eb使用记录挖掘采用的算法有:途径分析、关联规那么和有字形式的发现、聚类分类等,为了进步精度,使用记录挖掘也用到站点构造和页面内容等信息。四、eb数据挖掘中的关键技术eb数据挖掘中常用的技术有eb使用的特有的途径分析技术,数据挖掘领域常用的关联规那么、
8、序列形式、分类聚类技术等。1.途径分析技术用途径分析技术进展eb数据挖掘时,最常用的是图,因为eb可以用一个有向图来表示,g=(v,e),v是页面的集合,e是页面之间的超连接集合,页面定义为图中的顶点,而页面之间的超连接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站构造图,从图中确定最频繁的访问途径。2.关联规那么挖掘技术关联规那么挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规那么,就是要挖掘出用户在一个访问期间(sessin),从效劳器上访问的页面文件之间的联络,这些页面之间可能并不存在直接的参引(riferene)关系最常用的是用ap
9、rir算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规那么挖掘出来的用户访问形式。3.序列形式挖掘技术序列形式数据挖掘就是要挖掘出交易集之间的有时间序列关系的形式它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列形式技术那么注重事务间的关系。4.聚类分类技术分类规那么可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进展分类。在eb数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问形式得出访问某一效劳器文件的用。特征。聚类技术那么是对符合某一访问规律特征的用户进展用户特征挖掘。最后进展形式分析,挖
10、掘出人们可理解的知识的形式解释。五、eb数据挖掘的应用随着中国经济的高速开展,数据挖掘将在中国形成一个产业,目前eb数据挖掘已广泛地应用于金融业、远程通讯业、政府管理、制造业、医疗效劳以及体育事业中,基于eb的数据挖掘技术已经成为一个热点,下面主要介绍eb数据挖掘的三个应用前景。1.在电子商务中的应用在电子商务中,运用eb挖掘技术从效劳器和阅读器端日志记录中自动发现隐藏在数据中的形式信息,对此进展分析加工,通过对客户进展分类和聚类,从中可得到商家用于向特定消费群体或个体进展定向营销的决策信息。理解系统的访问形式以及用户的行为形式,从而做出预测性分析。同时有效地对这些eb日志进展定量分析,提示其
11、中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问途径、频繁访问页面等,从而为企业更有效地确认目的市尝改良决策获得更大的竞争优势提供帮助。2.在搜索引擎中的应用利用eb数据挖掘技术,通过对网页内容的挖掘,可实现对网页的聚类和分类,实现网络信息的分类阅读与检索;运用网络内容挖掘技术改良关键词加权算法,进步网络信息的标引准确度,从而改善检索效果;通过对用户所使用的提问式的历史记录的分析,可以有效地进展提问扩展,进步用户的检索效率。3.在网站设计中的应用在网站建立中,使用eb挖掘通过对网站内容的挖掘,可有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;分析用户的eb访问行为,可为用户提供智能化、个性化效劳。比方,可根据客户的访问兴趣、访问频度、访问时间,动态地调整页面构造,迎合每个客户的阅读兴趣,使客户在阅读时感觉自己是网站的惟一客户;另外,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业活动融资行业营销策略方案
- 扫描探针显微镜产业链招商引资的调研报告
- 去中心化身份认证服务行业市场调研分析报告
- 园艺学行业营销策略方案
- 家用空间降温装置出租行业营销策略方案
- 装钓鱼假饵用盒市场发展前景分析及供需格局研究预测报告
- 离心压缩机产品供应链分析
- 机械式起重葫芦产品供应链分析
- 动物清洁行业经营分析报告
- 美容霜市场分析及投资价值研究报告
- 自贡市盐化工产业发展研究
- GB/T 22890.1-2024皮革柔软皮革防水性能的测定第1部分:反复线压缩法(透度计法)
- 《光伏发电工程安全预评价规程》(NBT 32039-2017)
- 从局部到整体:5G系统观-完整版
- 第4课西汉与东汉统一多民族封建国家的巩固教学设计-高中历史必修中外历史纲要上册
- 团队建设创造和谐的人际关系与文化
- 陪诊项目商业计划书
- 小学科学项目式学习教学设计与实践研究
- 供电企业作业安全风险辨识防范课件
- 烘焙实训室设计方案
- 田径大单元教学计划
评论
0/150
提交评论