




已阅读5页,还剩55页未读, 继续免费阅读
(计算机软件与理论专业论文)一种商业智能中的olap与客户数据挖掘方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工稃大学硕十学付论文 摘要 商业经济的未来发展模式是以客户为中心的面向服务的运营模式 其核 心是完善的服务保障体系和高效的经营管理策略 其中 w e b 日志分析和挖掘 就是通过了解w e b 浏览用户的兴趣 来改善服务质量的一种商业智能的应用 本文将x m l 应用到o l a p 中 并针对w e b 日志的分析和挖掘进行研究 主要做了 如下几方面的工作 1 分析t x m l 在数据描述方面的优势 结合这些优势介绍x m l 在o l a p 系统 中的一些应用 2 提出一个基于x m l 的o l a p 和数据挖掘过程 该过程考虑了异构数据源的 集成 使用基于x m l 的数据立方体 o l a p 系统与数据挖掘系统协同工作 并通 过i n t e r n e t 发布分析和挖掘结果 3 具体分析了基于x m l 的o l a p 和数据挖掘过程所涉及的关键技术 如基于 x m l 的异构数据源集成的方法 引入了一种专门针对x m l 的多维表达式 用它 构建数据立方体和进行多维查询 并介绍了使用x m l 描述w e b 日志立方体的具 体方法 4 提出一种基于用户对网页分类的兴趣度来对用户聚类的方法 忽略用 户对个别网页的点击量 并根据网页内容和深度设定网页的权重 可以理解 为按用户宏观兴趣来聚类 最后通过实例 分析了这种方法与传统方法的区 别 本文所做的研究工作 为基于x m l 的o l a p 和数据挖掘系统的研究 和它 在w e b 日志分析和挖掘中的应用 以及w e b 日志聚类的研究 提供了一定的 参考价值 关键词 商业智能 o l a p 数据挖掘 w e b 日志 聚类 哈尔滨t 程大学硕士学位论文 a b s t r a c t h lt h ef u t u r e t h ed e v e l o p m e n tp a t t e r no fc o t l r g e r c ee c o n o m yi sab u s i n e s s p a t t e r nw h i c ht a k e sc u s t o m e ra sc e n t e ra n di ss e r v i c eo r i e n t e d t h i sp a t t e r n sc o r e i sp e r f e c ts e r v i c ee n s u r e ss y s t e ma n dh i g h e 丘b c tm a n a g e m e n tc o n t r o l s t r a t e g y w e b l o ga n a l y s i sa n dm i n i n gi s 柚a p p l i c a t i o no fb u s i n e s si n t e l l i g e n c ew h o s e p u r p o s e i st o i m p r o v es e r v i c eq u a l i t yt h r o u g hu n d e r s t a n d i n gw e bb r o w s e r s i n t e r e s t t h i sd i s s e r t a t i o na p p l i e sx m li no l a p a i m i n ga ta n a l y s i sa n dm i n i n g w e b l o g t h e r ea r es e v e r a la s p e c t st h i sd i s s e r t a t i o nd o e sa sf a l l o w s 1 t h i sd i s s e r t a t i o nh a sa n a l y z e dt h ea d v a n t a g e so fd a t ad e s c r i p r i o r iw i t h x m la n di n t r o d u c e ds o m e a p p l i c a t i o n so f x m l i no l a p s y s t e m 2 ap r o c e s so fo l a pa n dd a t am i n i n gb a s e do nx m li sp r o p o s e d t h i s p r o c e s st a k e si s o m e r o u sd a t as o u r c ei n t e g r a t i o ni n t oa c c o u n ta n dn s ed a t ac u b e w i t hx m l i nt h i sp r o c e s s o l a ps y s t e ma n dd a t am i n i n gs y s t e ma s s o c i a t e a n d t h er e s u l to f a n a l y s i sa n dm i n i n gi sr e l e a s e dw i t hi n t e m e t 3 t h i sd i s s e r t a t i o nh a sa n a l y z e dc o n c r e t e l yt h et e c h n o l o g i e si n v o l v e di nt h e p r o c e s so fo l a p a n dd a t am i n i n gb a s e do nx m l s u c ha si s o m e r o u sd a t as o u r c e i n t e g r a t i o nb a s e do nx m l h a si n t r o d u c e da m u l t i d i m e n s i o ne x p r e s s i o nb a s e do n x m l w h i c hi su s e dt oc o n s t r u c td a t ac u b ea n dm u l t i s e l e c t i o n h a si n t r o d u c e d t h em e t h o do f d e s c r i b i n gw e b l o gw i t hx m l 4 am e t h o dw h i c hm a k e su s e r sc l u s t e r i n gw i t ht h er a t eo fi n t e r e s to fu s g r s t o w a r dw e bp a g ec l a s s e si sp r o p o s e d t h i sm e t h o di g n o r e st h eh i t sa m o u n t s s e t w e b p a g ew e i g h tw i t hi t sc o n t e n ta n dd e p t h i tc a nb ec o n s i d e r e da sa m e t h o d l r i t h n s e r s m a c r oi n t e r e s t a tl a s t t h i sd i s s e r t a t i o na n a l y z e dt h ed i f f e r e n c eb e t w e e nt h i s m e t h o da n dt r a d i t i o n a lo n e s t h er e s e a r c hd o n eb yt h i sd i s s e r t a t i o n h a v ep r o v i d e dc e r t a i nr e f e r e n c ev a l u e f o rt h er e s e a r c ho fo l a pb a s e do nx m la n di t sa p p l i c a t i o ni nw e bl o ga n a l y s i s a n dm i n i n g a n dt h er e s e a r c ho f w e b l o gc l u s t e r i n g 哈尔滨t 程大学硕十学位论文 k e y w o r d s b u s i n e s si n t e l l i g e n c e o l a p d a t am i n i n g w e b l o g c l u s t e r i n g 哈尔滨工程大学 学位论文原创性声明 本人郑重声明 本论文的所有工作 是在导师的 指导下 由作者本人独立完成的 有关观点 方法 数据和文献的引用已在文中指出 并与参考文献相对 应 除文中已注明引用的内容外 本论文不包含任何 其他个人或集体已经公开发表的作品成果 对本文的 研究做出重要贡献的个人和集体 均已在文中以明确 方式标明 本人完全意识到本声明的法律结果由本人 承担 作者 签字 蕴鑫 日期 加7 年j 月 哈尔滨工程大学硕士学位论文 1 1 引言 第1 章绪论 近1 5 年来 全球竞争加上信息化使得世界各国从工业经济走向信息经济 信息化的浪潮正在世界各地 各行各业掀起 信息化的层次也在不断演进 从m r p m r pi i e r p 到c r m 从数据仓库到数据挖掘 每一次变革都极大地推 动着企业信息化的升级和企业管理水平的提高 然而 一直以来 很多行业 的信息化都集中在前端的数据搜集方面 随着企业信息技术的不断发展 企 业已积累了大量的业务数据 有研究表明 平均每1 8 个月信息量就翻一番 但能分析的数据究竟有多少呢 i b m 研究人员发现 只有7 的数据为企业在 做战略决策时所采用 如何将大量的数据转换为可靠的信息以挖掘潜在的商 机 降低公司的运作成本 已成为人们越来越关注的问题 由此 商业智能 b u s i n e s si n t e l l i g e n c e 简称b i 技术应运而生 可以说 近年来商业智 能逐渐成为热点是企业信息化发展到一定程度的必然结果 在信息社会数字化环境下 企业的发展和管理水平取决于企业信息体系 的建设和信息处理的水平 尤其是要将商业的营销管理 供应链管理 客户 关系管理 商业企业的内部管理 资本运作等一系列管理融合在一起 从整 体上进行企业的管理和决策 商业智能决策支持系统是把人工智能 a i 决策支持系统 d s s 数据挖掘 d m 和w e b 等技术与传统的商场计算机管 理系统结合起来 实现商业管理的集成化 智能化 网络化和协调化 使商 业智能的决策者可以很容易地访问丰富的数据 进行查询和分析等工作 它 引入一个可选择的廉价机制 使数据服务于每一个需要它的人 从而改变企 业的决策方式 提高企业的市场竞争能力 商业智能中联机分析处理 o l a p 技术的产生 使得用户可以方便地对 数据仓库中的海量数据进行操作 经过统计分析 屏蔽了具体的数据细节 有利于决策的制定 x m l 作为w 3 g 指定的一组规范 在多维数据描述方面有诸 多优势 本文将针对x m l 在o l a p 中的具体应用 结合w e b 日志分析挖掘展开讨 哈尔滨t 稃大学硕士学付论文 论 随着w e b 在信息共享 电子商务和提供在线服务方面的广泛应用 许多 企业投入大量资金建立自己的网站用于发布信息 或在别人的网站上为自己 的产品和服务作广告 或在网上开展电子商务活动 它们迫切需要了解这些 投资产生的效益和作用 以便改进企业的策略 获取更多的商业机会 为网 页浏览用户提供更优质的个性化服务 因此 理解用户的行为对这些企业来 说至关重要 w e b 日志挖掘就是基于这方面的应用 如何根据用户的点击行 为 按照用户对业务 产品等方面的兴趣对用户进行聚类 也是本文的研究 内容之一 1 2 相关技术的研究现状 1 2 1 联机分析处理 o l a p 的研究现状 o l a p 技术在数据分析和决策方面为用户和数据分析 j i i q j 提供了良好的服 务m 它使数据分析师 管理人员和执行人员能够通过快速 一致 交互地从 多个方面访问数据来获取蕴藏在数据中的知识和规律 它具有快速性 可分 析性和多维性等特性 o l a p 技术的研究和应用已经成为数据处理领域一个新 的热点 目前对o l a p 的研究有以下新的动态 i o l a p 技术与d a t am i n i n g w e b 集成 o l a p 技术和数据挖掘技术存在诸多不同 但均属于数据分析技术 在对 数据的分析过程中可以互相结合 互为补充 o l a p 是一种浅层次的知识发现 和一种广义的数据挖掘方法 目的是简化数据分析过程 提高系统响应的服 务质量 数据挖掘是在较深层次上从积累的数据中发现前所未知 隐含的知 识 并尽可能使这一过程自动化 鉴于两者的互补性 产生了o l a m o n l i n e a n a l y s i sm i n i n g 的概念 文献 2 对o l a m 和基于w e b 的o l a m 的发展动力 体 系结构作了详细的分析 文献 3 则提出基于影响域的o l a m 模型 加强了分析 决策的功能和灵活性 加拿大s i m o n 大学教授j i a w e ih a n 等在数据立方体的基 础上提出多维数据挖掘的概念n 对于基于c s 结构的o l a p 系统 由于系统管理员需要安装和维护客户端软 件 而当用户需要修改分析报告时 需要对客户端软件进行修改 这就增加 2 哈尔滨工稃大学硕士学位论文 了出现客户端分析报告不一致性的可能 同时 这种结构不适用于很多客户 机的情况 采用b s 三层结构将克服以上缺点 基于i n t e r n e t i n t r a n e t 的结 构具有很大的灵活性 这种结构的优点在于将应用逻辑 用户界面及数据库 管理系统严格区分开来 复杂的应用逻辑不是分布于客户端上 而是集中存 放在0 l a p 服务器上 由服务器提供高效的数据存取和分析预处理 文献 5 针对c s 结构的o l a p 系统在体系结构上的不足之处 设计和实现t w e b 环境的 o l a p 查询工具e a s yq u e r y 文献 6 探讨了i n t e r n e t 环境下 在传统多维数据 模型中引入空间维度 度量中指向空间聚合结构的空间数据索引及其空间算 子集合 从而构造出空间多维数据模型 2 分布式o l a p 技术 d o l a p 分布式o l a p 技术是在o l a p 技术在分布式数据仓库上的应用 企业仓库型 数据仓库就是通过企业数据仓库来为知识工程师提供信息服务 数据集市是 企业数据仓库的子集 其范围限定于特定的主题 它可以在部门服务器上实 现 这大大降低了数据仓库建立所需的时间和费用 分布性就是把各个部门 所建立的数据及时有效的整合起来 例如文献 7 设计并实现了具有多个o l a p 服务器并行处理的多维数据分析系统 具有占用存储空间少 处理时间短等 优点 文献 8 研究在具有层次化组织特点的集团企业中 为集团总部构建 o l a p 系统以支持总部的管理者面向整个集团范围的各类决策活动 3 0 l a p 与高级数据库技术的结合 随着数据库技术的发展 涌现出了针对不同数据类型的数据库系统 如 面向对象数据库 空间数据库 多媒体数据库等 它们通常结构复杂 研究 针对不同的高级数据库的o l a p 是一个新的热点 例如文献 9 提出了一个空 间数据立方体与空间索引结构互相协作的空间数据仓库模型 实现了空间维 及时间维的聚类信息和层次关系 随着o l a p 在w e b 环境下应用的增多 出现了基于x m l 的o l a p 的研究 国外 如文献 1 0 构建了一种基于层次的集成 m l 数据的架构 提出了一个使用u m l 雪花视图的多维模型 描述了当在x m l 数据之上设计o l a p 数据库时是如何处理 的 国内如文献 1 1 提出了在x m l 数据和数据仓库中的数据立方体之间建立映 射的方法 并给出了基于x m l 的数据立方体的代数 文献 1 2 研究了x m l 数据 立方体的在操作方面的扩展 文献 1 3 讨论了基于x m l 的o l a p 信息发布方法 3 哈尔滨丁稃大学硕十学付论文 1 2 2w e b 日志挖掘的研究现状 用户在网站上的活动隐含了他们的需求和兴趣 如果对用户的行为加以 分析 就有可能发现一些潜在的规律 目前国内外w e b 日志挖掘的研究大致可 分为以下3 类n 1 以分析w e b 站点性能为目标 主要从统计学的角度 对日志数据进行简单的统计 得到用户频繁访问 页面 单位时间访问数 访问数量随时问分布图等 绝大多数商用及免费的 w e b 日志分析工具都属于此类 2 以理解用户意图为目标 提供个性化的服务 w e b 个性化 是指网站根据用户的要求为其提供一对一的服务m 所谓路 径预测 就是试图猜测用户在寻找什么信息并帮助他更快地找到 例如c h e n t m 等提出了路径游历模式 p a t ht r a v e r s a lp a t t e r n 的发现算法 文献 1 7 3 在类a p r i o r i 算法的基础上 给出一种基于粗糙集的用户访问模式聚类方法 利用关联规则挖掘技术来预测用户的浏览模式在网页个性化研究领域引起了 多方面的关注 如文献 1 9 将聚类分析的方法结合关联规则推荐算法 应 用于w e b 日志文件的挖掘 3 以改进w e b 站点设计为目标 通过挖掘用户的频繁访问路径 重构站点页面之间的链接关系 以更适 应用户的访问习惯 同时为用户提供个性化的信息服务 例如文献 2 0 为用 户动态调整网站结构 页面内容和外观 使其更加符合用户的偏好和信息需 求 减轻用户搜索和过滤海量信息的负担 企业除了希望了解具体客户的兴趣趋向外 也希望将用户按照兴趣分类 根据不同的类别以采取不同的客户关系管理方案 于是在进行w e b 日志挖掘中 涉及用户聚类的研究 如文献 2 13 提出基于用户访问路径以及节点高度的相 似性评价函数 建立相似矩阵 文献 2 2 提出了k p a t h s 路径聚类方法 用于 聚类用户访问w e b 站点的路径 该方法着重考虑了用户对站点的访问路径所代 表的用户访问兴趣 文献 2 3 提出一种基于网页模糊聚类 计算用户兴趣度 的方法 文献 2 4 提出一种在用户兴趣空间中进行w e b 页面聚类的算法 4 哈尔滨t 程大学硕士学何论文 1 3 课题提出的背景及意义 随着网络技术的不断发展 商业智能越来越多地与w e b 相结合 而 i n t e r n e t 上海量的数据对o l a p 和数据挖掘提出了越来越高的要求 各种异构 数据源的集成也成为一大挑战 x m l 技术的兴起 对诸如异构数据源的集成以 及多维数据的存储等问题提供了有效的解决方案 那么 如何将x m l 在o l a p 系统中真正发挥其应有的作用 并将其应用于解决实际问题 是有重要意义 的 为了了解网页浏览用户的兴趣所在 对w e b 日志的分析从它产生开始就一 直没有停止过 国内外都作了大量研究 其中有对用户访问序列识别的研究 也有对用户兴趣的分析 目的大多是能够为用户提供更准确高效的个性化服 务 对聚类算法的研究进行得如火如荼 但是针对w e b 日志这一具体问题 如 何利用现有的聚类算法 得到更好的分析效果 也是研究的重点 这也正是 本文研究的问题之一 1 4 本文研究工作及文章结构 本文所做的研究工作主要有以下一些方面 1 介绍了商业智能中的两个关键技术 o l a p 和数据挖掘的相关概念 2 分析了x m l 的 些优点 讨论了它在o l a p 系统中的应用以及表现出来的 优势 3 在前人研究的基础上 提出了一种基于x m l 的o l a p 和数据挖掘过程 它 支持b s 结构的应用 使用x m l 表示数据立方体 4 引入了一种专门针对x m l 数据的多维描述表达式 通过它创建基于x m l 的数据立方体和查询 并给出了w e b 日志多维数据的星型模型表示方法 论述 了w e b 日志数据立方体的x m l 描述方法 5 提出一种基于用户对网页分类的兴趣度来对用户聚类的方法 该方法 忽略用户对个别网页的点击量 根据网页内容和深度制定网页的权重 并进 行了实例分析 本文结构如下 第1 章分析o l a p 技术和w e b 日志挖掘的研究现状 以及它们目前的研究 哈尔滨t 程大学硕 学付论文 热点 并给出了本文的研究意义 第2 章主要介绍了数据仓库和0 l a p 的相关概念 第3 章介绍基于x m l 的联机分析挖掘 如x m l 的多维模型 数据立方体 的x m l 描述方法等 第4 章是w e b 日志联机分析挖掘 结合x m l 给出了具体的算法过程 并 提出了一种基于用户对网页分类的兴趣度来对用户聚类的方法 6 哈尔滨 t 程大学硕十学位论文 第2 章商业智能中的联机分析处理和数据挖掘 2 1 商业智能的概念 商业智能最早由g a r t n e rg r o u p 的h o w a r dd r e s n e r 在1 9 8 9 年首次提出 是构筑在企业业务系统基础之上 以知识获取和共享为目的的解决方案 它 通过对企业内外数据的整合 分析 提取出有价值的信息 帮助用户在加强 管理 促进营销和企业发展方面做出及时 正确 科学的决策 并分析 发 现和把握新的商机 作为一种新兴的决策支持体系 商业智能与传统的e i s e x e c u t i v ei n f o r m a t i o ns y s t e m d s s d e c i s i o ns u p p o r ts y s t e m s 相 比 主要区别之一是用户不再仅仅局限于企业的领导和决策 分析人员 而 是扩展到企业组织内外的各类人员 这里既有企业经理一类的高层决策者 又有企业内部各部门的职能人员 还包括客户 供应商 合作伙伴等企业外 界用户 商业智能系统不但能为企业管理者提供决策支持服务 更具有e i s d s s 所不具备的强大的数据管理 数据分析与知识发现能力 商业智能的技术体 系主要由数据仓库 联机分析处理 数据挖掘以及企业信息门户等几部分组 成 融知识发现 知识管理和决策支持于一体 可以在现有i t 基础设施上 整合企业数据资源 为用户提供创新应用和服务 帮助企业做出正确 明智 的业务经营决策 本章将重点介绍商业智能的两大支撑技术 o l a p 和数据 挖掘的相关概念 2 2 联机分析处理简介 2 2 1 联机分析处理的概念和由来 联机分析处理的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出 的 当时 c o d d 认为联机事务处理 o l t p 已不能满足终端用户对数据库查 询分析的需要 s q l 对大数据库进行的简单查询也不能满足用户分析的需求 用户的决策分析需要对关系数据库进行大量计算才能得到结果 而查询的结 7 哈尔滨 r 稃大学硕十宁何论文 果并不能满足决策者提出的需求 因此c o d d 提出了多维数据库和多维分析的 概念 即0 l a p o l a p 与o l t p 的区别见表2 1 根据o l a p 产品的实际应用 情况和用户对o l a p 产品的需求 人们提出了一种对0 l a p 更简单明确的定义 即共享多维信息的快速分析 0 l a p 主要有以下一些特点m 快速性 用户对o l a p 的快速反应能力有很高的要求 系统应能在5 秒内 对用户的大部分分析要求做出反应 这也是0 l a p 的一个显著的特点 可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析 用户无需编程就可以定义新的专门计算 将其作为分析的一部分 并以用户 理想的方式给出报告 用户可以在o l a p 平台上进行数据分析 也可以连接到 其它外部分析工具上 如时间序列分析工具 成本分配工具 意外报警 数 据开采等 多维性 多维性是o l a p 的关键属性 系统必须提供对数据分析的多维视 图和分析 包括对层次维和多重层次维的完全支持 事实上 多维分析是分 析企业数据最有效的方法 是o l a p 的灵魂 信息性 不论数据量有多大 也不管数据存储在何处 o l a p 系统应能及 时获得信息 并且管理大容量信息 这里有许多因素需要考虑 如数据的可 复制性 可利用的磁盘空间 o l a p 产品的性能及与数据仓库的结合度等 共享性 在大量的用户群中共享潜在的数据是实现安全需求的需要 表2 1o l a p 与o l t p 的区别 o l a po l t p 面向性面向市场 面向顾客 数据特点 汇总 数据量大琐碎 数据量少 数据库设计星型 雪花模型 面向主题 e r 模型 面向应用 实时性要求较低 高 并发性要求低 高 2 2 2 联机分析处理的数据组织方式 根据o l a p 服务器端的不同数据组织方式 将o l a p 分为多维o l a p m o l a p 哈尔 箕1 程丈学硕十宁 奇论文 m u l t i d i m e n s i o n a lo l a p 关系型o l a p r o l a p r e l a t i o n a lo l a p 和混合 型o l a p h o l a p h y b r i do l a p 1 多维o l a p m o l a p 是指o l a p 数据存储在多维数据库上 数据以多维方式存储 能够 高效地存储和处理多维数据 在m o l a p 的结构中 分散在企业内部各o l t p 数据库中的数据经过提取 清洁 转换等步骤后提交给多维数据库 如d b 这些数据在存入多维数据库时 将根据它们所属于的维进行一系列的预处理 操作 计算和合并 并把结果按一定的层次结构存入多维数据库中 旦 这些预处理完成后 多维数据库就可以使用了 用户通过客户端应用软件的 界面给o l a p 服务器递交分析需求 再由o l a p 服务器检索多维数据库以得到 结果并返回给用户 m o l a p 的优点是存储空间开销较低 数据访问的速度较快 能更好地满 足o l a p 快速性的要求m m o l a p 的物理存储方式和其逻辑组织是十分相似的 而且此类产品中还 会提供大量的统计和数学函数 可视化工具和报表生成工具 2 关系o l a p r o l a p 是指o l a p 数据存储在关系数据库之上 功能上与m o l a p 类似 目 前此类产品是三种产品中最成熟的 因为它本身有一套完备的关系数据库理 论作为基础 使它可通过二维的关系表来创建多维视图 而且提供强大的s q l 查询工具来支持复杂的多维分析 r o l a p 的主要优点是它的灵活性强 用户可以动态定义统计或计算方式 缺点是它对用户的分析请求处理的时间要比m o l a p 长 3 混合o l a p 由于m o l a p 和r o l a p 有着各自的优点和缺点 而它们的结构却迥然不同 为了将两种结构的优点结合起来 一个新的o l a p 结构 混合型o l a p 被提 出 h o l a p 结构不是m o l a p 与r o l a p 结构的简单组合 而是这两种结构技术 优点的有机结合 能满足用户各种复杂的分析请求 一个真正的h o l a p 系统 应能遵循以下几条准则 维度能够被动态更新 不但可以提供对数据的实时 存取 还可以根据不断变化的结构对维数进行更新 可根据r d b m s 的元数据 9 哈尔滨t 桴大学硕十学俯论文 产生多维视图 可利用r d b m s 的元数据来构建多维模型并可以利用元数据方 便快捷地更改多维视图 减少开发和维护人员的工作量 可以快速存取各种 级别的汇总数据 可适应大数据量数据的分析 可以方便地对计算和汇总算 法进行维护和修改 实现h o l a p 结构的方法一般有三种 但如今被认为比较理想的方法就是 利用一个多维数据库存储高级别的综合数据同时用关系型数据库管理系统 r d b m s 存储细节数据 它的具体作法是用星型结构建立起以关系数据库表 示和存取的多维数据库 作为o l a p 的主要数据源 这部分数据主要为综合数 据 细节数据仍以关系数据库为基础 充分利用r d b m s 的各种技术 联合其 它的分析报表工具 实现o l a p 的功能 这种方法结合了m o l a p 和r o l a p 的 优点 在这种方法中 客户端用户提交一个分析请求 由系统透明地从b l d d b 中提取经过综合的数据或从r d b m s 中提取细节数据 2 2 3 数据立方体 数据立方体是o l a p 中的一个核心概念 它是一类多维矩阵 让用户从多 个角度探索和分析数据集 当试图从一堆数据中提取信息时 需要工具来找 到那些有关联的和重要的信息 以及探讨不同的情景 一份报告 不管是印 在纸上还是出现在屏幕上 都是数据的二维表示 是行和列构成的表格 在 只有两个考虑因素时这就足矣 但在真实世界中常常需要更强大的工具 数据立方体是二维表格的多维扩展 如同几何学中立方体是正方形的三 维扩展一样 它是多维数据库的基本结构 并作为在多维数据库上定义的操 作符输出输入的基本单位 将它定义为一个4 元组 d m a f 这4 个 元素分别表示立方体的特征 1 d d l d 2 d n 是1 3 个维的集合 其中d i 1 i n 为从域中抽取 的维名 2 m 一 m 1 m 2 m k 是k 个度量的集合 其中每个m i 1 i k 为从 域中抽取的度量名 3 a a l a 2 a t 是t 个属性的集合 其中每个a i 1 i t 为从 域中抽取的属性名 4 f 是一对多映射f d a 即每个维存在一个对应的属性集合 与不同 1 0 哈尔滨1 程大学硕七学位论文 维对应的属性集互不相交 结合本文要分析的w e b 日志数据 建立一个用户 点击量 数据立方体 来记录多个因素下点击量的情况 1 假设要考察用户对各个网页的兴趣情况 则所关心的可以是点击量和 浏览时间这两个度量 那么m 点击量 浏览时间 2 为方便此立方体的可视化 用三个维度来分析 即 日期 网页 和 地区 如人们习惯问这样的问题 网页p l 在2 0 0 5 年的点击量有多少 用网页维和时间维来询问 或 在一定时间内 网页p 1 在华北地区的点 击量总共有多少 用全部三个维度询问 于是对 点击量 立方体来说 d 日期 网页 地区 3 日期 维是用属性日 月和年来描述的 网页 维是用u r l 版 本和最后修改时间来描述的 地区维是用城市 省份和地区来描述的 于是 对 点击量 立方体而言 a 日 月 年 u r l 版本 最后修改时间 城 市 省 地区 p l p 2 p 3 黑龙江山东 江苏 2 0 舛 a 3 城市 d 3 地区 图2 1 w e b 点击量 立方体 4 对 点击量 立方体而言 映射f 为 f 时间 日 月 年 f 网页 u r l 版本 最后修改时间 f 地区 城市 省 地区 缸 年 d 1 时问 哈尔滨 程大学硕十学伊论文 同时注意到上面的三个属性集合是互不相交的 点击量 立方体如图 2 1 所示 2 3 数据挖掘的简介 2 3 1 数据挖掘的概念 数据挖掘 d a t am i n i n g 一词是在1 9 8 9 年8 月于美国底特律市召开的 第十一届国际联合人工智能学术会议上正式形成的 常常与k d d k n o w l e d g e d i s c o v e r yi nd a t a b a s e 混用 从1 9 9 5 年开始 每年主办一次k d d 国际学 术会议 将k d d 和d m 方面的研究推向了高潮 从此 数据挖掘 一词开始 流行 数据挖掘是数据库技术 人工智能 机器学习和统计学等学科相结合的 产物 简单地说 数据挖掘是从大量数据中提取或 挖掘 知识 一种比较 公认的定义是 数据挖掘是指从数据库的大量数据中揭示出隐含的 先前未 知的 潜在有用的信息的非平凡过程 它是由w j f r a w l e y 等人提出的m 数据挖掘的任务是从数据中发现模式 根据模式的实际作用将数据挖掘 模型细分为5 种w i 分类模式 分类模式是一个分类函数 分类器 能够把数据集中的数据映射到某 个给定的类上 分类模式往往表现为一棵分类树 根据数据的值从数根开始 搜索 沿着数据满足的分支往上走 走到树叶即可确定类别 2 回归模式 回归模式的函数定义与分类模式相似 差别在于前者的预测值是连续的 而后者是离散的 如给出某种动物的特征 可以用分类模式判定这种动物是 哺乳动物还是鸟类 给出某个人的教育情况和工作经验 可以用回归模式判 定这个人的年工资范围 3 时间序列模式 时间序列模式根据数据随时间变化的趋势预测将来的值 要考虑到时间 的特殊性质 如一些周期性的时间定义 星期 月及年等 不同的日期 如节假曰可能造成的影响 日期本身的计算方法 以及一些需要特殊考虑之 1 2 哈尔滨t 程大学硕十学位论文 处 如时间前后的相关性 过去事情对将来的影响 等 4 聚类模式 聚类模式把数据划分到不同的组中 组之间的差别尽可能大 组内的差 别尽可能小 与分类模式不同 聚类前并不知道将要划分的组的数量和类型 也不知道根据哪几个数据项来定义组 聚类的这一过程中没有任何关于分类 的先验知识 没有教师指导 仅靠事物间的相似性作为类属划分的准则 因 此属于无监督分类的范畴m t 5 关联模式 关联模式是发现大量数据中项集之间有趣的关联或相关联系 例如购物 篮分析 关联模式有助于发现交易数据库中不同商品之间的联系 找出顾客 购买行为模式 如购买了某一商品对购买其它商品的影响 2 3 2 模糊聚类算法 传统的聚类分析是一种硬划分 它把每个待辨识的对象严格地划分到每 个类中 具有非此即彼的性质 因此这种分类的类别界限是分明的 而实际 上大多数对象并没有严格的属性 它们在形态和类属方面存在着中介性 适 合进行软划分 下面对模糊等价矩阵动态聚类法作一下简单介绍 设被分类对象的集合为u u 2 每一个对象i 1 t 有m 个特性指标 反映对象特征的主要指标 即u 可由n l 维特型指标向量即 坼 蚝 坼2 扛l 2 n 来表示 其中u j 表示第i 个对象的第j 个特 性指标 则n 个对象的所有特征指标构成一个矩阵 记作 u 地1 u 1 2 2 1 2 2 咋l 2 列l m 心 2 i 1 数据规格化 由于m 个特征指标的量纲和数量级不一定相同 故在运算过程中可能突 出某数量级特别大的特征指标对分类的作用 丽降低甚至排除了某些数量级 小的特性指标的作用 致使对各特性指标的分类缺乏统一尺度 为了消除特 性指标单位的差别和特性指标数量级不同的影响 必须对各指标值实行数据 1 3 哈尔滨丁程大学硕十学付论文 规格化的处理 从而使每一个指标值统一于某种共同的数值特性范围之内 数据规格化的方法有很多 如均值规格化法 中心规格化法和最大值规格化 法等 1 均值规格化法 对特性指标矩阵u 的第j 列 计算o 然后作变换 雄 堕 f l 2 一 1 2 埘 2 2 6 j 2 中心规格化法 对特性指标矩阵u 的第j 列 计算u 然后做变换 口 4 一吩 i i 2 阼 j l 2 一肌 2 3 3 最大值规格化法 对特征指标矩阵u 的第j 列 计算 m j n l a x h i j 2 j9 j l 2 肌 2 4 然后作变换 嚣j2 参 扛l 2 一歹刮 2 舰 巧 2 构造模糊相似矩阵 设数据蚝o 1 2 开 1 2 埘 均已规格化 下面用多元分析的方法 来确定对象q u 辑 和吩 唧 群朋 之间的相似程度 郎 f 震 e o l f 1 2 栉 从而构造出一个对象与对象之间的模糊相似矩阵 r l 主2 吒i 勃 1名2 确定 的常用方法有夹角余弦法 相关系数法和最大最小法等 1 夹角余弦法 1 4 2 6 哈尔滨t 稃大学硕十学付论文 m 豫 一 吩 百岩 i 产 否靠2 j 善b 2 如果0 中出现负值 也可采用这个方法进行调整 2 相关系数法 其中 3 最大最小法 r y 靠一 一 2 7 2 8 i 去善 i 1 善m c z 咖 等 一 2 1 0 v x j l 女 1 3 聚类 进行聚类的模糊矩阵必须是等价矩阵 而由第二步得到的模糊矩阵r 一 般只满足自反性与对称性 不满足传递性 可以通过逐次平方法求出其传递 闭包阵墨 蜀 r r 再由町做出动态聚类图 但是当矩阵阶数较高时 求 等价矩阵的计算量很大 这里介绍与此等价并且计算量要小得多的最大树聚 类法 首先 画出以被分类元素为结点 以相似矩阵r 的元素r 为权重的一棵 最大树 方法有k r u s k a l 法 p r i m 法等 然后取定九 o l 砍断权重低于 九的枝 得到一个不连通图 各连通分支便构成了在九水平上的分类 因此 选取不同的九 便会得到不同的聚类 哈尔滨t 程大学硕七学何论文 2 4 联机分析挖掘 2 4 1 联机分析处理与数据挖掘的区别与联系 根据前面的论述可知 o l a p 是使分析人员能够通过快速的 一致的和交 互式的访问来获取并理解各种可能的信息视图的数据方法 数据挖掘则是从 海量数据中 提取隐含在其中的 人们事先不知道但有可能有用的信息的过 程 总的来说 o l a p 帮助用户分析和了解过去 然而数据挖掘帮助用户预测 未来 它们无论从目的 方法等各方面比较 均有很大区别 具体如表2 2 所示 表2 2 数据挖掘与o l a p 的区别 o l a p数据挖掘 目的描述预测 用户群 初 中级决策人员 高级决策人员 运行方式用户目的驱动 自动 技术难度低高 操作复杂性大 小 另外 o l a p 和数据挖掘也存在一些联系 它们都是基于数据仓库之上的 应用 它们是获取两种不同目标数据的技术 但它们又能够在一定程度上融 合 使分析操作智能化 使挖掘操作目标化 联机分析技术可以为数据挖掘 提供预期的挖掘对象和目标 避免挖掘的盲目性 数据挖掘技术可以使联机 分析处理智能化 减少分析人员手工操作的复杂性 减轻分析人员的负担 o l a p 和数据挖掘各有所长 也各有缺陷 如果能将两者有机地结合起来 发展一种建立在o l a p 和数据仓库基础上的新的数据挖掘技术 将更能适合实 际的需要 o l a m o n l i n ea n a l y s i sm i n i n g 正是这种结合的产物 它是基 于o l a p 技术的数据挖掘模型 是为深入分析数据 挖掘知识提供的方法 2 4 2 联机分析挖掘的体系结构 o l a m 是建立在数据仓库上的o l a p 和数据挖掘的统一 即 1 6 哈尔滨丁稃大学硕十学付论文 o l a m d w o l a p d m 1 联机分析挖掘的概念是在1 9 9 7 年 由加拿大s i m o n 大学教授j i a w e ih a n 等在数据立方体的基础上提出的 但o l a m 不是这3 种技术的单纯叠加 而是 指多种技术的无缝集成 这种集成将带来o l a m 技术与其构件技术在基本概 念 原理 技术 方法 机制 结构 使用等方面本质上的不同 o l a m 可以采用与o l a p 类似的结构 o l a m 把挖掘分析处理建立在超级立 方体的基础上 实际应用中o l a m 的多维计算可能需要更多的维数和更强大的 访问 o l a m 的体系结构m 如图2 2 所示 数据净化 用户图形接口a p i fifl o u 诤引擎o i 砧m 引肇 fifj 茛拶 7 茕数 数据库库il 数数据仓库 一 一 j 图2 20 l a m 的体系结构 2 4 3 联机分析挖掘的特征 建立在庞大数据库或数据仓库基础上的o l a m 在实现过程中面临的最大 挑战是执行效率的提高和对用户请求的快速响应 其特性有以下几点 i 1 挖掘任何部分的能力 通过与o l a p 操作交互 数据挖掘可以在不同的 数据上以多个抽象层次进行 也可在挖掘中执行钻取 切片与分割等o l a p 操作 多个数据挖掘模块与o l a p 引擎的交互将保证在数据仓库中的任何部分 容易完成挖掘 2 支持具有多特性的立方体和支持具有复杂维度与度量的立方体 许多 哈尔滨丁稃大学硕十学位论文 数据挖掘任务需要对具有多特性的立方体进行操作 这是在不同的粒度上包 含多个相互依赖的查询的复杂子查询 数据立方体的维度可以是数值型及空 间和多媒体数据 立方体的度量也可以是空间和多媒体聚合或这种对象指针 的集合 支持这类非传统的数据立方体将会加强数据挖掘的能力 3 基于立方体的挖掘方法 该方法应该是o l a m 挖掘机制的核心 基于立 方体的数据挖掘已经有很多研究 包括概念描述 分类 关联 预测 聚类 等 基于立方体的挖掘继承了关系型或事务型数据挖掘方法的思想 并具有 许多特性 在基于立方体的有效挖掘算法领域需要投入更多的研究 4 用户对挖掘算法具有动态选择的权限 在传统的关系数据库应用中 对同一个主题 任何不同的查询过程得到结果相同 而数据挖掘则不然 对 同一个问题 运用不同的挖掘算法 得出的结果可能大相径庭 因此有必要 给予用户以动态选择挖掘算法的权限 此外 有的用户针对自己的问题 可 能有一套自己的独特挖掘算法 也希望嵌入到o l a m 中 因此 o l a m 应该具 有一个通用的接口 与其它工具或算法相衔接一 5 多个数据挖掘功能之问的交互 o l a m 的长处不仅仅在于选择一系列的 数据挖掘功能 也在于在多个数据挖掘和o l a p 功能之间交互 例如 首先切 割立方体的一部分 基于一个指定的类属性将该部分分类 并查找关联规则 然后下挖 在更细的粒度上发现关联规则 这样就能够在选定的数据空间任 意漫游 用多个挖掘工具挖掘知识 6 快速响应和高性能挖掘 o l a m 若想获得快速响应和高的性能 会比 o l a p 困难 因为数据挖掘的计算代价通常比o l a p 昂贵 快速响应对于交互 式挖掘是至关重要的 有时甚至为了得到快速响应而牺牲精度 效率是探索 式数据挖掘的主要挑战 由于采用数据立方体技术泛化大量的数据 可以获 取较高性能作为响应时间和挖掘粒度的折中 7 可视化工具 为了有效地显示o l a h l 并与挖掘处理交互 必须开发多种 知识和数据可视化工具 图表 曲线 决策树 规则图 立方体视图等是描 述数据挖掘结果的有效工具 能帮助用户监测数据挖掘的过程并与挖掘过程 交互 8 可扩展性 从图2 2 可以看出 o l m 系统在顶端与用户及知识可视化 软件包通讯 在底端与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医学基础知识学习方式探索试题及答案
- 药品生产质量标准试题及答案
- 药品分发与管理策略的考查试题及答案
- 药物配伍禁忌知识试题及答案
- 激光工程师知识回顾与巩固技巧试题及答案
- 药剂创新应用示例试题及答案
- 药物吸收影响因素考点试题及答案
- 南康中学测试题及答案
- 激光技术职业发展试题及答案
- 网络规划设计师考试职业发展机会探讨试题及答案
- 农村土地延包确权实施方案
- PVC聚氯乙烯教学课件
- 视频监控维保项目投标方案(技术标)
- 工伤与职业病赔偿
- 市政工程(道路)课件
- 中考英语题型六选五课件
- 2022年睾丸肿瘤诊断治疗指南
- 变压器铁芯(夹件)接地电流试验
- 针灸课件完整版
- 药事管理法律法规相关知识培训
- 地毯织造技艺(北京宫毯织造技艺)
评论
0/150
提交评论