建设数据仓库的一些经验教训_第1页
建设数据仓库的一些经验教训_第2页
建设数据仓库的一些经验教训_第3页
建设数据仓库的一些经验教训_第4页
建设数据仓库的一些经验教训_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘分析型数据仓库(DATA WAREHOUSE)交易型数据库(DATA BASE)设计的目的查询、分析、统计、报告,以主题为导向,以一组记录为处理单位快速输入、更新、删除,以事务处理为导向,以单个记录为处理单位实体关系特征反规范化,较少连接(joins),多为简单的星型关系链规范化,很多连接(joins), 关系复杂 (网状)信息冗余多处冗余很少表数量较少多记录历史长短用户数量少很多表体积(字段数)大小分析型数据仓库和交易型数据库的区别数据仓库的星型结构事实表(FACT TABLE)维度表(DIMENSIONAL TABLE)维度表(DIMENSIONAL TABLE)维度表(

2、DIMENSIONAL TABLE)维度表(DIMENSIONAL TABLE)维度表(DIMENSIONAL TABLE)维度表(DIMENSIONAL TABLE)注:此星型结构不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合 数据集市(DATA MART) 数据集市是一个针对某个主题的经过预统计处理的部门级分析数据库。目前,一般理解为企业级数据仓库里的主题数据库。将数据集市理解为一个部门级的数据仓库也未尝不可。 当一个企业里存在着多个相互独立、数据定义不统一的数据集市时,就会导致信息的整合问题。因此,将原有的数据集市进行整合并归入数据仓库统一管理是一个必然的趋势。 一个数据集

3、市可以由特定业务领域内多个相关的“星”组成。比如,营销集市可以由“订单星”、“活动星”、“销售机会星”、“售后服务星”、“报价星”和“客户反馈星”等共同组成为一个营销分析数据集市,为营销人员提供查询分析的数据源。数据获取、精简和转换工具(ETL) 由于数据仓库有自己的独立数据库系统,字段长度、字段类型、索引定义等与交易数据库有很大的不同,数据在导入之前,各种筛选、转换工作是必然的。因此,必须具备有效的导入工具。 数据仓库或数据库提供商都有专门设计的数据导入工具,这些工具提供阶段性的数据预处理工作,支持各种流行的数据源。 这些工具的工作效率、易用程度及纠错能力是衡量数据仓库系统的重要性能指标之一

4、。数据仓库的管理平台 由于数据仓库存有大量的历史数据,它的数据容量比交易数据库要大得多,并且为了获得及时的分析数据,数据仓库必须定期从交易数据库中导入最新数据(如每天)。数据仓库的管理平台是系统管理员的日常维护和管理环境,其主要管理任务包括批处理作业管理,数据安全管理,数据冲突解决,数据质量核查,管理数据仓库元数据的更新,数据删除与复制,备份与恢复等,从而为保证数据仓库正常运转提供了基本的管理环境。数据仓库的数据挖掘工具 在线分析处理是对历史数据的统计,它只提供“事实数据”,对今后的预测则完全交由用户靠自己的“人脑”判断。在线分析处理的结果充其量只是“人脑处理系统”的一个输入。 数据挖掘是从数

5、据仓库中挖掘出有价值的带有规律性的行为模式,并对未来趋势作出预测的一个数据分析过程,因此,它更接近于人工智能范畴。它的目的是为了建立一个符合“历史经验”的预测模型,既要帮助用户回答诸如“明年那种预算可以获得最佳回报”,“哪一种类型的客户将是企业的主要收入来源”等决策。数据挖掘更注重于发现数据仓库中所蕴藏的,目前不为人知的某种“规律”或模式,因而,是“挖掘”,是“发现”,是“探索”,而不是“浏览”或“观望”眼前的事实结果。DM,ETL工具IBM产品ORECLE产品MICROSOFT产品数据仓库数据挖掘工具OLAP工具数据源数据源数据源数据仓库体系结构报表工具建设数据仓库的一些经验教训建设数据仓库

6、的目的要利用数据仓库解决什么问题?数据仓库要达到什么目的?谁来用,如何评价其成功与否? 建立数据仓库应用时,应该以问题为导向而不能以方法为导向,要根据问题寻找产品和工具。建设数据仓库的一些经验教训数据仓库不是那种买来就可以使用的软件产品,事实上,数据仓库更像一个过程,一个用户逐步认识自己、提高自己的过程。数据仓库不仅要反映出企业的现状,而且还要依靠人做出最终的决策。 确定分析和预测目标了解数据数据准备数据相关性前期探索模型构造模型评估与检验部署和应用检验达到预定成功率?预测变量相关性不正确?基础数据不足或噪音太大?是是是否实施数据挖掘的基本步骤实施数据挖掘的基本步骤1234567实施数据挖掘的

7、基本步骤确定分析和预测目标明确业务目标通过数据挖掘解决什么样的问题?达到什么目的?成功准则把要解决的问题转化为可以测量的目标。确定项目期明确的计划。了解数据数据源。分析数据的可用性与适用性。随机地抽取一些数据检验其质量,确认数据的可信度。实施数据挖掘的基本步骤数据准备对已确定的基本数据进行必要的转换、清理、填补以及合并工作。数据准备工作比较繁琐,但非常重要,因为,如果数据里噪音太多,就会影响建立模型的准确度,数据越完整,越准确,在此基础上发掘的数据规律(pattern)就具有更高的可信度,从而更好地实现数据挖掘的目标,否则,从“垃圾”数据里再怎么挖掘也只能是垃圾,这是毫无疑问的。实施数据挖掘的

8、基本步骤数据相关性前期探索有些数据挖掘工具在定性和数据分类方面使用方便,可以用作为更高一级预测分析的“探索”工具。比如,先用决策树或聚类方法帮助找出数据的总体趋势以及预测变量相关性之后,再用神经网络或规则导引方法有针对性的建模,一来可以细化数据,提高性能,二来在某种程度上也可以帮助消除噪音;另一方面也可以作为不同方法比较之用。实施数据挖掘的基本步骤模型构造 模型构造阶段是数据挖掘技术应用的关键阶段,有以下几个步骤:选择使用的挖掘技术,因为每一种挖掘技术有其适用性。建立培训数据(建立模型用)和测试数据(检验模型用) 对基础数据必须分为两部分,一个是供模型建立的数据,另一个供模型建立后检验其准确率

9、的数据。两者的使用目的是不一样的。利用培训数据采用相应算法建立模型。模型解释-对模型进行分析和解释,业务专家和数据库专家同时参与,以找出模型中的实际意义。实施数据挖掘的基本步骤模型评估和检验 建立的模型用测试数据进行测试,计算误差率,以确定模型的可信度,如果不令人满意,未达到预期的误差率目标,那么,就必须重新回到数据了解阶段,重复相关过程,一直找到令人满意的模型为止,当然,也有可能最终放弃导致项目失败,在这种情况下,就有必要重新审视最初的挖掘目标是否合理。实施数据挖掘的基本步骤部署和应用 如果经过测试和检验,所建立的模型可信、并在预定误差率范围内,那么,便可以按照这种模型计算输出值,并按照输出

10、值确定决策的基本依据,这样就可以在企业范围内全面部署这个预测模型。在应用过程中,必须不断用新数据进行检验,不断测试其成功概率。经过反复检验成功的模型就成为企业的一个重要的“知识”,为企业成功决策打下良好的基础。确定分析和预测目标了解数据数据准备数据相关性前期探索模型构造模型评估与检验部署和应用检验达到预定成功率?预测变量相关性不正确?基础数据不足或噪音太大?是是是否1234567实施数据挖掘的基本步骤实施数据挖掘的基本步骤功能分类功能分类信息展示信息展示1 1层层2 2层层3 3层层4 4层层5 5层层方式方式1 1方式方式2 2趋势预测 环境预测外部信息利润分析策略规划 目标管理市场分析决策模式风险管理 财务控管投资控管信用风险市场风险绩效评估 利润分析成本分析预算分析现金流量管理控制 生产控制行销控制财务控制产品控制人力资源资产管理需需 求求 规规 划划实现功能所需的数据源实现功能所需的数据源销售订单完成情况主题数据库销售订单板坯钢卷发票发货装车清单结算清单品质证明书物流主题数据库试验性能板坯数据钢卷数据成品数据熔炼数据试样号炼钢成分炉号成品成分炉料数据铁水生产订单主题数据库生产订单交货规范交货试验规范板坯设计机组工艺放行试验规范热轧卷设计数据仓

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论