人工智能之数据挖掘_第1页
人工智能之数据挖掘_第2页
人工智能之数据挖掘_第3页
人工智能之数据挖掘_第4页
人工智能之数据挖掘_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能

——数据挖掘之数据仓库目录一、什么是数据挖掘?二、什么是数据仓库?数据仓库的特征。三、数据仓库设计四、从数据仓库到数据挖掘02二月2023数据挖掘:概念与技术3什么是数据挖掘数据挖掘(数据库中知识发现):

从大型数据库中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式数据挖掘:用词不当?其它名称:数据库中知识发现(Knowledgediscoveryindatabases,KDD)知识提取(knowledgeextraction)数据/模式分析(data/patternanalysis)数据考古(dataarcheology)数据捕捞(datadredging)信息收获(informationharvesting)商务智能(businessintelligence),等.什么不是数据挖掘?(演绎)查询处理.专家系统或小型机器学习(ML)/统计程序02二月2023数据挖掘:概念与技术4数据挖掘:在数据中发现知识/模式02二月2023数据挖掘:概念与技术5数据挖掘过程数据库文件数据仓库清理与集成选择与变换数据挖掘模式评估知识什么是数据仓库用不同的方法定义,但不是严格的是一个决策支持数据库,它与组织的操作数据库分离地维护数据仓库系统允许将各种应用系统集成在一起,通过为统一的历史数据分析提供坚实的平台,支持信息处理.数据仓库是一种信息环境,它将各种应用系统集成在一起,提供了企业信息的完整概括,为灵活的、交互的数据分析提供坚实的平台,为决策提供支持.W.H.Inmon的定义:数据仓库是面向主题的(subject-oriented),集成的,时变的,和非易失的数据集合,支持管理决策过程建立数据仓库(Datawarehousing):构造和使用数据仓库的过程2023/2/2数据仓库与OLAP技术6数据仓库的特征面向主题的(subject-oriented)数据仓库围绕一些主题,如顾客、供应商、产品和销售组织数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理.

数据仓库排除对于决策无用的数据,提供特定主题的简明视图集成的(integrated)通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起使用数据清理和数据集成技术,确保命名约定、编关键字结构、属性度量等的一致性当数据装入数据仓库时,数据将被转换2023/2/2数据仓库与OLAP技术7数据仓库的特征(续)时变的(time-variant)数据存储从历史的角度(例如过去5-10年)提供信息.操作数据库数据:当前值数据数据仓库中的关键结构,隐式或显式地包含时间元素非易失的(nonvolatile)数据仓库总是物理地分离存放数据;这些数据源于操作环境下的应用数据由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制.通常,它只需要两种数据访问操作:数据的初始化装入和数据访问2023/2/2数据仓库与OLAP技术8如何使用数据仓库中的信息数据仓库用于商务决策活动,包括增加顾客关注包括分析顾客购买模式,如喜爱买什么、购买时间、预算周期、消费习惯根据季度、年和地区的营销情况比较,重新配置产品和管理产品的投资,调整生产策略分析运营情况和查找利润源管理顾客关系、进行环境调整、管理公司资产开销2023/2/2数据仓库与OLAP技术9数据仓库vs.操作数据库OLTP(on-linetransactionprocessing,联机事务处理)传统关系DBMS的主要任务日常事务处理:购买,库存,银行,制造,工资单,注册,记帐等.OLAP(on-lineanalyticalprocessing,联机分析处理)数据仓库系统的主要任务数据分析和决策制定2023/2/2数据仓库与OLAP技术10数据仓库vs.操作数据库(续)不同的特点(OLTPvs.OLAP):用户和系统的面向性:顾客vs.市场OLTP是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理OLAP是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析数据内容:当前的,细节的vs.历史的,合并的OLTP系统管理当前数据这种数据太琐碎,很难用于决策OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息这些特点使得数据更容易用于决策2023/2/2数据仓库与OLAP技术11数据仓库vs.操作数据库(续)2023/2/2数据仓库与OLAP技术12数据仓库设计

数据仓库为商务分析提供了什么

拥有数据仓库可以提供竞争优势通过提供相关信息,据此测量性能并作出重要调整,以帮助战胜其它竞争对手数据仓库可以提高企业生产力因为它能够快速有效地搜集准确描述组织机构的信息数据仓库有利于顾客的联系管理因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品的一致视图数据仓库可以带来费用的降低通过以一致和可靠的方式长期跟踪趋势、模式和异常2023/2/2数据仓库与OLAP技术13数据仓库设计(续)四种视图自顶向下视图使得我们可以选择数据仓库所需的相关信息.这些信息能够满足当前和未来商务的需求数据源视图揭示被操作数据库系统捕获、存储和管理的信息通常,数据源用传统的数据建模技术,如实体-联系模型或CASE工具建模数据仓库视图包括事实表和维表.它们提供存放在数据仓库内部的信息,包括预计算的总和与计数,以及增加的提供历史背景的关于源、原来的日期和时间等信息商务查询视图从最终用户的角度透视数据仓库中的数据2023/2/2数据仓库与OLAP技术14数据仓库设计(续)建立和使用数据仓库是一项复杂的任务,需要商务技巧、技术技巧和程序管理技巧商务技巧建立数据仓库涉及理解系统如何存储和管理数据;如何构造一个提取程序,将数据由操作数据库转换到数据仓库;如何构造一个仓库刷新软件,合理地保持数据仓库中的数据相对于操作数据库中数据的当前性使用数据仓库涉及理解它所包含的数据的含义理解商务需求并将它转换成数据仓库查询2023/2/2数据仓库与OLAP技术15数据仓库设计(续)技术技巧数据分析需要理解如何由定量信息作出估价如何根据数据仓库中的历史信息得到的结论推导事实这些技巧包括发现模式和趋势,根据历史推断趋势和发现异常或模式漂移,并根据这种分析提出相应的管理建议的能力程序管理技巧涉及与许多技术人员、经销商和最终用户交往,以便以及时和合算的方式提交结果2023/2/2数据仓库与OLAP技术16数据仓库设计(续)数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合方法设计自顶向下方法由总体设计和规划开始当技术成熟并且已经掌握,对必须解决的商务问题清楚并且已经很好理解时,这种方法是有用的自底向上方法以实验和原型开始在商务建模和技术开发的早期阶段,这种方法是有用的混合方法既能利用自顶向下方法的规划和战略特点,又能保持象自底向上方法一样快速实现和立即应用2023/2/2数据仓库与OLAP技术17数据仓库设计(续)典型的数据仓库设计过程选取待建模的商务处理例如,订单、发票、出货、库存、记帐管理、销售或一般分类帐选用数据仓库模型vs.选择数据集市选取商务处理的粒度该粒度是基本的,在事实表中是数据的原子级例如,单个事务、一天的快照等选取用于每个事实表记录的维典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态选取将安放在事实表中的度量典型的度量是可加的数值量,如dollars_sold和units_sold

2023/2/2数据仓库与OLAP技术18三层数据仓库结构2023/2/2数据仓库与OLAP技术19三层数据仓库结构(续)底层是仓库数据服务器一般是关系数据库系统使用后端工具和实用程序,由操作数据库或其他外部数据源(如由外部咨询者提供的顾客侧面信息)提取数据,放入底层这一层还包括元数据库,存放关于数据仓库和它的内容的信息中间层是OLAP服务器关系OLAP(ROLAP)模型即扩充的关系DBMS,它将多维数据上的操作映射为标准的关系操作多维OLAP(MOLAP)模型即专门的服务器,它直接实现多维数据和操作顶层是前端客户层包括查询和报告工具、分析工具和/或数据挖掘工具

2023/2/2数据仓库与OLAP技术20三种数据仓库

企业仓库(enterprisewarehouse)搜集了跨越整个组织的关于主题的所有信息提供企业范围内的数据集成数据集市(datamart)包含企业范围数据的一个子集,对于特定的用户是有用的根据数据的来源不同,数据集市分为独立的和依赖的两类独立的数据集市:数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据依赖的数据集市中的数据直接来自企业数据仓库虚拟仓库(virtualwarehouse)是操作数据库上视图的集合.为了有效地处理查询,只有一些可能的汇总视图被物化虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力2023/2/2数据仓库与OLAP技术21数据仓库开发:一种推荐的方法以递增、进化的方式实现数据仓库

定义一个高层企业数据模型数据集市分布式数据集市多层数据仓库企业数据仓库模型提炼数据集市模型提炼2023/2/2数据仓库与OLAP技术22数据仓库的使用通常,数据仓库使用时间越长,它进化得越好数据仓库应用的三种类型信息处理支持查询,基本统计分析,使用交叉表,表,图表和图进行报告分析处理数据仓库数据的多维分析支持基本的OLAP操作,切片-切块,上下钻,转轴数据挖掘隐藏模式的知识发现支持关联,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结果.2023/2/2数据仓库与OLAP技术23OLAP与数据挖掘OLAP向数据挖掘走近了一步它可以由用户选定的数据仓库子集,在多粒度上导出汇总的信息。这种描述等价于类/概念描述数据挖掘系统能挖掘更一般的类/概念描述数据挖掘比传统的OLAP前进了一步OLAP是数据汇总/聚集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论