数据挖掘与知识发现复杂数据对象的数据挖掘与知识发现课件_第1页
数据挖掘与知识发现复杂数据对象的数据挖掘与知识发现课件_第2页
数据挖掘与知识发现复杂数据对象的数据挖掘与知识发现课件_第3页
数据挖掘与知识发现复杂数据对象的数据挖掘与知识发现课件_第4页
数据挖掘与知识发现复杂数据对象的数据挖掘与知识发现课件_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与知识发现

(复杂数据对象的数据挖掘与知识发现)3数据仓库数据挖掘与知识发现

(复杂数据对象的数据挖掘与知识发现)33数据挖掘仓库 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘3数据挖掘仓库 3.1数据库与数据仓库省器材总公司省邮购局市内DDN各县邮购网点机房打印机配货部采购部管理1财务部CICSO2510打印机Modem省邮运局CICSO2510

运输管理1库房管理1打印机条码打印机ModemModemModem局长省财务查询PSTNDDN/FR各地市综合网机房IBM小型机磁盘阵列数据库服务器骨干交换机广域路由器城域路由器访问服务器省综合网机房PSTN各地市邮购网点机房采用局域网、PSTN或DDN数据仓库

河南邮政邮购系统网络拓扑总图省器材省邮购局市内DDN各县邮购网点机房打印机配货部采购部管吐哈油田开发信息管理与决策支持——“数字油田”框架吐哈油田开发信息管理与决策支持——“数字油田”框架源头数据库数据中心大数据体库主数据库勘探测井钻井开发经营其他开发数据应用(缓存和质量检查)数据采集原始数据审核后审核后项目数据库项目数据库现有应用系统项目应用项目应用集成管理平台应用中心数据源头勘探数据应用(以开发数据应用为例)采油厂地学研究平台地学研究应用生产管理平台经营管理平台生产管理应用经营管理应用决策支持系统业务逻辑平台其他专业数据应用源头数据库数据中心大数据体库主数据库勘探测井钻井开发经营其他源点数据库基层生产管理库质量控制迁移提升应用服务管理体系项目库项目库数据中心专业应用综合应用基层应用采油厂人工采集实时采集甲乙方关系外部信息…钻测录政府客户有限公司源点数据采集平台地学研究总库大数据体总库生产管理总库成果总库图形、文档数据采集标准质量控制标准源点数据库逻辑标准数据中心数据库逻辑标准项目数据库逻辑标准生产管理库逻辑标准物探质量迁移应用服务管理体系数据中心专业应用综合应用基层应用采油天然气数据标准体系源点数据采集标准数据中心标准应用标准生产管理数据库标准(现有标准、符合国内企业管理特色)源点数据采集标准采集质量控制标准源点数据库标准(贴近业务需求、继承性)地学研究数据库标准(国际标准)大数据体数据库标准(国际标准)成果数据库标准(国际标准)项目数据库标准(由应用定制)成果数据标准(符合数据中心存贮要求)天然气数据标准体系源点数据采集标准数据中心标准应用标准生产管中石化天然气数据标准数据采集标准天然气数据标准数据应用标准数据库逻辑结构(与国际接轨)源点数据标准(符合国家标准、企业标准、行业标准和现行信息化标准)数据采集标准(符合国内企业生产特点和业务流程)采集质量控制标准数据代码标准(符合数据中心整体要求)科研成果数据标准(符合数据中心整体要求)数据应用标准(符合企业个性化管理特色)数据库管理规章制度成果数据加载标准(符合数据中心加载要求)中石化天然气数据标准数据采集标准天然气数据标准数据应用标准数数据库与数据仓库什么是数据仓库数据仓库是一个环境,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。数据库与数据仓库什么是数据仓库数据库、数据仓库间的关系生产人事供应监测销售数据仓库清理转换分析查询用户数据库、数据仓库间的关系生产人事供应监测销售数据仓库清理转换数据库与数据仓库“Adatawarehouseisa

subject-oriented,integrated,time-variantcollectionofdatainsupportofmanagement’sdecision-makingprocess.”—W.H.Inmon数据库与数据仓库“Adatawarehouseisa多维模型是人们观察数据的形象表示

可以是2,3,4或更多维

可以对多维模型进分析–

即:选择哪维作为查询条件.多维模型ProductLinesRegionsTime当数据量大时,传统的数据模型比较复杂,最终用户难于理解多表联结(Join)查询(尤其是大表),既费时,又占用大量资源数据库与数据仓库多维模型是人们观察数据多维模型ProductLinesRe维:人们观察数据的特定角度--对应维表。维成员:维的取值。维层次:代表维的细节程度,时间维的层次可以是——年,季,月,周,日,等等.类:维成员互不相交的一个子集.多维模型:基本概念多维模型ProductLinesRegionsTime维表维:人们观察数据的特定角度--对应维表。多维模型:基本概念多维分析:对以维形式组织的数据采取切片,切块和旋转等动作,以求全面深刻地分析数据.切片(Slice):

按照某一维取值做查询.切块(Dice):按照一维或多维取值做查询.旋转:改变一个报告或页面显示的维方向.多维模型:基本概念多维分析:多维模型:基本概念维表:存放维数据的表.对维进行深层次的分析事实表:事实表示主题由事实数据元素和维数据元素组成.事实表是多维模型的核心.事实数据是决策分析的数据基础.其中包含事实名称和度量。多维模型:基本概念下面我们看一下数据仓库有哪些特点?维表:多维模型:基本概念下面我们看一下数据仓库有哪些特数据仓库的面向主题围绕一些主题Organizedaroundmajorsubjects,suchascustomer,product,sales.概念Focusingonthemodelingandanalysisofdatafordecisionmakers,notondailyoperationsortransactionprocessing.Provideasimpleandconciseviewaroundparticularsubjectissuesbyexcludingdatathatarenotusefulinthedecisionsupportprocess.数据仓库的面向主题围绕一些主题Organizedaroun数据仓库的数据集成异种数据源集成Constructedbyintegratingmultiple,heterogeneousdatasourcesrelationaldatabases,flatfiles,on-linetransactionrecordsDatacleaninganddataintegrationtechniquesareapplied.Ensureconsistencyinnamingconventions,encodingstructures,attributemeasures,etc.amongdifferentdatasourcesWhendataismovedtothewarehouse,itisconverted.数据仓库的数据集成异种数据源集成Constructedby数据仓库的时变性包含历史数据Thetimehorizonforthedatawarehouseissignificantlylongerthanthatofoperationalsystems.Operationaldatabase:currentvaluedata.Datawarehousedata:provideinformationfromahistoricalperspective(e.g.,past5-10years)EverykeystructureinthedatawarehouseContainsanelementoftime,explicitlyorimplicitlyButthekeyofoperationaldatamayormaynotcontain“timeelement”.数据仓库的时变性包含历史数据Thetimehorizon数据仓库数据的非易失性物理分离Aphysicallyseparatestoreofdatatransformedfromtheoperationalenvironment.Operationalupdateofdatadoesnotoccurinthedatawarehouseenvironment.Doesnotrequiretransactionprocessing,recovery,andconcurrencycontrolmechanismsRequiresonlytwooperationsindataaccessing:initialloadingofdataandaccessofdata.数据仓库数据的非易失性物理分离Aphysicallyse数据仓库的操作

3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的操作 3.1数据库与数据仓库数据仓库的操作OLTP(on-linetransactionprocessing)MajortaskoftraditionalrelationalDBMSDay-to-dayoperations:purchasing,banking,manufacturing,payroll,accounting,etc.OLAP(on-lineanalyticalprocessing)MajortaskofdatawarehousesystemDataanalysisanddecisionmaking数据仓库的操作OLTP(on-linetransactiOLTP与OLAP对比OLTP与OLAP对比数据仓库的概念模型

3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的概念模型 3.1数据库与数据仓库数据仓库的概念模型Modelingdatawarehouses星形结构:以事实表为核心连接多个维表。雪花结构:精华的事实表,有些维层次规范化,构成雪花状的维表。事实星群结构:多个事实表共享维表,看上去像星簇,所以称之为星河或事实群。

数据仓库的概念模型Modelingdatawarehou星型结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch星型结构time_keytimelocation_keylo雪花状结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity雪花状结构time_keytimelocation_keyl事实星群结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper事实星群结构time_keytimelocation_key概念层次allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity概念分层:定义一种映射序列,序关系。许多概念都具有序结构概念层次allEuropeNorth_AmericaMexi数据立方体 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据立方体 3.1数据库与数据仓库数据立方体销售量是产品,月份以及区域的函数ProductRegionMonthDimensions:Product,Location,Time层次归纳路径为:IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay数据立方体:允许以多维对数据进行建模和观察数据立方体销售量是产品,月份以及区域的函数ProductR数据立方体的实例TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum数据立方体的实例TotalannualsalesDate立方格,三维立方体allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(apex)cuboid1-Dcuboids2-Dcuboids3-D(base)cuboid立方格,三维立方体allproductdatecountry数据立方体实例VisualizationOLAPcapabilitiesInteractivemanipulation数据立方体实例Visualization数据仓库的结构 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的结构 3.1数据库与数据仓库DataWarehouseExtractTransformLoadRefreshOLAPEngineAnalysisQueryReportsDataminingMonitor&IntegratorMetadataDataSourcesFront-EndToolsServeDataMartsOperational

DBsothersourcesDataStorageOLAPServer数据仓库的多层结构DataExtractOLAPEngineAnalysis数据仓库体系结构图按照不同的主题进行数据综合数据仓库体系结构图按照不同的主题进行数据综合数据仓库的元数据 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的元数据 3.1数据库与数据仓库元数据元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,管理元数据和商业元数据。

管理元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录等。元数据元数据:元数据是描述数据仓库内数据的结构和建立方法的数元数据商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。

元数据商业元数据从商业业务的角度描述了数据仓库中的数据。包括描述数据仓库中数据的数据

Metadata的组成是:表,数据元素,主键数据元素的物理特征各种定义数据抽取历史数据汇总算法数据属主关系及存取模式数据生命期以及淘汰规则数据安全性数据的度量单位元数据(Metadata)描述数据仓库中数据的数据元数据(Metadata)在整个数据仓库建设过程中,元数据被不断积累和丰富,从源数据到目标数据或相反,是可以追踪的。收集元数据在整个数据仓库建设过程中,元数据被不断积累和丰富,从源数据数据仓库的建立 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的建立 3.1数据库与数据仓库建立数据仓库的步骤:收集和分析业务需求建立数据模型和数据仓库的物理设计定义数据源选择数据仓库技术和平台从操作型数据库中抽取、净化、和转换数据到数据仓库选择访问工具和报表生成工具选择数据库连接软件选择数据分析和数据展示软件数据仓库更新和安全解决方案建立数据仓库的步骤:收集和分析业务需求*确定主题精心选择主题域,最大限度地发挥其作用。如,市场部门可能关心下面的主题:市场研究竞争分析购买者的特点市场辅助产品(市场比较)价格和预算决策产品决策促销决策渠道决策预测趋势水平标准*确定主题精心选择主题域,最大限度地发挥其作用。如,市场部*分析

数据仓库开发生存期的分析阶段主要是把以前需求阶段所收集的需求转化为一系列能够支持设计的规格说明。数据仓库有三个主要的输入规格说明:商业重点需求:用于描述数据仓库必须包含的信息范围,还可确定读者群及其信息需求数据源需求规格说明:用于描述当前数据源中可用信息的范围。*分析数据仓库开发生存期的分析阶*分析最终使用和访问需求规格说明:用于确定数据仓库中信息的使用方式,同时还用于说明工具的种类和所使用的技术。分析的过程就是为数据仓库逻辑和物理数据模型,并且确定将数据源、数据仓库和最终用户访问工具连接在一起所需的过程。*分析最终使用和访问需求规格说明:用于确定数据仓库中信息的*设计

设计阶段将分析阶段所开发的逻辑模型转化为物理模型。将数据源连接到数据仓库、将数据仓库连接到基于用户工作站的工具,这些过程都被转化成处理过程所需要的方案设计,同时还要指定和细化数据仓库。

*设计设计阶段将分析阶段所开发的逻辑模*设计

数据结构设计包括以下内容:·为数据仓库的存储数据库开发物理数据模型,而且物理模型还可能用于最终用户工具所需的逻辑存储。·将数据源的物理模型映射到数据仓库的物理模型。这种映射有助于数据抽取程序和数据仓库内部的求精和重构工程更好地完成其功能。

*设计数据结构设计包括以下内容:*构造

构造阶段负责从物理上实现设计阶段所开发的设计方案。通过明智地“制定或购买”决策,就有可能相当快地集成数据仓库解决方案。同时,果断地合并已有投资,还可能加速开发任务。*构造构造阶段负责从物理上实现设计阶*应用程序结构设计的组成:为数据仓库创建和修改数据库的程序。制售商提供了自动生成这些程序的功能。从数据源中抽取数据的程序。一些制售商提供了自动生动这些程序的工具。进行数据转换的程序(如集成、聚集等)。开发的专用ETL程序更新关系数据库的程序。查询、分析和展示大型数据库的程序。许多最终用户工具都需要有优化的查询工具*应用程序结构设计的组成:为数据仓库创建和修改数据库的程序*运行配置数据源净化和抽取过程数据源连接到数据仓库的过程;数据仓库内部用于管理目的的过程;数据仓库连接到最终用户工具的过程;建立与数据仓库相连接的分析工具的过程;日常管理、分配以及维护数据仓库的过程。*运行配置数据源净化和抽取过程*试运行

试用阶段主要解决数据仓库方案的安装、运行和使用等问题。提供初始安装,初始数据与资源连接和数据更新与同步工具;规划并提交一个分阶段的实现方案;为各阶层的人提供培训和指导;规划并实现数据仓库解决方案平台更新与维护;提供归档与备份功能;提供恢复功能提供访问控制和安全性;*试运行试用阶段主要解决数据仓库方案的安装、运行和使数据抽取、清理、转换、和移植工具数据转换工具要能从各种不同的数据源中读取数据。能以不同类型数据源为输入整合数据。具有规范的数据访问接口具有从数据字典中读取数据的能力工具生成的代码必须是在开发环境中可维护的能只抽取满足指定条件的数据和源数据的指定部分能在抽取中进行数据类型转换和字符集转换能在抽取的过程中计算和生成衍生字段能让数据仓库管理系统自动调用以定期进行数据抽取数据抽取、清理、转换、和移植工具数据转换工具要能从各种不同的数据仓库的关键技术数据仓库核心技术主要包括:海量数据——存储与访问高速准确——查询性能快速强大——并行处理能力与伸缩能力企业应用——数据分析与处理数据仓库的关键技术数据仓库核心技术主要包括:数据结构用于高维空间数据的存取方法已有很多研究并提出了很多方法,其中包括R树及其变种[1][2]、x树、k-D-B-tree、SS-tree等。每种方法都有其自身的特点和适应性,如k-D-B-tree主要适应于点数据的存取,对于高维数据的适应性较差。R树是常用的空间数据索引结构,具有高维数据、高并存和较高效率等特征,因而广泛应用于空间数据以及复杂数据类型的组织和管理,目前已在大型商业数据库技术中采用了这种方法。

[1]A.Guttman,R-trees:adynamicindexstructureforspatialsearching.InProc.OftheACMSIGMODConferenceonManagementofData,Boston,Mass,June1984,p47~57

[2]T.Sellis,N.Roussopoulos,andC.Faloutsos.TheR+tree:adynamicindexformulti-dimensionalobjects.InProc.13thInt’lConferenceonVeryLargeDatabases,Brighton,England,1987p507~518数据结构用于高维空间数据的存取方法已有很多研究并提出了很多方R树的特点R树是B+树对于多维空间对象的扩展。在空间中一个几何体可由其最小边界矩形来限定。R树的节点分为叶节点和非叶节点用区间[a,b]来确定空间对象在第I维上的范围;它采用重叠子空间方法对n维空间对象进行索引。R树是对空间对象的最小边界矩形建立索引,只存储空间对象的标识符(ID),通过ID访问空间对象所关联的数据。ID可以是数据的逻辑地址或实际物理地址。利用R树可以对高维空间对象进行索引。R树的特点R树是B+树对于多维空间对象的扩展。R树基本原理R树基本原理数据仓库与数据挖掘 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库与数据挖掘 3.1数据库与数据仓库数据仓库与数据挖掘1、基于数据仓库的数据挖掘实现是借助于OLAP2、专用的数据挖掘工具数据仓库与数据挖掘1、基于数据仓库的数据挖掘实现是借助于OL数据分析处理技术数据仓库主要涉及三类分析处理技术基本分析supportsquerying,basicstatisticalanalysis,andreportingusingcrosstabs,tables,chartsandgraphs数据解析multidimensionalanalysisofdatawarehousedatasupportsbasicOLAPoperations,slice-dice,drilling,pivoting数据挖掘knowledgediscoveryfromhiddenpatternssupportsassociations,constructinganalyticalmodels,performingclassificationandprediction,andpresentingtheminingresultsusingvisualizationtools.数据分析处理技术数据仓库主要涉及三类分析处理技术*在线分析处理与在线挖掘在线分析处理OLAP专业人员,数据分析处理,提供决策支持面向主题、统一多维汇总、复杂查询,涉及大量数据代表性的分析工具上卷(rollup):通过概念分层的提升或维归约,在数据立方体上进行聚集。下钻(drilldown):沿着维的概念分层向下,由不太详细的数据到更详细的数据。转轴(pivot,rotate):可视化操作,转动数据的视角。*在线分析处理与在线挖掘在线分析处理OLAPHan,J.&Kamber,M.,DataMining:ConceptsandTechniques,MorganKaufmann,2000基于多维数据立方体的分析Han,J.&Kamber,M.,DataMin在线分析处理与在线挖掘在线挖掘HighqualityofdataindatawarehousesDWcontainsintegrated,consistent,cleaneddataAvailableinformationprocessingstructuresurroundingdatawarehousesODBC,Webaccessing,servicefacilities,reportingOLAP-basedexploratorydataanalysisminingwithdrilling,pivoting,etc.On-lineselectionofdataminingfunctionsintegrationandswappingofmultipleminingfunctions,algorithms,andtasks.在线分析处理与在线挖掘在线挖掘数据挖掘层次DataWarehouseMetaDataMDDBOLAMEngineOLAPEngineUserGUIAPIDataCubeAPIDatabaseAPIDatacleaningDataintegrationLayer3OLAP/OLAMLayer2MDDBLayer1DataRepositoryLayer4UserInterfaceFiltering&IntegrationFilteringDatabasesMiningqueryMiningresult数据挖掘层次DataMetaDataMDDBOLAMOLBI最新定义博易智软(北京)技术有限公司周海荣首席执行官October

18,2006BI最新定义博易智软(北京)技术有限公司周海荣首席执行IDCBI最新定义(July2006)1、终端查询、报表和分析(QRA)软件即席查询多维分析(OLAP,服务器+客户端),提供了一个用于模拟业务问题和分析业务数据的数据管理环境仪表盘生产型报表工具打包数据集市(PDM)2、高级分析(AA,技术数据分析)软件数据挖掘统计分析查询、报表和分析软件不能解决的问题,就可通过高级分析软件来解决业务中的问题。涉及的技术有神经网络、规则归纳和集群等。查询和报表工具即席数据访问和报表制作(不包括其他用于制作报表的应用开发工具)分析工具IDCBI最新定义(July2006)1、终端查询、报表BI市场现状表1,2003年—2005年全球BI市场规模($M)备注:

1、2005年全球BI市场规模达57亿美元,增长率为11.5%。

2、嵌入数据库的BI服务器的市场增长率为19.9%,较独立的BI软件增长率10.7%要高。

3、QRA市场规模大于AA市场,但AA的增长速度很快,其主要原因是象SAS打包分析应用软件厂家的掘起。Source:IDC,July2006BI市场现状表1,2003年—2005年全球BI市场规模($表2,2003年—2005年全球主要BI软件厂商的销售收入规模备注:

1、前10位厂商(57.9%—60.8%—62.3%)

2、合并与收购表2,2003年—2005年全球主要BI软件厂商的销售收入规BI市场展望一、BI的下一个浪潮

1、正如没有安全技术的组织很难生存一样,没有BI技术的组织是不能成功的。

2、BI发展呈15年循环态势

第一时期(1975-1990),为主机报表特征,先驱者为IBM、SAS和IBI等。

第二时期(1990-2005),为友好的终端客户/服务器为特征,开始了BI”现代化时代”。主要厂商有BO、Cognos和Hyperion等。同时这种技术将演变到基于Web网络的架构。第三时期(2005-2020),为企业决策支持为特征,进入了投资BI的高潮。BI不再仅供高级用户使用,且企业内/外部不同层次的用户都用BI在他们各自业务的自动化处理和决策支持。换句话说,BI将与各个层次的业务和绩效等方法都将与BI相融合,帮助提高业务的最优化等。

总之,BI的下一个浪潮表现为企业所有员工以及其他组织如:供应商、合作伙伴、客户和政府机构都将使用BI,以此提升信息的传递和决策支持的能力。BI市场展望一、BI的下一个浪潮二、业务驱动因素

1、柔顺性制定正确的决策和非武断的制定同样重要,如同一种决策过程,不同的业务和不同的人都可能改变或优化其具体的决策过程。BI能改善驱动决策制定的柔顺性。

2、竞争压力在企业的绩效管理的过程中,仪表盘和报表直观、简单呈现了业务中发生了什么,这的确有价值但使用是有限的。只有把BI与业务的上下文相融合,仪表盘也能揭示信息周围的上下文并导向业务的操作行动。换句话说,应创建支持预策分析的仪表盘。

3、公司内部的连接由于竞争的压力,要求公司内部各部门之间或业务操作过程能有效的连接,且还需与合作伙伴、供应商和客户也能有效的连接协同,这对业务的科学运营是相当重要的。

4、BI项目的最佳实践

BI实施从一种技术变为一种绩效管理过程的最佳实践,包括:什么样的KPI应被遵循、度量并以及作出响应。怎样建立和管理BICC(BI能力中心)怎样的主和元数据作为数据质量一部分,并适应依从性的管理。二、业务驱动因素什么样的KPI应被遵循、度量并以及作出响应。三、其他的一些主要趋势

1、可用和伸缩性

BI技术必须演变到能满足全部用户的需求。因为现在可获得更多供分析用的数据和更多的用户期望得到的基于这些数据的决策支持,所以对可用和伸缩需求变得愈来愈强烈。IDC研究显示,超过40%的组织,如果他们BI系统失灵几个小时,将直接影响其业务的运营。在这点上,现有的BI系统还未达到业务运营的水平。因此,各种分析和业务运营系统之间的可用性将是BI发展一大趋势。

2、传统BI与非结构内容的访问和分析

BI市场另一个重要迫切的发展趋势是传统的BI工具与非机构内容访问、分析工具(包括搜索技术)的融合。对一个企业来说,用一个唯一的搜索界面较传统的BI工具更具客户吸引力,因此搜索技术特定的即席查询和信息检索使用有取代传统BI的可能。三、其他的一些主要趋势3、智能过程自动化(IPA)

IDC称把BI嵌入到目前已经被广大终端用户日常采用的业务操作应用的方法为智能过程自动化(IPA)。IPA是BI与业务过程管理技术相融合的一种方法,它具有可重复、操作性决策等特点,而不是主管层面的一般的战略决策。但是也不取代主管仪表盘和即席的BI解决方案。上述二种方法适用于不同的用户,满足其不同的需求。只有IPA能帮助自动重复、操作性决策来满足绩效管理和柔顺性。

4、开源BI工具的影响。近二年开源软件也悄然进入BI工具市场,在这里不是传统BI工具部署在开源操作环境中,取而代之的是开源BI软件,代表的厂商如:Pentaho、JasperSoft和Actuate等。在以后的5年中开源BI软件将是BI市场中一股强大的竞争力量。3、智能过程自动化(IPA)数据挖掘与知识发现

(复杂数据对象的数据挖掘与知识发现)3数据仓库数据挖掘与知识发现

(复杂数据对象的数据挖掘与知识发现)33数据挖掘仓库 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘3数据挖掘仓库 3.1数据库与数据仓库省器材总公司省邮购局市内DDN各县邮购网点机房打印机配货部采购部管理1财务部CICSO2510打印机Modem省邮运局CICSO2510

运输管理1库房管理1打印机条码打印机ModemModemModem局长省财务查询PSTNDDN/FR各地市综合网机房IBM小型机磁盘阵列数据库服务器骨干交换机广域路由器城域路由器访问服务器省综合网机房PSTN各地市邮购网点机房采用局域网、PSTN或DDN数据仓库

河南邮政邮购系统网络拓扑总图省器材省邮购局市内DDN各县邮购网点机房打印机配货部采购部管吐哈油田开发信息管理与决策支持——“数字油田”框架吐哈油田开发信息管理与决策支持——“数字油田”框架源头数据库数据中心大数据体库主数据库勘探测井钻井开发经营其他开发数据应用(缓存和质量检查)数据采集原始数据审核后审核后项目数据库项目数据库现有应用系统项目应用项目应用集成管理平台应用中心数据源头勘探数据应用(以开发数据应用为例)采油厂地学研究平台地学研究应用生产管理平台经营管理平台生产管理应用经营管理应用决策支持系统业务逻辑平台其他专业数据应用源头数据库数据中心大数据体库主数据库勘探测井钻井开发经营其他源点数据库基层生产管理库质量控制迁移提升应用服务管理体系项目库项目库数据中心专业应用综合应用基层应用采油厂人工采集实时采集甲乙方关系外部信息…钻测录政府客户有限公司源点数据采集平台地学研究总库大数据体总库生产管理总库成果总库图形、文档数据采集标准质量控制标准源点数据库逻辑标准数据中心数据库逻辑标准项目数据库逻辑标准生产管理库逻辑标准物探质量迁移应用服务管理体系数据中心专业应用综合应用基层应用采油天然气数据标准体系源点数据采集标准数据中心标准应用标准生产管理数据库标准(现有标准、符合国内企业管理特色)源点数据采集标准采集质量控制标准源点数据库标准(贴近业务需求、继承性)地学研究数据库标准(国际标准)大数据体数据库标准(国际标准)成果数据库标准(国际标准)项目数据库标准(由应用定制)成果数据标准(符合数据中心存贮要求)天然气数据标准体系源点数据采集标准数据中心标准应用标准生产管中石化天然气数据标准数据采集标准天然气数据标准数据应用标准数据库逻辑结构(与国际接轨)源点数据标准(符合国家标准、企业标准、行业标准和现行信息化标准)数据采集标准(符合国内企业生产特点和业务流程)采集质量控制标准数据代码标准(符合数据中心整体要求)科研成果数据标准(符合数据中心整体要求)数据应用标准(符合企业个性化管理特色)数据库管理规章制度成果数据加载标准(符合数据中心加载要求)中石化天然气数据标准数据采集标准天然气数据标准数据应用标准数数据库与数据仓库什么是数据仓库数据仓库是一个环境,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。数据库与数据仓库什么是数据仓库数据库、数据仓库间的关系生产人事供应监测销售数据仓库清理转换分析查询用户数据库、数据仓库间的关系生产人事供应监测销售数据仓库清理转换数据库与数据仓库“Adatawarehouseisa

subject-oriented,integrated,time-variantcollectionofdatainsupportofmanagement’sdecision-makingprocess.”—W.H.Inmon数据库与数据仓库“Adatawarehouseisa多维模型是人们观察数据的形象表示

可以是2,3,4或更多维

可以对多维模型进分析–

即:选择哪维作为查询条件.多维模型ProductLinesRegionsTime当数据量大时,传统的数据模型比较复杂,最终用户难于理解多表联结(Join)查询(尤其是大表),既费时,又占用大量资源数据库与数据仓库多维模型是人们观察数据多维模型ProductLinesRe维:人们观察数据的特定角度--对应维表。维成员:维的取值。维层次:代表维的细节程度,时间维的层次可以是——年,季,月,周,日,等等.类:维成员互不相交的一个子集.多维模型:基本概念多维模型ProductLinesRegionsTime维表维:人们观察数据的特定角度--对应维表。多维模型:基本概念多维分析:对以维形式组织的数据采取切片,切块和旋转等动作,以求全面深刻地分析数据.切片(Slice):

按照某一维取值做查询.切块(Dice):按照一维或多维取值做查询.旋转:改变一个报告或页面显示的维方向.多维模型:基本概念多维分析:多维模型:基本概念维表:存放维数据的表.对维进行深层次的分析事实表:事实表示主题由事实数据元素和维数据元素组成.事实表是多维模型的核心.事实数据是决策分析的数据基础.其中包含事实名称和度量。多维模型:基本概念下面我们看一下数据仓库有哪些特点?维表:多维模型:基本概念下面我们看一下数据仓库有哪些特数据仓库的面向主题围绕一些主题Organizedaroundmajorsubjects,suchascustomer,product,sales.概念Focusingonthemodelingandanalysisofdatafordecisionmakers,notondailyoperationsortransactionprocessing.Provideasimpleandconciseviewaroundparticularsubjectissuesbyexcludingdatathatarenotusefulinthedecisionsupportprocess.数据仓库的面向主题围绕一些主题Organizedaroun数据仓库的数据集成异种数据源集成Constructedbyintegratingmultiple,heterogeneousdatasourcesrelationaldatabases,flatfiles,on-linetransactionrecordsDatacleaninganddataintegrationtechniquesareapplied.Ensureconsistencyinnamingconventions,encodingstructures,attributemeasures,etc.amongdifferentdatasourcesWhendataismovedtothewarehouse,itisconverted.数据仓库的数据集成异种数据源集成Constructedby数据仓库的时变性包含历史数据Thetimehorizonforthedatawarehouseissignificantlylongerthanthatofoperationalsystems.Operationaldatabase:currentvaluedata.Datawarehousedata:provideinformationfromahistoricalperspective(e.g.,past5-10years)EverykeystructureinthedatawarehouseContainsanelementoftime,explicitlyorimplicitlyButthekeyofoperationaldatamayormaynotcontain“timeelement”.数据仓库的时变性包含历史数据Thetimehorizon数据仓库数据的非易失性物理分离Aphysicallyseparatestoreofdatatransformedfromtheoperationalenvironment.Operationalupdateofdatadoesnotoccurinthedatawarehouseenvironment.Doesnotrequiretransactionprocessing,recovery,andconcurrencycontrolmechanismsRequiresonlytwooperationsindataaccessing:initialloadingofdataandaccessofdata.数据仓库数据的非易失性物理分离Aphysicallyse数据仓库的操作

3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的操作 3.1数据库与数据仓库数据仓库的操作OLTP(on-linetransactionprocessing)MajortaskoftraditionalrelationalDBMSDay-to-dayoperations:purchasing,banking,manufacturing,payroll,accounting,etc.OLAP(on-lineanalyticalprocessing)MajortaskofdatawarehousesystemDataanalysisanddecisionmaking数据仓库的操作OLTP(on-linetransactiOLTP与OLAP对比OLTP与OLAP对比数据仓库的概念模型

3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的概念模型 3.1数据库与数据仓库数据仓库的概念模型Modelingdatawarehouses星形结构:以事实表为核心连接多个维表。雪花结构:精华的事实表,有些维层次规范化,构成雪花状的维表。事实星群结构:多个事实表共享维表,看上去像星簇,所以称之为星河或事实群。

数据仓库的概念模型Modelingdatawarehou星型结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch星型结构time_keytimelocation_keylo雪花状结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity雪花状结构time_keytimelocation_keyl事实星群结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper事实星群结构time_keytimelocation_key概念层次allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity概念分层:定义一种映射序列,序关系。许多概念都具有序结构概念层次allEuropeNorth_AmericaMexi数据立方体 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据立方体 3.1数据库与数据仓库数据立方体销售量是产品,月份以及区域的函数ProductRegionMonthDimensions:Product,Location,Time层次归纳路径为:IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay数据立方体:允许以多维对数据进行建模和观察数据立方体销售量是产品,月份以及区域的函数ProductR数据立方体的实例TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum数据立方体的实例TotalannualsalesDate立方格,三维立方体allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(apex)cuboid1-Dcuboids2-Dcuboids3-D(base)cuboid立方格,三维立方体allproductdatecountry数据立方体实例VisualizationOLAPcapabilitiesInteractivemanipulation数据立方体实例Visualization数据仓库的结构 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的结构 3.1数据库与数据仓库DataWarehouseExtractTransformLoadRefreshOLAPEngineAnalysisQueryReportsDataminingMonitor&IntegratorMetadataDataSourcesFront-EndToolsServeDataMartsOperational

DBsothersourcesDataStorageOLAPServer数据仓库的多层结构DataExtractOLAPEngineAnalysis数据仓库体系结构图按照不同的主题进行数据综合数据仓库体系结构图按照不同的主题进行数据综合数据仓库的元数据 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的元数据 3.1数据库与数据仓库元数据元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,管理元数据和商业元数据。

管理元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录等。元数据元数据:元数据是描述数据仓库内数据的结构和建立方法的数元数据商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。

元数据商业元数据从商业业务的角度描述了数据仓库中的数据。包括描述数据仓库中数据的数据

Metadata的组成是:表,数据元素,主键数据元素的物理特征各种定义数据抽取历史数据汇总算法数据属主关系及存取模式数据生命期以及淘汰规则数据安全性数据的度量单位元数据(Metadata)描述数据仓库中数据的数据元数据(Metadata)在整个数据仓库建设过程中,元数据被不断积累和丰富,从源数据到目标数据或相反,是可以追踪的。收集元数据在整个数据仓库建设过程中,元数据被不断积累和丰富,从源数据数据仓库的建立 3.1数据库与数据仓库

3.2数据仓库的操作

3.3数据仓库的概念模型

3.4数据立方体

3.5数据仓库的结构

3.6数据仓库的元数据

3.7数据仓库的建立

3.8数据仓库与数据挖掘数据仓库的建立 3.1数据库与数据仓库建立数据仓库的步骤:收集和分析业务需求建立数据模型和数据仓库的物理设计定义数据源选择数据仓库技术和平台从操作型数据库中抽取、净化、和转换数据到数据仓库选择访问工具和报表生成工具选择数据库连接软件选择数据分析和数据展示软件数据仓库更新和安全解决方案建立数据仓库的步骤:收集和分析业务需求*确定主题精心选择主题域,最大限度地发挥其作用。如,市场部门可能关心下面的主题:市场研究竞争分析购买者的特点市场辅助产品(市场比较)价格和预算决策产品决策促销决策渠道决策预测趋势水平标准*确定主题精心选择主题域,最大限度地发挥其作用。如,市场部*分析

数据仓库开发生存期的分析阶段主要是把以前需求阶段所收集的需求转化为一系列能够支持设计的规格说明。数据仓库有三个主要的输入规格说明:商业重点需求:用于描述数据仓库必须包含的信息范围,还可确定读者群及其信息需求数据源需求规格说明:用于描述当前数据源中可用信息的范围。*分析数据仓库开发生存期的分析阶*分析最终使用和访问需求规格说明:用于确定数据仓库中信息的使用方式,同时还用于说明工具的种类和所使用的技术。分析的过程就是为数据仓库逻辑和物理数据模型,并且确定将数据源、数据仓库和最终用户访问工具连接在一起所需的过程。*分析最终使用和访问需求规格说明:用于确定数据仓库中信息的*设计

设计阶段将分析阶段所开发的逻辑模型转化为物理模型。将数据源连接到数据仓库、将数据仓库连接到基于用户工作站的工具,这些过程都被转化成处理过程所需要的方案设计,同时还要指定和细化数据仓库。

*设计设计阶段将分析阶段所开发的逻辑模*设计

数据结构设计包括以下内容:·为数据仓库的存储数据库开发物理数据模型,而且物理模型还可能用于最终用户工具所需的逻辑存储。·将数据源的物理模型映射到数据仓库的物理模型。这种映射有助于数据抽取程序和数据仓库内部的求精和重构工程更好地完成其功能。

*设计数据结构设计包括以下内容:*构造

构造阶段负责从物理上实现设计阶段所开发的设计方案。通过明智地“制定或购买”决策,就有可能相当快地集成数据仓库解决方案。同时,果断地合并已有投资,还可能加速开发任务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论