数据仓库与数据挖掘综述.ppt_第1页
数据仓库与数据挖掘综述.ppt_第2页
数据仓库与数据挖掘综述.ppt_第3页
数据仓库与数据挖掘综述.ppt_第4页
数据仓库与数据挖掘综述.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘综述 概念 体系结构 趋势 应用 报告人 朱建秋2001年6月7日 提纲 数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术 与数据库技术的区别 数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 科委申请项目 数据仓库概念 基本概念对数据仓库的一些误解 基本概念 数据仓库 Datawarehouseisasubjectoriented integrated non volatileandtimevariantcollectionofdatainsupportofmanagement sdecision Inmon 1996 Datawarehouseisasetofmethods techniques andtoolsthatmaybeleveragedtogethertoproduceavehiclethatdeliversdatatoend usersonanintegratedplatform Ladley 1997 Datawarehouseisaprocessofcrating maintaining andusingadecision supportinfrastructure Appleton 1995 Haley 1997 Gardner1998 基本概念 数据仓库特征 Inmon 1996 面向主题一个主题领域的表来源于多个操作型应用 如 客户主题 来源于 定单处理 应收帐目 应付帐目 典型的主题领域 客户 产品 交易 帐目主题领域以一组相关的表来具体实现相关的表通过公共的键码联系起来 如 顾客标识号CustomerID 每个键码都有时间元素 从日期到日期 每月累积 单独日期 主题内数据可以存储在不同介质上 综合级 细节级 多粒度 集成数据提取 净化 转换 装载稳定性批处理增加 仓库已经存在的数据不会改变随时间而变化 时间维 管理决策支持 基本概念 DataMart ODS DataMart数据集市 小型的 面向部门或工作组级数据仓库 OperationDataStore操作数据存储 ODS是能支持企业日常的全局应用的数据集合 是不同于DB的一种新的数据环境 是DW扩展后得到的一个混合形式 四个基本特点 面向主题的 Subject Oriented 集成的 可变的 当前或接近当前的 基本概念 ETL 元数据 粒度 分割 ETLETL Extract Transformation Load 数据装载 转换 抽取工具 MicrosoftDTS IBMVisualWarehouseetc 元数据关于数据的数据 用于构造 维持 管理 和使用数据仓库 在数据仓库中尤为重要 粒度数据仓库的数据单位中保存数据的细化或综合程度的级别 细化程度越高 粒度越小 分割数据分散到各自的物理单元中去 它们能独立地处理 对数据仓库的一些误解 数据仓库与OLAP星型数据模型多维分析数据仓库不是一个虚拟的概念数据仓库与范式理论需要非范式化处理 提纲 数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术 与数据库技术的区别 数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 科委申请项目 数据仓库体系结构及组件 体系结构ETL工具元数据库 Repository 及元数据管理数据访问和分析工具 体系结构 Pieter 1998 SourceDatabases ArchitectedDataMarts DataAccessandAnalysis End UserDWTools CentralDataWarehouse CentralDataWarehouse Mid Tier Mid Tier DataMart DataMart LocalMetadata MetadataExchange MDB DataCleansingTool Relational Appl Package Legacy External RDBMS RDBMS 带ODS的体系结构 SourceDatabases ArchitectedDataMarts DataAccessandAnalysis CentralDataWare houseandODS CentralDataWarehouse Mid Tier RDBMS DataMart Mid Tier RDBMS DataMart LocalMetadata MetadataExchange ODS OLTPTools End UserDWTools 现实环境 异质性 DouglasHackney 2001 CustomMarketingDataWarehouse PackagedOracleFinancialDataWarehouse PackagedI2SupplyChainNon ArchitectedDataMart SubsetDataMarts OracleFinancials i2SupplyChain SiebelCRM 3rdParty e Commerce 联合型数据仓库 数据集市体系结构 RealTimeODS FederatedFinancialDataWarehouse SubsetDataMarts CommonStagingArea OracleFinancials i2SupplyChain SiebelCRM 3rdParty FederatedPackagedI2SupplyChainDataMarts AnalyticalApplications e Commerce RealTimeDataMiningandAnalytics RealTimeSegmentation Classification Qualification Offerings etc FederatedMarketingDataWarehouse Front andback officeOLTP e Businesssystems Externalinformationproviders CRMAnalytics Reporting SupplyChainAnalytics Reporting EKP EnterpriseKnowledgeManagementPortal EPMAnalytics Reporting Businessinformation recommendations Informeddecisions actions FinancialAnalytics Reporting HRAnalytics Reporting 闭环的联合型BI体系结构 数据仓库的焦点问题 数据的获得 存储和使用 Relational Package Legacy Externalsource DataCleanTool DataStaging EnterpriseDataWarehouse Datamart Datamart RDBMSROLAP RDBMS 数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要 ETL工具 去掉操作型数据库中的不需要的数据统一转换数据的名称和定义计算汇总数据和派生数据估计遗失数据的缺省值调节源数据的定义变化 ETL工具体系结构 元数据库及元数据管理 元数据分类 技术元数据 商业元数据 数据仓库操作型信息 AlexBersonetc 1999 技术元数据包括为数据仓库设计人员和管理员使用的数据仓库数据信息 用于执行数据仓库开发和管理任务 包括 数据源信息转换描述 从操作数据库到数据仓库的映射方法 以及转换数据的算法 目标数据的仓库对象和数据结构定义数据清洗和数据增加的规则数据映射操作访问权限 备份历史 存档历史 信息传输历史 数据获取历史 数据访问 等等 元数据库及元数据管理 商业元数据给用户易于理解的信息 包括 主题区和信息对象类型 包括查询 报表 图像 音频 视频等Internet主页支持数据仓库的其它信息 例如对于信息传输系统包括预约信息 调度信息 传送目标的详细描述 商业查询对象 等数据仓库操作型信息例如 数据历史 快照 版本 拥有权 抽取的审计轨迹 数据用法 元数据库及元数据管理 元数据库 metadatarepository 和工具 MartinStardt 2000 数据访问和分析工具 报表OLAP数据挖掘 提纲 数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术 与数据库技术的区别 数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 科委申请项目 数据仓库设计 自上而下 Top Down 自底而上 BottomUp 混合的方法数据仓库建模 Top downApproach BuildEnterprisedatawarehouseCommoncentraldatamodelDatare engineeringperformedonceMinimizeredundancyandinconsistencyDetailedandhistorydata globaldatadiscoveryBuilddatamartsfromtheEnterpriseDataWarehouse EDW SubsetofEDWrelevanttodepartmentMostlysummarizeddataDirectdependencyonEDWdataavailability LocalDataMart ExternalData LocalDataMart OperationalData 自底而上设计方法 创建部门的数据集市范围局限于一个主题区域快速的ROI 局部的商业需求得到满足本部门自治 设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库创建EDB作为一个长期的目标 局部数据集市 操作型数据 局部 局部数据集市 企业数据仓库EDB 数据仓库建模 星型模式 ExampleofStarSchema 数据仓库建模 雪片模式 DateMonth Date SalesFactTable Date Product Store Customer unit sales dollar sales Yen sales Measurements MonthYear Month Year Year ExampleofSnowflakeSchema 操作型 OLTP 数据源 销售库 星形模式 时间维 事实表 多维模型 提纲 数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术 与数据库技术的区别 数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 科委申请项目 数据仓库技术 Inmon 1996 管理大量数据能够管理大量数据的能力能够管理好的能力管理多介质 层次 主存 扩展内存 高速缓存 DASD 光盘 缩微胶片监视数据决定是否应数据重组决定索引是否建立得不恰当决定是否有太多数据溢出决定剩余的可用空间利用多种技术获得和传送数据批模式 联机模式并不非常有用程序员 设计者对数据存放位置的控制 块 页 数据的并行存储 管理元数据管理 数据仓库技术 Inmon 1996 数据仓库语言接口能够一次访问一组数据能够一次访问一条记录支持一个或多个索引有SQL接口数据的高效装入高效索引的利用用位映像的方法 多级索引等数据压缩I O资源比CPU资源少得多 因此数据解压缩不是主要问题复合键码 因为数据随时间变化 变长数据加锁管理 程序员能显式控制锁管理程序 单独索引处理 查看索引就能提供某些服务 快速恢复 数据仓库技术 Inmon 1996 其他技术特征 传统技术起很小作用事务集成性 高速缓存 行 页级锁定 参照完整性 数据视图传统DBMS与数据仓库DBMS区别为数据仓库和决策支持优化设计管理更多数据 10GB 100GB TB传统DBMS适合记录级更新 提供 锁定Lock 提交Commit 检测点CheckPoint 日志处理Log 死锁处理DeadLock 回退Roolback 基本数据管理 如 块管理 传统DBMS需要预留空间索引区别 传统DBMS限制索引数量 数据仓库DBMS没有限制通用DBMS物理上优化便于事务访问处理 而数据仓库便于DSS访问分析改变DBMS技术多维DBMS和数据仓库多维DBMS作为数据仓库的数据库技术 这种想法是不正确的多维DBMS OLAP 是一种技术 数据仓库是一种体系结构的基础双重粒度级别 DASD 磁带 数据仓库技术 Inmon 1996 数据仓库环境中的元数据DSS分析人员和IT专业人员不同 需要元数据的帮助操作型环境和数据仓库环境之间的映射需要元数据数据仓库包含很长时间的数据 必须有元数据标记数据结构 定义上下文和内容 上下文维 简单上下文信息 数据结构 编码 命名约定 度量 复杂上下文信息 产品定义 市场领域 定价 包装 组织结构 外部上下文信息 经济预测 通货膨胀 金融 税收 政治信息 竞争信息 技术进展 刷新数据仓库数据复制 触发器 变化数据捕获 CDC 日志 提纲 数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术 与数据库技术的区别 数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 科委申请项目 数据仓库性能 Inmon 1999 使用数据平台服务管理 王天佑等译 数据仓库管理 电子工业出版社 2000年5月 提纲 数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术 与数据库技术的区别 数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 科委申请项目 数据仓库应用 DW用户数的调查 DW系统的用户在100 500以内或以上是未来一段时期内的主要部分 DW用户的调查最近一年MetaGroupSurvey调查对象 3000 用户或意向用户 DW数据规模的调查 DW规模的调查最近一年MetaGroupSurvey调查对象 3000 用户或意向用户 HowMuch 3 6mformid sizecompany lessifsmaller moreiflarger 10m forlargeorganizations largedatasets10 50 annualmaintenancecosts33 Hardware 33 Software 33 Services HowLong 2 4yearsfor80 20offullsystemformid sizecompany6 12monthsforinitialiteration3 6monthsforsubsequentiterations HowRisky ForEDWProjects 20 Meta to70 OTR DWN failHighfailureratefornon businessdriveninitiativesVeryfewsystemsmeettheexpectationsofthebusinessFailurenotduetotechnology dueto soft issuesMassiveupsidetosuccessfulprojects 100 2000 ROI 99 politics 1 technology 参考文献 Inmon W H BuildingtheDataWarehouse JohmWileyandSons 1996 Ladley John OperationalDataStores BuildinganEffectiveStrategy Datawarehouse PraticalAdviceformtheExperts PrenticeHall EnglewoodCliffs NJ 1997 Gardmer StephenR BuildingtheDatawarehouse CommunicationofACM September1998 Volume41 Numver9 52 60 DouglasHackney Http DW101 APracticalOverview 2001PieterR Mimno TheBigPicture HowBrioCompetesintheDataWarehousingMarket PresentationtoBrioTechnology August4 1998 AlexBerson StephenSmith KurtTherling BuildingDataMiningApplicationforCRM McGraw Hill 1999MartinStardt AncaVaduva ThomasVetterli TheRoleofMetaforDataWarehouse 2000W H Inmon KenRudin ChristopherK Buss RyanSousa DataWarehousePerformance JohnWiley Sons 1999 提纲 数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术 与数据库技术的区别 数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 科委申请项目 数据挖掘应用综述 数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 数据挖掘应用概述 应用比例DataMiningUpsidesDataMiningDownsidesDataMiningUseDataMiningIndustryandApplicationDataMiningCosts 应用比例 Clustering22 DirectMarketing14 Cross SellModels12 2001 6 11News Discoveryofpreviouslyunknownrelationships trends anomalies etc PowerfulcompetitiveweaponAutomationofrepetitiveanalysisPredictivecapabilities DataMiningUpsides KnowledgediscoverytechnologyimmatureLonglearningandtuningcyclesforsometechnologies Blackbox technologyminimizesconfidenceVLDB VeryLargeDataBase requirements DataMiningDownsides DataMiningUses Discoveranomalies outliersandexceptionsinprocessdataDiscoverbehaviorandpredictoutcomesofcustomerrelationshipsChurnmanagementTargetmarketing marketofone PromotionmanagementFrauddetectionPatternID matching darkprograms science DataMiningIndustryandApplications Fromresearchprototypestodataminingproducts languages andstandardsIBMIntelligentMiner SASEnterpriseMiner SGIMineSet Clementine MS SQLServer2000 DBMiner BlueMartini MineIt DigiMine etc Afewdatamininglanguagesandstandards esp MSOLEDBforDataMining ApplicationachievementsinmanydomainsMarketanalysis trendanalysis frauddetection outlieranalysis Webmining etc DataMiningCosts Desktoptools 500andup MSFTcomingatlowpricepoint Server MFbased 20 000to 700 000 MustalsoaddcostofextensiveconsultingforhighendtoolsDon tforgetlongtrainingandlearningcurvetimeOngoingprocess nottaskautomationsoftware 提纲 数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术 与数据库技术的区别 数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台 科委申请项目 数据挖掘趋势 历史回顾多学科交叉数据挖掘从多个角度分类最近十年的研究进展数据挖掘的趋势数据挖掘与标准化进程 历史回顾 1989IJCAIWorkshoponKnowledgeDiscoveryinDatabasesKnowledgeDiscoveryinDatabases G Piatetsky ShapiroandW Frawley 1991 1991 1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining U Fayyad G Piatetsky Shapiro P Smyth andR Uthurusamy 1996 1995 1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining KDD 95 98 JournalofDataMiningandKnowledgeDiscovery 1997 1998ACMSIGKDD SIGKDD 1999 2001conferences andSIGKDDExplorationsMoreconferencesondataminingPAKDD PKDD SIAM DataMining IEEE ICDM DaWaK SPIE DM etc DataMining ConfluenceofMultipleDisciplines DataMining DatabaseTechnology Statistics OtherDisciplines InformationScience MachineLearning AI Visualization AMulti DimensionalViewofDataMining DatabasestobeminedRelational transactional object relational active spatial time series text multi media heterogeneous legacy WWW etc KnowledgetobeminedCharacterization discrimination association classification clustering trend deviationandoutlieranalysis etc TechniquesutilizedDatabase oriented datawarehouse OLAP machinelearning statistics visualization neuralnetwork etc ApplicationsadaptedRetail telecommunication banking fraudanalysis DNAmining stockmarketanalysis Webmining Webloganalysis etc ResearchProgressintheLastDecade Multi dimensionaldataanalysis DatawarehouseandOLAP on lineanalyticalprocessing Association correlation andcausalityanalysisClassification scalabilityandnewapproachesClusteringandoutlieranalysisSequentialpatternsandtime seriesanalysisSimilarityanalysis curves trends images texts etc Textmining WebminingandWebloganalysisSpatial multimedia scientificdataanalysisDatapreprocessinganddatabasecompressionDatavisualizationandvisualdataminingManyothers e g collaborativefiltering ResearchDirections HanJ W 2001 WebminingTowardsintegrateddataminingenvironmentsandtools Vertical orapplication specific dataminingInvisibledataminingTowardsintelligent efficient andscalabledataminingmethods TowardsIntegratedDataMiningEnvironmentsandTools OLAPMining IntegrationofDataWarehousingandDataMiningQueryingandMining AnIntegratedInformationAnalysisEnvironmentBasicMiningOperationsandMiningQueryOptimization Vertical orapplication specific dataminingInvisibledatamining QueryingandMining AnIntegratedInformationAnalysisEnvironment DataminingasacomponentofDBMS datawarehouse orWebinformationsystemIntegratedinformationprocessingenvironmentMS SQLServer 2000 Analysisservice IBMIntelligentMineronDB2SASEnterpriseMiner datawarehousing miningQuery basedminingQueryingdatabase DW WebknowledgeEfficiencyandflexibility preprocessing on lineprocessing optimization integration etc Vertical DataMining Genericdataminingtools Toosimpletomatchdomain specific sophisticatedapplicationsExpertknowledgeandbusinesslogicrepresentmanyyearsofworkintheirownfields Datamining businesslogic domainexpertsAmulti dimensionalviewofdataminersComplexityofdata Web sequence spatial multimedia Complexityofdomains DNA astronomy market telecom Domain specificdataminingtoolsProvideconcrete killersolutiontospecificproblemsFeedbacktobuildmorepowerfultools InvisibleDataMining BuildminingfunctionsintodailyinformationservicesWebsearchengine linkanalysis authoritativepages userprofiles adaptivewebsites etc Improvementofqueryprocessing history dataMakingservicesmartandefficientBenefitsfrom todataminingresearchDataminingresearchhasproducedmanyscalable efficient novelminingsolutionsApplicationsfeednewchallengeproblemstoresearch TowardsIntelligentToolsforDataMining IntegrationpavesthewaytointelligentminingSmartinterfacebringsintelligenceEasytouse understandandmanipulateOnepicturemayworth1 000wordsVisualandaudiodataminingHuman CenteredDataMiningTowardsself tuning self managing self triggeringdatamining IntegratedMining ABoosterforIntelligentMining IntegrationpavesthewaytointelligentminingDataminingintegrateswithDBMS DW WebDB etcIntegrationi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论