数据仓库与数据挖掘综述_第1页
数据仓库与数据挖掘综述_第2页
数据仓库与数据挖掘综述_第3页
数据仓库与数据挖掘综述_第4页
数据仓库与数据挖掘综述_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘综述概念、体系结构、趋势、应用报告人:朱建秋提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目)数据仓库概念基本概念对数据仓库的一些误解基本概念—数据仓库Datawarehouseisasubjectoriented,integrated,non-volatileandtimevariantcollectionofdatainsupportofmanagement’sdecision——[Inmon,1996].Datawarehouseisasetofmethods,techniques,andtoolsthatmaybeleveragedtogethertoproduceavehiclethatdeliversdatatoend-usersonanintegratedplatform——[Ladley,1997].Datawarehouseisaprocessofcrating,maintaining,andusingadecision-supportinfrastructure——[Appleton,1995][Haley,1997][Gardner1998].基本概念—数据仓库特征 [Inmon,1996]面向主题一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…)典型的主题领域:客户;产品;交易;帐目主题领域以一组相关的表来具体实现相关的表通过公共的键码联系起来(如:顾客标识号CustomerID)每个键码都有时间元素(从日期到日期;每月累积;单独日期…)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成数据提取、净化、转换、装载稳定性批处理增加,仓库已经存在的数据不会改变随时间而变化(时间维)管理决策支持基本概念—DataMart,ODSDataMart数据集市--

小型的,面向部门或工作组级数据仓库。OperationDataStore操作数据存储—ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。基本概念—ETL,元数据,粒度,分割ETLETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元数据关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。分割数据分散到各自的物理单元中去,它们能独立地处理。对数据仓库的一些误解数据仓库与OLAP星型数据模型多维分析数据仓库不是一个虚拟的概念数据仓库与范式理论需要非范式化处理提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目)数据仓库体系结构及组件体系结构ETL工具元数据库(Repository)及元数据管理数据访问和分析工具体系结构构[Pieter,1998]SourceDatabasesDataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisEnd-UserDWToolsCentralDataWarehouseCentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS带ODS的体系结结构SourceDatabasesHub-DataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisCentralDataWare-houseandODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools现实环境境—异质质性[DouglasHackney,2001]CustomMarketingDataWarehousePackagedOracleFinancialDataWarehousePackagedI2SupplyChainNon-ArchitectedDataMartSubsetDataMartsOracleFinancialsi2SupplyChainSiebelCRM3rdPartye-Commerce联合型数数据仓库库/数据据集市体体系结构构RealTimeODSFederatedFinancialDataWarehouseSubsetDataMartsCommonStagingAreaOracleFinancialsi2SupplyChainSiebelCRM3rdPartyFederatedPackagedI2SupplyChainDataMartsAnalyticalApplicationse-CommerceRealTimeDataMiningandAnalyticsRealTimeSegmentation,Classification,Qualification,Offerings,etc.FederatedMarketingDataWarehouseETLtools&DWtemplatesDataprofiling&reengineeringtoolsDemand-drivendataacquisition&analysisMetadataInterchangeFederateddatawarehouseanddatamartsystemsDecisionenginemodels,rulesandmetricsOLAP&dataminingtools,AnalysistemplatesAnalyticapplicationdevelopmenttools&componentsAnalyticapplicationsFront-andback-officeOLTPe-BusinesssystemsExternalinformationprovidersCRMAnalytics&ReportingSupplyChainAnalytics&ReportingEKP-EnterpriseKnowledgeManagementPortalEPMAnalytics&ReportingBusinessinformation&recommendationsInformeddecisions&actionsFinancialAnalytics&ReportingHRAnalytics&Reporting闭环的联合型型BI体系结构数据仓库的焦焦点问题-数据的获得、、存储和使用用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool数据仓库和集集市的加载能能力至关重要要数据仓库和集集市的查询输输出能力至关关重要ETL工具去掉操作型数数据库中的不不需要的数据据统一转换数据据的名称和定定义计算汇总数据据和派生数据据估计遗失数据据的缺省值调节源数据的的定义变化ETL工具体系结构构元数据库及元元数据管理元数据分类::技术元数据据;商业元数数据;数据仓仓库操作型信信息。-[AlexBersonetc,1999]技术元数据包括为数据仓仓库设计人员员和管理员使使用的数据仓仓库数据信息息,用于执行行数据仓库开开发和管理任任务。包括::数据源信息转换描述(从从操作数据库库到数据仓库库的映射方法法,以及转换换数据的算法法)目标数据的仓仓库对象和数数据结构定义义数据清洗和数数据增加的规规则数据映射操作作访问权限,备备份历史,存存档历史,信信息传输历史史,数据获取取历史,数据据访问,等等等元数据库及元元数据管理商业元数据给用户易于理理解的信息,,包括:主题区和信息息对象类型,,包括查询、、报表、图像像、音频、视视频等Internet主页支持数据仓库库的其它信息息,例如对于于信息传输系系统包括预约约信息、调度度信息、传送送目标的详细细描述、商业业查询对象,,等数据仓库操作作型信息例如,数据历历史(快照,,版本),拥拥有权,抽取取的审计轨迹迹,数据用法法元数据库及元元数据管理元数据库(metadatarepository)和工具—[MartinStardt,2000]数据访问和分分析工具报表OLAP数据挖掘提纲数据仓库概念念数据仓库体系系结构及组件件数据仓库设计计数据仓库技术术(与数据库库技术的区别别)数据仓库性能能数据仓库应用用数据挖掘应用用概述数据挖掘技术术与趋势数据挖掘应用用平台(科委委申请项目))数据仓库设计计自上而下(Top-Down)自底而上(BottomUp)混合的方法数据仓库建模模Top-downApproachBuildEnterprisedatawarehouseCommoncentraldatamodelDatare-engineeringperformedonceMinimizeredundancyandinconsistencyDetailedandhistorydata;globaldatadiscoveryBuilddatamartsfromtheEnterpriseDataWarehouse(EDW)SubsetofEDWrelevanttodepartmentMostlysummarizeddataDirectdependencyonEDWdataavailabilityLocalDataMartExternalDataLocalDataMartOperationalDataEnterpriseWarehouse自底而上设计计方法创建部门的数数据集市范围局限于一一个主题区域域快速的ROI--局部的商业需需求得到满足足本部门自治--设计计上具有灵活活性对其他部门门数据集市市是一个好好的指导容易复制到到其他部门门需要为每个个部门做数数据重建有一定级别别的冗余和和不一致性性一个切实可可行的方法法扩大到企业业数据仓库库创建EDB作为一个长长期的目标标局部数据集集市外部数据操作型数据(全部)操作型数据(局部)操作型数据据(局部)局部数据集集市企业数据仓仓库EDB数据仓库建建模—星星型模式式ExampleofStarSchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactTable

Date

Product

Store

Customer

unit_sales

dollar_sales

Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore数据仓库建建模—雪雪片模式式DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTableDateProductStoreCustomerunit_salesdollar_salesYen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStoreExampleofSnowflakeSchema操作型(OLTP)数据源销销售库星形模式时间维事实表多维模型事实度量(Metrics)时间维时间维的属性提纲数据仓库概概念数据仓库体体系结构及及组件数据仓库设设计数据仓库技技术(与数数据库技术术的区别))数据仓库性性能数据仓库应应用数据挖掘应应用概述数据挖掘技技术与趋势势数据挖掘应应用平台((科委申请请项目)数据仓库技技术——[Inmon,1996]管理大量数数据能够管理大大量数据的的能力能够管理好好的能力管理多介质质(层次))主存、扩展展内存、高高速缓存、、DASD、、光盘、缩微微胶片监视数据决定是否应应数据重组组决定索引是是否建立得得不恰当决定是否有有太多数据据溢出决定剩余的的可用空间间利用多种技技术获得和和传送数据据批模式,联联机模式并并不非常有有用程序员/设设计者对数数据存放位位置的控制制(块/页页)数据的并行行存储/管管理元数据管理理数据仓库技技术——[Inmon,1996]数据仓库语语言接口能够一次访访问一组数数据能够一次访访问一条记记录支持一个或或多个索引引有SQL接口数据的高效效装入高效索引的的利用用位映像的的方法、多多级索引等等数据压缩I/O资源比CPU资源少得多多,因此数数据解压缩缩不是主要要问题复合合键键码码((因因为为数数据据随随时时间间变变化化))变长长数数据据加锁锁管管理理((程程序序员员能能显显式式控控制制锁锁管管理理程程序序))单独独索索引引处处理理((查查看看索索引引就就能能提提供供某某些些服服务务))快速速恢恢复复数据据仓仓库库技技术术——[Inmon,,1996]其他他技技术术特特征征,,传传统统技技术术起起很很小小作作用用事务务集集成成性性、、高高速速缓缓存存、、行行/页页级级锁锁定定、、参参照照完完整整性性、、数数据据视视图图传统统DBMS与数数据据仓仓库库DBMS区别别为数数据据仓仓库库和和决决策策支支持持优优化化设设计计管理理更更多多数数据据::10GB/100GB/TB传统统DBMS适合合记记录录级级更更新新,,提提供供::锁锁定定Lock、、提交交Commit、、检测测点点CheckPoint、、日志志处处理理Log、、死锁锁处处理理DeadLock、、回退退Roolback.基本本数数据据管管理理,,如如::块块管管理理,,传传统统DBMS需要要预预留留空空间间索引引区区别别::传传统统DBMS限制制索索引引数数量量,,数数据据仓仓库库DBMS没有有限限制制通用用DBMS物理理上上优优化化便便于于事事务务访访问问处处理理,,而而数数据据仓仓库库便便于于DSS访问问分分析析改变变DBMS技术术多维维DBMS和数数据据仓仓库库多维维DBMS作为为数数据据仓仓库库的的数数据据库库技技术术,,这这种种想想法法是是不不正正确确的的多维DBMS((OLAP)是一种种技术术,数数据仓仓库是是一种种体系系结构构的基基础双重粒粒度级级别((DASD/磁带))数据仓仓库技技术——[Inmon,1996]数据仓仓库环环境中中的元元数据据DSS分析人人员和和IT专业人人员不不同,,需要要元数数据的的帮助助操作型型环境境和数数据仓仓库环环境之之间的的映射射需要要元数数据数据仓仓库包包含很很长时时间的的数据据,必必须有有元数数据标标记数数据结结构/定义义上下文文和内内容((上下下文维维)简单上上下文文信息息(数数据结结构/编码码/命命名约约定/度量量)复杂上上下文文信息息(产产品定定义/市场场领域域/定定价/包装装/组组织结结构))外部上上下文文信息息(经经济预预测::通货货膨胀胀、金金融、、税收收/政政治信信息/竞争争信息息/技技术进进展))刷新数数据仓仓库数据复复制((触发发器))变化数数据捕捕获((CDC)((日志))提纲数据仓仓库概概念数据仓仓库体体系结结构及及组件件数据仓仓库设设计数据仓仓库技技术((与数数据库库技术术的区区别))数据仓仓库性性能数据仓仓库应应用数据挖挖掘应应用概概述数据挖挖掘技技术与与趋势势数据挖挖掘应应用平平台((科委委申请请项目目)数据仓仓库性性能—[Inmon,1999]使用数据平台服务管理王天佑等等译,《数数据仓库管管理》,电电子工业业出版社,,2000年5月提纲数据仓库概概念数据仓库体体系结构及及组件数据仓库设设计数据仓库技技术(与数数据库技术术的区别))数据仓库性性能数据仓库应应用数据挖掘应应用概述数据挖掘技技术与趋势势数据挖掘应应用平台((科委申请请项目)数据仓库应应用—DW用户数的调调查“DW系统的用在100-500以内或以上是未来一段时期内的主要部分“DW用户的调查最近一年MetaGroupSurvey调查对象::3000+用户户或意向用用户DW数据规模的的调查DW规模的调查查最近一年MetaGroupSurvey调查对象::3000+用户户或意向用用户HowMuch?$3-6mformid-sizecompany,lessifsmaller,moreiflarger$10m+forlargeorganizations,largedatasets10-50+%annualmaintenancecosts33%Hardware/33%Software/33%ServicesHowLong?2-4yearsfor80/20offullsystemformid-sizecompany6-12monthsforinitialiteration3-6monthsforsubsequentiterationsHowRisky?ForEDWProjects,20%(Meta)to70%(OTR,DWN)failHighfailureratefornon-businessdriveninitiativesVeryfewsystemsmeettheexpectationsofthebusinessFailurenotduetotechnology,dueto“soft”issuesMassiveupsidetosuccessfulprojects(100%-2000+%ROI)99%politics-1%technology参考文献提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术((与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖挖掘应应用概概述数据挖挖掘技技术与与趋势势数据挖挖掘应应用平平台((科委委申请请项目目)数据挖挖掘应应用综综述数据挖挖掘应应用概概述数据挖挖掘技技术与与趋势势数据挖挖掘应应用平平台数据挖挖掘应应用概概述应用比比例DataMiningUpsidesDataMiningDownsidesDataMiningUseDataMiningIndustryandApplicationDataMiningCosts应用比比例Discoveryofpreviouslyunknownrelationships,trends,anomalies,etc.PowerfulcompetitiveweaponAutomationofrepetitiveanalysisPredictivecapabilitiesDataMiningUpsidesKnowledgediscoverytechnologyimmatureLonglearningandtuningcyclesforsometechnologies“Blackbox””technologyminimizesconfidenceVLDB(VeryLargeDataBase)requirementsDataMiningDownsidesDataMiningUsesDiscoveranomalies,outliersandexceptionsinprocessdataDiscoverbehaviorandpredictoutcomesofcustomerrelationshipsChurnmanagementTargetmarketing(marketofone)PromotionmanagementFrauddetectionPatternID&matching(darkprograms,science)DataMiningIndustryandApplicationsFromresearchprototypestodataminingproducts,languages,andstandardsIBMIntelligentMiner,SASEnterpriseMiner,SGIMineSet,Clementine,MS/SQLServer2000,DBMiner,BlueMartini,MineIt,DigiMine,etc.Afewdatamininglanguagesandstandards(esp.MSOLEDBforDataMining).ApplicationachievementsinmanydomainsMarketanalysis,trendanalysis,frauddetection,outlieranalysis,Webmining,etc.DataMiningCostsDesktoptools:$500andup(MSFTcomingatlowpricepoint)Server/MFbased:$20,000to$700,000+MustalsoaddcostofextensiveconsultingforhighendtoolsDon’tforgetlongtrainingandlearningcurvetimeOngoingprocess,nottaskautomationsoftware提纲数据仓仓库概概念数据仓仓库体体系结结构及及组件件数据仓仓库设设计数据仓仓库技技术((与数数据库库技术术的区区别))数据仓仓库性性能数据仓仓库应应用数据挖挖掘应应用概概述数据挖挖掘技技术与与趋势势数据挖挖掘应应用平平台((科委委申请请项目目)数据挖挖掘趋趋势历史回回顾多学科科交叉叉数据挖挖掘从从多个个角度度分类类最近十十年的的研究究进展展数据挖挖掘的的趋势势数据挖挖掘与与标准准化进进程历史回回顾1989IJCAIWorkshoponKnowledgeDiscoveryinDatabasesKnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD’’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2001conferences,andSIGKDDExplorationsMoreconferencesondataminingPAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.DataMining:ConfluenceofMultipleDisciplinesDataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)VisualizationAMulti-DimensionalViewofDataMiningResearchProgressintheLastDecadeMulti-dimensionaldataanalysis:DatawarehouseandOLAP(on-lineanalyticalprocessing)Association,correlation,andcausalityanalysisClassification:scalabilityandnewapproachesClusteringandoutlieranalysisSequentialpatternsandtime-seriesanalysisSimilarityanalysis:curves,trends,images,texts,etc.Textmining,WebminingandWebloganalysisSpatial,multimedia,scientificdataanalysisDatapreprocessinganddatabasecompressionDatavisualizationandvisualdataminingManyothers,e.g.,collaborativefilteringResearchDirections—[HanJ.W.,2001]WebminingTowardsintegrateddataminingenvironmentsandtools“Vertical”(orapplication-specific)dataminingInvisibledataminingTowardsintelligent,efficient,andscalabledataminingmethodsTowardsIntegratedDataMiningEnvironmentsandToolsOLAPMining:IntegrationofDataWarehousingandDataMiningQueryingandMining:AnIntegratedInformationAnalysisEnvironmentBasicMiningOperationsandMiningQueryOptimization“Vertical”(orapplication-specific)dataminingInvisibledataminingQueryingandMining:AnIntegratedInformationAnalysisEnvironmentDataminingasacomponentofDBMS,datawarehouse,orWebinformationsystemIntegratedinformationprocessingenvironmentMS/SQLServer-2000(Analysisservice)IBMIntelligentMineronDB2SASEnterpriseMiner:datawarehousing+miningQuery-basedminingQueryingdatabase/DW/WebknowledgeEfficiencyandflexibility:preprocessing,on-lineprocessing,optimization,integration,etc.“Vertical””DataMiningGenericdataminingtools?——Toosimpletomatchdomain-specific,sophisticatedapplicationsExpertknowledgeandbusinesslogicrepresentmanyyearsofworkintheirownfields!Datamining+businesslogic+domainexpertsAmulti-dimensionalviewofdataminersComplexityofdata:Web,sequence,spatial,multimedia,……Complexityofdomains:DNA,astronomy,market,telecom,……Domain-specificdataminingtoolsProvideconcrete,killersolutiontospecificproblemsFeedbacktobuildmorepowerfultoolsInvisibleDataMiningBuildminingfunctionsintodailyinformationservicesWebsearchengine(linkanalysis,authoritativepages,userprofiles)—adaptivewebsites,etc.Improvementofqueryprocessing:history+dataMakingservicesmartandefficientBenefitsfrom/todataminingresearchDataminingresearchhasproducedmanyscalable,efficient,novelminingsolutionsApplicationsfeednewchallengeproblemstoresearchTowardsIntelligentToolsforDataMiningIntegrationpavesthewaytointelligentminingSmartinterfacebringsintelligenceEasytouse,understandandmanipulateOnepicturemayworth1,000wordsVisualandaudiodataminingHuman-CenteredDataMiningTowardsself-tuning,self-managing,self-triggeringdataminingIntegratedMining:ABoosterforIntelligentMiningIntegrationpavesthewaytointelligentminingDataminingintegrateswithDBMS,DW,WebDB,etcIntegrationinheritsthepowerofup-to-dateinformationtechnology:querying,MDanalysis,similaritysearch,etc.MiningcanbeviewedasqueryingdatabaseknowledgeIntegrationleadstostandardinterface/language,function/processstandardization,utility,andreachabilityEfficiencyandscalabilitybringintelligentminingtoreality数据挖挖掘与与标准准化进进程CRISP—DM过程标标准化化(CRoss-IndustryStandardProcessforDataMining))XML与数据据预处处理相相结合合SOAP((SimpleObjectAccessProtocol))数据库库与系系统互互操作作的标标准PMML预言模型型交换标标准OLEDBForDataMining数据挖掘掘系统基基于API的接口提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术((与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目))数据挖掘掘应用平平台项目最终终目标研究内容容(含系系统结构构、层次次等)技术路线线和实现现方法关键技术术分析成果形式式和考核

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论