数据仓库和数据挖掘的OLAP技术_第1页
数据仓库和数据挖掘的OLAP技术_第2页
数据仓库和数据挖掘的OLAP技术_第3页
数据仓库和数据挖掘的OLAP技术_第4页
数据仓库和数据挖掘的OLAP技术_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库和数据挖掘的OLAP技术数据仓库库和数据据挖掘的的OLAP技术什么是数数据仓库库?多维数据据模型数据仓库库的体系系结构数据仓库库实现数据立方方体技术术的进一一步发展展从数据仓仓库到数数据挖掘掘什么是数数据仓库库?数据仓库库的定义义很多,,但却很很难有一一种严格格的定义义它是一个个提供决决策支持持功能的的数据库库,它与与公司的的操作数数据库分分开维护护。为统一的的历史数数据分析析提供坚坚实的平平台,对对信息处处理提供供支持“数据仓仓库是一一个面向向主题的的、集成成的、随随时间而而变化的的、不容容易丢失失的数据据集合,,支持管管理部门门的决策策过程.”—W.H.Inmon(数据仓仓库构造造方面的的领头设设计师))建立数据据仓库(datawarehousing)::构造和使使用数据据仓库的的过程。。数据仓库库关键特特征一——面向主题题围绕一些些主题,,如顾客客、供应应商、产产品等关注决策策者的数数据建模模与分析析,而不不是集中中于组织织机构的的日常操操作和事事务处理理。排除对于于决策无无用的数数据,提提供特定定主题的的简明视视图。数据仓库库关键特特征二——数据集成成一个数据据仓库是是通过集集成多个个异种数数据源来来构造的的。关系数据据库,一一般文件件,联机机事务处处理记录录使用数据据清理和和数据集集成技术术。确保命名名约定、、编码结结构、属属性度量量等的一一致性。。当数据被被移到数数据仓库库时,它它们要经经过转化化。数据仓库库关键特特征三——随时间而而变化数据仓库库的时间间范围比比操作数数据库系系统要长长的多。。操作数据据库系统统:主要保存存当前数数据。数据仓库库:从历史的的角度提提供信息息(比如如过去5-10年)数据仓库库中的每每一个关关键结构构都隐式式或显式式地包含含时间元元素,而而操作数数据库中中的关键键结构可可能就不不包括时时间元素素。数据仓库库关键特特征四——数据不易易丢失尽管数据据仓库中中的数据据来自于于操作数数据库,,但他们们却是在在物理上上分离保保存的。。操作数据据库的更更新操作作不会出出现在数数据仓库库环境下下。不需要事事务处理理,恢复复,和并并发控制制等机制制只需要两两种数据据访问:数据的初初始转载载和数据据访问((读操作作)数据仓库库与异种种数据库库集成传统的异异种数据据库集成成:在多个异异种数据据库上建建立包装装程序((wrappers)和中介介程序((mediators)查询驱动动方法——当从客户户端传过过来一个个查询时时,首先先使用元元数据字字典将查查询转换换成相应应异种数数据库上上的查询询;然后后,将这这些查询询映射和和发送到到局部查查询处理理器缺点:复复杂的信信息过虑虑和集成成处理,,竞争资资源数据仓库库:更新驱动动将来自多多个异种种源的信信息预先先集成,,并存储储在数据据仓库中中,供直直接查询询和分析析高性能数据仓库库与操作作数据库库系统操作数据据库系统统的主要要任务是是联机事事务处理理OLTP日常操作作:购买,库库存,银银行,制制造,工工资,注注册,记记帐等数据仓库库的主要要任务是是联机分分析处理理OLAP数据分析析和决策策OLTP和OLAP的主要区区别:用户和系系统的面面向性:顾客VS.市场数据内容容:当前的、、详细的的数据VS.历史的、、汇总的的数据数据库设设计:实体-联联系模型型(ER))和面向应应用的数数据库设设计VS.星型/雪花模型型和面向向主题的的数据库库设计视图:当前的、、企业内内部的数数据VS.经过演化化的、集集成的数数据访问模式式:事务操作作VS.只读查询询(但很很多是复复杂的查查询)OLTP系统和OLAP系统的比比较特征OLTPOLAP任务特点操作处理信息处理面向事务分析用户办事员、DBA、数据库专业人员经理、主管、数据分析员功能日常操作长期信息分析、决策支持DB设计基于E-R,面向应用星型/雪花,面向主体数据最新的、详细的历史的、汇总的视图详细的、二维关系型汇总的、多维的任务单位简短的事务复杂的查询访问数据量数十个数百万个用户数数千个数百个DB规模100M-数GB100GB-数TB优先性高性能、高可用性高灵活性、端点用户自治度量事务吞吐量查询吞吐量、响应时间为什么需需要一个个分离的的数据仓仓库?提高两个个系统的的性能DBMS是为OLTP而设计的的:存储储方式,索引,并发控制制,恢复数据仓库库是为OLAP而设计::复杂的的OLAP查询,多维视图图,汇总总不同的功功能和不不同的数数据:历史数据据:决策支持持需要历历史数据据,而这这些数据据在操作作数据库库中一般般不会去去维护数据汇总总:决策策支持需需要将来来自异种种源的数数据统一一(如聚聚集和汇汇总)数据质量量:不同的源源使用不不一致的的数据表表示、编编码和格格式,对对这些数数据进行行有效的的分析需需要将他他们转化化后进行行集成从关系表表和电子子表格到到数据立立方体数据仓库库和数据据仓库技技术基于于多维数据据模型。这个模模型把数数据看作作是数据立方方体形式。多多维数据据模型围围绕中心心主题组组织,该该主题用用事实表表示。事实是数值度度量的。。数据立方方体允许以多多维数据据建模和和观察。。它由维和事实定义。维是关于一一个组织织想要记记录的视视角或观观点。每每个维都都有一个个表与之之相关联联,称为为维表。事实表包括事实实的名称称或度量量以及每每个相关关维表的的关键字字在数据仓仓库的研研究文献献中,一一个n维的数据据的立方方体叫做做基本方体体。给定一一个维的的集合,,我们可可以构造造一个方体的格格,每个都都在不同同的汇总总级或不不同的数数据子集集显示数数据,方方体的格格称为数据立方方体。0维方体存存放最高高层的汇汇总,称称作顶点方体体;而存放放最底层层汇总的的方体则则称为基本方体体。教科书第第31页数据立方方体——一个方体体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,,locationtime,item,,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D((apex)cuboid1-Dcuboids2-Dcuboids3-Dcuboids4-D((base)cuboid数据仓库库的概念念模型最流行的的数据仓仓库概念念模型是是多维数数据模型型。这种种模型可可以以星星型模式式、雪花花模式、、或事实实星座模模式的形形式存在在。星型模式式(Starschema):事实表在在中心,,周围围围绕地连连接着维维表(每每维一个个),事事实表含含有大量量数据,,没有冗冗余。雪花模式式(Snowflakeschema):是星型模模式的变变种,其其中某些些维表是是规范化化的,因因而把数数据进一一步分解解到附加加表中。。结果,,模式图图形成类类似于雪雪花的形形状。事实星座座(Factconstellations):多个事实实表共享享维表,这种模式式可以看看作星型型模式集集,因此此称为星星系模式式(galaxyschema),或者者事实星星座(factconstellation)星型模式式实例

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch__keylocation_keyunits_solddollars_soldavg__salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch__keylocation_keyunits_solddollars_soldavg__salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事实星座座模式实实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch__keylocation_keyunits_solddollars_soldavg__salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper一种数据据挖掘查查询语言言:DMQLDMQL首先包括括定义数数据仓库库和数据据集市的的语言原原语,这这包括两两种原语语定义::一种是是立方体体定义,,一种是是维定义义立方体定定义(事实表)definecube<cube_name>[[<dimension_list>]::<<measure__list>维定义(维表)definedimension<dimension_name>>as(<attribute_or_subdimension__list>))特殊案例例(共享维表表的定义义)第一次作作为维表表定义“cubedefinition”然后:definedimension<dimension_name>>as<dimension_name__first__time>incube<cube_name_first_time>>实例:使使用DMQL定义星型型模式definecubesales_star[time,item,branch,,location]:dollars_sold==sum((sales__in__dollars),,avg_sales==avg(sales_in_dollars),units__sold==count(*))definedimensiontimeas(time_key,,day,day_of_week,,month,quarter,year)definedimensionitemas(item_key,,item__name,brand,,type,,supplier_type))definedimensionbranchas(branch_key,branch_name,,branch_type)definedimensionlocationas(location__key,street,,city,,province_or_state,country)实例:使使用DMQL定义雪花花模式definecubesales_snowflake[[time,,item,,branch,location]]:dollars_sold==sum((sales__in__dollars),,avg_sales==avg(sales_in_dollars),units__sold==count(*))definedimensiontimeas(time_key,,day,day_of_week,,month,quarter,year)definedimensionitemas(item_key,,item__name,brand,,type,,supplier(supplier_key,,supplier_type)))definedimensionbranchas(branch_key,branch_name,,branch_type)definedimensionlocationas(location__key,street,,city(city__key,province_or_state,country)))度量的分分类一个数据据立方体体的度量量是一个个数值函函数,该该函数可可以对数数据立方方体的每每一个点点求值。。度量可可以根据据其所用用的聚集集函数分分为三类类:分布的(distributive):将函数数用于n个聚集值值得到的的结果和和将函数数用于所所有数据据得到的的结果一一样。比如:count()),sum((),min((),max(()等代数的(algebraic):函数可可以由一一个带M个参数的的代数函函数计算算(M为有界整整数),,而每个个参数值值都可以以有一个个分布的的聚集函函数求得得。比如:avg((),min__N()),standard_deviation(()整体的(holistic)):描述函函数的子子聚集所所需的存存储没有有一个常常数界。。比如:median((),mode(),rank()概念分层层:location维的一个个概念分分层allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity多维数据据模型上上的OLAP操作上卷(roll-up)::汇总数据据通过一个个维的概概念分层层向上攀攀升或者者通过维维规约下钻(drill--down):上卷的的逆操作作由不太详详细的数数据到更更详细的的数据,,可以通通过沿维维的概念念分层向向下或引引入新的的维来实实现切片和切切块(sliceanddice))投影和选选择操作作转轴(pivot))立方体的的重定位位,可视视化,或或将一个个3维立方体体转化维维一个2维平面序序列其他OLAP操作钻过(drill__across):执行涉涉及多个个事实表表的查询询钻透(drill__through):使用关关系SQL机制,钻钻到数据据立方体体的底层层,到后后端关系系表数据仓库库设计::一个商商务分析析框架数据仓库库设计中中必须考考虑的四四种视图图自顶向下下视图允许我们们选择数数据仓库库所需的的相关信信息,这这些信息息能够满满足当前前和未来来商务的的需求。。数据源视视图揭示被操操作数据据库系统统所捕获获、存储储和管理理的信息息数据仓库库视图有事实表表和维表表所组成成,提供供存放在在数据仓仓库内部部的信息息,包括括预先计计算的综综合与技技术,以以及关于于源、日日期和源源时间等等信息商务查询询视图从最终用用户的角角度透视视数据仓仓库中的的数据数据仓库库的设计计过程((P43)自顶向下下法、自自底向上上法或者者两者的的混合方方法自顶向下下法:由由总体设设计和规规划开始始(成熟熟)自底向上上法:以以实验和和原型开开始(快快速)从软件过过程的观观点瀑布式方方法:在在进行下下一步前前,每一一步都进进行结构构化和系系统的分分析螺旋式方方法:功功能渐增增的系统统的快速速产生,,相继版版本之间间间隔很很短典型的数数据仓库库设计过过程选取待建建模的商务过程程选取商务务过程的的粒度选取用于于每个事事实表记记录的维选取将安安放在事事实表中中的度量三层数据据仓库架架构DataWarehouseExtractTransformLoadRefreshOLAP服务器AnalysisQueryReportsDataminingMonitor&IntegratorMetadata数据源前端工具具ServeDataMartsOperational

DBsothersources数据仓库库服务器器OLAPServer三种数据据仓库模模型(从从结构的的角度))企业仓库库搜集关于于跨越整整个组织织的主题题的所有有信息,,来自一一个或多多个操作作的系统统,跨功功能的。。数据集市市企业范围围数据的的一个子子集,对对于特定定的客户户是有用用的。其其范围限限于选定定的主题题,比如如一个商商场的数数据集市市独立的数数据集市市VS.非独立的的数据集集市(数数据来自自于企业业数据仓仓库)虚拟仓库库操作数据据库上的的一系列列视图只有一些些可能的的汇总视视图被物物化数据仓库库开发自顶向下下开发::一种系系统的而而解决方方法,并并能最大大限度地地减少集集成问题题。但费费用高,,长时间间开发,,缺乏灵灵活性,,因为整整个组织织的共同同数据模模型达到到一致是是困难的的。自底向上上:设计、开开发、部部署独立立的数据据集市方方法提供供了灵活活性、低低花费,,并能快快速回报报投资。。然后,,将分散散的数据据集市集集成,形形成一个个一致的的企业数数据仓库库时,可可能导致致问题。。数据仓库库开发——一个推荐荐的方法法定义高层层数据模模型数据集市市数据集市市分布式数数据集市市多层数据据仓库企业数据据仓库模型提炼炼模型提炼炼OLAP服务器类类型关系OLAP服务器(ROLAP))使用关系系数据库库或扩展展的关系系数据库库存放并并管理数数据仓库库的数据据,而用用OLAP中间件支支持其余余部分包括每个个DBMS后端优化化,聚集集导航逻逻辑的实实现,附附加的工工具和服服务较大的可可扩展性性多维OLAP服务器(MOLAP))基于数组组的多维维存储引引擎(稀稀疏矩阵阵技术))能对预计计算的汇汇总数据据快速索索引混合OLAP服务器(HOLAP))结合上述述两种技技术,更更大的使使用灵活活性特殊的SQL服务器在星型和和雪花模模型上支支持SQL查询数据仓库库的实现现难点海量数据据快速反应应OLAP服务器要要在几秒秒内响应应决策支支持查询询方法高效的数数据立方方体计算算技术高效的存存取方法法高效的查查询处理理技术数据立方方体的有有效计算算数据立方方体可以以被看成成是一个个方体的格格最底层的的方体是是基本方方体最顶端的的方体((顶点))只包含含一个单单元的值值一个n维的数据据立方体体,每维维Li层,可能能产生的的方体总总数是多多少?数据立方方体的物化(materialization))预先计算算所有方方体(全物化):需要海量量存储空空间,存存放预先先计算的的方体不预先计计算任何何“非基基本”方方体(不物化),在运运行时计计算昂贵贵的多维维聚集,,可能很很慢有选择的的计算一一个所有有方体的的适当子子集(部分物化化):相应应时间和和存储空空间的折折中。确定物化化哪些方方体考虑工作作负荷下下的查询询、它们们的频率率和它们们的开销销等等方体的操操作DMQL中的方体体定义和和计算definecubesales[item,city,year]:sum(sales_in_dollars))computecubesales上述的computecube子句可以以转化为为一个类类似于SQL的语句SELECTitem,city,year,SUM(amount))FROMSALESCUBEBYitem,city,year需要计算算以下的的groupby子句(item,city,year)(item,city),,(itemyear)),((city,year)(item),,(city),((year))()(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方体计算算:关系系型OLAP的方法((ROLAP)方体计算算的有效效方法基于ROLAP的方体算算法(Agarwaletal’96)基于数组组的算法法(MOLAP))(Zhaoetal’’97))自底向上上的计算算方法(Beyer&&Ramarkrishnan’99)H-cubing技术(Han,Pei,,Dong&&Wang:SIGMOD’01)基于ROLAP的方法将排序、、散列(hashing)和分组操操作应用用于维的的属性,,以便对对相关元元组重新新排序和和聚类在某些子子聚集上上分组,,作为““部分分分组步骤骤”。可以由以以前计算算的聚集集计算新新的聚集集,而不不必有基基本事实实表计算算方体计算算的多路路数组聚聚集方法法(1)将数组分分成块((chunk,一个可以以装入内内存的小小子方))压缩的稀稀疏数组组寻址::(chunk__id,,offset)通过访问问立方体体单元,,计算聚聚集。可可以优化化访问单单元组的的次序,,使得每每个单元元被访问问的次数数最小化化,从而而减少内内存访问问和磁盘盘I/O的开销。。A(month)B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)B(city)442856402452362060哪个是多多路数组组聚集的的最佳遍遍历次序序?方体计算算的多路路数组聚聚集方法法(2)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city))400方体计算算的多路路数组聚聚集方法法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方体计算算的多路路数组聚聚集方法法(4)方法:各各平面要要按他们们大小的的升序排排列进行行排序和和计算详见书P50例2.12思想:将将最小的的平面放放在内存存中,对对最大的的平面每每次只是是取并计计算一块块这种方法法的限制制:只有有在维数数比较小小的情况况下,效效果才比比较理想想(要计算的的立方体体随维数数指数增增长)如果维的的数目比比较多,,可以考考虑使用用“自底底向上的的计算””或者时时“冰山山方体””计算算元数据存存储在数据仓仓库中,,元数据据就是定定义数据据仓库对对象的数数据。关关于数据据的数据据。有以以下几种种:数据仓库库结构的的描述仓库模式式、视图图、维、、层次结结构、导导出数据据的定义义,以及及数据集集市的位位置和内内容操作元数数据包括数据据血统(datalineage)、数据类类别(currencyofdata),以及监监视信息息汇总用的的算法::包括度量量和维定定义算法法,数据据粒度、、分割、、主题领领域、聚聚集、汇汇总、预预定义的的查询和和报告由操作环环境到数数据仓库库的映射射:数据提取取、清理理、转换换规则、、剪裁规规则、安安全等关于系统统性能的的数据索引,profiles,数据刷刷新、更更新或复复制事件件的调度度和定时时商务元数数据商务术语语和定义义、数据据拥有者者信息、、收费政政策等元数据的的使用元数据与与数据一一起,构构成了数数据仓库库中的数数据模型型,元数数据所描描述的更更多的是是这个模模型的结结构方面面的信息息。在数据仓仓库中,,元数据据的主要要用途包包括:用作目录录,帮助助决策支支持系统统分析者者对数据据仓库的的内容定定义作为数据据仓库和和操作性性数据库库之间进进行数据据转换时时的映射射标准用于指导导当前细细节数据据和稍加加综合的的数据之之间的汇汇总算法法,指导导稍加综综合的数数据和高高度综合合的数据据之间的的汇总算算法。数据仓库库后端工工具和使使用程序序用于加载载和刷新新它的数数据数据提取取:从多个外外部的异异构数据据源收集集数据数据清理理检测数据据种的错错误并作作可能的的订正数据变换换将数据由由历史或或主机的的格式转转化为数数据仓库库的格式式装载排序、汇汇总、合合并、计计算视图图,检查查完整性性,并建建立索引引和分区区刷新将数据源源的更新新传播到到数据仓仓库中数据仓库库的应用用数据仓库库的三种种应用信息处理理支持查询询和基本本的统计计分析,,并使用用交叉表表、表、、图标和和图进行行报表处处理分析处理理对数据仓仓库中的的数据进进行多维维数据分分析支持基本本的OLAP操作,切切块、切切片、上上卷、下下钻、转转轴等数据挖掘掘从隐藏模模式中发发现知识识支持关联联分析,,构建分分析性模模型,分分类和预预测,并并用可视视化工具具呈现挖挖掘的结结果三种应用用间的差差别(P62)从联机分分析处理理到联机机分析挖挖掘为什么要要联机分分析挖掘掘(P63)数据仓库库中有高高质量的的数据数据仓库库中存放放着整合合的、一一致的、、清理过过的数据据围绕数据据仓库的的信息处处理结构构存取、集集成、合合并多个个异种数数据库的的转换,,ODBC/OLEDB连接,Web访问和访访问工具具等基于OLAP的探测式式数据分分析使用上卷卷、下钻钻、切片片、转轴轴等技术术进行数数据挖掘掘数据挖掘掘功能的的联机选选择多种数据据挖掘功功能、算算法和任任务的整整合联机分析析挖掘的的体系结结构数据仓库库元数据多维数据据库OLAM引擎OLAP引擎用户图形形界面API数据方体体API数据库API数据清理理数据集成成Layer3OLAP/OLAMLayer2多维数据据库Layer1数据存储储Layer4用户界面面数据的过过滤、集集成过滤数据库基于约束束的数据据挖掘挖掘结果果数据预处处理主要内容容为什么要要预处理理数据??数据清理理数据集成成和变换换数据归约约为什么要要预处理理数据??现实世界界的数据据是“肮肮脏的””不完整的的:有些些感兴趣趣的属性性缺少属属性值,,或仅包包含聚集集数据含噪声的的:包含含错误或或者“孤孤立点””不一致的的:在编编码或者者命名上上存在差差异没有高质质量的数数据,就就没有高高质量的的挖掘结结果高质量的的决策必必须依赖赖高质量量的数据据数据仓库库需要对对高质量量的数据据进行一一致地集集成数据质量量的多维维度量一个广为为认可的的多维度度量观点点:精确度完整度一致性合乎时机机可信度附加价值值可访问性性跟数据本本身的含含义相关关的内在的、、上下文文的、表表象的数据预处处理的主主要任务务数据清理理填写空缺缺的值,,平滑噪噪声数据据,识别别、删除除孤立点点,解决决不一致致性数据集成成集成多个个数据库库、数据据立方体体或文件件数据变换换规范化和和聚集数据归约约得到数据据集的压压缩表示示,它小小得多,,但可以以得到相相同或相相近的结结果数据离散散化数据归约约的一部部分,通通过概念念分层和和数据的的离散化化来规约约数据,,对数字字型数据据特别重重要数据预处处理的形形式空缺值数据并不不总是完完整的例如:数数据库表表中,很很多条记记录的对对应字段段没有相相应值,,比如销销售表中中的顾客客收入引起空缺缺值的原原因设备异常常与其他已已有数据据不一致致而被删删除因为误解解而没有有被输入入的数据据在输入时时,有些些数据应应为得不不到重视视而没有有被输入入对数据的的改变没没有进行行日志记记载空缺值要要经过推推断而补补上如何处理理空缺值值忽略元组组:当类类标号缺缺少时通通常这么么做(假假定挖掘掘任务设设计分类类或描述述),当当每个属属性缺少少值的百百分比变变化很大大时,它它的效果果非常差差。人工填写写空缺值值:工作作量大,,可行性性低使用一个个全局变变量填充充空缺值值:比如如使用unknown或-∞使用属性性的平均均值填充充空缺值值使用与给给定元组组属同一一类的所所有样本本的平均均值使用最可可能的值值填充空空缺值::使用像像Bayesian公式或判判定树这这样的基基于推断断的方法法噪声数据据噪声:一一个测量量变量中中的随机机错误或或偏差引起不正正确属性性值的原原因数据收集集工具的的问题数据输入入错误数据传输输错误技术限制制命名规则则的不一一致其它需要要数据清清理的数数据问题题重复记录录不完整的的数据不一致的的数据如何处理理噪声数数据分箱(binning)::首先排序序数据,,并将他他们分到到等深的的箱中然后可以以按箱的的平均值值平滑、、按箱中中值平滑滑、按箱箱的边界界平滑等等等聚类:监测并且且去除孤孤立点计算机和和人工检检查结合合计算机检检测可疑疑数据,,然后对对它们进进行人工工判断回归通过让数数据适应应回归函函数来平平滑数据据数据平滑滑的分箱箱方法price的排序后后数据((单位::美元)):4,8,15,21,21,24,25,28,34划分为((等深的的)箱::箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均均值平滑滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界界平滑::箱1:4,4,15箱2:21,21,24箱3:25,25,34聚类回归xyy=x++1X1Y1Y1’数据集成成数据集成成:将多个数数据源中中的数据据整合到到一个一一致的存存储中模式集成成:整合不同同数据源源中的元元数据实体识别别问题::匹配来来自不同同数据源源的现实实世界的的实体,,比如::A.cust--id==B.customer_no检测并解解决数据据值的冲冲突对现实世世界中的的同一实实体,来来自不同同数据源源的属性性值可能能是不同同的可能的原原因:不不同的数数据表示示,不同同的度量量等等处理数据据集成中中的冗余余数据集成多个个数据库库时,经经常会出出现冗余余数据同一属性性在不同同的数据据库中会会有不同同的字段段名一个属性性可以由由另外一一个表导导出,如如“年薪薪”有些冗余余可以被被相关分分析检测测到仔细将多多个数据据源中的的数据集集成起来来,能够够减少或或避免结结果数据据中的冗冗余与不不一致性性,从而而可以提提高挖掘掘的速度度和质量量。数据变换换平滑:去去除数据据中的噪噪声聚集:汇汇总,数数据立方方体的构构建数据概化化:沿概概念分层层向上汇汇总规范化::将数据据按比例例缩放,,使之落落入一个个小的特特定区间间最小-最最大规范范化z-score规范化小数定标标规范化化属性构造造通过现有有属性构构造新的的属性,,并添加加到属性性集中。。数据变换换——规范化最小-最最大规范范化z-score规范化小数定标标规范化化其中,j是使Max((|||)<<1的最小整整数数据归约约策略数据仓库库中往往往存有海海量数据据,在其其上进行行复杂的的数据分分析与挖挖掘需要要很长的的时间数据归约约数据归约约可以用用来得到到数据集集的归约约表示,,它小得得多,但但可以产产生相同同的(或或几乎相相同的))分析结结果数据归约约策略数据立方方体聚集集维归约数据压缩缩数值归约约离散化和和概念分分层产生生用于数据据归约的的时间不不应当超超过或““抵消””在归约约后的数数据上挖挖掘节省省的时间间。数据立方方体聚集集最底层的的方体对对应于基基本方体体基本方体体对应于于感兴趣趣的实体体在数据立立方体中中存在着着不同级级别的汇汇总数据立方方体可以以看成方方体的格格每个较高高层次的的抽象将将进一步步减少结结果数据据数据立方方体提供供了对预预计算的的汇总数数据的快快速访问问使用与给给定任务务相关的的最小方方体在可能的的情况下下,对于于汇总数数据的查查询应当当使用数数据立方方体维归约通过删除除不相干干的属性性或维减减少数据据量属性子集集选择找出最小小属性集集,使得得数据类类的概率率分布尽尽可能的的接近使使用所有有属性的的原分布布减少出现现在发现现模式上上的属性性的数目目,使得得模式更更易于理理解启发式的的(探索索性的))方法逐步向前前选择逐步向后后删除向前选择择和向后后删除相相结合判定归纳纳树探索性选选择方法法d个属性有有2d个可能的的子集逐步向前前选择由空属性性集开始始,选择择原属性性集中最最好的属属性,并并将其添添加入该该集合,,重复该该步骤。。逐步向后后删除由整个属属性集开开始,每每一步都都删除掉掉尚在属属性集中中的最坏坏属性向前选择择和向后后删除相相结合每一步选选择一个个最好属属性,并并删除一一个最坏坏属性可以使用用一个临临界值来来判定上上述三种种方法的的结束条条件判定归纳纳树数据压缩缩有损压缩缩VS.无损压缩缩字符串压压缩有广泛的的理论基基础和精精妙的算算法通常是无无损压缩缩在解压缩缩前对字字符串的的操作非非常有限限音频/视频压缩缩通常是有有损压缩缩,压缩缩精度可可以递进进选择有时可以以在不解解压整体体数据的的情况下下,重构构某个片片断两种有损损数据压压缩的方方法:小小波变换换和主要要成分分分析数值归约约通过选择择替代的的、较小小的数据据表示形形式来减减少数据据量有参方法法:使用用一个参参数模型型估计数数据,最最后只要要存储参参数即可可。线性回归归方法::Y=α+βX多元回归归:线性性回归的的扩充对数线性性模型::近似离离散的多多维数据据概率分分布无参方法法:直方图聚类选样直方图一种流行行的数据据归约技技术将某属性性的数据据划分为为不相交交的子集集,或桶桶,桶中中放置该该值的出出现频率率桶和属性性值的划划分规则则等宽等深V-最优MaxDiff聚类将数据集集划分为为聚类,,然后通通过聚类类来表示示数据集集如果数据据可以组组成各种种不同的的聚类,,则该技技术非常常有效,,反之如如果数据据界线模模糊,则则方法无无效数据可以以分层聚聚类,并并被存储储在多层层索引树树中聚类的定定义和算算法都有有很多选选择选样允许用数数据的较较小随机机样本((子集))表示大大的数据据集对数据集集D的样本选选择:简单随机机选择n个样本,,不回放放:由D的N个元组中中抽取n个样本简单随机机选择n个样本,,回放::过程同同上,只只是元组组被抽取取后,将将被回放放,可能能再次被被抽取聚类选样样:D中元组被被分入M个互不相相交的聚聚类中,,可在其其中的m个聚类上上进行简简单随机机选择((m<M)分层选样样:D被划分为为互不相相交的““层”,,则可通通过对每每一层的的简单随随机选样样得到D的分层选选样离散化三种类型型的属性性值:名称型——e..g.无序集合合中的值值序数——e..g.有序集合合中的值值连续值——e..g.实数离散化将连续属属性的范范围划分分为区间间有效的规规约数据据基于判定定树的分分类挖掘掘基于判定定树的分分类挖掘掘的大部部分时间间花在数数据的分分类和比比较上((比如一一个判定定条件为为:>400?,0-1000的整数将将在比较较1000次后得出出结果,,但是如如果先将将这1000个值划分分为10个区间::0-100,100--200…900-1000,则只要要比较10次就可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论