第6章-数据预处理

上传人：a*** IP属地：湖北上传时间：2023-02-05 格式：PPT 页数：75 大小：403.50KB 积分：28 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第6章数据预处理宋杰鲲®中国石油大学（华东）管理科学与工程系数据预处理

由于数据库系统所获数据量的迅速膨胀（已达GB或TB数量级），从而导致了现实世界数据库中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。数据预处理主要包括：数据清理、数据集成、数据选择、数据变换、数据归约等。数据预处理本章目标：了解并掌握数据预处理的几种方法，特别是分箱方法、数据规格化方法。数据预处理6.1数据预处理的必要性6.2数据清理6.3数据集成6.4数据变换6.5数据归约6.1数据预处理的必要性

数据挖掘的效果和数据质量之间有着紧密的联系，所谓“垃圾入，垃圾出”，即数据的质量越好，则挖掘的结果就越精确，反之则不可能取得好的挖掘结果。尤其是在对包含有噪声、不完整、不一致数据进行数据挖掘时，更需要进行数据的预处理，以提高数据挖掘对象的质量，并最终提高数据挖掘所获模式知识的质量。6.1数据预处理的必要性

噪声数据：噪声是指一个测量变量中的随机错误或偏离期望的孤立点值，产生噪声的原因很多，人为的、设备的和技术的等，如数据输入时的人为错误或计算机错误，网络传输中的错误，数据收集设备的故障等。不完整数据：实际应用系统中，由于系统设计的不合理或者使用过程中的某些因素，某些属性值可能会缺失或者值不确定。6.1数据预处理的必要性

不一致数据：由于原始数据来源于多个不同的应用系统或数据库，信息庞杂，采集和加工的方法有别，数据描述的格式也各不相同，缺乏统一的分类标准和信息的编码方案，难以实现信息的集成共享，很难直接用于数据挖掘。重复数据：同一事物在数据库中存在两条或多条完全相同的记录，或者相同的信息冗余的存在于多个数据源中。6.1数据预处理的必要性

维度高数据：原始数据中通常记录事物的较为全面的属性，而在一次挖掘中，这些属性并不是都有用，只需要一部分属性即可得到希望知道的知识，而且无用属性的增加还会导致无效归纳，把挖掘结果引向错误的结论。6.2数据清理

数据预处理的方法主要包括：数据清理（datacleaning）、数据集成（dataintegration）、数据变换（datatransformation）、数据归约（datareduction）。

数据清理通过填补遗漏数据、消除异常数据、平滑噪声数据，以及纠正不一致的数据。6.2数据清理

6.2.1遗漏数据处理

假设在分析一个商场销售数据时，发现有多个记录中的属性值为空，如：顾客的收入属性，对于为空的属性值，可以采用以下方法进行遗漏数据处理：（1）忽略该条记录。当一个记录中有多个属性值空缺，特别是关键信息丢失时，即使是采用某些方法把所有缺失的属性值填充好，该记录也不能反映真实情况，对于数据挖掘算法来说，这样的数据性质很差，应该忽略该条记录。6.2数据清理

6.2.1遗漏数据处理

（2）去掉属性。如果所有记录中的某一个属性值缺失严重，可以认为该属性对知识发现来说已经没有意义，将其直接去掉。（3）手工填补遗漏值。以某些背景资料为依据，手工填写空缺值，一般讲这种方法比较耗时，而且对于存在许多遗漏情况的大规模数据集而言，显然可行较差。6.2数据清理

6.2.1遗漏数据处理

（4）利用缺省值填补遗漏值。对一个离散属性的所有遗漏的值均利用一个事先确定好的值来填补。如：都用OK来填补。但当一个属性遗漏值较多值，若采用这种方法，就可能误导挖掘进程。因此这种方法虽然简单，但并不推荐使用，或使用时需要仔细分析填补后的情况，以尽量避免对最终挖掘结果产生较大误差。（5）利用均值填补遗漏值。计算一个属性（值）的平均值，并用此值填补该属性所有遗漏的值。如：若一个顾客的平均收入(income)为12000元，则用此值填补属性中所有被遗漏的值。6.2数据清理

6.2.1遗漏数据处理

（6）利用同类别均值填补遗漏值。计算同类样本记录的该属性平均值，用来填充空缺值。如：若要对商场顾客按信用风险进行分类挖掘时，就可以用在同一信用风险类别下（如良好）的income属性的平均值，来填补所有在同一信用风险类别下属性income的遗漏值。6.2数据清理

6.2.1遗漏数据处理

（7）利用最可能的值填补遗漏值。可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值。例如：利用数据集中其它顾客的属性值，可以构造一个决策树来预测属性income的遗漏值。与其他方法相比，该方法最大程度地利用了当前数据所包含的信息来帮助预测所遗漏的数据，是目前最为常用的方法。

（1）分箱方法。通过考察相邻数据来确定最终值。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子的数据，采用某种方法分别对各个箱子中的数据进行处理。常用的方法包括等深分箱法、等宽分箱法以及自定义分箱法。完成分箱之后，就要选择一种方法对数据进行平滑，使得数据尽可能接近。常用的方法包括：6.2数据清理

6.2.2噪声数据处理

①按平均值平滑：对同一箱值中的数据求平均值，然后用这个平均值替代该箱子中的所有数据。②按边界值平滑：对于箱子中的每一个数据，观察它和箱子两个边界值的距离，用距离较小的那个边界值替代该数据。③按中值平滑：取箱子的中值，用来替代箱子中的所有数据。中值也称中数，将数据排序之后，如果这些数据是奇数个，中值就是最中间位置的那个数；如果是偶数个，中值应该是中间两个数的平均值。6.2数据清理

6.2.2噪声数据处理price的排序后数据（元）：4,8,15,21,21,24,25,28,34等深分箱（箱深为3）：箱1：4,8,15

箱2：21,21,24

箱3：25,28,34等宽分箱（箱宽为10）：箱1：4,8

箱2：15,21,21,24,25

箱3：28,34自定义分箱（10以下，10~20，20~30，30~40）：箱1：4,8

箱2：15

箱3：21,21,24,25,28

箱4：346.2数据清理

6.2.2噪声数据处理price的排序等深后数据：4,8,15;21,21,24;25,28,34用平均值平滑：箱1：9,9,9

箱2：22,22,22

箱3：29,29,29用边界平滑：箱1：4,4,15

箱2：21,21,24

箱3：25,25,34用中值平滑：箱1：8,8,8

箱2：21,21,21

箱3：28,28,286.2数据清理

6.2.2噪声数据处理课堂练习：假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13,15,16,16,19,20,20,21,22。1）使用按箱平均值（保留整数，四舍五入）平滑对以上数据进行平滑，箱的深度为3。说明你的步骤。2）使用按箱边界平滑对以上数据进行平滑，箱的深度为3。说明你的步骤。6.2数据清理

6.2.2噪声数据处理

（2）聚类方法。通过聚类分析可帮助发现异常数据，相似或相邻近的数据聚合在一起形成各个聚类集合，而那些位于这些聚类集合之外的数据对象被认为是异常数据。聚类方法不需要任何先验知识。6.2数据清理

6.2.2噪声数据处理

（3）回归方法。可以利用拟合函数对数据进行平滑。如：借助线性回归（linearregression）方法，包括多变量回归方法，就可以获得的多个变量之间的一个拟合关系，从而达到利用一个（或一组）变量值来帮助预测另一个变量取值的目的。利用回归分析方法所获得的拟合函数，能够帮助平滑数据及除去其中的噪声。

6.2数据清理

6.2.2噪声数据处理

（4）人机结合检查方法。通过人与计算机检查相结合方法，可以帮助发现异常数据。如：利用基于信息论方法可帮助识别用于分类识别手写符号库中的异常模式；所识别出的异常模式可输出到一个列表中；然后由人对这一列表中的各异常模式进行检查，并最终确认无用的模式（真正异常的模式）。这种人机结合检查方法比单纯利用手工方法手写符号库进行检查要快许多。6.2数据清理

6.2.2噪声数据处理

（1）多个取名或不规范取名的清理问题。数据清理将数据值进行一致化，即相同含义的值应具有统一的形式。如人员的出生地在不同的数据源中可能分别使用“上海”、“沪”、“上海市”、“沪市、“申”、“申城”、“Shanghai”，、“SH”等表示上海市出生的人员，应将这类值统一表示。在不同的数据源中，相同类型的信息可能表现为不同的格式，例如，电话号码通常定义为字符型数据，但在有些数据源中可能将其定义为数值型数据，因此应将其一致化。6.2数据清理

6.2.3不一致数据处理

（2）错误数据的清理问题。数据清洗包括数据的一致性确认，如人员的联系信息在地址域的值为“中国石油大学（华东）”，而在相应的邮政编码域值为“257000”，则记录的数据存在不一致。在本例中，假如存在一个标准的地址和邮政编码的对应表，则可对记录中的邮政编码值自动更正。当然，这需要结合一定的业务规则，因为也有可能邮政编码的值正确，而地址域的值不正确。6.2数据清理

6.2.3不一致数据处理

（3）失效数据或过期数据的清理问题。地址是一个经常出现过时数据的典型例子。在当今社会中，人们常常改变他们的地址，所以一年以上的住址变得不再可靠。体现在有的客户概况信息已超过两年以上，而且客户已经搬家，但新的地址并没有在地址表中反映出来。邮寄清单必须经常更新，因为人们的工作会发生变化，他们的住址也随之改变。我们将这种不再正确的老地址称为失效数据。6.2数据清理

6.2.3不一致数据处理

（4）印刷错误的清理问题。英文单词会经常性地被误拼或误打，汉语词组也同样如此。6.2数据清理

6.2.3不一致数据处理6.3数据集成

数据挖掘任务常常涉及数据集成操作，即将来自多个数据源的数据，如：数据库、数据立方、普通文件等，结合在一起并形成一个统一数据集合，以便为数据挖掘工作的顺利完成提供完整的数据基础。数据集成（dataintegration）将多数据源中的数据进行合并处理，解决语义模糊性并整合成一致的数据存储。数据集成涉及模式集成、属性冗余、数据值冲突检测与消除这三个方面的问题。

模式集成从多个异构数据库、文件或遗留系统提取并集成数据，解决语义二义性，统一不同格式的数据。因此，模式集成涉及实体识别(entityidentification)，即如何表示不同数据库中的字段是同一个实体，如何将不同信息源中的实体匹配来进行模式集成。例如：如何确定一个数据库中的“customer-id”与另一个数据库中的“custom-id”是否表示同一实体。数据库与数据仓库通常包含元数据，所谓元数据就是关于数据的数据，这些元数据可以帮助避免在模式集成时发生错误。

6.3数据集成

6.3.1模式集成问题

若一个属性可以从其它属性中推演出来，那这个属性就是冗余属性。如：一个顾客数据表中的平均月收入属性，就是冗余属性，显然它可以根据月收入属性计算出来。利用相关分析可以帮助发现一些比较隐蔽的数据冗余情况。例如：给定两个属性，则根据这两个属性的数值分析出这两个属性间的相互关系。属性A，B之间的相互关系可以根据以下计算公式分析获得。

6.3数据集成

6.3.2冗余问题记录行冗余同步进行。

对于一个现实世界实体，其来自不同数据源的属性值或许不同。产生这样问题原因可能是表示的差异、比例尺度不同或编码的差异等。例如：重量属性在一个系统中采用公制，而在另一个系统中却采用英制。同样价格属性在不同地点采用不同货币单位，而且可能涉及不同的服务（如免费早餐）或税。这些语义的差异为数据集成提出许多问题。

6.3数据集成

6.3.3数据值冲突检测与消除问题6.4数据变换

数据变换（datatransformation）就是将数据进行规范化和聚集。（1）平滑。帮助除去数据中的噪声，还可以将连续的数据离散化。主要技术方法有：分箱方法、聚类方法和回归方法。（2）聚集。对数据进行总结或合计操作。例如：每天销售额（数据）可以进行合计操作以获得每月或每年的总额。这一操作常用于构造数据立方或对数据进行多维度的分析。6.4数据变换

（3）数据泛化（generation）。所谓泛化处理就是用更抽象（更高层次）的概念来取代低层次或数据层的数据对象。例如：街道属性，就可以泛化到更高层次的概念，诸如：城市、国家。同样对于数值型的属性，如年龄属性，就可以映射到更高层次概念，如：年轻、中年和老年。6.4数据变换

（4）规格化。规格化就是将有关属性数据按比例投射到特定小范围之中，如将工资收入属性值映射到-1.0到1.0范围内，以消除数值型属性因大小不一而造成挖掘结果的偏差。规格化处理常常用于神经网络、聚类挖掘的数据预处理等等。下面介绍三种规格化方法：最小-最大规范化、z-score规范化和按小数定标规范化。6.4数据变换①最小-最大规范化假定minA和maxA分别为属性A的最小和最大值。最小-最大规范化通过计算：例1假定属性income的最小与最大值分别为$12,000和$98,000。我们想映射income到区间[0.0,0.1]。根据最小-最大规范化，income值$73,600将变换为：6.4数据变换②z-score规范化属性A的值基于A的平均值和标准差规范化。A的值v被规范化为v’，由下式计算：例2假定属性income的平均值和标准差分别为$54,000和$16,000。使用z-score规范化，值$73,600被转换为6.4数据变换③小数定标规范化通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值v被规范化为v’，由下式计算。其中j是使Max(|v’|)<1的最小整数。例3假定A的值由-986到917。A的最大绝对值为986。为使用小数定标规范化，我们用1,000（即j=3）除每个值。这样，-986被规范化为-0.986。6.4数据变换

注意，规范化将原来的数据改变很多，特别是上述的后两种方法。有必要保留规范化参数（如平均值和标准差，如果使用z-score规范化），以便将来的数据可以用一致的方式规范化。6.4数据变换课堂练习：假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70(a)使用min-max规范化，将age值35转换到[0.0,1.0]区间。(b)使用z-score规范化转换age值35，其中，age的标准偏差为12.94年。(c)使用小数定标规范化转换age值35。6.4数据变换

（5）属性构造。根据已有属性集构造新的属性，以帮助数据挖掘过程。对于属性构造方法，它可以利用已有属性集构造出新的属性，并加入到现有属性集合中以帮助挖掘更深层次的模式知识，提高挖掘结果准确性。例如，在客户背景数据表中，根据客户月收入，构造“收入水平”属性，取值为低、中、高；再如：根据宽、高属性，可以构造一个新属性：面积。构造合适的属性能够帮助减少学习构造决策树时所出现的碎块情况。此外通过属性结合可以帮助发现所遗漏的属性间相互联系，而这常常对于数据挖掘过程是十分重要的。6.5数据归约

对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间，这就常常使得这样的分析变得不现实和不可行，尤其是需要交互式数据挖掘时。数据归约技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果基本相同。数据归约的主要策略有数据立方合计、维归约、数据压缩、数值归约、离散化和概念分层产生等。

数据立方体是数据的多维建模和表示。数据立方体的维数可以是任意的n维。在最低层次所建立的数据立方称为基立方，而最高抽象层次的数据立方称为顶立方。6.5数据归约

6.5.1数据立方合计

顶立方代表整个公司三年、所有分支、所有类型商品的销售总额。显然每一层次的数据立方都是对其低一层数据的进一步抽象。

6.5数据归约

6.5.1数据立方合计

维归约主要用于检测和消除无关、弱相关、或冗余的属性或维。由于数据集或许包含成百上千的属性，这些属性中的许多属性是与挖掘任务无关的或冗余的。例如：挖掘顾客是否会在商场购买CD播放机的分类规则时，顾客的电话号码很可能与挖掘任务无关。但如果利用人类专家来帮助挑选有用的属性，则是一件困难和费时费力的工作，特别是当数据内涵并十分清楚的时候。6.5数据归约

6.5.2维归约

维归约就是通过消除多余和无关的属性而有效消减数据集的规模。通常采用属性子集的选择方法。属性子集选择方法的目标就是寻找出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布。利用筛选后的属性集进行数据挖掘所获结果，由于使用了较少的属性，从而使得用户更加容易理解挖掘结果。

6.5数据归约

6.5.2维归约

包含d个属性的集合共有2d个不同子集，从初始属性集中发现较好的属性子集的过程就是一个最优穷尽搜索的过程，显然随着d不断增加，搜索的可能将会增加到难以实现的地步。因此一般利用启发知识来帮助有效缩小搜索空间。这类启发式搜索通常都是基于可能获得全局最优的局部最优来指导并帮助获得相应的属性子集。构造属性子集的基本启发式方法有以下几种：逐步向前选择、逐步向后删除、向前选择和向后删除结合、决策树归纳。6.5数据归约

6.5.2维归约

（1）逐步向前选择。从一个空属性集（作为属性子集初始值）开始，每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止。（2）逐步向后删除。从一个全属性集（作为属性子集初始值）开始，每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止或满足一定阈值约束为止。6.5数据归约

6.5.2维归约

（3）向前选择和向后删除相结合。将逐步向前选择方法与逐步向后删除结合在一起，每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去，以及从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性且无法选择出最差属性为止，或满足一定阈值约束为止。6.5数据归约

6.5.2维归约

（4）决策树归纳方法。通常用于分类的决策树算法也可以用于构造属性子集。具体方法就是：利用决策树的归纳方法对初始数据进行分类归纳学习，获得一个初始决策树，所有没有出现这个决策树上的属性均认为是无关属性，因此将这些属性从初始属性集合删除掉，就可以获得一个较优的属性子集。6.5数据归约

6.5.2维归约6.5数据归约

6.5.2维归约

数据压缩就是利用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。若仅根据压缩后的数据集就可以恢复原来的数据集，那么就认为这一压缩是无损的，如基于熵的编码方法；否则就称为有损的。在数据挖掘领域通常使用的三种数据压缩方法均是有损的，分别是小波转换、分形技术和主成分分析。6.5数据归约

6.5.3数据压缩

主成分分析法具有变差最优性、信息损失最小性、相关最优性和回归最优性，是数据压缩和多元降维的重要工具。利用主成分分析法可以把多个相关的变量（指标）变换成少数几个互相无关的综合变量（主成分），这些综合变量中包含了原来所有变量的大部分信息，且每个综合变量只反映了经济系统一个独立方向上的信息。6.5数据归约

6.5.3数据压缩

数值或数据块归约是指通过选择替代的、较小的数据表示形式减少数量，主要包含参数与非参数两种基本方法。所谓参数方法就是利用一个模型来帮助通过计算获得原来的数据，因此只需要存储模型的参数即可（当然异常数据也需要存储）。例如：线性和非线性回归模型就可以根据一组变量预测计算另一个变量。而非参数方法则是存储利用直方图、聚类或取样而获得的消减后数据集。6.5数据归约

6.5.4数值归约（1）直方图直方图使用分箱近似数据分布，是一种流行的数据归约形式。属性A的直方图将A的数据分布划分为不相交的子集(buckets)，或桶。桶安放在水平轴上，而桶的高度（和面积）是该桶所代表的值的平均频率。如果每个桶只代表单个属性值/频率对，则该桶称为单桶。通常，桶表示给定属性的一个连续区间。6.5数据归约

6.5.4数值归约例4下面的数据是AllElectronics通常销售的商品的单价表（按$取整）。已对数据进行了排序：1（2）、5（5）、8（2）、10（4）、12、14（3）、15（5）、18（8）、20（7）、21（4）、25（5）、28、30（3）6.5数据归约

6.5.4数值归约等宽：在等宽的直方图中，每个桶的宽度区间是一个常数。等深（或等高）：每个桶的频率粗略地为常数。6.5数据归约

6.5.4数值归约课堂练习：

假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。画一个长度为10（按照年龄原本定义，最小值从0开始，一直到数据最大值70）的等宽直方图。

6.5数据归约

6.5.4数值归约（2）聚类聚类技术将数据行视为对象。对于聚类分析所获得的组或类则有性质：同一组或类中的对象彼此相似而不同组或类中的对象彼此不相似。在数据归约中，数据的聚类表示用于替换原来的数据。当然这一技术的有效性依赖于实际数据内在规律。在处理带有较强噪声数据采用数据聚类方法常常是非常有效的。

6.5数据归约

6.5.4数值归约（3）数据抽样数据抽样用数据的较小的样本表示大的数据集。它主要利用统计学中的抽样方法，如不放回简单随机抽样、放回简单随机抽样、聚类抽样、分层抽样等。6.5数据归约

6.5.4数值归约①不放回简单随机抽样：由D的N个元组中不回放抽取n个样本（n<N）；其中，D中任何元组被抽取的概率均为1/N。即，所有元组是等可能的。

②放回简单随机抽样：该方法类似于不放回简单随机抽样，不同在于当一个元组被抽取后，记录它，然后放回去。这样，一个元组被抽取后，它又被放回D，以便它可以再次被抽取。

6.5数据归约

6.5.4数值归约6.5数据归约

6.5.4数值归约③聚类选样：如果D中的元组被分组放入M个互不相交的“聚类”，则可以得到聚类的m个简单随机选样；这里，m<M。例如，数据库中元组通常一次取一页，这样每页就可以视为一个聚类。

6.5数据归约

6.5.4数值归约④分层选样：如果D被划分成互不相交的部分，称作“层”，则通过对每一层的简单随机选样就可以得到D的分层选样。6.5数据归约

6.5.4数值归约（4）离散化和概念分层产生离散化技术方法可以通过将属性（连续取值）域值范围分为若干区间，来帮助消减一个连续（取值）属性的取值个数。可以用一个标签来表示一个区间内的实际数据值，这样就形成了数据集的概念分层。如对数据集D递归的使用等宽分箱技术，形成概念分层。6.5数据归约

6.5.4数值归约6.5数据归约

6.5.4数值归约1）数值数据的离散化与概念分层数值数据的概念分层可以通过数据分析自动产生，这些方法包括前面介绍过的分箱、直方图、聚类等。它们能够无干预的完成对属性的概念分层，但是这些方法划分出来的层并不考虑边界值是否直观或自然。通常，用户更希望分层具有自然的，易于记忆的、符合人类思维习惯的边界。例如人们希望看到[20-30]、[30-40]，而不愿意看到[23.333-36.97]之类的分层。6.5数据归约

6.5.4数值归约

介绍一种通过自然划分分段的方法进行概念分层的过程。该方法应用3-4-5规则，递归地将给定数据区域划分为3、4、或5个等宽的区间，具体描述如下：

(1)如果待划分的区间在最高有效位上包含3、6、7或9个不同的值，则将该区间划分成3个区间。其中，如果是3、6或9，则划分成等宽的3个区间，如果是7，则按2-3-2划分成3个区间。

(2)如果待划分区间最高有效位上包含2、4或8个不同的值，则把它划分成4个等宽的区间。

(3)如果待划分区间最高有效位上包含1、5或10个不同的值，则把它划分成5个等宽的区间。在每个区间上递归的应用3—4—5规则，生成数据的概念分层，直到满足预先设定的终止条件。

6.5数据归约

6.5.4数值归约6.5数据归约

6.5.4数值归约

如果数据集D的分布曲线呈现下图所示的情况，区间两端的值所占的比例非常少，可以根据情况设值一个置信区间(如5％-95％)，以这两个点上的值作为初始划分的区间，如[-9，28]，同样在10(千元)上取整，得到区间[-10，30]，采用3-4-5规则。6.5数据归约

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第6章-数据预处理

文档简介

温馨提示

最新文档

评论

第6章-数据预处理

文档简介

温馨提示

最新文档

评论

相关文档