大数据挖掘导论与案例课件-第4章 数据预处理_第1页
大数据挖掘导论与案例课件-第4章 数据预处理_第2页
大数据挖掘导论与案例课件-第4章 数据预处理_第3页
大数据挖掘导论与案例课件-第4章 数据预处理_第4页
大数据挖掘导论与案例课件-第4章 数据预处理_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章绪论第2章数据分析与可视化技术第3章认识数据第4章数据预处理第5章分类概念与方法第6章关联分析概念与方法第7章聚类分析概念与方法第8章大数据挖掘关键技术第9章案例分析第4章数据预处理大数据挖掘导论与案例学习目标/Target掌握缺失数据和噪声数据的清洗方法,了解数据清洗的基本任务。掌握数据规约的基本方法,了解主成分分析和线性判别分析的基本原理。掌握数据预处理任务内容,熟悉主要的数据预处理方法及作用。熟悉数据离散化和二元化基本方法,熟悉数据规范化和数据泛化的方法。引言/Introduction“种豆,其苗必豆;种瓜,其苗必瓜。”

《吕语集粹·存养》“Garbagein,garbageout.”

谚语数据预处理(datapreprocessing)是在开始业务分析之前对数据进行的预先处理过程。完成预处理加工后的数据,具有更好的完整性、准确性和一致性,数据质量更高,更适应数据挖掘模型的计算。实际业务中,数据预处理已成为数据挖掘流程的基本步骤。目录/Contents010203数据预处理任务数据清洗数据规约0405离散化与二元化数据规范化和数据泛化数据预处理任务4.1数据预处理过程涉及到的方法很多,且作用各不相同。在具体的数据挖掘任务中,数据预处理任务可总结为数据清洗、数据归约、数据离散化和数据规范化,它们所要达成的目标各不相同。在面向具体业务的数据挖掘任务中,需要根据业务数据的特点和挖掘任务确定数据预处理阶段的任务和目标,并以此决定使用哪些方法进行数据预处理。数据预处理过程4.1数据预处理任务数据预处理过程需要指出的是,数据预处理过程的四个部分之间既紧密联系又各有侧重,它们之间既不互斥,也非必须按照顺序全部完成。在实际的数据挖掘业务中需要根据数据的质量和模型要求来选择具体的数据预处理操作。4.1数据预处理任务数据清洗4.2数据预处理过程的第一步常常是进行数据质量分析,对数据集中所存在的问题进行检测和纠正,并进行数据清理(datacleaning),以保证数据集的准确性、完整性和一致性。数据清洗过程通常包括数据集的缺失值处理和噪声数据处理。4.2数据清洗4.2.1缺失值处理在数据产生或收集过程中,可能造成数据集中出现缺失值的原因是多样的。因设备故障使得信息丢失造成数据值缺失因人工遗漏造成数据值缺失因样本的属性值本身为空造成数据值缺失在完成数据收集后,缺失值在数据集中的表现方式也是多样的。观测值为“NULL”、“NAN”、“”等;出现不符合客观现实的现象等身高属性的值为“-1”,年龄属性的值为“999”等缺失值的存在和表现4.2.1缺失值处理常用的缺失值处理方法有忽略样本、删除样本和数据填充。忽略样本就是不处理缺失值,直接在包含缺失值的数据上进行数据挖掘。通常在描述性统计任务或分类任务中使用这种方法。删除样本就是将数据集中存在缺失值的样本删除,以得到完备的数据集。当数据样本存在多个属性缺失或有缺失值的样本占比非常小时十分有效。数据填充就是用一定的值去填充数据集中的缺失值,以得到完备的数据集。常用的数据填充方式包括人工填写、特殊标注、使用属性的中心度量填充、使用所有可能的值填充、使用插值法填充、使用模型填充、基于相似度填充等。缺失值处理4.2.1缺失值处理以上所列方法中,直接删除样本和使用平均值填充的方法虽然易于实现但效果较差,基于相似度填充和使用模型填充的方法在实际业务中效果较好。对于具体的数据挖掘应用而言,不同方法得到的结果可能差别很大,所以应尝试多种填充方法,选择效果最好的方法。需要注意的是,大多数数据挖掘过程都会在数据预处理阶段采用删除样本或数据填充的方法对缺失数据进行处理。但是,并不存在一种处理缺失值的方法可以适合于任何数据集或任何数据挖掘任务,无论哪种缺失值处理方法,都会无法避免地对数据集产生影响,继而影响模型结果。同时,在缺失值过多时,更值得关注的问题是数据集出现大量缺失值的原因。缺失值处理4.2.2噪声数据处理噪声(noisy)是被测量属性的随机误差。噪声数据是无意义的数据,但可能对数据挖掘模型和结果产生影响。在进行数据挖掘时,很难完全避免噪声数据或者剔除噪声数据,但是可以使用基本的数据统计描述技术和数据可视化方法(例如,箱线图或散点图)来识别可能代表噪声的离群点或异常值。常见的平滑和识别噪声数据的方法有分箱法、聚类法和回归法等。噪声数据4.2.2噪声数据处理分箱法是一种简单的数据预处理方法,通过考察相邻数据来确定最终值,以达到平滑噪声的效果,是一种局部平滑方法。分箱的主要目的是去噪,将连续数据离散化,完成数据平滑。分箱法通过把待处理的数据(一般为某列属性的值)按照一定的规则放进一些箱子中,用箱子的深度表示箱子中数据的个数,用箱子的宽度表示每个箱子的取值范围,然后对箱中的数据进行平滑处理。在采用分箱技术进行数据处理时,首先需要确定具体的分箱方法,然后确定箱子中数据平滑的方法。常用的分箱方法有等深分箱法、等宽分箱法和自定义区间法等。分箱法4.2.2噪声数据处理等深分箱法:指落入每个箱子中的数据个数相同。方法是将数据集按数据的记录行数分箱,每个箱子具有相同的记录数,是最简单的一种分箱方法。等宽分箱法:指每个箱子中数据的取值区间相同。方法是将数据集某一属性值的取值区间进行平均划分,保持每个箱子的宽度相同。自定义区间法:指根据实际业务或分析需要自定义区间,当明确希望观察某些区间范围内的数据分布时,使用自定义区间方法可以快速完成数据分析任务。完成分箱之后,需要选择一种方法对数据进行平滑,数据平滑的方法包括按平均值平滑、按边界值平滑和按中值平滑等。分箱法4.2.2噪声数据处理聚类分析可以帮助发现离群点数据,虽然离群点与噪声数据都表现为游离于正常数据之外,但离群点数据不同于噪声数据,甚至某些情况下离群点反而是数据分析的重要目标。此处讨论使用聚类方法识别离群点,将离群点视为噪声或异常值而丢弃,以完成降噪。聚类方法不需要任何先验知识即可进行,数据维度不高时效果较好。聚类法4.2.2噪声数据处理在进行数据降噪时,还可以利用拟合函数对数据进行平滑,例如使用线性回归方法或多元回归方法,可以获得多个变量之间的拟合关系,借此利用一个或一组变量值来预测另一个连续变量的值。在使用回归法降噪时,首先利用回归分析方法,得到以待平滑数据属性为目标变量的拟合函数,然后使用拟合函数值代替原始值,帮助平滑数据或剔除数据中的噪声。回归法数据归约4.3为了提高数据挖掘效率,降低成本,提高质量,需通过技术手段降低数据规模,以减少模型运算时间,降低运行成本,这一过程就是数据归约。数据归约技术可以得到数据集的归约表示,它仍然接近地保持原数据的完整性,但数据规模小得多。在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。数据归约技术主要通过属性选择和数据采样两个途径对原始数据集进行压缩。本节介绍聚集、抽样、维归约、特征子集选择和特征创建等数据归约方法。4.3数据归约4.3.1聚集当数据对象较多时,最先考虑的方法是按照某个属性的取值将两个或多个对象合并成一个来减少数据对象的个数,这种合并汇总就是数据聚集(dataaggregation)。聚集时,需要合并所有记录的每个属性的值。定量属性通常使用求和、求平均等方法进行聚集,而定性属性在聚集后可能会失去意义,此时可以忽略或通过将相关取值汇总在一起进行处理。需要注意的是,聚集可以达到数据归约、转换标度和得到更“稳定”的数据的目的,但也可能会丢失数据中的重要细节。4.3.2抽样抽样(sampling)是从全部调查对象中抽取一部分样本作为研究对象。抽样的基本要求是进行有效抽样,即所抽取的样本对总体要具有充分的代表性并保留原数据集的性质。所谓代表性即样本能够代表总体的程度,可以通过分析样本性质与总体性质的差异进行简单判断。在实际的数据挖掘任务中,要确定合适的样本容量是比较困难的。有时需要使用自适应(adaptive)或渐进抽样(progressivesampling)方法来确定样本容量,即从一个小样本开始建模,根据模型准确度等指标的变化,逐渐增加样本容量,直至得到足够容量的样本(如:当模型的准确率保持稳定时)。通过掌握模型准确率随样本容量逐渐增大的变化情况,基于模型准确率稳定时的样本容量进行多次抽样和实验,可以估计出当前样本容量与模型准确率稳定点的接近程度,从而确定合适的样本容量。4.3.3维规约

4.3.4特征子集选择特征子集选择(featuresubsetselection,简称FSS)的主要目的是从原始属性集中删除那些不具有预测能力或预测能力微弱的属性,从而在较小的属性子集上进行数据挖掘。通常能够根据数据分析常识或项目相关的专业知识快速排除一些不相关的或冗余的特征,但是要选择最佳的特征子集则需要系统的方法。常用的特征子集选择方法有嵌入法、过滤法和包装法三种。特征子集选择4.3.4特征子集选择嵌入方法(embeddedapproach)将特征子集选择作为数据挖掘算法的一部分集成到算法的学习过程中,在数据挖掘算法运行时,算法自身进行特征子集的筛选。过滤方法(filterapproach)使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征子集选择。包装方法(wrapperapproach)将目标数据挖掘算法作为黑盒,使用与穷举法相似的方法选择特征子集,区别在于一般并不枚举所有可能的子集来找出最佳特征子集。特征子集选择4.3.4特征子集选择特征子集选择的过程一般由子集生成、子集评估、停止判断和结果检验四个部分组成。特征子集选择过程4.3.5特征创建特征子集选择通过对原始数据集进行属性筛选和过滤以达到降维的效果,特征创建(featurecreation)则是在原属性集合的基础上,通过创建新的属性来进行数据降维。常用的特征创建方法包括特征提取(featureextraction)、映射数据到新的空间(mappingthedatatoanewspace)、特征构造(featureconstruction)、主成分分析法(principalcomponentanalysis,PCA)和线性判别法(lineardiscriminantanalysis,LDA)。4.3.5特征创建特征提取即由原始数据提取新的特征集。例如,处理照片数据集,需要按照照片是否包含人脸分类,此处原始数据是像素的集合,不适用于大多数成熟的分类算法。如果对数据进行处理,从像素集合中提取一些新的特征,如与人脸高度相关的某些类型的边或区域等,则能使用更多分类技术进行数据挖掘。映射数据到新的空间即使用一种新的视角进行的特征创建。例如,现实任务中原始样本空间内并不存在一个能正确划分两类样本的超平面(线性不可分),此时可以将样本从原始空间影射到一个更高维的特征空间,就可能使得样本在这个特征空间内线性可分。4.3.5特征创建特征构造即使用原特征构造的新特征。例如,文物数据库包含每件文物的体积和质量等信息。假定这些文物的材质可能是木材、陶土、青铜和黄金,希望根据文物的材质对它们分类。此时由质量和体积特征构造的密度特征(即密度=质量/体积)可以直接产生准确的分类。数据挖掘中常常使用简单的数学组合进行特征构造,如计算两个属性值的比值、差或增长百分比等来合成新属性,在具体的应用中,往往需要结合具体业务并参考专家意见来构造特征。4.3.5特征创建主成分分析法是一种无监督的线性降维方法,也是最常用的降维方法之一。主成分分析的前提是高信息等于高方差,即方差越大信息量就越最大。主成分分析通过识别一组特定数据中具有高方差的维度,将高维的数据映射到低维的空间中,并期望在所映射的维度上数据的信息量最大(即方差最大),使用较少的数据维度保留较多的原始数据的特性,从而达到特征创建和降维的目的。主成分分析法4.3.5特征创建

主成分分析法4.3.5特征创建主成分分析法的基本步骤如下:主成分分析法4.3.5特征创建线性判别分析是一种有监督的线性降维方法。线性判别分析的目标是找到一个投影超平面,使得高维数据经过这个超平面投影后能够最大化区分不同类别的样本。在投影过程中,需要满足下面两个约束。(1)同类的数据点在投影后尽可能接近(2)不同类的数据点在投影后尽可能分开线性判别分析4.3.5特征创建以二维数据为例,线性判别分析的目的是在平面直角坐标系中找到一条投影直线,使得所有同类别数据的投影点尽可能接近,不同类别数据的投影点尽可能远离,如图所示。线性判别分析4.3.5特征创建线性判别分析降维算法的过程一般分为五个步骤,如下所示。线性判别分析离散化与二元化4.4有些数据挖掘算法要求输入数据集必须为分类属性,因此常常需要把连续型属性转换成分类型属性,这一过程即为离散化(discretization)。离散化技术通过将连续型属性的取值范围划分为若干区间,将落在每个区间里的值用一个分类值来代替,达到减少连续型属性的取值个数的目的。有时需要将连续属性和离散属性变换成一个或多个二元属性,即进行二元化(binarization)处理。二元化技术通过二进制编码的形式将分类属性转变为二元属性。4.4离散化与二元化4.4.1离散化对连续型属性进行离散化时需要考虑两个问题:(1)需要多少个分类值,即将属性值域范围分为几个区间(2)如何将原数据映射到这些分类值上即离散化过程的关键在于确定分割点的个数以及分割点的位置,分割点的个数一般由用户确定,分割点的位置可以由非监督的方法或监督的方法来确定。对连续型数据进行离散化处理的方法,根据离散化过程是否使用数据的类别信息可以分为非监督离散化(unsuperviseddiscretization)和监督离散化(superviseddiscretization)。非监督离散化不使用数据的类别信息,通常使用一些相对简单的方法。监督离散化使用了数据的类别信息,通常能取得更好的离散化效果。4.4.1离散化常用的非监督离散化方法包括分箱、直方图分析和聚类分析。分箱:用于数据平滑的分箱法也可以用作数据离散化。例如,通过等宽或等频分箱,利用箱均值或中位数替换箱中的每个值,可以将连续属性离散化。直方图分析:直方图分析基于数据分布,能够将属性的值划分为不相交的区间,直方图通常分为等宽直方图和等频直方图。等宽直方图将属性值分为相等宽度的区间,等频直方图将属性值划分为个数相同的区间。聚类分析:聚类分析是一种比较常用的离散化方法,用聚类算法将属性的值划分成簇,一个簇即为一个区间。聚类分析离散化方法在划分过程中考虑了属性值的分布和相似性,能够产生高质量的离散化结果。非监督离散化4.4.1离散化监督离散化

4.4.2二元化

数据规范化和数据泛化4.5数据规范化和数据泛化是数据变换的基本策略之一,数据变换是将原始数据变换成更适合数据挖掘的数据格式的过程。经过数据变换的数据对模型和算法的适应性可能更强,这使挖掘过程可能更有效,输出的结果可能更加准确。广义上的数据变换包括数据平滑、特征创建、聚集、离散化、数据规范化和数据泛化等策略。数据平滑、特征创建、聚集和离散化已经讨论,本节介绍数据规范化(datanormalization)和数据泛化(datageneralization)。4.5数据规范化和数据泛化

4.5.1数据规范化

4.5.1数据规范化最小-最大规范化

4.5.1数据规范化z分数规范化

4.5.1数据规范化小数定标规范化在分类型属性的类别值较多时,如果分类属性是无序的(即标称属性),需要一个非常庞大的0-1矩阵,这反而给数据挖掘算法增加了存储负担和运算成本,此时就需要考虑其他方法。对于无序的分类属性,可以通过产生概念分层(concepthierarchy)的方法来解决分类属性的值过多的问题。概念分层可以把数据变换到不同的粒度层,属于低粒度概念层次的属性值较多的情况下,通过用较高层次的概念替换较低层次的属性值来进行汇总表示,这种方法被称为数据泛化(generalization)。经过泛化后的数据尽管细节信息丢失了,但其可能更具有决策意义、更容易理解。通常,数据的概念层次是由用户或领域专家针对具体问题设定的,如果领域知识不能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论