商务智能理论与应用8-数据准备ppt课件_第1页
商务智能理论与应用8-数据准备ppt课件_第2页
商务智能理论与应用8-数据准备ppt课件_第3页
商务智能理论与应用8-数据准备ppt课件_第4页
商务智能理论与应用8-数据准备ppt课件_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022/7/104. 数据预处置2022/7/101.为什么要进展数据发掘?现实世界的数据是脏的不完好: 缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据e.g., occupation=“ 有噪声: 包含错误的数据或异常值e.g., Salary=“-10不一致: 在代码或者名字中存在矛盾或不一致e.g., Age=“42 Birthday=“03/07/1997e.g., Was rating “1,2,3, now rating “A, B, Ce.g., discrepancy between duplicate records2022/7/102.为什么数据预处置重要?No qu

2、ality data, no quality mining results!Quality decisions must be based on quality datae.g., duplicate or missing data may cause incorrect or even misleading statistics.Data warehouse needs consistent integration of quality dataData extraction, cleaning, and transformation comprises the majority of th

3、e work of building a data warehouse2022/7/103.2022/7/104数据预处置的主要内容:.2022/7/10数据预处置的主要内容一、原始数据的表述二、数据清理三、数据变换四、元组的归约五、属性的归约2022/7/105.数据样本是数据发掘过程的根本组成部分。一、原始数据的表述2022/7/106每个样本都用几个特征来描画,每个特征有不同类型的值。.2022/7/102022/7/10常见的数据类型有:数值型和分类型。数值型包括实型变量和整型变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和间隔关系。 7.2022/7/102022/7/1

4、0一个有两个值的分类型变量:分类型变量的两个值可以平等或不平等。原那么上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原那么上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。8.2022/7/102022/7/10例如:假设变量“眼睛颜色有4个值:黑色、蓝色、绿色、褐色。 特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 00019.2022/7/102022/7/10变量的分类:延续型变量和离散型变量。延续型变量也以为是定量型或是量度型,是指在一定区间内可以恣意取值的变量。离散型变量也叫定性型变量,是指全部能够取到的不一样的

5、值是有限个的变量。注:一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。10.2022/7/102022/7/10与时间有关的数据分类:静态数据数据不随时间变化而变化动态数据时间数据随时间变化而变化的属性。注:大多数数据发掘方法更适用于静态数据,在对动态数据进展发掘时要有特殊的思索和预处置。11.2022/7/10二、数据清理缺失值的填补2022/7/10对数据发掘的实践运用而言,即使数据量很大,具有完好数据的案例也非常少,这样就面临数据的缺失问题。运用数据发掘方法之前如何处置这样景象,最简单的方法是减少数据集,去掉一切有缺失值的样本。假设我们不想扔掉这些有缺失值的样本,就必需找

6、到它们的缺失值,用什么方法来实现呢?填补缺失值。12.2022/7/101、单一填补法1均值填补法。均值填补法是根据与含缺失值的目的属性相关性高的其它属性的信息将样品分为假设干组,然后分别计算各组目的属性的均值,将各组均值作为组内一切缺失项的填补值。均值填补的优点是操作简便,并且可以有效地降低其点估计的偏向。但它的缺陷也比较突出:首先,由于同组中的缺失值由同一个值填补,填补结果歪曲了目的属性的分布;其次,也导致在均值和总量估计中对方差的低估。2022/7/1013.例:2022/7/1014.均值填补:2022/7/1015.2022/7/102随机填补法。随机填补法是采用某种概率抽样的方式,

7、从有完好信息的元组中抽取缺失数据的填补值的方法。它虽然可以防止均值填补中填补值过于凝集以及容易扭曲目的属性分布的弱点,使得填补值的分布与真值分布更为接近。但它却增大了估计量的方差,并且稳定性不够。2022/7/1016.2022/7/103热卡填补法。热卡填补法hot deck imputation是规定一个或多个排序属性,按其察看值大小对全部察看单位排序,假设选择的是两个以上的属性,排序按属性的入选顺序依次进展。排序属性值完全一样的察看单位称为匹配,缺失值就用与之匹配的察看单位的属性值来填补。假设有多例相匹配,可取第一例或随机取其一。假设没有相匹配的,可以每次减少一个排序属性,再找相匹配的元

8、组。假设直到最后一个排序属性,还没有找到相匹配的,那么需求重新规定排序属性。2022/7/1017项目性别年龄学生身分收入办卡1男45否高 会2女3145否高会3女2030是低会4男20是低不会5女2030是中不会6女2030否中会7女3145否高会8男3145是中不会9男3145否中会10女45否高 会2女3145否高会3女2030是低会4男20是低不会5女2030是中不会6女2030否中会7女3145否高会8男3145是中不会9男3145否中会10女20是低会.2022/7/10Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.4300

9、6.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422022/7/10举例:IRIS样本集的详细步骤 71.2022/7/10首先,从第一个分割点开场,将属性值分为两部分即4.3,4.4)和4.4,7.9,那么分割后新的类别熵为: 2022/7/10区间d1d2d3合计4.3,4

10、.4)10014.4,7.949505014972.2022/7/10以此类推,如把属性值分为4.3,5.6)和5.6,7,9两个区间时,产生的新的类别熵为:2022/7/10区间d1d2d3合计4.3,5.6)47111595.6,7.9339499173.2022/7/10对一切的分割点将属性值分为两个区间的新类别熵计算出来,有2022/7/10d1 d2 d3 新的类别熵d1d2d3新的类别熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.64000.446796.30360.39

11、2024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010.457305.81330.330407.

12、60010.460715.90210.337427.70040.473927.900174.2022/7/10从上表中可以看到,将属性值分为4.3,5.6)和5.6,7,9两个区间时,类别熵最小,因此首先把属性值分为两大部分。按照上述步骤, 分别再找出区间 4.3,5.6)和5.6,7,9的二分点,以此类推,逐渐将区间分割为更小的区间,直到满足某个终止条件为止。2022/7/1075.2022/7/102022/7/10d1 d2 d3 新的类别熵d1d2d3新的类别熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.45966

13、6.20220.367514.64000.446796.30360.392024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.725

14、10.321787.40010.457305.81330.330407.60010.460715.90210.337427.70040.473927.900176.2022/7/102022/7/104、CHIMERGE算法77.2022/7/102022/7/1078Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.100

15、15.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.90016042.2022/7/102022/7/1079.2022/7/102022/7/1080.2022/7/10运用采用Iris样本集进展统计模拟。如今以花萼长 sepal length in cm 属性为例,来进展延续型值属性的离散化。2022/7/1081.2022/7/10Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254

16、.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422022/7/1082.2022/7/10详细步骤:1察看各区间,先将类分布完全一样的区间进展合并。2022/7/10区间d1d2d3区间d1d2d34.3,4.9)16005.7,5.9)3844.9,5.0)4115.9,6.6)018225.0,5.3)19406.6,6.7)020

17、5.3,5.4)1006.7,7.0)05105.4,5.6)7607.0,7.1)0105.6,5.7)0517.1,7.9)001283.2022/7/102022/7/102调查4.3,4.9)与4.9,5),看其能否可以合并?两区间的卡方统计量和为5.87,大于临界值,因此两区间不能合并。区间d1d2d3求和4.3,4.9)1600164.9,5)4116求和201122区间eijeijeij4.3,4.9)14.5450.7270.7274.9,5)5.4550.2730.273区间24.3,4.9)0.1450.7270.7271.64.9,5)0.3881.9391.9394.2

18、67表1:两区间的列联表表2:计算各项的eij表3:两区间的卡方统计量值84.2022/7/102022/7/103继续调查区间4.9,5)与5.0,5.3) ,看其能否可以合并,直到一切的区间卡方统计量大于阀值为止。85.2022/7/10五、属性的归约属性的归约包括两类方法:属性的提取和属性子集的选择。一属性的提取属性的提取是经过映射或变换的方法,将高维的属性空间紧缩为低维的属性空间,即将原始属性变换为较少的新属性。此时,“较少的新属性是原始属性的某种线性组合,也可以称为“二次属性。2022/7/1086.2022/7/10属性提取的最大的优点在于:这样的线性组合比属性选择中的最优子集有更

19、好的判别才干。但相应的问题是,这样的线性组合的实践意义却不明显,有时难以解释。到目前为止,对属性提取的研讨主要是从线性和非线性的数据变换角度进展的。用的比较多的线性数据变换方法是:主成分分析、因子分析、判别分析、聚类分析、多维标度、投影寻踪以及小波变换等。非线性的数据变换,主要是基于自组织映射的属性抽取方法、基于核的主成分分析和基于核的判别分析方法等。2022/7/1087.2022/7/101、主成分分析因子分析主成分分析和因子分析都是多元统计分析中的一种常用方法,是数学上处置降维的一种方法。主成分分析的根本思想:设法将原始属性重新组合成一组新的相互无关的几个综合属性,同时根据需求从中选取少

20、数几个综合属性来尽能够多地反映原来目的的信息。综合目的的选取运用的是方差最大法。2022/7/1088.2、因子分析因子分析的根本思想:经过变量或样本的相关系数矩阵内部构造的研讨,找出能控制一切变量的少数几个因子去描画多个变量之间的相关关系;然后,根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组之间相关性较低。2022/7/1089.2022/7/10主成分分析和因子分析的对比2022/7/10主成分分析因子分析由因子的线性组合来解释变量90.主成份分析和因子分析的优点因子主成份之间的线性相关关系不显著。主成份参与数据建模可以有效地处理变量多重共线性等分析运用带来的问题。因

21、子可以反映原有变量的绝大部分信息。因子的方差奉献和方差奉献率是衡量因子重要性的关键目的。该值越高,阐明相应因子的重要性越高。aij因子载荷反映了某i个变量在第j因子上的相对重要性。因子得分是因子分析的最终表达。在后续的分析中可以用因子变量替代原有变量进展建模,或者利用因子变量对样本分类、评价或排序等研讨。2022/7/1091.3、聚类分析K均值聚类分析 K均值法是麦奎因MacQueen,1967提出的,这种算法的根本思想是将每一个样品分配给最近中心均值的类中.详细的算法至少包括以下三个步骤:1将一切的样品分成K个初始类;2经过欧氏间隔将某个样品划入离中心最近的类中,并对获得样品与失去样品的类

22、,重新计算中心坐标;3反复步骤2,直到一切的样品都不能再分配时为止。2022/7/1092.2022/7/10二属性子集的选择属性子集的选择是经过删除不相关的属性来减少数据量。属性子集选择的目的是找出最小属性集,使得数据类的概率分布尽能够地接近运用一切属性的原分布。2022/7/1093.2022/7/10属性子集的选择方法普通有两个组成部分:一是高效率的属性子集搜索战略,即在允许的时间内,用以找出最小的、最能描画类别的属性组合的搜索方法;二是确定评价函数,是衡量属性组合能否最优的规范。属性子集的选择普通分两步进展:首先,产生属性子集;然后,对子集进展评价,假设满足停顿条件那么停顿,否那么反复

23、前述两步直到条件满足为止。2022/7/1094经过该规范,要可以衡量哪组属性子集的分类效果最好,即使得数据类的概率分布尽能够地接近运用一切属性的原分布;或者可以衡量哪组属性子集的分类效果最好,即最可以代表全部的属性集合对样本的划分。.2022/7/101、搜索战略按照搜索属性构成属性子集的方式,搜索战略可以分为:穷举法、启发式和随机搜索。启发式搜索即贪婪算法。根本的启发式属性选择算法主要有:逐渐向前选择SFS、逐渐向后选择SBG 以及向前选择和向后删除相结合的方法等。2022/7/1095.2022/7/101逐渐向前选择逐渐向前选择方法是一种自下而上的搜索方法,它是由空属性集开场,依次从未

24、入选的属性中选择一个属性,使它与已入选的属性组合在一同时所得的评价函数到达最大值或最小值,依评价函数选取的不同,取最大或最小值,直到评价函数的值不再添加或减小时为止,亦或者到达指定的属性数为止。2022/7/109696可以衡量哪组属性子集的分类效果最好,最可以代表全部的属性集合对样本的划分。.这种算法的缺乏是:在算法中虽然思索了所选属性与已入选属性之间的相关性,但却未思索未入选属性之间的统计相关性,并且一旦某个属性已入选,即使由于后参与的属性使它变为多余,也无法再剔除。2022/7/1097.2022/7/102逐渐向后删除逐渐向后删除是一种自上而下搜索的方法,它由整个属性集开场,在每一步删

25、除掉在属性集中最坏的属性,评判属性好坏的准那么是,假设剔除该属性后,属性集的评价函数到达最大或最小值,那么这个属性是最坏的。2022/7/109898.3逐渐向前选择和逐渐向后删除相结合向前选择和向后删除结合的方法那么是将向前选择和向后删除方法结合在一同,每一步选择一个最好的属性,并在其剩余的属性中删除掉一个最坏的属性。这两种方法也存在着与逐渐向前选择方法一样的缺陷。2022/7/1099.2022/7/104广义逐渐向前选择广义逐渐向前选择方法是逐渐向前选择方法的推行,针对逐渐向前选择方法“未能思索未入选属性之间的统计相关性的缺陷,该方法每次从未入选的属性中挑选的不止是一个属性而是多个属性。广义逐渐向前选择方法的缺陷是:计算量要比逐渐向前选择方法大很多,并且也未处理“一旦某个属性已入选,即使由于后参与的属性使它变为多余,也无法再剔除的问题。2022/7/10100100.2022/7/102、属性子集选择中的评价函数在属性子集选择中,找出最具代表性的属性子集需求一个子集优劣的评价规范。经过该规范,使得数据类的概率分布尽能够地接近运用一切属性的原分布;假设没有类属性,那么可以衡量哪组属性子集的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论