数据挖掘概念与技术原书版数据预处理

上传人：1*** IP属地：江苏上传时间：2023-09-06 格式：PPT 页数：90 大小：3.41MB 积分：12 举报 版权申诉

已阅读5页，还剩85页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据预处理为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成第二章数据预处理现实世界的数据是“脏的”——数据多了，什么问题都会出现不完整缺少数据值；缺乏某些重要属性；仅包含聚集数据；e.g.,occupation=""有噪声包含错误或者孤立点e.g.Salary=-10数据不一致e.g.,在编码或者命名上存在差异e.g.,过去的等级：“1,2,3”,现在的等级：“A,B,C”e.g.,重复记录间的不一致性为什么进行数据预处理不完整数据的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素人为/硬件/软件问题噪声数据（不正确的值）的成因数据收集工具的问题数据输入时的人为/计算机错误数据传输中产生的错误数据不一致性的成因不同的数据源违反了函数依赖性数据为什么会变“脏”？没有高质量的数据，就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据e.g.重复值或者空缺值将会产生不正确的或者令人误导的统计数据仓库需要对高质量的数据进行一致地集成数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤预处理为什么是重要的？一个广为认可的多维度量观点：精确度完整度一致性合乎时机可信度附加价值可解释性跟数据本身的含义相关的内在的、上下文的、表象的以及可访问性数据质量的多维度量数据清理填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果数据离散化数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要数据预处理的主要任务为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成第二章数据预处理动机：为了更好的理解数据获得数据的总体印像识别数据的典型特征凸显噪声或离群点度量数据的中心趋势均值、中位数、众数（模）、中列数度量数据的离散程度四分位数、四分位数极差、方差等描述性数据汇总度量可以分为三类：分布式度量(distributivemeasure)：将数据集划分为较小的子集，计算每个子集的度量，然后合并计算结果，得到原数据集的度量值。比如：count()，sum()，min()，max()等代数度量(algebraic)：可以通过应用一个代数函数于一个或多个分布式度量计算的度量。比如：平均值函数avg()（avg()=sum()/count()）整体度量(holistic)：必须对整个数据集计算的度量比如：median()，mode()，rank()度量的分类算术平均值加权算术均值截断均值（trimmedmean）：去掉高、低极端值得到的均值e.g.计算平均工资时，可以截掉上下各2％的值后计算均值，以抵消少数极端值的影响中位数：有序集的中间值或者中间两个值平均整体度量；但是可以通过插值法计算近似值度量数据的中心趋势众数（Mode，也叫模）：集合中出现频率最高的值单峰的（unimodal，也叫单模态）、双峰的（bimodal）、三峰的（trimodal）；多峰的（multimodal）对于适度倾斜（非对称的）的单峰频率曲线，可以使用以下经验公式计算众数最常用度量：极差、五数概括（基于四分位数）、中间四分位数极差和标准差极差（range）：数据集的最大值和最小值之差百分位数(percentile)：第k个百分位数是具有如下性质的值x：k%的数据项位于或低于x中位数就是第50个百分位数四分位数：Q1(25thpercentile),Q3(75thpercentile)中间四分位数极差(IQR)：IQR=Q3–

孤立点：通常我们认为：挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值度量数据的离散度（1）五数概括:min,Q1,Median,

Q3,max盒图：数据分布的一种直观表示方差和标准差方差：n个观测之x1,x2...xn的方差是标准差是方差的平方根标准差是关于平均值的离散的度量，因此仅当选平均值做中心度量时使用所有观测值相同则＝0，否则>0方差和标准差都是代数度量度量数据的离散度（2）盒图：数据分布的一种直观表示，在盒图中：端点在四分位数上，使得盒图的长度是IQR中位数M用盒内的线标记胡须延伸到最大最小观测值该盒图为在给定时间段在AllElectronics的4个分店销售的商品单价的盒图分店1中位数$80Q1:$60Q3:$100盒图——示例使用盒图的数据离散的可视化描述常用的显示数据汇总和分布的方法：直方图、分位数图、q-q图、散布图和局部回归曲线直方图：是一种概括给定属性分布的图形方法将数据分布划分成不相交的子集或桶，通常每个桶宽度一致并用一个矩形表示，其高度表示桶中数据在给定数据中出现的计数或频率描述数据汇总的图形显示——直方图一种观察单变量数据分布的简单有效方法显示所有的数据，允许用户评估总的情况和不寻常情况的出现绘出了分位数信息设xi是递增排序的数据，则每个xi都有相对应的fi，指出大约有100fi

％的数据小于等于xi分位数图对着另一个单变量的分位数，绘制一个单变量分布的分位数允许用户观察是不是有从一个分布到另外一个分布的迁移分位数－分位数图（Q-Q图）确定两个数值属性之间看上去是否有联系、模式或者趋势的最有效的图形方法之一散布图中的每个值都被视作代数坐标对，作为一个点画在平面上易于观察双变量数据在平面上的分布散布图loess曲线为散布图添加一条平滑的曲线，以便更好的观察两个变量间的依赖模式Loess(localregression)意指“局部回归”，为了拟合loess曲线，需要两个参数：平滑参数α，被回归拟合的多项式的阶λloess曲线为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成第二章数据预处业界对数据清理的认识“数据清理是数据仓库构建中最重要的问题”—DCIsurvey数据清理任务填写空缺的值识别离群点和平滑噪声数据纠正不一致的数据解决数据集成造成的冗余数据清理数据并不总是完整的例如：数据库表中，很多条记录的对应字段没有相应值，比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时，有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上空缺值忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。人工填写空缺值：工作量大，可行性低使用一个全局变量填充空缺值：比如使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样的基于推断的方法如何处理空缺值噪声：一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据噪声数据分箱(binning):首先排序数据，并将他们分到等深的箱中然后可以按箱平均值平滑、按箱中值平滑、按箱边界平滑等等回归通过让数据适应回归函数来平滑数据聚类：监测并且去除孤立点如何处理噪声数据price的排序后数据（单位：美元）：4，8，15，21，21，24，25，28，34划分为（等深的）箱：箱1：4，8，15箱2：21，21，24箱3：25，28，34用箱平均值平滑：箱1：9，9，9箱2：22，22，22箱3：29，29，29用箱边界平滑：箱1：4，4，15箱2：21，21，24箱3：25，25，34数据平滑的分箱方法通过聚类分析检测离群点，消除噪声聚类将类似的值聚成簇。直观的，落在簇集合之外的值被视为离群点聚类回归xyy=x+1X1Y1Y1’第一步：偏差检测使用元数据（e.g.每个属性的域、数值类型、依赖性、分布等）检查字段过载检查唯一性规则、连续性规则、空值规则使用偏差检查工具数据清理工具：使用简单的领域知识（e.g.邮编、拼写检查）检查并纠正数据中的错误数据审计工具：通过分析数据发现规则和联系及检测违反这些条件的数据来发现偏差数据清理作为一个过程第二步：数据变换（纠正偏差）数据迁移工具：允许说明简单的变换ETL（提取/变换/装入）工具：允许用户通过GUI说明变换偏差检测和数据变换（纠偏）的迭代执行强调交互性的清理方法为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成第二章数据预处数据集成：将多个数据源中的数据整合到一个一致的数据存储中模式集成：整合不同数据源中的元数据实体识别问题：匹配来自不同数据源的现实世界的实体e.g.BillClinton=WilliamClinton检测并解决数据值的冲突对现实世界中的同一实体，来自不同数据源的属性值可能是不同的可能的原因：不同的数据表示，不同的度量等等数据集成集成多个数据库时，经常会出现冗余数据对象识别：同一属性或对象在不同的数据库中会有不同的字段名可导出数据：一个属性可以由另外一个表导出，如“年薪”有些冗余可以被相关分析检测到仔细将多个数据源中的数据集成起来，能够减少或避免结果数据中的冗余与不一致性，从而可以提高挖掘的速度和质量。处理数据集成中的冗余数据Χ2(chi-square)测试Χ2的值越大，意味着两个变量相关的可能性越大期望值和观测值之间相差越大，值也将越大相关性不意味着因果关系e.g.我们发现一个地区的医院数和汽车盗窃数相关两者都必然的关联到第三个属性：人口

分类数据的相关性分析数据变换将数据转换或统一成适合挖掘的形式平滑：去除数据中的噪声聚集：汇总，数据立方体的构建数据泛化：沿概念分层向上汇总规范化：将数据按比例缩放，使之落入一个小的特定区间最小－最大规范化z-score规范化小数定标规范化属性构造通过现有属性构造新的属性，并添加到属性集中；以增加对高维数据的结构的理解和精确度数据变换最小－最大规范化z-score规范化最大最小值未知，或者离群点影响较大的时候适用小数定标规范化其中，j是使Max(||)<1的最小整数数据变换——规范化为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成第二章数据预处为什么需要进行数据规约？数据仓库中往往存有海量数据在整个数据集上进行复杂的数据分析与挖掘需要很长的时间数据归约数据归约可以用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果数据规约常用的数据归约策略数据立方体聚集属性子集选择，e.g.移除不重要的属性维度归约，数值归约，e.g.使用模型来表示数据离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间最底层的方体对应于基本方体基本方体对应于感兴趣的实体在数据立方体中存在着不同级别的汇总数据立方体可以看成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据的快速访问使用与给定任务相关的最小方体在可能的情况下，对于汇总数据的查询应当使用数据立方体数据立方体聚集通过删除不相干的属性或维减少数据集属性子集选择（特征选择）找出最小属性集，使得数据类的概率分布尽可能的接近使用所有属性得到的原分布减少出现在发现模式上的属性数目，使得模式更易于理解启发式的（探索性的）方法逐步向前选择逐步向后删除向前选择和向后删除相结合决策树归约属性子集选择维度归约使用数据编码或变换，以便得到原数据的归约或“压缩”表示两种有损的维度归约方法小波变换，一种线性信号处理技术可以用于多维数据，如数据立方体对于稀疏或倾斜数据和具有有序属性的数据，能给出很好的结果适合高维数据主成分分析，搜索k个最能代表数据的n维正交向量，其中k小于等于n，这样，原来的数据投影到一个小得多的空间，导致维度归约。该计算开销低，可以用于有序和无序的属性，并且可以处理稀疏和倾斜数据。能够更好的处理稀疏数据通过选择替代的、较小的数据表示形式来减少数据量有参方法使用一个参数模型估计数据，最后只要存储参数即可，不用存储数据（除了可能的离群点）常用方法：线性回归方法；多元回归；对数线性模型；无参方法不使用模型的方法存储数据常用方法：直方图，聚类，抽样数值归约线性回归：数据被拟合为一条直线Y=wX+b两个回归系数，w和b，由手头的数据来进行估算通常适用最小二乘法来确定这条直线多元回归：线性回归的扩充，允许响应变量Y被建模为两个或多个预测变量的线性函数。多元回归可以拟合多种非线性函数对数线性模型：近似离散的多维概率分布。回归分析与对数线性模型一种流行的数据归约技术将某属性的数据划分为不相交的子集，或桶，桶中放置该值的出现频率桶和属性值的划分规则等宽等频（等深）V-最优具有最小方差MaxDiff直方图将数据集划分为聚类，然后通过聚类来表示数据集如果数据可以组成各种不同的聚类，则该技术非常有效，反之如果数据界线模糊，则方法无效数据可以分层聚类，并被存储在多层索引树中将在第7章对聚类分析进行深入探讨聚类允许用数据的较小随机样本（子集）表示大的数据集对数据集D的抽样方法：s个样本无放回简单随机抽样（SRSWOR）：从D的N个元组中抽取s个样本（s<N）s个样本有放回简单随机抽样（SRSWR）：过程同上，只是元组被抽取后，将被回放，可能再次被抽取聚类抽样：D中元组被分入M个互不相交的聚类中，可在其中的s个聚类上进行简单随机选择（SRS，s<M）分层抽样：D被划分为互不相交的“层”，则可通过对每一层的简单随机选样（SRS）得到D的分层样本。抽样选样——SRSSRSWOR(简单随机选样，不回放)SRSWR原始数据选样——聚类/分层选样原始数据聚类/分层选样为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成第二章数据预处三种类型的属性值：名称型：无序集合中的值；e.g.颜色、职业序数：有序集合中的值；e.g.军衔、职称连续值；e.g.实数离散化将连续属性的范围划分为区间有些分类算法只接受离散属性值通过离散化有效的规约数据离散化的数值用于进一步分析离散化离散化通过将属性域划分为区间，减少给定连续属性值的个数区间的标号可以代替实际的数据值离散化可以在一个属性上递归的进行概念分层通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来规约数据离散化和概念分层典型方法（所有方法均可递归应用）分箱（binning）分箱技术递归的用于结果划分，可以产生概念分层直方图分析（histogram）直方图分析方法递归的应用于每一部分，可以自动产生多级概念分层基于熵的离散化是一种监督的，自顶向下的分裂技术。基于分析的区间合并ChiMerge是一种基于的离散化方法聚类分析将数据划分成簇，每个簇形成同一个概念层上的一个节点，每个簇可再分成多个子簇，形成子节点根据直观划分离散化数值数据的离散化和概念分层产生将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为：[51263.98,60872.34]通常数据分析人员希望看到划分的形式为[50000，60000]自然划分的3-4-5规则常被用来将数值数据划分为相对一致，“更自然”的区间根据直观划分离散化分类数据是指无序的离散数据，它有有限个值（可能很多个）。分类数据的概念分层生成方法：由用户或专家在模式级显式地说明属性的偏序。通过显示数据分组说明分层结构的一部分。说明属性集，但不说明它们的偏序。对只说明部分属性集的情况。分类数据的概念分层产生根据在给定属性集中，每个属性所包含的不同值的个数，可以自动的生成概念分成；不同值个数最多的属性将被放在概念分层的最底层。属性集的规格countryprovincecitystreet5个不同值65个不同值3567个不同值674,339个不同值谢谢第一节活塞式空压机的工作原理第二节活塞式空压机的结构和自动控制第三节活塞式空压机的管理复习思考题单击此处输入你的副标题，文字是您思想的提炼，为了最终演示发布的良好效果，请尽量言简意赅的阐述观点。第六章活塞式空气压缩机

piston-aircompressor压缩空气在船舶上的应用：

1.主机的启动、换向；

2.辅机的启动；

3.为气动装置提供气源；

4.为气动工具提供气源；

5.吹洗零部件和滤器。

排气量:单位时间内所排送的相当第一级吸气状态的空气体积。单位：m3/s、m3/min、m3/h第六章活塞式空气压缩机

piston-aircompressor空压机分类：按排气压力分：低压0.2～1.0MPa；中压1～10MPa；高压10～100MPa。按排气量分：微型<1m3/min；小型1～10m3/min；中型10～100m3/min；大型>100m3/min。第六章活塞式空气压缩机

piston-aircompressor第一节活塞式空压机的工作原理容积式压缩机按结构分为两大类：往复式与旋转式两级活塞式压缩机单级活塞压缩机活塞式压缩机膜片式压缩机旋转叶片式压缩机最长的使用寿命-

----低转速（1460RPM），动件少（轴承与滑片），润滑油在机件间形成保护膜，防止磨损及泄漏，使空压机能够安静有效运作；平时有按规定做例行保养的JAGUAR滑片式空压机，至今使用十万小时以上，依然完好如初，按十万小时相当于每日以十小时运作计算，可长达33年之久。因此，将滑片式空压机比喻为一部终身机器实不为过。滑(叶)片式空压机可以365天连续运转并保证60000小时以上安全运转的空气压缩机1.进气2.开始压缩3.压缩中4.排气1.转子及机壳间成为压缩空间，当转子开始转动时，空气由机体进气端进入。2.转子转动使被吸入的空气转至机壳与转子间气密范围，同时停止进气。3.转子不断转动，气密范围变小，空气被压缩。4.被压缩的空气压力升高达到额定的压力后由排气端排出进入油气分离器内。4.被压缩的空气压力升高达到额定的压力后由排气端排出进入油气分离器内。1.进气2.开始压缩3.压缩中4.排气1.凸凹转子及机壳间成为压缩空间，当转子开始转动时，空气由机体进气端进入。2.转子转动使被吸入的空气转至机壳与转子间气密范围，同时停止进气。3.转子不断转动，气密范围变小，空气被压缩。螺杆式气体压缩机是世界上最先进、紧凑型、坚实、运行平稳，噪音低，是值得信赖的气体压缩机。螺杆式压缩机气路系统：

进气过滤器

空气进气阀

压缩机主机

单向阀

空气/油分离器

最小压力阀

后冷却器

带自动疏水器的水分离器油路系统：

油箱

恒温旁通阀

油冷却器

油过滤器

回油阀

断油阀冷冻系统：

冷冻压缩机

冷凝器

热交换器

旁通系统

空气出口过滤器螺杆式压缩机涡旋式压缩机

涡旋式压缩机是20世纪90年代末期开发并问世的高科技压缩机，由于结构简单、零件少、效率高、可靠性好，尤其是其低噪声、长寿命等诸方面大大优于其它型式的压缩机，已经得到压缩机行业的关注和公认。被誉为“环保型压缩机”。由于涡旋式压缩机的独特设计，使其成为当今世界最节能压缩机。涡旋式压缩机主要运动件涡卷付，只有磨合没有磨损，因而寿命更长，被誉为免维修压缩机。

由于涡旋式压缩机运行平稳、振动小、工作环境安静，又被誉为“超静压缩机”。

涡旋式压缩机零部件少，只有四个运动部件,压缩机工作腔由相运动涡卷付形成多个相互封闭的镰形工作腔，当动涡卷作平动运动时，使镰形工作腔由大变小而达到压缩和排出压缩空气的目的。活塞式空气压缩机的外形第一节活塞式空压机的工作原理一、理论工作循环（单级压缩）工作循环：4—1—2—34—1吸气过程

1—2压缩过程

2—3排气过程第一节活塞式空压机的工作原理一、理论工作循环（单级压缩）

压缩分类：绝热压缩：1—2耗功最大等温压缩：1—2''耗功最小多变压缩：1—2'耗功居中功＝P×V（PV图上的面积）加强对气缸的冷却，省功、对气缸润滑有益。二、实际工作循环（单级压缩）1.不存在假设条件2.与理论循环不同的原因：1）余隙容积Vc的影响Vc不利的影响—残存的气体在活塞回行时，发生膨胀，使实际吸气行程（容积）减小。Vc有利的好处—

（1）形成气垫，利于活塞回行；（2）避免“液击”（空气结露）；（3）避免活塞、连杆热膨胀，松动发生相撞。第一节活塞式空压机的工作原理表征Vc的参数—相对容积C、容积系数λv合适的C：低压0.07-0.12

中压0.09-0.14

高压0.11-0.16

λv＝0.65—0.901）余隙容积Vc的影响C越大或压力比越高，则λv越小。保证Vc正常的措施：余隙高度见表6-1压铅法—保证要求的气缸垫厚度2.与理论循环不同的原因：二、实际工作循环（单级压缩）第一节活塞式空压机的工作原理2）进排气阀及流道阻力的影响吸气过程压力损失使排气量减少程度，用压力系数λp表示：保证措施：合适的气阀升程及弹簧弹力、管路圆滑畅通、滤器干净。λp

（0.90-0.98）2.与理论循环不同的原因：二、实际工作循环（单级压缩）第一节活塞式空压机的工作原理3）吸气预热的影响由于压缩过程中机件吸热，所以在吸气过程中，机件放热使吸入的气体温度升高，使吸气的比容减小，造成吸气量下降。预热损失用温度系数λt来衡量（0.90-0.95）。保证措施：加强对气缸、气缸盖的冷却，防止水垢和油污的形成。2.与理论循环不同的原因：二、实际工作循环（单级压缩）第一节活塞式空压机的工作原理4）漏泄的影响内漏：排气阀（回漏）；外漏：吸气阀、活塞环、气缸垫。漏泄损失用气密系数λl来衡量（0.90-0.98）。保证措施：气阀的严密闭合，气缸与活塞、气缸与缸盖等部件的严密配合。5）气体流动惯性的影响当吸气管中的气流惯性方向与活塞吸气行程相反时，造成气缸压力较低，气体比容增大，吸气量下降。保证措施：合理的设计进气管长度，不得随意增减进气管的长度，保证滤器的清洁。2.与理论循环不同的原因：二、实际工作循环（单级压

人人文库> 全部分类> 行业资料 > 医学制药

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘概念与技术原书版数据预处理

文档简介

温馨提示

最新文档

评论

数据挖掘概念与技术原书版数据预处理

文档简介

温馨提示

最新文档

评论

相关文档