版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第2章: 数据(shj)预处理为什么预处理数据(shj)?数据清理 数据集成数据归约离散化和概念分层产生小结共六十七页2为什么数据(shj)预处理?现实世界中的数据是脏的不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据例, occupation=“”噪音(zoyn): 包含错误或孤立点例, Salary=“-10”不一致: 编码或名字存在差异例, Age=“42” Birthday=“03/07/2010”例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C”例, 重复记录间的差异共六十七页3数据(shj)为什么脏?不完全数据源于数据收集时未包含数据收集和数据分析时
2、的不同考虑.人/硬件/软件(run jin)问题噪音数据源于收集录入传输不一致数据源于不同的数据源违反函数依赖共六十七页4为什么数据(shj)预处理是重要的?没有高质量的数据(shj), 就没有高质量的数据(shj)挖掘结果!高质量的决策必然依赖高质量的数据例如, 重复或遗漏的数据可能导致不正确或误导的统计.数据仓库需要高质量数据的一致集成共六十七页5数据质量:一个(y )多维视角一种(y zhn)广泛接受的多角度:正确性(Accuracy)完全性(Completeness)一致性(Consistency)合时(Timeliness):timely update? 可信性(Believabil
3、ity)可解释性(Interpretability)可存取性(Accessibility)共六十七页6数据预处理的主要(zhyo)任务数据清理填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致数据集成多个数据库, 数据立方体, 或文件的集成数据变换规范化和聚集数据归约得到数据的归约表示, 它小得多, 但产生相同或类似(li s)的分析结果:维度规约、数值规约、数据压缩数据离散化和概念分层共六十七页7数据(shj)预处理的形式 共六十七页8第2章: 数据(shj)预处理为什么预处理数据?数据清理(qngl) 数据集成数据归约离散化和概念分层产生小结共六十七页9数据(shj)清理
4、Data Cleaning现实世界的数据是脏的:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误incomplete:缺少属性(shxng)值, 缺少某些有趣的属性, 或仅包含聚集数据e.g., 职业=“ ” (missing data)noisy:包含错误或孤立点e.g., Salary=“10” (an error)inconsistent:编码或名字存在差异, e.g.,Age=“42”, Birthday=“03/07/2010”以前的等级 “1, 2, 3”, 现在等级 “A, B, C”重复记录间的差异有意的(e.g.,变相丢失的数据)Jan. 1 as ev
5、eryones birthday?共六十七页10如何处理(chl)缺失数据?忽略元组: 缺少类别标签时常用(假定涉及分类不是很有效,当每个属性的缺失百分比变化大时手工填写缺失数据: 乏味+费时+不可行 ?自动填充一个全局常量 : e.g., “unknown”, a new class?! 使用属性均值与目标元组同一类的所有(suyu)样本的属性均值: 更巧妙最可能的值: 基于推理的方法,如贝叶斯公式或决策树共六十七页11噪音(zoyn)数据Noisy DataNoise: 被测量的变量的随机误差或方差不正确的属性值可能由于错误的数据收集工具(gngj)数据录入问题 data entry pr
6、oblems数据传输问题data transmission problems技术限制 technology limitation不一致的命名惯例 inconsistency in naming convention 其他需要数据清理的问题重复记录 duplicate records数据不完整 incomplete data不一致的数据 inconsistent data共六十七页12如何(rh)处理噪音数据?分箱Binning method:排序数据,分布到等频/等宽的箱/桶中箱均值(jn zh)光滑、箱中位数光滑、箱边界光滑, etc.聚类Clustering检测和去除 离群点/孤立点 ou
7、tliers计算机和人工检查相结合人工检查可疑值 (e.g., deal with possible outliers)回归 Regression回归函数拟合数据共六十七页13分箱:简单的离散(lsn)化方法等宽度Equal-width (distance) 剖分:分成大小相等的n个区间: 均匀网格 uniform grid若A和B是 属性的最低和最高取值, 区间宽度为: W = (B A)/N.孤立点可能占据重要影响 may dominate presentation倾斜的数据处理不好.等频剖分 (frequency) /等深equi-depth :分成n个区间, 每一个含近似相同数目的样本
8、Good data scaling类别(libi)属性可能会非常棘手.共六十七页14Binning Methods for Data Smoothing* Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34* Partition into (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34* Smoothing by bin means: - Bin 1: 9, 9
9、, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29* Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34共六十七页15聚类分析共六十七页16Regressionxyy = x + 1X1Y1Y1共六十七页17数据清理作为(zuwi)一个过程数据偏差检测 Data discrepancy detection使用元数据(数据性质的知识)(e.g.,领域, 长度范围,从属, 分布)检查字段过载 fie
10、ld overloading 检查唯一性规则, 连续性规则,空值规则使用商业工具数据清洗Data scrubbing: 使用简单的领域知识(e.g., 邮编, 拼写检查) 检查并纠正错误数据审计 Data auditing: 通过分析数据发现规则和联系发现违规者(孤立点)数据迁移和集成数据迁移工具Data migration tools:允许指定转换提取/变换/装入工具ETL (Extraction/Transformation/Loading) tools: 允许用户通过图形用户界面指定变换整合(zhn h)两个过程两个过程迭代和交互执行(e.g., Potters Wheels)共六十七页
11、18第2章: 数据(shj)预处理为什么预处理数据?数据清理 数据集成数据归约离散(lsn)化和概念分层产生小结共六十七页19数据(shj)集成数据集成 Data integration: 合并多个数据源中的数据,存在一个一致的数据存储中涉及3个主要问题:模式集成、冗余数据、冲突数据值模式集成 Schema integration 例如., A.cust-id ? B.cust-#实体识别(shbi)问题 Entity identification problem: 多个数据源的真实世界的实体的识别, e.g., Bill Clinton = William Clinton集成不同来源的元数据
12、冲突数据值的检测和解决对真实世界的实体,其不同来源的属性值可能不同原因:不同的表示,不同尺度,公制 vs. 英制共六十七页20数据(shj)集成中冗余数据(shj)处理冗余数据Redundant data (集成多个数据库时出现)目标识别:同一个属性在不同的数据库中有不同的名称衍生数据:一个属性值可由其他表的属性推导出, e.g.,年收入相关分析 correlation analysis /协方差分析covariance analysis可用于检测冗余数据小心的集成多个来源的数据可以帮助降低(jingd)和避免结果数据集中的冗余和不一致,提高数据挖掘的速度和质量共六十七页21相关(xinggu
13、n)分析 (数值数据)Correlation coefficient (also called Pearsons product moment coefficient)相关系数(皮尔逊相关系数)n元组个数, 和 属性A和B上的平均值, A and B分别为各自(gz)标准差, (aibi) is the AB叉积 cross-product之和.If rA,B 0, A and B 正相关 (As values increase as Bs). 值越大相关程度越高.rA,B = 0: 不相关; rAB 0, 则A 和B 同时倾向于大于期望值.负covariance: If CovA,B 0.共
14、六十七页26相关(xinggun)分析 (名义数据Nominal Data)2 (chi-square) test 开方检验ij是(ai,bj)的观测频度(实际计数)eij是(ai,bj)的期望(qwng)频度N数据元组的个数属A性a1a2iacb1Bb2jbr(A=ai,B=bj)2 值越大,相关的可能越大对 2 值贡献最大的项,其实际值与期望值相差最大的相相关不意味着因果关系共六十七页27Chi-Square 卡方值计算(j sun): 例子2 (chi-square) 计算(括号中的值为期望计值,由两个类别的分布(fnb)数据计算得到)结果表明like_fiction 和play_che
15、ss 关联Play chessNot play chessSum (row)看小说250(90)200(360)450不看小说50(210)1000(840)1050Sum(col.)30012001500共六十七页28数据(shj)变换Data Transformation光滑: 去掉噪音,技术:分箱、回归、聚类聚集Aggregation:汇总, 数据立方体构造数据泛化Generalization:概念分层规范化Normalization:按比例缩放到一个具体区间最小-最大规范化z-score 规范化小数定标规范化属性(shxng)Attribute/特征feature 构造从给定的属性构造
16、新属性机器学习中称为:特征构造数据规约共六十七页29规范化数据(shj)的方法最小-最大规范化 min-max normalization新数据可能“越界”z-score normalizationnormalization by decimal scaling移动属性(shxng)A的小数点位置(移动位数依赖于属性A的最大值)J为使得 Max(| |)最后的集合: A1, A4, A6维度规约-决策树规约共六十七页3939维度规约-属性/特征(tzhng)产生Feature Generation 产生新的属性,其可以比原始属性更有效地表示数据的重要信息。三个一般方法:属性提取 Attribu
17、te extraction特定领域(ln y)的映射数据到新空间E.g., 傅立叶变换, wavelet transformation, 流形方法( manifold approaches)属性构造组合特征数据离散化 Data discretization共六十七页4040 x2x1e主成分(chng fn)分析 (PCA)principal component analysis,K-L变换(binhun)找到一个投影,其能表示数据的最大变化原始数据投影到一个更小的空间中,导致维度减少. 发现的协方差矩阵的特征向量,用这些特征向量定义新的空间共六十七页4141给定 p维空间中的N个点, 找到
18、k p 个正交向量 (principal components) 可以很好表示原始数据的 归范化输入数据: 每个属性值位于相同的区间内计算(j sun) k 个标准正交向量, i.e., principal components每个输入的点是这k 个主成分的线性组合The principal components are sorted in order of decreasing “significance” or strengthSince the components are sorted, the size of the data can be reduced by eliminatin
19、g the weak components(i.e., using the strongest principal components, it is possible to reconstruct a good approximation of the original data)Works for numeric data only主成分(chng fn)分析 (Steps)共六十七页42X1X2Y1Y2Principal Component Analysis共六十七页43数值(shz)规约选择替代的、“较小的”数据表示形式参数方法假设数据适合某个模型(mxng),估计模型(mxng)参数
20、,仅存储的参数,并丢弃数据(孤立点除外)对数线性模型:基于一个较小的维组合的子集来估计 离散属性的多维空间中每个点的概率非参数方法不假定模型histograms, clustering, sampling 共六十七页44回归(hugu)和对数线性模型线性回归: 数据拟合到一条直线上通常(tngchng)使用最小二乘法拟合多元线性回归允许响应变量Y表示为多个预测变量的函数对数线性模型: 近似离散的多维概率分布共六十七页4545回归(hugu)分析研究因变量/响应变量Y(dependent variable/response variable) 对个或多个自变量/解释变量(independent
21、variable / explanatory variable)的相依关系的方法的统称参数需要估计以最好的拟合给定(i dn)的数据绝大多数情况“最好的拟合”是由最小二乘法(least squares method)实现, 其他的方法也有用于预测(包括时间序列数据的预测),推断,假设检验和因果关系的建模yxy = x + 1X1Y1Y1共六十七页46线性回归(hugu)-用于预测Y: -diameter at breast height(DBH) X: - Age0123456789101112Y?1.01.01.56.09.010.51116.59.58.012.512.5X34111215
22、284552577581889397共六十七页47线性回归(hugu)(cont.)Given x, construct the linear regression model for y against x as:Least squares estimation of y given variable x is:共六十七页48多元(du yun)线性回归响应变量(binling): w,自变量: A1,A2,Ak.“5” 样本数目共六十七页49直方图Histograms把数据划分(hu fn)成不相交的子集或桶一维时可用动态规划优化构建涉及量化问题共六十七页50聚类Clustering将对象
23、划分成集/簇, 用簇的表示替换实际数据技术的有效性依赖于数据的质量使用(shyng)层次聚类,并多维索引树结构存放非常多的聚类算法和定义共六十七页51抽样(chu yn)Sampling抽样: 获得一个小的样本(yngbn)集s来表示整个数据集 N允许一个挖掘算法运行复杂度子线性于样本大小关键原则:选择一个有代表性的数据子集数据偏斜时简单随机抽样的性能很差发展适应抽样方法:分层抽样 Note: Sampling may not reduce database I/Os (page at a time)共六十七页52抽样(chu yn)类型 Types of Sampling简单随机抽样 Sim
24、ple random sampling相同的概率选择任何(rnh)特定项目无放回抽样 Sampling without replacementOnce an object is selected, it is removed from the population放回抽样Sampling with replacement一个被抽中的目标不从总体中去除分层抽样 Stratified sampling: 把数据分成不相交部分(层), 然后从每个层抽样(按比例/大约相同比例的数据) 偏斜数据共六十七页53Sampling: With or without ReplacementSRSWOR(simp
25、le random sample without replacement)SRSWRRaw Data共六十七页54Sampling: Cluster or Stratified SamplingRaw Data Cluster/Stratified Sample共六十七页55第2章: 数据(shj)预处理为什么预处理数据?数据清理 数据集成数据归约离散化和概念(ginin)分层产生小结共六十七页56离散(lsn)化 Discretization和概念分成三种类型属性:名义 values from an unordered set, color, profession顺序数 values fro
26、m an ordered set , e.g., military or academic rank 连续 real numbers离散化 Discretization: 把连续属性的区域分成区间(q jin)区间标号可以代替实际数据值 利用离散化减少数据量有监督 vs. 无监督:是否使用类的信息某个属性上可以递归离散化分裂 Split (top-down) vs. 合并merge (bottom-up)自顶向下:由一个/几个点开始递归划分整个属性区间递归离散化属性,产生属性值分层/多分辨率划分:概念分层共六十七页57数值数据离散(lsn)化/概念分层分箱 Binning(Top-down s
27、plit, unsupervised)直方图(Top-down split, unsupervised)聚类 (unsupervised, top-down split or bottom-up merge)基于2 分析的区间合并(unsupervised, bottom-up merge)基于熵 Entropy-based discretization根据(gnj)自然划分共六十七页58不用(byng)类别(Binning vs. Clustering) DataEqual interval width (binning)Equal frequency (binning)K-means cl
28、ustering leads to better results共六十七页59基于(jy)熵Entropy的离散化共六十七页60 Chi-merge离散(lsn)化Chi-merge: 2-based discretization有监督: use class information自低向上: find the best neighboring intervals (具有(jyu)相似的类别分布, i.e., low 2 values) to merge递归地合并, until a predefined stopping condition共六十七页61由自然(zrn)划分离散化3-4-5 规则
29、如果最高有效(yuxio)位包含 3, 6, 7 or 9 个不同的值, partition the range into 3 个等宽区间(7:2-3-2分成3个区间)2, 4, or 8 不同的值, 区域分成 4 个等宽区间1, 5, or 10 不同的值, 区域分成5 个等宽区间类似地,逐层使用此规则共六十七页62分类(fn li)数据的概念分层 Categorical Data用户/专家(zhunji)在模式级显式地指定属性的偏序streetcitystatecountry通过显式数据分组说明分层厄本,香槟,芝加哥Illinois只说明属性集 系统自动产生属性偏序,根据 每个属性下不同值
30、的数据启发式规则:相比低层,高层概念的属性通常有较少取值E.g., street city state country只说明部分属性值共六十七页63自动(zdng)产生概念分层Some concept hierarchies can be automatically generated based on the analysis of the number of distinct values per attribute in the given data set 含不同值最多的属性(shxng)放在层次的最低层Note: Exceptionweekday, month, quarter, y
31、earcountryprovince_or_ statecitystreet15 distinct values65 distinct values3567 distinct values674,339 distinct values共六十七页64SummaryData preparation is a big issue for both warehousing and miningData preparation includesData cleaning and data integrationData reduction and feature selectionDiscretizat
32、ionA lot a methods have been developed but still an active area of research共六十七页Data Reduction, Transformation, IntegrationData QualityMajor Tasks in Data PreprocessingData Cleaning and Data IntegrationData Cleaningi. Missing Data and Misguided Missing Dataii. Noisy Dataiii. Data Cleaning as a Proce
33、ssData Integration MethodsData ReductionData Reduction StrategiesDimensionality Reductioni. Principal Component analysisii. Feature Subset Selectioniii. Feature CreationNumerosity Reductioni. Parametric Data Reduction: Regression and Log-Linear Modelsii. Mapping Data to a New Space: Wavelet Transfor
34、mationiii. Data Cube aggregationiv. Data Compressionv. Histogram analysisvi. Clusteringvii. Sampling: Sampling without Replacement, Stratified SamplingData Transformation and Data DiscretizationData Transformation: NormalizationData Discretization Methodsi. Binningii. Cluster Analysisiii. Discretiza
35、tion Using Class Labels: Entropy-Based Discretizationiv. Discretization Without Using Class Labels: Interval Merge by 2 AnalysisConcept Hierarchy and Its Formationi. Concept Hierarchy Generation for Numerical Dataii. Concept Hierarchy Generation for Categorical Dataiii. Automatic Concept Hierarchy Generation共六十七页66ReferencesE. Rahm and H. H. Do. Data Cleaning: Problems and Current Approaches. IEEE Bulletin of the Technical Committee on Data Engineering. Vol.23, No.4D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehou
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大排档施工组织设计
- 法治政 府说课稿
- 次根式的加减说课稿
- 南京工业大学浦江学院《酒店市场营销》2023-2024学年第一学期期末试卷
- 南京工业大学浦江学院《机械设计基础》2023-2024学年第一学期期末试卷
- 中学语文教学反思14
- 南京工业大学《仪器分析测试原理与应用》2021-2022学年第一学期期末试卷
- 南京工业大学《思想政治教育原理专题研究》2022-2023学年第一学期期末试卷
- 南京工业大学《食品添加剂》2022-2023学年第一学期期末试卷
- 南京工业大学《嵌入式系统及应用》2023-2024学年期末试卷
- 2024-2030年船用发动机行业市场现状供需分析及投资评估规划分析研究报告
- 农村自建房接受赠与协议书范文
- 2023年温州瑞安农商银行招聘考试真题
- 手术室护理病历临床病案
- 2023-2024学年江西省萍乡市八年级(上)期末物理试卷
- 房屋与市政工程第三方质量安全巡查标准
- 2024年广东省第一次普通高中学业水平合格性考试历史试卷(解析版)
- 工程项目建设程序及审批部门
- 初中数学说题比赛1
- MOOC 创新与创业管理-南京师范大学 中国大学慕课答案
- 会计专业工作简历表(中级)
评论
0/150
提交评论