版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第2章 数据预处理朝乐门 中国人民大学 目录目录图2-1(2)数据科学中的数据预处理学习目的了解数据质量的基本含义、评价指标和评价依据;理解数据审计方法以及数据脱敏、数据规约和数据标注方法;掌握数据集成、数据清洗和数据变换方法;熟练掌握在读者自己所属专业领域中,常用数据预处理方法、技术与工具。学习目的欢迎来到现实世界!不完整的缺少属性值或某些感兴趣的属性,或仅包含汇总数据含噪声的包含错误或存在偏离期望的离群值不一致的采用的编码或表示不同,如属性名称不同冗余的如属性之间可以相互导出污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编
2、码含有各种噪声数据错误的不可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右数据清理的重要性污染数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。垃圾进、垃圾出更好的理解数据获得数据的总体印象对于成功的数据预处理是至关重要的1.度量数据的中心趋势和离散程度2.描述数据汇总的图形显示引言图2-2数据预处理方法数据预处理数据清理(Data cleaning)补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成(Data integration)集成来自多个数据源(数据库或文件等)的数据数
3、据变换(Data transformation)规范化和汇总数据归约(Data reduction)简化数据,但产生同样或相似的结果数据预处理数据预处理数据预处理工作数据审计数据清洗数据变换数据集成其他预处理引言目录2.1数据质量图2-1(2)数据科学中的数据预处理2.1数据质量2.1 数据质量图2-3 数据质量的属性2.1数据质量基本属性数据正确性(Correctness)数据完整性(Integrity)一致性(Consistency)扩展属性形式化程度(Formalization)时效性(Timeliness)精确性(Accuracy)自描述性(Self-Description)2.1数据
4、质量2.1.1统计学规律2.1数据质量第一数字定律第一数字定律(First-Digit Law)描述的是自然数“1”到“9”的使用频率,公式为其中,数字“1”的使用最多接近三分之一,“2”为17.6%,“3”为12.5%,依次递减,“9”的频率是4.6%2.1数据质量图2-4十进制首位数字的出现机率2.1.1统计学规律小概率原理基本思想:一个事件如果发生的概率很小的话,那么它在一次试验中是几乎不可能发生的,但在多次重复试验中几乎是必然发生的,数学上称之小概率原理。在统计学中,把小概率事件在一次实验中看成是实际不可能发生的事件,一般认为等于或小于0.05或0.01的概率为小概率。例如,曾有人采用
5、小概率理论探讨了红楼梦中掷骰子游戏、主人公生日是否为真实的问题。2.1数据质量2.1.1统计学规律第一数字定律与小概率原理的应用只能帮助我们识别一些“可能有问题”的数据但“是否真的存在问题”以及“存在何种问题” 需要用领域知识、其他数据质量评价方法、机器学习和统计分析等方法进行进一步深入研究。2.1数据质量2.1.2语言学规律频率特征连接特征重复特征2.1数据质量2.1数据质量频率特征表2-2 Algoritmy统计表2.1.2语言学规律连接特征包括语言学中的后连接(如字母“q”后总是“u”)、前连接(如字母“x”的前面总是字母“i”,字母“e”很少与“o”和“a”连接)以及间断连接(如在“e
6、”和“e”之间,“r”的出现频率最高)。重复特征两个字符以上的字符串重复出现的现象,叫做语言的重复特征。例如,在英文中字符串“th”、“tion”和“tious”的重复率很高。2.1数据质量2.1.3数据连续性理论2.1数据质量图2-5 数据连续性的定义及重要性2.1.3数据连续性理论2.1数据质量图2-6 数据连续性的理论框架2.1.4数据鉴别技术数据鉴别的目的消息本身的鉴别主体的鉴别数据鉴别的常用方法消息鉴别码Hash函数数字签名2.1数据质量消息鉴别码 (Message Authentication Code,MAC)是一个固定长的鉴别码,其计算方式如下: MAC=C(K,M)M 为输入
7、消息(变长);K 为双方共享的密钥;C为MAC函数;C(K,M)为MAC函数的返回值(固定长度)。注意:消息鉴别码的生成与数据加密是两个不同的概念。2.1数据质量消息鉴别码在实际工作中,我们需要选择二者的执行顺序。从理论上看,可以选择3种方式:MAC码直接附加在消息之后;MAC直接附加在消息之后,并对整体进行加密;先对消息加密,再对密文生成鉴别码。消息鉴别码的实现方法有很多种,例如:基于对称分组密码的MAC(CBC,Cipher Block Chaining-MAC)基于CFB(Cipher Feed Back)的MAC码等2.1数据质量消息鉴别码2.1数据质量图2-7基于对称分组密码的MAC
8、2.1数据质量Hash函数基于MAC的消息鉴别方法需要加密处理,计算速度较慢基于Hash函数的消息鉴别不需要加密处理,计算速度更快Hash函数是指具备如下特征的函数输入为任意长度的消息M;输出为一个固定长度的散列值,称为消息摘要Message Digest);消息中的任何一位或多位的变化都将导致该散列值的变化。2.1数据质量Hash函数一个好的Hash函数应具备如下个特征:容易计算,即给定 M ,很容易计算 h ;单向性,即如果已知h,根据 H(M) = h 计算 M 很难 ;抗碰撞性,即给定 M1,要找到另一个消息 M2 并满足 H(M1) = H(M2) 很难2.1数据质量Hash函数2.
9、1数据质量图2-8 使用Hash函数进行完整性检测2.1数据质量数字签名签名与加密、鉴别的区别签名的基本要求签名者事后无法否认自己的签名、接收者能验证签名,而任何其他人都不能伪造签名;在有争议时,可由第三方进行验证;对签名的作者、日期和时间、签名时刻消息的内容提供验证。2.1.5探索性数据分析探索性数据分析(Exploratory Data Analysis,EDA)对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,并通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。EDA方法与验证性分析的主要区别:EDA不需要事先假设,而验证性分析需
10、要事先提出假设;EDA中采用的方法往往比验证性分析简单;在一般数据科学项目中,探索分析在先,而验证性分析在后。2.1数据质量探索性数据分析关注的主题(1)耐抗性(Resistance)(2)残差(Residuals)(3)重新表达(Re-expression)(4)启示(Revelation)2.1数据质量(1)DEA/ 耐抗性(Resistance)描述数据的集中趋势2.1数据质量表2-3 描述性统计中常用的集中趋势统计量描述数据的离散程度2.1数据质量表2-4 描述性统计中常用的离散程度统计量描述数据的分布状态2.1数据质量表2-5 描述性统计中常用的数据分布统计量(2) DEA/ 残差(
11、Residuals) 残差实际值拟合值。2.1数据质量图2-9 残差示意图(3) DEA/重新表达(Re-expression)一批数据x1,x2,xn的变换是一个函数T,它把每个xi用新值T(xi)来代替,使得变换后的数据值是 T(x1),T(x2 ) ,T(xn )。(4) DEA/启示(Revelation) 通过探索性分析,发现新的规律、问题和启迪,进而满足数据预处理和数据分析的需要。2.1数据质量目录目录图2-1(2)数据科学中的数据预处理2.2数据审计数据审计是指按照数据质量的一般规律与评价方法,对数据内容及其元数据进行审计,发现其中存在的“问题”,例如:缺失值(缺少数据)噪声值(
12、异常数据)不一致值(相互矛盾的数据)不完整值(被篡改或无法溯源的数据)2.2数据审计2.2数据审计预定义审计自定义审计可视化审计数据审计2.2数据审计2.2.1预定义审计预定义审计中可以依据的数据或方法有:数据字典;用户自定义的完整性约束条件,如字段“年龄”的取值范围为2040;数据的自描述性信息,如数字指纹(数字摘要)、校验码、XML Schema定义;属性的定义域与值域;数据自包含的关联信息。2.2数据审计2.2.2自定义审计自定义审计变量定义规则函数自定义规则其他自定义规则2.2数据审计2.2.2自定义审计(1)变量定义规则给出一个有效值(或无效值)的取值范围例如,大学生表中的年龄属性的
13、取值范围为18,28;列举所有有效值(或无效值),以有效值(无效值列表)形式定义例如,大学生表中的性别属性为“男”或“女”。2.2数据审计2.2.2自定义审计(2)函数定义规则相对于简单变量定义规则,函数定义规则更为复杂,需要对变量进行函数计算。例如,设计一个函数f(),并定义规则f(age)=TRUE。2.2数据审计2.2.3可视化审计2.2数据审计图2-10 可视化审计目录目录图2-1(2)数据科学中的数据预处理2.3数据清洗2.3数据清洗2.3数据清洗图2-11 数据审计与数据清洗数据清理填充缺失的值光滑噪声并识别离群点纠正数据中的不一致2.3.1缺失值忽略样本人工填写空缺值使用一个全局
14、常量填充 使用属性的平均值填充使用与给定样本同类别的所有样本的平均值使用最可能的值填充例如,利用数据集中其它顾客的信息构造一棵决策树来预测收入的缺失值2.3.1缺失数据处理2.3数据清洗图2-12 缺失数据的处理步骤类型特征解决方法完全随机缺失(MCAR)某变量的缺失数据与其他任何观测或未观测变量都不相关较为简单,可以进行忽略/删除/插值处理随机缺失(MAR)某变量的缺失数据与其他观测相关,但与未观测变量不相关非随机缺失(NMAR)缺失数据不属于上述“完全随机缺失”或“随机缺失”较为复杂,可以采用模型选择法和模式混合法等2.3数据清洗表2-6 缺失值的类型2.3.2冗余数据处理2.3数据清洗图
15、2-13 冗余数据的处理2.3.3噪声数据处理噪声数据的存在形式错误数据虚假数据异常数据离群数据或孤立数据噪声数据的处理方法分箱(Binning)聚类(Clustering)回归(Regression)2.3数据清洗分箱箱的深度:表示不同的箱里有相同个数的数据。箱的宽度:每个箱值的取值区间是个常数。平滑方法:按箱平均值平滑按箱中值平滑按箱边界值平滑噪声数据分箱(binning)通过考察数据的“近邻”(周围的值)来光滑有序数据的值4, 8, 15, 21, 21, 24, 25, 28, 344, 8, 159, 9, 94,4,15 21, 21, 2425, 28, 3422, 22, 22
16、29, 29, 2921,21,2425,25,34用箱均值光滑用箱边界光滑9, 9, 92.3数据清洗图2-14 分箱处理的步骤与类型2.3数据清洗图2-15 均值平滑与边界值平滑聚类每个簇中的数据用其中心值代替忽略孤立点先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。人工再审查这些孤立点噪声数据聚类类似值聚集为簇,落在簇集合外的值视为离群点2.3数据清洗图2-16 通过聚类发现离群点/孤立点回归通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。线性回归多线性回归噪声数据回归用一个函数(回归函数)拟合数据来光滑数据xy = x + 1X1Y1Y12.3数据清洗图2
17、-17 通过回归方法发现噪声数据纠正数据中的不一致编码使用的不一致、数据表示的不一致例如,有的地方用gender表示性别,有的地方使用sex;有的地方日期格式是2014/12/25,有的地方是12/25/2014使用ETL工具(Extraction/Transformation/Loading, 提取/变换/装入)目录目录图2-1(2)数据科学中的数据预处理2.4数据变换2.4数据变换序号方法目的1平滑处理去除噪声数据2特征构造构造出新的特征3聚集进行粗粒度计算4标准化将特征(属性)值按比例缩放,使之落入一个特定的区间5离散化用区间或概念标签表示数据表2-6 数据变换的类型数据变换数据变换将数
18、据转换或统一成适合挖掘的形式,涉及:平滑去掉数据中的噪声聚集(Aggregation) 对数据进行汇总或聚集数据泛化用高层概念替换低层或“原始”数据,例如“年龄”可泛化为“青年”“中年”“老年”的较高层概念规范化将属性数据按比例缩放,使之落入一个小的特定区间属性构造由给定属性构造新的属性,以帮助挖掘过程2.4.1大小变换数据标准化处理(Data Normalization)0-1标准化(0-1 normalization)z-score 标准化(zero-mean normalization)2.4数据变换2.4.1大小变换0-1标准化(0-1 normalization)对原始数据的线性变换
19、,使结果落到0,1区间,转换函数如下: 其中,max和max分别为样本数据的最大值和最小值;x与x* 分别代表标准化处理前的值和标准化处理后的值;缺点当有新数据加入时,可能导致最大值和最小值的变化,需要重新定义min和max的取值。2.4数据变换工业控制技术研究所最小 最大规范化小数定标规范化属性构造由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解规范化z-score 标准化(zero-mean normalization)经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:其中,为平均数;为标准差; x与z分别代表标准化处理前的值和标准化处理后的值。2.
20、4数据变换2.4.2类型变换(1)一对一转换2.4数据变换来源变量的值(字符串型)目标变量的值(日期型)1969年12月30日1969/12/301979年12月30日1979/12/301980年1月1日1980/1/11999年12月30日1999/12/302016年1月12日2016/1/12表2-7 一对一转换(2)多对一转换2.4数据变换来源变量的值(日期型)目标变量的值(字符串型)= 1969/12/3170前1970/1/11979/12/3170后1980/1/11989/12/3180后1990/1/11999/12/3190后2000/1/10,正相关。A随B的值得增大而
21、增大rA,B0,正相关。AB无关rA,B0,正相关。A随B的值得增大而减少重复 同一数据存储多次数据值冲突的检测和处理数据集成实体识别:如何确定一数据库中的customer_id和另一数据库中的cust_id指的是相同属性?利用属性元数据,包括名字、含义、数据类型和属性的允许取值范围冗余属性一个属性(如年收入)可能是冗余的(可由另一属性导出)。有些冗余可通过相关分析检测到,给定两属性,计算它们之间的相关系数可估计这两个属性的相关度2.5 数据集成2.5.1 基本类型2.5.2 主要问题2.5数据集成2.5.1基本类型内容集成结构集成2.5数据集成2.5数据集成图2-18 内容集成2.5数据集成
22、图2-19 结构集成2.5.2主要问题数据集成的3个基本问题模式集成数据冗余冲突检测与消除2.5数据集成属性A和属性B之间的相关度可根据以下计算公式分析获得:其中,A 和B 分别代表属性A,B的平均值, 和 分别表示属性A,B的标准方差2.5数据集成数据冗余若有 0,则属性A,B之间是正关联,也就是说若A增加,B也增加; 值越大,说明属性A,B正关联关系越密;若有 =0,就有属性A,B相互独立,两者之间没有关系。最后若有 0绝对值越大,说明属性A,B负关联关系越密。2.5数据集成目录目录图2-1(2)数据科学中的数据预处理2.6.1数据脱敏2.6其他预处理方法图2-20 数据脱敏处理数据脱敏的
23、原则单向性无残留易于实现2.6其他预处理方法对海量数据进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的结果2.6.2数据规约工业控制技术研究所数据规约数据集的压缩表示,但是能和原始数据集达到相同或基本相同的分析结果主要策略:数据聚集维规约数据压缩数值规约数据归约数据归约策略: (1)数据聚集对数据做聚集(汇总)操作 (2)属性子集选择检测并删除不相关、弱相关或冗余的属性和维。 (3)维度归约删除不重要的属性 (4)数值归约 用规模较小的数据表示
24、、替换或估计原始数据 (5)离散化和概念分层产生 属性的原始数值用区间值或较高层的概念替换数据聚集若对年销售额感兴趣,可对数据执行聚集操作,例如在月销售额上执行sum()操作等属性子集选择通过删除不相关或冗余的属性(或维)减小数据集 (1)逐步向前选择 从空属性集开始,迭代添加剩余属性中最好的一个属性 (2)逐步向后删除 由整个属性集开始,迭代删除属性集中最差的属性 (3)向前选择和向后删除结合 每一步选择一个最好的属性,再删除一个最差的属性 (4)决策树归纳 构造决策树,保留出现在树中的属性2.6.2数据规约维归约(Dimensionality reduction)主成分分析(Princip
25、al Component Analysis,PCA)奇异值分解(Singular Value position,SVD)离散小波转换(Discrete Wavelet Transform,DWT)值规约(Numerosity Reduction)参数模型(如简单线性回归模型和对数线性模型等)非参数模型(如抽样、聚类、直方图等)2.6其他预处理方法维规约删除不相关的属性(维)来减少数据量。属性子集选择找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布如何选取?贪心算法逐步向前选择逐步后向删除向前选择和后向删除相结合判定树归纳维度归约得到原数据的归约或“压缩”表示主成分分析(P
26、CA):寻找r(rn)个新变量,使它们反映事物的主要特征,压缩原有数据矩阵的规模,将特征向量的维数降低,挑选出最少的维数来概括最重要特征数据压缩有损,无损小波变换将数据向量D转换成为数值上不同的小波系数的向量D.对D进行剪裁,保留小波系数最强的部分。主要成分分析数值归约通过选择替代的、“较小的”数据表示形式来减少数据量可以分为参数方法和非参数方法参数方法:回归和对数线性模型非参数方法:直方图、聚类、抽样工业控制技术研究所数值规约回归和对数线形模型线形回归对数线形模型直方图等宽等深V-最优maxDiff工业控制技术研究所数值规约聚类多维索引树 : 对于给定的数据集合,索引树动态的划分多维空间。选
27、样简单选择n个样本,不放回简单选择n个样本,放回聚类选样分层选样离散化和概念分层离散化技术用来减少给定连续属性的个数通常是递归的。大量时间花在排序上。对于给定的数值属性,概念分层定义了该属性的一个离散化的值。分箱直方图分析数值数据离散化聚类分析基于熵的离散化通过自然划分分段 3-4-5规则如果一个区间最高有效位上包括3 6 9 个不同的值,划分为3个等宽区间。 7个不同值,按2-3-3划分为3个区间最高位包含2,4,8个不同值,划分为4个等宽区间最高位包含1 ,5,10个不同值,划分为5个等宽区间最高分层一般在第5个百分位到第95个百分位上进行分类数据的概念分层生成分类数据是离散数据。一个分类
28、属性可能有有限个不同的值。方法 由用户和专家在模式级显式的说明属性的部分序通过显式的数据分组说明分层结构的一部分说明属性集,但不说明他们的偏序只说明部分的属性集数据离散化和概念分层数据离散化:用少数区间标记替换连续属性的数值,从而减少和简化了原来的数据可对一个属性递归地进行离散化,产生属性值的分层,称作概念分层概念分层用于归约数据:用较高层的概念替换较低层的概念概念分层2.6.3数据标注按标注活动的自动化程度,数据标注可以分为手工标注、自动化标注和半自动化标注。从标注的实现层次看,数据标注可以分为:语法标注语义标注2.6其他预处理方法2.7应用案例【例2.1】 IBM InfoSphere D
29、ataStage2.7应用案例图2-21 IBM Information Server 体系结构IBM InfoSphere DataStage的主要特点(1)功能强大的可扩展ETL平台(2)支持大数据和 Hadoop(3)工作负载和业务规则管理(4)实时数据集成(5)易于使用2.7应用案例(1)功能强大的可扩展ETL平台支持管理数据,以及定期或按计划收到的数据;支持对海量数据进行高性能处理;支持基于多处理器硬件平台的并行处理功能;在单个作业中支持异构数据源和目标,包括文本文件、XML、ERP 系统、大多数数据库(包括分区数据库)、Web 服务和商业智能工具。2.7应用案例(2)支持大数据和
30、Hadoop支持IBM InfoSphere BigInsights、Cloudera、Apache 和 Hortonworks Hadoop Distributed File System (HDFS);提供 Balanced Optimization for Hadoop的方式支持大数据处理;支持大数据监管,包括影响分析和数据沿袭之类的功能。2.7应用案例(3)工作负载和业务规则管理支持策略驱动的系统资源控制以及不同类别工作负载的优先级划分;支持优化硬件利用率和划分任务优先级,控制资源超过指定阈值的作业活动,并在将作业提交至队列中时评估并重新分配作业优先级;集成 IBM Operation
31、al Decision Management,支持决策逻辑。2.7应用案例(4)实时数据集成支持 Java 消息服务 (JMS) / WebSphere MQ 适配器从面向消息的中间件 (MOM) 队列捕获消息,将数据组合成遵循标准的操作和历史分析透视图;支持面向服务架构 (SOA),将数据集成逻辑发布为可复用的共享服务;可同时支持事务处理的高速、高可靠性要求,以及批处理的大批量数据要求。2.7应用案例(5)易于使用支持并行作业的操作控制台和交互式调试器;支持缩短数据集成项目的开发和维护周期;提供操作智能功能、元数据和元数据导入的智能管理以及并行调试功能。2.7应用案例【例2.2】基于R的数据预处理本例主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高端会议策划与销售服务合同模板
- 2025年度某局数字化转型劳务分包结算规范合同2篇
- 2025版办公楼小型装饰装修工程施工合同示范6篇
- 2025版建筑工地挖掘机驾驶员劳动合同标准范本3篇
- 《全球化与两岸关系》课件
- 可燃冰资源地质评价方法与实践考核试卷
- 2025版学校食堂蔬菜采购及食品安全追溯服务合同3篇
- 2025年度美术品艺术品投资顾问合同范本4篇
- 2025年学校节日庆祝协议
- 2025年合伙人员协议
- 2024-2025学年人教版数学六年级上册 期末综合试卷(含答案)
- 收养能力评分表
- 山东省桓台第一中学2024-2025学年高一上学期期中考试物理试卷(拓展部)(无答案)
- 中华人民共和国保守国家秘密法实施条例培训课件
- 管道坡口技术培训
- 2024年全国统一高考英语试卷(新课标Ⅰ卷)含答案
- 2024年认证行业法律法规及认证基础知识 CCAA年度确认 试题与答案
- 皮肤储存新技术及临床应用
- 外研版七年级英语上册《阅读理解》专项练习题(含答案)
- 2024年辽宁石化职业技术学院单招职业适应性测试题库必考题
- 上海市复旦大学附中2024届高考冲刺模拟数学试题含解析
评论
0/150
提交评论