版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
乘风破浪,世界就在眼前第五章数据预处理并行计算与大数据研究所目录数据清洗与准备五.一正则表达式五.二数据规整五.三五.一数据清洗与准备TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhere为什么要行数据清洗?从各种渠道获得地源数据大多是"脏"数据,不符合们地需求,如数据含有唯一数据或重复数据,异常值数据(包含错误或存在偏离期望地异常值,如age="-一零",明显是错误数据),以及数据不完整(如缺少属值)等。而我们在使用数据地过程对数据地要求是具有一致,准确,完整,时效,可信,可解释。本节将介绍如何确定异常数据类型以及如何处理异常数据。数据清洗重复数据异常数据缺失数据对象是什么?如何处理?有什么特点?五.一.一数据清洗准备五.一.一数据清洗准备TEXTaddhereTEXTaddhereTEXTaddhere重复数据指多次出现地数据。若重复数据在整体样本所占权重比其它数据大,容易导致结果地倾向,因此对于重复数据常用地预处理方法是剔除,或者按比例降低其权重,行数据地重新布局,形成概率分布。对于一般数量可控地重复数据,通常采用地方法是简单地比较算法剔除。对于重复地可控数据而言,一般通过代码实现对信息地匹配比较,而确定,剔除不需要地数据。(一)重复数据地预处理五.一.一数据清洗准备TEXTaddhereTEXTaddhereTEXTaddhere(二)异常数据地预处理异常数据是无意义地数据,这个词通常作为损坏数据地同义词使用,但现阶段其意义已经扩展到包含所有难以被计算机正确理解与翻译地数据,如非结构化文本。任何不可被源程序读取与运用地数据,不管是已经接收地,存储地,还是改变地,都被称为噪声数据。数据地异常有两种:一种是随机误差;另一种可能是错误。例如,某一位顾客地身高记录是二零米,很明显,这是一个错误,如果这个样本入训练数据,可能会对结果产生很大影响,这也是使用异常值检测地意义所在。五.一.一数据清洗准备TEXTaddhereTEXTaddhereTEXTaddhere(三)缺失数据地预处理大数据采集时还存在一种数据无法使用地情况,即缺失数据。缺失数据表示数据不完整,信息丢失,因而无法完成有关匹配与计算,如信息统计年龄与别丢失地情况。缺失数据地处理主要有四种方式:均值补差,利用同类均值补差,极大似然估计,多重补差。从简单意义上讲,均值补差与利用同类均值补差是思维简单地处理方式,在实际应用比较广泛。极大似然估计是在概率上用最大可能地方式处理数据地缺失问题,其存在局部极值而且收敛速度过慢,计算较为复杂等问题。多重补差是为每一个缺失值提供一个可能地替换值,以确保其无关,构成替换阈,再根据其自由组合,从而对每一个替换结果行总体预测,对结论行总体评判。多重补差这种思想来源于贝叶斯极大似然法,但比该方法在预判上产生更多地多元化操作。五.一.二数据清洗TEXTaddhereTEXTaddhereTEXTaddhere一.唯一值与重复值地处理获取唯一值地方法是采用unique()函数,用于Series对象。五.一.二数据清洗一.唯一值与重复值地处理注意,unique()函数不能用于DataFrame,因此在对DataFrame对象使用删除重复值操作时,需要使用drop_duplicates()函数。五.一.二数据清洗二.缺失值数据缺失类型:(一)行记录地缺失,这种情况又称数据记录丢失;(二)数据列值地缺失,即由于各种原因导致地数据记录某些列地值空缺。不同地数据存储与环境对于缺失值地表示结果也不同,例如,Python返回对象是None,Pandas或Numpy地NaN。在极少数情况下,部分缺失值也会使用空字符串来代替,但空字符串绝对不同于缺失值。从对象地实体来看,空字符串是有实体地,实体为字符串类型;而缺失值其实是没有实体地,即没有数据类型。判断一个数据集是否存在缺失观测,通常从两个方面入手,一个是变量地角度,即判断每个变量是否包含缺失值;另一个是数据行地角度,即判断每行数据是否包含缺失值。五.一.二数据清洗二.缺失值(一)删除数据可以使用Pandask地dropna()函数来直接删除有缺失值地特征。(二)数据填补替换缺失值:对于数值型地数据,使用均数(mean)或位数(median)等方法补足;对于分类型数据,使用类别众数(mode)最多地值补足。五.一.二数据清洗二.缺失值(三)不处理在数据预处理阶段,对于具有缺失值地数据记录不做任何处理,也是一种思路。这种思路主要看后期地数据分析与建模应用,很多模型对于缺失值有容忍度或灵活地处理方法,因此在预处理阶段可以不做处理。补齐处理只是将未知值补以我们地主观估计值,不一定完全符合客观事实,在对不完备信息行补齐处理地同时,我们或多或少地改变了原始地信息系统。而且,对空值不正确地填充往往将新地噪声引入数据,使挖掘任务产生错误地结果。因此,在许多情况下,我们还是希望在保持原始信息不发生变化地前提下对信息系统行处理。五.一.二数据清洗三.异常值在数据研究,通常可以发现,数据整体总是呈现一种统计概率分布。但是,仍有少量样本偏离总体,在总体规律有不合理地表现,这样地样本点被称为异常值。分析研究员在不同领域对待异常点地态度也不相同,一方面,异常点可能会对样本总体造成偏移,或者有些算法对异常点尤其敏感,就会造成拟合地统计模型发生偏差,影响效果;另一方面,异常点在某一些行业被研究者重视,疾病监测(异常点可能代表疾病情况),信用欺诈(异常点可能代表欺诈行为)等。因此,异常点地检测与处理要慎重,要根据分析场景采取不同地处理措施。五.一.二数据清洗三.异常值(一)异常点检测异常点地检测按照处理方式可以分为图形法与模型法。图形法主要是借助箱线图或者正态分布图来判断,而模型法主要是建立总体模型,偏离模型地鉴定为异常点。①数据一定要在具体地场景下去应用,每个变量都有其各自地意义,不然数据就变得没有意义。因此,数据检测第一步可以从数据指标地意义入手,检测是否符合本身地业务意义。例如,age年龄字段,一般年龄均在零至一零零之间,如果出现了-一零或者二零零等这样不合逻辑地数值,一定是数值出现了异常,需要处理。数值需要符合变量地业务意义,不合逻辑需要处理。五.一.二数据清洗三.异常值(一)异常点检测②箱线图箱线图是识别数据异常值地常用方法之一,它是借助数据分位数原理来识别地。分位数定义:对于服从连续概率密度函数f(x)地随机变量X,若满足p(X≤Za)=α,则称Za被称为α%地分位点,其,零<α<一,零<p<一。五.一.二数据清洗三.异常值(一)异常点检测③正态分布图在数据服从正态分布地情况下,可以借助三∂原则来对异常值行检测,因为P(|x-u|>三∂)<=零.零零三,即数据在均值左右三∂地概率是很小地,如果出现,可以作为异常值看待。若数据有偏,仍然可以用远离均值地m倍标准差来描述,m自己依据指标业务与具体问题定义。④模型法模型法,顾名思义是要建立一张统计概率模型,并输出对象符合该模型地概率。这里,每个点均是一个对象/变量,对于一个概率分布,有拟合概率。如果模型是簇状,则远离任何簇心地属于异常点,如果是回归模型,远离预测值地为异常点。五.一.二数据清洗三.异常值(二)异常点处理异常点地处理要严格依据数据指标业务意义以及数据分析背景要求,例如,作为反欺诈分析,查找异常点代表对欺诈用户地识别,是不需要处理地,直接识别出来拒绝放贷,这里可能需要建立识别异常点地统计模型,而不仅仅是箱线图可以实现地。再如,我们处理异常点是作为建模过程地数据清洗工作,因为雨鞋算法是对异常点敏感地,例如回归模型,这时候,我们通常采取一定措施对异常点行处理,使得数据满足建模要求。一般异常值地处理方法可分为以下几种:①不处理②填充③删除④编码五.二正则表达式TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhere什么是正则表达式?正则表达式(RegularExpression)又称规则表达式,其概念早在二零世纪四零年代就已经被提出,是一种对字符串行操作地逻辑公式。它由一些事先已经定义好地特定字符组成。使用这些特殊字符组成地正则表达式,可以快速匹配一个字符串符合表达式要求地内容,而对这些匹配地内容行操作。五.二.一正则表达式地特点与组成TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhere正则表达式有以下三个特点:(一)逻辑强。正则表达式像数学公式一样,需要使用特定字符构成正确地逻辑公式,才能匹配字符串特定地内容。(二)应用广泛。正则表达式自其诞生至今,已经被广泛应用在各类软件以及编程语言。如Linux操作系统地文件检索,vim编辑器,grep工具,Windows操作系统地MicrosoftWord与NotePad++,以及Python,C,Java,Perl,JavaScript等各大编程语言都支持正则表达式。(三)深奥难懂。对于初次接触正则表达式地来说,它是深奥难懂地,因为它看起来与普通地字符串很不一样。五.二.一正则表达式地特点与组成TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhere序号元字符说明一\类似于字符串地转义字符,通常在匹配特殊字符时使用,如:\,',",(,)二^匹配字符串地起始位置三$匹配字符串地起始位置四.匹配除了换行符地任意字符五*匹配"*"前面地表达式任意次,如"ok*"能匹配"o",也能匹配"ok"与"okk"六?匹配前面地表达式零次或一次七+匹配前面地表达式一次或多次八|对两个匹配条件行or运算,如前面匹配电话号码地正则表达式九()将括号内地内容定义为组,如"(ok)"匹配‘okokok’可以匹配‘ok’三次一零{n}匹配n次,如"(ok){二}"匹配字符串‘okokokok’二次一一{n,}最少匹配n次,如"(ok){一,}"最少匹配字符串‘okokokok’一次一二{n,m}最少匹配n次,最多匹配m次一三[零—九]匹配零~九地数字一四[a—z]匹配二六个小写英文字母一五[A—Z]匹配二六个大写英文字母一六[a—zA—Z零—九]匹配任意英文字母与数字一七[\u四e零零-\u九fa五]匹配所有文字符一八\d匹配一个数字字符五.二.一正则表达式地特点与组成TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhere序号元字符说明一九\D匹配一个非数字字符二零\w匹配包括下画线地任意单词字符二一\W匹配任意非单词字符二二\s匹配任意不可见字符,如空格符,换行符,制表符,换页符二三\S匹配任意可见字符二四\A匹配字符串开始二五\z匹配字符串结束二六\Z匹配字符串结束,如果存在换行,则只匹配到换行符之前地内容二七\G匹配最后匹配完成地位置二八\b匹配单词边界,如"o\b"可以匹配‘zoo’地‘o’,却不能匹配‘how’地‘o’二九\B匹配非单词边界三零\n,\t匹配换行符"\n",制表符"\t"三一\<number>引用编号为number地组匹配地字符串三二(?#…)"#"后地内容作为注释被忽略三三(?=…)之后地字符串需要匹配"="后地表达式才能匹配成功三四(?!…)之后地字符串需要不匹配"="后地表达式才能匹配成功三五(?<=…)之前地字符串需要匹配"="后地表达式才能匹配成功三六(?<!…)之前地字符串需要不匹配"="后地表达式才能匹配成功五.二.二字符串方法一.使用%符号行格式化%是格式字符,使用这种方式行字符串格式化时,要求被格式化地内容与格式字符之间需要一一对应;也可以对输出结果地宽度与精度行设置。五.二.二字符串方法一.使用%符号行格式化当有多个值输出时,可以采用Tuple形式,使用元祖对字符串行格式化,按位置行对应;也可以利用格式字符行字符类型地转换,如案例将数字与数组转化成%s类型。五.二.二字符串方法二.使用format方法使用format方法行格式化是Python推荐地方法,这个方法非常灵活,不仅可以使用位置行格式化,还支持使用关键参数行格式化,可调换顺序,支持序列解包格式化字符串,为程序员提供了非常大地方便。这个方法与%s方法不同地处,是将%s换成{}大括号,可以通过{n}方式来指定接收参数地位置,将调用时传入地参数按照位置行传入。相比%s可以减少参数地个数,实现了参数地复用。五.二.二字符串方法二.使用format方法format方法有几种用法,下面给出了三个用法,分别是format方法取位数,制转化,字符串对齐及位数补全操作。(一)format方法取位数(二)format也可以用作制转化五.二.二字符串方法二.使用format方法(三)format也可以用做字符串对齐及位数补全操作,‘<’符号代表左对齐,是默认值,‘>’符号代表右对齐,‘^’符号代表间对齐,‘=’符号代表在小数点后行补齐(‘=’只用于数字)。五.二.二字符串方法二.使用format方法‘%’符号百分数,其作用将数值乘以一零零然后以fixed-point(‘f’)格式打印,值后面会有一个百分号。通过{str}方式来指定名字,调用时使用str=‘xxx’,以此来确定参数传入。也可以使用元组,实现多个变量一次输出五.二.二字符串方法三.使用格式化地字符串常量f-string方法f-string方法是从Python三.六开始支持一种新地字符串格式化方式,官方称为FormattedStringLiterals,其意义与字符串对象地format()方法类似,但形式更加简洁。f-string是一个文本字符串,前缀为f。五.二.二字符串方法三.使用格式化地字符串常量f-string方法输出宽度及小数位数如果需要取决于某变量,变量还是用{}括起来。五.二.二字符串方法三.使用格式化地字符串常量f-string方法f-string提供了一种方法,可以在字符串文字嵌入表达式,使用最小地语法。括号内地表达式,在运行时被替换为它们地值。五.二.三re模块一.re.match()函数这个函数地功能是从字符串地起始位置匹配一个模式。函数原型是re.match(pattern,string,flags=零)。参数:pattern是匹配地正则表达式,string是要匹配地字符串,flags是标志位,用于控制正则表达式地匹配方式。例如,是否区分大小写,多行匹配等等。如果不是起始位置匹配成功地话,match()就返回none。五.二.三re模块一.re.match()函数可以使用group(num)或groups()匹配对象函数来获取匹配表达式。五.二.三re模块二.re.search()函数re.search()函数地功能是扫描整个字符串并返回第一个成功地匹配。函数原型是re.search(pattern,string,flags=零)。参数:pattern是匹配地正则表达式,string是要匹配地字符串,flags是标志位,用于控制正则表达式地匹配方式。例如,是否区分大小写,多行匹配等。匹配成功返回一个匹配地对象,否则返回None。re.match()与re.search()地区别:re.match()函数只匹配字符串地开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search()函数会匹配整个字符串,直到找到一个匹配。五.二.三re模块三.re.sub()函数re.sub()函数地功能是用于替换字符串地匹配项。函数形式是re.sub(pattern,repl,string,count=零,flags=零)。参数:pattern是正则地模式字符串,repl是替换地字符串,也可为一个函数,string是要被查找替换地原始字符串,count是模式匹配后替换地最大次数,默认零表示替换所有地匹配。五.二.三re模块四.re.pile()函数re.pile()函数用于编译正则表达式,生成一个正则表达式(Pattern)对象,供match()与search()这两个函数使用。函数原型是re.pile(pattern[,flags])。参数:pattern是一个字符串形式地正则表达式,flags是可选,表示匹配模式,例如忽略大小写,多行模式等,具体参数为:①re.I:忽略大小写;②re.L:表示特殊字符集"\w,\W,\b,\B,\s,\S"依赖于当前环境;③re.M:多行模式;④re.S:即为"."并且包括换行符在内地任意字符("."不包括换行符);⑤re.U:表示特殊字符集"\w,\W,\b,\B,\d,\D,\s,\S"依赖于Unicode字符属数据库;⑥re.X:为了增加可读,忽略空格与"#"后面地注释。五.二.三re模块四.re.pile()函数五.二.三re模块五.findall()函数indall()函数地功能是在字符串找到正则表达式所匹配地所有子串,并并返回一个列表,如果没有找到匹配地,则返回空列表。函数形式是findall(string[,pos[,endpos]])。参数:string是待匹配地字符串,pos是可选参数,指定字符串地起始位置,默认为零,endpos是可选参数,指定字符串地结束位置,默认为字符串地长度。五.二.三re模块六.finditer()函数finditer()函数与findall()类似,在字符串找到正则表达式所匹配地所有子串,并把它们作为一个迭代器返回。五.二.三re模块七.split()函数split()函数地功能是按照能够匹配地子串将字符串分割后返回列表。其函数形式是:re.split(pattern,string[,maxsplit=零,flags=零])。参数:pattern是匹配地正则表达式,string是要匹配地字符串,maxsplit是分隔次数,maxsplit=一分隔一次,默认为零,不限制次数,flags是标志位,用于控制正则表达式地匹配方式,如:是否区分大小写,多行匹配等。数据规整聚合,分组及数据透视特征选择(降维)数据变换与数据规约稀疏表示与字典学是什么?怎么用?有什么特点?五.三数据规整五.三.一聚合,分组及数据透视一.聚合与分组数据地分组核心思想是:拆分——组织——合并。groupby()函数也可以放入多个分组,用逗号隔开,也可以返回每个分组地频率。五.三.一聚合,分组及数据透视一.聚合与分组另外,也可以根据数据地所属类型对行分组,需要注意这里bine变量地数据结构是Serise结构,需要转换线转换为列表,再转成字典地形式才能打印。五.三.一聚合,分组及数据透视一.聚合与分组完成了分组,就可以开始聚合,Python提供地聚合函数有很多。函数名说明count分组非NA值地数量sum分组非NA值地与mean分组非NA值地均数median分组非NA值地算术位数std,var标准差,方差min,max分组非NA值地最小值,最大值prod分组非NA值地积first,last第一个与最后一个非NA值五.三.一聚合,分组及数据透视一.聚合与分组也可以多个聚合函数一起使用。五.三.一聚合,分组及数据透视一.聚合与分组还能用字典地形式行聚合运算。五.三.一聚合,分组及数据透视二.数据透视表在数据分析,经常要用到地一个excel功能是数据透视表,这对观察数据规律十分有帮助,在Python也可以通过pivot_table()函数实现数据透视功能。五.三.一聚合,分组及数据透视二.数据透视表另外,还有一个用于计算分组频率地cosstab()函数,使用方法比pivot_table要简单些,形式也类似于execl地数据透视表功能。五.三.二特征选择(降维)一.特征选择特征选择指根据一定地规则与经验,直接在原有地维度挑选一部分参与到计算与建模过程,用选择地特征代替所有特征,不改变原有特征,也不产生新地特征值。特征选择地降维方式好处是可以保留原有维度特征地基础上行降维,既能满足后续数据处理与建模需求,又能保留维度原本地业务意义,以便于业务理解与应用。对于业务分析地应用而言,模型地可理解与可用很多时候要有限于模型本身地准确率,效率等技术指标。例如,决策树得到地特征规则,可以作为选择用户样本地基础条件,而这些特征规则便是基于输入地维度产生。五.三.二特征选择(降维)二.维度转换这个是按照一定数学变换方法,把给定地一组有关变量(维度)通过数学模型将高纬度空间地数据点映射到低纬度空间,然后利用映射后变量地特征来表示原有变量地总体特征。这种方式是一种产生新维度地过程,转换后地维度并非原来特征,而是之前特征地转化后地表达式,新地特征丢失了原有数据地业务意义。通过数据维度变换地降维方法是非常重要地降维方法,这种降维方法分为线降维与非线降维两种,其线降维方法主要有核主成分分析(KernelPCA),线判别分析(LatentDirichletAllocation,LDA)两种方法,非线降维方法主要有独立成分分析(IndependentponentCorrelationAlgorithm,ICA),主成分分析(Principalponentsanalysis,PCA),因子分析(FactorAnalysis,FA),局部线嵌入(LocallyLinearEmbedding,LLE)等多种方法。五.三.二特征选择(降维)二.维度转换五.三.三数据变换与数据规约一.规范化数据规范化主要采用两种方式:标准化与归一化。这样做可以消除指标之间量纲与取值范围差异地影响。归一化(normalization):标准化(standardization):其,为均值,为标准差。对上述两种变化稍作变形,就可以看出,归一化与标准化都属于一种线变换。归一化与标准化地区别在于:归一化只跟最大最小值有关,这样容易受到极值点地影响;输出范围为零-一;标准化是依据样本总体地变换,每个样本点均有贡献;输出范围为负无穷到正无穷。五.三.三数据变换与数据规约一.规范化作用:数据地规范化处理有利于排除或者减弱数据异常地影响,从而可以提升模型效率;在涉及到指标权重考量时,需要行规范化,例如回归分析,梯度下降,主成分分析等;在训练神经网络地过程,通过将数据标准化,能够加速权重参数地收敛。五.三.三数据变换与数据规约二.离散化数据离散化即把连续变量转化为离散型变量地过程。例如,把学生成绩划分为A,B,C,D等级,可以理解为连续值地一种映射。离散特征地好处:算法(如决策树,朴素贝叶斯等)都是基于离散型变量建立地,这样做能更高效地拟合模型;离散变量建立模型稳定较强,数据较小波动,对模型结果影响不大,减小过拟合风险;离散化后地特征对异常数据有很强地鲁棒;离散后可以通过编码形式行变量地衍生。五.三.三数据变换与数据规约二.离散化(一)等宽法(二)等频法五.三.三数据变换与数据规约三.编码在数据处理,有些字符型特征没法入到模型训练,这时候就需要记特征地编码。序号编码:序号编码实际上是特征地映射,切序号编码是对有先后顺序地变量值或者变量类别行地编码。例如,成绩等级,优,良,,差可以编码为一,二,三,四。但是,没有明显排序属地特征值序号编码是不妥地,例如,婚姻状态等。五.三.三数据变换与数据规约四.数据规约(一)属规约:属合并或删除无关维,目地是寻找最小子集使子集概率分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度停车场排水系统施工合同规范文本3篇
- 固化剂采购合同6篇
- 编程软件课程设计
- 抗肿瘤新药行业专题
- 脱甲烷塔课程设计
- 2024幼儿园招生工作计划(31篇)
- 算法课的课程设计
- 线上课程设计基本要素
- 算数运算测试java课程设计
- 药剂课程设计报告
- 人教版(2024)数学七年级上册期末测试卷(含答案)
- 医院护理10s管理
- 北京市东城区2023-2024学年八年级上学期期末生物试题
- ISO28000:2022供应链安全管理体系
- 人教版六年级数学下册全册分层作业设计含答案
- 在一日活动中培养幼儿亲社会行为的实践研究报告
- 【课文翻译】新人教必修三 Unit 1-Unit5 课文翻译(英汉对照)
- 高三数学集体备课记录《函数的单调性与最值》
- 起重机设计手册
- 闭水试验自动计算公式及说明
- “挑战杯”优秀组织奖申报材料
评论
0/150
提交评论