第二周预处理 - ToStu_第1页
第二周预处理 - ToStu_第2页
第二周预处理 - ToStu_第3页
第二周预处理 - ToStu_第4页
第二周预处理 - ToStu_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

11数据预处理数据预处理:概述数据质量数据预处理的主要任务数据清理数据集成数据归约数据变换与数据离散化小结2数据质量:为什么要预处理数据?度量数据质量:涉及许多因素准确性:正确的或错误的,准确的或不准确的完整性:没有被记录,缺失的,…一致性:一些数据修改了,但一些没有,…时效性:及时更新?可信性:有多少数据是用户信赖的?可解释性:数据是否容易理解?3数据预处理的主要任务数据清理填写缺失的值,光滑噪声数据,识别或删除离群点,和解决不一致性数据集成集成多个数据库、数据立方体或文件数据归约维规约数量规约数据压缩数据变化与数据离散化规范化概念分层产生44数据预处理数据预处理:概述数据质量数据预处理的主要任务数据清理数据集成数据归约数据变换与数据离散化小结5数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。例如,设备故障,人或计算机的错误,传输错误不完整:缺失属性值,缺失某些感兴趣的属性例如,Occupation=“”(缺失数据)有噪声:包含噪声,错误或者离群点例如,Salary=“−10”(错误)不一致:包括代码或命名的不一致,例如,Age=“42”,Birthday=“03/07/2010”以前用“1,2,3”评级,现在用“A,B,C”评级重复记录的不一致故意

(例如,被掩盖的缺失数据)为生日选择默认值“1月1日”6缺失值数据并非总是可以得到例如,许多元组的一些属性没有记录值,如销售数据中顾客的income缺失数据可能由于设备故障与其他记录不一致的数据可能已经被删除由于理解错误数据没有被录入某些数据输入时认为是不重要的历史或修改的数据可能被忽略缺失的数据可能需要推导出来7如何处理缺失数据?忽略元组:当缺少类标号时通常这样做(涉及分类时)—除非元组有多个属性缺失值,否则该方法不是很有效人工填写缺失值:费时+行不通(数据集大时)自动填充,使用一个全局常量:例如,“unknown”,一个新的类别?!属性的均值与给定元组属同一类的所有样本的属性均值最可能的值:使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定8噪声数据噪声:被测量的变量的随机误差或方差不正确的属性值可能由于收集数据的设备可能存在故障数据输入问题数据传输问题技术限制命名约定不一致其他需要清理的数据问题重复记录不完整数据不一致数据9如何处理噪声数据?分箱将有序的值分布到一些(等频)箱中然后用箱均值,箱中位数,或箱边界光滑数据回归用回归函数拟合数据来光滑数据聚类检测和删除离群点结合计算机和人来检查删除可疑数值(例如,处理可能的离群点)10数据清理作为一个过程数据偏差检测使用元数据(例如,定义域,值域,依赖性,分布)检查字段过载检查唯一性规则,连续性规则和空值规则使用商业工具数据清洗:使用简单的领域知识(如,邮政地址知识,拼写检查),检查并纠正数据中的错误数据审计:通过分析数据发现规则和联系,并检测违反这些条件的数据(例如,通过相关分析和聚类来发现离群点)数据迁移数据迁移工具:允许说明变换ETL(Extraction/Transformation/Loading,提取/变换/装入)工具:允许用户通过图形用户界面说明变换结合两步过程迭代和交互(例如,Potter’sWheels)1111数据预处理数据预处理:概述数据质量数据预处理的主要任务数据清理数据集成数据归约数据变换与数据离散化小结1212数据集成数据集成:合并来自多个数据源的数据冗余:如,A.cust-idB.cust-#实体识别问题:识别来自多个数据源的现实世界的等价实体,例如,BillClinton=WilliamClinton数据值冲突的检测与处理对于现实世界的同一实体,来自不同数据源的属性值可能不同可能的原因:不同表示,不同尺度,例如,公制单位vs.英制单位1313数据集成中的冗余处理当集成多个数据库时,冗余数据产生属性识别:相同属性在不同数据库中的名称可能不一样可导出数据:

某些属性可能是由其他属性导出的,如,年收入冗余属性可以通过相关分析和协方差分析检测到小心集成有助于减少结果数据集的冗余和不一致,提高其后挖掘过程的准确性和速度14相关分析(标称数据)Χ2(卡方)检验假设属性A有c个不同值,B有r个不同值;oij是联合事件(Ai,Bj)的观测频度,而eij是(Ai,Bj)的期望频度eij=count(A=ai)×count(B=bj)/n,其中n是数据元组的个数,count(A=ai)是A上具有值ai的元组个数,而count(B=bj)是B上具有值bj的元组个数。Χ2值越大,变量相关的可能性越大15Χ2计算:一个例子Χ2(卡方)计算(括号中的数是根据两个属性的数据分布得到的期望频率)计算结果显示like_science_fiction和play_chess两个属性是相关的PlaychessNotplaychessSum(row)Likesciencefiction250(90)200(360)450Notlikesciencefiction50(210)1000(840)1050Sum(col.)3001200150016相关分析(数值数据)相关系数(又称Pearson积矩系数)其中n是元组的个数,和

分别是A和B的均值,σA和

σB分别是A和B的标准差,而

Σ(aibi)是AB叉积和(即对于每个元组,A的值乘以该元组B的值).如果rA,B>0,则A和B是正相关的(A值随B值的增加而增加).该值越大,相关性越强.rA,B=0:A和B是独立的;rAB<0:负相关的17估计相关性Scatterplotsshowingthesimilarityfrom–1to1.18协方差(数值数据)协方差和方差类似其中n是元组的个数,和

是A和B的期望值,σA和

σB是A和B的标准差.正的协方差:如果CovA,B>0,则A和B趋向于均大于他们的期望值.负的协方差:如果CovA,B<0,则如果A大于它的期望值,则B趋向于小于它的期望值.互相独立的:CovA,B=0,然而其逆不成立:某些随机变量对可能具有协方差0,但是不是独立的相关系数:协方差:例子可以简化计算为假设两个公司A和B在一周内的股票价格如下:(2,5),(3,8),(5,10),(4,11),(6,14).问题:如果股市受相同的产业趋势影响,它们的股价会一起涨跌吗?E(A)=(2+3+5+4+6)/5=20/5=4E(B)=(5+8+10+11+14)/5=48/5=9.6Cov(A,B)=(2×5+3×8+5×10+4×11+6×14)/5−4×9.6=4因此,A和B公司的股票同时上涨,因为Cov(A,B)>0.2020数据预处理数据预处理:概述数据质量数据预处理的主要任务数据清理数据集成数据归约数据变换与数据离散化小结21数据规约策略数据归约:可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性,即在归约后的数据集上挖掘将更有效,仍然产生相同(或几乎相同)的分析结果为什么要数据归约?—数据集可能非常大,在海量数据上进行复杂的数据分析和挖掘将需要很长时间数据归约策略维归约,例如,删除不重要的属性小波变换主成分分析(PCA)属性子集选择数量归约回归和对数线性模型直方图,聚类,抽样数据立方体聚集数据压缩22数据归约1:维归约维归约技术小波变换主成分分析监督的非线性技术(例如,属性子集选择)23小波变换每个元组看做一个n维数据向量,即X=(x1,x2,…,xn)压缩近似:仅存放一小部分最强的小波系数与离散傅里叶变换相似,但有更好的有损压缩方法:输入数据向量的长度L必须是2的整数幂(必要时,通过在向量后面添加0)每次变换涉及两个函数:平滑,差分两个函数作用于X中的数据点对,导致两个长度为L/2的数据集递归地应用两个函数,直到得到的结果数据集的长度为224小波分解S=[2,2,0,2,3,5,4,4]可以被变换为S^=[23/4,-11/4,1/2,0,0,-1,-1,0]压缩:许多小的细节的系数可以被0取代,只保留最强的小波系数25x2x1e主成分分析(PCA)假设待归约数据由用n个属性或维描述的元组组成,PCA搜索k个最能代表数据的n维正交向量。将原数据投影到一个小得多的空间上,导致维归约。26给定N个具有n个属性或维的数据向量,搜索k≤n个最能代表数据的正交向量对输入数据规范化:使得每个属性都落入相同的区间计算

k

个标准正交向量即主成分每个输入数据是k个主成分向量的线性组合对主成分按“重要性”或强度降序排列既然主成分根据“重要性”降序排列,因此可以去掉较弱的成分(即方差较小的那些)来归约数据仅用于数值数据主成分分析(步骤)27属性子集选择另一种减少数据维数的方法冗余属性

复制已经包含在其他属性中的信息例如,一个商品的购买价格和应付的销售税不相关属性与当前挖掘任务不相关的属性例如,学生的ID通常与预测学生GPA的任务不相关28数据归约2:数量归约用替代的、较小的数据表示形式替换原数据参数化方法

(例如,回归)使用模型估计数据,估计模型参数,只存放模型参数,丢弃实际数据(可能的离群点除外)例如:对数线性模型非参数化方法不假设模型主要有:直方图,聚类,抽样,…29参数化数据归约:回归和对数线性模型线性回归对数据建模,使之拟合到一条直线常常采用最小二乘法拟合直线多元回归是线性回归的扩展,允许用两个或多个自变量的线性函数对因变量y建模对数线性模型近似离散的多维概率分布30回归分析回归分析:

对包含一个或多个自变量和一个因变量的数值数据建模和分析估计参数给出数据的“最佳”

拟合通常最佳拟合用最小二乘法估计,但也可能用其他标准yxy=x+1X1Y1Y1’31线性回归:Y=wX+b两个回归系数

w

b,

通过实际数据估计对已知的数值

Y1,Y2,…,X1,X2,….采用最小二乘法求解多元回归:Y=b0+b1X1+b2X2许多非线性函数可以转换为以上多元回归对数线性模型:近似离散的多维概率分布把每个元组看做n维空间的点,估计多维空间中每个点的概率用于维归约与数据平滑回归分析和对数线性模型32直方图分析将数据划分为不相交的桶,每个桶中划分规则:等宽:每个桶的宽度区间是一致的等频:每个桶大致包含相同个数的邻近数据样本33抽样抽样:用数据的小得多的随机样本表示大型数据集主要原理:选择数据的一个代表性子集简单随机抽样在倾斜分布数据上表现不好进而发展出分层抽样34抽样类型简单随机抽样每个特定的样本被选中的概率相等无放回抽样一旦样本被选中,则不放回数据集中有放回抽样被选中的样本,记录它,然后放回原处分层抽样:将数据集划分成互不相交的部分,称做“层”,通过对每一层的简单随机抽样就可以得到数据集的分层抽样可以用到倾斜分布数据中3535数据预处理数据预处理:概述数据质量数据预处理的主要任务数据清理数据集成数据归约数据变换与数据离散化小结36数据变换将给定属性的所有值映射到一组新的代替值,每个旧的值都可以通过一个新的值识别数据变换策略光滑:去掉数据中的噪声,如分箱,回归和聚类属性/特征构造由给定的属性构造新的属性聚集:汇总,数据立方体构造规范化:缩放数据使之落入一个特定的小区间最小-最大规范化Z分数(z-score)规范化小数定标规范化离散化:概念分层37规范化最小-最大规范化:到[new_minA,new_maxA]例如

将收入范围$12,000到$98,000规范化到[0.0,1.0].然后$73,000被映射成z分数规范化

(μ:均值,σ:标准差):例如

μ=54,000,σ=16,000.那么小数定标规范化其中

j

是使得Max(|ν’|)<1的最小整数38离散化三种类型属性标称—值是无需的,例如,颜色,职业序数—值是有序的,例如,军阶或者职称

数值—定量的,例如,整数或者实数离散化:将连续属性值离散化区间标签用来代替实际的数值通过离散化减小数据集尺寸监督和非监督分裂(自顶向下)和合并(自底向上)离散化可以递归地在一个属性上进行为进一步的分析做准备,例如,分类39数据离散化方法主要方法:所有方法均可递归进行分箱自顶向下分裂,非

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论