数据及数据预处理_第1页
数据及数据预处理_第2页
数据及数据预处理_第3页
数据及数据预处理_第4页
数据及数据预处理_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与商务智能

DataMining&BusinessIntelligence

第二章数据及数据预处理西安电子科技大学软件学院主讲人:黄健斌内容提纲2.1数据类型2.2数据质量2.3数据预处理2.4数据相似性和相异性度量2.5数据统计汇总2.6数据可视化

记录数据关系记录数据矩阵,例如,数值矩阵,交叉文档数据:文本文件:词频向量交易数据图形和网络万维网社会或信息网络分子结构有序时间数据:时间序列顺序数据:交易序列基因序列数据视频数据的图像序列空间,图像和多媒体:空间数据:地图2.1数据类型数据对象数据集由数据对象组成一个数据对象代表一个实体例子销售数据库:客户,商店物品,销售额医疗数据库:患者,治疗信息大学数据库:学生,教授,课程信息称为样品,示例,实例,数据点,对象,元组(tuple)。数据对象所描述的属性。数据库中的行->数据对象;列->“属性”。属性属性(或尺寸,特征,变量):一个数据字段,代表一个数据对象的特征或功能。例如,客户_ID,姓名,地址类型:标称二进制数字:定量规模区间缩放比率属性类型标称:类别,状态,或“名字的东西”Hair_color={黑色,棕色,金色,红色,红褐色,灰色,白色}婚姻状况,职业,身份证号码,邮政编码二进制只有2个状态(0和1)的属性对称二进制两种结果重要例如,性别不对称的二进制结果同样重要。例如,医疗测试(正面与负面)公约:将1至最重要的成果(例如,HIV阳性)序数词价值观有一个有意义的顺序(排名),但不知道连续值之间的大小。大小={小,中,大},等级,军队排名2.2数据质量被广泛接受的数据质量测量标准准确性完整性一致性合时性可信度解释性2.3数据预处理数据预处理:概述数据预处理主要任务数据清洗数据集成数据缩减数据转换和数据离散化总结2.3数据预处理主要任务数据清理填写缺失值,平滑噪声数据,识别或删除离群,并解决不一致问题数据集成整合多个数据库,多维数据集或文件数据缩减降维Numerosityreduction数据压缩数据转换和数据离散化正常化生成概念层次结构数据清洗在现实世界中的数据是“脏”的:不完整的:缺少属性值,缺乏某些属性值,或只包含总数据例如,职业=“”(丢失的数据)含嘈杂的噪音,错误或离群例如,工资=“-10”(错误)不一致的代码或不符的名称年龄=“42”生日=“03/07/1997”曾经评级“1,2,3”,现在评级“A,B,C”重复的记录之间的差异不完整(缺少)数据数据并不总是可用的例如,许多元组没有属性,如客户收入、销售数据的记录值丢失的数据,可能是由于设备故障与其他记录的数据不一致,从而删除因误会而未读入在读入的时候,某些数据可能不会被认为是重要的不是历史或更改的数据注册丢失的数据可能需要被推断如何处理丢失数据?忽略元组:通常是类标签丢失时(这样做分类),每个属性的缺失值有很大的差别手动填写遗漏值自动填写全局常量属性含义属性意味着所有样本属于同一类最有可能的值:基于诸如贝叶斯公式或决策树推理噪声数据噪声:一个测量变量中的随机错误或方差原因收集工具故障数据录入问题数据传输问题技术限制命名约定不一致其他数据问题需要数据清理如重复记录数据不完整不一致的数据如何处理噪声数据?回归数据拟合聚类检测和删除离群结合计算机和人工检查检测可疑的数据(例如人工处理可能的异常值)数据清洗数据的误差检测使用元数据(例如,领域,范围,依赖,分销)检查是否溢出检查唯一性规则,连续统治和空的规则使用商业工具数据清理:使用领域知识(例如,邮政编码,拼写检查),检测错误并改正数据审计:通过分析数据检测违规者(例如,关联和聚类规则和关系,寻找离群)数据迁移和整合数据迁移工具:允许指定的转换ETL(提取/转换/加载)工具:通过图形用户界面允许用户指定转换两个过程的集成迭代和交互数据集成数据集成将来自多个数据源的数据组合成一个连贯的数据源模式集成:例如,A.cust-idB.cust-#整合来自不同来源的元数据实体识别问题:识别来自多个数据源的真实世界的实体,例如,BillClinton=WilliamClinton数据冲突检测和解决对于同一个真实世界的实体,来自不同源的属性值可能的原因:不同的表述,不同的尺度,例如,公制与英制单位数据集成中的冗余信息的处理整合多个数据库经常发生数据冗余Objectidentification:相同的属性或对象可能有不同的名字在不同的数据库中Derivabledata:一个属性可能是“派生”的另一个表中的属性,例如,年收入通过相关性分析和协方差分析可以检测到冗余的属性仔细集成来自多个数据源,可能有助于减少/避免冗余和不一致的地方,并提高读取速度和质量相关分析Χ2(chi-square)testΧ2值越大,越有可能变量是相关的ThecellsthatcontributethemosttotheΧ2valuearethosewhoseactualcountisverydifferentfromtheexpectedcount相关性并不意味着因果关系#ofhospitalsand#ofcar-theftinacity是相关的两者都因果联系的第三个变量为人口Χ2(chi-square)test举例Χ2(卡方)计算(括号中的数字是预计计数基于两个类别中的数据分布计算)这表明,组中的like_science_fiction和play_chess相关相关分析数据(数字数据)相关系数(也称为皮尔逊积矩系数)其中n是元组的数目,而p和q是各自的具体值,σp和σq是各自的标准偏差,如果R(p,q)>0,p和q是正相关的(p的值增加为q的),较高的相关性。R(p,q)=0:独立;R(p,q)<0负相关视觉评估相关散点图显示的相似性,从-1到1。相关(视为线性关系)相关测量对象之间的线性关系为了计算相关性,将数据对象标准化,p和q,然后计算他们的点积协方差(数字数据)类似相关协方差其中n是元组的数目,p和q是各自的平均值或期望值,σp和σq是各自的标准偏差。正的协方差:如果COV(p,q)>0,则p和q都倾向于是大于它们的预期值。负的协方差:如果在COV(p,q)<0,则如果p是大于它的预期值,q是可能要小于它的预期值。独立性:COVP(p,q)=0可具有某些对随机变量的协方差为0,但不是独立的。一些额外的假设(例如,数据是否服从多元正态分布)做了协方差为0意味着独立协方差:举例它可以简化计算假设两只股票A和B具有在1个星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。问题:如果股票都受到同行业的趋势,他们的价格一起上升或下降?E(A)=(2+3+5+4+6)/5=20/5=4E(B)=(5+8+10+11+14)/5=48/5=9.6COV(A,B)=(2×5+3×8+5×10+4×11+6×14)/5-4×9.6=4结论:A和B在一起上升,因为Cov(A,B)>0。数据缩减策略数据还原:还原面积更小、体积减少的数据集,但尚未产生相同(或几乎相同)的分析结果为什么数据缩减?-由于数据仓库可以存储TB的数据,因此在一个完整的数据集上运行时,复杂的数据分析可能需要一个很长的时间数据缩减战略降维,例如,删除不重要的属性小波变换主成分分析(PCA)特征选择,特征创建Numerosityreduction回归和对数线性模型直方图,聚类,取样数据立方体聚集数据压缩降维原因随着维数的增加,数据变得越来越稀疏对孤立点分析使得密度和距离变得意义不大子空间的可能的组合将成倍增长降维作用避免维数灾难帮助消除无关紧要的属性,并降低噪音减少数据挖掘所需的时间和空间更容易的可视化降维技术小波变换主成分分析监督和非线性技术(例如,特征选择)将数据映射到一个新的空间傅里叶变换小波变换TwoSineWavesTwoSineWaves+NoiseFrequency小波变换是什么?分解成不同的频率子带的信号适用于n维信号转化的数据是在不同级别的分辨率中保存用于图像压缩小波变换离散小波变换(DWT)的线性信号处理压缩近似:只有一小部分的小波系数最强离散傅里叶变换(DFT)类似,但在空间中有更好的压缩效果方法:长度L,必须是2的整数次幂(0填充,必要时)每个变换具有2个功能:平滑,差异适用于双数据,在两个集得到的长度为L/2的数据施加两个递归函数,直到达到所需要的长度小波变换小波:空间高效分解的数学工具[2,2,0,2,3,5,4,4]可转化为S=S^=[23/4,-11/4,1/2,0,0,-1,0]压缩:许多小细节系数可以替换为0的,只有显示的系数被保留为什么小波变换?使用hat-shape滤波器强调区域点聚集的地方在边界禁止较弱的信息有效去除离群值对噪声不敏感多分辨率在不同尺度检测任意形状的集群高效复杂度为O(N)只适用于低维数据主成分分析(PCA)原始数据投影到一个更小的空间,从而查找投影来捕获最大的变化量数据的,从而维数降低。发现协方差矩阵的特征向量,用这些特征向量定义新的空间x2x1e主成分分析(步骤)从n维向量中的N个数据中,求k≤N个正交向量(主成分)能用来表示数据归一输入数据:每个属性落在相同的范围内(单元)计算K:正交向量,即,主成分每个输入的数据(矢量)是k个主分量矢量的线性组合通过排序减少“意义”或强度的组成部分由于这些组件的排序方式,消除了弱的元件,即具有低方差(即,使用最强的主成分,也能够重建原始数据的一个很好的近似,可以减少数据的大小)属性子集选择通过属性子集选择以减少数据的维多余的属性复制所有的信息中包含一个或多个其他属性例如,购买一个产品的价格和支付额两个属性相同,是多余的属性不相关的属性不包含任何信息的属性例如,学生的ID往往在预测学生的GPA是不相关的启发式搜索属性选择d的属性有可能是2d属性组合典型的启发式属性选择方法:Bestsingleattribute属性独立性假设:选择进行检验分步进行的功能选择:分步进行属性消除:反复淘汰不需要的属性最佳组合的属性选择和淘汰优化分支和绑定:使用属性消除和回溯创建属性(特征生成)创建新的属性(特征),可以更有效地比原来的数据捕捉重要的信息三个一般方法属性提取

domain-specific将数据映射到新的空间(见:数据缩减)例如,傅立叶变换,小波变换,歧管的方法(未覆盖)Attributeconstruction数据离散化NumerosityReduction通过选择更小的数据来替代从而减少数据量参数方法(例如,回归)假设数据适合一些模型,估计模型参数,只存储参数,并丢弃数据(可能的异常值除外)例如:对数线性模型在一个点在MD的空间作为产品上获得价值,适当的边际子空间非参数方法不要假设模型主要方法:直方图,聚类,取样,...参数数据还原:回归和对数线性模型线性回归:一次函数通常使用最小二乘法来拟合线多元回归:允许多维特征向量的线性函数建模为变量Y对数线性模型:近似离散的多维概率分布回归分析回归分析:组成的一个因变量(也称为响应变量)和一个或多个独立变量(亦称解释变量或预测变量的值的数值数据建模和分析技术的统称)参数估计,以便使数据“最适合”最常用的是通过使用最小二乘法来进行评估,但也被用于其他标准用于时间序列数据预测等的预测,推断,假设检验,因果关系的建模xy=x+1X1Y1Y1’回归分析和对数线性模型线性回归:Y=WX+B两个回归系数,w和b,指定行,并且要使用手工的数据估计使用最小二乘准则已知的值,Y1,Y2,...,X1,X2,....多元回归:Y=b0+b1X1+b2X2.。许多非线性函数,可转化为上述线性模型:多路表的联合概率近似为低阶表概率:p(a,b,c,d)=ab

acadbcd直方图分析将数据划分为buckets,然后存储buckets的均值分区规则:等宽:等于buckets范围相等的频率(或等于深度聚类分区数据基于相似性进行存储,只能设置成集群(例如,质心和直径)如果数据是集群则非常有效,否则效果较差可以在多维索引树结构有层次聚类和存储聚类定义和聚类算法有很多选择聚类分析在后续将进行深入研究采样采样:获得一个小样本代表整个数据N主要原则:选择有代表性的数据子集简单随机抽样开发的自适应采样方法,例如分层抽样注:采样不得减少数据库I/O(第一次)采样类型简单随机抽样相等的概率选择不放回抽样一旦对象被选中,则将其删除更换采样选择对象不会被删除分层抽样对每个分区进行数据集的分区抽样(也就是说,大约相同比例的数据进行抽取样本)用于偏斜数据取样:用或不用更换SRSWOR(simplerandomsamplewithoutreplacement)SRSWRRawData采样:群集或分层抽样RawDataCluster/StratifiedSample数据压缩字符串压缩有丰富的理论和压缩算法通常无损音频/视频压缩通常有损压缩,需要逐步细化时间序列压缩典型的短期和随时间变化缓慢数据压缩OriginalDataCompressedDatalosslessOriginalDataApproximatedlossy数据转换函数映射指给定的属性值更换了一个新的表示方法,每个旧值与新的值可以被识别方法平滑:从数据中去除噪声属性/重新构造从给定的构造的新的属性聚合:汇总数据计算规范化:指定范围内缩放属于较小的最小-最大规范化Z-得分正常化小数定标规范化离散化:概念层次Discretization

离散三种类型的属性从一个无序的设置,例如,颜色,专业的值从一个有序的集合,例如,军事或学术排名次序值数字,真实的数字,例如,整数或实数离散化:除以间隔连续属性的范围区间的标签可以被用来代替实际的数据值减少数据大小离散监督与无监督分割(自顶向下)与合并(自下而上)离散化,可以进行递归属性准备作进一步的分析,例如,分类数据离散化方法典型的方法:所有的方法可应用于递归Binning

自顶向下的分割直方图分析自顶向下的分割其他方法聚类分析(无监督,自上而下裂开或自底向上的合并)决策树分析(监督,自上而下的分割)相关性分析(无监督,自下而上合并)离散不使用类标签(分级与集群)Equalfrequency(binning)K-meansclusteringleadstobetterresults离散使用类标签决策树方法(基于信息熵)3categoriesforbothxandy5categoriesforbothxandy概念层次生成概念层次组织层次概念(即属性值)通常指数据仓库中的每个维度概念层次通过滚动来查看数据在数据仓库中多粒度形成概念层次:递归减少数据收集和更换低层次的概念(如年龄的数值)到更高层次的概念(如青年,成年,或高级)由领域专家和/或数据仓库设计概念分层可以显式指定概念层次可以自动形成数字和标称数据。对于数字数据,使用所示的离散化方法。总结数据质量的准确性,完整性,一致性,时效性,可信性,解释性数据清洗:如缺少/高噪音值,离群值来自多个来源的数据集成实体识别问题删除冗余检测不一致数据缩减降维Numerosityreduction数据压缩数据转换和数据离散化正常化生成概念层次2.4数据相似性和相异性度量相似数值衡量两个数据对象值越高对象时更相似往往属于在区间[0,1]相异(例如,距离)两个不同的数据对象的数值衡量值越低对象时更相异最低相异往往是0上限各不相同接近指的相似性或不相似数据矩阵和相异矩阵数据矩阵n个数据两种模式相异矩阵n个数据点三角矩阵单模举例:数据矩阵和相异矩阵DissimilarityMatrix(withEuclideanDistance)DataMatrix总结数据属性类型:名义,二进制,顺序,间隔缩放比例,缩放许多类型的数据集,例如,数值,文字,图形,网页,图像等。洞察数据通过以下几种方式:基本的统计数据说明:集中趋势,分散,图形显示数据可视化:mapdataontographicalprimitives测量数据相似上述步骤是数据预处理的开始。许多方法已经开发,但现在其仍然是一个活跃的研究领域2.5数据统计汇总动机为了更好地理解数据:集中趋势,变异和传播数据的分散特性最大值,最小值,中位数,位数,离群值,方差等。尺寸数值对应排序的时间间隔数据分散性:多粒度的精确分析箱形图或位数排序的时间间隔分析测量集中趋势平均(代数措施)(样品与人口):注:n为样本大小和N是人口规模。加权算术平均值:修剪意味着:去掉极端值中位数:中间值,如果值,奇数或平均中间的两个值,否则估计插补(分组数据):模式最频繁出现的值,该值在数据单峰,双峰,三峰经验公式:对称VS偏斜数据,中位数,均值和对称模式,正面和负面的偏斜数据测量数据的分散性四分位数,离群和盒状图四分位数(第25百分位):Q1,Q3(第75百分位)四分位数间距:IQR=Q3-Q1箱形图:盒子的两端是四分位数明显;单独添加胡须,情节离群离群:通常情况下,一个值高于/低于1.5×IQR方差和标准差(样本:,人口:σ)方差:(代数,可扩展的计算)标准差s(或σ)是方差的平方根2(或σ2)箱线图分析五号码分布摘要最小,Q1,中位数,Q3,最大箱形图数据表示与一个框框的端部上面的第一个和第三个四分位数,即,框的高度是四分位数间距方框内的中位数的带标记的线两线最小和最大扩展到外箱可视化数据分散:3-D箱图正态分布曲线的属性正常分布曲线从μ-σμ+σ:含有约68%的测量(μ:均值,σ:标准偏差)从μ-2σμ+2σ:包含约95%的从μ-3σ,μ+3σ:包含约99.7%图形显示的基本统计描述箱形图:图形显示直方图:x轴值,y轴频率位数:每个值x位数-分位数(QQ):一个单变量分布的分位数对相应位数的另一个图表散点图:每个值对是一对坐标,其绘制在平面上相比盒形图直方图往往告诉更多两个在右侧的直方图显示其可以具有相同的盒形图表示效果相同的values:最小,Q1,Q3,中位数,最大但是他们有相当不同的数据分布位数图显示的所有数据(允许用户评估整体行为和不寻常的事件)位数信息对于数据x进行递增的顺序排序,FI表示,约一定比例的数据网络连接均低于或等于值xi散点图二元数据显示点的分布,离群点等被视为一对坐标值的每对点在平面上绘制成正面和负面的相关数据左半片段是正相关的右半边是负相关不相关的数据2.6数据可视化为什么数据可视化?将图元数据映射到信息空间提供大型数据集的定性浏览搜索数据之间的关系如模式,趋势,结构,规则,帮助进一步定量分析,通过合适的参数找到有趣的地区提供可视化的陈述典型的可视化方法:几何技术基于图标的技术分层技术几何技术几何变换和预测的数据可视化方法直接的数据可视化散点图矩阵Landscapes投影寻踪技术寻找有意义的多维数据预测Hyperslice平行坐标直接数据可视化基于Vorticity的色带散点图矩阵Landscapes可视化的数据透视Landscapes这些数据需要转化成一个(可能是人工的)二维空间表示,其中保存的数据的特征平行坐标将一个轴划分为N等距离,每一个距离对应一个属性轴缩放在[最小,最大]之间:对应属性范围每一个数据项目(折线)对应的各轴相交的点表示相对应的属性值平行坐标数据集基于图标的技术将数据值作为可视化功能的图标典型的可视化方法:ChernoffFacesStickFigures一般技术形状编码:使用形状来表示一定的信息编码彩色图标:使用彩色图标的信息编码TileBars:使用小图标代表文件检索的特征向量ChernoffFaces一种来显示二维表面上的变量的方法,例如,让x是眉毛倾斜,y是眼睛的大小,z是鼻子长度等该组图显示了人脸部的10个特征-眼睛的大小,眼间距,偏心眼,瞳孔大小,眉毛倾斜,鼻子的大小,嘴的形状,嘴巴大小,张口等参考文献:Gonick,L.andSmith,W.TheCartoonGuidetoStatistics.NewYork:HarperPerennial,p.212,1993Weisstein,EricW."ChernoffFace."FromMathWorld--AWolframWebResource./ChernoffFace.html

StickFigures普查数据显示,年龄,收入,性别,教育等等。分层技术使用子空间分层分区的数据可视化。方法DimensionalStackingWorlds-within-WorldsTree-MapConeTreesInfoCubeDimensionalStacking在2-D的子空间中分配的n维属性空间,'堆叠'相互转化划分成类的属性值范围时,重要属性使用在theouterlevels上。低基数与序属性数据超过九个维度难以显示重要的地图尺寸适当Worlds-within-Worlds指定两个最重要的参数修复所有其他参数(1或2或3维世界选择这些轴)软件使用此范例,N–vision:通过datagloveandstereo立体显示,包括旋转,缩放(内环)和翻译(内/外动力相互作用)AutoVisual:通过查询静态互动Tree-Map屏幕填充方法具体指根据属性值采用了分层方法将屏幕分割成区域x和y维度的画面交替地进行分区的属性值(类)MSRNetScan的图片文件系统的Tree-MapThree-DConeTreesThree-DConeTrees的可视化技术的工作原理首先建立一个二维的圆,安排节点在根节点上的同心圆,然后逐渐形成树预计到2D时无法避免重叠G.Robertson,J.Mackinlay,S.Card.“ConeTrees:Animated3DVisualizationsofHierarchicalInformation”,ACMSIGCHI'91InfoCube3-D可视化技术,分层信息显示嵌套的半透明立方体最外层的多维数据集对应数据,里面的smmaller立方体表示的子节点或底层数据等参考文献D.P.BallouandG.K.T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论