版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘技术第6章数据预处理技术主讲人:孙水华副教授信息科学与工程学院目录数据预处理概述数据清理数据集成数据变换数据归约小结数据预处理(datapreprocessing)是指在对数据进行数据挖掘主要的处理以前,先对原始数据进行必要的清洗、集成、转换、离散和归约等等一系列的处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。现实世界的数据库往往易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大(常常多达数千兆字节,甚至更多),并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果。这就需要进行数据预处理,从而提高数据质量,进而提高挖掘结果的质量。现在人们已经积累了大量的数据预处理技术。如何恰当选择和应用这些技术得到更有效的数据,是一个值得探讨的问题。数据仓库和数据挖掘的应用产生了大量的数据,这些数据不一定是规范化的,它以不同的形式存储在不同的地方。根据“垃圾进,垃圾出”原理,这些低质量的数据进入系统将会导致昂贵的操作费用和系统漫长的响应时间,并且对从数据集中抽取的模式的正确性和导出规则的准确性产生巨大的影响,更严重的是会使得决策支持系统产生错误的分析结果,误导决策。6.1数据预处理概述6.1.1数据预处理的必要性现实世界采集到的大量的各种各样的数据是不符合挖掘算法进行知识获取研究所要求的规范和标准的。主要具有以下特征:(1)不完整性。指的是数据记录中可能会出现有些数据属性的值丢失或不确定的情况,还有可能缺失必需的数据。这是由于系统设计时存在的缺陷或者使用过程中一些人为因素所造成的,如有些数据缺失只是因为输入时认为是不重要的;相关数据没有记录可能是由于理解错误,或者因为设备故障;与其他记录不一致的数据可能已经删除;历史记录或修改的数据可能被忽略等等。(2)含噪声。指的是数据具有不正确的属性值,包含错误或存在偏离期望的离群值。产生的原因很多。比如收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中也可能出现错误。不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段(如时间)的格式不一致而导致的。实际使用的系统中,还可能存在大量的模糊信息,有些数据其至还具有一定的随机性。(3)杂乱性(不一致性)。原始数据是从各个实际应用系统中获取的,由于各应用系统的数据缺乏统一标准的定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。同时来自不同的应用系统中的数据由于合并而普遍存在数据的重复和信息的冗余现象。常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。图6.1给出了数据预处理的典型形式。6.1.2数据预处理的基本方法数据清理数据集成数据变换数据归纳-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48属性属性图6.1数据预处理的典型形式数据清理(datacleaning)处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。数据集成(dataintegration)就是将来至多个数据源的数据合并到一起,形成一致的数据存储,如将不同数据库中的数据集成入一个数据仓库中存储。之后,有时还需要进行数据清理以便消除可能存在的数据冗余。数据变换(datatransformation)主要是将数据转换成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。这一点对那些基于距离的挖掘算法尤为重要。包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造。数据归约(datareduction)在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的办法压缩数据,提高挖掘模式的质量,降低时间复杂度。目前,数据仓库和数据挖掘在理论和应用上都获得了极大的发展,数据预处理作为其重要的、必不可少的组成部分,技术也随之快速发展。现阶段数据预处理技术中研究最多的是数据清洗和数据归约技术。6.1.3数据预处理的研究现状数据清洗研究内容主要涉及以下几方面:(1)对数据集进行检测。现阶段主要有以下方法:可以采用统计学的方法来对数据进行统计分析,计算属性值的各种数值,如考虑属性值之间差别大小,方差等。还有可以对与其他数据格式不一致的数据进行格式转换,使之格式符合数据挖掘的需要。(2)对数据集中重复的对象进行消除,也就是对重复记录的清理。对重复数据的处理在数据仓库环境下特别重要,因为在具有多个数据源的时候可能会产生大量的重复记录。(3)对缺失数据的补齐,研究者大多采用可靠的算法将与缺失的值最相似的值替换缺失值的方法,包括贝叶斯网络、神经网络、k-最临近分类、粗糙集理论等,这些方法大都需要判断缺失记录与完整记录之间的记录相似度,这是其核心问题。数据归约技术及其主要内容为:(1)降维处理。主要采用删除冗余属性的方法,若用手工方法去除冗余属性就需要用到专家知识。通常使用属性子集选择方法,包括逐步向前选择法、逐步向后删除法、判定树归纳法等。(2)从数据集中选择较小的数据表示形式来减少数据量,需要用到数值归约技术,主要采用直方图、聚类等技术。(3)对信息系统中与决策属性没有关联或者关联度不大的属性进行约简。通过属性约简算法之后可以得到关键属性,减少冗余属性,从而减少得到决策结果所需要的时间。(4)离散化技术减少给定连续属性值的个数。这种方法可以通过简化运算量,但大多是递归的,需要花费大量的时间在每一步的数据排序上。数据清洗可以分为有监督和无监督两类。有监督过程是在领域专家的指导下,分析收集的数据,去除明显错误的噪声数据和重复记录,填补缺值数据;无监督过程是用样本数据训练算法,使其获得一定的经验,并在以后的处理过程中自动采用这些经验完成数据清洗工作。6.2数据清理6.2.1填充缺失值很多的数据都有缺失值。比如,银行房屋贷款信用风险评估中的客户数据,其中的一些属性可能没有记录值,如客户的家庭月总收入。填充丢失的值,可以用下面的方法。(1)忽略元组。当缺少类标号时通常这样做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。(2)人工填写缺失值。此方法很费时,特别是当数据集很大、缺少很多值时,该方法可能不具有实际的可操作性。(3)使用一个全局常量填充缺失值。将缺失的属性值用同一个常数(如“Unknown”或-∞)替换。但这种方法因为大量的采用同一个属性值可能会误导挖掘程序得出有偏差甚至错误的结论,因此要小心使用。(4)用属性的均值填充缺失值。例如,已知重庆市某银行的贷款客户的平均家庭月总收入为9000元,则使用该值替换客户收入中的缺失值。(5)用同类样本的属性均值填充缺失值。例如,将银行客户按信用度分类,就可以用具有信用度相同的贷款客户的家庭月总收入替换家庭月总收入中的缺失值。(6)使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他客户顾客的属性,可以构造一棵决策树来预测家庭月总收入的缺失值。(7)用最邻近方法填充缺失值。方法3~6使数据偏置,填入的值可能不正确。然而,方法6是流行的策略,与其他方法相比,它使用已有数据的大部分信息来预测缺失值。在估计家庭月总收入的缺失值时,通过考虑其他属性的值,有更大的机会保持家庭月总收入和其他属性之间的联系。6.资2.恐2光滑葱噪声剖数据噪声(n牌oi康se卡)是被求测量胶的变唤量的赛随机浇误差股或方跨差。锤给定更一个雁数值洪属性麻,如pr矛ic建e,我脚们怎喊样才芬能“喇光滑向”数怒据,泛去掉士噪声?我们季看看乖下面贞的数发据光思滑技可术。(1)分罪箱(b饭in庭ni逢ng苦)。分共箱方浅法通遵过考蹦察数荣据的即“近营邻”(即周喷围的古值)来光毫滑有候序数会据的物值。朗有序罗值分渴布到天一些顽“桶脾”或投箱中呆。由姐于分烟箱方犬法考并察近荷邻的拳值,糕因此数进行孙局部念光滑象。一燥般来面说,乡丰宽度助越大煌光滑咬效果糕越大锣。箱仓也可矿以是量等宽倾的,洁每个齐箱值亚的区答间范劝闱是医个常握量。(2)回凭归。脊可以返用一拔个函捡数(如回维归函摊数)拟合海数据红来光爆滑数话据。篮线性炭回归泉涉及喂找出馆拟合苹两个厉属性(或变耍量)的“任最佳状”线交,使额得一烘个属侨性可样以用贷来预槽测另峡一个冷。多夹元线捕性回稿归是婶线性舍回归足的扩吩展,改其中上涉及缓的属槐性多榜于两泪个,死并且仇数据身拟合铸到一火个多涨维曲益面。(3)聚意类。期可以辈通过捞聚类晨检测隔离群免点,至将类耽似的元值组粉织成奏群或壤“簇己”。呼直观宣地,黎落在早簇集矿合之侍外的拖值视这为离烟群点层。(4)人待工检跑测。昆人工躲检测束是由及专业诞人员新识别魂孤立喜点。启通过壁人与盏计算兼机的幸结合婆,相脆比单化纯手爹动检炮查整全个数救据库眠可以跟提高伏效率肝。把数摊据清珍理作振为一朱个过恰程,湖该过旁程包侵括下膛列两致个步讽骤:第一睁步是挪偏差保检测(d厉is屑cr凯ep坊an再cy离d片et乌ec按ti细on叼)。发现在噪声距、离荒群点疮和需败要考退察的浙不寻龄常的练值时忧,可圈以使旷用已俯有的蓄关于齐数据画性质石的知浊识。纵这种浑知识果或“灭关于匆数据彻的数惕据”照称作长元数植据。拢考察熊每个谅属性肿的定验义域加和数药据类乘型、锤每个彩属性虾可接渣受的写值、茧值的清长度睛范围甩;考难察是碑否所拍有的企值都戴落在扎期望嫂的值惧域内赤、属倚性之丑间是秤否存忙在已塔知的钩依赖狭;把碗握数娇据趋骨势和倡识别坡异常素,比胞如远泪离给顽定属相性均妻值超斗过两趴个标组准差滨的值苗可能声标记肌为潜轧在的亿离群悠点。秘另一直种错磁误是奥源编浆码使砌用的竿不一剂致问霸题和梅数据嘱表示糠的不拉一致还问题(如日津期“20渐09/09/25丧”和“25/09/20妇09递”)。而珍字段榜过载(f岸ie屯ld配o帖ve贩rl席oa咸di恭ng览)是另尽一类筐错误初源。考察汽数据氧还要秒遵循悔唯一谣性规姐则、越连续逗性规普则和膏空值电规则里。可居以使惹用其状他外乐部材资料人搅工地斩加以店更正垦某些本数据骗不一凤致。斥如数辰据输各入时柿的错痰误可锦以使榆用纸委上的圆记录蜓加以阅更正哀。但液大部拴分错粒误需每要数姐据变劫换。6.百2.才3数据伍清理垃过程第二侍步是腐纠正送偏差团。也就付是说嫂,一辈旦发仙现偏抛差,让通常时我们更需要欲定义匀并使暂用(一系络列)变换痕来纠芹正它妻们。昂商业盾工具统可以毁支持工数据枯变换似步骤槽。但相这些扇工具棚只支偿持有繁限的势变换掩,因网此,岛我们象常常柏可能典选择辉为数自据清欧理过供程的词这一研步编篮写定球制的霸程序蹈。偏差泻检测耽和纠稻正偏茄差这鸡两步程过程避迭代段执行璃。随着鄙我们芬对数按据的狗了解朵增加舟,重容要的渔是要票不断嫌更新坑元数毁据以妻反映违这种乐知识胳。这确有助哨于加惕快对摸相同壳数据疤存储层的未揪来版诸本的领数据阻清理痕速度脏。6.盛3数据漠集成数据望集成功主要胀是将袭多文祸件或枣多数硬据库捎运行含环境各中的支异构闷数据揉进行胖合并笨处理往,解缘瑞决语夫义的六模型懒性问扣题。该该部仇分主恋要涉执及数再据的壤选择己、数油据的肚冲突绢问题布以及饿不一震致数扣据的苦处理晋问题干。在数弯据集肚成时夺,首胜先需蛙要考阻虑的痛是模届式集符成和贞对象唉匹配祸问题息。来乏自多需个信腰息源颂的现冈实世勇界的吐等价盼实体罚的匹辰配涉解及实邮体识闻别问类题。覆例如躁,判骡断一搜个数辆据库票中的cu责st按om映er壮_i仅d与另兴一个迫数据热库中蕉的cu务st肥_n蚊um朋be晓r是否膜是相晨同的堆属性动。每蜂个属夺性的犁元数捧据可瓣以用台来帮配助避穴免模住式集成成的众错误反,元长数据林还可寄以用辉来帮学助变淘换数接据。冗余米是在女数据再集成场时另悉一个镰需要匪考虑草的重骗要问屑题。仿一个妄属性调可能屠是冗捞余的顿,如竹果它扎能由普另一泻个或晚另一至组属定性“穿导出棉”。绢属性兴或维冻命名朽的不惧一致肠也可踢能导物致结退果数阵据集桐中的押冗余颈。有些扣冗余坦可以抖被相扰关分年析检激测到馆。给隶定两浑个属扬性,叛这种遮分析浴可以孙根据部可用抄的数探据度高量(抽两个杠属性属之间唱的相章关系姥数)简估计悔一个椅属性腾能在晋多大齐程度筛上蕴抽涵另堂一个配属性闲。对毁于数套值属叠性a和b,之厌间的扁相关点系数rA枪B为其中住,n是数而据集岔的样掀本个添数,ai和bi分别茧是元基组i中a和b的值兵,和病分别性是a和b的均肃值,σA和σB分别胡是a和b的标毙准差拜,即-1产<ra滴b≤病+l。如塞果ra盟b大于0,则a和b是正黄相关执的,泛该值财越大殿,相陶关性典越强(即每烤个属老性蕴惨涵另屑一个秃的可婚能性裕越大)。因墙此,江一个籍较高扫的ra教b值表嘉明a(或b)可以匙作为需冗余市而被厌去掉祥。如挡果结暴果值矮等于0,则a和b是独巴立的矛,滴不存朵在相请关。仁如果用结果雷值小线于0,则a和b是负派相关胜的,土一个急值随追另一或个的磨减少票而增少加。熊这意签味每扁一个本属性众都阻捆止另慕一个弟属性挺的出理现。数据昏集成凡的第池三个赤重要浇问题飘是数餐据值错冲突释的检慰测与裙处理粘。例沈如,幅对于茧现实赴世界茧的同颗一实束体,咏来自绩不同散数据椒源的沫属性王值可芹能不木同。滥这可统能是旗因为助表示款、比竟例或蝴编码吊不同迹。例左如,垂重量矩属性戚可能技在一姐个系捞统中堡以公被制单养位存僚放,缘瑞而在特另一揉个系抱统中版以英伍制单陪位存竿放。敌对于芹连锁葵旅馆孙,不妖同城僚市的布房价押不仅毁可能脸涉及旦不同寸的货若币,涨而且敲可能委涉及兄不同驼的服济务(如免水费早拌餐)和税帆。数据情变换浸把数粉据转老换成旅适应巨于挖庙掘的摩形式殿。通耽过对尺某些分属性来按比臣例进厅行缩钓放,但使属益性取叔值落渗在较零小的连区间守,例线如数逃值型附属性衰可以齐规范众化到[0,1]区间述,这浙种变透换对辛聚类喝、神慰经网些络等厚算法与都是尽必要建的。虑连续股属性龙离散成化也券是决是策树出等分窃类分今析常珍用的叛预处梦理。属性稀规范瞎化会窃减少趣挖掘毙过程隔所用共的时河间,寸而且蜻规范淡化可柄以有迹效地那避免负较大难取值易的属梅性对犁数据捏挖掘渐的过僵度影猪响。数据絮变换芹主要课涉及牛如下旨方法脖:光肝滑、鼓聚集之、箱数据以泛化座、规程范化朽。6.西4数据兔变换(1)光竞滑光滑幕:去掉肥数据碍中的铃噪声锡。这恼种技若术包搂括分园箱、龟回归水和聚皱类等滑。回竖归和词聚类槐技术耐在后深面介绩始,僚这里援简要烦介绍具一下沿分箱独技术方。分念箱是箩通过桐分析魄邻近违的值炭平滑纳存储惠数据糕的值渐,可策处理山连续绩型和屯分类导型变夺量,迈以得患到更专少的较变量料取值陪种类麻以便耀于分虫析。沟数据缎被分联布到搞箱中凝,分中箱的柿方法处是进童行局伟部的炒平滑军,也责可以幻玉作为孩一种拉离散欠化技卸术使孩用。欠在图6.闲2中,胆学生娃的数蚁学成思绩(爽已排枣序)告被划毕分存足入到余等深汇的深送度为3的箱钩中,呢然后杀采用若下面释的方剥法之肿一平踩滑。1)按寒箱平液均值各平滑夜分箱嫁:箱跌中每佳一个沙值都饥按箱送中的耻平均映值替吊换,乓例如遭箱1中的傍值61、65、69的平荷均值熟是65,该臂箱中樱的每翁一个罚值被蓝箱中策的平哪均值65替换沸。2)按侄箱中劈燕值平杜滑:委箱中面的每共一个榨值,泽按箱株中的启中值镜替换绸。3)按恒箱边弟界平谎滑:氧箱中吃的最茧大和备最小歇值被窜视为秧箱边世界。疼箱中铸的每赤一个讲值被豆最近恩的边俱界替写换。(2)聚蹄集聚集亚:对数疲据进侧行汇酿总或崭聚集钻。例凶如,栏可以运聚集腹日销解售数零据,粘计算贺月和饿年销风售量售。通相常,彻这一版步用猛来为框多粒身度数策据分旱析构纳造数香据立逢方体并。聚胁集产弯生较坟小的娱数据盟集,贼使得即分析袜的数帆据更身稳定纺,但守也应声注意汗可能援会丢宜失有池趣的乡丰细节中。(3)数发据泛浸化数据茅泛化敢:使用侨概念趁分层性,用哨高层义概念楚替换耽低层歪或“店原始午”数缩慧据。遍例如渔,分举类的变属性散,如钉街道江,可有以泛普化为买较高玻层的魂概念宜,如大城市街或国垫家。分类似腿地,暖数值雅属性律如年耕龄,凝可以闲映射秧到较屠高层勉概念阵如青液年、真中年怎和老告年。(4)规内范化规范侵化:如果誓描述史样本伸或记焰录的蹈变量尺单位如不统雁一,荐数值奋差别异比较维大,怖就需含要把赏数据轮归一以化、僻指数愧化或非标准然化,逗把不估同的登属性认进行仍比例轨缩放诵,使耍它们纳的值堤落在姑大致瓦相同市的范分围内舌,如-1华.O~1.售0或O.辰O~1.程0。有许终多数快据规对范化离的方江法,啊常用何的有弯三种援:最们小-最大将规范北化、z-远sc讽or守e规范兼化和馒按小牌数定狭标规存范化永。1)最汪小-最大师规范香化。忆假定mA和MA分别吩为属使性A的最章小值床和最盲大值役。最樱小-最大脊规范译化通继过计瘦算将A的值v映射砌到区乔间[ne讯w_抄mA符,n算ew赞_M爆A]中的v’。最小-最大幕规范端化对临原始傲数据匙进行叠线性务变换或,保劝持原融始数魔据值蓬之间迷的联写系。踢如果聚今后冰的输息入落申在A的原贸始数掉据值颜域之鬼外,会该方脑法将妥面临膀“越团界”站错误糖。2)z-帽sc下or牧e规范谊化(零均床值规某范化)。把滴属性A的值v基于A的均满值和还标准要差规莫范化艘为v’,通馒过下拿列公带式计隐算:其中加,和σA分别拔为属馅性A的均梯值和步标准易差。默当属婆性A的实危际最冒大和稿最小鱼值未霸知,坑或离绪群点叙左右呀了最璃大-最小控规范拆化时齿,该掏方法航是有块用的床。假定腰属性认平均螺家庭笑月总究收入冠的均绣值和富标准愉差分轮别为90骂00元和24钻00元,交值12婆60浸0元使巷用z-晃sc终or穿e规范幼化转乓换为决:3)小扫数定且标规热范化聋。通始过移么动属牌性A的小膊数点机位置恋进行枣规范蓬化。尖小数睬点的闸移动染位数漏依赖屡于A的最膜大绝绩对值堤。A的值v规范遵化为v’,由烦下式撞计算秃:其中犹,j是使路得Ma块x(厌|v’|污)<拿1的最归小整案数。例如肌,假廉定A的取叔值是-9熊75~92劝3。A的最延大绝蜓对值溪为97杜5。使田用小丢数定喜标规姥范化侨,用1晋00贞0(即j=鸭3)除每德个值峰,这姑样,-9屑75规范猴化为-0捧.9剑75,而92痕3被规浙范化孤为0.卷92唯3。规范他化将烈原来获的数底据改到变,陷特别铜是上友面的叮后两下种方逢法。谎有必贴要保昏留规巩范化祖参数(如均切值和环标准会差,辜如果预使用z-爷sc替or膝e规范责化),以啦便将逝来的造数据垫可以险用一烦致的世方式累规范煤化。(5)属纳性构益造属性填构造(或特劲征构志造):属性予构造岩是由奇给定舒的属扩性构寨造和茄添加帮新的废属性衰,帮雷助提花高准址确率较和对悄高维净数据患结构鞠的理对解。挨可以兼构造管新的艰属性涨并添歉加到捎属性涛集中肿,以焦帮助撤挖掘桂过程章。有些候数据算属性婶对发宇现任哲务是地没有困影响党的,筒这些愤属性姨的加液入会姑大大菌影响巴挖掘椒效率其,甚科至还言可能饺导致丹挖掘纪结果匙的偏狂差。究数据喝简化券是在淘对发介现任辆务和规数据善本身腰内容煮理解陕的基诊础上粘,寻骡找依固赖于耕发现病目标飘的表昨达数议据的书有用辆特征途,以挠缩减筹数据吐模型黑,从族而在延尽可晶能保林持数定据原块貌的缸前提意下最煮大限得度地泉精简姻数据皮量。下面庸介绍遗几种畏常见器的数报据归各约技欢术。6.生5数据沿归约6.豪5.时1数据侍立方索体聚悟集数据次立方致体存汁储多破维聚遥集信沫息。冤每个标单元顺存放淹一个缴聚集导值,缸对应重于多选维空朝间的滴一个格数据乐点,足每个街属性塞可能撒存在写概念圆分层罗,允肾许在氏多个产抽象桌层进非行数箩据分泽析。秀数据怜立方艘体提萝供对递预计示算的集汇总辅数据百进行华快速虚访问筹,因宁此,寸适合痰联机驶数据碌分析勾处理旦和数碧据挖桥掘。添例如岛收集烛的数耀据是霞某公炼司过文去几倍年间系每个漠季度庙的销认售数森据,李而感叮兴趣迷的数仙据是忧年销闻售数状据,扁可以掘通过添对数旷据聚抗集汇泉总得呼到年柳总销借售额纸。数袄据立龟方体也聚集装为在怨线分至析处表理的械上钻朗、下洽钻等搭操作申提供搞了可住以快劲速访善问的顶汇总博数据筑。数据萌立方撒体聚惑集的忙基础弟是概哑念分崭层,厦用于牲处理化数据闭立方岛体中汪的数舞据。坐在概郊念分瞎层的友最低提抽象勤层创趟建的捐立方溉体称台为基唉本方思体(b恳as档ecu烘bo爪id)。基阻本方普体应哈当对悉应于征感兴攀趣的荡个体白实体忘。即游最低仙层应蛙当是挡对应当于分塌析可万用的衫或有狭用的枯数据叨。最蒸高层在抽象挂的立春方体筐称为驳顶点验方体(a甘pe规xcu唐bo荒id)。对妥不同弟抽象摩层创围建的依数据贼立方估体称茂为方个体(cu喘bo白id),因括此数艳据立压方体索可以闯看作垮方体练的格(l若at逆ti歌ce贼o耍f次cu法bo六id昨s)。每么个较升高层荣抽象德将进朴一步防减少胃结果统数据付的规蛛模。郑当回钓答数植据挖养掘查踪蝶询时袜,应泡当使联用与朋给定瞒任务厚相关音的最轮小可巷用方挡体。6.袍5.励2属性值子集狐选择用于姥分析泛的数蹈据集鲁可能兄包含烦数以忧百计涨的属定性,跪其中个大部菌分属乘性与借挖掘烦任务啦不相遣关或约冗余惜。属性慕子集鸡选择瓶的基负本启盖发式落方法无包括膨以下维几种愤:(1)逐萄步向济前选练择。酿该过劫程由趟空属视性集匀作为需归约突集开要始,芽确定爸原属永性集物中最教好的澡属性停,并味将它以添加涛到归险约集拉中。箱在其争后的滚每一致次迭供代步膏,将皆剩下刷的原党属性累集中芒最好裕的属晒性添裁加到之该集咏合中奇。(2)逐梢步向粥后删君除。促该过愉程由派整个关属性阳集开寒始。窜在每清一步酱,删斤除尚双在属腐性集餐中最疯差的灿属性脂。(3)向筐前选竭择和柿向后箩删除峡的结睡合。释可以芒将逐为步向皇前选撇择和肯向后慰删除颗方法汗结合岩在一通起,上每一根步选违择一肾个最查好的寄属性午,并罗在剩图余属伯性中冠删除肾一个剂最差继的属叔性。(4)决叔策树董归纳额。决迁策树屠算法烘最初错是用折于分仇类的歪。决炸策树闯归纳喘构造续一个拔类似钢于流输程图陷的结差构,查其中俊每个穴内部(非树惨叶)节点探表示葬一个述属性项的测衰试,砌每个扰分枝范对应涂于测馒试的听一个敬输出阁;每晴个外蜡部(树叶)节点尾表示票一个列类预书测。博在每搏个节剑点,延算法供选择单“最链好”伸的属扩性,勤将数割据划笔分成暴类。当决酸策树砌归纳垃用于专属性帆子集凝选择命时,北由给糟定的史数据远构造哈决策抽树。盯不出抽现在矿树中系的所历有属方性假赞定是板不相身关的讨。出触现在沉树中帜的属挪性形丝式成归那约后柏的属链性子或集。林方法舰的结恒束标果准可府以不盼同。桑该过哑程可蜓以使靠用一岁个度倒量阈伏值来贤决定庄何时朱停止交属性详选择侄过程长。6.践5.晓3维度们归约维度按归约馆使用匙数据属编码欲或变迟换,奖以便目得到凳原数欧据的墨归约杰或“亚压缩肚”表熄示。牢两种睁流行贡、有慰效的爷有损港的维揪归约销方法饰是:拿小波吨变换秒和主侵成分芦分析超。1.小波否变换小波轮变换夫可以袋用于宝多维损数据师,如桥数据危立方丝式体。霸可以歌按以恭下方底法做界:首疤先将尽变换赵用于萝第一何个维裁,然倡后第黑二个自,如白此下障去。畏计算朵复杂匀性关归于立占方体历中单资元的雄个数刺是线苍性的翅。对捉于稀藏疏或挥倾斜猪数据鹅和具劣有有俗序属血性的抽数据脾,小幅波变床换给粒出很趟好的箭结果代。小圣波变泛换有攻许多穿实际蒜应用颂,包胆括指冬纹图慰像压派缩、用计算仇机视薯觉、况时间厨序列计数据呜分析膜和数健据清栋理。2.主积成分烤分析主成脱分分伍析(P逗ri蜻nc薄ip生al恋C奇om拣po粉ne政nt评s让An炕al锯ys伏is,PC万A)搜索k个最舱能代困表数眉据的n维正昏交向济量,边其中k≤遵n。这春样,典原来姐的数孕据投营影到垦一个僻小得激多的停空间挂,导泰致维惭度归困约。PC井A通过寒创建班一个天替换终的、怠更小伟的变威量集静“组村合”厅属性她的基遗本要罚素。斗原数咸据可违以投黄影到仗该较常小的滥集合休中。PC勉A常常刑揭示凝先前剑未曾阳察觉垫的联广系,冶并因蔑此允旗许解遗释不逼寻常诱的结璃果。柳基本酬过程娘如下传:(1)对远输入才数据川规范敏化,障使得纵每个涉属性任都落蔑入相裹同的浇区间科。此地步有忍助于蓝确保既具有烫较大庙定义尾域的傲属性差不会霞支配培具有蠢较小歪定义嗽域的复属性胖。(2)PC版A计算k个标礼准正受交向仆量,五作为筒规范稍化输秩入数午据的傍基。轻这些咐是单元位向谢量,浑每一屡个方配向都半垂直租于另沾一个以。这铃些向柱量称却为主涌成分顷。输冬入数厚据是且主成弹分的馒线性席组合专。(3)对柄主成跑分按蓄“重副要性虾”或购强度貌降序貌排列壤。主茶成分慨基本吩上充辣当数倾据的匹新坐驴标轴污,提欲供关葡于方规差的朽重要斥信息件。也偶就是哀说,堤对坐谎标轴礼进行卡排序困,使呆得第波一个伤坐标厕轴显舒示数禾据的懂最大症方差略,第烘二个匹显示阔次大走方差帝,如攻此下结去。(4)主才成分座根据芽“重逐要性撑”降芦序排退列,荣则可弱通过扁去掉蛛较弱责的成构分(即方杆差较泊小)来归娱约数阻据的剑规模挤。使左用最验强的榨主成旋分,恼应当档能够弄重构恳原数绑据的善很好心的近务似。PC选A计算州开销赶低,蜜可以监用于犬有序辱和无某序的正属性阿,并炕且可屋以处调理稀瓣疏和政倾斜需数据极。多产于2维的弯多维杨数据喜可以曾通过赶将问高题归抬约为2维问吸题来陪处理碌。主侨成分雨可以范用作惰多元绒回归糠和聚永类分芽析的芳输入饶。与孝小波蛛变换它相比似,PC敏A能够杆更好抵地处冻理稀抗疏数瓶据,乱而小坦波变串换更刻适合合高维甩数据晚。6.婶5.缩慧4数值吩归约数值搞归约异技术购指的确是选侍择替锡代的春、“钳较小凳的”宜数据返表示狡形式布来减阀少数缩慧据量坑。几壁种常嚼用数块值归香约技裳术如茎下:1.回裁归和希对数啊线性盼模型回归示和对牲数线紧性模狼型可勺以用的来近粗似给宽定的摊数据境。在(简单)线性楚回归稍中,礼对数蛾据建茎模,羽使之榜拟合透到一饱条直绞线。锄例如纱,可挠以用昨以下激公式兆,将挡随机讽变量y(称作滑响应耗变量)建模泉为另穗一随迅机变臭量x(称为佩预测近变量)的线花性函捡数。y=wx侮+b其中栗,假状定y的方忙差是凑常量漏。在佩数据祝挖掘业中,x和y是数俗值数惩据库琴属性惑。系爽数w和b(称作坟回归像系数)分别炎为直烦线的吗斜率饥和Y轴截觉距。凝系数亡可以虹用最嫩小二悟乘方增法求劲解,笨它最甘小化开分离且数据锋的实惕际直丘线与锤直线门估计那之间亡的误肿差。折多元妹线性戴回归模是(简单)线性面回归扩的扩瓶充,生允许卸响应阁变量y建模额为两尘个或珍多个巴预测东变量逝的线明性函浮数欣。2.直最方图直方包图使侵用分蒸箱来惜近似商数据疲分布下。属日性A的直浪方图柴将A的数暖据分萝布划男分为拖不相汗交的配子集套或桶番。如语果每慕个桶差只代被表单轰个属坏性值架/频垒率对粪,则房诚称为叛单桶桨。通壁常,泪桶表羽示给那定属鲁性的碎一个抓连续咏区间者。确定乔桶和纳属性顾值的身划分咽规则传,包微括如扫下:(1)等膝宽。乌在等恨宽直奖方图司中,鞠每个叹桶的再宽度皮区间纪是一微致的属。(2)等谷频(或等仔深)。在倾等频南直方摄图中万,创找建桶丑,使培得每斜个桶威的频院率粗鼓略地谅为常租数(即每嫁个桶卖大致毙包含伶相同瓣个数易的邻恼近数恰据样龙本)。(3)V最优作。给骑定桶笑的个足数,费对于婚所有凑可能搜的直御方图曲,则V最优说直方造图是贫具有茄最小滚方差辽的直惰方图妙。直至方图索的方膜差是愉每个搅桶代皱表的罢原来昨值的锻加权典和,帆其中线权等锈于桶忽中值样的个枪数。(4)Ma皱xD饺if怜f:在Ma耳xD赴if逃f直方错图中杏,考绩虑每乌对相震邻值忌之间遣的差喉。桶棋的边增界是脱具有β-剖1个最膊大差室的对辈,其谨中β是用帅户指挂定的弊桶数苍。V最优怀和Ma子xD始if落f直方荐图看秩来是死最准涝确和攻最实使用的融。对丈于近个似稀灵疏和巾稠密劝数据显、高听倾斜肾和均稠匀的屿数据盈,直葱方图泽是高籍度有雕效的吧。多影维直锈方图猎可以卖表现梢属性而间的择依赖扛,这哭种直鸭方图算能够敢有效完地近户似多脊达5个属理性的栏数据策。但汽有效稳性尚暗需进敞一步读研究今。对幸于存锅放具逼有高烫频率峰的离群群点骑,单寇桶是桃有用扁的。3.聚坝类聚类皮技术句将数梳据元喂组视夹为对罪象。誉它将屯对象诱划分荐为群破或簇炒,使纹一个结簇中登的对忘象相步互“寻相似遥”,碍而与单其他哥簇中堪的对粮象“泡相异境”。皂通常歇,相患似性罩基于优距离纷函数幸,用划对象祖在空股间中筒的“酷接近倒”程研度定胶义。胸簇的遇“质之量”躬可以多用直初径表溪示,亩直径率是簇叨中任椒意两惯个对叛象的戏最大类距离苦。质跑心距享离是把簇质借量的匹另一者种度袖量,牢定义弃为由旧簇质负心(表示看“平制均对殖象”配,或肌簇空镇间中低的平铺均点)到每浙个簇慨对象寇的平缸均距琴离。4.抽俩样抽样肃可以方作为协一种心数据件归约并技术钟使用蓄,因穿为它离允许清用数安据的厘小得堵多的垃随机忘样本(子集)表示贿大型呜数据洞集。最常坐用的匙抽样舌方法务有4种:(假定兔大型抗数据办集D包含N个元勇组)(1)s个样标本无气放回研简单强随机络抽样(S炎RS剪WO门R)。(2)s个样匀本有凶放回盈简单悬随机逐抽样(S锻RS拦WR并)。(3)聚薪类抽疤样:饿如果D中的泉元组欣分组冰放入M个互擦不相旺交的书“簇姓”,嘱则可碑以得唐到s个簇晌的简指单随驳机抽客样(S均RS册),其衡中s<旱M。例怠如,犯数据哈库中弟元组悠通常斤一次涉检索铁一页制,这念样每参页就凭可以伴视为捷一个糖簇。库也可厘以利袖用其幅他携循带更轻丰富瞒语义饺信息喊的聚宾类标傅准。(4)分箱层抽毛样:臂如果D划分股成互测不相星交的心部分乔,称跪作层领,则既通过停对每西一层胸的SR妄S就可较以得吗到D的分附层样品本。世特别触是当视数据骡倾斜魔时,旧这可恶以帮愤助确码保样圾本的旗代表祖性。采用瘦抽样技进行贿数据笔归约迹的优顽点是证,得寨到样华本的屿花费斑正比若于样谈本集朗的大柜小s,而颗不是菊数据右集的申大小N。因椒此,惹抽样慰的复密杂度踩子线厕性(su布bl系in损ea卫r)于数积据的厘大小宰。其鞋他数扎据归隶约技疑术至似少需热要完叙全扫肾描D。对巾于固勤定的便样本晓大小苹,抽圾样的岗复杂朱度仅另随数塔据的西维数n线性滥地增次加;合而其童他技衬术,势如使咸用直框方图挑,复尤杂度搬随n指数怪增长谢。用于陷数据壳归约呜时,妻抽样故最常女用来馅估计凤聚集宾查询废的回直答。警在指霉定的怀误差裁范围榴内,甲可以猪确定(使用粘中心沃极限袖定理)估计稻一个脏给定取的函昆数所越需的绣样本刷大小虎。样续本的从大小s相对帖于N可能拼非常染小。隐对于霞归约掀数据爱集的摩逐步外求精识,只端需要增简单骗地增垫加样归本大次小即肯可。6.催5.有5数据欺离散访化与绩概念楚分层通过聪将属资性值伴域划西分为退区间雾,数孩据离祖散化虹技术观可以估用来当减少阶给定任连续盗属性性值的茫个数酿。区凭间的绑标记址可以神替代拌实际击的数得据值享。用润少数索区间裤标记夕替换测连续心属性看的数籍值,地从而禾减少捧和简症化了严原来势的数抚据。拣这导眨致挖静掘结较果的果简洁集、易宏于使限用的防、知孤识层球面的颤表示左。对于户给定嗓的数答值属迈性,两概念绳分层规定义跪了该吼属性桃的一俱个离蜜散化头。通序过收去集较争高层卡的概课念(如青倘年、肺中年位或老彩年)并用店它们亚替换堆较低宵层的偷概念(如年主龄的堡数值),概胶念分吴层可担以用踪蝶来归读约数顶据。邀通过港这种爷数据类泛化捕,尽腐管细叠节丢醉失了茫,但滩是泛砌化后钱的数喊据更献有意郊义、挽更容何易解自释。这有竹助于顶通常胸需要晕的多晨种挖吵掘任腾务的灾数据泼挖掘奔结果宽的一桨致表阵示。穴此外欧,与签对大翼型未梅泛化再的数算据集蔽挖掘批相比垦,对作归约茧的数吹据进利行挖策掘所赠需的I/临O操作暑更少棚,并李且更尼有效肌。正概因为弱如此喘,离当散化傲技术届和概友念分桶层作唤为预袋处理劫步骤竟,在成数据纤挖掘常之前木而不您是在订挖掘乞过程太进行继。1.数身值数朴据的犬离散序化和圾概念浪分层决产生数值侵属性啄的概路念分嚷层可残以根左据数被据离协散化点自动落构造急。通雪常,针每种培方法省都假珍定待枕离散方化的您值已拥经按战递增恶序排个序。(1)分壮箱分箱贺是一甘种基棚于箱悦的指吸定个惹数自练项向轻下的担分裂客技术照。通素过使鬼用等罢宽或暖等频笋分箱掩,然挺后用懂箱均斧值或杆中位锻数替捷换箱没中的摘每个睡值,各可以醉将属葬性值使离散离化,谅就像而分别水用箱贩的均脏值或窗箱的担中位耳数光问滑一瞎样。芦这些葵技术笨可以层递归锡地作恳用于贺结果专划分哲,产籍生概意念分循层。负分箱武并不脏使用肿类信侮息,渐因此饭是一罢种非贵监督掘的离撕散化滨技术形。它驻对用残户指盯定的园箱个搁数很贩敏感拔,也厨容易陕受离士群点吐的影熟响。(2)直袄方图作分析像分仿箱一圆样,洗直方种图分版析也牙是一塑种非文监督臂离散泳化技绕术,节因为绒它也抗不使猜用类袭信息滩。使觉用等颠频直驶方图悄,理守想地做分割再值使屋得每唉个划期分包静括相承同个欢数的暂数据挑元组页。直斑方图荒分析美算法冠可以寻递归夫地用文于每腐个划蜜分,姨自动登地产裁生多讲级概笋念分依层,欢直到辫达到符预先是设定贯的概秧念层窝数过餐程终毁止。炉也可谱以对趋每一我层使螺用最翁小区硬间长倒度来矛控制竭递归赏过程趁。最巡寿小区乒间长唯度设疮定每酸层每贷个划笨分的桨最小碗宽度畅,或呼每层穗每个郑划分距中值春的最贴少数拍目。勺直方姿图也颗可以蚁根据座数据此分布呜的聚钉类分遇析进趣行划责分。(3)基思于熵酱的离惭散化熵(e哪nt银ro交py钻)是最纱常用幅的离腰散化州度量棉之一愈。基网于熵途的离啊散化垒是一扁种监蹄督的咸、自灵顶向稍下的盘分裂惭技术惕。它经在计递算和输确定掉分裂斑点(划分升属性冲区间币的数腊据值)时利航用类种分布幅信息氧。对田离散狭数值钥属性A,选捐择A的具循有最艰小熵用的值浊作为枪分裂氏点,抱并递余归地尤划分盈结果板区间折,得稍到分季层离锯散化术。这乳种离羞散化各形成A的概婚念分吗层。(4)基财于x2分析局的区第间合矿并采用御自底谊向上循的策书略,扑递归腥地找得出最构佳邻验近区形间,殿然后双合并粱它们侦,形溉成较烈大的斑区间蛋。这奖种方亭法是丈监督摸的,党它使锤用类蚀信息迟。其吨基本鄙思想热是,踏对于号精确警的离须散化榆,相阴对类格频率仁在一令个区冻间内逢应当耻相当金一致请。因肠此,罢如果躬两个板邻近吩的区甜间具史有非倾常类章似的酱类分屡布,堡则这遵两个右区间漂可以垦合并款。否拳则,嫂它们颈应当售保持共分开截。初始代,将惧数值骗属性A的每机个不偏同值东看作街一个间区间皮。对副每对许相邻洞区间结进行x2检验街。具啄有最润小x2值的换相邻特区间欠合并乌在一捏起,剧因为迁低x2值表治明它衫们具辞有相梁似的印类分哗布。壶该合隐并过涛程递污归地控进行蕉,直考到满晓足预发先定帆义的院终止衰标准红。(5)聚外类分幸析聚类岩分析因是一累种流闻行的必数据李离散录化方烈法。南将属奥性A的值若划分抵成簇磨或组援,聚劳类考祥虑A的分惰布以滩及数杨据点恳的邻功近性味,可观以产绑生高炸质量袍的离胆散化亏结果怎。遵掌循自观顶向素下的消划分蚀策略俗或自防底向足上的萌合并意策略腾,聚乏类可逝以用滥来产贞生A的概池念分类层,纸其中芝每个厅簇形乐成概摧念分井层的明一个劣节点案。在炒前者班,每沫一个骄
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年人教A版九年级地理下册月考试卷
- 2025年苏教新版七年级物理下册阶段测试试卷含答案
- 2025年人教版选修3历史上册阶段测试试卷含答案
- 2025年浙科版七年级物理下册阶段测试试卷含答案
- 2025年湘师大新版八年级生物下册阶段测试试卷含答案
- 2025年北师大版八年级生物上册阶段测试试卷含答案
- 2025年浙教版八年级地理下册阶段测试试卷
- 2025年湘教版选修4历史下册月考试卷含答案
- 2025年统编版2024八年级历史上册月考试卷
- 2025年新科版八年级地理下册月考试卷
- 完整版秸秆炭化成型综合利用项目可行性研究报告
- 油气行业人才需求预测-洞察分析
- 《数据采集技术》课件-Scrapy 框架的基本操作
- 2025年河北省单招语文模拟测试二(原卷版)
- 高一化学《活泼的金属单质-钠》分层练习含答案解析
- DB34∕T 4010-2021 水利工程外观质量评定规程
- 2024年内蒙古中考英语试卷五套合卷附答案
- 2024年电工(高级)证考试题库及答案
- 三年级上册脱式计算100题及答案
- 储能电站火灾应急预案演练
- 人教版(新插图)二年级下册数学 第4课时用“进一法”和“去尾法”解决简单的实际问题 教学课件
评论
0/150
提交评论