数据预处理方法与改进的建议_第1页
数据预处理方法与改进的建议_第2页
数据预处理方法与改进的建议_第3页
数据预处理方法与改进的建议_第4页
数据预处理方法与改进的建议_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据预处理方法的研究与一些改进的建议数据预处理的必要性数据预处理是整个数据挖掘与知识发现过程中的一个重要步骤。不完整、含噪声的和不一致的数据是现实世界大型数据库或数据仓库的共同特点。数据的预处理能有效的提高数据质量,节约大量的时间和空间。一些比较成熟的算法对其处理的数据集合一般有一定的要求。

数据预处理的常规方法1.数据清洗去掉噪声和无关数据2.数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中3.数据变换把原始数据转换成为适合数据挖掘的形式4.数据归约主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等

数据清洗——处理空缺值数据并不总是完整的在分析一个商场销售数据时,发现有多个记录中的属性值为空,如:顾客的收入属性对于为空的属性值引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入数据清洗——处理空缺值空缺值要经过推断而补上1.忽略该记录2.去掉属性3.手工填写空缺值4.使用默认值5.使用属性平均值6.使用同类样本平均值7.预测最可能的值噪声数据的处理——分箱分箱:把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。箱子:按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间代表的“箱子”里。分箱技术需要确定的主要问题:分箱方法,即如何分箱数据平滑方法,即如何对每个箱子中的数据进行平滑处理噪声数据的处理——分箱分箱的方法:分箱前对记录集按目标属性值的大小进行排序。等深分箱法等宽分箱法用户自定义区间最小熵例:客户收入属性income排序后的值(人民币元):800100012001500150018002000230025002800300035004000450048005000噪声数据的处理——分箱等深分箱法(统一权重)按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱的权重,也称箱子的深度。设定权重(箱子深度)为4,上述例子分箱后的结果如下。

箱1:800100012001500

箱2:1500180020002300

箱3:2500280030003500

箱4:4000450048005000噪声映数据灾的处启理——分箱等宽管分箱越法(幼统一巨区间挣)在整耗个属仪性值浩的区圈间上祖平均待分布邪,即戚每个鼠箱的咱区间塑范围浩是一跃个常熄量,槐称为碍箱子距宽度森。设定节区间克范围退(箱诱子宽志度)什为10漆00元人诞民币耕,分痛箱后箱1:80臣0悔10坏00励1狗20议0粥15芽00靠1首50炕0挎18拆00箱2:20枯00青2墙30子0饥25椒00溜2炕80隔0计30狠00箱3:35脱00拘4听00兔0吴45子00箱4:48劳00遗5小00奔0噪声蚕数据缸的处除理——分箱最小收熵使在嚼各区苍间分除组内心的记纷录具亲有最端小的晋熵。信息孕是信验号、猴符号舍或消支息所纷表示季的内北容,影用以仗消除南对客汁观事逐物认串识的不确尘定性信息荐量的闹直观邮定义衬:信浪息量盾的大茎小取支决于截信息微内容按消除彻人们缠认识光的“不确崇定程染度”巩,所消厨除的蜂不确素定程战度越烫大,势则所政包含泡的信晴息量火就越瓦大。熵——信息胶的度钢量(勉利用捧概率衣来度弊量)A到10佩00人的犹学校象去找B。传呼达室非人告邮诉他神,“B是信穿息管珠理系绝”,裕而管缎理系课有10越0人。序他获办得的赠信息精是10哀0/俭10耻00=0.摆1,也菊就是匙将可虽能性洗空间超缩小厉到原呀来的1/丧10殃.又有人距告诉愁他:B在信消息管斩理与酬信息蝇系统肥教研第室(10人)劲,则京第2个信笑息的疑确定涝性又蠢缩小脱到原乳来的10垒0/吨10兄00仇*1哄0/私10训0=硬10档/1爪00棉0,也羡就是私将可棒能性尤的空踢间缩孙短到啄原来哥的1\田10任0.只要亩可能洗性范蛛围缩己小了就,获鬼得的钩信息陡量总筝是正虫的。随如果肌为0,获邻得的桑信息奋为○拦。如京果为寄负,谜反而造扩大返了其己可能拦性范喜围。熵——信息轮的度霉量信息愉量大辜小的每单位被用比渗特来焦衡量奴。1比特求的信否息量肆是指电含有从两个昌独立欲均等敌概率服状态份的事浊件所愿具有东的不胳确定通性能悉被全北部消画除所郊需要四的信幼息。信息仗量:H(备x)便=-∑P(旅Xi狠)l振og直2P何(X祖i)第i虚=1著,2饮,3别,…,n其中Xi表示指第i个状纪态(共n个状积态);P(乌Xi指)代表壶出现涝第i个状栋态时县的概挺率;H(趣x)为消静除不得确定雀性所毛需的凉信息贯量,售单位溜为比纪特(b效it指)。例如:币下篇落可笋能有无正反佣两种候状态么,出蜜现这惰两种拼状态酒的概末率都烈是1/题2,即丙:则多,H(购x)靠=-赠[P梳(X候1)望lo摸g2修P(室X1跪)+跌P(万X2旋)l仿og酿2P桌(X兆2)增]=牲-(担-0愁.5址-0声.5典)桐=1比特网。同理流可得休,投六掷均施匀正研六面尿体骰姓子的H(桃X)=2.鱼6比特。噪声惹数据返的处度理——分箱用户萝自定煮义区购间用户妖根据捧需要暮自定哀义区凳间。用户恨自定弊义:拜如将损客户失收入种划分丢为10牙00元以锋下、10喜00趟~2慌00狗0、20雪00胀~3万00抹0、30化00废~4旗00顶0和40群00元以络上几妥组,申分箱跪后箱1:80型0箱2:10究00腾1盗20始0拨15拾00绞1亭50岭0魄18垫00级2趴00垒0箱3:23固00锁2驶50踪蝶0祝28肿00兴3祥00格0箱4:35则00麻4嗽00甘0箱5:45蔬00基4通80场0租50醒00噪声遍数据真的处跌理——聚类簇:判一组翠数据图对象抵集合押。同坑一簇取内的酒所有哥对象定具有土相似员性,查不同悉簇间夫对象帅具有爆较大树差异捏性。聚类弦:将较物理轿的或技抽象亚对象最的集燥合分栗组为揪由不辽同簇叫,找过出并踢清除锐那些锣落在锁簇之棕外的柔值(苍孤立扑点)巩,这曾些孤伶立点屡被视腐为噪舟声。通过梁聚类冻分析稻发现治异常轮数据奇:相贴似或封相邻简近的运数据茂聚合冬在一蹲起形签成了面各个夫聚类酸集合竖,而呀那些天位于脂这些炮聚类觉集合耕之外怒的数白据对改象,煌自然茅而然登就被抚认为乌是异托常数娃据。特点崭:直梅接形珍成簇冬并对味簇进宏行描脾述,测不需呆要任默何先之验知居识。噪声奋数据盆的处愚理——聚类噪声婶数据写的处坐理——回归回归道:发膜现两石个相上关的坐变量菌之间过的变嚷化模董式,乓通过驼使数抬据适闻合一株个函券数来铁平滑学数据裂,即闹利用榜拟合蜻函数衫对数坝据进短行平稿滑。方法宝:线性乏回归米(简龙单回懂归)恭:利很用直润线建芽模,怕将一终个变然量看督作另仪一个哲变量香的线红性函凳数。均如宝:Y=名aX苗+b,其穿中a、b称为舞回归材系数张,可傅用最顿小二熔乘法者求得a、b系数这。非线搏性回孩归噪声成数据叨的处围理——回归xyy=x+1X1Y2Y1’数据张集成数据炸集成容:将多疤个数长据源泽中的轮数据布整合邮到一友个一豆致的腐存储旬中1.模式财匹配2.数据高冗余3.数据艘值冲具突数据寄集成——模式瞎匹配整合截不同帆数据蜜源中肌的元龟数据。实体跑识别黑问题亦:匹答配来倡自不节同数乖据源个的现龟实世剖界的绞实体芬,比土如:A.辆cu腹st巧-i盏d=讯B.薪cu朽st费om观er全_n搜o。数据歉集成——数据荡冗余同一壮属性纪在不声同的槐数据妇库中南会有笔不同蕉的字兆段名饿。一个惹属性早可以允由另井外一马个表每导出甲。如漂:一竟个顾培客数压据表梨中的封平均迈月收毛入属节性,潜它可膏以根摊据月撤收入明属性芽计算蕉出来辣。有些仆冗余润可以险被相访关分耳析检翠测到数据蚀集成——数据头值冲孟突对于剧一个戏现实锐世界喝实体近,其纲来自梳不同知数据冬源的黑属性章值或啦许不蒜同。产生方的原鸣因:努表示荣的差蛋异、吵比例泼尺度汪不同雕、或拣编码罢的差小异等倘。例楼如:除重量稍属性库在一信个系侦统中迈采用鼓公制若,而移在另翠一个射系统驾中却乌采用扬英制鹅。同元样价驱格属疮性不矩同地得点采授用不转同货险币单砍位。数据休变换——聚集对数贪据进觉行汇炼总av请g(石),co察un础t(爪),便s炒um抛()盾,古mi闯n(瞒),厉m沉ax深()…例如视:每现天销么售额例(数辛据)敌可以暮进行吐合计贪操作妥以获羽得每长月或紧每年批的总疯额。可以眨用来锐构造偷数据泽立方勉体数据良变换——数据瓣概化用更仓抽象玩(更敬高层演次)酬的概涨念来桐取代亚低层爪次或倍数据微层的畜数据哀对象例如准:街绵道属芳性,缩慧就可轰以泛饶化到弄更高辈层次爱的概株念,伞诸如肯:城辱市、叶国家挨。同遗样对型于数逃值型采的属摄性,番如年霸龄属督性,宅就可遵以映梨射到友更高悼层次弱概念刷,如焰:年图轻、肉中年徐和老告年。数据利变换——规范加化将数摇据按冒比例荐进行从缩放挤,使备之落洪入一仅个特粥定的慕区域错,以悔消除锣数值丧型属对性因遭大小毁不一孝而造分成挖旋掘结赚果的臣偏差拣。如愧将工荷资收伪入属堡性值失映射将到[-疼1.远0,候1.富0]范围候内。方法避:(1)最小-最大炕规范昆化(2)零-均值航规范缝化(z-箱sc鬼or贿e规范从化)(3)小数蜂定标晴规范击化最小-最大巷规范禽化已知烘属性引的取狗值范朵围,粥将原喘取值蔽区间[o榨ld绑_m跃in俗,o迫ld量_m练ax薯]映射票到ne辣w_旷mi炮n,赞ne案w_采ma惕x]保留扎了原推来数沈据中溜存在像的关漏系。惰但若手将来抗遇到澡超过雁目前榆属性[o辰ld察_m遗in偷,o狱ld篇_m泻ax烤]取值我范围腾的数胆值,决将会竖引起悬系统揪出错最小-最大走规范宗化零-均值望规范华化(z-膀sc肝or芬e规范士化)根据垂属性A的均炒值和昨偏差毙来对A进行渗规格残化,常用替于属刑性最顷大值收与最员小值下未知泄;或馅使用林最大林最小政规格针化方宏法时咸会出瞎现异抚常数趁据的拆情况情。零-均值蹦规范致化(z-洽sc槽or仆e规范旷化)小数遵定标摄规范街化通过捧移动嫌属性A值的驶小数丑位置镜,将指属性A的值孔映射厘到[0,1]之间石,用系小数坑的科敌学表证示法盲来达众到规涛格化雨的目课的。移动窄的小父数位腊数取坦决于偶属性A绝对响值的扔最大闯值。小数果定标奋规范茅化数据遥变换——属性松构造利用谢已有警属性初集构志造出奥新的天属性毛,并土加入揭到现尼有属财性集达合中始以帮熊助挖炒掘更艘深层油次的寻模式晒知识浇,提飘高挖榨掘结畅果准声确性午。例如舞:根病据宽厉、高池属性若,可夜以构仆造一围个新申属性羊:面旋积。数据末归约勤的方诊法1.数据刑立方洁体聚毫集:2.维归碎约3.数据助压缩4.数值狐归约5.离散孔化和坑概念旬分层温生成数据哈归约——数据螺立方孙体聚真集数据汽立方详体基傍本概骂念:数据斤立方杰体是衬数据沉的多予维建融模和恢表示锯,由罗维和孟事实嗓组成暴。维——属性事实——数据数据站立方骡体聚兄集定距义——将n维数称据立伤方体艺聚集赞为n-秒1维的络数据坡立方阁体。数据驾归约——数据型立方匪体聚掏集数据虾归约——数据均立方丛体聚龙集聚集四后的念销售外数据猴立方胃体下图吐数据粒是某躁商场20吧00~20俯02年每佳季度货的销咱售数诸据,对这史种数喊据进楼行聚狼集,亏使结井果数净据汇漆总每挺年的迫总销稠售额己,而芝不是该每季普度的系总销气售额捎。聚集及后数尺据量铜明显疫减少笔,辟但没梦有丢伟失分搜析任晓务所忌需的昨信息宅。对年收度内纱的基各季陕度数秋据进情行su择m(求杠和)状聚集数据迟归约——数据享立方敏体聚并集数据景归约——维归枣约维归住约——去掉赵无关都的属体性,刮减少射数据瞧挖掘释处理裳的数济据量刮。例如柄:挖息掘顾着客是柜否会目在商将场购字买Mp啊3播放糟机的司分类喝规则追时,遥顾客翁的电舟话号延码很甲可能渠与挖架掘任与务无捷关,裳应该堪可以蛋去掉牺。目标志:寻层找出娃最小颗的属岁性子室集并栗确保雀新数界据子滋集的忌概率绿分布肤尽可哗能接虾近原辆来数觉据集恰的概挺率分劳布。维归担约——选择冬相关蜘属性陶子集1.逐步徒向前客选择从一猜个空从属性泼集(同作为脊属性仰子集即初始开值)瓣开始尺,每哨次从梁原来委属性盒集合瞒中选炕择一扒个当壶前最腔优的帜属性占添加啊到当肃前属颠性子陕集中抓。直顽到无扇法选物择出证最优介属性旷为止央。2.逐步箱向后梁删除从一搭个全鹿属性破集(杨作为紧属性思子集为初始雀值)把开始拌,每饿次从风当前越属性禾子集岩中选们择一裙个当艇前最梢差的跨属性请并将栏其从强当前碧属性节子集还中消挣去。潮直到智无法鸽选择昏出最忧差属盾性为欺止。3.向前御选择洗和向觉后删德除结察合4.判定钩树(淹决策赢树)啦归纳利用轻决策蓝树的胶归纳街方法古对初劣始数隙据进两行分童类归爸纳学盲习,温获得则一个痒初始难决策乐树,插所有然没有翠出现疏这个咽决策辣树上归的属语性均港认为聪是无庭关属御性,勒因此滴将这错些属伙性从裙初始彩属性炕集合山删除仿掉,姜就可非以获间得一秩个较上优的悄属性岭子集破。数据跪归约——数据量压缩数据链压缩——用数申据编阅码或览者变废换,扇得到府原始絮数据盖的压刚缩表擦示。在数据据挖城掘领剃域通欣常使档用的俱两种淘数据赤压缩浓方法趣均是鱼有损择的:主成易分分锈析法凡(PC睛A)栏假定畏待压箭缩的赖数据稍由N个取备自k个维贿的元析组或参数据铃向量溪组成适。主躁要成阶分分脉析并焦搜索形得到c个最贼能代更表数胳据的k维正印交向御量,隆这里c≤k。这灿样就买可以兔把原糊数据腊投影洲到一林个较今小的懂空间底,实衬现数跑据压池缩小波捉转换利用我分箱附方法兄对数嘴据分膨布情铲况进讲行近救似数值令归约——直方命图(“频率饭-值”对应昌关系宪图)优点雄:获汉取样波本的榆时间嫩仅与念样本讲规模热成正办比方法烦:不放炭回简全单随社机抽铸样放回乳简单筋随机虽抽样聚类叫抽样屋:先顷聚类店,再凯抽样分层评抽样妇:先量分层昆,再仔抽样数值月归约——抽样网(采筒样)数据胸归约——离散乔化与裤概念倦分层证生成三种勺类型麻的属市性值脑:名称锡型——顺e.织g.无序是集合谨中的区值序数——鸽e.厌g.有序宣集合挨中的佛值连续舞值——辣e.障g.实数离散驾化技归术以通联过将迟属性钓(连汇续取断值)玩域值止范围民分为唐若干辽区间闻,来移帮助菌消减芬一个趟连续恳(取责值)激属性保的取营值个盘数。概念骗分层概念猾分层匆定义畜了一码组由漫低层旷概念衡集到弃高层杂概念类集的冰映射阻。它竟允许林在各年种抽海象级西别上背处理蠢数据礼,从坚而在幕多个衰抽象傍层上泻发现徒知识绩。用较抹高层哪次的复概念魄替换县低层呆次(么如年闯龄的云数值蜓)的负概念与,以鲜此来绕减少佣取值菊个数扑。虽企然一圣些细延节在务数据御泛化典过程棵中消圆失了公,但榜这样变所获厌得的黄泛化蚕数据疯或许脾会更返易于原理解私、更酷有意呀义。带在消床减后烧的数过据集葡上进哨行数前据挖剪掘显蕉然效铸率更狠高。概念胆分层姜结构邪可以申用树勉来表伍示,概树的茫每个侍节点茫代表歪一个饥概念址。数据工归约——概念饰分层宪生成数据绣预处薄理方搬法的懒一些去改进对数驳据预吊处理污方法冈的分惕析与钥思考数据碑预处蛙理的疑每一撤个步滋骤都扫有着哲多种闻不同所的方淹法。某些帅不同贯的处或理方矛法在此不同挺的阶妻段可告分别叨使用境。预处股理方汤法中该有较喇多的鲁统计陆方法纸。不同歉阶段赤中相感同的届预处渗理方丑法分箱溜:可练以选夏用箱喂均值科或箱则中位稿数来痒平滑妇噪声鸟,也榨可以马用做甩数值响归约真和概墨念分置层产绝生的托离散恼方法房诚。回归勒:在稳数据值清理罚阶段邪,既昨可以良用来兼填充车缺失德值,管又可糖以平夹滑噪序声,埋同时锁在数滨据归按约阶量段还掀可以佣实现鸡数值坝归约亏。聚类债:在捡平滑饭噪声晒时可飞以使旬用这防种方县法,遮聚类球分析言可以网通过朱离散批化数收值属既性来贱达到雪离散沉和概号念分删层,狐从而乳实现主数值旧归约释。不同犯阶段津中相米同的同预处旺理办泄法决策捞树:否可以鞭通过皆构造免决策指树预谷测属惯性的漂值来巷填充军缺失搜值,求也可鲜以用仿决策种树进辅行属达性子里集选鼓择,姑实现点数值窃归约霜。卡方小检验达:用让来检阵测两育个属坚性之间间的毁相关犯性,半在数特据集炊成时蒸可以改识别元冗余火属性闲,数预据归骡约中卖的数去值归炉约归纳大部蛛分方守法可闪以在待数据醒清理秀和数孕据归思约中占使用亭。数据棒清理梳和数游据归评约在乳整个逼数据灵预处颈理中师相对液更重评要,链特别杯是数轮据归肥约。预处萌理中倡的统混计方芝法思考能否刃将统况计学逢中的斗一些匪方法冈无变栏化地吊、直柱接地打用到奖数据蜓挖掘工的数录据预广处理散中?腊为什蚕么?如果火不能少,这斧些统睁计方竹法又脾怎么退样才缸能有碑效的姥应用捉到预烦处理挤中?传统惯统计路学VS数据宁挖掘传统你统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论