6数据挖掘之概念描述_第1页
6数据挖掘之概念描述_第2页
6数据挖掘之概念描述_第3页
6数据挖掘之概念描述_第4页
6数据挖掘之概念描述_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、 概念描述(特征化和区分)1、简介什么足概念扌苗述?描述性挖捌/s预测性挖捌描述件挖拥h 以简汕概要的方式描述数抓,并捉供 数抑的仃趣的一般:性丿贡o 侦测性数扌居挖拥h 迪过分析数扌居建'1-个威一纟乩模 型,并试i冬1预测新数抑:渠的行为。概念描述:为数拥的特征化和 比较产个描述 (当所描述的概念所指的足类对象时,也称 人类描述)o牛芋笊化:提供给足数抓隼的简洁汇总。区分:擬供阴 个戒 养 个数抑;集的比鮫描述。概念抑i述vs. olap 慨念扌苗述和数抑仓丿车的联机分析处珂! (olap) 部跟 数抑概化密 叨相) up以简江汕勺 3弋/k力一般11勺扌山皱 丿三描述邀拥,

2、允许数拥在扌山彖丿厶訂既化,便j 号*f数抑 h'j 舟殳行刃qg网吿的主妥x別:o概念描述- 可以色理复杂数拥类型的属性及其聚集个更如自动化的迂程o olap 实际使用的olap系统中,维和良華的数据类型都非堆有限 易悲螯值型的维和数值型的数据,表现为种简单的数据分个由用户控制的过程2、两种数据概化(特征化)的方法2.1、数据概化介绍数据概化和星于汇总的特征化数据概化数据库中的数据和对象通常包含原始概念层的细节信息数 据概化就是将数芳库中的跟任务相关的数秀集从较低的概念 层抽象到较高的嘅念层的过程。主耍方法:数据立方体(olap使用的方法)面向属性的归纳方法2.2、数据立方体概化数拥

3、概化:数抓立力体力法(不便卬面向属性的归纳)执行计算并将结果存储在数拥工方体屮优点:o数据概化的一种有效实现o可以计算各种不同的度量值 比女count(), sum(), average(), max()o概化和特征分析通过一系列的数据立方佑操作完成,比如上 誉、下钻等缺点o只能处理非数据类型的维和简单聚集数值类型的度量值o 缺乏智能分祈.不能自动确定分析中该使用邨些维应该概 化到哪个层次2.2、属性归纳概化iffll-dh性的归纳 attribute-oriented induction, aoi (kdd 89 workshop)受数抓类型和度就类型的约束比钱少而向屈性归纳的基本思想:使用

4、关系数据库查询收集任务相关的数据o通过考察任务相关数据中每个属性的不同值的个数进行槪化, 方法是属性删除或者是属性概化o通过合并相等的,概化的广义元组,并累计他们对应的计数 值进行聚集操作n通过与用户交互,将广义关系以图表或规则等形式,提交给 用户数据聚焦,获得初始匚作关系进行而向属性的归纳星本操作足数据概化,対1大量不同值的属性.进 行进一步概化属性删除属性概化屈性概化控制:控制概化过程,确定仃呂少不同的大量不同值的属性属性概化临界值控制概化关系临界值控制数拥聚焦(丄) i丨的足获得跟任务相关的数扌”汐s包扌舌屈性戒维.在 dmql111 (也们由in relevance to 了表刁彳。示

5、例:n dmql:描述big-university数攥库中研究生的一般特征use big_universi ty_dbmine characte ri s tics a.s " sci ence_s tuden t s"in relevance to name r gender z major z bi r th_place z birth_date, residenue, phone tt r gpmf rom studentwhere s ta tus in 、g irmdumt: e"u 将数拥挖拥:舎i旬转换为关系杳论jselect name z gend

6、er z major, bi r th_place , birth_dmtw” residencephone tt gpmf rom studentwhere s titzus i n '.msu" “"mba."” xxphd,z 数据聚焦时的困难口川八在扌论相关的数抓供方而存在闲朋 遗漏在描 述中可能超作用的屆性 用八可能弓i进太多的屈性数拥概化 uri-jio'ji徐的适丿ij规贝心 刈初始丨作关系中貝有 人帚:不同值的丿風件,符介以下怙况,山仗川丿虫 n册ij除: 在此丿皿性i肯殳仃概化操作符(比如该jfjirk没仃定 义 和关的概念分丿公

7、口孩a-4性的狡岛m枫念jii llftku性&刁 u性槪化的使川夫见贝ij: 如果初始匚作关系中的 杲个局 n h 有人址不|i ih直,lu亥屈性上仆在槪 化操(1:符,贝ij便丿ij该概化操竹汐守xj-该m性谜i j 数抓概化操作属性概化控制确定什么是呗仃大吐的不同值”,控制将屈性概化到 多高的抽象层。属性概化控制的两种常川方法:属性概化临界值控制对所有.属性设置一个概化临界值或者是对每个属性都设査一个 临界值(一般为2到8)概化关系临界值控制魏技蠶驕嬲濟瞿驢邺飜勰簇籍个为概化关恿设置一个临界值,确定概佻老系中,不同亓组的个 薮的桌大詹。(通唐再10剧30,应後尧許在实际应甬单进

8、行调 整)相等尤纠.的合并、累计汁数和其他聚集值big-university11 仍iszi < l l<j jj殳牛v 征o name: 出"j卩余丿,必t%i_i gender: ixfivi亥丿皿仟k, 舛心界先彳匕major: hj掷;h%.念。i m 文: h!11.0 birth_place:i location i mj i:'茹 tvlj birth_date: 林现丫匕 次jage 15 mil彳匕,jage_range lj residence: 札丄拟,;横1 念 >>location l»d i : 44- 丁i o

9、phone#二册u卩余k戊十匸例子o gpa: 札丄押:gran<j介纟及rr力柚現怎 <> 丿/:输入1. db; 2.数据挖粧査询dmquery; 3属性列表;4属性的概念分层; 属性的概化临界值;输出 主概化关系p算法描述:1 w*-get_task_relevant_data(dmquey. db)2 prepare_for_generalization(w>扫椎皿皈號每个屈性a的不同值对每个属性s根据临界值确定是否删除,如果不删除,贝牡十算其最小期望层次l,并确定映射对(v.v )吒3 p -generalization(w>4 通过使用代替w中毎个s

10、累计计数并计算所有乘隼值,导出p每个啜化元组的插入或累计计数2 用数组表示p描述概化关系n 部怎或者所有届性得到概化的关系,包含计数或其他度量值的聚 集 交叉表二 丄维交叉表使用毎行显示一个属性,便用毎列显示另外一个属性将 结果集映射到表中可视化技巧: 条形图.饼图.曲线和数禿立方体浏览工具(用单元的大小代表计数, 用单元亮度代表另外的度呈呈化规则”t _ weight = count (qa) / 丫:严皿加© >量化蒋征规则i-j将薇化的结果映射到相应的量化持征规则中.比如:表示ninegpudrmajorbiirli-placebn rhresid micepiioiip

11、 £gpajim woodmanmcsvail cou v<n .ec. canada8 12-76ssllktuii st. richin and687-45!983 6-scort lachancemcsmontreal. qu色 canada28-7-545 1st ave., richmond25s-9106laura lefph、f”srattte. watosa2ss125 awsibi are. uuijiakt420-52323 8s reamedreiaiacdsmey b«scoiinnyagei nuge cityr<>«n

12、ov<mlexcl vg.v-at.target_class(x) = condition(a")r : wz v . / conditi011(x)t: wj rxjtem(x) = "computer"=(location (x) = t9asja)t : 25°o v . (locationx) amencant9)tt 15°0初始工作 关系gendermag orbirth regionage rangeresidencegpacountm fscience sciencecanadaforeign20-2525-30richm

13、ond burnabyverjr- good excellent1622regiongendercanadaforeigntotalm161430f102232total263662主機化关系结果概念描述的属性#1关分析步骤数拥收集o 通过査询处理,收集目标类和对比类数据仗川侏守的aoi辺行预相人分析-识别届性和维的集合"它们是所选择的相关性分桁度量的应 用对象便川选定的和关分权刁叟匸t删除不相关和弱相关的j.-4 n:使用选定的相关分析度量,评估候选关系中的每个履性 fhjaol产心概念描述o使用一组不太保守的属性概化腦界值进行aoi3、类比较挖掘(区化)3.1介绍扌空擱类比鮫:

14、区分不z 的次 类比生交扌乞捌的i i标是彳导至ij将i丨标 类 s寸比 太杆ix 分 的揪述。 i i标类和刈l匕类mj,必须貝仃八j比和二l!卩网打冋咚右相似 的届和卩乂纟隹。 本科生 /s.研究生;student vs. address 很匸山川厂枫念扌苗述1勺支丁诃以“川厂龙比彳交.比 如展和二槪化。扌既血必须在所有比较类步进行将廣性概総到 刖 创!钦以丿不辿彳亍比年交。city vs country类比较的过& 庇数抑收集 通过査询处理收集数拥库 中才目关的数据,并将其划分为一个 旦标兴 和一个或多个对比夾纟隹和x分析 便用屋性相兴分析右注,彳吏我/门的任务中彳又包含强才目关

15、的维 同步概化 冋步的在目标类和对比类上逬行概化彳导至主目标类关系/力体 手口 主 对比类关系/方体百导u;l匕圮交i旳农示用可祝化技术表达类比较描述. 通 常会包含“对比“度量,反映 目标类 与对比类间的比较(e g count%)3.2、例子类l匕4交扌艺咖:示例(1 )彳匸务 i libig-university d<fl-zi:和创 处tnl勺冃也j: fir 作务的dmql扌iyi述use biu vmvcisitv dbj w" mmmine compal ison as *giad_vs_i11klei ia<l_s(iuleiit in 1'ele

16、vaiice to ncmw, gexder, met jo 仁 b/tthbn9th f sidenc. phone 共.gri ftm"<i actuate stti<lentsw'wlieie status in grachiatevei sus *nndcrsracliiate students'* wliei e status m 'undei lu adnate'* mialvze ccniiit°oft om stiklent述行类比较挖捌ii勺输入:, 纟介xllqh时十匸: name, gertder. majo

17、r. birth_place. birth_dte. residence phone# and gpa 心屆忤a,匕定 义的概念分丿兴gen(a)在 w n:匕定义的j.4性分析临界什ui合:丿風ri: a, r. ;i£义n<;屁ri:m 化i恰i界値rf'丿寓flmli x?件临界什尺i作务的处理过程丸"数抓收集dmql査询转化为关系査询,得到切始曰标类工作关菇和初始对 比类工作关系(可以看成使构造数攥立方体的过程)任网个数抑;类ijl£行绯枷关分析,根据5与r 删除不相关或者便弱相关的维:namegender, major, phone#同步概

18、化在目标类和对比类上司步約进行概化,将相关的维概化到由厲性 槪化临界值7;決定的同样的层次甞出比较的衣小用衣、国或坟1则等形式表达类比较描述的挖掘給果曰标关的主概化关系:研九主birrt%_m«ntry | a< jatgegp imcoianfofanacla canacla1 5-20jl 5-20fair oooclc 2%4.53o- -caiia<la25-30ooo<l5.020 0 otlicr0vc*30excellento.65o对比次的主槻化关系:#利生关l匕生交扌苗迹门勺沪j *丿现wd xj< ( 1 >浜l l彳交扌苛迹

19、7; i >门勺i i标关不11 x>j l l 炎n勺i x分牛am lr i «rft灰見贝ll虫衣<j二 l«|j立上丫匕i < <>灰见贝ij 15. f e i < 5> wij (<1: jij d -weig ht f 1: >.ji i < v, ti flflzjijq久fzh vj风也?八工丿戈i.m )d-=管三qzlyr uouam&jfo < ui 丿»jcj目标兴%梅f:化元纽d-weight是初女台目标荣工作关系中诫<7,履匪白勺亢组敕 与 初表示&

20、#187;示二邀手口不f卜匕焚工作三乓乐 f 破今“茵羔住勺总冗金目致 4匕匕statusruth comities-.age 1 ansec?p3countoiaclualec'ana<ia2030ciooci90lhiciei sa actuateouiacia25-30ooocl2105tffitjsta tus="graduat&9 birth_coutry= "canada". age_rang&= "25-30,r,gq& = 9ooct 概化元组,其d-vve£d=9o“9o2ho=3o% (

21、真体仆么含5c? > 刈兴l匕仝livi i垒门勺i丨标次的».1:化iy 分艾見贝u :va t ai se <*/ _c,css( a*<=cagitiomw t/ : d trjz/r示f列n勺:|;:5>m!贝i&込如 h:px.毎厂 stidnt (x) <=btrxh oar】匕<y(jit) =tr canadacsgc range(-v) =m25 30/gpa<=*&ooe/" d : 30°oj 请注总诈1 m分规刚表这的是充分条俗、即x满足条件 近x为研究生的 槪辛为30%(特空化量化

22、规贝ii表达的淫彳十么条件?.).去扌iti还二<4s不11 l匕交门勺空刁<岁皂件j务厂f匕冬| 71匕勺之人i ms山.乡wj t门处 仃勺iw v、»丨“一 ri< <r i« u i'z5 n- 水c 茫卅彻三化趣jiri和來x " 社uw m< h nc刁二八小仁|j-« <k 牛?护 of 化 4ck wj-vi_ 才c.uivjv> =» ud*二c# ft *_ 必h爭住 远比乞刼duvj'b -.tv.'i c= <r#/r/r.s» d r r

23、/_i7- 龙井条件 ht匕戒珏现w«j、-w /< *厂毎0 /_<'" /c / s$ <-x*> -xz3*r>/zz/z/oz/ t.*/ t : %x* t » < i : %x* r 1 i "k/ cc»w/,zyc夕八 t : wr>. xl : w j九五5fe住l oc nrion imn1h«eli ireuixcvjxtzix/-mt"krcvw/x上4t/io>jxfjr>*»«*/fua op*8025%4 0%2-

24、4 075%30%320100%3 2%n aju«»i 2017 6s%6 0vi>56 082 33%70%68010d%6 8%ratli_1 (?=!<!壬20020%l dd%80 03 0%100%10001004 41 00%创厂匕述交汇&、小以rti&juhu匕描述规则末虫小v x, europ(x) =厂(item(x)二"7tz"丿口 : 25° od : 40。computer ) : *5oo ":30。_| 表明对99年aiieiectronics公司 的tz和汁算机销信,如果一商

25、品在 区只阴 何出,贝共为丁/的假率为25 % 该公司40% 的tv在欧洌害 出4、总结w念扌苗ids z j仃门b送夂扌丿j: "i < i勺jj yj< 3 19 l 2片 习门勺jj v2<匕匕钱电j产i仃i i山委夂扌居丿乍j刀;:丿一 4-12hj 广数抑;2w本不iii ii i山m m< (l勺u_1纟内白勺枇t念:扌閒还白勺根尤彳匕汐;仪l器八户=j二 他丿i j刁 < 他八产二j n<j世他,/i : m 念 us丄哎标>11 i川夕乐彳丫 木生 i:辺彳几 辺1込l*巧佥这才牛生介內i 导 m i >< j -

26、扌廿i 1出关门勺什殳>1£|小7t门勺冷x 妙亍川门勺 鑒 木原冋!/". x 厂見吒念扌加上er® j# 4<flz luu在直向数握库 白勺君注宁. j1 存"粪衾孺舉覆壽鳖等旳史用- 住示伊”学r h勺范伊j半. 分桁碎丰戈u分为两个集台= 正枠 歩牙0戾桂 孝正枠本円于根e化.头样本用于桔化在疋粋丰, 国吐大x3分闻向致舞库 谟右注u寸, 下华占操作用于匡潮至】j前1(11 kd数抑炸白勺m 1 j机盼小j白勺法白勺誉卅网咅门勺塔并(entp训练样本q匸人小匕的?. <卄” 机鵠学习 讪练样本雲<|、 容易 找至、预謳所

27、有正样本而不疾 訖任何 负样本白勺描注瓯向数揭库叫右法洒琳面对大字 数掲、因此禅龛:描述白勺目标是尽 量口勺越盖正面数擴c 槪率分布 莎i仗丿ij"勺概化力吝二 m 机器学习右注足逐个元组的进行概化由i向皺厠阵h勺右法是罐个極性 < 或维的进行概化,丛而彳更御数 澹扌乞掘的过程能够与面向集令的数据库操作集成概念描迹j上曽出扌乞拥i不11 )-彳了扌乞擱jv?:止扌乞抑1:札丄丸;数抑;丿乍 i '羽f上円11勺数抑;qb ”“参i丨抡 抑汕勺绍i来 i (u不 r:於斤丿人巾鸳止jdj 11勺数:掷;i t2l彳j扌乞 屈mi彳导至ij绍f宋 c 4ob i y吏冃jl

28、fiil旬血性白勺穴1纠1”芋丿皿和异烷f匕亍叫t檄化 >< 系 r门勺刘八立m r imi11 u n勺念丿/ x很j金114r fr 几后不h:jul3ll fv >i' < un/on: f*count, sum vi c i l 二yrr.q.来fv'j个亲if mj概f匕x系尺rit f r l i<j au、ml > »j' l>u | j 木仃开枠兀念:1i*hidsi勺选扌任 h 汐e、 ji-彳j-鋅 j :不11 " £ j我n i j 1 攻现概念描迹白勺"彳ji乞捌

29、>二、属性相关分析为什么进行属性相关分析?数据仓库fnolap系统屮的多维数据分析缺乏 个自动概化过程、这便得这个过程屮需要何 很多用八干预用户必须告诉系统哪些维或属性应当包含在类分析属性太少,则造成挖掘的描述结果不正碓 属性太多,浪费计算、淹没知识告诉系统何个维应当概化到多高的层次 t直接通过槪化的临界值,说明给定维应当达到的槪化程度 对概化层次不满育,则可以指定需要上卷或下钻的维1、三种相关分析属性相关分析口通过识别不+11关或&是弱+11关的屈性,将它ff j排除 4概念描述过和之外,从-而确疋哪9闭牛丿m、"|包含 在类特征化和类比较中。口解析特征化包含属性/维

30、相关分析的类特征化口解析比鮫包含属性/维相关分析的类比较通过丿屈性别丨关性分析,澹扌卓统计上不相关或弱 机关的屈件,彳呆留对 戶头数据扌乞捌任务瑕和关 的局性。 x寸厂给定的屈性, 个皿件丄哎维被次为足冷丿支 #1关的,如 果 孩展性或维的值可能川j -ix:分 该 类和其他类。 比如 区分昂贵汽车和便宜汽车(可选择的屈性二 颜色,型弓,馭1牌) 在|mj 个维内, 对j 区分 -个类与其彳也类不1小 u 的概念可能方彳艮不n -j n<j能丿j口 ll 11: birth_date纟f day, month f jsalary al - liij year (丄戊”s 1cjj1既 v

31、jbirth_decade > wi 1 jsalary仃关类牛芋film匕中11勺比较兴除牛芋彳匸化的数抑;集夕2数抑:丿车小町比鮫的数抑;来都 作为刘比类 比如研究生特征化的例子,对比类为不.是研究生的学生 的集合 <e.g.本科生(可迭择的属性:性别、赭贯.专 业、平均成绩.年龄段)2、方法属性相关分析的力法属性相关分析的丿衣本思想足计笄呆种度!ib 川j -暈化属性瑕给定类或概念的相关性o可采用的度秋包括:信息增益.gini索引、不确定 性和相x系数。(涉及机器学习、统计、模糊和粗 槌集理论等方i(11的相关知识)比如:m息j曾总通过计算-个样木分类w期望信息&属性

32、的炳洙乐、累 个属性的信息增益网定该屈 性与当前的特征化任务的相关件。三、数据挖掘统计量xj 厂娄女拟i;扌乞必厂各.丿丨j丿、,夕娄攵扌川;牛芋和二心l扌丐 选殳va n勺屮心刃刍 蛉羽i冋 腋牛丫彳11:1 i 1 “o 4i j坍门勺丿密 iy丄扌厲s me曰a. mecimn. mode 不11 mjui 厂日 nge衣文"时 “文八二 i ;厶人g 二 qcjmrtiles, outliers r/anc&1 l fd<心-m:糸纹幻j; "ii 条夕光畏吉ol次 h占径lur可绞二ooacfq.0lje() , evzgrcamin()/|.人:中

33、为文孙;"松扌加dij厂吐门勺扌ii- m:注丿2亍u <1 j 1 j mj 劳昭1也门门s i - 衣订乡7 i 仁1小尢1|八 va.ui wjjsii h i丿空呈1心趋势57 术 tj匀的 v = ±<j v加权算术平均尸f1位值:使丿ij 个近似的i i 算来氏;i;median =厶十( 韻卷矍幫咼醫:滾1 舞醤曲数弓呵节鬥需甕卒兰舄?值,杏 用插值法(intei polatioro来近彳以讨算 模(mode) 表示数据集中出现频率最高的值 单模蠢、双撲态、三撲态、多模态和没有模的焙况中扌英态疋匸卡丈值讨 算的经強公武:tneavi inode =

34、 3 mean- median) 屮列数:垠 人伯不ii爪小伯的平均丿丈呈数抑;的m敢丿斐(1) 显沼川丿迁;上 兀数概括(黨四分位数)、111 n |j pq 分位数ix |hj fl i标笊羌四分位数、孤"点和盒图 fs位数(percentile): 第x个百分位数足貝仃如 f性质的 伯.x:数拥顶的k% /i沢上或低于x卩u 分 f、工娄攵: q t (25th percentile). q3 (75th percentile) d'lidp4 分2数ygr): /qr = q3-qz 刈m斜分佈11勺描述.除j"/qr还血需m 个卩分位数q和qs 以小仕数a

35、/7个i只別孤 乂戊的偕川规则上: 挑川落/f至少禹厂第个i川分位数口艾低厂弟-个i川分仇数 4 5xiqr处的伯八1 委攵:灵坯扌k: rnjn, q m. qmmx11 r it4a: 5 /ui'la見 空 门?7iv| | «2 湘点在四分&逐c上,彳史询层凶白勺 民脸是/o 中仪费t/vt用參内的线玮示心 頤莎jue f中至u畑犬*刃、枫预m ojj : 41仪j甘作* 考黑0匕门个观w乏1*2.兀门旳右黑雄二-応去5壬尸"岛咅£一三(吝st 杉t:住却s.是力黑0三住勺卡右不艮.冬于*街白勺膜徒#白勺度呈 因 u匕仅当疑 *旳僅做中t虑邑 日厂彳更丿臼 用轴砂uj値*日司闪u s o, 吉贝

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论