(计算机软件与理论专业论文)基于组播的分布式关联规则挖掘算法研究.pdf_第1页
(计算机软件与理论专业论文)基于组播的分布式关联规则挖掘算法研究.pdf_第2页
(计算机软件与理论专业论文)基于组播的分布式关联规则挖掘算法研究.pdf_第3页
(计算机软件与理论专业论文)基于组播的分布式关联规则挖掘算法研究.pdf_第4页
(计算机软件与理论专业论文)基于组播的分布式关联规则挖掘算法研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)基于组播的分布式关联规则挖掘算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郑州犬学硕士学位论文 摘要 隧赣数据库技术的飞速发展以及数握库蛰理系统鲍广泛虚耀,各个垒业秘邦 门逶避爨己熬数撰库謦瑗系统,经进疑年努力,已经毅累了越来越多鹣数摆。妇 于数据餐庞大且分布予不阁的地理位置,以及数据摩豢统中分板方法的严重缺 乏,人们无法发域数摆中黥藏熬糖露联系,熨无法摄攒当嚣瓣数据去颈测来来姆 发展趋势。数据挖掘是指从巨量数据中获取有效的、鞭颖驰、潜在有用鲍、最终 可理鲻的模式麴j # 平凡过程,其羁懿就是要扶大量数掇中我爨商意义静模式。 本文详细讨论关联规则挖掘的璃论及方法,对如何高效的挖掘关联觌则,主 要是分稚式关联规4 进行了深入姘究。本文嶷分橱了璐毒的关联艇则挖掘冀法致 分布式关联规则挖掘算法之后,提出了几个商效的分稚式关联规则挖掘算法。 观霄的分布式关联规则挖掘算法大多霄邋信量过丈、数攥瘁掐描次数过多鼹 缺点,针对这蝗问题提出丁四个分布式关联规则挖掘算法:p d d m 算法,g d s 算法,d f 算法和m g m f 舞法。p d d m 算法闲接近予实际的频繁项集豹避信量, 改善了以往分布式算法中通信量过载、算法难于拓展的问题。g d s 算法与d f p 算法相对于基予a p r i o i r 昀冀法减少丁数掇库扫描的次数,糯对于其稳的分布式 算法如f d m 算法则减少了算法的通信量,比其他的分布式算法疆具拓展型和并 行往。m g m f 算法不蔺予蠊往莳蠼犬频繁硬集挖搠算法需要不断的更新最大频 繁繁项集集合,而是利用商度压缩的f p 一树顺序地挖掘出所有的最大频繁项集, 只需簧搦描数据簿两遗,就将所有的最大颧繁模式挖搠出来。 本文的主要创新在于: ( i ) 对d d m 算法的教进,提出了带粳值躲m d m 算法,撼少了分布式冀 法韵通信量,魂掇高了算法的拓矮性。 ( 2 ) 将d 醚算法分口鞠s m p i i n g 算法、f p 增长葬法褶结合,提出了g d s 算法帮d f p 算法。c 国s 算法和d f p 簿法减少了数攒库的扫描次数,提高了分稀 式算法熟攘菇髓、势季亍往及捻掘效率。 ( 3 ) 蒸予嵩度艇缩关联信息韵f p * 树结构掇出m g m f 算法。m g m f 算法避 凫了以往摄大频繁瑗集挖撬箨法爱菱受薪镁选项集翁缺点,磊蠹趣集静检测眈较 郑州大学倾十学位论文 简单,不需要扫描数据库或f p 一树,高效的挖掘出所有全局最大频繁项集。 关键词:分布式数据挖掘,关联规则,抽样,网格,f p 一树,摄大频繁项集 i i 郑州 学硕i 学位论文 a b s t r a c t w 壤t h e d c v e l 郇m e n t o f d a t a b a s e t c c h n o j o g y a n da p p l i c a 玎o no f d a 协b a s e m a n a 蓦es y s t e m ,e a c hd e p a 娃m e n 重h 建s 嚣e e n m u j a 钯p k 矗| yo f d a 垂ab y 静b m s 。b e c 蛊u s co f l h eh u 龄n e s sa 持dd i s 翻b m 沁no f d 锹a ,诅n d 也oa n 矗l y s i sm e 穗0 d so nd a t 曲a s es y s t e m a f e f 。氆辨o p l # c 蠢矗l f i l 畦也搴 辞斑礤醛s o c j a l 至o n 蕊撬e 妇| a a 狂d 辫e 潮档l i e 馥宅e 攮e d 搴v e l o p 黼珏圭甜& 蠡t 嗽b y t h 0 d 懿8 d 鑫t a m 赫 珏g i s t 沁即s s w h i c h 嚣n d s 棚垂n a la 蒯鹳e 瓤l 翻d e l s l a # d 瓣t k 撑s 瓣搬b h 营ed a 执魏s 弹f o s e 蠡辩瓤d 越l 氇eh 躐趣l p & t e n sf 酶mp k # yo f d 如s 。如掂m 轴i n gi sv e 碍主日 辨恤珏t n 挺p 8 p e f 期a b e s 攮# a 辐o c i a l i o n 妞。姆a 蜮如n c l i 鳙t a 赫d 坟鞠d 学。e s 斑印扭耋。妞 f e 旺挥h d 拯畦b h 轮莲躯e i 甜幻啦糟韩m 秘n g b a s e 畦黼& p 辖v 薹o n s 越g o 蠢穗描写w e 秘p 。 f o u fe 攫b d i v ea l 砻材i 蛾n 】sa 盘e ft kf e s e a r 曲o na s s o d 融i e n8 l g o 曲m s 。 1 强嚣箨v 谗u s 攒蛙f 强嘛d 矗培酬 矗攥se o m 瓣甜癌铀l e 僻档至。8 d 鞋g 嚣弧d # 聪黻钍c h m o f ed a t a b a s es c a n i n g ,f o fs o l v e 王n gl l 埘s ep b l e m s ,w ep f o p o s c 如u ro 蛀垂n a l 鑫s $ 蚴 锄蹦e sm 赫妇g 巍l g 峨l h 搬s 桷i 幽a 揩黝d m ,蹬拣d 野鞠琏挞g m f a 1 9 0 r i 也m s ,t h ep d d ma l g o r j l h mi m p r o v e st h ee x p 翘s i b j l i y 硼dc o m m 硼 c a 畦黼o f 穗e 雕e v i o 凇靠g o f i l h m so 攮蛾量v e l yw 主蠼斌s m 牲砖i 潞l 渤,霹l eg 粥勰dd 擎p a l g o d t h m sr c d u c et h es c a n i n gd a t a b 硒ei ,o6 m er e l a l i v et o a p f i o r ia l _ 誊0 m h m 蝴d 剃u c et bc o m 矾l l f l i c 鲥o nr e l 趣l i v et oo t b 嚣s 擞8 l 矗b 疵da l 拶f | h ml 酞f d m ,弧e a l g o r i l l l l l lf o rm i n i n g 百o b a im a x 妇u m 舭q u e n ti i c m s c t s ( m g m f ) i sd i 舰r e n t 晌m o 也e f 蕺l a x m u m 疳e q u c n ti t e m s e t si n b 琏ga l g 髓“b 黼sw h c hc a nc o n v 蒯e n 娃yg 艇a 珏 舛o b a lm a 蔗j m u mf f 。q u e n t i t e m s e i su s i n 嚣即- t r e es t r i l c t u r eb yo n et i m # m i l i j n a n d s u p e r s e tc h e c k i 她j sv e r y8 i m p l ea n ds p 删y 伯em g m fa l g o d l h m 挺m o f ee 舔烈至v e t h a np r e v j o u sm a x j m u m f k q u e n ij l e m s e t sm i n i n ba 1 9 0 r i t h m s ,a n dc a l lm i n ea i l m a x i m u m 矗e q n e n ti l 蛐s 叭st h m u 曲to n l yn ot i m e s 血l a b a s es c 张in 鐾1 1 l em t l y c o n t r j b u l i o nj s : ( i ) u p 辩i n 套t h ed d ma l g o 酊t h m ,a 稠p r o p o s 。ap d d ma l 鼬r i m mw i l h p f e f e 崩1 c 。p o w e lr e d u c ct h ed i s t r i b u t e da l g o r i t l l mc o m m u n i c a t i o na i l dj m p m v el h e # x p a n s i l i | y t l 珏 郏卅,= l = 学 i ;| 十学位论文 ( 2 ) c o m b i n et h ep d d m ,s 锄p l i n ga n df p g r o w t ha l g o 血h m s ,a n dp r o p o s eg d s a n dd f pa l g o r i t h m s g q sa n dd f pa l g o r i t h m sf e d u c et h et i e mo fs c a n i n gd a t a b a s e , r e m o v ei h ed e f e c l so fp d d ma l g o r i t i l mw h i c hn e e d sf r e q u e n t l ys c a i l i n gt h ed a t a b a s e a n di m p r o v et h ee m c i e n c yo fd i s t r i b u t e dd a t am i n i “ga 1 9 0 i i l h m ( 3 ) p r o p o s em g m fa l g o r i t l l mb a s e d o nf p t r e es t r i l c t u r e 1 1 1 em g m f a l g o r i t h i n i sm o r ee 目k c t i v et h a np r e v i o u sm 嬲i m u m f r e q u e n ti t e m s e t sm i n i “ga l g o r “h m s ,柚d c a nc 0 i l v e n i e n t l yg e ta l lg l o b a lm a x i m u m f r e q u e n ti t e m s e t su s i n gf p - t r e es t r i l c t u r eb y o n et i m em i n 协g ,a n ds u p e r s e tc h e c k i i i gi sv e r ys i m p l ea n d s p e e d y k e yw o r d s :d i s m b u t e dd a t am i n i n 岛a s s o c i a t i o nn l l e s ,s a m p l i n g ,g r i d ,f p t r e e , m a x i m u m f r e q u e n “t e m s e t s 郑重声嚷 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄 袭等遗反学术道德、学术溉范的侵权行为,否则,本人愿意承搀由此产生的一切 法律责任和法律后果,特姥郑重声明。 学位论文作者( 签名) : 麓蕊年 郑州大学硕f 。学位论文 第_ 章引言 数据库技术和计算机网络技术的飞速发展,众多的数据信息让人措手无策, 如何在分布式环境下进行有效的数据挖掘成为信息科学研究领域的一个新的课 题。本章的主要内容:本文的研究工作的目的与意义,数据挖掘的基本概念、步 骤、主要任务等,最后概述本文的主要工作和组织结构。 1 1 研究背景 数据库的应用已经进入了成熟的阶段并迅速的渗入到各个部门和企业。目前 的数据库系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据量 庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐藏的相互 联系,更无法根据当前的数据去预测未来的发展趋势。因此,出现了所谓“数据 多,知识少”的现象,造成了严重的资源浪费吐 正是由于实际工作的需要和相关技术的发展,利用数据库技术来存储管理数 据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识, 这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知 识发现( k d d :k n o w l e d g ed is c o v e r yi nd a t a b a s e s ) 。其中,数据挖掘技术便是 k d d 中的一个晟为关键的环节。 1 9 8 9 年8 月在美国底特律召开的第1 l 届国际人工智能会议上首先出现k d d 这个术语随后引起国际人工智能领域和数据库领域专家的广泛关注1 1 1 口1 9 9 5 年, 在加拿大蒙特利尔召开了第一届k d d d a t am i n i n g 国际学术会议,数据挖掘一词 被很快流传开来【2 j 。从此以后k d d d a t am i n i n g 国际学术会议每年召开一次。经 过1 0 多年的努力,数据挖掘技术的研究已经取得了丰硕的成果,不少软件公司 已研究出数据挖掘的软件产品并在北美、欧洲等国家得到应用。例如:i b m 公司 开发的q u e s t 和i n t e l l i g e n tm i n e r ,a n g o s ss o f t e w a r e 公司开发的基于规则和 决策树的k n o w 】e d g es e e k e r ;a d v a n c e ds o f t w a r ea p p l i c a t i o n 公司开发的基于 人工神经网络的d b p r o f i l e ;加拿大s i m o n f r a s ”大学开发的d 蹦i n n e r ;s g i 公 司开发的m i n e s e t 等吲。 郑卅大学硕一i 学位论文 人们将存储在数据库中的数据看作是形成知识的源泉,形象将它们比喻成矿 石。数据挖掘【3 l ( d m :d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模 糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。数据挖掘是一门交叉学科,它会聚了数据库、人工智能、 统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。 关联规则1 4 ,5 】挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数 据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则挖掘的一 个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品( 项) 之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响, 分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分 类。 数据挖掘所面临的最大挑战是计算效率问题。解决的途径之一是开发高效的 分布式算法或并行算法。有关的分布式数据挖掘算法研究目前还不是太多,对于 异构的计算节点的分布式算法大多还是基于演绎算法,效率受到通信和扫描数据 库次数的制约。本文研究基于上述目的和背景,对数据挖掘中的关联规则挖掘的 理论和方法进行了深入研究,提出了若干高效的分布式关联规则挖掘算法,在一 定的程度上提高了数据挖掘算法的效率。 1 2 数据挖掘概述 数据挖掘( d m :d a t am i n i n 曲吼也称作数据采掘、数据开采,就是从大量的、 不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不 知道的、但又是潜在有用的信息和知识的过程,也被称作数据库中的知识发现。 1 2 1 数据挖掘的主要步骤 ( 1 ) 数据收集:大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘 也就无从作起。因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事 务处理系统,也可以从数据仓库中得到。 ( 2 ) 数据整理:数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据 可能有一定的“污染”,表现在数据可能存在自身的不致性,或者有缺失数据 郑州大学硕卜学位 仑文 的存在等,因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单 的泛化处理,从而在原始数据的基础之上得到更为丰富的数据f ;舄,进而便于下 一步数据挖掘的顺利进行。 ( 3 ) 数据挖掘:利用各种数据挖掘方法对数据进行分析。 ( 4 ) 数据挖掘结果的评估:数据挖掘的结果有些是有实际意义的,而有些是没 有实际意义的,或是与实际情况相违背的,这就需要进行评估。评估可以根据用 户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型, 不断重复进行数据挖掘。 ( 5 ) 分析决策:数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的 结果,结合实际情况,调整竞争策略等。总之,数据挖掘过程需要多次的循环反 复,才有可能达到预期的效果口j 。 1 2 2 数据挖掘的主要任务 数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关 系,从而服务于决策。数据挖掘一般有以下四类主要任务: ( 1 ) 数据总结:数据总结目的是对数据进行浓缩,给出它的总体综合描述。 通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象 总结到较高的总体层次上,从而实现对原始基本数据的总体把握。传统的也是最 简单的数据总结方法利用统计学中的方法计算出数据库的各个数据项的总和、平 均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对 数据制作直方图、饼状图等。利用o l a p 技术实现数据的多维查询也是一种广泛 使用的数据总结的方法。 ( 2 ) 分类:分类的主要功能是学会一个分类函数或分类模型( 也常常称作分 类器) ,该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的 各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以 利用该模型来分析已有数据,并预测新数据将属于哪一个组。分类应用的实例很 多。例如,我们可以将银行网点分为好、一般和较差三种类型,并以此分析这三 种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它们分类的 关键属性及相互问关系。此后就可以根据这些关键属性对每一个预期的银行网点 酆媸 学酸 “学位避文 进行分析,以便决定预期银行网点属于哪一种类型。 ( 3 ) 关联分析:数据库中静数据一般都存在着关联关系,也就是说,两个载 多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两 静。关联分析的目的燕找出数掭撵中隐藏的关联网,描述一缱数据项潜的密秘鹱 或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,即使知 道也是不确定鲍,困诧关联分析生成静麓婀带有嚣信度,嚣信度缀捌度量了关联 规则的强度。关联模型的一个典型例子是市场菜篮分析( m a r k e t i n gb a s k e t a n a l y s i s ) ,通过挖掘数据派,圭关联耀嗣,可懿了解客户的行为。 ( 4 ) 聚粪:当要分析的数据缺乏描述信息,或者是无法组织成任何分类模戏 对,霄美采矮猿类分瓣。蒙类分耩是按照禁释藕近程度度羲方法,将瓣户数据分 成系列有意义的予集合。每一个集台中的数据性质相近,不同集合之间的数据 性蕊耱差较大。统诗方法中静聚类分褥楚实现聚粪瓣一秘手段,它主簧研究基子 几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某娄对 象豹遗涵避摆接连,著褫菇这类瓣象翡毒关特 歪。概念籀述分为将链链接述霸嚣 别髋描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。 1 2 0 数据挖掘的主要应用 嚣前,数据挖掘的研究和虑稿非常热门,应用主要集中在以下几个领域; ( 1 ) 会融:数据挖掘在金融领域应用广泛,包括:金融市场分析和预测、帐户 分类、银行拯傈和信罔评估等。这些金融娩务都需簧收集和赴理大量数据,禳难 通过人工或使用一两个小型软件进行分析预测。而数据挖掘可以通过对已有数据 静处瑾,我戮数据对象静褥茬帮对象之闻熬关系,并可麓察列金融枣搦静交往趋 势。然后利用学习到的模式进行合理的分析预测,进而发现某个客户、消费群体 或绦绞静余融鞠蠢韭兴趣等。 ( 2 ) 市场业:市场业应用是利用数据挖掘技术进行市场定位和消费者分析,辅 韵制定市场繁醛。由予管理信患结惑系统粒嬲系统在市场照静广泛营及,a 稻 很容易得到顾窖购买情况的数据。 ( 3 ) 工程与辩学臻炎:数据挖撼技术可应燕予备耪工程与辩学数据分辑。睫整 先进的科学数据收集工具的使用,如观测卫星、遥感器、d n a 分子技术等,面对 辫摊大学醺士学位论交 庞大的数据,传统的数据分析工县无能为力。数据挖掘技术以其强大的智能性和 自动性,在工程和科学研究中褥至口广泛斑带。数据挖掘在天文学和生物学中都有 极为成功的案例。 ( 4 ) 产晶伟造韭:翻造韭应用数据挖据技术进行零帮件故障诊断、资源优能、 生产过程分析等。 ( 5 ) 司法:数据挖瓣技术爵威精于案髂调查、诈骗盗溅、洗钱莰诞、犯罪缀缀 分析等,可以给司法工作带来巨大收益 2 。 1 3 本文的主要工作 算法的效率是当前数据挖掘研究关键问题。当前的单桃数据挖掘簿法受到以 下几个因素囊制约;1 数据物理位置的分布性;2 海量数据蚋处理;3 各个数槎 存放站点的联系;4 数据的快速变化。基于单机算法以上的制约因素,分布式算 法受到广泛的关注。 但是大多数分布式数据挖榴算法都簧剜通信霜和扫描敬裕库次数的问题。本 文的主要工作针对这两个问题进行了深入研究,内容如下: 1 透信艇过载闻磁一直是影晌分布式算法拓璇,导致分布式算法效率低下 的问题。在以往分布式算法d d m 算法的綦础上提出了一个加优先权值的p d d m 算 法。p d 嘛算涟只用接邋子实际的频繁顼的透信量,改善了戳往分布斌算法中通 信量过载,实际算法难子拓展的向题。 2 基于演绎算法( a 弦i 。r i 算法) 辩分布式簿法一直戳来帮受巍数据库搦 描次数问题的困扰。在p d d m 算法的基础上结合抽样算法和知识网格,提出一个 g p s 算法eg s 算法其需要扫攒数疆痒一次,缓簿了基于演缂算法的努布式算法 多次扫描数据库的问题。 3 将p d 黼算法纛f p 一瑾长罄法褶缔奄提出了糟算法鞫最大频繁矮集挖掘 算法m g m f 算法;d f p 算法扫描数据库两遍,精确的挖掘出数据库中的全局频繁 矮集e 粥释算法不嚣于苏桂戆最大顼集撼箍算法,宅零l 强健岔新喜关联信患懿 f p 一树,将所有的最大项集挖掘出来。m g 鄹算法只登顺序挖涮f p 一树一遍,并且 超集熬捡瓣京勰f 中棼誊篱革。 有关以上工作的详细叙述将在本文的第三章到第五章的篇幅中详细的给出。 郑卅i 大学硕士学位论文 对于每一种算法,都进行了详细的实验和分析,实验结果分别在相应的章节列出 1 4 本文的组织安排 本文的其他章节的内容安排如下: 第二章主要介绍了关联规则挖掘的基本概念、种类,以及关联规则挖掘的经 典算法及其改进。第三章介绍了分布式关联规则的主要算法,在d d m 算法的基础 上提出p d d m 算法,并结合抽样算法和知识网格,提出一个g d s 算法。第四章介 绍了f p 树挖掘算法,在f p 一树挖掘算法的基础上结合p d d m 算法提出d f p 算法及 其改进。第五章介绍了最大频繁模式的挖掘算法,提出了基于f p - 树的全局最大 频繁项集挖掘算法一m g m f 算法。第六章是论文的总结和将来的工作。 辩溺走学骥士攀位 奎文 第二章关联规则挖掘概述 2 1 关联艘则的分绍 数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值 之间存在菜稀蕊律悭,关联蕊_ 燹| :| 挖掘就怒发现大量数据中项榘之闯寄趣静关联袋 相关联系【3 j 。这种关联关系有简单关联和时序关联两种。简单关联,例如:购买 瑟氟的顾客中有粥蠡每人同时购买牛奶。对序关联,例如:若罔波t 段票遥绥 上涨两天且d 岂c 股票i :下跌。则第三天i b m 股票上涨的可能性为7 5 ,它在倘 荦关联中增热了对闯j 鬻经“。 失联分析的目的鼹找出数据库中隐藏的关联网,描述一组数据项目的密切艘 或关系。寿时势不躲遂数据痒串数据静黄联是否存在耢磕静关联函数,帮萑知遂 也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度避了关联规 裂憨强度。 关联模型的一个欺型例子是购物篮分析( m a r k o t i n gb a s k e ta 皿a l y s i s ) ,通过挖 掘数据派生美联蕊裂,胃班了瓣客户静行为。采矮关联模型熬成臻典型案铤燕憨 部位于美国阿肯色州的沃尔玛( w a i m a r t ) 零售商的“尿布与啤酒”的故事【2 】。沃尔 玛辑蛾m 搬搠霄世界土最大熬数据仓痒系统,它剩用数据挖掘工具对数据仓黪 中的原始交易数据进行分析,得到了一个意外发现:跟尿布一起购买耀多的商品 竟然楚啤溪。颤栗不是媸助于数攥仓疼朝数据穆撅,巍家决不哥毙发瑰这个隐藏 在背后的事蜜:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,黼h 她们中有3 0 4 0 熬入网对也为鑫己买一些啤疆。有了逸令发觋爱,超毒调熬 了赞架的摆放,把尿布和啤酒放在一起,明显增加了销售额。 嗨m w a l l 4 j 等于1 9 9 3 年酋先提出了挖撼颞客交易数据疼巾壤集闯熟关联援剩 问题,以后诸多的研究人员对关联规则的挖掘问题进行了大懿的研究。他们的工 作包括对原有的算法进行优化,蛔引入随掘采样、并毒亍的思想等,以旋嵩冀法挖 掘舰则的效率;对关联豌则的应用进行推广。 闸样的,我们还可以根据关联规则在商品销售方面做各种健销活动,还可以 帮助许多商务决策的制定。关联斌挖掘和分析可以更好的指导我们在工作中的 应用。 郑州人学硕士学位论文 2 2 关联规则的基本概念 定义2 1 支持度:项集x 的支持度s ! 印。) 是包含项集x 的事务l 在事 务数据库d 中出现的次数同d 中事务总和的比率,即 s 卿d ( x ) = 口dj j 互f f d 。 定义2 2 关联规则:设,; ,t ,) 是由m 个不同的项目组成的集合,给 定一个事务数据库d ,其中每个事务t 是一组项目的集合,即丁j 。一条关联 规则就是形如4 碎口的蕴涵式,其中爿c ,口c j ,并且爿n 口= d 。关联规则 一一日成立的条件是:它具有支持度s ,即事务数据库d 中至少有s ( 概率 p 似u b ) ) 的事务包含4 u 矗。它具有簧信度c ,即在事务数据库d 包含a 的 事务中至少有c ( 概率p i 爿) ) 的事务同时也包含b 。 定义2 3 频繁项集设置是,的一个子集,4 是一个事务数据库, s 峨即圳阮,爿) 为爿中包含t 的事务的个数,记为一,则鼍在爿中的支持度为 开叼“,爿) = & 删 ,4 ) 1 4 i 。对于给定的一个支持度阈值 缅一一,如果 n p g “,爿) 砌一一,那么项集葺就是频繁项集。如果一是全局数据库,那么鼍 就是全局频繁项集,如果爿是局部数据库,那么鼍就是局部频繁项集。 关联规则的挖掘是一个两步的过程: ( 1 ) 找出所有的频繁项集:根据定义,这些项集出现的频繁性至少和预定义 最小支持计数一样。 ( 2 ) 由频繁项集产生强关联规则:根据定义,这些关联必须满足最小支持度 和最小置信度。也可以使用附加的兴趣信度, 关联规则挖掘中,最重要的是第一步。挖掘关联规则的总体性能有第一步决 定。 郑州大学硕士学位论文 2 3 关联规则种类 1 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布 尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。 数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处 理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规 则中也可以包含种类变量。 2 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次 的。在多层关联规则中,对数据的多层性已经进行了充分的考虑。 3 基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。 在单维关联规则中,我们只涉及到数据的一个维,如用户购买的物品在多维关联 规则中,要处理的数据将会涉及多个维。 2 4 算法综述 2 4 1 经典的频繁模式算法 a g r a w a l 门等于1 9 9 4 年提出了一个挖掘顾客交易数据库中项集间的关联规则 的重要方法,其核心是基于关联规则挖掘两个阶段的递推算法。该关联规则在分 类上属于单维、单层、布尔关联规则。其核心思想简要描述如下: 【a p 血畦算法】:使用格局候选生成的逐层迭代找出频繁项集。 输入:事务数据库d ;最小支持度闽值m i n s u p 。 输出:d 中的频繁项集l 。 方法: ( 1 ) 厶= 励d 一,嘞“口f 一1 一打u p 括( d ) ; ( 2 ) f o r ( k = 2 ;厶_ g ;k + + ) ( 3 ) = 叩r 曲h g 删( _ 1 m i n s u p ) ; 郑州大学硕i :学位论文 ( 4 ) f o re a c hi t a n s a c t i o nf d s c a ndf o fc o u n t s ( 5 ) = 5 h 6 雕:f ( g ,r ) ;g e l t h es u b s e t so fit 1 1 a 【a f ec a n d i d a l e s ( 6 ) f o re a c hc a n d i d a t ec e ( 7 )c c o u n t + + ; ( 8 ) ( 9 )k = c gl c “时m i n - s u p ) ; ( 1 0 ) ) ( 1 1 ) r e i u m = u t 丘; p m c e d u 陀印r i o r i g e n ( t 1 :脚删f 一1 ) 一i 把m j 础;m i n s u p ) ( 1 ) f o re a c hn e m s e t 一l ( 2 ) f o re a c hi i e m s e t ,2 厶一1 ( 3 ) i f ( “【1 】= j :【1 】) n n ( f l 脾一1 = f 2 陋一1 】) ) i h e n ( 4 ) c = ; j o i ns t 叩:g e e r a i ec 蛐d i d a i e s ( 5 ) j f h 躯i l l m q u 明l j u b t ( c ,k 4 ) t h 蛐 ( 6 )d e l e t e c ; ( 7 ) e l s ea d dc i oc ; ( 8 ) ( 9 ) r c t i l mq ;算法结束; 一一一一一一一_ 一一一 算法首先找出频繁1 - 项集l 1 ,然后是频繁2 项集l 2 ,直到有某个k 值使得u 【 为空,这时算法停止。这里在第k 次循环中,过程先产生候选k 项集的集合c k , c k 中的每一个项集是对两个只有一个项不同的属于i j 【1 的频繁项集作一个( k 2 ) 连接来产生的。c k 中的项集是用来产生频繁项集的候选集,虽后的频繁项集址 必须是c k 的一个子集。c k 中的每个元素需在交易数据库中进行验证来决定其是 否加入i 上,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可 帮摧天学联圭学证论曼 能报大的交易数据库,即如果频繁项集最多包含l o 个项,那么就需要扫描交易数 据库1 0 遍,逮需要很大的王,o 负载。可能产生大量的候选集,以及可能需要重复扫 描数据库,魑a p f i o r i 算法的两大缺点。 算法的优化:为了键高算法的效率,m a i l n i l a 等引入了修剪技术寐减小候选 集c k 的大小n 由此可以显著地改进生成所有频繁项集算法的性能。算法中引入 的修剪策略纂于这祥一个性矮;个项集楚频繁硬鬃当且仅警它静掰有子集都是 频集。那么,如果c k - 扣某个候选项集有一个限一1 ) 子集不属予址1 ,则这个项集 可敬被修剪撩雨不再棱考虑,遮巾修剪避程可班降低计算繇有酶候选榘酶支持发 的代价。 2 4 2 改进的频繁项集挖掘算法 n ) 基于敞列的技术:该葬法由p a 啦簪荏1 9 9 5 年提出瓯通过实验发现寻找 频煞项集的主要计算最在生成频繁2 项集妣上,p a r k 就是利用这个性质引入散列 技术来改进产生频繁2 硕集鲍方法。 其基本思想是:当扫描数据库中每个事务,由c 1 中的嫉选1 项集产生频繁l 项集l 1 时,对每个事务产生所有的2 项集,将它们散剐到散猁表结构的不同桶中, 并增加对应的桶计数,在散列袭中对应的桶计数低于支持腱阈值的2 项集不可能 是频繁2 项集,可获候选2 顼集中删除,这样就可丈大压缩7 簧考虑的2 项集。 ( 2 ) 事务臌缩:a g r a w a l 等提出压缩进一步迭代扫描的事务数的方法p j | 8 】。网 为不包含任秘k 一项集的攀务不可包含任何( k + 1 ) 一璜集,胃对这塑事务蕊上 标记或删除,因为扫描数据库时不再考虑他们。 3 ) 杂凑;一个离畿缝产生频繁顼集静基于杂凑静d h p 冀法由鲰呔等提出弹。 通过实验我们可以发现寻找频繁项集主要的计算是在生成频繁项集从上,d h p 算法辘是利蘑了这个赣瘊;| a 杂凑按术俸了秀点静竣逶:通避敖确装术有效的减 少候选项的数鼹,有效的减少了数据库的大小。但是引入散列技术需鼷更多的内 存帮e 馨静开链,对予眷静鼗摄簿,有l l 孛谈挖援效攀反孬下降。 ( 4 ) 划分:可以使用划分技术,它只需要两次数据库扫描,以挖掘频繁项集。 s 8 v 8 s # 澎”等设诗了一个綦于菇分黪算法。第一速毙把数据簿觏逻辑, = 分藏踅个 互不相交的块,每次单独考虑一个分块并对它生成所有的频繁项集,然后把产生 郑州大学硕士学位论文 的频集合并,用来生成所有可能的局部频繁项集,这些局部频繁项集都作为数据 库d 的候选项集。在第二遍扫描数据库,评估每个候选项集的实际支持计数,以 确定全局频繁项集。 它基于这样一个定理来确保算法的正确性: 定理2 1 :如果一个项集是频繁的,那么它至少在一个划分块里面是频繁的。 这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描 一次。上面所讨论的算法是可以高度并行的,可以把每一分块分别分配给某一个 处理器生成局部频繁项集。产生频繁项集的每一个循环结束后,处理器之间进行 通信来产生全局的候选k 项集。通常这里的通信过程是算法执行时间的主要瓶 颈;而另一方面,每个独立的处理器生成频繁项集的时间也是一个瓶颈。其他的 方法还有在多处理器之间共享一个杂凑树来产生频繁项集。更多的关于生成频繁 项集的并行化方法在后面的章节介绍。 ( 5 ) 选样:基本思想是在给定数据的一个子集挖掘。对前一遍扫描得到的信 息,仔细地组合分析,可以得到一个改进的算法,m l l i l a 【5 】等先考虑了这一点, 他们认为采样是发现规则的一个有效途径。随后又由t o i v o n e n 【1 1 】进一步发展了这 个思想提出了s a i n p l i n g 算法,s a m p l i n g 算法先使用从数据库中抽取出来的采样得 到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结 果。算法相当简单并显著地减少了加代价,但是一个很大的缺点就是产生的结 果不精确,即存在所谓的数据扭曲( d a t as k e w ) 。分布在同一页面上的数据时常是 高度相关的,可能不能表示整个数据库中频繁模式的分布。由此而导致的是采样 5 的交易数据所花费的代价可能同扫描一遍数据库相近,甚至算法的失败。 ( 6 ) 动态项集计数:动态项集计数技术将数据库划分为标记开始点的块,不 像a p r i o r j 算法仅在每次完整的数据库扫描之前确定新的候选,在这种变形中,可 以在任何开始点添加新的候选项集。该技术动态地评估以被计数的所有项集的支 持度,如果一个项集的所有子集以被确定为频繁的,则添加它作为新的候选。结 果算法需要的数据库扫描比a p r i o r i 少。b r i n l l 等人给出动态项集技术算法d i c 算法ad i c 算法采用的上面的思想,在找频繁项时引入一个参数m ,每扫描m 个 数据后计算一次是否可以生成候选项集,直至所有的候选项集都已实际计数。 ( 7 ) f p - 树算法:针对a p r j o r j 算法的固有缺陷,j h a n 【1 3 j 等提出了不产生候选 1 2 郑州人学硕。l ? 学位论文 挖掘频繁项鬃豹方法一辩,树频巢簿法。采用分丽治之静策路,在经过第一遍捆 描之艨,把数据库中的所有的频繁模式压缩进一棵频繁模式树( f p t r e e ) ,同时 蒎熬傈留其中静关联倍感,随赢褥将f p - 骶e 分纯或一些条释模式树,然后再对这 些条件模式分别进行挖搠。当原始数据量很大的时候,也可以结合划分的方法, 使褥一个f p t f 可敬藏入主存串。实验表鞠,殍一g w 遗对不嗣长度的规蒯都有 很好的适应性,同时在效率上较之a p r i o f j 算法有巨大的提高。 2 5 多层关联规则挖掘 对于很多的应用来说,由于数据分布的分散性,所以很难在数据最细节的层 次上发现一些强关联规则。当我们日i 入概念层次后,就可以在较高的屡次上进行 挖掘黼i “。虽然较高层次上得出韵规则可熊是更普通的信息,但是对于一个用户 来说怒普通的信息,对予另一个用户却未必如此。所以数据挖掘应该提供这样一 种在多个层次土进行挖掘的功能。多层关联蕊剐的分类:根据规则中涉及到的层 次,多层关联规则可以分为同层关联规则和层问关联规则。 多层关联栽刚的挖粥纂本上可珏沿用“支持度可倍度”酶椴架。不遗,在支 持度设霞的问题t 有一些要考虑的东西。 掏菇关联蕊辅可l ;l 采弼两种支持度策咯:( i ) 统一的最小支持度。对于不同 的层次,都使用同一个晟小支持度。这样对于用户和算法实现来说都比较的容易, 煎是雾端遣是嚣然踌。( 2 ) 递减豹鼗枣支持发。每个餐次都有不丽韵最,j 、支持度, 较低层次的最小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些 过滤熬工作。 艨阍关联麓掰考虑最小支持菠的对髅,应该撮籀较低震次豹最小 支持度来定。 2 6 小结 零章主要介绍了关联蕊月日挖掘的基本概念、种类,详细的介绍了a p r i o r i 算 法的思想以及针对a p r i o h 算法的缺点提出各种改进。这些改进的算法基本包含 了所有关联麓g 挖掘算法的思想,本文的研究工作藏怒在这些算法韵基础上进行 的。 辩斓丈学裂| :学垃沧文 第三章分布式关联规则挖掘算法与改进 3 1 概述 自a g r a w a l f 4 】在1 9 9 3 年首次摄出关联规则挖掘a p r i o r i 算法之后,数据挖掘领 域簿辑究者对a p r i o i r 箨法及冀改进傲了大量静研究。翻弼渊p 算法幂l 糟散鳓衰减 少候选项集的数量,d i c 算法】利用动态项集计数的方法减少了数据库的扫描次 数,健薅其彀为套布式簿涟执 手靛雩需要禳大静遥倍繁宽,簌藤导系算法的不霹舒。 盲目的将单机算法改为分布式算法是不可行的,分稚式关联舰则挖掘算法要适合 数撼懿分毒瞧粒遥露的承载戆力。 3 。1 1 分籀式数据挖掘 随着网络技术和分布式数据库技术的发展和成熟,分布式数据库融经得到越 来越广泛静庭糟,大蝥梳构都将繇来数播的集中式存储和管遴逐渐转变为分布戏 存储和管理,数据存储方式的变化也必然会促进数据挖掘技术及其系统结构的变 住。崮子实际斑甭中数据对安全惶、私寄性、保密往、容错毪、商监凳争阻及法 律约束等多方面因素的考虑,使得在许多情况下首先将所有分散存储的数据集中 在一起送行分耩往往惫不可行静,因诧势布式数据挖掘系统翔碍良充分平i 用分霖 式计算的能力对相关的数据进杼分析与综含。 分毒式数裙挖掘技术是数据稼箍技寒与分毒式诗算技术懿有梳鲢合,主要弼 于分布式环境下的数据模式发现。随着备相关学科的飞速发展,各种湖络尤其是 i n t 8 r n e t 瓣广泛使翅瑟发震莛来匏,在安际瘟用要求数据掩瓣系统其蠢更抒鲍 可扩展性。比如在研究某种疾病在某地的发展情况气候的关系时候嚣把疾病控 隶数攥痒彝强麓数据瘴结合起来获戢有效瓣、薪簸静、潜在蠢用蘸船谈,金融绣 织通过防止信用卡欺诈,它们之间要共享数据,在分布式数据库中发现知识,分 毒式数据挖掘就是在这秘饕录下产生熬。 在大量的数据中发现有意义的相关关系将对市场营销、决策制定、商务管理 有稷大帮韵。邂熬,孰丈量数据中挖藕关联麓l 戢了最近 d 疆究豹煞点。瓣 前,比较有影响力的关联规则挖掘算法有a p r j o r i 算法f 4 j 、a p r i o r j t i d 算法1 7 】、d h p 郑州大学硐i 学位论文 算法吼d i c 算法【2 3 】、s a m p l i n g 抽样算法1 1 1 l 和f p 树算法【驯等。然而这些算法都 集中精力于挖掘单层的关联规则。如今的许多数据库或者数据仓库存储着大量的 数据。在这样的数据中挖掘关联规则需要很强的处理能力,分布式系统是一种解 决方案,并且在实践中也得到了不少的应用。例如:许多连锁超市的大量销售事 务记录存在于几个分布的站点。传统的单机算法不能很好的适用于分布式数据 库,都有算法本身的缺陷,分布式数据挖掘算法解决了这一问题。 3 1 2 知识网格 网格是一种重要的计算平台,它通过高速互联网络连接地理上分布的异构的 各类计算资源、数据资源、存储资源和软件资源等,使之成为一个相互协调的可 以看作是单一的超大型计算环境或虚拟的高性能计算机,协同完成重大研究问 题。 网格在通信、安全、数据访问等技术方面为分布式挖掘提供了有效的工具和 服务。文献n 6 忡提出,由网格提供高层的工具和服务,数据挖掘提供知识发现 的算法和方法论,将数据挖掘和网格工具、服务结合到一起,是知识网格在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论