(计算机软件与理论专业论文)关联规则的主观兴趣度分析及可视化实现.pdf_第1页
(计算机软件与理论专业论文)关联规则的主观兴趣度分析及可视化实现.pdf_第2页
(计算机软件与理论专业论文)关联规则的主观兴趣度分析及可视化实现.pdf_第3页
(计算机软件与理论专业论文)关联规则的主观兴趣度分析及可视化实现.pdf_第4页
(计算机软件与理论专业论文)关联规则的主观兴趣度分析及可视化实现.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 关联规则的兴趣度度量是从数量巨大的关联规则中挑选出有趣规则的主要 度量。现有的挖掘系统通常采用客观兴趣度量,如支持度和置信度,不能真实反 映用户对规则的兴趣大小。本文介绍了四种基于用户知识的主观兴趣度度量,即 规则确定性、条件意外性、结果意外性和二者意外性,并对它们的算法进行了改 进。最后提出了一个交互的模型来帮助用户发现有趣的关联规她。该模型通过用 户的交互参与,了解用户所知道的领域知识,在此基础上分析所挖掘的关联规则, 计算出它们的主观兴趣度,然后通过可视化的方式显示给用户,使用户能快速容 易地找到感兴趣的规则。该模型由三个组件组成:用户知识说明组件、兴趣度分 析组件和可视化组件。用户知识说明组件允许用户详细说明他现有的知识;兴趣 度分析组件根据用户的说明来分析规则,并发现有趣的规则;可视化组件则为用 户提供一个友好的界面,显示分析的结果。 关键词:关联规则、主观兴趣度、用户知识说明语言、交互、可视化 a b s t r a c t i n t e r e s t i n g n e s s m e a s u r e so fa s s o c i a t i o nr u l e sa r e p r i m a r y m e a s u r e st of i n d i n t e r e s t i n gr u l e sf r o ml a r g en u m b e r so fa s s o c i a t i o nr u l e s e x i s t i n gm i n i n gs y s t e m u s u a l l yt a k eo b j e c t i v em e a s u r e s a s i n t e r e s t i n gm e a s u r e ,f o re x a m p l es u p p o r ta n d c o n f i d e n c e t h a tc a n tr e f l e c tu s e r si n t e r e s t i n g n e s st or u l e sr e a l l y t h i st h e s i sf i r s t l y i n t r o d u c ef o u r k i n d so f s u b j e c t i v ei n t e r e s t i n g n e s s m e a s u r e ,i e c o n f m , u n e x p c o n d ,u n e x p c o n s e q ,b s u n e x p ,a n di m p r o v e t h e i ra l g o r i t h m i nt h ee n dt h et h e s i s p r o p o s e sa ni n t e r a c t i v em o d e lt oh e l pu s e rf i n d i n gi n t e r e s t i n ga s s o c i a t i o nr u l e s b y p r o v i d i n gt h eu s e ri n t e r a c t i v ea b i l i t i e s t h em o d e l i s f a m i l i a rw i t ht h eu s e r sd o m i n a n t k n o w l e d g e ,a n dt h u sa n a l y s i sa n dc o m p u t e so u tt h es u b j e c t i v ei n t e r e s t i n g n e s so f t h e a s s o c i a t i o nr u l e s ,a n dt h e np r o v i d e st h eu s e rv i s u a l i z a t i o nf o r l t ls ot h a th ec o u l df i n d i n t e r e s t i n gr u l e se a s i l ya n dq u i c k l y t h em o d e l c o n s i s t so ft h r e ec o m p o n e n t s :u s e r s k n o w l e d g es p e c i f i c a t i o nc o m p o n e n t ,i n t e r e s t i n g n e s sm e a s u r ea n a l y s i sc o m p o n e n t a n d v i s u a l i z a t i o nc o m p o n e n t t h ef i r s ta l l o wu s e rd e f i n eh i se x i s t i n gk n o w l e d g e t h e s e c o n da n a l y s e sa s s o c i a t i o nr u l e sb a s e do nu s e r sk n o w l e d g e t h el a s tp r o v i d eu s e ra f r i e n di n t e r f a e et od i s p l a yt h er e s u l t s k e y w o r d s : a s s o c i a t i o n r u l e ,s u b j e c t i v ei n t e r e s t i n g n e s s ,u s e r sk n o w l e d g e s p e c i f i c a t i o nl a n g u a g e ,i n t e r a c t i o n ,v i s u a l i z a t i o n i i 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立 进行研究所取得的成果。学位论文中几引用他人已经发表或未发表的成果、 数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包 含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究 成果做出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文储签名:堡垒互日期:型:生:主主 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属兰卅i 大学。本人完全了解兰州大学有关保存、使用学位论文的规定, 同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版, 允许论文被查阅和借阅:本人授权兰州大学可以将本学位论文的全部 或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和 汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相 关的学术论文或成果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 :塑靳虢产吼一3 引言 关联规则挖掘是数据挖掘技术的一个成功的应用,并且在数据挖掘的研究与 应用中已经变得越来越重要,特别是在电子贸易的市场篮分析中发挥着越来越重 要的作用。关联规则挖掘是一个无指导或无监督的数据挖掘,其主要优点是并不 需要用户过多地参与,也不需要用户的专业知识,挖掘出来的规则并不是预先确 定的,并且能够发现数据库中存在的所有的关联规则。因此,关联规则能够覆盖 数据库中的有价值的和出乎预料的信息。 但是,这些优点也正是它的缺点所在。在没有用户交互参与的条件下,挖掘 出来的关联规则的数量是巨大的,通常超过数千条,甚至上万条。如果让用户自 己来辨别这些规则,挑出那些有趣的规则几乎是不可能的。如果不能挑出那些有 趣的规则,则这些挖掘出来的规则对用户来说是毫无用处的。因此,对用户来说, 计算机辅助识别是必要的。 确定一条规则的兴趣度并不是一个简单的工作。一条规则对这个用户可能是 有趣的,而对另一个用户可能是无趣的。所以,本质上一条规则是否是有趣的判 定是主观的。它依赖于用户业已存在的领域知识和他当前的兴趣。而对计算机来 说并不能自动识别每个用户的具体情况,所以计算机辅助识别需要用户的交互参 与和用户的领域知识。现有的规则可视化系统通常没有考虑用户的领域知识,只 是以客观兴趣度度量来衡量规则的兴趣度大小,如支持度和置信度。然而这样的 度量并不能反映用户对规则的实际兴趣,有些支持度或置信度小的规则,用户对 它们可能有更大的兴趣。 本文提出了一个交互的模型a r v s ( a s s o c i a t i o nr u l e sv i s u a l i z a t i o ns y s t e m ) 来 帮助用户发现有趣的关联规则。该模型通过用户的交互参与,了解用户所知道的 领域知识,存此基础上分析所挖掘的关联规则,给出它们的主观兴趣度,然后通 过可视化的方式显示给用户。该模型由三个组件组成:用户知识说明组件、兴趣 度分析组件和可视化组件。用户知识说明组件允许用户详细说明他的现有知识, 兴趣度分析组件根据这些输入的知识按照不同的兴趣度标准来发现规则,并且通 过这些分析来为用户表明那些潜在的有兴趣的规则。可视化组件则为用户提供一 个友好的界面,显示分析的结果。 第一章关联规则的兴趣度度量 1 1 主观兴趣度和客观兴趣度 关联规则产生后会出现两个问题:一是产生的关联规则的数量通常是巨大 的,已经超出了人们手工能处理的能力。第二个问题是产生出来的这些关联规则 对用户来说并不全是有兴趣的。用户通常只对其中的某些方面有兴趣,要让用户 自己从这些数量巨大的关联规则中挑选出他所感兴趣的东西是不现实的,也是不 可能的。 为了减少产生的关联规则的数量,可以通过增加一定的限制条件到关联规则 的挖掘过程中。例如,可以提高用户指定的阈值( 如支持度和置信度) ,可以指定 关联规则的挖掘模式等。然而这样做是有一定限度的,如果将阈值设置得太高, 就会丢掉大量的用户可能感兴趣的信息。 对于产生的数量巨大的关联规则,给用户呈现的应该是按照一定的标准排好 序的,以便用户能快速找到他所需要的信息。标准应该满足特定环境下的特定用 户的需要,它能够反映出用户的对关联规则的兴趣度的大小,称这个标准为兴趣 度度量。通常把兴趣度度量分为两类:客观兴趣度度量和主观兴趣度度量。 客观兴趣度度量是数据驱动的,并且是独立于领域知识的,建立在模式的统 计意义而不是用户的领域知识之上。在规则挖掘阶段,它用来减少算法的搜索空 间,例如,支持度用于减少被检查的项集的数量;在知识评估阶段,它用于从大 量的规则中选择高阈值的规则,例如,置信度用柬选择那些仅仅是强规则的规则。 主观兴趣度度量是用户驱动的,并且是依赖于领域知识的。例如,用户可能 根据他自己的领域知识、从他自己的兴趣出发来指明一个规则模板,在这个模板 中哪些属性必须出现,或者哪些属性不能出现。又如,用户可能要求根据他自己 的领域知识来对结果进行预料,并给出一个一般的、抽象的描述,然后系统只搜 索那些出乎用户意料的规则。 本章剩余的部分讨论客观兴趣度度量的性质及其选择,主观兴趣度的有关内 容在第j 章讨论。 1 2 客观兴趣度度量函数及其选择 对于一个数据集d 上的关联模式a = b ,我, f f j 可以给出它的2 x 2 相依表 如表1 1 所示。 表1 12 x 2 a i b 的相依表 b b a z z 。石+ 爿五。氏工+ 工,。 n 则一个兴趣度度量m 是一个函数f ( f l l ,f l o ,f o l ,f o o ,f 1 + ,f o + ,l ,f + o ) ,m 是一个具 体的度量名称。 定义1 1 兴趣度度量向量: 设t ( d ) = t l ,t 2 ,t n ) 代表从数据集d 中导出的模式,p 是一个兴趣度度 量的集合。对于一个兴趣度度量m p ,我们能够计算出向量m ( t ) = m 。,i n :, i i l | 】 ,其中h i 。的值对应着模式t 。t ( d ) 的度量值。可以将m ( t ) 的形式转换成一个 排序向量o i l ( t ) = 0 。,0 :,0 、) ,其中每一个0 ,的值相对于m 。的大小排列顺 序。称仉( t ) 为作用在模式集t ( d ) 上的兴趣度度量向量。 表1 - 2 列出了一些常用的兴趣度度量及其公式: 表卜2 兴趣度度量及其公式 度量名称 公式 5 6 + 一c o e f f i c i e n t g o o d m a n - k r u s h a l s ( x ) o d d sr a t i o ( ( * ) y u l e s q y u l e s y k a p p a ( r ) p ( a ,b ) 一p f 一) p ( b ) 了弱霄面亓i 霄丽亍丽 兰! 竺竺! 竺:墨! :薹! 竺竺! ! ! ! :垦) 二竺竺! 竺! :竺竺! ! 垦1 2 - m l t x ,p ( a s ) 一m a x kp ( 尾) 尸( 一,占) p ( a ,口) 尸( 爿,b ) p ( a ,bj p ( a ,b ) p ( a 功一州a ,b ) p ( a ,b ) 口一1 _ p ( 爿,b ) p ( a b ) + p ( 一,b ) p ( a ,口) d + 1 r=一 户( ,动p ( a b ) 一4 p ( a ,b ) p ( a ,四) 4 a 一1 p ( 一,b ) | p ( :硒) + | d ( ,画) j d ( j ,b ) 4 a + 1 p ( a ,b ) + p ( a ,b ) 一p ( a ) p ( b ) 一p ( a ) p ( b ) 1 一p ( a ) p ( b ) 一p ( a ) p ( b ) 续表12 兴趣度度量及其公式 度量名称 公式 7m u t u a li n f o r m a t i o n ( m )z , z j p ( a , , r j 慨拣 m i n ( 一p ( a ,) l o g p ( a ,) 一,p ( 即l 。g p ( b ,万 8 j - m e a s u r e ( j ) 一俐。猷号警m ( 协e ( 等等) , 州瑚l 唱( 弓等m ( 确o g ( 鼍等) ) 9g i n ii n d e x ( g ) m a x ( p ( a ) p ( b l 爿) 2 + p ( b i 爿) 2 + 尸( j ) 【j d ( 口i 面2 + 尸( 百l j ) 2 卜j d ( b ) 2 一j d ( 百) 2 , 尸( 占) 尸( 一l 口) 2 + j d ( j l 口) 2 】+ p ( 百) p ( 4 l 荟) 2 + _ p ( j i 两2 卜p ( ) 2 一尸( j ) 2 ) 1 0 s u p p o r t ( s )p ( a ,b 1 1 1 c o n f i d e n c e ( c )m a x ( p ( b i a ) ,p ( a i b ) ) 1 2 。a x ( 塑型! 望“竺丝璺“)l a p l a c e ( l ) 、n p f 爿14 - 2n p f 曰1 + 2 1 3 。a x ( ! 型! 丝生,丛旦! 墨尘) c o n v i c t i o n ( v ) 尸r b 1 p ( b a ) 1 4 垫旦 i n t e r e s t ( 1 ) “一) 尸( 占) 1 5 丛! ! 璺 c o s i n e ( i s ) 、陬而 1 6 p i a t e t s k y - s h a p i r o s ( e s )p ( a ,b ) 一p ( a ) p ( b ) 1 7 m a x ( 、( b l p ( 日1 - 日p 。b ) ,l p ( 爿) p ) ( - 。p ) ( 4 ) ) c e r t a i n t yf a c t o r ( f ) 1 8a d d e dv a l u e ( a v ) m a x ( p ( bl a ) 一p ( b ) ,p ( a i b ) 一p ( a ) ) 1 9 p ( a ,口) + p ( a b )、,1 一p ( 一) | p ( 丑) j d ( j ) p ( 百) c o l l e c t i v es t r e n g t h ( s ) j d ( ) p ( b ) + p ( 乃p ( 动一1 一p ( a ,口) p ( a b ) 2 0 p ( a ,口) j a c c a r d ( ) 尸( 爿) + 尸( b ) 一p ( a ,b ) 2 1 k l o s g e n ( k )、彳j 珂m a x ( p ( b 1 4 ) 一p ( 口) ,p ( a i b ) 一p ( ) ) 为了比较这些度量函数,这里给出了1 0 个构造的样例的相依表e 1 一e 1 0 , 每一个样例是一个4 元组( i l l ,r i o ,f o l ,f o o ) ,并且服从如下约束:f i , n l ,f i o n 1 , f o l n 1 ,f 1 1 + f l o + f o l = n ,如表1 3 所示。 7 j i 。 表卜3e 1e l o 相依表 f l lf l of f e 18 1 2 38 :34 2 41 3 7 0 e 28 3 3 026 2 21 0 4 6 e 39 4 8 l 9 41 2 72 9 8 e 43 9 5 43 0 8 052 9 6 l e 52 8 8 61 3 6 3 1 3 2 04 4 3 1 e 61 5 0 0 2 0 0 05 0 06 0 0 0 e 74 0 0 02 0 0 0 1 0 0 03 0 0 0 e 84 0 0 02 0 0 0 2 0 0 02 0 0 0 e 91 7 2 0 7 1 2 151 1 5 4 e l o6 1 2 4 8 347 4 5 2 分别用上面所列举的度量函数对e 1 一e l o 进行计算,计算结果在表i - 4 中显 表i - 4 不同度量函数的度最向最 度量名称度量向量度虽名称度量向量 巾 1 ,2 , 3 ,4 567 ,8 , 9 ,i o l 5 ,1 ,4 ,2 987 ,1 0 ,3 ,6 ; 丸 1 ,2 , 3 ,7 ,4 ,6 ,5 ,9 ,9 ,8 ) v 4 ,1 ,6 ,2 ,9 ,7 ,8 ,1 0 ,3 ,5 d 3 142 879 ,1 0 , 5 ,6 i 6 ,8 ,1 0 ,4 ,3 ,2 ,5 ,9 ,7 ,1 q 3 1 42 879 ,1 0 ,5 ,6 i s 2 ,3 ,1 ,4 ,6 857 ,9 ,1 0 y 3 ,1 ,4 ,2 ,8 ,7 ,9 ,1 0 ,5 ,6 ) p s 2 , 5 ,8 ,1 ,3 ,6 ,4 ,7 ,9 ,1 0 k 1 , 2 ,3 ,5 ,4 ,7 ,6 ,8 ,9 ,l o f 4 ,1 ,6 , 2 ,9 ,7 ,8 ,l o ,3 ,5 m 2 ,1 ,3 ,4 ,7 ,6 ,8 ,1 0 ,9 ,5 ) 斟 6 ,8 ,1 0 ,3 ,4 ,2 ,5 ,9 ,7 ,1 ) j 2 , 3 8 15 461 ,7 ,9 )s 1 ,2 , 3 ,4 ,5 ,7 ,6 ,8 ,9 ,1 0 g 1 , 2 ,7 ,3 ,4 ,6 ,5 ,8 ,9 ,1 0 2 ,3 ,1 ,5 , 6 ,8 ,4 ,7 ,9 ,1 0 ) 3 ,2 ,1 ,6 ,7 ,9 ,4 ,4 ,8 ,1 0 k 5 ,6 ,1 0 ,1 ,3 ,2 ,4 ,9 ,8 ,7 5 ,1 ,4 , 2 ,9 ,8 ,7 ,1 0 , 3 ,6 ) 从表1 - 4 显示的结果可以看出,不同的度量函数对计算结果的影响有很大的 不同。例如,e 1 0 用度量i 计算所得的值最小,而用中计算所得的值最大;而e 3 用a v 计算所得的值最大,用i s 计算所得的值最小。因此,必须根据度量不同 的性质来选择合适的度量函数。 1 3 客观兴趣度度量的陛质 客观兴趣度度量的性质可以通过个矩阵公式来描述。在这个矩阵公式中, 每一个2 x 2 的相依表用一个相依矩阵。来表示,c d = f 1 , f l o ;f o d o o ,d e t ( 叻2f , , f o o f o l f l o 。而一个兴趣度度量m 对c d 的作用其实就是一个矩阵操作d ,o 将矩阵c d 映射到一定范围的某个值k ,即m = o m o = k 。例如,如果两个变量在统计上是 独立的,则度量m 对这两个变量的相依表r d 的作用可以用操作o 映射如下:仇o = 0 。以下提到的度量的性质都是通过在相依表上的操作来进行分析的。图1 一l 表示了在相依表上的操作。 i b 口 l a pq ij 一 a 彳 b p 否 q ( a ) 变量转置操作 l b b a pq j | 占 一 占 a 五 pq ( c ) 行列转置操作 l b b la pq lj r 一 l 暑 号 i 白 pq la rs + k b b a k 3 k i pk 4 k l q jk s k 2 r1 ( 4 k 2 s ( b ) 行列缩放操作 四b ;嚣 ( d ) 倒置操作 ( e ) 空加操作 图1 - 1 相依表的操作 性质1 ( 0 0 变量转置下的对称性:一个度量m 在变量转置操作下( 图1 一l ( a ) , a h b ) ,如果对所有的相依矩阵c d 有0 m 细) = o m d ) ,则称该度量是对称的。 否则,称为非对称的。 在上面提到的度量中,非对称的有c o n f i d e n c e 、l a p l a c e 、j - m e a s u r e 、c o n v i c t i o n 、 a d d e d v a l u e 、g i n ii n d e x 、m u t u a li n f o r m a t i o n 、k l o s g e n 。对称性的有m c o e f f i c i e n t 、 c o s i n e 、i n t e r e s t 、a d d sr a t i o 。非对称性的度量可以用来区分规则a 寸b 和b 斗a 之间的强度,因为用非对称性度量时,a 斗b 和b a 的兴趣度是不同的,我们 选择较大的值作为最后的结果。而对称性度量只能产生一个值。 性质2 ( 0 2 ) 行列缩放下的不变性:设方阵r = c = k l0 ;0k 2 ,k l 和k 2 为 j 下数,则r l v l 表示把矩阵的第一行和第二行分别放大k l 和k 2 倍,而m c 表示把 矩阵的第一列和第二列分别放大k 1 和k 2 倍( 图1 1 ( b ) ) 。一个度量m 在行列缩放 下是不变的,如果对所有的相依矩阵d 有o m ( r 劝= 0 m ( 叻和o m 泅c ) = 0 m f 。 6 在卜面提到的度量中,o d d sr a t i o ( a ) ,y u l e sq ,yc o e f f i c i e n t s 具有这个性质。 这个性质对那些包含名词性属性的数据集是有用的,如表1 5 所示的例子 表1 5 行列缩放例r m a l ef e m a l e 【h i g h 23 l l o w14 i m a l ef e m a l e i h i g h 2 03 0 l l o w1 04 0 ( a )( b ) 在表1 5 中,表示了性别( m ,f ) 和级别( h ,l ) 之间的相依表。尽管( a ) 和( b ) 两个 相依表不同,但是我们认为这两个相依表的相关性是样的。 性质3 ( 0 3 ) 行列转置下的对称性:设s = 【01 ;1o 为一个方阵。一个度量m 在行列转置下是对称的,如果对所有的相依矩阵。有如下性质:在行转嚣操作 f 有o h ( s 妫= o m ( 卿,在列转置操作下有o m ( m s ) = o m ( h q ( 图1 - l ( c ) ) 。 在这个操作下, m u t u a l i n f o r m a t i o n ,g i n i i n d e x 是对称的, m c o e f f i c i e n t ,p s ,q ,y ,s u p p o r t ,c o n f i d e n c e ,i s ,i n t e r e s t 是非对称的。在行列转置操作下 具有对称性的度量并不区分一个相依表的相关性是正的还是负的。因此用它们作 为一个关联模式的兴趣度度量时应该特别注意。 性质4 ( 0 4 ) 倒置下的不变性:设s = 01 ;1o 】为一个方阵,一个度量在倒置 操作下是不变的,如果对所有的相依矩阵d 有o m ( s d s ) = o m ( d ) ( 图1 - 1 ( d ) ) 。 倒置可以看作是行列转置的一个特殊情况,即行和列同时进行转置。这个 性质对包含二元变量( o ,1 ) 的数据集是有用的,我们可以把倒置操作看作是0 和1 之间的相互翻转。利用这个性质可以区分在倒置操作下的对称与非对称度量。对 称性的度量包括,o d d sr a t i o ,k ,c o l l e c t i v es t r e n g t h ,而非对称度量包括 i i s p s ,j a c c a r d 。图1 2 的例子说明了这个性质的重要性。 图1 2 中,每一个列向量代表一个特定项集的事务向量,e c ,f = b 。( a ) 的相依表矩阵为 o2 ;17 】,( b ) 的相依表矩阵为 71 ;2o 】,( c ) 的相依表矩阵为 o2 ;1 7 1 ,所以( a ) 和( b ) 是一个倒置关系。直观上可以看出,a 和b 几乎没什么关联。 而c 和d 是a 和b 的个翻转,尽管c 和d 同时出现的频率很高,但它和前 面一个向量对的m 系数系数却是一样的。实际e ,它的巾系数比第三个向量对的+ 系数还要小。这个例子说明了在那些要求对二元变量不同等对待的应用中,那些 在倒置操作下具有对称性的度量的缺点,比如在市场篮的分析中。 ( a )( b )( c ) 图1 - 2 三个向量对之间的系数比较,( a ) ( b ) ( c ) 的+ 系数 分别是0 1 6 6 7 ,01 6 6 7 ,0 1 6 6 7 性质5 ( 0 5 ) 空加下的不变性:对于一个二元变量的相依表,一个度量在空 加操作下是不变的,如果o m ( o + c ) = o m ( 。) ,其中c = 【00 ;0k ,k 是一个正常 数( 图1 - 1 ( e ) ) 。 对于二元变量,这个操作相当于增加更多的不包含当前考虑的两个变量的记 录。具有这个性质的一些度量包括c o s i n e ,j a c c a r d , 和 v 1 ,v g ) 相匹配的项的数量,l s m i j 和r v m i j 分别表示 s l ,s m ) 和 v l ,v g ) 中被 规则a i 的条件和结果相匹配的元素数量。 l i j 和粕的算法如下: 妒m i n c 等,等,: r m ,r v m , r u 2 曲( i r n ,面尹) ; 、 护, 3 c o n f r o u n e x p c o n s e q 口、u n e x p c o n d #b s u n e x p o 的计算 c o 咖f = 白4 勘 “”唧嘞2 铲0 吩i ,o 喝- r u - 锁”,其置信度和支持度分别为8 0 和5 。 在表2 1 中,用户必须用c o n d i m 和r u l e m 来标明条件部分和整个规则的项 数。这对用户来说很难理解规则。为了避免这个问题,规则表形式可以表示成如 下的形式: l 条件 j 推导符号 l 结果 l 置信度 1 支持度 l 在这个形式中,条件部分和结果部分分开成两部分,中间用推导符号“= ” 来连接。这样的形式与关联规则的表示形式相似,所以对用户来说更容易明白。 表2 1 中的所有规则用这种形式的表示如表2 2 。 表2 2 关联规则的规则表形式 面包牛奶 9 0 1 0 鸡蛋面包,牛奶 8 5 7 下,车筛锁8 0 5 市,车毓锁,头盎 6 0 3 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论