第十一章 序列模式挖掘_第1页
第十一章 序列模式挖掘_第2页
第十一章 序列模式挖掘_第3页
第十一章 序列模式挖掘_第4页
第十一章 序列模式挖掘_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章序列模式挖掘序列挖掘或称序列模式挖掘,是指从序列数据库中发现蕴涵的序列模式。时间序列分析和序列模式挖掘有许多相似之处,在应用范畴、技术方法等方面也有很大的重合度。但是,序列挖掘一般是指相对时间或者其他顺序出现的序列的高频率子序列的发现,典型的应用还是限于离散型的序列。序列模式挖掘最早是由Agrawal等人提出的,它的最初动机是针对带有交易时间属性的交易数据库中发现频繁项目序列以发现某一时间段内客户的购买活动规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方面,其应用范围也不局限于交易数据库,在DNA分析等尖端科学研究领域、Web访问等新型应用数据源等众多方面得到针对性研究。一、序列模式的概念及定义举例说明,比如有顾客租借录像带,典型的顺序是先租“星球大战”,然后是“帝国反击战”,再是“杰达武士归来”(这三部影片是以故事发生的时间先后而情节连续的)。值得注意的是租借这三部电影的行为并不一定需要是连续的。在任意两部之间随便插租了什么电影,仍然还是满足了这个序列模式,并且扩展一下,序列模式的元素也可以不只是一个元素(如一部电影),它也可以是一个项集(itemset)。项集,指的是多个物品组成的集合,内部元素不分排列顺序,比如“枕头和枕头套”就可以看作是由两个项(item)组成的项集,它也可以作为某一个序列模式的元素。相关概念及定义

以商品交易为例子,数据源是一个给定的由客户交易组成的大型数据库,每个交易由客户号(customer-id),交易时间以及在交易中购买的项组成。项集(itemset):由项(item)组成的一个非空集合。序列(sequence):是一列排好序的项集。不失一般性假定项集中的项由一些连续整数代替,这样一个项集i可以表示为(i1,i2…im),而这里的ij代表了一个项。一个序列s可以表示为<s1,s2…sn>,这里的sj代表的是一个项集。序列挖掘—基本概念定义11-1一个序列(Sequence)是项集的有序表,记为α=α1→α2→⋯→αn,其中每个αi是一个项集(Itemset)。一个序列的长度(Length)是它所包含的项集。具有k长度的序列称为k-序列。定义11-2设序列α=α1→α2→⋯→αn,序列β=β1→β2→⋯→βm

。若存在整数i1<i2<⋯<in,使得,则称序列α是序列β的子序列,或序列β包含序列α。在一组序列中,如果某序列α不包含其他任何序列中,则称α是该组中最长序列(Maximalsequence)。最大序列

两个序列A=<a1,a2…an>和B=<b1,b2…bm>,如果存在整数i1<i2<…<in且a1包含于bi1,a2包含于bi2,…,an包含于bin,则称序列a包含于序列b。在一个序列集中如果序列s不包含于任何其它序列中,则称序列s为最大的。比如序列<(3)(4,5)(8)>包含于序列<(7)(3,8)(9)(4,5,6)(8)>,因为(3)包含于(3,8),(4,5)包含于(4,5,6)以及(8)包含于(8)。但是序列<(3)(5)>不包含于<(3,5)>,反之亦然。前者表示项3和项5是先后购买的,而后者则表示项3和项5是同时购买的,这就是区别所在。序列挖掘—基本概念定义11-3给定序列S,序列数据库DT,序列S的支持度(Support)是指S在DT中相对于整个数据库元组而言所包含S的元组出现的百分比。支持度大于最小支持度(min-sup)的k-序列,称为DT上的频繁k-序列。相关概念及定义客户序列一个数据库中的交易记录可以表示成上表一个客户所有的事务可以综合的看成是一个序列,每一个事务都由相应的一个项集来表示。事务按交易时间序排列成一个序列。称这样的序列为客户序列。通常,将一个客户的交易按交易时间排序成T1,T2,……,Tn。Ti中的项集定义成itemset(Ti)。这样,这个客户的客户序列成了这样的一个序列:〈itemset(T1)itemset(T2)…itemset(Tn)〉。客户号物品(Item)时间1309002.10.2502.10.30210,203040,60,7002.10.1002.10.1502.10.20330,50,7002.10.2559002.10.1243040,709002.10.1102.10.2502.10.30交易号客户购物序列1(30),(90)2(10,20),(30),(40,60,70)3(30,50,70)4(30)(40,70)(90)5(90)序列挖掘—数据源的形式(续)表6-2顾客序列表示例操作系统及其系统进程调用是评价系统安全性的一个重要方面。通过对正常调用序列的学习可以预测随后发生的系统调用序列、发现异常的调用。因此序列挖掘是从系统调用等操作系统审计数据中发现有用模式的一个理想的技术。表给出了一个系统调用数据表示意,它是利用数据挖掘技术进行操作系统安全性审计的常用数据源。表系统进程调用数据示例进程号(Pro_id)调用时间(Call_time)调用号(Call_id)74474410699106974410699-104:01:10:3004:01:10:3104:01:10:3204:01:10:3404:01:10:3504:01:10:3804:01:10:3904:01:10:4023144245816216表系统调用序列数据表示例进程号(Pro_id)调用序列(Call_sequence)74410699<(23,14,81)><(14,24,16)><(4,5,62)>相关概念及定义序列模式如果一个序列s包含于一个客户序列中,则称该客户支持序列s。一个序列的支持度定义为支持该序列的客户总数。给定一个由客户交易组成的数据库D,挖掘序列模式的问题是:在那些具有客户指定最小支持度的序列中找出最大序列。而这样的最大序列就代表了一个序列模式。示例对于赚最小搁支持钳数为伙2的外情况茂,有近两个芦序列长:<本(3悉0)魔(慎90朴)牙>虏和<餐(3羞0)扇(敏40澡,7观0)骆>在那窝些满容足支绒持度喂约束倘的序乒列中梅是最帆大的感,也健是我住们所支需的序列念模式。交易号客户购物序列1(30),(90)2(10,20),(30),(40,60,70)3(30,50,70)4(30)(40,70)(90)5(90)序列己挖掘过算法步骤1)跟排勉序阶极段。级数据饼库D挎以客牺户号怨为主感键,帅交易弃时间司为次辨键进现行排其序。讯这个删阶段邀将原沟来的挽事务倚数据蚁库转炮换成秆由客育户序漏列组肤成的秘数据掩库。2)株频地繁项待集阶渔段。毛找出即所有讲频繁晚项集拉组成屈的集访合L央。也沃同步用得到抓所有壁频繁杜1-涌序列魄组成押的集降合。3)胖转讯换阶穷段。恐在找哀序列茎模式悟的过吵程中钻,要寻不断吸地进湿行检蓄测一派个给触定的沿频繁冲集是普否包旬含于摆一个叛客户涉序列纠中。4)荣序疮列阶晌段利烂用已梢知的盏频繁嫩集的蹄集合嚷来找丢到所虚需的木序列凉。类兄似于咸关联肿的A去pr乱io贷ri师算法纺。算法蚊示例1)删在抚给出颂的数盾据库欺中,杨找出确所有谷频繁亭1-迈序列孩组成挑的集古合:吊和2)勒给捉一个点可行期的映演射。交易号客户购物序列1(30),(90)2(10,20),(30),(40,60,70)3(30,50,70)4(30)(40,70)(90)5(90)频繁项集映射成(30)1(40)2(70)3(40,70)4(90)5好处参:将睁频繁践集按姜一个疼实体历的形护式进叨行处夜理,器可以燃带来炕比较针和处溉理上诞的方弃便和孟高效育,提高供了兔一个娱统一墙的格睬式。(3迹0)(4等0)(7遇0)(9稠0)(4侄0,患70梨)算法羽示例3)瓶转换总。为荣了使伙这个迅过程柄尽量喝的快径,用抚另一他种形晶式来选替换劣每一辩个客炊户序创列。在转浮换完昌成的忍客户浅序列荒中,喜每条贩交易料被其友所包盟含的厅所有令频繁练项集助所取轻代。如果辉一条雨交易漫不包访含任觉何频裁繁集黑,在循转换秤完成掏的序椅列中尾它将孕不被寻保留影。如果疤一个用客户视序列难不包早含任随何的日频繁昨项集雹,在办转换捕好的赛数据佛库中有这个小序列寺也将纸不复铺存在湿。一个跑客户王序列膊被一迷列由啊频繁括集组览成的士集合蛇所取知代,夜每个碰频繁主集的谨集合婚表示泥为{l1,l2,…珍,ln},li表示遇一个卫频繁搞集。交易号客户购物序列1(30),(90)2(10,20),(30),(40,60,70)3(30,50,70)4(30)(40,70)(90)5(90)频繁项集映射成(30)1(40)2(70)3(40,70)4(90)5交易号客户购物序列1(30),(90)2(10,20),(30),(40,60,70)3(30,50,70)4(30)(40,70)(90)5(90)频繁世项集映射深成{(柿30洲)}暮{(串90身)}{1唇},袜{5爹}{(巷30舟)}晃{(哨40寻)(磁70屯)(圈40往,7猜0)源}{1良},挤{2锦,3止,4结}{(在30香)(遵70趣)}{1吨,3洲}{(劣30穗)}县{(挡40纪)(商70拦)(侮40球,7宝0)找}{顽(9慰0)教}{1烟}{溉2,骑3,判4}晋{5蚕}{(玩90疏)}{5批}算法发示例算法糠示例例:是考察捏右图千所示秧的一哨个客科户序巡寿列组单成的警数据袖库,社假定洪客户运序列认已经妻以转您换的将形式惕出现屯了,吧每一兰条交哀易都暖被包彼含其救中的途频繁纤项集盖取代臂,频冰繁项脚集则四由整旨数代深替。孤最小级支持涉数据珠定义扰为2筑。<{竖1胆5}木{2烛}{丽3}养{4缘瑞}><{熊1}笛{3汁}{家4}腔{3挡5献}><{恶1}探{2堆}{卫3}接{4鲜}><{青1}落{3拘}{叠5}潮><{再4}隶{5绣}>算法妥示例1_项集支持度1422344454<2,4>22_项集支持度<1,2>2<1,3>4<1,4>3<1,5>3<2,3>2<3,4>3<3,5>2<4,5>23_项集支持度<1,2,3>2<1,2,4>2<1,3,4>3<1,3,5>2<2,3,4>24_项集支持度<1,2,3,4>4<{茄1饮5}敌{2愈}{稠3}粒{4筛}><{我1}扒{3朝}{坦4}柿{3慨5苍}><{家1}自{2纠}{柳3}纪{4甘}><{术1}纽奉{3胖}{唇5}隆><{塑4}终{5客}>下次础遍历编不好铁会产碎生候拼选,前最大旺序列羽是以闸下三粥个:携<1庸2据3缴4岔>,尸<1描3屋5浑>和涝<4霜5迷>。附:驶一、叛典型巧的工拢具有:SA永S立E耍nt穗er仇pr水is握e嚼Mi签ne芒r:提供亮的数绒据挖格掘包烫括回溉归、然分类遗和统辨计分仙析包禾。它稼的特糟色是默具有步多种压统计奸分析牲工具坊。SG交I的叙Mi宁ne此Se莫t:提供陈的挖脑掘算戒法有盛关联犁和分海类以亿及高则级统旬计和范可视躬化工奸具。财特色轻是具巷有强权大的赞图形挑工具桂,包约括规凉则可捧视化论工具买、树餐可视绢化工捞具、查地图革可视执化工走具和持多维笑数据星分散罪可视揪化工细具,更它们桐用于闻实现肌数据昆和数馒据挖锋掘结踢果的汉可视较化。IS刻L的鸣Cl已em盟en孔ti婚ne搞:为终辰端用责户和舱开发定者提恋供了感一个菌集成冒的数肯据挖坐掘开妥发环栽境。俱系统躺集成裂了多荷种数禁据挖伏掘算乳法,条如规袖则归烟纳、原神经星网络呈、分席类和才可视虫化工蚕具。伤Cl拒em剃en但ti赏ne薯现已皆被S搁PS熊S公斧司收个购。附:肺一、渐典型息的工堤具IB剧M起In爷te芹ll挑ig堡en佳t淋Mi隐ne联r:提供腔了很犹多数释据挖鲜掘算袖法,血包括瞎关联托、分由类、他回归己、预己测模箱型、慢偏离稳检测钉、序不列模徒式分乖析和宵聚类治。DB提Mi蒙ne降r:提供罚多种涝数据程挖掘陷方法裹,包章括发拘现驱所动的野OL走AP洪分析密、关柱联、班分类厕和聚贞集。祥特色伴是它低的基烦于数欢据立野方体驱的联狮机分品析挖烫掘,准它包桂含多借种有炸效的利频繁岭模式斑挖掘立功能帜和集晴成的昏可视面化分次类方熔法。MS桥O草LE生D肚B:引入街数据团挖掘长模型因(D拒at因a新Mi慰ni诊ng撑M互od循el校,卸DM编M)端,并霸定义霸了类饮似S孟QL伍的D倘MM冬操作读语句瘦,微充软的贴目标袭成为录一个帮工业拼标准她。提秃供的申决策辈算法淋有决厦策树互方法婆,聚淘类,谊可以杠接受沉第三盾方的计挖掘挪算法坦。二、料In降te叶rn雪et含资源1、蜂Kn让ow波le麻dg岁e洽Di指sc疗ov邮er慎y顾Nu胀gg钳et凤s半月盟刊,裹如要说免费辰订阅菌,只膜需向ht肤tp葡:/朋/发送辣一份打邮件猫还可径以下途载各纽奉种各镇样的傍数据寄挖掘肢工具条和典邀型的驶样本亭数据序。2、辨其它孤网址ht四tp吴:/艘/i搅nf蹲o.圾gt待e.挤co侦m/到~k链ddht拼tp搞:/奏/w辆ww吐.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论