(计算机科学与技术专业论文)基于数据挖掘技术的犯罪因素关联性分析.pdf_第1页
(计算机科学与技术专业论文)基于数据挖掘技术的犯罪因素关联性分析.pdf_第2页
(计算机科学与技术专业论文)基于数据挖掘技术的犯罪因素关联性分析.pdf_第3页
(计算机科学与技术专业论文)基于数据挖掘技术的犯罪因素关联性分析.pdf_第4页
(计算机科学与技术专业论文)基于数据挖掘技术的犯罪因素关联性分析.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j,上, 叶1气o, i 1 c r i m ef a c t o ra s s o c i a t i v i t ya n a l y s i sb a s e do nd a t am i n i n g t e c h n o l o g y at h e s i ss u b m i t t e dt o d a l i a nm a r i t i m eu n i v e r s i t y i np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o r t h ed e g r e eo f m a s t e ro fe n g i n e e r i n g b y l i ub o ( c o m p u t e rs c i e n c ea n dt e c h n o l o g y ) t h e s i ss u p e r v i s o r :p r o f e s s o rl um i n g y u j u n e2 0 1 1 mit 1 l 0 j 娜, 一 1 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文竺基于数据挖掘技术的犯罪因素关联性分析二。除论文中 已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开 发表或未公开发表的成果。本声明的法律责任由本人承担。 学位论文作者签名: 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学 位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士 学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全 文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式出版发 行和提供信息服务。保密的论文在解密后遵守此规定。 本学位论文属于:保密口在年解密后适用本授权书。 不保密口( 请在以上方框内打“) 论文作者签名:乱1 i :分导师签名:名叼刁硐 论文作者签名:7 断导师签名:彳叼刁碉 u 日期:年月日 一 j : j 一 j 0 , 中文摘要 摘要 刑事犯罪既与罪犯的个人外部因素( 例如家庭背景、成长经历、受教育情况 等) 有关,也与其生理状况等内在因素相关。本文尝试将数据挖掘技术应用于犯 罪因素分析,力图从中获得一些犯罪规律,为预防和治理犯罪提供有价值的信息, 具有重要研究价值和现实意义。 论文针对6 0 0 例刑事罪犯的个人背景信息、基因数据和心理调查问卷信息, 与重庆市公安局和我校环境系统生物学研究所合作,采用犯罪心理学、犯罪行为 学及数据挖掘技术相结合的方法,重点开展犯罪因素之间的关联性分析。论文描 述了遗漏数据、噪声数据、不一致数据和连续属性数据的预处理方法,开展了属 性约简和规则挖掘研究研究;针对约简后的属性,将a p r i o r i 算法与粗糙集方法 相结合,提出了a p r i o r i r s 算法,并与常规算法进行了实验对比。a p r i o r i r s 算法 利用项集分类预处理的方法对事务数据库中所有的项集进行预处理,从而减少了 大量候选集产生的可能性。在筛选项集的过程中,利用粗糙集理论中的知识约简 方法对项集进行化简,避免了多次重复扫描数据库。 论文详细说明了从数据的预处理到如何实现对数据集进行特征约简和进行关 联规则挖掘和分析的过程,对所挖掘的关联规则结果进行了分析和筛选,并讨论 了所获得的规则在重庆地区的具体价值。论文研究工作对于公安机关案件处理有 一定的借鉴价值,同时对于预防刑事犯罪和开展相关的法制宣传教育等工作具有 积极作用。 关键词:数据挖掘;粗糙集;a p ri o ri 算法;犯罪因素分析 一 ? i 卜 一 l i ,- 英文摘要 a b s t r a c t c r i m i n a lc r i m ei sr e l e v a n tt oc r i m i n a lp e r s o n a le x t e r n a lf a c t o r s ( s u c ha sf a m i l y b a c k g r o u n d ,g r o w t he x p e r i e n c e ,e d u c a t i o n ,e t e ) ,w i t ht h ep h y s i c a lc o n d i t i o na n do t h e r i n t e r n a lf a c t o r sr e l a t e d t h i sp a p e rt r i e st oi n t r o d u c et h ed a t am i n i n gt e c h n o l o g yu s e di n c r i m ef a c t o ra n a l y s i st og e ts o m ec r i m e ,l a w ,f o rt h ep r e v e n t i o na n dc o n t r o lo fc r i m et o p r o v i d ev a l u a b l ei n f o r m a t i o n , w h i c hh a st h ei m p o r t a n tr e s e a r c hv a l u ea n dp r a c t i c a l s i g n i f i c a n c e t h ep a p e ra i ma t6 0 0c a s e so fc r i m i n a lc r i m i n a l sp e r s o n a lb a c k g r o u n di n f o r m a t i o n , t h e g e n e t i cd a t a a n dp s y c h o l o g i c a l q u e s t i o n n a i r ei n f o r m a t i o n , c o o p e r a t i n gw i t h c h o n g q i n gp u b l i cs e c u r i t yb u r e a ua n do u rs c h o o le n v i r o n m e n ts y s t e mb i o l o g yr e s e a r c h i n s t i t u t e ,t h ec r i m ep s y c h o l o g y , c o o p e r a t i o nc r i m i n a lb e h a v i o ro fd a t am i n i n g t e c h n o l o g ya n dt h em e t h o do fc o m b i n i n gt h ek e yf a c t o r si nt h ea n a l y s i so ft h e r e l a t i o n s h i pb e t w e e nc r i m e p a p e rd e s c r i b e so m i s s i o n s ,n o i s ed a t a , n o td a t ac o n s i s t e n t d a t aa n dc o n t i n u o u sa t t r i b u t ed a t ap r e p r o c e s s i n gm e t h o d ,a n dc a r d e do u tt h ea t t r i b u t e r e d u c t i o na n dr u l em i n i n gr e s e a r c hr e s e a r c h ;a c c o r d i n gt ot h ea t t r i b u t er e d u c t i o n ,w i l l a p r i o r ia l g o r i t h ma n dt h er o u g hs e tm e t h o di sp r o p o s e d ,w h i c hc o m b i n e sa p r i o r i r s a l g o r i t h m ,a n dw i t hc o n v e n t i o n a la l g o r i t h m sf o rt h ec o n t r a s t a p r i o r i r sa l g o r i t h mu s i n g i t e m s e t sp r e t r e a t m e n to fc l a s s i f i c a t i o no fd a t a b a s eo ft r a n s a c t i o n sa l lt h ei t e m ss e t ,a n d r e d u c e dt h ep r e t r e a t m e n to fc a n d i d a t es e tap o s s i b i l i t y i nt h ep r o c e s so fs c r e e n i n g i t e m s e t s ,u s i n gr o u g hs e tt h e o r yo fk n o w l e d g er e d u c t i o na p p r o a c h e st oa s e to fr e d u c t i o n , t oa v o i dt h ed u o c ir e p e a ts c a n n i n gd a t a b a s e t h ep a p e rd e t a i l e di n s t r u c t i o n sf r o mt h ed a t ap r e p r o c e s s i n gt oh o wt om a k et h e d a t ac o l l e c t i o nf e a t u r e sa b o u tj a n ea n da s s o c i a t i o nr u l e sm i n i n ga n dt h ep r o c e s so f a n a l y s i s ,t h em i n i n ga s s o c i a t i o nr u l e sr e s u l t sa r ea n a l y z e da n ds c r e e n i n g ,a n dd i s c u s s e d t h er u l e sa c q u i r e di nc h o n g q i n ga r e ao ft h es p e c i f i cv a l u e r e s e a r c hw o r kt ot h ep u b l i c s e c u r i t yo r g a nc a s ep r o c e s s i n gh a ss o m er e f e r e n c ev a l u e ,a n dt op r e v e n tc r i m i n a lc r i m e a n dt oc a r r yo u tt h e i rl e g a ls y s t e me d u c a t i o na n dp r o p a g a n d aw o r kh a st h ep o s i t i v er o l e k e yw o r d s :d a t am i n i n g ;r o u g hs e t ;a p r i o r ia l g o r i t h m ;c r i m ef a c t o ra n a l y s i s l 卜 , l 目录 目录 第1 章绪论一1 1 1 研究背景1 1 2 研究现状2 1 3 研究目标和内容3 1 4 论文结构3 第2 章数据挖掘技术5 2 1 数据挖掘5 2 1 1 数据挖掘的过程6 2 1 2 数据挖掘结果评估7 2 1 3 数据挖掘技术分类。7 2 1 4 数据挖掘应用领域8 2 2 关联规则理论。9 2 2 1 关联规则的基本概念。9 2 2 2 关联规则挖掘的过程1 2 2 2 3 关联规则的分类1 2 2 2 4 经典的a p r i o r i 算法14 3 1 粗糙集概述1 7 3 1 1 粗糙集的基本思想1 7 3 1 2 近似空间与不可分辨关系1 8 3 1 3 上、下近似集1 9 3 1 4 属性约简与核集求取2 l 第3 章对a p r i o r i 算法的改进2 2 3 1 改进a p r i o r i 算法综述2 2 3 2a p r i o r i r s 算法的主要步骤2 2 3 2 1 项集分类预处理2 4 3 2 2a p r i o r i r s 算法中的项集约简2 6 3 2 3 频繁项集合取31 3 3 步骤总结3 7 3 4 实验结果与分析3 8 3 4 1 算法性能比较3 8 3 4 2 实验一3 9 3 4 3 实验二3 9 目录 3 4 4 实验三4 0 3 4 5 实验结果比较与分析4 0 第4 章属性约简与规则发现4 2 4 1 知识约简4 2 4 1 1 知识的独立性4 2 4 1 2 知识的约简4 2 4 1 3 知识的核4 2 4 2 基于遗传算法的特征约简4 3 4 2 1 遗传算法的概述4 3 4 2 2 遗传算法的基本框架4 3 4 2 3 通常的属性约简方法4 4 4 2 4 基于遗传算法的粗糙集属性约简算法4 4 4 2 5 基于区分矩阵的遗传约简算法4 4 第5 章实验过程与规则分析4 6 5 1 实验背景4 6 5 2 数据预处理4 6 5 2 1 处理遗漏数据4 6 5 2 2 处理噪声数据4 6 5 2 3 处理不一致数据4 7 5 2 4 处理数据离散化4 7 5 3 属性约简4 7 5 4 约简后数据统计4 8 5 5 基于粗糙集的关联规则生成5 1 5 5 1 规则生成5 1 5 5 2 规则解读5 3 5 6 改进的a p f i o f i 算法的关联规则生成5 3 5 6 1 规则生成5 3 5 6 2 规则解读5 4 第6 章总结与展望5 7 6 1 论文总结5 7 6 2 展望5 8 参考文献5 9 致 谢6 3 基丁二数据挖掘技术的犯罪因素关联性分析 第1 章绪论 随着人类社会的发展,犯罪率急剧上升,使人们不能安定的生活,社会的和 谐受到威胁,所以犯罪的因素和其中的联系成了大家争相研究的对象。随着生物 信息学的产生和蓬勃发展。大量和犯罪因素有关的基因被挖掘出来,对于侦破犯 罪的密码,开启了里程碑的意义。另一个新颖的学科,源于希腊的心理学,被普 遍应用到了各个领域和学科,揭示了暗含的心理动机和其他因素的联系,例如艾 森克人格表的使用,可以让人们简单的得到人格分析。是否可以跨学科把这些有 关联的宝贵的数据分析和总结,从而得到破解暴力犯罪的密码? 数据挖掘是一个 崭新的计算机学科,随着他的日益成熟和完善,使得上面的设想得以实现。 1 1 研究背景 近年来随着数据信息的不断膨胀,数据挖掘技术也在各个领域内广泛应用, 而当前的公安系统拥有大部分的数据,却只能实现数据的录入、修改、检索、统 计,与此同时,暴力犯罪案件层出不穷,使人们不能安定的生活,社会的和谐受 到威胁,现在需要的是如何从深层次的隐含关系和规则,找到有效的分析和预测。 对分析的缺乏,使得公安系统面临决策少的现状,这就需要数据挖掘这种新的技 术手段解决这个问题。暴力犯罪对受害者个体造成身体伤害和心理创伤,给社会 造成严重的危害,也是未来打击刑事犯罪的重点【1 翻。因此,寻找有效的防范措施 和暴力犯罪原因的研究一直是该领域研究的重点。对暴力行为从社会学的角度进 行了大规模的研究:如犯罪心理学认为,犯罪心理结构就是个体在犯罪行为实施 前早已潜在的、在犯罪行为实施时起推动作用的各种消极心理因素的有机而相对 稳定的结合。其行为人个性心理结构的部分畸形发展所致的社会心理缺陷 3 】。一种 典型的犯罪心理结构,只存在于那些劣性难驯、屡教不改的惯犯、累犯身上,而 其中的部分因素则不同程度地存在于其他刑事犯及犯罪程度不深的一般违法者身 上。从纵向来看,犯罪心理结构包括:无意识层次,它受制于意识因素,具有冲 动性,常体现人的自然属性。如犯罪恶习、无意识犯罪动机、无意识体验等;意 识层次,具有能动支配作用,体现人的社会属性。从横向来看,它包括:犯罪心 理的动力结构:反社会意识、畸变的需要、犯罪动机等。犯罪心理的调节结构、 第1 章绪论 歪曲的自我意识、亚文化的道德意识、错误的法律意识等。犯罪心理的特征结构、 特定的气质类型、消极的性格特征、与犯罪活动相适应的智能等。犯罪人的心理 状态,如冒险心理、侥幸心理、好奇心理、嫉妒心理等。犯罪心理结构一旦形成, 就相对稳定,危害甚大【4 5 】。 本课题是与重庆市公安局和大连海事大学环境系统生物学研究所合作。本课 题以与情感冲动相关联的两个重要基因m a o a 及d r d 4 基因v n t r 的多态性为指 标【6 1 ,进行遗传因素与暴力犯罪的关联性分析;同时分析环境因素和心理因素与暴 力犯罪的关联性,以期为犯罪学研究提供现代遗传学基础,为预防和治理暴力犯 罪提供支撑。主要研究内容: 暴力犯罪人员进行背景调查:采用拟定的参试人员基本信息调查表,从罪犯的 自然情况、犯罪情况、健康情况、家庭情况等四方面入手,掌握暴力犯罪人员的 基本背景资料;对暴力犯罪人员进行心理问卷调查:采用能够检测中国人群 d s m i v 中各种人格障碍的问卷,以获得暴力犯罪人员的人格现状;对暴力犯罪行 为与生活环境、心理特征的关联性进行分析:对暴力犯罪人员样本和对照样本 m a o a v n t r 及d r d 4 v n t r 多态性进行检测;对暴力犯罪行为与m a o a v n t r 及d r d 4 v n t r 多态性及生活环境等背景的关联性进行分析。 1 2 研究现状 数据挖掘涉及的学科领域相当多,主要利用人工智能中一些已经成熟的算法 和技术,大致可分为:机器学习、统计、人工神经网络和数据库方法等。根据挖 掘任务,我们可将数据挖掘分为5 种:关联、序列、分类、聚类和数据总结。通 常挖掘步骤如下:采样;特征探索、分析和预处理;问题明确化、数据调整和技 术选择;模型的研发、知识的发现;模型和知识的综合解释、评价。整个流程是 反复进行的,需要不断优化和趋近。 犯罪行为分析是一门涉及面很广的学科,渗透了法学、心理学、行为学等多 门学科【7 】,需要相当多的专门知识,其本身现在还处在探索研究阶段。目前在该领 域,相关部门已经建设了大量业务信息数据库,已具相当规模,并已建成连接全 国各地成千上万台电脑的大型信息网络,各种信息得到共享。许多业务信息系统逐 步从小型微机数据库移植到大型数据库( 女 1 0 r a e l e 等) ,但对信息的处理还基本停留 基于数据挖掘技术的犯罪因素关联性分析 在增、删、改、查询、统计等传统功能上,缺乏智能化的分析功能。可以说其事 务性功能已经基本完善,但分析功能还相当欠缺,具备关联性的规律趋势等潜藏 在大量业务数据后面,尚有待挖掘和提取【8 1 。 我们可以借助利用计算机技术的数据仓库和数据挖掘技术,在拟定的算法下 对大量的犯罪行为记录进行分析,从而发现犯罪的规律、趋势,了解不同犯罪行 为之间的关联,以及何种状态会诱发何种犯罪行为等等。相信这是公安司法领域 所迫切需要的,具有相当重要的现实意义【9 1 。 1 3 研究目标和内容 本课题是重庆市公安局与大连海事大学环境系统生物学研究所和大连海事大 学信息学院合作的项目。 本文在数据特点和需求分析的基础上,选取了粗糙集和关联规则两个方法; 研究内容具体包括以下几个方面: ( 1 ) 数据挖掘技术的选取。 利用了解数据挖掘技术的特点和自身独特性,结合要处理的数据的个性特征, 选取恰当的数据挖掘技术应用于犯罪分析信息系统,以便有效地实现对违法犯罪 高危人员的数据分析。 ( 2 ) 改进关联规则方法和属性约简与规则发现。 熟悉粗糙集的概念,属性约简与核求取,重点学习了基于遗传算法的属性约简 算法;学习a p r i o r i 算法的思想和不足,提出了一个改进的a p r i o r i r s 方法。 ( 3 ) 犯罪关联性分析和结果展示。 主要任务: 挖掘犯罪行为与家庭环境( 包括受教育程度,职业,家庭经济状况等) 和心 理因素和控制情感基因m a o a 和d r d 4 之间的关系。 对犯罪信息数据进行分析,使用关联规则进行数据挖掘。通过对数据进行分析, 建立数据挖掘模型,得到关联规则,测试关联规则,最后删选和解释规则,并应 用到实际的生活中。 1 4 论文结构 根据论文的内容要求,本文的章节安排如下: 第1 章绪论 第1 章绪论。主要介绍本文的研究背景、主要内容和论文组织结构。 第2 章数据挖掘相关理论与技术的概述。数据挖掘的概念、数据挖掘的过程、 结果评估技术分类、应用领域进行了研究和探讨。对关联规则理论和粗糙集方法 进行概述。 第3 章改进的关联规则算法及其应用。结合a p r i o r i 算法与粗糙集理论,提 出一套新的改进算法a p r i o r i r s ,详细描述该算法的步骤,将改进算法a p r i o r i r s 与原来的a p r i o f i 算法进行实验比较,论述改进算法的理论优势。 第4 章属性约简与规则发现。介绍了知识约简,重点介绍了基于遗传算法的 属性约简算法。 第5 章实验过程与规则分析。结果展示,实现数据预处理,特征提取,生成 规则,规则的解读。 第6 章总结与展望。总结本文的主要工作,并展望下一步工作。 基于数据挖掘技术的犯罪因素关联性分析 第2 章数据挖掘技术 如今,随着科技和经济的不断进步,数据同时在迅速地增长,所以会出现 “数据丰富而知识缺乏”的现象。使这些数据有效的被利用成为了一个问题,数 据挖掘( d a t am i n i n g ) 正是为解决这类问题而发展起来的- - f 技术,它方便工作 者从大量的数据中,比如数据库中,提取出相关数据,得到,有意义的知识、规 律,甚至也可以方便人们从不同的角度和深度上去分析理解它们,从而更深度地 利用和挖掘大量数据集和数据库中的数据;最后,更为有意义的是,相对于它可 以得到过去数据的发展过程,而且还能进一步预测数据未来的发展趋势。 2 1 数据挖掘 2 1 1 数据挖掘的概念 数据挖掘是从不完全的、大量的、有噪声的、模糊的、随机的实际应用数据 中发现隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解 的信息和知识的非平凡过程。这个定义含有以下四个层次的意义: ( 1 ) 数据源是巨大的、真实的、含噪声的: ( 2 ) 发现的知识不但能被接受,也要可理解,可运用,能用自然语言表达发现 结果: ( 3 ) 得到的知识一定是工作者很可能感兴趣的: ( 4 ) 对知识的要求并不绝对严格,一般得到的知识全是相对的,一般是特定前 提或者约束条件,就是说要面向特定领域的。不要求发现全新的科学定理或纯理 论公式,更不是什么高难定理证明,从犯罪信息学角度出发,数据挖掘可以被这 样理解为:用既定目标,对大量的犯罪相关信息数据进行分析和探索,以揭示隐藏 的、未知的或验证己知的规律性,并进一步将其模型化的科学的方法【1 0 】。 数据挖掘可以作为一个工具对未来的趋势和类别进行预测,从而很好地支持 先关人员的决策,例:经过对公安系统整个数据库系统的分析,数据挖掘出的知 识可以是解答“哪个地区哪一类人群的暴力犯罪夜晚活动较多,为什么等类似 的问题。 7 第2 章数据挖掘技术 2 1 1 数据挖掘的过程 图2 1 数据挖掘过程 f i g 2 1d a t am i n i n gp r o g r e s s i n g 从图可以看出数据挖掘是一系列完备的过程,该过程从数据库或数据仓库中 挖掘大量的信息,经过一系列的准备,最终使用这些信息做出决策或得到知识。 数据挖掘由以下过程或步骤组成: 1 数据准备阶段。此阶段一般被分成4 个部分:数据的清理、数据的集成、 数据的选择、数据的变换。数据清理的作用是消除噪声和不一致数据。数据集成 则是建立统一的数据视图:将多文件或多数据库运行环境中的数据进行合并处 理。数据选择是从数据库和数据仓库中检索与理解相关的数据任务:预分析的是为 了辨识出需要分析的数据集合是哪些,已达到缩小处理范围的目的,从而增加了 数据挖掘的质量。数据变换就是把数据统一转换成恰当数据挖掘的形式。 2 挖掘阶段。这个阶段执行现实的挖掘操作,使用恰当方法提出数据模式。 例如:决策如何挖掘假设;则别恰当的工具;挖掘知识的过程;确认发现的知识等: 3 表述阶段。数据挖掘这时可利用可视化工具:将得到的信息以方便用户观 看和解读的方式反映给用户。这些基于不同数据集合的分析结果还可以存储在知 识库中,供日后分析和比较。 4 评价阶段。如果分析人员发现结果不乐观,可以反复上述的步骤,一直达 到满意为止。 基于数据挖掘技术的犯罪因素关联性分析 2 1 2 数据挖掘结果评估 一个数据挖掘过程在做完一个挖掘算法之后,通常会获得大量而不一定有意 义的模式或规则。例如关联规则挖掘,它就很典型,关联规则算法的执行结果, 即使是对一个规模较小的数据集合( 几万条记录) ,也会得到数千条关联规则。显 然,在这数以千条规则中,不是都有用,只有一部分是有实际应用价值的【1 1 】。 所以如何对数据挖掘过程所得到的挖掘结果进行科学地评估,为了最后能获 得有实用价值的模式就显得尤为关键了。大多数情况下,数据挖掘者可以依据以 下四条标准:方便于用户理解;能够确定有效程度对于测试数据;确定具有潜在 的价值;新颖而奇特。利用这四条标准确定的一个有意义的模式就是知识。 另外,不止这些,还有一些评估模式价值的客观标准,而标准是不受人为干 预的是基于所挖掘出模式的结构或统计特征。比如,支持度就是关联规则的一个 客观评价标准,它的含义是满足的关联规则的事务记录在总记录数的比率是多 少。客观的评价是最为稳定的,虽然客观评价方法一定能够帮助识别一些有效的 模式知识,但主观评价措施是必要的,疑问主观评价措施方可有效反映用户的需 求和兴趣。例如,犯罪信息里对犯人或嫌疑犯的特征模型很感兴趣,而对犯罪人 的相关警官的表现特征是不会有太多关注的。或许多非主观评价标准得到的很好 的学习知识并不有实际意义,一般的非专业知识。主观尺度评估标准拟建在挖掘 者对数据的理解基础上,评估标准拟建所得到的模式是否是意外,是否与挖掘本 意相悖,要么确定可以提供决策支持而产生的。而预测到的模式是有意义的则是 说它能够帮助确认想要认可的一个假设【1 2 】。 2 1 3 数据挖掘技术分类 随着大量数据的累积,数据挖掘技术也在对数据分析的需求下推动发展起来 的,理所当然,数据挖掘技术也启发和促进新的数据挖掘技术产生。数据挖掘技 术即在这个良性环境中获得了飞速的发展和完备。数据挖掘技术有下面分类: ( 1 ) 分类。意义是找出识别和区分数据类的模型( 或函数) ,而后可以能够使用 模型预测类标号未知的对象类。例如犯罪类型中的经济状况可分为“差”、 “中 、“好对犯人的经济状况进行分类。分类过程先从一个已被分类的数据 第2 章数据挖掘技术 集( 训练集) 得到预测模型,这个模型就含有了从该训练集中获得的知识,然后利 用这个模型对新的还未分类的数据集进行分类。 ( 2 ) 预测。通过分析对象以前和目前行为的数据来预测对象未来的行为,它 用来预测没有的或不理解的数据值。里面回归分析是一种最常被利用的预测的方 法。 ( 3 ) 聚类。不同于数据分类与预测需要标号类的数据对象,聚类处理数据对 象可以不提前知道已知的类标号。聚类就是将数据化成类或簇的过程,类的被划 分后,同一个类中的对象之间具有非常高的相似度,反而不同类中的对象高度相 异。 ( 4 ) 关联分析。数据集合中的大量数据一定都存在着繁茂且隐晦的规则。而 关联分析的目的就是要找出数据集中含有的关联信息。这里的关联并不总是提前 知道的,而是通过数据集合、的关联分析获得的,最为出名的在超市中上可以给 出有价值的决策。例如:购买面尿布的顾客中有4 0 的人同时购买啤酒,有效的应 用是在超市中顾客会将尿布和啤酒放在一起,即他们很有可能会同时购买哪些商 品。 ( 5 ) 离群点分析。数据库中很有可能含有一些数据对象,他们与数据的普遍 行为或模式不一致,这种现象这些数据对象便是离群点。而在一些应用中,比如 突发事件检测,这种罕见的事件更令人感兴趣相对于正常的数据 1 3 , 1 4 , 1 5 】。 2 1 4 数据挖掘应用领域 大量的数据注定了数据挖掘的实用价值,数据挖掘在许多应用领域都或得 了成功。例如在竞技场、银行、电信、电子商务、科研等拥有大量数据的行业。 目前,数据挖掘技术的主要应用领域如下【1 6 】: ( 1 ) 竞技应用。m p o 公司开发的数据挖掘应用软件被欧洲教练广泛使用( 欧冠 联赛实际也是数据挖掘的战场) 。据说,巴萨就是成功分析了不同队员布阵的相对 优势,最终找到了战胜皇家马德里队的方法。 ( 2 ) 银行应用。数据挖掘技术在银行和金融领域的应用很客观。货币公司需 要寻找和分析大量的数据,对这些数据进行处理可以评估客户的信用,发现潜在 的客户群。银行可以使用的数据挖掘工具,可以根据消费者的储蓄、理财经验、 , 基于数据挖掘技术的犯罪因素关联性分析 习惯等将客户分类,进而预测什么时候向哪些客户提供哪种产品。这些年,在信 用记分的研究和应用方面取得了很大的进步。就是分析所了解的用户的财产状 况、信用、投资爱好等,对预发款人进行分析,做出最合理的有利收益的决策。 ( 3 ) 电信应用。这个技术在电信行业也得到广泛应用,这些应用可以帮助电 信企业制定合理的电话收费和服务标准、针对客户群的优惠政策、促销活动、防 止费用欺诈等。 ( 4 ) 科学探索应用。近年来,数据挖掘开始应用到尖端科学的探索中。科学 研究中产生大量科学实验分析数据,运用数据挖掘技术可以发现其中隐藏的规 律,一方面提高科学运算的效率,另一方面也有助于新的科学发现。例如d n a 序 列分析被认为是人类征服顽疾的最有前途的攻关课题。但是,d n a 序列的构成是 千变万化的,数据挖掘技术的应用可能为发现特殊疾病蕴藏的基因排列信息等提 供新的解决途径。 2 2 关联规则理论 g r a w a l 、i m i e l i n s k i 等人提出的关联规则,关联规则是一种方便的在数据挖掘 的知识模式。无监督学习的方法是关联规则的算法的优点。 2 2 1 关联规则的基本概念 比如观察一些涉及挺多的数据集:数据2 中出现了物品a ,数据3 中出现了物 品b ,数据3 中则一起出现了物品c 和d 。则物品a 和b 在数据中的出现相互之间 是否有什么规律呢? 关联规则就是描述这种在一个事务中物品之间一起出现的规 律的知识模式。更准确的说,关联规则是利用具体的值来描述物品a 的出现对物 品b 的出现有多大的影响【17 1 。 实际的应用中,这样的实例非常多。比如超市中的数据库关联发现,买尿布 的人有7 0 的人同时购买了啤酒。这样关联规则很有趣,策划者可以利用这些 关联规则更好地规划商场,如把尿布和啤酒这样的商品摆放在一起,就能够实现 促进销售。 但是另外的数据不像超市那很简单就能看出一个规律,需要转化下思路,一 样进行处理。比如投资公司。投资公司公司在决定是否投资的时候,往往先需要 了解投资公司的信息,往年的账面等。账簿上会有有公司的年运营状况,收支, 第2 章数据挖掘技术 员工成员,成本等。这些数据属性就可以通过被分析,可以得到类似以下这样的 关联规则:公司运营在1 0 年以上,在金属行业中,有8 0 的公司投资后收益是为 正的。而在3 年以下,教育业的收入是7 0 为正的,方便投资公司去进行投资。 关联规则是如下形式的一种蕴含:a b ,其中a 、b 是两组不同的物。般 用四个参数来描述一个关联规则的属性: 可信度( c o n f i d e n c e ) :设w 中支持物品集a 的事务中,有c 的事务同时也 支持物品集b ,c 称为关联规则a b 的可信度。就是可信度指在出现了物品集 a 的事务t 中,物品集b 也此刻出现的概率有多大。如上面所举的尿布和啤酒 的例子,该关联规则的可信度就回答了这样一个问题:如果一个顾客购买了尿 布,同时也购买啤酒的可能性有7 0 ,那么可信度是7 0 。 支持度( s u p p o r t ) : 设w 中有s 的事务一样支持物品集a 和b ,s 称为关联规则a b 的支 持度。支持度描述了a 和b 这两个物品集的并集c 在所有的事务中出现的概率 有多大。设1 0 0 个顾客到超级超市去购买物品,其中有1 0 个顾客同时购买了铁锤 和铁钉,那么上述的关联规则的支持度就是1 0 。 期望可信度( e x p e c t e dc o n f i d e n c e ) 设w 中有e 的事务支持物品集b ,e 称为关联规则a b 的期望可信度 度。期望可信度是在一个条件影响都没有的情况下,物品集b 在所有事务中出现 的概率有多大。设有1 0 0 个顾客到商场购买物品,其中有2 0 个顾客购买了啤酒, 则上述的关联规则的期望可信度就是2 0 。 作用度( l i f t l 作用度是可信度与期望可信度的比值。作用度是用来描述物品集a 的出现对 物品集b 的出现有多大的影响。 可信度是对关联规则的准确度的参考标准,支持度是对关联规则重要性的参 考标准。支持度说明了这条规则在所有事务中有多大的基数,显然基数越大,关 联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,也可以排除 掉。 在关联规则的四个属性中,支持度和可信度非常简答明了的形容关联规则的 性质。从关联规则定义可以看出,每2 个给出事务中的两个物品集,它们之间都 基丁数据挖掘技术的犯罪因素关联性分析 有着关联规则,只是属性值有所不同。若不考虑关联规则的支持度和可信度,那 么在事务数据库发现关联规则很多就是无意义的了。现实中人们总是只对满足一 定的支持度和可信度的关联规则感兴趣。所以,目的是发现有意义的关联规则, 需要给定两个阈值:和最小支持度规定了关联规则必须满足的最小支持度:最小 可信度规定了关联规则必须满足的最小可信度。若满足一定要求的规则为强规则 【1 7 】 0 在关联规则的挖掘中要注意以下几点: 1 不同的数据是不一样的,所以要充分了解数据。 2 针对目标。 3 数据预处理工作要做好。前两点决定预处理的方法。数据准备将最影响到 规则的实现。 4 选取合适的最小支持度和最小可信度。这依靠于用户对数据和结果的估 计,如果取值过小,大量无用的规则会干扰,而且可能把目标埋没;如果取值过 大,则又有可能找不到规则,得不到结果。 5 、删选关联规则于理解。数据挖掘工具只是可以发现符合条件的关联规 则,但它不能代替人类来判定关联规则的实际意义。所以对关联规则的理解需要 熟悉业务背景的,丰富经验的人来理解。比如:在一个生物信息的关联规则下, 需要有生物背景知识的人来删选关联规则,才能得到在生物方面有用的信息。很 可能有两个现实生活中认为没有多大关系的物品,它们的关联规则支持度和可信 度却很高,就需要利用业务知识、经验,从各个角度判断这是一个偶然现象还是 有其内在的合理性;反之,可能有现实主观上认为关系密切的物品,结果却显示 它们之间相关性不强。只有用专业的背景只是很好的理解关联规则,选出好的规 则,充分发挥关联规则的价值。 发现关联规则要经过以下三个步骤: 1 j 了解数据,数据预处理; 2 、给定最小支持度和最小可信度,发现关联规则; 3 、删除保留评估关联规则。 第2 章数据挖掘技术 2 2 2 关联规则挖掘的过程 关联规则挖掘过程主要包含两个阶段【l8 】: 第一阶段必须先从数据中找出所有的高频项目组( f r e q u e n ti t e m s e t s ) ; 第二阶段从高频项目组中产生关联规则( a s s o c i a t i o nr u l e s ) 。 关联规则挖掘的第一阶段是从数据集合中,找出所有高频项目组( l a r g e i t e m s e t s ) 。高频的意思是指某一项目组出现的频率相对于所有数据,必须达到一 个足够大的值。一组出现的频率称为支持度( s u p p o r t ) ,设一个包含a 与b 两个项 目,我们可以经由求得包含f a ,b ) 项目组的支持度,如果支持度的值大于或等于 所设定的最小支持度( m i n i m u ms u p p o r t ) 门槛值时,则 a ,b ) 称为高频项目组。一 个满足最小支持度的k - i t e m s e t ,就称为高频k 项目组( f r e q u e n tk - i t e m s e t ) ,一般表 示为l a r g ek 或f r e q u e n tk 。算法并从l a r g ek 的项目组产生l a r g ek + l ,一直直到 无法再找到更长的高频项目组为止。 关联规则挖掘的第二阶段是要产生关联规贝, l j ( a s s o c i a t i o nr u l e s ) 。从高频项目 组产生关联规则,是根据前一步骤的高频k 项目组来发生规则,在最小信赖度 ( m i n i m u mc o n f i d e n c e ) 的条件门槛下,如果一规则所求得的信赖度满足最小信赖 度,称此规则为关联规则2 0 1 。 不难看出,关联规则挖掘一般比较适用与记录中的指标取离散值的情况。所 以若原始数据库中的指标值是取连续的数据,就需要在关联规则挖掘之前进行数 据离散化( 实际上就是将某个区间的值对应于某个值) ,数据的离散化是数据挖 掘前的重要环节,离散化的过程是否合理将直接决定关联规则的挖掘结果。 2 2 3 关联规则的分类 根据不同情况,关联规则可以进行分类如下: 1 基于规则中处理的数据的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是针对离散的,它揭示了这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论