基于数据挖掘技术的犯罪行为分析系统设计(5月9日)_第1页
基于数据挖掘技术的犯罪行为分析系统设计(5月9日)_第2页
基于数据挖掘技术的犯罪行为分析系统设计(5月9日)_第3页
基于数据挖掘技术的犯罪行为分析系统设计(5月9日)_第4页
基于数据挖掘技术的犯罪行为分析系统设计(5月9日)_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

工程硕士学位论文基于数据挖掘技术的犯罪行为分析系统设计作者姓名XX大学20XX年1月国内图书分类号:TP273.5国际图书分类号.:621.3工程硕士学位论文基于数据挖掘技术的犯罪行为分析系统设计工程硕士研究生导师副导师申请学位级别工程领域所在单位授予学位单位摘要近年来,犯罪行为出现了很多新的特征和趋势,这些违法行为严重影响了人们的正常生活秩序,阻碍了社会的和谐开展。因此,分析犯罪行为对于案件侦破和案件预防都是十分有效的方法。本文在公安机关倒查系统数据库根底上,将数据挖掘技术引入到案件侦破和案件预防工作当中,设计了基于数据挖掘技术的犯罪行为分析系统,更科学更有效的发现犯罪的规律、趋势,了解不同犯罪行为之间的联系,以及诱发犯罪行为的原因等等。首先,本文从数据挖掘技术的研究现状出发,基于派出所登记系统采集的公共场所活动信息、案件信息、暂住人口信息等建立根底数据库,并对这些行为数据进行特征提取和数据预处理。通过对犯罪行为分析系统的需求分析,设计系统的整体框架和功能模块。结合犯罪行为关联规那么提取算法与聚类算法,运用ASP.NET和SQLServer2005数据库设计了犯罪行为分析系统。其次,根据系统的设计目标,对犯罪行为轨迹进行聚类分析处理,并阐述犯罪行为轨迹聚类技术在实际应用中的作用。该功能模块设计了籍贯分析、活动时间分析、发生地点分析、活动内容、共同活动人分析、作案工具、作案手段等功能,同时根据案件需要还可以进行组合分析,使办案分析人员可以通过系统查询到具有相似特征的信息集合,该系统很好的解决了犯罪行为系统中数据量大、人工匹配速度慢等问题。再次,系统在纵向分析的根底上,深入研究了犯罪行为轨迹之间的横向关联。利用关联规那么方法分析不同犯罪行为或不同犯罪嫌疑人之间联系,通过挖掘频繁模式,找出各个犯罪行为的相关性。该系统可以缩小调查范围和对象、提高办事效率。运用数据挖掘技术分析犯罪行为,可以对公安信息数据库中的海量数据进行挖掘,发现趋势规律,从而快速准确的帮助警务人员做好决策,在公安工作中具有重要的意义。关键词特征提取;数据挖掘;聚类;关联规那么分析;犯罪行为轨迹AbstractInrecentyear,thecrimeappearedmanynewfeaturesandtrends.Illegalbehevioursseriouslyaffectpeople’snormallifeandhinderthedevelopmentofharmonioussociety.Thus,theanalysisofthesebehaviousisaveryeffectivemethodtobreakandpreventcrimecases.Basedonthepublicsecurityorganpourchecksystemdatabase,thefollowingpaperwillintroducethedataminingtechnologyintothecrimecasedetectionandprevention.Thepaperincludetheanalysissystemofillegalbeheviourbyusingdataminingtechnology,andmoreefficientwaystoidentifycrime’sregularpatterns,trends,andrelationsamongdifferentillegalbeheviours.Alsothispaperisgoingtostatethecausesofinducingillegalbeheviours.First,thisarticlebeginswiththecurrentstudyofdataminingtechnology.Accordingtothepolicestation’sinformationsystem,thearticlesetsupthedatabasebasedontheinformationofpublicareaactivities,casefiles,informationoftemporaryresident.Thencollectsdata’sfeaturesandpretreatmentthedata.Designthesystem’soverallframeworkandfunctionmodulesbystudyingthedemandanalysissystem.DesignillegalbehavioranalysissystembyusingASP.NETandSQLSever2005databaseandcombiningillegalbehavior’sminingalgorithmandclusteringalgorithm.Second,accordingtothesystem’sdesignobjectives,clusteranalysistheillegalbeheviours,andstatesitseffectinpracticalapplication.Thisfunctionmoduleincludeanalysisbyorigin,activetime,place,content,tools,strategy,andparticipant.Thisfunctionmodulecanbealsocombinedwiththequerysystemwhichcandealwithplentyofdataandincreaseefficiency.Third,thesystemnotonlycandothelongitudinalanalysis,butalsostudiedthehorizontallinkageamongillegalbeheviours.Useassociationrulestotelltheconnectionamongdifferentillegalbehevioursordifferentsuspectedoffenders.Thissystemcanreducethescopeofdetectionandrespondentstoincreaseefficiency.Byusingthedataminingtechnologyanalysisofcrimes,theinformationinthepolicestation’sinformationsystemcanbeanalyzedmoreeffectivelythenfinallyhelpthepoliceofficertomakethemoreaccurateandbetterdecisionswhichissignificantlyimportantfortheirdailywork.Keywordsfeatureextraction;Datamining;Clustering;Associationrulesanalysis;Crimetrajectory目录摘要IAbstractII目录V第1章绪论11.1本课题的研究背景11.2国内外开展现状3国外研究现状3国内研究现状41.3本课题的研究目的与实际意义41.4聚类技术和关联规那么方法51.5数据挖掘技术在犯罪行为分析中的应用81.6本课题的研究内容及组织结构9第2章犯罪行为分析系统的设计102.1引言102.1.1系统运用的主要技术和开发工具102.1.2犯罪行为142.1.3B/S模式152.2需求分析16一般需求16扩展需求172.3系统功能描述182.3.1功能概述18业务流程182.4系统的设计方案192.4.1系统架构192.4.2功能模块描述212.5本章小结23第3章聚类技术在犯罪行为分析系统中的应用243.1引言243.2k均值聚类算法253.3犯罪行为的聚类分析263.3.1数据预处理273.3.2利用轮廓系数确定聚类簇数283.3.3犯罪行为相似度293.4算法设计303.4.1求最正确聚类数的算法303.4.2异常行为的处理303.4.3行为数据聚类算法313.5本章小结32第4章关联规那么分析在犯罪行为分析系统中的应用334.1关联规那么方法的定义344.1.1根本概念364.1.2关联规那么挖掘步骤374.2犯罪行为关联规那么挖掘过程374.3关联规那么挖掘算法384.3.1犯罪行为关联挖掘过程384.3.2挖掘算法描述394.4本章小结41第5章系统开发与实现425.1系统数据库设计方案425.2开发环境与配置455.3系统截图455.3本章小结48结论49参考文献51攻读硕士学位期间承当的科研任务与主要成果54致谢55作者简介56第1章绪论1.1本课题的研究背景随着计算机技术的不断开展,人们获得的各种数据也越来越多,而这些看起来杂乱无章的数据却蕴含着许多应用价值很高的信息,传统的数据库技术已经无法满足分析这些信息特的需要,数据挖掘技术应用而生。数据挖掘技术就是从存放在数据库、数据仓库或其它信息库中的大量的、不完全的、有噪声的、模糊的、随机的数据中挖掘隐藏知识的过程。数据挖掘技术除了可以完成数据的查询功能以外,还能够挖掘数据之间潜在关联。通过使用数据挖掘技术一些潜在的、有意义的信息及规那么可以提取出来,以便更好地指导决策、预测未来和开展趋势。数据挖掘,又称为数据采掘、数据开采,相近的术语有KDD(数据库知识发现)、数据分析、数据融合、决策支持等。根据w.J.Frawley和G.P.Shapiro等人的定义,数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识而这些知识是隐含的、事先未知的、潜在的有用信息[1]。近些年,数据挖掘技术已经应用到了很广泛的领域,比方零售业、制造业、财务金融保险、通讯行业、医疗效劳业、信息检索以及网络日志等方面。目前,数据挖掘技术得到了广泛的认识,成为数据库领域重要的研究课题之一。经过多年努力,数据挖掘技术已经取得了相当丰硕的研究成果。数据挖掘的功能主要有。概念/类描述-特征化和区分数据特征化就是数据的一般特征或特性的汇总,数据区分是将数据的一般特性与一个或多个比照数据的一般特性比拟。关联分析发现数据之间隐藏的关联规那么,两个或多个变量之间存在的某种规律性就称为关联。关联分为简单关联、时序关联、因果关联。分类和预测分类是找出描述并区分数据类或概念的模型的过程,以便能够使用模型预测类标记未知的对象类。预测是对未知或空缺数据值的某种预测。聚类分析将数据库中的信息根据相似度划分为一系列子集,使得类内相似度最大,类间相似度最小。聚类技术主要有模式识别和数学分类学。孤立点分析发现和数据的一般行为和模式不一致的数据。在欺骗检测和罕见事件的分析中经常用到。演变分析数据演变分析描述的是行为随时间变化的对象的规律或趋势[2]。当前,在国家加快推进经济开展、加快改革的进程下,我国在社会、政治、经济、科技等方面都有了突飞猛进的开展。随之而来的各种违法犯罪行为也层出不穷,具有鲜明时代特征的犯罪行为(如网络犯罪、青少年犯罪、贩毒等)不断出现,这些违法犯罪行为严重危害了社会的稳定和人们的正常生活秩序。全国各地公安机关为了加强社会治安综合治理,有效打击各种违法犯罪行为,利用各种手段进行打击和预防。通过加强打击、防范、教育、管理、建设、改造等方面的工作,实现从根本上预防和治理违法犯罪,化解不安定因素,维护社会治安持续稳定,从而构建和谐社会。计算机技术的开展为公安信息化建设提供了很好的平台。其主要功能是利用计算机技术、网络技术等对信息资源进行系统的、有效的管理,从而加快警务决策、提高执法的效率,成为有效的打击与制止犯罪行为的重要工具。随着公安信息化建设的不断深入,很多工作已经由传统的人工业务方式转变为计算机辅助方式,并且计算机辅助方式扮演着越来越重要的角色[3]。当前,无论是公安各应用系统还是社会互联网中,均积累了大量的信息数据,为公安业务工作提供了方面的办公手段和丰富的信息资源,公安机关通过大量的数据收集与综合研制,精确预防和打击犯罪。然而,信息处理的传统功能已经不能满足智能分析的要求,随着数据量的增加,面对海量和“数据炸弹〞的数据,传统的数据分析工具以力不从心,迫切需要设计一种具有支持决策分析、预测等功能的系统,采用了数据挖掘技术的犯罪行为分析系统针对这种“数据丰富而知识匮乏〞的现象便应运而生,为公安信息化建设提供了有力支持[4]。1.2国内外开展现状国外研究现状与数据挖掘(DataMining)极为相似的术语――从数据库中发现知识(KDD)一词是在1989年8月于美国底特律市召开的第11届国际工人智能联合会议的专题讨论会上。1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议。把数据库中的“数据〞形象地比喻成矿床,“数据挖掘〞一词很快流传开来。到目前为止,由美国人工智能协会已经主办了十余次ACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(简称KDD会议)国际研讨会,规模由原来的专题讨论会开展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,称为当前计算机科学界的一大热点[5]。国外研究数据挖掘的组织机构或大学很多。比拟著名的如卡内基梅隆大学(有机器制造DM、多媒体数据库DM、互连网DM三个研究中心)、斯坦福大学、麻省理工学院。著名研究机构如:ACM(ACMSpecialInternationalGrouponKnowledgeDiscoveryandDataMining)、KDNet(theEuropeanKnowledgeDiscoveryNetworkofExcellence)、NCDM(theNationalCenterforDataMining(NCDM)attheUniversityofIllinoisatChicago(UIC))等。数据挖掘算法在实际数据挖掘系统中得到了很好的应用。美国斯坦福大学智能数据库系统实验室开发了大量的商用数据挖掘系统,如DBMiner挖掘系统;IBM的Almaden实验室研究的Quest工程,开发了IBMDB2平台下的DB2Intelligent、MinerforData系统;1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有30多家软件公司展示了数据挖掘软件产品不少软件已经在北美和欧洲的国家得到了广泛的应用,并收到明显的效益[6]。国内研究现状与国外相比,国内对DMKD(数据挖掘和知识发现)的研究稍晚,还没有形成整体力量。1993年国家自然科学基金首次支持中科院合肥分院对该领域的研究工程,目前从事数据挖掘研究的人员主要在大学也有局部在研究所或公司研究领域一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究工程是由政府资助进行的如国家自然科学基金、863方案、“九五〞方案等。具体的研究工程有中科院计算机研究所的智能信息处理重点实验室研制开发的多策略数据挖掘平台MSMiner系统,此系统集成了关联规那么挖掘算法;复旦大学研制开发的ARMiner系统,该系统采用的关联规那么挖掘算法是基于Apriori的改良算法。企业有菲奈特一融通公司和广州华工。菲奈特一融通在IBM数据挖掘软件的根底上开发了商业智能套件,广州华工明天科技开发了多功能数据挖掘器[7]。1.3本课题的研究目的与实际意义公安信息化建设是运用信息和通信技术对信息资源进行系统的、有效的管理,实现公安信息的合理共享。随着公安信息化系统的完善,利用犯罪行为信息网来侦查破案,已成为现代刑事侦查工作中重要的手段之一。它在一定程度上改变了侦查工作中破案方式单一、破案渠道少、侦查手段不全、侦破效率不高的缺点。就秦皇岛公安工作来说,传统的破案方法是侦查员凭借个人经验制定侦查措施,它具有滞后性、被动性、效率低下等缺点,已经不能适应现代社会的需要。而犯罪行为分析系统可以积极主动实现以丰富的信息资源为根底,将信息资源转化为现实破案的工具和手段,最大限度的利用信息资源所隐藏的各类知识。犯罪行为分析系统除了能够有效提高侦查效率外,更重要的是能挖掘犯罪行为的规律和内在关联,从而采取有效措施去预防这类案件的发生。打击违法犯罪活动重要的是“打击犯罪,预防为主〞,真正实现社会的稳定、和谐。面对经济全球化、社会信息化的挑战,公安工作也面临着巨大的考验。新形势下的犯罪形式呈现智能化、高端化的严峻态势。大力推进信息技术在公安工作中的应用,不断提高公安工作人员的知识水平,是目前公安工作中迫切需要解决的问题[8]。本文正是结合这一契机,基于数据挖掘技术设计一套犯罪行为轨迹分析系统。充分而有效的利用各个派出所公共场所登记信息系统中的大量数据,挖掘隐藏在这些信息数据之间的规律和关联,将具有相同犯罪类型的罪犯加以归类,使公安机关在进行系统分析时,可以从大量的各异的犯罪特征中找到相似犯罪特征以及重点人群等,从而对相似案件的侦破以及串并案件提供有益帮助。这些信息资源背后的信息转化为侦查工作中不可或缺的资源,满足当前公安工作的需要,以便提高执法的效率和反响速度,为及时预防和有效打击违法犯罪行为提供工作根底。该系统将会对秦皇岛公安工作起到积极的推动作用,对提高公安工作的侦查效率和预防犯罪方面有重要的现实意义。1.4聚类技术和关联规那么方法聚类(Clustering)是数据挖掘技术的重要的组成局部,它是将数据对象分成由相似对象组成的多个集合的过程,其中属于同一集合的对象之间彼此相似度大,而属于不同集合的对象之间相似度小。通过实施聚类操作,数据对象集中的稠密和稀疏区域能够识别出来,也可以发现数据对象间有趣的相互关系。在应用中,可以将一个集合中的数据对象作为一个整体来对待。观察每个集合的特点,集中对特定的某些集合作进一步的分析。随着计算机硬件和软件的飞速开展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,这些数据中蕴含着具有重大应用价值的知识。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具无法有效地为决策者提供其决策支持所需要的相关知识。因此,迫切需要一种能够智能地把数据转换成有用信息和知识的工具[9]。聚类是数据挖掘的重要局部,目的是要发现有用的对象组,这里的有用性由数据挖掘的目标定义。通过对数据对象进行聚类操作,我们能识别数据集的稠密和稀疏区域,发现数据的全局分布模式以及数据间有趣的相互关系,优化大规模数据库的查询和发现数据中隐含的有用信息或知识。聚类分析方法是将研究对象中各点之间存在着不同程度的相似性(远近关系),根据对象属性找出各点间相似程度的序列,把一些相似程度较大的点聚合为一类,把另外一些彼此相似程度较大的点大的点聚合在另一类,直到把所有的点都聚合完毕。然后把不同的类型分别划分出来,形成分类系统。利用聚类分析的方法对犯罪数据进行分析研究,其主要工作是将犯罪信息数据的详细记录加以整理归类、对犯罪人员特征和犯罪内容、情节进行挖掘,把具有相似特征的案件或犯罪人员从据库分拣出来,单独形成特征类型数据库,找出每一类罪犯中大局部犯罪的特征活动。帮助分析人员确定当前某些犯罪的整体开展情况,并向该类中的其他犯罪情况加以验证,寻找相关应对措施,并为案件的下一步分析提供依据[10]。聚类算法[11]主要有层次聚类算法、划分式聚类算法、基于网格和密度的聚类算法以及其他一些聚类算法。其中,划分聚类算法要预先指定聚类数目或聚类中心,然后反复迭代运算,以降低目标函数的误差值,当目标函数值收敛时,形成最终聚类结果。k-means聚类算法是常用的一种划分聚类方法,是MacQueen在1967年首次提出的。该算法的主要思想是找到k个聚类中心,使得每一个数据点和与其最近的聚类中心的平方距离和最小。k-means算法的优点是能够对大型数据集高效分类,聚类速度快。缺点是会在获得一个局部最优值时算法停止,并且只适用于数值型的数据聚类,其聚类结果为凸形的数据集。之后有很多k-means算法的改良算法,Huang在1998年提出了适合于分类属性数据的k-modes算法。Chaturvedi等人在2001年提出了面向分类属性数据的非参数聚类方法k-modes-CGC算法。Sun等人在2002年将迭代初始点集求精算法应用于k-modes算法。Ding等人在2004年提出了一致保存k-means算法k-means-CP。这些都是主要的基于划分的聚类算法[12]。关联规那么方法就是通过计算大型事务数据集中单个项或者多个项组成的项集出现的频率和各个项集出现的条件概率找出数据集中存在的频繁模式和隐含的关联规那么,从而预测事物的开展趋势,发现大量数据中项集之间“有趣〞的关系或相关联系。假设两个或多个变量的取值之间存在某种规律性,就称为关联。关联规那么定义为:假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(TransactionID)对应。关联规那么在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规那么是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定[13]。关联规那么挖掘[14]从总体上说分两步实现,一是找出频繁项集,二是通过频繁项集推出关联规那么。找频繁项集就是扫描全部数据,找出数据集中支持度大于或等于用户定义的最小支持度min_sup的所有项集。找出的这些项集就称为频繁项集[15,16]。就目前而言,关联规那么挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购置了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打咨询的时候,数据库可以有力地帮助销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。同时,一些知名的电子商务站点也从强大的关联规那么挖掘中的受益。这些电子购物网站使用关联规那么中规那么进行挖掘,然后设置用户有意要一起购置的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购置某种商品的顾客会看到相关的另外一种商品的广告。但是目前在我国,“数据海量,信息缺乏〞是商业银行在数据大集中之后普遍所面对的为难。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规那么挖掘的技术在我国的研究与应用并不是很广泛深入[17]。由于许多应用问题往往比超市购置问题更复杂,大量研究从不同的角度对关联规那么做了扩展,将更多的因素集成到关联规那么挖掘方法之中,以此丰富关联规那么的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规那么的研究主要集中于两个方面,即扩展经典关联规那么能够解决问题的范围,改善经典关联规那么挖掘算法效率和规那么兴趣性[18]。1.5数据挖掘技术在犯罪行为分析中的应用随着公安信息化建设工作的不断深入开展,存在海量的犯罪行为轨迹数据等待处理和发现,数据挖掘技术可以很好的解决这个问题。数据挖掘技术在犯罪行为分析领域的研究主要集中在两个方面,一是分析犯罪行为,并根据分析结果采取有效措施进行犯罪行为的预测和防范。通过挖掘已有犯罪行为潜在的规律和联系,可以得出犯罪行为、犯罪模式和犯罪区域等方面的一些根本特征,结合这些情况就可以进行分析和预测,对预防犯罪起到很好推动作用,隐含其中的知识还可以作为侦查案件的线索;二是利用关联规那么挖掘方法对犯罪行为进行特征分析,从这些海量的数据中获取犯罪行为之间的相关性。利用关联规那么对犯罪行为轨迹进行分析,发现行为之间固有的规律,比方,哪些事件会一起发生,哪些事件出现以后出现另一事件的可能性增大,哪些人容易实施某些活动等。通常在数据挖掘操作之前,我们要对犯罪行为有一定的了解,以便给出有效的分析方向和分析思路[19]。利用数据挖掘技术设计的犯罪行为分析系统一般采用的是案件倒查机制。案件倒查主要是指,相关职能部门、警务人员、派出所对每天发生的发生案件现场进行回访倒查,一是回访、安抚受害人;二是收集破案线索;三是查明发案原因,找出防控漏洞,提出整改措施;四是对防控措施不落实造成发案的,追究相关民警、领导及单位责任。我们提出的案件倒查机制除了完成上述工作以外,同时还要结合派出所统计的公共娱乐场所登记信息进行进一步的倒查分析和汇总[20]。1.6本课题的研究内容及组织结构本文设计了基于数据挖掘技术的犯罪行为分析系统,将聚类方法和关联规那么方法应用到了公安部门的日常侦查活动当中,针对于秦皇岛市公安局传统的犯罪行为方式所存在的问题,阐述了设计该犯罪行为系统的必要性。通过分析系统的需求,合理选择了系统的开发工具及开发模式,完成了犯罪行为分析系统的设计。研究内容为案件的侦破和预防提供有效的帮助。依据上述研究内容,本文共分为5章,其具体结构如下。第1章绪论,在参阅了国内外大量文献资料的根底上,分析了犯罪行为分析系统的重要意义。结合秦皇岛公安机关侦查工作的实际情况,提出了犯罪行为分析系统开发与实施的必要性。第2章犯罪行为分析系统的整体设计,在调研犯罪行为分析系统的需求分析根底上,提出了设计犯罪行为分析系统开发所涉及的相关技术,并对该系统进行了详细的需求分析和功能分析,设计了系统的总体框架,为系统的后续设计提供了理论支持。第3章聚类技术在犯罪行为分析系统中的应用,首先研究了大量的聚类算法,提出了聚类技术在犯罪行为分析系统设计的必然性。并重点阐述了k-means算法在系统中的应用,以及该功能模块的详细设计。第4章关联规那么方法在犯罪行为分析系统中的应用,用Apriori算法分析不同犯罪行为信息之间的联系,挖掘隐藏在犯罪行为中的相关性,并详细说明该功能模块的设计过程。第5章系统的开发与实现,本章主要说明了系统开发的环境和配置以及系统实现的局部截图。最后对论文进行总结,概括论文的研究成果,指出论文存在的问题及今后的研究方向。第2章犯罪行为分析系统的设计2.1引言近年来,数据挖掘技术取得到了飞速的开展,已经应用到了很多领域,然而数据挖掘技术在公安工作中的研究和应用却处于初步阶段。随着社会的开展,各类案件也呈现出很多新的特性,给公安工作带来了很大的挑战,如何利用数据挖掘技术实现案件分析的智能化,以及实现决策预警的科学化是本文研究的重点内容。本章主要结合数据挖掘技术和秦皇岛公安工作的实际情况,介绍犯罪行为系统设计过程中使用的主要技术,确定系统的需求分析,描述犯罪行为系统总体设计思路,并给出系统的设计方案。系统运用的主要技术和开发工具在公安管理中,通常要做到可以随时随地访问到案件信息,同时能够综合来自各方面的数据,通过挖掘这些数据中隐含的知识,发现过去没有被认识的数据关系,从而更好的支持决策。在犯罪行为分析系统中,犯罪行为是不断更新的,有一些犯罪行为可能会消失,也可能会有新型的犯罪行为出现,选择适宜的技术和开发工具才能更有效的分析这些犯罪行为,下面简单介绍一下该系统运用的主要技术和开发工具:.1数据仓库技术(DataWarehouse)数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的根底上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承当的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。从功能结构化分,数据仓库系统包含数据获取(DataAcquisition)、数据存储(DataStorage)、数据访问(DataAccess)三个局部[21,22]。数据仓库中两个重要的概念是元数据和数据集市:元数据(metadata)是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。商业元数据从商业业务的角度描述了数据仓库中的数据。数据集市是为了加快数据的分析速度,根据数据所使用的部门把数据仓库按着不同的主题进行分类。它是支持最终用户查询的数据存储结构,存储汇总数据。.2数据挖掘技术(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘与传统的数据分析的本质区别在于数据挖掘是在没有明确假设的前提下挖掘信息、发现知识。用于数据挖掘的方法主要有:神经网络方法、遗传算法、决策树方法、粗糙集方法和模糊集方法。神经网络具有良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性。遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。具有的隐含并行性、易于和其它模型结合等性质。决策树方法是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的ID3算法。粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集方法不需要给出额外信息、算法简单、易于操作。在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等操作。模糊集方法是利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析[23]。数据挖掘技术是顺应海量数据处理的要求而开展起来的,在这样一个信息爆炸的时代,数据挖掘技术成为知识发现过程的关键步骤。.3关联规那么关联规那么(AssociationRules)挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越感兴趣。例如:超市购物分析,从顾客大量的购物记录数据而发现的不同商品之间的关联知识,可以帮助商家分析顾客的购置习惯,制定有针对性的市场营销策略。.4ASP.NETASP.NET是Microsoft公司推出的用于编写动态网页的一项功能强大的新技术,是Microsoft公司的动态效劳器页面(ASP)和.NET技术的集合。ASP.NET是编译执行的Web效劳器技术,它预先编译成为一个类文件,当用户访问ASP.NET文件时,直接执行类文件而不是源文件,在编译前可能将ASP.NET源文件翻译成一个C#或VB的源代码文件。ASP.NET是继Microsoft公司的ASP3.0之后推出的一种全新的动态网站设计技术与程序框架。ASP使用VBScript或JavaScript的脚本语言混合HTML来编程,是属于弱类型、面向结构的编程语言,而不是面向对象的,所以ASP容易产生代码逻辑混乱、代码的可重用性差、由于弱类型的脚本带来的潜在出错几率大等问题。ASP.NET摆脱了ASP.使用脚本语言编程带来的这些问题,在理论上ASP.NET可以使用任何一种编程语言,包括C++、VisualBasic和JavaScript等,而且Microsoft公司还专门为ASP.NET推出了C#编程语言。ASP.NET与之前的动态网页开发技术相比的优点主要有以下几个方面:(1)性能更强大ASP.NET是运行在效劳器端的通用语言运行环境,它会通过即时编译来提高性能。并使用提前绑定、JIT(Just-In-Time)编译、本地优化、缓存(Cache)等一系列技术来到达提高运行效率的目的。(2)强大的开发工具支持虽然只要效劳器操作和效劳器软件支持,就可以运行脚本,而且ASP.NET的页面或应用程序也不需要专门的开发工具,但是ASP.NET与VisualStudio.NET良好的集成可以使开发工具更加高效。(3)强大的语言支持ASP.NET可以使用多种语言进行开发。(4)简易性ASP.NET使常用的网络开发变得相当方便,从简单的提交窗口和客户端验证制作到设置和整个网站的发布,都可以轻松完成。(5)可管理性ASP.NET的管理是基于“无本地管理〞思想的,使用纯文本的设置方式,只要设置相应的文本文件就可以完成一系列的站定设置。同时,如果需要发布网站,不必在效劳器上使用特殊的软件进行设置,只要简单的将制作好的文件复制到效劳器上即可。(6)平安可靠性ASP.NET基于Windows验证机制,它是每一个应用程序进行配置的方法,所以可以确保用户的应用程序是平安的。.4SQLServerSQLServer2005是一个关系数据库管理系统,它具备了通常数据库管理系统的根本功能。SQLServer2005是微软公司开发的一款数据库方面的软件产品,它是一种基于客户机/效劳器的关系型数据库管理系统,用来对存放在计算机中的数据库进行组织、管理和检索,使用Transact-SQL语言在效劳器和客户机之间传送请求。SQLServer2005是用于大规模联机事务处理(OLTP)、数据仓库和电子商务应用的数据库和数据分析平台。SQLServer2005提供了以下各项功能。(1)数据库引擎增强SQLServer2005为数据库引擎引入了诸多改良和新的功能。这些改良和功能包括与M、新的XML技术、增强SQL处理、新的数据类型,以及对关系型数据库可伸缩性和可用性的改良。(2)管理工具SQLServer2005引入一整套管理工具和管理API,管理工具和管理API使得SQLServer使用更方便、管理更轻松,并且支持大规模SQLServer部署操作。(3)数据转换效劳(DTS)的增强DTS在SQLServer2005中全部重新设计了、提供全面的企业提取、转换和装载平台。它也被重新命名为SQL效劳器集成效劳(SQLServerIntegrationServices)。(4)复制增强SQLServer2005对复制效劳进行了一些改良和增强,简化了安装、配置和复制拓扑的监控。(5)数据访问接口针对ADO.NET进行了改良。引入了一个新的SQL本地客户端。(6)分析效劳增强SQLServer2005分析效劳在多方面进行了扩展,包括可伸缩性、易管理性、可靠性、有效性和数据仓库的可编程性、商业智能和商业解决方案。(7)报表效劳SQLServer2005报表效劳是一个新的报表效劳器和工具集,可以构建、管理和部署企业报表。(8)通知效劳SQLServer通知效劳是帮助开发集中的通知应用和大规模部署这些应用的平台。由于SQLServer2005在可伸缩性、数据集成、开发工具和强大的分析等方面的出色表现,使SQLServer2005得到了广泛的应用。犯罪行为犯罪行为是某人做出的违法行为,它是指行为主体在意志自由的情况下实施的足以危害他人、社会或国家的行为。犯罪行为一直治而不止,而且总量也在不断增加。形成犯罪行为的原因有很多,从犯罪的主观方面和客观方面分析如下:.1主观方面犯罪是行为人产生犯罪意识,把犯罪意识付诸行动,并被法律认为犯罪的一个过程。即人形成犯罪意识并实施犯罪,包含了形成犯罪意识和实施环境两个环节。犯罪成心是行为人明知自己的行为会发生危害社会的结果,并希望或者放任这种结果发生的心理状态。犯罪的主观方面是犯罪人的心理状态,是支配行为人实施犯罪行为的主观心理状态,是行为人对其行为所引起的危害社会的结果所持有的心理状态,而主观方面是通过成心或者过失表现出来的。犯罪主观方面是犯罪构成的必备条件。.2客观方面犯罪的客观是指刑法规定的,说明行为对刑法所保护的社会关系造成侵害的客观外在表现。犯罪客观方面具有客观性、多样性、法定性的特征。犯罪客观方面是区分罪与非罪的重要依据,是区分此罪与彼罪以及犯罪完成与未完成形态的重要界限,是认定和分析犯罪主观要件的重要依据,是量刑的重要根据[24]。B/S模式B/S(Browser/Server,浏览器/效劳器)模式,又称为B/S结构。它是随着Internet技术的兴起,对C/S结构的一种变化或者改良的结构。通过这种结构,用户的工作界面可以用IE浏览器来实现。采用B/S模式可以简化客户端。不需在不同的客户机上安装不同的客户应用程序,只需安装通用的浏览器软件。这样不但节省了客户机的硬盘空间和内存,而且使安装过程更加简便、网络结构更加灵活。采用B/S模式使用户的操作更简单。对于C/S模式,客户应用程序有自己特定的规格,使用者需要接受专门培训。而采用B/S模式时,客户端只是一个简单易用的浏览器软件。采用B/S模式特别适用于网上信息发布,使得传统的MIS的功能有所扩展。这是C/S所无法实现的。这种新增的网上信息发布功能是现代企业所需的。B/S模式有以下特点。(1)系统开发、维护、升级方便每当效劳器应用程序升级时,只要在效劳器上升级效劳应用程序即可,用户计算机上的浏览器软件不需要修改,系统开发和升级维护方便。(2)B/S模式具有很强的开放性在B/S模式下,用户通过通用的浏览器进行访问,系统开放性好。(3)B/S模式的结构易于扩展由于Web的平台无关性,B/S模式的结构可以任意扩展,可以从包含一台效劳器和几个用户的小型系统扩展成为拥有成千上万个用户的大型系统。(4)用户使用方便B/S模式的应用软件都是基于Web浏览器的,而Web浏览器的界面是类似的。对于无用户交换功能的页面。用户接触的界面都是一致的,用户使用方便。2.2需求分析需求分析是对要解决的问题进行详细的分析,弄清楚设计的要求,包括需要输入的数据,要得到的结果,以及要输出的数据。为了更好的设计系统功能,最大程度满足用户需求,我们采用多种形式与用户沟通最终确定系统的综合要求。一般需求犯罪行为分析系统需具备已有案件信息和公共娱乐场所信息采集、预处理、存储、比对以及匹配等功能,并以此为根底实现对犯罪行为信息的有效管理,主要是统计数据的倒查分析和匹配功能,以提高侦查效率和发现看似无关的信息之间隐含的内在联系[25]。本文在深入调研了秦皇岛公安机关相关工作人员的需求以及公共娱乐场所工作人员的经验后,确定了犯罪行为分析系统的业务流程,将犯罪行为分析系统在功能上分为数据录入管理、暂住人口信息管理、已抓获嫌疑人信息管理、公共信息管理、倒查数据分析管理、聚类分析管理、关联分析管理等功能。系统设计应满足如下要求。系统基于互连网(B/S模式)设计,系统数据库为SQLServer2005。采用这种方式可以方便用户操作和查看。工作人员需凭用户名和密码登陆。同时,不用类型的工作人员具有的权限也不尽相同。系统包含的权限或角色。犯罪行为分析系统设计的权限有以下9种。系统权限及角色定义输入已抓获犯罪嫌疑人的相关信息修改已抓获犯罪嫌疑人的相关信息提交已抓获犯罪嫌疑人的相关信息查询已抓获犯罪嫌疑人的相关信息审核已抓获犯罪嫌疑人的相关信息提取已抓获犯罪嫌疑人的活动轨迹信息(倒查)录入信息与倒查结果比对打印(已抓获犯罪嫌疑人相关信息、倒查比对结果等)犯罪行为分析系统设计的角色如下。系统管理员,负责用户设定及相应权限赋予,负责初始化信息定义已抓获犯罪嫌疑人信息录入人员审核人员倒查评定人员查询排序要求可以查询任意案件信息与其他信息的相似程度或关联度,可以按相似度或关联度从大到小的顺序进行排序。查询结果均可打印(具有查询打印权限)。对每次倒查结果生成唯一的业务编号,作为数据的唯一标识以便备查。并且倒查结果可进行交叉比照,并可与《公安警务综合系统资源库》中数据进行联合数据挖掘已发现可能出现的警情。对所有操作过程进行日志记录。扩展需求犯罪行为分析系统是利用B/S模式设计的系统,除了满足上述的功能外,还要满足一些扩展需求。比方,保证数据及系统的平安性,提高系统的响应时间,并且随着数据库数据的不断增长,要保证该系统查询速度和稳定性[26]。.1系统平安管理及授权犯罪行为信息是保密的信息,为了保证这些信息不外泄,对于系统的平安性有很强的要求。所以,数据要保存在指定的数据效劳器上,由专门的管理员进行统一的管理和维护。系统还设计了不同的系统权限和登录角色,对分别对系统进行操作和管理。为了平安起见,除了用户名及密码之外,还可考虑通过钥匙盘等方法加强平安性,同时还可以制定严格的访问控制条件和相关的数据管理规定,防止数据泄漏,防止重要信息被不法分子获取和利用。系统性能需求犯罪行为分析系统要求能够及时、高效完成相关分析工作。当有新的行为信息获得时,系统需要很快的给出分析结果。侦查工作往往具有很强的时效性,如果一个线索错过了最正确时机,就变成了没有价值的信息,严重时还会造成错失破案良机的严重后果,所以系统的效率是确保信息有效性的有力保证。同时,随着系统数据库的不断增大,系统还要保证匹配的效率系统运行环境犯罪行为分析系统采用B/S模式,客户端为每个警务人员个人计算机上的浏览器,通过浏览器可以完成查询、录入等操作。系统要求的运行环境为Windows2000或更高版本的操作系统,并添加Internet信息效劳(IIS),系统界面设计系统操作界面设计要求严谨而简洁。系统用户包括:管理员、警务人员和其他人员。管理员和警务人员可以登录WEB浏览器进行相关操作,而其他人员只能2.3系统功能描述2.3.1功能概述由相关工作人员录入通过已抓获的犯罪嫌疑人被讯问获取的相关信息(包括根底信息和活动时间轨迹信息),由具有审核权限部门对录入信息进行审核,根据已抓获犯罪嫌疑人的根底信息自动从《公安警务综合系统资源库》中提取并列出该犯罪嫌疑人的活动时间轨迹信息,将提取的活动轨迹信息与讯问获取的活动轨迹信息进行比对,查看活动轨迹信息是否匹配。根据比对结果查看是否出现有价值的信息。业务流程犯罪行为分析系统的业务流程描述如下。录入由办案单位相关工作人员通过系统录入已抓获犯罪嫌疑人的相关信息(包括根底信息和活动时间轨迹信息)。初审由具有审核权限的部门(市、县两级法制部门,市局刑侦支队)对录入的信息进行审核(审核不通过,那么责成办案单位改正,然后重新进行流程)。询问核对看守所、拘留所审核办案单位是否进行了信息录入及信息是否已经过相关审核权限部门的初审,如已通过审核那么对信息内容与犯罪嫌疑人进行询问核对,通过询问核对后生成最终已抓获犯罪嫌疑人的相关信息(包括根底信息和活动时间轨迹信息)。复审由具有审核权限的部门对通过询问核对后生成最终已抓获犯罪嫌疑人的相关信息进行审核(审核不通过那么责成相关单位改正,然后重新进行流程)。提取并显示活动轨迹信息(倒查)根据复审通过后的已抓获犯罪嫌疑人的根底信息从《公安警务综合系统资源库》中提取并列出该犯罪嫌疑人的活动时间轨迹信息。比对将从《公安警务综合系统资源库》提取的活动轨迹信息与讯问获取的活动轨迹信息进行比对,查看活动轨迹信息是否匹配,根据比对结果查看是否出现新的线索,如出现有价值信息,那么立即展开深入调查[27]。2.4系统的设计方案系统设计是指系统的总体设计阶段。这个阶段的任务是设计系统的模块层次结构,设计数据库的结构以及设计模块的控制流程,目的是确定系统应该“如何做〞。是在系统分析根底上确定系统的逻辑模型、功能需求,建立系统的物理模型。这个阶段分为两步,即概要设计和详细设计。概要设计解决系统的模块划分和模块的层次机构以及数据库设计。详细设计解决每个模块的控制流程,内部算法和数据结构的设计。系统架构通过调研需求分析,确定了犯罪行为分析系统的整体架构为10个模块,如图2-1所示。犯罪行为分析系统犯罪行为分析系统系统权限及角色定义模块系统初始化模块系统登录模块已抓获犯罪嫌疑人信息录入、修改、提交模块已抓获犯罪嫌疑人信息查询模块已抓获犯罪嫌疑人信息审核模块打印模块排序模块录入信息与倒查结果比对模块已抓获犯罪嫌疑人的活动轨迹信息〔倒查〕模块打印排序结果打印比对结果打印倒查结果信息打印已抓获犯罪嫌疑人信息警员〔单位〕信息初始化图2-1犯罪行为分析系统架构图功能模块描述在系统需求分析和系统架构的根底上,我们设计了整个系统的功能模块。系统的功能模块之间存在一定的联系,模块数越多那么模块的独立性也越差,因此,我们在设计系统的功能模块时尽量满足高内聚和低藕合的设计思想,使得设计出来的系统在满足关联的前提下具有良好的独立性。结合犯罪行为分析系统的实际要求,本文共设计了十个功能模块,各功能模块完成的功能描述如下。系统权限及角色定义模块该模块实现系统中所出现的所有权限和角色的定义。系统包括系统管理员,已抓获犯罪嫌疑人信息录入人员,审核人员和倒查评定人员四种角色,并由系统管理员为工作人员建立用户和设置权限。用户权限可以为输入已抓获犯罪嫌疑人相关信息权限、修改已抓获犯罪嫌疑人相关信息权限、查询已抓获犯罪嫌疑人相关信息权限、审核已抓获犯罪嫌疑人相关信息权限、提取已抓获犯罪嫌疑人活动轨迹信息权限、录入信息与倒查结果比对权限和打印权限系统初始化模块该模块分为3个局部:警员信息初始化模块,对全市所有警员信息进行入库汇总。汇总信息包括警员姓名,身份证号,区县,单位,分工等关键信息。犯罪嫌疑人的犯罪信息初始化模块,录入类别、危害程度、案件发生时间、发生地域、作案工具、作案手段、有何同伙人、是否有前科等信息。提取系统登录模块该模块负责所有授权系统用户的登录,首先,通过密码验证用户的真实性,然后根据用户名称对应的权限引导显示改权限相应的操作界面。同时,在登录界面上提供合法登录用户登录密码的修改界面(或不提供,由系统管理员负责登陆密码的设定已抓获犯罪嫌疑人信息录入、修改、提交模块该模块负责将已抓获犯罪嫌疑人所有信息的录入和修改工作,确认信息无误后并提交给系统。该模块设定专门的信息员对前期的数据进行整理和分类,最终将各类信息录入已抓获犯罪嫌疑人信息查询模块已抓获犯罪嫌疑人信息审核模块提取已抓获犯罪嫌疑人的活动轨迹信息(倒查)分析模块该模块负责根据已抓获犯罪嫌疑人的根本信息从《公安警务综合系统资源库》中提取并列出(按照时间线方式)该犯罪嫌疑人的活动时间轨迹信息,提供相应信息的横向和纵向的查询分析(1)聚类方法主要采用k-means算法对行为数据按照相似度进行划分,发现这些行为之间有价值的信息,帮助分析犯罪行为和预防犯罪行为的发生。(2)关联规那么方法使用关联规那么分析算法Apriori分析犯罪行为,以便发现犯罪行为的规律和趋势,从而更有效的打击和预防各类犯罪活动的发生。该模块是本文研究的重点内容,后续第3章和第4章将分别对两种方法做详细的阐述。录入信息与倒查结果比对模块该模块负责将已抓获犯罪嫌疑人的录入活动轨迹信息与从《公安警务综合系统资源库》中提取的该犯罪嫌疑人的活动时间轨迹信息进行比对,列出比对结果。比照结果主要从以下两个方面给出,一个是聚类分析的比对结果,一个是关联分析的排序模块该模块将某一个犯罪嫌疑人或者案件的信息按着与其他信息的相似度或关联度从大到小的顺序排序。这样工作人员可以很清楚看到各案件、各犯罪嫌疑人之间的0打印模块该模块负责打印所有可显示结果,包括:已抓获嫌疑人录入信息(根底信息和活动轨迹信息),从《公安警务综合系统资源库》中提取的犯罪嫌疑人的活动时间轨迹信息,倒查比对结果,相似度或关联排序信息[282.5本章小结本章详细介绍了设计犯罪行为分析系统过程中需要的主要技术和开发工具,包括数据仓库技术、数据挖掘技术、ASP.NET和SQLServer2005。深入研究了这些技术和工具对系统开发的作用,为系统的进一步设计做了准备。本章简单阐述了犯罪行为的主观方面和可观方面,根据犯罪行为的特点,提取能表征犯罪行为的特征属性。通过调研系统的需求分析,设计了合理的系统总体架构。最后详细说明了系统的功能模块设计。第3章聚类技术在犯罪行为分析系统中的应用3.1引言在数据挖掘和模式识别等研究领域聚类是一种重要的分析手段。聚类分析以相似性为根底,将一个数据集划分为假设干簇的过程,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。近年来,国内外研究学者已经提出了很多聚类算法,在模式识别、空间数据分析、文档分类、Web日志分析、电子商务等领域聚类分析方法得到十分广泛的应用。聚类分析的任务是在数据中找到彼此相似的对象组。目前,大局部聚类算法采用的是基于距离度量对象之间相似性度的方法。例如,典型的划分聚类算法k-means,它要求数据聚类个数k,然后将n个数据对象划分为k个聚类,输出的k个聚类满足同一聚类中的对象相似度较高,而不同聚类中的对象相似度较低。聚类相似度利用的是各个聚类中对象的均值所获得中心点来计算的。k-means算法的改良算法k-modes算法和k-modes-CGC算法等都保存了k-means算法聚类速度快的优点[29]。聚类分析方法是在从数据中找到相似度最大的对象组,对象组之间的相似度是基于数据之间的距离函数得到的。聚类分析的任务如下。(1)聚类需要具有处理不同类型属性的能力数据类型有很多种,聚类算法要能够处理不同属性。针对不同的数据类型有不同的聚类算法。(2)聚类应具有处理高维数据的能力很多应用都包含大量的特征项或者维数很高的对象,聚类算法要能处理这些数据。(3)聚类算法应能发现任意形状的类目前很多聚类算法是根据距离来衡量相似度的。这种聚类方法发现的是圆形或球状聚类,而如何发现任意形状的聚类是聚类算法的关键。(4)聚类算法应尽量使输入参数最少有一些聚类算法是需要用户输入的一些参数的。输入参数一定程度上决定了聚类结果的效果,往往这些参数不容易确定难决定,所以控制输入参数的个数是聚类算法的重点。(5)聚类算法要能处理噪声数据从现实世界获得的数据库通常会包含异常数据、不明确数据,也会有丧失的数据丧失和噪声数据存在,如果聚类算法对噪声数据敏感的话会导致聚类效果低下,能够处理噪声是聚类算法重要的研究内容。(6)聚类算法要对输入记录顺序不敏感有一些聚类算法输入数据的顺序不同聚类结果就会不同,也就是对数据输入顺序是敏感的。如何使聚类算法对输入数据顺序不敏感也很重要。(7)聚类算法具有可伸缩性有一些聚类算法在小数据集时工作表现很好,但是当数据库逐渐增大聚类效果就会很差。可伸缩性就是让聚类算法能保证大数据集时也具有很好的性能。(8)聚类要基于约束基于约束的聚类是指结合用户指定或面向应用的约束进行分类的一种方法。约束就是用户的期望或描述期望的聚类结果,约束是由用户指定或通过应用需求制定。犯罪行为之间往往都存在着一定的联系,不是单独存在的。但是这些联系却不易被发现,而是隐藏在一些看似没有关联的信息之中,通常办案警员都是凭借个人经验或者团队讨论将案件的前后信息进行串联和分析,从而发现一些有价值的线索。随着计算机技术的应用,侦查工作方式也有了突飞猛进的开展。由于聚类分析方法能够将数据对象依据其相似程度分为不同的类或组,因此,我们设计了基于聚类技术的犯罪行为分析方法,能够按照输入的要求自动将数据库中的对象聚成类,保证处于同一类中的对象具有较高的相似度,而处于不同类的对象之间的相似度较低。那么在同一个类中的犯罪行为就有很多共同的特征,方便办案人员发现破案线索。本章考虑犯罪行为的特性,确定采用k-means算法作为聚类算法的选择,其中,最正确的聚类簇数k通过计算数据对象的平均轮廓系数确定。3.2k均值聚类算法MacQueen在1967年首次提出了k均值聚类算法,它是一种非监督的学习算法,用于将给定的对象集划分成指定数量的聚类。该算法的核心思想是:找到c1,c2,…,ck共k个聚类中心,使得距离指标的代价函数即目标函数最小。k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心,而对于所剩下其它对象,那么根据它们与这些聚类中心的相似度或距离,分别将它们分配到与其最相似的聚类中,然后再计算每个所获新聚类的聚类中心,计算方法是该聚类中所有对象的均值,不断重复这一过程直到目标函数开始收敛为止。算法描述如下:算法3.1:k均值算法输入:k,n个数据对象;输出:k个聚类;(1)从D中随机取k个元素,作为k个簇的中心。(2)分别计算剩下的数据对象到k个簇中心的相似度或距离,将这些数据对象分别归如到相似度最高或距离最近的簇。(3)根据聚类结果,重新计算k个簇的中心,计算方法是取簇中所有数据对象维度的算术平均数。(4)将D中全部数据对象按照新的中心重新聚类。(5)重复第4步,直到聚类结果不再变化。(6)输出聚类结果。K-means算法的优点是能对大型数据集进行高效分类,聚类算法速度较快。K-means算法的缺乏是在获得一个局部最优值时终止,仅适合对数值型数据聚类,只适用于聚类结果为球形的数据集[30]。3.3犯罪行为的聚类分析犯罪行为之间存在很多的联系,有些可以被人们直接发现,有些却隐藏在众多信息背后,随着数据量的不断增大,信息之间的联系就越难被人们发现,借助计算机辅助手段是一种很好的解决方法。由于聚类算法是按着属性的相似程度将信息分成不同的类,正好满足犯罪行为分析的要求。设计使用聚类算法对数据对象进行划分操作,这样能识别犯罪行为数据的稠密和稀疏区域,发现这些行为的全局分布模式以及彼此间有价值的相互关系,优化大规模数据库的查询,并发现行为中隐含的信息和知识[31]。3.3.1数据预处理根据犯罪行为分析系统的架构设计,我们收集了已发生案件数据。然后对犯罪行为数据进行预处理。这些收集到的原始数据不一定适合直接用于数据挖掘,需要进行预处理加工,对原始数据资料中遗漏的信息,需要补充,对原始资料中值域是实数值的数据,需要进行离散化。(1)数据补齐方法如果原始资料不完备,某些是属性值是被遗漏的话,需要对遗漏数据进行补齐。一种途径是简单地将存在遗漏属性值的实例记录删除,从而得到完备的信息。在数据量大并且有遗漏属性值的实例数量远远小于原始数据的记录数时,这种方法在删除记录之后并不太影响信息表中信息的完整性,是一种可取的处理方式。但当原始数据中信息较少、存在遗漏信息的实例相对较多时,这种方法就会严重影响原始数据的信息量,不能采用这种方法处理。第二种途径是把空缺属性值作为一种特殊的属性值来处理。它不同于其他任何属性值。第三种途径是采用统计学原理,根据原始数据中其余实例在该属性上的取值分布情况来对一个遗漏属性值进行估计补充,这样不会影响原始数据中包含的信息量。第四种途径是根据粗糙集理论中不可分辨关系来进行补齐。(2)数据离散化数据要求为整型、字符串型、枚举型。如果属性的值域为连续值,那么处理前须进行离散化处理。预处理的功能主要有两个,一个是根据收集到的数据生成决策系统,一个是对决策系统的属性进行特征提取和数值化。一般离散化分两类“非参照性的离散化算法〞和“参照性的离散化算法〞。非参照性的离散化算法在离散化过程中很少考虑或不考虑原始数据的具体属性值,而参照性的离散化算法是参照原始数据的具体值来进行。就离散化算法,目前已经有很多种方法,有等距离划分、等频率划分、适应离散法、粗糙集方法等等。这里我们采用基于属性重要性的离散化算法,粗糙集理论为研究不完整数据分析、推理、发现数据间的关系,提取有用特征,简化信息处理等提供了有力的工具。目前,粗糙集理论已被应用于模式识别、预测,算法实现过程如下。(1)首先根据属性的重要性由小到大排序,在属性重要性相同的情况下,按属性断点个数由多到少对属性排序。(2)对每个属性V进行下面的过程。(3)对属性V的每一个断点,考虑它的存在性,把原始数据中与断点C相邻的两个属性值的较小值改为较大值。如果发生冲突去掉该断点,否那么把修改正的属性值复原。这个算法通过对每一个断点进行判定,去掉冗余的断点,从而简化了原始数据。3.3.2利用轮廓系数确定聚类簇数聚类算法中确定聚类个数是一个难点和重点问题,为了提高聚类的质量和效率,我们引入了轮廓系数(silhouette)。轮廓系数是对凝聚度和别离度的一种改良。轮廓系数将行为数据集中的任一对象与其属于同一簇中其它对象的相似度或距离以及该对象与其它簇中对象的相似度或距离进行比拟,以此比拟结果作为聚类结果的评价标准。假设第i个对象,我们记该对象到其所属簇中所有对象的平均距离为ai。而第i个对象和不包含该对象的任意簇,计算该对象到给定簇的中所有对象的平均距离,找到所有簇的最小值记为bi。那么对象i的轮廓系数silhouettei的计算公式为(3-1)。silhouettei=(3-1)式中,当silhouettei=1时,表示对象i与其它簇中的对象相似度较小。当silhouettei=0时,表示对象i分类情况不明显。当silhouettei=-1时,表示对象i分配到了一个错误的簇。由公式(3-1)知,轮廓系数的取值在-1和1之间变化,当ai<bi时,对象i的轮廓系数值为正;反之为负。轮廓系数可以用来评价数据对象所在的簇是否适宜,假设轮廓系数接近1,表示簇内平均距离远小于最小的簇间平均距离,表示数据对象得到了正确的分类,假设轮廓系数接近-1,表示该数据对象分类不准确。轮廓系数可以衡量聚类的有效性,比方选择最正确聚类个数。具体方法如下:对于所有的可能分类数,取得最大值时的k就是最正确的聚类数目,我们认为此时的聚类结果是最理想的。本文通过计算待聚类行为数据集的平均轮廓系数,确定聚类的个数k。应用取得的聚类个数k来进行聚类过程,这样可以提高算法的效率。3.3.3犯罪行为相似度为了比拟犯罪行为之间的差异,我们使用行为对象间的属性相似度来进行分析。相似度的度量是聚类的关键问题之一,数值属性的相似度可以用欧几里德(Euclidean)距离来测量。然而分类属性无法用欧几里德距离度量,这里我们采用两个对象之间的二元相异度作为度量标准。设二元变量具有相同的权重,可以得到一个相依表如图3-1所示。那么两个对象间的距离定义如公式(3-2)所示。(3-2)11010sumaba+bsum对象i对象jcdc+da+cb+dp图3-1二元变量相依表3.4算法设计行为数据聚类前用轮廓系数确定聚类的个数k,之后使用k-means算法实行聚类过程。首先,随机选择k个行为作为聚类中心,然后将待分类行为与各聚类中心行为进行比拟,将其划入与其距离最近的聚类中,当所有行为划分完毕后根据聚类结果重新计算聚类中心,重复上述过程,直到目标函数收敛为止,聚类结束。对于聚类内行为数小于阈值数的聚类将视作异常行为。下面将详细描述确定聚类数、异常行为分析和行为数据聚类的具体算法[32]。3.4.1求最正确聚类数的算法本文采用轮廓系数,通过计算行为集中各行为的平均改良轮廓系数值来确定数据集的最正确聚类数。算法3.1:求最正确聚类簇数的算法该算法将根据行为数据集求得最正确聚类个数,这个聚类数k将指导后续的聚类过程,用以提高聚类的效率[33]。3.4.2异常行为的处理在行为数据库中会有一些明显区别于其他行为的数据,我们称为异常行为或孤立点,而只包含少量行为数据的簇可能是孤立点簇。这些行为对案件分析和案件预防有相当重要的意义。我们使用k+x个簇加权的方法降低聚类对孤立点的敏感性,方法是计算每个簇之间的加权距离,然后将这个距离与预先设定的阈值进行比拟,最终判断是否为孤立点簇。算法描述如下:算法3.2:判断孤立点簇输入:k+x个簇,阈值;输出:k个簇。Begin(1)当聚类的簇数不为k重复(2)到(9);(2)分别计算k+x个簇质心间的加权欧几里得距离;(3)构建k+x个簇的质心的加权距离矩阵Mc;(4)将Mc中的值按着升序的顺序排列;(5)将排序结果存入顺序表中;(6)根据阈值在顺序表中找到与其距离最远的簇;(7)将此簇设为临界簇;(8)将顺序表中排在临界簇后面的簇都作为是孤立点簇;(9)返回k个簇。End关注孤立点簇的行为,并分析行为产生的原因,从而确定案件的新属性以及采取有效的措施预防类似案件苗头[34]。3.4.3行为数据聚类算法在确定聚类个数k后,接下来就是要对数据库中的行为按照要求进行分类,并输出分类结果。由于k-means算法的高效性,我们使用该算法作为聚类行为数据的根本算法。算法3.3:k-means算法。输入:k;输出:聚类结果。Begin(1)将所有对象随机分配到k个非空的簇中。(2)计算每个簇的平均值,并且该平均值代表相应的簇。(3)根据每个对象与各个簇中心的距离,分配给最近的簇。(4)然后转(2),重新计算每个簇的平均值。这个过程不断重复直到满足某个准那么函数才停止。End通过聚类分析,工作人员可以依据案情需要输入要搜索的条件获得感兴趣的知识。这些具有相似特征的信息可以有效分析案情,帮助工作人员尽快侦破案件,更重要的是,也可以总结这些信息的特点,为类似案件的预防提供帮助[35]。3.5本章小结本章深入分析了聚类算法在行为分析系统中应用的必要性,并在此根底上选择了k-means算法作为行为数据聚类的算法。用轮廓系数确定聚类数目,在用聚类算法根据相似度的不同将行为分为不同的类。分析后知,采用聚类算法分析犯罪行为,能够满足侦查的根本需求,使查询变得简单而灵活。第4章关联规那么分析在犯罪行为分析系统中的应用随着计算机技术的开展,使用和存储的数据量也越来越大。当人们面对这些海量数据时,要采取有效措施加以处理问题。数据挖掘技术就是一个很好的解决方法。目前,数据挖掘技术也在计算机犯罪行为分析和取证分析领域有所应用,该项研究主要分为两个方面,一方面是对犯罪行为的分析、预测和防范,也就是通过对已发生案件的犯罪行为挖掘内在的联系,从而得到犯罪行为模式的一般特征,同时可以这些特征进行分析和预测,以便为警方的侦破工作提供新的线索和帮助。另一方面利用计算机分析日志进行取证分析,比方可以使用关联规那么方法挖掘这些日志,从而进行特征分析和特征提取等。计算机犯罪行为分析就是从海量的数据集中获取与计算机犯罪活动相关证据的过程,该方法是对不同的信息源数据进行分析。相关性分析可采用关联性证据查找和智能知识分析以及数据挖掘技术。而关联规那么挖掘方法是数据挖掘中一种重要的方法,是从大量的数据中发现有价值行为之间相互关联。关联规那么可以对犯罪行为进行分析,可以分析什么事件会一同出现,什么事件顺行发生,犯罪嫌疑人的行为特征,从而发现这些行为固有的规律。近年来,公安部门信息化建设已经取得了很大的成果,有效打击了违法犯罪行为,维护了国家和人民生命财产的平安。但是,随着社会经济的不断开展,犯罪形态有所变化,呈现出很多新的特性。职业犯罪、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论