大数据挖掘技术在案件串并和嫌疑人排查中的应用_第1页
大数据挖掘技术在案件串并和嫌疑人排查中的应用_第2页
大数据挖掘技术在案件串并和嫌疑人排查中的应用_第3页
大数据挖掘技术在案件串并和嫌疑人排查中的应用_第4页
大数据挖掘技术在案件串并和嫌疑人排查中的应用_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘技术在案件串并和嫌疑人排查中的应用一、序言传统的信息管理系统(MIS),主要针对的是日常的结构 化问题,以提高组织的运营效率为目标,通过将大量的数据 转换为有价值的信息来强化管理。随着社会的进步和技术的 发展,人们不再仅仅满足于获取多种信息和简单的使用信 息,而是想在深层次上利用这些信息为组织的决策提供帮 助。因此,为了弥补MIS的不足,为了更好进行市场预测、 资源配置、人力优化和生产管理,在管理科学、运筹学、数 理统计、人工智能等新方法和新技术的推动下,人们开始重 视决策支持系统(DSS)的研究和应用。“9.11”事件发生以后,西方主要发达国家都高度重视 数据挖掘在刑事犯罪情报分析领

2、域的应用研究。刑事犯罪数 据的分析与挖掘主要是通过对犯罪记录进行分析,从而发现 犯罪行为的规律、趋势,了解不同犯罪行为之间的关联,以 及何种状态会诱发何种犯罪行为,进行串并案分析,提供破 案线索和情报,预测并预防犯罪。在中国,随着经济增长、社会变革深入、人员流动性增 强,影响社会稳定的不安定因素增加。特别是2008年以后, 中国大陆人均GDP突破3000美元,侵财类案件进入高发周 期,流窜作案、团伙作案等新型犯罪手段层出不穷。部分公 安机关开始运用商业智能(BI)的思维,利用商业智能(BI) 分析工具,结合长期积累的侦查办案经验,探索建设警务决 策支持系统,研究开展基于犯罪数据的分析挖掘。二、

3、案件串并和嫌疑人排查的主要方法1、关联规则分析关联规则算法指数据中两个或多个变量取值之间暗含 的某种规律性。支持度是对关联规则重要性的衡量,置信度 是对关联规则准确性的衡量。以挖掘关联规则为目标的挖掘 过程一般包含两个阶段,第一阶段,从资料库中找出所有的 高频项目组,它们出现的频率相对于所有组而言,达到或超 过所设定的最小支持度。第二阶段,从高频项目组中产生关 联规则,保证应用该规则得到的结果可以达到最小的置信 度。关联规则在公安情报分析中的典型应用是对犯罪行为规 律的挖掘。运用关联规则可以发现犯罪分子的身份、年龄、 地域等特征与其在实施犯罪行为中所使用的手段、特点、选 择的地点以及侵害对象等

4、方面的关联规律性,把具有相似特 征的犯罪人员从海量数据中分拣出来,形成“高危人群”数 据库,利用高危人群数据库指导帮助案件侦破。2、聚类分析聚类分析方法主要是研究对象中各点之间存在的程度不同的相似性,根据对象属性找出各点间相似程度的序列, 把一些相似程度较大的点聚合为一类。在公安情报分析中, 聚类分析方法应用最广泛。可以对犯罪手段、特点、作案时 间等关键要素进行挖掘,帮助分析人员确定具有较高相似度 的案件,刻画嫌疑人特征,并把看似不相关的案件进行合并 侦查。可以挖掘发现案件的高发时段、高发地区以及高发的 作案手段,指导巡逻防控和情报预警。3、协同过滤协同过滤分析方法是在用户群中找到指定用户兴趣

5、相 似的用户,综合这些相似用户对某一信息的评价,形成该指 定用户对此信息的喜好程度的预测。一般分为基于项目的协 同过滤和基于用户的协同过滤。在公安实战中,我们可以将 案件(一串案件)发生轨迹视为“项目”,将嫌疑人活动轨 迹视为“对项目的偏好”,通过计算轨迹吻合度,推荐可能 的犯罪嫌疑人。4、分类与回归分类与回归分析主要用于找出描述并区分数据类的模 型(或函数),以便能够使用模型预测未知的对象类。分类 分析的目的是学会一个分类模型,该模型能把数据库中的项 映射到给一组类别中的某一个类。在公安情报分析中,可以 使用分类与回归的分析方法,将特定的人员(例如:前科人 员)映射到“高危人群”中,当“高危

6、人群”出现时,出符 合“犯罪内容”特征的犯罪预警。三、案件串并和嫌疑人排查业务需求1、业务背景随着“金盾工程”建设的深入开展,各级公安机关已经 逐步建立了各类公共基础信息资源库、人员社会行为动态信 息资料库和业务信息系统,积累了大量的数据资源,这些数 据资源和信息系统在辅助各级公安机关业务人员进行案件 调查工作和服务群众等方面带来了很大的帮助,在一定程度 上提高了案件处理的效率和水平。但是,大部分公安机关对 案件进行串并、摸排嫌疑人仍停留在利用经验积累进行人工 分析的初级阶段。面对信息资源不断增长的现状,公安机关 迫切需要运用数据挖掘的思想和方法,对各类数据背后所蕴 涵的内在的、必然的因果关系

7、进行挖掘,提高案件串并和嫌 疑人排查工作效率。2、业务应用场景由于犯罪行为动力定型的稳定性和犯罪心理的思维定 式,系列犯罪案件的作案人在其不断的犯罪活动中的行为和 特征具有稳定性和规律性。本文所描述的分析方法适用于具 有连续作案行为特征的犯罪情报分析,例如:团伙流窜案件、 涉黑涉恶案件等可防性案件,不适用于偶发的、突发的“激 情”犯罪。3、建设目标使用成熟的图形化展示工具,集成串并案分析、排查嫌 疑人功能,建立一个面向情报分析人员的智能分析系统。系 统具备自学习功能,提供便捷、有效的串并案模型和排查模 型,促进信息深度利用,提高公安机关信息化应用水平、串 并案和排查嫌疑人工作效率。4、业务流程

8、(1)建立案件特征库。分析已破案件特征,包括:案 件类别、作案特点、作案时机、侵害对象、作案工具等项目, 分别生成串并案模型。(2)建立违法犯罪人员特征库。对已破案件以及相关 的违法犯罪人员进行分析,挖掘案件特征与犯罪人员特征的 潜在关联关系,构建“高危人群”数据库。(3)运用串并案模型,针对未破案件,开展案件串并, 并推荐出可能作案的高危人群。(4)构建违法犯罪人员活动轨迹数据库,包括:违法 犯罪人员乘坐出租车轨迹,违法犯罪人员机动车经过卡口(电子警察)轨迹,违法犯罪人员手机经过电子围栏(基站) 轨迹,违法犯罪人员上网、住宿、社保卡消费、公交(公共 自行车)轨迹,重点人员本地金融活动轨迹,违

9、法犯罪人员 室外活动轨迹(基于天网工程人像比对发现)。备注:违法犯罪人员机动车包含其本人所有车辆、同住人和同户人所有车辆。(5)将已串并案件的案发轨迹与符合高危特征的犯罪 人员活动轨迹叠加分析,计算时间和空间上的吻合度,并推 荐出未破案件的可能嫌疑人。四、详细设计方案根据需求分析,实现业务应用功能总体设计思路为:对 数据进行汇集、整合、建模,运用数据挖掘算法发现和揭示 数据中隐含的关联关系,并使用图形方式展示。项目总体逻 辑架构图如下:些妄身价认证与诂问控机皆理京统图1:总体逻辑架构图1、数据获取:对数据挖掘的数据源进行搜集整理。根据业务需求,搜集案件、嫌疑人、嫌疑人活动轨迹信 息,获取数据源

10、连接和访问权限,对数据结构进行分析,完 成找到数据的工作。根据需求和数据源状况,确定数据更新 方法、更新策略,选择ETL工具,本项目选择IBM Datastage。数据源名称来源ETL策略备注刑事案件信息本地业务系统立案时间、每日、增量用于挖掘案刑事案件现场勘验信息本地业务系统勘验时间、每日、增量用于挖掘案违法犯罪人员(本地)本地业务系统录入时间、每日、增量按身份证去违法犯罪人员(全国)公安部下发每月、批量按身份证去户籍人口本地业务系统录入(修改)时间、每日、增量用于确定违实有人口本地业务系统录入(修改)时间、每日、增量用于确定违出租车轨迹以及乘客照片社会资源乘车时间、每日、增量照片比对确卡口

11、过车信息本地业务系统过车时间、每日、增量发现轨迹电子警察抓拍信息本地业务系统抓怕时间、每日、增量发现轨迹电子围栏和话单本地业务系统经过(通话)时间、每日、增量发现轨迹网吧上网记录本地业务系统下网时间、每日、增量发现轨迹旅馆住宿记录本地业务系统入住时间、每日、增量发现轨迹社保卡消费记录社会资源刷卡时间、每日、增量发现轨迹公交(公共自行车)刷卡记录社会资源刷卡时间、每日、增量发现轨迹重点人员本地金融活动记录公安部下发刷卡时间、每日、增量发现轨迹违法犯罪人员室外活动轨迹本地业务系统经过时间、每日、增量图像挖掘、表1:数据源表文案大全2、预处理:为数据挖掘提供符合要求数据,包括数据 清洗、转换(标准化

12、)、装载、建模。采用数据抽取工具(ETL),对收集的数据进行抽取、清 洗、转换及装载,实现数据的整合、去重,向多维数据仓库 提供高质量的数据。图2: ETL过程在此基础上对数据进行关联、建模,为情报分析研判提 供可用的数据。根据业务特性,确定案件、犯罪人员以及犯 罪人员活动轨迹三个主题,区分维度数据表和事实数据表, 建立数据仓库模型。下图为案件事实表以及相关维度表数据 结构示例。作部点维度作案特点第二层编码码普称述 编蠢名描 层冒层层 一一一二二间 第小定弟第S前 点占苫苫苫又 特 33 特 36? 案麦娈木案支箱 作*作嘉作案选择处所第二层编码作案迷棒处所第一层编码作案诜圣处所第一层名称1

13、1 1 iniEnii作案诜军处所第二层描述作案选:棒处所维度载入时间作案选择处所维度案件类别第三层编码牛甥 牛甥牛类9牛甥 据码称普称恭述 编名窜名蔓描 层层冒层冒层 一一 一二二二三三间 第第*定鬼第心定鬼第时案件类别维度办案单位维度亦案单位第二昼扁码 亦案单位第一昼扁码 亦案单位第一层名称亦案单位第二层描述 数据载入时间作案工具维度作案工具第二昼扁码作案工具第一昼扁码 作案工具第一层名称 赛_ 其漏二作案工具第二层描述作案选择对象第二层编码jt;.; 1码普称述 编蠢名描 层冒层层 - 象象象间作案选择对象维度志士黑标士空心(F玛妈码码(F 起母K-.码母端端端费母母二漏二 (F(F(F

14、端(F督层房(FF第层第W:态W: 码 号期期亲忧案码京码码间 编曰曰恭案恭编编编时 件发理lii理支亦立案案水 案案处受立不馨受立不破结流码维码 端17端 层码层K:.码码is码三二二二数码玛斯三象 F端端端编类端2定弟第心八端端处第对 胃机莆域口曾位占同因口择别择 WE幼栾地出手工单堂(原涂类选 .段发案案件发案IMO善委亲案塞亲件案 时案作墨亲案作作作办作作作作作案作ti图3:数据结构实例(案件表)3、数据挖掘:使用挖掘算法进行挖掘,找出有用的信 息。(1)运用聚类分析方法,对某地近十年来的已破刑事 案件进行分析,构建刑事案件空间向量矩阵,矩阵的行为一 起刑事案件的一个空间向量,矩阵的列

15、为作案手段、选择处 所、选择时间、作案特点等特征。采用聚类操作后,如果多 个案件的多个或全部属性都有相似性,就可以认为这是一串 案件,并形成一套分类规则,即案件串并模板。下图展示了 部分串并案模板。1技唳开欲鲫成作案手段核术开题5Q作案手段攀爬入室50迭择时机彳目同10迭择处所彳目同30迭择处所-迭择住宅层次相同10迭择处所-迭择住宅层发相同10迭择处所彳目同30迭择时机彳目同10萼修改6 aw除情、扳窗栏人室.翻窗室作案手段隔、扳窗栏入室50作案丰段翻窗入室50迭择处所彳目同30迭择时机-相同10选择处所凝择住宅层茨相同10迭择处所-迭择住宅层淡相同10选择时机彳目同10选择处所耳目同30彩

16、改m 除 _ _,尊改圈除图4:案件串并模板示例图5:案件串并模板示例(2)运用关联规则分析方法,对某地近十年来的已破刑事案件特征(II:作案手段、12:作案特点、13:案件类型、I4:选择处所)和犯罪分子特征(15:户籍地行政区划)进行 关联,构建数据库事务集合D。运用Apriori算法,扫描事 务数据库,产生候选项集,设置min_sup=50,逐步迭代,产 生频繁k项集Lk以及支持度计数,k,2且必须要包含I5:户 籍地行政区划;设置min_conf=80%由频繁k项集Lk产生并 输出强关联规则,得出高危人群数据库。表2展示了运用关 联规则分析方法分析的高危人群部分数据样本。I1作案手段I

17、2作案特点I3案件类型I4选择处所I5行政区划区划名称迷信多人作案诈骗街面340823安徽枞阳县技术开锁单人作案盗窃车内财物路面411528河南息县冒充军人、干部单人作案诈骗412825河南上蔡县撬防盗门入室作案入室盗窃工商企业430427湖南耒阳市利用口香糖技术开锁入室作案入室盗窃居民小区431224湖南淑浦县飞车抢夺多人作案抢夺440229广东翁源县插片开锁多人作案入室盗窃452728广西东兰县夜间攀爬翻窗多人作案入室盗窃居民小区513428四川凉山籍表2:高危人群样例数据(3)运用串并案模板对现行案件进行串并,并根据案 件特征(作案手段、作案特点、案件类型、选择处所等)比 对高危人群数据

18、库,推荐出可能作案的高危人群。图6:运用串并案模板进行串并案件(4)建立符合可能作案的高危人群特征(户籍地)的违 法犯罪人员活动轨迹数据库,构建案件轨迹与嫌疑人员活动 轨迹的空间和时间矢量矩阵,通过计算矢量距离,推导出与 案件时间、轨迹吻合度最高,且符合案件特征的可能的作案 嫌疑人。表3展示了一串案件发生时,6个符合特征的嫌疑 人手机位置与案件发生地点的空间矢量距离,null表示没有发现其活动信息。嫌疑人1嫌疑人2嫌疑人3嫌疑人4嫌疑人5嫌疑人6案件1325mNullNull589mNullNull案件2Null600m400m5060mNullNull案件3160m2430mNullNull

19、Null3680m案件4400m890m280mNullNullNull表3:嫌疑人手机位置与案件发生地点的空间矢量矩阵通过对表3的数据进行分析,可以初步判定嫌疑人1、 嫌疑人2、嫌疑人3具有重大嫌疑。在实际操作中,单一种 类轨迹构成的矩阵可能非常稀疏,往往需要将多种轨迹信息 进行叠加分析,以提高分析的准确性。4、用户界面:将数据挖掘通过可视化的方法展示给用 户。(1)数据挖掘过程具有高度的交互性,在涉及多维数 据挖掘的过程中,要构建灵活的用户界面和探索式的挖掘环 境。在串并案模板挖掘过程中,我们采用构建立方体(Cube) 的方法,允许用户运用知识背景进行下钻、切片、维度旋转、 设置度量等操作。(2)数据挖掘结果展示采用可视化图形报表技术,具 有用户友好界面,使得所发现的知识容易被理解。对于轨迹 类信息的展示,采用GIS技术,将案件发生地点和嫌疑人活动轨迹以散点形态展示在地图上。公民求助刑亭扉杵 5.70% 治安窍杵

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论