




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高危人员数据对象分析与数据挖掘研究王 电 1, 杨永川2(1. 中国软件 与技术服务股份有限公司 , 北京 100081; 2. 中 国人民公安大学 , 北京 100038摘 要 通过高危人员数据集合 中各数据对象构成之间的关系确定高危人员的基本数 据定义 , 从而使高 危人员的 传统、 静态的数据定义延展为基于案件的、 动态的数 据定义 , 进 而建立服 务于情 报研判 的高危 人员数 据模型 , 使得 高危人员的数据空间具备更加实 用和科学的数据边界。 关键词 高危人员 ; 数据对象 ; 数据挖掘 中图分类号 T P 392:D631作者简介 王 电 (1957 , 男 , 云南昆 明人
2、, 中国人民公安大学客座教授、 中国软件与技术服务股份有限公 司高级工 程师。 主要研究方向为基于公安信 息的计算机应用系统设计与数据挖掘。0 引言为了准确、 科学地描述公安业务中高危人员的数据对象特性 , 本文基于高危人员的分析研判主题 , 对高危人员的数据体系进行了实际的分析。首先 , 按照公安信息数据体系结构模型的概念 , 研究以 /人 员 0为核心的数据对象构成 , 建立基本的、 收敛的数 据模型。其次 , 确定公安信息数据体系结构的技术 路线 , 构建以 /人员 0和 /案件 0为基本分类方案的数 据空间 , 以此构建符合高危人员数据体系结构的数 据事实表。再次 , 根据基于主题的信
3、息应用数据空 间 , 构建以 /高危人群 0和 /高危人员 0为实际主题应 用的数据空间 , 以此验证基于主题应用的高危人员 数据体系结构的数据空间是否可以由类似 /高危人 员维表 0的数据维表来构建。 1 信息属性与构成分析111 高危人员基础定义宏观上讲 , 高危人员是指符合某些特征的一群 人员 , 这些人员相对一般人员更可能会成为犯罪嫌 疑人员或被侵害人员。高危人员分析的主要目的就 是要找出这些特征 , 分析挖掘出某些特征项和特征 值 , 对公安人员防范打击犯罪的过程给予指导性意 见 , 使公安人员的决策判断更加有效、 准确。 112 高危人员信息属性项分析高危人员按照犯罪嫌疑人高危人员
4、和被侵害高 危人员 , 拥有互相独立但又存在交叉的两套信息属 性集合 , 每一套信息属性集合又可按照类别的不同以树状结构管理。同时由于 在公安业务信息 系统 中 , 与人员相关的信息属性项数量庞大 , 不可能全部 拿来作为两种高危人员的信息属性项集合 , 而且因 为分析的目的、 侧重点、 方法各不相同 , 把所有人员 相关的信息属性全部考虑、 不加处理地进行分析 , 不 可能得到很好的分析结果。所以 , 对这些庞杂的人 员信息属性项进行重新归类、 剔除、 综合、 转化等的 处理措施是非常有必要和非常关键的。这些过滤处 理措施的质量将直接影响到数据挖掘模型的建立 , 并最终影响挖掘结果。在高危人
5、员信息属性项确定之后 , 还要确定在 每个属性项下面的属性值。同高危人员信息属性项 一样 , 如果这些属性值没有得到很好的分析和处理 的话 , 最终的高危人员分析结果也会受到很大的影 响。对高危人员信息属性值的处理主要是综合和剔 除处理。经过处理的属性值颗粒度粗细适合、 分类 清晰、 与业务关系紧密 , 这将为最后分析结果的质量 提供有效的支撑 , 而且为挖掘结果的模型应用也奠 定了很好的基础。113 高危人员信息的来源高危人员的各类信息主要来源于现行的各个公 安业务系统之中 , 它们为高危人员的信息分析提供 了很好的数据来源基础。存在于大量业务系统之中 的关于人员的信息数据 , 可以丰富高危
6、人员信息 , 并 可提供扩展性很强的交互操作 , 但同时对于高危人 员信息处理工作也是相当大的挑战。不同的信息存 放格式、 不同的信息分类、 各式各样的软硬件环境都 将对高危人员信息处理工作提出相当苛刻的要求。中国人民公安大学学报 (自然科学版 最终的高危人员信息处理要满足灵活、 健壮、 可扩展 性强等硬性的要求 , 因此 , 高危人员信息的来源问题 是分析研究过程中的重要环节。114高危人员信息的分布密度分析高危人员信息的分布位置主要取决于分析主题 和分析人员的方法。分析人员首先要挑选出对已定 主题具有比较重要贡献的人员信息项作为参与聚类 的元素 , 然后将这些信息作为聚类算法的输入进行 分
7、析得出结论。所以高危人员信息的分布密度问题 存在人为定义和控制的问题。2信息分类与边界分析211高危人员的基本分类高危人员分为犯罪嫌疑人高危人员和被侵害人 高危人员。犯罪嫌疑人高危人员是指按照某种约束 下带有犯罪嫌疑人普遍具有的特殊特征或者符合犯 罪嫌疑人普遍遵循的特 殊规律的一部 分人群。同 样 , 被侵害人高危人员则符合那些被侵害人普遍符 合的特征和规律。这些高危人员的信息项又可以根 据性质归类为几个大项 , 如人员的基本信息 , 其中包 括人员的年龄、 性别、 居住地等 ; 人员的家庭情况信 息 , 其中包括家庭成员 , 户籍地等 ; 人员所涉及的案 件信息 , 其中包括案件的类别、 作
8、案工具、 作案时间 等。这些大项最终又可以根据具体的情况继续细分 , 比如案件信息可以再分为现场信息 , 笔录信息 , 等等。 212高危人员信息与案事件信息的关系高危人员信息来自于各种各样的人员信息 , 而 这些信息与案事件信息是以多对多的关系存在的。 例如 0案件发生地 /作为案事件信息 , 它可能会对应 到多个犯罪嫌疑人身上 , 而同一个犯罪嫌疑人也可 能会在多个地点实施犯罪 , 也就是对应到不同的案 件发生地之上。所以高危人员信息和案事件信息的 关系是在案事件中涉及人员信息基础上的一种多对 多的关系。213高危人员信息与主题的关系所谓信息主题 , 就是针对某一个特定的数据域。 面向主题
9、的高危人员 , 实际就是在分析高危人员的 过程中对 过于宽泛的数据集合给予一 定的限制条 件 , 在这些限制条件之下所得出的分析结果即面向 主题的高危人员数据。例如将案件性质作为分析主 题 , 这样就可以得到在不同案件性质下的高危人员 构成的分析结果。214高危人员的信息边界定义高危人员信息边界也就是界定是否为参与高危 人员分析的数据构成。具体的界定将根据高危人员 的分析主题而定 , 但都符合一个原理 , 即参与分析的 信息项要对所分析的数据事实项有直接或间接的影 响 , 并且在业务上存在使用价值 , 这两点同时满足时 这个信息项就可以定义为高危人员信息。高危人员信息边界具有一些特征 , 在原
10、理上讲 , 在边界内的信息项将会定性、 定量和以固定的方向 影响最终的高危人员分析结果 ; 而在边界外的信息 项则会产生随机的噪声信息 , 并附加在分析结果之 上 , 使得这些信息项对最后结果的贡献无法稳定。3高危人员的信息模型311高危人员信息的理想模型高危人员信息的理想模型应该符合以下主要特 征。首先 , 高危人员信息应该与高危人员分析事实 有直接或者潜在的联系。例如人员的年龄信息 , 根 据犯罪嫌疑人作案的规律和经验 , 犯罪嫌疑人年龄 与案件的类型、 使用工具等犯罪事实都会有相应的 联系 , 那么年龄信息就应该作为高危人员信息的一 项来进行处理。相反 , 比如人员的血型信息 , 根据直
11、 觉和以往的办案经验 , 它不会和案件等事实信息有 任何的联系。同样 , 公安人员在办案过程中也不会 将人员的血型信息和其他信息建立起联系 , 所以这 个人员的血型信息就不适合出现在高危人员的信息 项中 ; 其次 , 人员信息之间的联系不应该过强 , 过强 的关联信息将导致最终的聚类分析结果侧重于这些 联系项 , 而忽略了其他事实上更加重要的规律数据。 例如人员的居住地和户籍地 , 大多数情况下 , 人员的 居住地和户籍地都是同一个地方 , 这两项之间在本 质上有着相当强的联系 , 这时将这样的数据进行聚 类分析的结果将会显示出按照居住地和户籍地的关 联关系所得出的聚类结果。所以 , 这时就应
12、该对这 两项信息进行处理 , 比如去掉一项或者用另外一种 形式表示。312高危人员信息的基本模型高危人员的基本模型主要描述在案件发生过程 中 , 有可能构成高危人员的全部数据关系所构成的 数据空间 , 在这个数据空间中 , 主要解决高危人员基 本模型的完整性和收敛性问题 , 但决不意味着特定 高危人员的数据空间必须完整地由模型所描述的数 据实体和数据关系构成 , 缺一不可。高危人员信息基本模型的形成依据及原则主要 遵循理想模型中遵守的原则 , 同时也需要考虑现实 情况中各种约束条件 , 比如数据挖掘聚类分析算法图 1高危人员信息的基本模型的选取、 业务系统中原有数据情况、 主题类型等具体 情况
13、 , 都会影响到具体的、 特定的、 与事实相关的数 据模型建立过程。313高危人员信息的事实模型高危人员信息的事实模型主要是基于具体的案 件建立的 , 同时也可以扩展到基本的人员信息。在 聚类分析数据挖掘过程中 , 可以将一些信息项不作 为聚类依据而作为统计数据 , 也就是事实数据来进 行计算。比如高危人员涉及案件的案件数就可以作 为一个统计项进行分析 , 在最终的聚类分析结果中 , 可以依据这个数值对各个高危人群的重要性给予评 估。从而形成了依据 /案件性质 0而聚合产生的高危 人员数据空间和相应的指标体系 , 而描述这个高危 人员数据空间的模型被称之为基于 /案件性质 0维度 而构建的主题
14、切片数据空间 , 示例中表现的是基于 /系列盗窃案 0的高危人员信息构成的事实模型。 314高危人员信息的维度模型高危人员信息的维度模型也就是除去事实模型 的参与聚类分析的数据信息项 , 这些信息项对最终 的聚类结果按照分析人员给定的不同权重分别给予 一定的贡献。以树状结构组织的维度模型事实上只 有树叶节点数据参与最终的聚类分析 , 而作为树枝 节点的数据则主要起到逻辑归类的作用 , 但如果将 此模型应用到其他数据挖掘算法中 , 比如关联规则 的数据挖掘则会起到真实的作用。4数据体系结构与信息主题分析411高危人员信息与基础人员信息的关系高危人员信息基本上可以说是由基础人员信息 的子集部分加上
15、额外的案件信息组成的。基础人员 信息在高危人员信息中主要体现为人的自然特征信 息 , 如年龄、 学历、 住址等 , 这些内容在聚类分析过程 中作为人员的固有属性起着重要的作用 , 在聚类分 析的结果中可以为分析人员提供很好的无关人员定 位功能 , 可以在无犯罪前科的人员集合内有针对性 地对犯罪进行有效控制。412高危人员信息与相关信息的关系与具体人员相关的案件信息在整个聚类分析中 扮演着准确定位的角色。由于案件信息都是实实在 在真实存在的犯罪历史 , 所以它较人员的自然属性 信息更加重要 , 更加可以说明实际的业务问题。因 此 , 在聚类分析过程中应给予更高的权重。在聚类 分析的结果中可以为分
16、析人 员提供准确的定 位功 能 , 在有犯罪前科的人员集合内进行高效的侦破。 图 2基于 /系列盗窃案 0的高危人员 信息构成的事实模型413高危人员信息的完整体系结构基础人员信息和相关的案件信息共同组成了高 危人员信息的完整体系结构。在进行数据挖掘聚类 分析的过程中 , 这两套信息是无差别的 , 每个信息项 除了提供的权重不同 , 其他方面都是相同的 , 只是人 为地赋予了业务意义 , 根据具体的业务含义则可产 生应用于实际公安业务的信息分析主题。414高危人员信息的主题产生原则实际上 , 面向主题的高危人员信息就是在一定 条件限定下的高危人员信息集合 , 以及根据分析手 段与目的不同而构成
17、的面向具体应用的数据集合。 第一 , 由于主题确立的不同 , 在高危人员信息项上面 的选择会略有差别。例如在分析毒品 案高危人员 时 , 也许分析人员并不需要人员年龄信息参与其中 , 而另外一个针对青少年高危人员的分析中 , 人员的 年龄信息不但要参与其中 , 而且还具有较高的权重。 第二 , 由于侧重点不同 , 在整体的分析集合中也许只 需要其中一部分信息数据。例如在分析杀人案高危 人员过程中 , 应只涉及参与过杀人案的犯罪嫌疑人 的信息数据 , 这样分析的结果才会符合我们的要求 , 得出正确的结果。5ETL 设计与数据映射关系分析511高危人员信息的装载准备高危人员信息的装载涉及到数据挖掘
18、系统与各 个业务系统 , 高危人员数据挖掘过程将所需要的信 息从各个业务系统中抽取出来加以处理、 利用 , 所以 准备工作主要为对业务系统数据格式的了解和两套 系统间的硬件软件联系。512高危人员信息的装载高危人员信息的装载是进行高危人员分析的基 础 , 此过程将由高危人员分析系统中的装载子系统 完成 , 自动将所需要的业务数据经过迁移、 清洗、 重 组等过程存储在高危人员分析系统中供系统程序分 析使用。513高危人员信息与业务信息的关系高危人员信息来源于业务信息中人员信息和涉 及到人员的信息 , 如案件、 物品信息等 , 但又不是完 全照搬 , 需要对其进行加工处理 , 使之满足高危人员 分
19、析的数据挖掘模型需要和分析的主题需要。例如 相应的校验机制就是用来解决此类问题的 , 这主要 指在业务系统中存有的信息数据出现缺失、 异常时 , 装载系统所做的处理工作。由于信息量庞大 , 出现 这种情况只占很小的比例 , 所以一般情况下可简单 地以两种方式处理 , 一种是简单地遗弃这类信息 , 另 一种是静态或动态地由分析人员指定在正常值域范 围内的默认值赋值给这些记录。514高危人员信息组织与信息映射高危人员信息的组织形式为以逻辑关系为基础 的树状结构 , 树叶节点参加真正的聚类分析 , 树枝节 点仅供分析人员管理人员信息项所用。高危人员信息映射遵循半自动化和可定制的技 术路线 , 由于业
20、务系统的复杂状况 , 做固定方式和全 自动化的方式都是不可取的。固定方式不能适应广 泛的具体需求 , 同时由于具体情况千差万别 , 要实现 全自动方式又是得不偿失 , 所以要折中选取一条既 满足需求也要符合技术现实的技术路线。在大多数情况下 , 业务系统中的人员案件信息 可完全复制到高危人员分析系统中来 , 保持他们的 信息项和信息值不变 , 通过各个数据集关系整理为 一个宽表作为聚类分析目标 , 每一条数据便代表一 个具体的 人的相 关信息 (自然 信息 , 案 件信息 , 等 等 。少量的数据可能由于各种各样的原因 , 比如算 法要求 , 分析要求 , 等等 , 需要进行非一对一的映射 关
21、系 , 进行重新归类形成可用的数据。6数据挖掘研究611高危人员信息模型的孤立点在基于聚类算法的高危人员信息分析中 , 人员 信息将会自动分类到不同的群里面 , 同时也会有少 量的数据散落到这些群之外 , 形成一个个孤立点 , 这 些孤立点在模型比较正确的前提下也是非常具有分 析价值的。当然 , 孤立点检测与聚类分析是两个不 同的算法 , 所以在进行孤立点检测的结果中 , 这些孤 立点会存在于聚类分析结果中的某一个群中。 612高危人员信息孤立点的业务含义散落在高危人员信息之外的孤立点在业务上可 能具有多种含义 , 例如可能是由于业务系统中操作 人员的录入失误所造成的 , 也可能是一起很不正常
22、 的案件 , 还可能是犯罪手段极高的案件 , 在作案的过 程中故意打乱规律的反侦查表现 , 等等。613高危人员信息密度变化的基本分析在进行高危人员聚类分析的结果中 , 点集的密 度基本上是连续的 , 总是从高到低或从低到高在多 维空间中连续分布。密度变化所在的位置和密度变 化方向可以描述为高危人员是在哪些人员信息项上 以何种方式过渡到非高危人员的。也就是说 , 通过 对密度变化的分析 , 我们可以找到高危人员和非高 危人员的分界线。由于密度变化是连续的 , 所以这 个分界线可以由分析人员人为参与界定。614高危人员信息的密度排序在评价高危人员信息的有效性时需要理解聚类 密度的概念。在聚类过程中 , 如果将每条记录看作 一个点 , 人员信息属性作为维 , 则聚类分析结果就可 以看出是点集在多维空间中的成群过程。点集的密 度越大 , 也就是聚类的效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 制作拍摄合同范本
- 债务变更合同范本
- 代销汽车合同范本
- 二手车合同范本商家自己写
- 分阶段付款合同范本
- 华帝橱柜合同范本
- 农村建房主体合同范本
- 单位门合同范本
- 医疗美容转让合同范例
- 产品设计开发合同范本
- CJJ2-2008城市桥梁工程施工与质量验收规范
- 病媒生物防治操作规程
- 2024年社会工作者《社会工作实务(中级)》考试真题必考题
- 德育教育研究课题申报书
- (高清版)JTG 3810-2017 公路工程建设项目造价文件管理导则
- 《煤矿重大事故隐患判定标准》试题及答案
- 《ISO31000:2024风险管理指南》指导手册(雷泽佳译2024-04)
- 学前儿童表演游戏的组织与指导(学前儿童游戏课件)
- 建筑用真空陶瓷微珠绝热系统应用技术规程
- (高清版)DZT 0214-2020 矿产地质勘查规范 铜、铅、锌、银、镍、钼
- 《拒绝校园欺凌 防霸凌主题班会》课件
评论
0/150
提交评论