关联规则分析及其在信用卡反欺诈中的应用_孙大利_第1页
关联规则分析及其在信用卡反欺诈中的应用_孙大利_第2页
关联规则分析及其在信用卡反欺诈中的应用_孙大利_第3页
关联规则分析及其在信用卡反欺诈中的应用_孙大利_第4页
关联规则分析及其在信用卡反欺诈中的应用_孙大利_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、业务平台关联规则分析作为数据挖掘中一个重要的组成部分,能够有效发现大量数据中相关属性集之间有趣的关联关系,从而为政策或规则的制定提供参考依据。近年来,关联规则分析已被广泛应用到零售、物流、信用卡营销及风险管理等众多领域。基于此,本文从介绍关联规则分析的基本概念和算法入手,探讨其在信用卡反欺诈中的具体应用,以期对提升信用卡业务风险管理技术有所裨益。一、关联规则分析的基本概念与发展众所周知,关联规则中最为有趣的一个应用案例就是沃尔玛“尿布和啤酒”的故事,这是一个典型的购物篮关联分析。从这个案例中可以看出,关联规则分析实际上是借助一些原则,如取交叉频率最大值等,在不同的数据集中寻找相互之间的联系,分

2、析诸如顾客购买了某一商品对购买其他商品的影响,然后归纳出不同顾客的具体购买行为模式。零售类企业一般将关联规则分析应用于商品货架布局、货存安排以及根据购买模式对用户进行分类;而在信用卡业务中,则可将关联规则分析用于分析持卡人消费行为模式、不良持卡人信息特征以及信用卡欺诈行为特征等。关联规则分析的应用研究,最早见诸于R.Agrawal等于1993年提出的挖掘顾客交易数据库中项集间关系的先验(A priori频集方法,在此之后诸多对关联规则分析的应用研究开始涌现。对原有的算法进行优化,如引入随机采样、并行思想等,以提高算法挖掘规则的效率;注重于对挖掘到的模式的价值进行评估探索,挖掘独立于先验频集方法

3、的关联规则的新方法。目前,主流的关联规则分析软件,如S A S统计软件中的E M工具等,多采用先验频集算法作为核心算法,并在此基础上提供多种优化途径选择。二、关联规则分析的基本算法先验频集算法是目前关联规则分析方法的基础,其核心是基于两阶段频集思想的递推算法。首先,先明确项集、事务集、支持度、频集以及置信度等概念。项目集是关联规则分析的数据集合中的组织单元,简称项集;事务集即数据集合,是由项目集组成的并集;支持度定义为P(AB,即A和B这两个项集在事务集D中同时出现的概率;所有支持度大于最小支持度的项集称为频繁项集,简称频集;置信度则被定义为P(B|A,即在出现项集A的事务集D中,项集B也同时

4、出现的概率。其次,给定一个事务集,预先设定最小支持度阈值和最小置信度阈值,通过具体算法寻找同时满足最小支持度阈值和最小置信度阈值的关联集合,此类集合中项集之间的关联关系称为强规则。最后,挖掘关联规则的先验算法将关联规则分析分解为两个阶段的子问题。一是根据最小支持度找出数据集中所有不同长度的、满足给定支持度要求的频集;二是由频集产生强关联规则。当然这些规则必须满足最小支持度和最小可信度。三、关联规则分析在信用卡反欺诈业务中的应用近年来,关联规则分析在信用卡业务中的应用得到很大发展。以信用卡欺诈行为特征识别为例,境外发卡银行通过对发生欺诈交易的历史数据分析,发现在大额欺诈交易(如购买珠宝等之前往往

5、会出现小额试探性交易(如关联规则分析及其在信用卡反欺诈中的应用中国银联风险管理部 孙大利管理36中国信用卡2007.11业务平台自助加油等,并且这些小额试探性交易往往发生在夜间和偏僻地点。也就是说,同一卡号在夜间偏僻地点发生的小额自助交易和后续大额交易是否存在欺诈交易,二者之间往往具有较高关联性,这就为发卡银行的反欺诈工作提供了一定的借鉴。本文将借助收集掌握的国内不良持卡人个人信息数据,对持卡人具体特征进行关联分析,以此来说明关联规则分析在信用卡反欺诈业务中的简单应用。首先,将不良持卡人相关属性字段的取值设为关联分析对象数据集。例如,可将持卡人出生省份为四川的设为项集A、广东的设为项集B。具体

6、采用的属性字段包括出生省份、年龄、受教育程度、婚姻状况以及涉及金额等。这里,考虑到不同的字段种类,如定性变量型和数值变量型在处理上的差异,需要先将数值型的字段进行一定的处理。一般来说处理数值型变量的方法分为四种。(1根据用户预先定义,数值字段被分成一些预定义的层次结构,得到静态数量关联规则。(2根据数据的分布,数值字段被分成一些布尔字段。每个布尔字段都表示一个数值字段的区间,落在其中则为1,反之为0,以此得到布尔数量关联规则。(3根据数据之间的距离,数值字段被分成一些能体现它含义的区间,得到基于距离的关联规则。(4直接用数值字段中的原始数据,使用一些统计的方法对数值字段的值进行分析,并结合多层

7、关联规则的概念,得到多层数量关联规则。由于属性字段中只有年龄、涉及金额为数值型变量,而且其在取值区间上显然存在着差异性含义,如涉及金额5万元与涉及金额1万元相比较,很自然地前者会被认为风险程度更高,由此采用上述第三种方法对数值型变量进行处理,将不良持卡人涉及金额分为四个区间,从风险等级1到风险等级4,从低到高分别代表不同风险程度。同样地,年龄也被分为三个区间:25岁以下,25岁至35岁以及35岁以上。其次,我们预设支持度水平为80%,生成频集。为了生成所有频集,使用了递推方法。其核心思想简要描述如下:首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得L r为空,这时算法停止。

8、这里在第k次循环中,先产生候选k-项集的集合C k,C k中的每一个项集是对两个只有一个项不同的属于L k-1的频集做一个(k-2的连接来产生的。C k中的项集是用来产生频集的候选集,最后的频集L k必须是C k的一个子集,C k中的每个元素需在交易数据库中进行验证来决定其是否加入L k。最后,我们设定置信度水平为90%,得到强规则。因为对于每个频繁项集X,若集合Y为X的非空子集,且项集Y与X的补集间置信度大于预设值,事实上就可以生成一条强关联规则。我们利用S A S软件的E M工具,对近4万条不良持卡人记录的相关属性字段进行关联规则分析。现将符合最小支持度和置信度要求的,且具有参考意义的强关联规则简单罗列如下。35岁以上且未婚的不良持卡人主要集中在风险等级1中(最高风险等级;处在风险等级2和3中的不良持卡人基本未婚;25岁以下未婚的且处于风险等级2的在数据样本中发生频率高,接近20%;不良持卡人若是G省,他(她的年龄在35岁以上的可能性则是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论