下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、对信用卡客户分类和数据挖掘选题背景:随着经济的发展,我国信用卡市场逐步壮大并日益繁荣。近几年信用卡逐渐成为我国居民个人消费使用最为频繁的支付工具之一。信用卡属于一种贷款,这也构成了客户对于开证银行的债务关系,所以信用卡开证行对于用户的基本信息以及对于其信用价值评估也成为了重要的一环,评估的结果可以用来分析客户的最大信用额度几何、客户是否能够成功开通信用卡业务,以及还款的时间比例等等是否合理。因此商业银行利用先进的数据挖掘技术对客户基本信息分析进行客户分类,区别不同的客户群体,然后针对不同客户群体,采取不同的发卡方式,、营销策略、风险控制举措这些举动都是十分有必要的,也是对信用卡产品获得市场份额
2、有巨大帮助作用的。选题意义:利用数据挖掘技术对信用卡客户进行分析的主要意义。从小的方面来说,利用数据挖掘技术对信用卡客户进行分类,不仅有利于信用卡客户关系得到系统、有序、差异性管理,还有利于银行进行有效的风险控制和风险管理。一是通过对信用卡客户的分类,银行可以针对不同客户群体,全面深入地了解客户的不同需求,并推出有针对性的特色产品,从而提高发卡率、市场占有率、客户使用率等,为银行创造更多的收益。二是通过对信用卡客户的分类,可以分析发现风险较高客户群,特别地对这类客户群的消费行为、信用状况进行监测和控制,以便可以及早发现并消除潜在的信用风险和欺诈风险。从大的方面来说,商业银行在建立有效的信用卡分
3、类管理智能系统的基础上,充分利用数据挖掘技术强大的数据分析和挖掘能力,帮助信用卡业务管理者做出正确的判断和决策,不断创新信用卡个性化服务内容,增强信用卡产品在国内或者国际市场上的竞争力。文献综述信用卡作为特殊的金融商品、现代化的金融工具,是国际流行的先进结算手段、支付工具和新颖的消费信贷方式,日益受到人们的青睐。由于使用信用卡,改现金交易为转账结算,取代了一定数量的市场流通货币,减少了货币的发行量,减少了国家每年用于货币印刷、调拨、运输、仓储和投放所耗费的资金,也加快了社会流动资金周转速度,促进经济发展。信用卡还能促进商品销售,刺激社会需求。对于持卡人而言,信用卡的发行和使用,使持卡人通过使用
4、信用卡获得商品和劳务服务,免除了携带大量现金的不便和风险,同时还可通过透支简便地获得银行贷款。同时贷记卡持卡人非现金交易还可以享受如下优惠条件:(1)免中国人民银行1999年3月1日颁布执行的银行卡业务管理办法第9页共75页浙江大学硕士学位论文数据挖掘技术在银行信用卡业务中的应用研究息还款期待遇。银行记账日至发卡银行规定的到期还款日之间为免息还款期。免息还款期最长为60天。持卡人在到期还款日前偿还所使用全部银行款项即可享受免息还款期待遇,无须支付非现金交易的利息。(2)最低还款额待遇。持卡人在到期还款日前偿还所使用全部银行款项有困难的,可按照发卡银行规定的最低还款额还款。对于特约商户来说,由于
5、有信用卡发卡银行的信用保证,特约商户可以放心地为持卡人提供商品和服务,从而扩大商品的销售量,并减轻收款点款工作量,简化了支付、记账和结账的过程。信用卡的发行,使银行有了一种新的争取特约商户和信用卡客户存款的手段,有利于扩大银行转账结算业务,同时增加银行信贷资金的来源,从而获得更多的利差收入,已经成为银行的重要盈利手段。据统计,国外信用卡业务银行带来的禾I润一般占至胖艮行禾I润的30流右,花旗银行甚至还要高,占50%Z上。美国运通公司更是凭借运通卡成为全球服务、旅游、娱乐业界的巨无霸。对于银行而言,信用卡业务的收入主要包括存款利差收入、年费、结算手续费、透支利息等。在这几项收人中,年费收入是固定
6、不变的,普通信用卡大约20一40元一年,只要发卡就会有年费收入,其他几项收入随业务量的大小而变化,结算手续费收入随卡均消费额的变化而变化,利息收入随透支额的变化而变化。所采用的方法:决策树算法中的CHAID算法、ID3算法、神经网络算法、以及聚类算法中的两步算法等。数据来源:国外某家银行对于信用卡用户申请的批准。其中包括客户的年龄、工作、女昏姻状况、教育程度、是否有违约、收支是否平衡、是否有房屋、是否有贷款、联系方式、还款期限、之前的透支次数、预期收入水平、银行是否批准予以其下一季信用卡的使用权等等。数据预处理:对于年龄我们只取其十位数、工作按其行业类型分别划分为0-10、单身已婚和离婚分别为
7、0、1、2,教育水平按小学中学大学分为1、2、3。对于房屋、是否有贷款、银行是否批准、是否违约等中“是”用1、“否”用0代替、通讯方式无、座机、手机分别为0、1、2.收大于支取1.收小于支取0.分析过程:对于我们处理过的数据我首先做的是特征选择。特征选择也叫特征子集选择(FSS)o是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。从特征选择的结果我们可以看到campaign这一项并不重要,所以我们在模型后剔
8、除该变量,第二的default(违约行为)因为单个类别过大的原因我们也将其剔除,对于剩余的数据我们以conclusion(银行决定是否给予客户下一季的信用卡使用权)作为输出进行决策树分析。我分别采用了CHAID神经网络、以及C.50算法结果显示他们分析结果中的正确率基本一致都在89.32%。但是相比较而言神经网络模型所给出的结论会更加可靠:因为神经网络算法对于本文所采用的数值相对准确。逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成用行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结
9、果是忽然问产生想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。所以说神经网络算法可以接受的数据类型来说离散型的数据最为适合。从训练结果来看,对于我们的银行决策影响最大的是预期的收入水平,然后通讯方式、工作、婚姻状况、教育水平、是否有贷款和房屋等对银行决策都起重要作用但是影响率都非常小。而收支平衡、和之前还款次数在本模型中影响力微乎其微,在我们之后的交Lt小要引客户聚类分析中我们不在考虑收支平衡和还款次数的作用O在我们对于客户特点进行聚类分析后得出以下结果K-9v1eansKLi
10、eans市要忖»0.M>=0.McDJD未卸隼唾.1£DhumngJHuJjlnJ-JifLii-uAiJin_n-JItlo1DO增展1£)0从图中我们可以看到两步算法将我们的客户聚为四类,而kmeans算法中将客户分为五类。其中两步算法中的poutcom的区分度比kmeans要好的多,而且我们在上述的决策树分析中我们可以得出poutcome是影响银行决策的主要因素,因此其他的因素可以不明显区分但是poutcome必须要保证其无偏。后文将着重描述两步算法分析所得到的结果。有图是四类的具体数值,结合上图的比例分析。客户中分类的数量按1、3、4、2逐渐的比例增
11、加。两步算法的具体评判标准在附件中,这里不再赘述。聚类四中我们可以通过联系方式加以区分一只有这个群体中才有大多数人使用座机,聚类一可以通过是否现在就有贷款行为进行区分。聚类三可以通过是否只存在婚姻关系加以区分。聚类二通过poutcome区分。nn计却591用9111913063705预期536611134.366017,0311098.1237C5戏差25509殍引6201ses207,0500行事I393118JB033,70235,2501C0划生3*)65250219100.COO9f,463011951国廿/I30721524024,75128.8881951J.U计数预典窈行列男总总
12、计预题熨差行由朝气241sa0141S730,066597B446,76058390197-6.00699,215-4B.760-44.39DC12193BOTHocor71071C03147011,5090.0001.045J.3570.531351?0QOO0?1D495769013721119134045"byu1J721119134U肛100CD01526230.3472475129,539100inO10010C10010(110计数6111C12129预期1969639,14331.S2538?35129娩恚-oeae7185231,5256,2350行名465136,0
13、47D.COC03021C0列/0670B.OBO1C0C,89G2053U1332.455J.LDL0,2652B332.0计参码413C84S0逸彳74.794148.702121201U5.233430她差-579426429B-121:81-13f233C行14092g”.即61C0C1.&231C0与司10000301021COO0.59710030总"1320$1351COOI017710038上图是对于各个聚类中对预计收入-聚类类别的统计。从中我们可以分析出在预计收入不变的情况下聚类3、4最多、1、2其次。在预计收入增长10%勺水平下人数剧减,而且集中分布于聚类
14、2,在预计收入增长20%勺人数也集中与聚类2。预计收入增长30%勺水平下主要集中在聚类2.通过以上分析我们其实已经可以看到对于预计收入来说聚类2中的人群相对于其他聚类人群来说属于未来预计潜力大的人群,可以给他们按照收入增长水平分别提供多于普通水平的透支限额。最后,通过合并银行作出结论和聚类结果,对他们再进行分析可得:conclusion聚类-1聚类-2聚类-3聚类-40计数64711079931253预期610.48441213.891990.04641185.578残差36.51559-106.8912.9535567.421591计数4326512687预期79.51559158.1093
15、128.9536154.4216残差-36.5156106.8907-2.95355-67.4216由此,我们可以将我们的客户分为四类优质客户:聚类4他们有着最大的人口基数以及最高的通过率。一般客户:聚类1,聚类3他们有着第二高的通过率,预测情况较好、限制客户:聚类2,他们有着最低的通过率,但也接近了80%不管是从模型的综合错判率来看还是从个别预测的准确率来看,模型的错判率还是比较低的,这说明信用卡客户登记分类标准比较严格,存在较少的风险,还需要进行改进和加强。5总结经过对整个数据挖掘过程的分析和理解,从中得出了一些有意义的结论:1 .对于国内银行业来说,飞速增长的信用卡业务将成为银行利润的重
16、要来源信用卡客户的营销工作也受到了越来越多的重视。由于银行营销工作面对的客户众多,竞争日益激烈等方面原因,数据挖掘技术越来越多地被应用到信用卡营销领域,并将成为支持银行信用卡市场分析和提高营销效率的重要工具。2 .客户细分的目的在于识别出具有相同属性的客户,以便针对不同属性的客户群提供不同的营销模式或是不同的管理机制。对信用卡客户的价值衡量使用以最近刷卡间隔时间、刷卡消费次数、平均每月刷卡消费金额相结合的RFM真型方法,该方法能较好地根据客户刷卡活跃度的高低对客户进行细分。3 .在进行数据挖掘分析之前,进行数据的预处理是十分必要的。因本文采用的是实际商业银行的信用卡数据,它储存的数据不仅量大,
17、而且存在较多的缺失值、噪声和孤立点值。附件:对于kmeans和两步算法的结果解释K-Means聚类-11680记录*housing* 0.0(68.99%)* 0.068.99%1.031.01%*contact* 1.0(78.57%)* 0.014.29%1.078.57%2.07.14%*job* 2.0(22.62%)* 0.04.58%1.06.85%2.022.62%3.018.45%4.04.88%5.015.65%6.04.58%7.08.93%8.00.6%9.03.87%10.08.99%*loan* 0.0(90.48%)* 0.090.48%1.09.52%*marit
18、al* 1.0(100%)* 0.00%1.0100%2.00%*poutcome* 0.0(90%)* 0.090%1.03.69%2.04.52%3.01.79%聚类-2498记录*housing* 1.0(53.82%)* 0.046.18%1.053.82%*contact* 1.0(63.65%)* 0.029.52%1.063.65%2.06.83%*job*2.0(23.69%)*0.04.62%1.012.45%2.023.69%3.010.64%4.03.01%5.017.47%6.03.21%7.013.65%8.00%9.02.61%10.08.63%*loan* 0.0
19、(83.13%)* 0.083.13%1.016.87%*marital* 2.0(100%)* 0.00%1.00%2.0100%*poutcome* 0.0(83.73%)* 0.083.73%1.02.01%2.010.04%3.04.22%聚类-3949记录*housing* 0.0(59.01%)* 0.059.01%1.040.99%*contact* 1.0(86.83%)* 0.06.95%1.086.83%2.06.22%*job* 2.0(26.13%)* 0.03.58%1.09.59%2.026.13%3.011.7%4.03.58%5.022.34%6.01.9%7.
20、011.7%8.07.17%9.01.37%10.00.95%*loan* 0.0(89.25%)* 0.089.25%1.010.75%*marital* 0.0(100%)* 0.0100%1.00%2.00%*poutcome* 0.0(76.92%)* 0.076.92%1.03.9%2.013.38%3.05.8%聚类-4470记录*housing* 1.0(97.23%)* 0.02.77%1.097.23%*contact* 1.0(92.55%)* 0.00.43%1.092.55%2.07.02%*job* 3.0(28.51%)* 0.02.34%1.07.66%2.018
21、.72%3.028.51%4.03.83%5.016.17%6.05.32%7.013.4%8.00%9.01.7%10.02.34%*loan* 0.0(54.26%)* 0.054.26%1.045.74%*marital* 1.0(95.32%)* 0.03.83%1.095.32%2.00.85%*poutcome* 2.0(50.21%)* 0.027.02%1.03.83%2.050.21%3.018.94%聚类-5924记录*housing* 1.0(100%)* 0.00%1.0100%*contact* 0.0(94.05%)* 0.094.05%1.00%2.05.95%*
22、job* 3.0(36.58%)* 0.02.27%1.012.23%2.014.61%3.036.58%4.03.68%5.014.07%6.03.46%7.09.31%8.00.65%9.01.41%10.01.73%*loan* 0.0(85.93%)* 0.085.93%1.014.07%*marital* 1.0(72.4%)* 0.024.78%1.072.4%2.02.81%*poutcome* 0.0(99.46%)* 0.099.46%1.00.22%2.00.11%3.00.22%两步聚类-1690记录*housing* 1.0(58.84%)* 0.041.16%1.05
23、8.84%*contact* 1.0(64.93%)* 0.028.7%1.064.93%2.06.38%*job* 3.0(22.61%)* 0.02.03%1.010.72%2.017.39%3.022.61%4.04.35%5.017.25%6.05.94%7.013.19%8.00%9.01.88%10.04.64%*loan* 1.0(100%)* 0.00%1.0100%*marital* 1.0(65.65%)* 0.021.3%1.065.65%2.013.04%*poutcome* 0.0(85.65%)* 0.085.65%1.00.87%2.010%3.03.48%聚类-21372记录*housing* 1.0(50.29%)* 0.049.71%1.050.29%*contact* 1.0(96.87%)* 0.00.07%1.096.87%2.03.06%*job* 2.0(26.02%)* 0.03.94%1.08.89%2.026.02%3.013.63%4.03.64%5.020.92%6.01.46%7.011.95%8.04.66%9.01.75%10.03.13%*loan* 0.0(99
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (新教材)2026年青岛版八年级上册数学 1.3 几何证明举例 课件
- (新教材)2026年沪科版七年级上册数学 5.1 数据的收集 课件
- 2025-2026学年广东省广州市越秀区执信中学高三(上)期中地理试卷
- 大丰市小海中学高二生物三同步课程讲义第讲神经系统的调节(三)
- 2025年办公室装修安全责任合同协议
- 第5课罗马城邦和罗马帝国习题课件
- 多尺度服务权衡关系
- 2025硫磺行业深度报告-全球供需矛盾突出硫磺价格有望上行
- 2026 年中职康复技术(理疗设备操作)试题及答案
- 螺栓受力分析试题及答案
- 常见的胃肠道疾病预防
- 2024-2025学年江苏省徐州市高一上学期期末抽测数学试题(解析版)
- 新解读《DL-T 5891-2024电气装置安装工程 电缆线路施工及验收规范》新解读
- 生产部装配管理制度
- DB31/T 1205-2020医务社会工作基本服务规范
- 酒店供货框架协议书
- 纺织品的物理化学性质试题及答案
- 高处安装维护拆除作业培训
- 长鑫存储在线测评
- 2025年小学生科普知识竞赛练习题库及答案(200题)
- (完整版)保密工作奖惩制度
评论
0/150
提交评论