




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于决策树方法银行客户关系管理探究及应用摘要:数据挖掘中的决策树算法在银行业中有很重要的价 值。决策树技术应用于银行业中,可以通过对特定的客户背 景信息的分析,预测该客户所属的客户类别,从而采取相应 的经营策略,这样既可以提高银行服务的服务水平,开发客 户资源,避免客户流失,又能够节约资源,利用最小的投入, 获得较大的收益。在银行贷款业务中,判断贷款对象是否有 风险,贷款方案是否可行,将客户按照银行的实际需求进行 分类,这些问题通过决策树算法都可以解决。关键词:决策树算法;客服背景信息;数据挖掘中图分类号:tp315文献标识码:a doi :10. 3969/j. issn. 1003-697
2、0. 2012.07.026引言决策树算法已经被成功的应用于很多分类问题,并尝试 采用其中的id3算法来完成银行客户数据的贷款风险预测。 根据模拟的银行客户基本资料的数据,通过建立决策树模 型,对客户群体的贷款风险进行预测,找出分类规则。具体 实现过程中,详细描述了实验数据预处理的方法和步骤、数 据库模块、决策树生成模块、以及验证和预测模块。其中, 针对id3算法要求属性离散化这一特点,将连续属性进行区 间划分,并对数据进行预处理,使数据能够满足算法的要求。针对在算法实现过程中所遇到的识别性问题提出了一种属 性标识方法。在此基础上,结合商业银行的特征,建立了一个银行贷款风险预测模型,对模型进行
3、验证,并从该模型产生出相应的规则。该模型可应用于银行客户关系管理中客户 贷款风险的控制。最后利用规则得出的结论结合客户的实际 信息来实现对客户贷款风险的预测。1. 决策树决策树技术由于其生成的规则容易理解和可解释性等 特点,被广泛地应用于数据挖掘领域。决策树由三个基本部 分组成:节点、分支和树叶节点。决策树中的节点是一个测 试条件,这个测试条件将决策树分为多个分支,每个分支代 表了该误1试条件的每个可能答案,位于决策树最顶端的节 点为根节点。每个分支会连接另一个节点,或者连接决策树 的末端(即树叶节点),决策树建立起来后,需要预测的数 据对象从根节点出发,根据所经过的节点的测试条件选择要 经过
4、的分支,并最终到达树叶节点。树叶节点的值或类别也 就是要赋予该数据对象的值或类别。2. id3算法id3算法的核心是在决策树上各层节点上选择属性时通过计算信息增益来选择属性,使得在每一个非叶节点进行测 试的时候,能获得关于测试记录的最大类别信息。具体的方 法就是:检测所有的属性,选择信息增益最大的属性产生决 策树的节点,由该属性的不同取值建立分支,再对各分支的 子集递归调用该方法建立决策树节点的分支,直到所有的子 集仅包含同一类别的数据为止。最后得到一棵决策树,它可 以用来对新的数据集进行分类。id3算法的具体描述如下:输入:训练数据集samples ,候选属性的集合 attributes_l
5、ist输出:一棵决策树算法:(1) 创建节点n(2) 如果samples都在同一个类c中(3) 那么返回n作为叶节点,以类c标记;(4) 如果 attributes_list 为空(5) 那么返回n作为叶节点,标记为samples中最普 通的类;/多数表决(6) 选择attributes_list中具有最高信息增益的属 性 test_sttributes(7) 标记节点 n 为 test_sttributes;(8) 对于每一个test_sttributes中的已知值a; / 戈i)分 samples(9) 有节点n长出一个条件为test_sttributes=a的分枝;3. 决策树技术在银行
6、crm中的实证研究(一)数据挖掘任务的提出。在传统存贷款业务中主要 包括三类,即个人、单位和同业存款。其中个人储蓄主要形 式是活期和定期等形式,在个人存款客户关系管理中,由于 客户分散,数量较多,利用决策树技术对客户进行分类,并 找出各类客户的特征,使其有目标、针对性地开展客户营销 活动,降低客户营销成本,提高银行新的利润增长点。(二)用于数据挖掘的数据分析。在客户关系管理的数 据挖掘系统中,并不是所有的数据格式都能直接被用于数据 挖掘,一般用于数据挖掘的数据有以下特点:一是所有的数 据应该放在单一的表格中;二是每行应该与一个实体相对 应,例如客户;三是带有单一数值的列应该被忽略;四是对 每列
7、带有不同数值的列应该被忽略;五是对于预言性建模, 目标列应该被识别,并且所有的同义列要除去。因此,必须 对数据进行预处理。4. 实验中间数据和结果决策树的生成过程采用从上到下的策略。随着迭代深度 的增加,算法考虑的数据集数将不断减少,使得在较深层次 的数据集划分中,专注于训练数据集的某个子集的统计信 息,而忽视各类数据集的整体分布情况,造成对噪声的敏感。 所以,虽然一棵完整的决策树能够非常准确地反映训练数据 集中数据的特征,但因失去了一般代表性而无法用于对新数 据的分类或者预测,出现了过匹配的现象。鉴于上面的原因 在生成决策树时采用预剪枝技术,使得决策树的最大层数不 超过七层,这样生成的决策树在一定程度上解决了过匹配问 题,如图lo5. 总结本文在阐述数据挖掘技术、crm、数据处理以及决策树 算法的基础上,对银行基本客户信息进行挖掘和发现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电视节目的分类
- 2025年系列活性精脱硫剂合作协议书
- 2023四年级数学下册 四 用计算器算第2课时 用计算器计算(二)教学实录 苏教版
- 如何评估工作计划的成功与否
- 幼儿园信息技术的整合研究计划
- 池河镇七年级历史下册 第二单元 辽宋夏金元时期:民族关系发展和社会变化 第12课 宋元时期的都市和文化教学实录1 新人教版
- 第七单元 百分数的应用(二)第2课时 教案2024-2025学年数学六年级上册-北师大版
- 班级节约资源活动的倡导计划
- 激发创意社团工作创新方案计划
- 山东省济宁市梁山一中高二信息技术《常用软件常用栏目含义》教学实录
- 2025年无锡职业技术学院单招职业技能测试题库带答案
- GB/T 45083-2024再生资源分拣中心建设和管理规范
- 2017华东六省一市优质课课件连乘问题11月29日
- 部编版(统编)一年级语文下册每课练习题(全册全套)
- DB62∕T 4134-2020 高速公路服务区设计规范
- 《影视鉴赏(第二版)》课件2-0故事片引子
- 青岛版科学一年级下册《塑料》教学设计
- 专利文件撰写殷红梅课件
- 中铁集团工程有限公司人力资源绩效考核暂行办法
- 部编版七年级语文下学期木兰诗对比阅读练习题(含解析答案)
- 海上风电场+风机基础介绍
评论
0/150
提交评论