版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种基于数据挖掘的金融营销数据库决策分析算法
0基于数据挖掘的金融数据库营销与医学和生物学研究面临的信息过载和问题一样,数字和网络化使各种复杂的系统更加复杂。这些复杂系统的特点是信息众多,研究对象独立、互动,适应性强。在这些领域,数据采集面临着更大的机遇和挑战。复杂系统分析是通过收集和积累被研究对象的信息,先分析后预测被研究对象行为,然后通过制定相应的策略,达到预期目标的一种研究手段.通过对复杂系统的数据挖掘和策略决策分析:在系统安全方面,可以判断和预测高危地区和危险发生的时间;在智能交通方面,可以得到交通流的规律和预测交通堵塞的地区和时间;在金融方面,可以克服以往各种营销方式普遍存在的缺乏针对性、缺乏个性化的弊端,准确而高效地捕捉客户交易行为和需求,并据此与客户建立良好关系.金融数据库营销可以通过数据挖掘技术将企业的营销力量集中于特定的消费群体,实现对客户的准确定位,降低营销成本提高效率;有助于开展个性化服务,提高客户忠诚度,使企业按照消费者的需求形态来设计与制造产品,开展有针对性的一对一服务,进而增加消费者的满意感和忠诚度.与国际发达银行相比,我国的金融行业发展较为滞后,这不仅体现在金融产品的创新方面,更体现在对金融产品和客户的分析和预测等方面.尤其是,利用数据挖掘技术对金融产品和客户进行分析和研究的进程较慢.20世纪末期出现的数据挖掘和系统分析的理论和技术,从数据组织与分析的角度为金融产品和客户的分析提供了巨大的支撑.本文基于最大信息增益和聚类分析的方法,提出一种新的大数据量金融决策分析方法,利用该方法构建金融行业客户和营销策略分析体系模型,并在实践中进行检验,获得了良好效果.1挖掘数据和金融数据库营销1.1基于数据挖掘的研究方法随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各应用领域积累的数据越来越多.目前数据之间的关联以及蕴含的信息,由于无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段,导致了“数据爆炸但知识贫乏”的现象,因此迫切需要有新的技术和工具来帮助人们从积累的大量数据中快速地寻找有用信息.为了适应这种需要,数据挖掘技术应运而生.数据挖掘技术是一种从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解模式的非平滑过程.它能够从大量信息中提取出隐藏的预测信息,可用于从大量杂乱的企业信息资料库中挤压出更有价值的信息.数据挖掘技术不仅能对过去数据进行查询和遍历,而且能够找出过去数据之间的潜在关系,从而促进信息的快速传递.数据挖掘技术作为一个新兴的研究领域,涉及诸如机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等众多学科.数据挖掘任务一般可以分为两类:描述性的和预测性的.描述性挖掘主要的描述类型包括:类/概念描述、特征化和区分、关联分析及聚类分析.预测性挖掘主要的预测类型包括:分类、回归、演变分析、时间序列、孤立点分析及偏差检测.根据数据挖掘的基础,可以将数据挖掘的方法分为以下几种基本技术:统计分析方法(如回归分析、相关分析、因子分析等)、仿生物技术(如神经网络方法、遗传算法、免疫进化算法等)、集合论方法(如粗集、概念树、AQ11等)、决策树方法(ID3,C4.5等)以及模糊论方法五大类.下面主要讨论在数据挖掘过程中,这些常用技术方法及其研究现状:(Ⅰ)统计分析方法:从事物外在数量的表现去推断该事物可能的规律,对关系表中各属性进行统计分析,找出它们之间存在的关系,是比较主流的方法.可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等.(Ⅱ)人工神经网络:模拟神经元的方法,通过训练来学习非线性预测模型,可以完成分类、聚类等多种数据挖掘任务.神经网络一般是利用MP模型和HEBB学习规则建立的前馈式网络、反馈式网络和自组织网络来模拟各种黑箱模型,通过大数据量的训练和学习,最终得到黑箱模型的近似非线性系统.Tickle等提出了规则提取方法nL,Kohonen等提出了自组织聚类方法.(Ⅲ)遗传算法:遗传算法是模拟生物进化过程,利用自然界中生物繁殖、交配和突变现象,求得问题最优解的过程.在算法实施中,首先需要对问题进行建模编码,产生初始种群,然后进行编码(染色体)的复制、交换、突变等操作,优胜劣汰,适者生存,直到寻找到最佳的解决方案.近年来,基于遗传规划的知识发现系统研究有了很大的进展,如F1ockhart等的研究成果,Ryu等提出MASSON系统,Teller等提出用进化规划作多媒体数据挖掘,Xu等提出用进化规划做非线性多元回归分析,Noda等用遗传算法做规则发现,Lopes等提出用进化算法做关联规则.(Ⅳ)集合论粗集方法:粗集理论是一种处理模糊和不确定知识的数学工具,粗集理论根据给定问题的知识,先划分问题的论域,然后对每一个部分确定其对某一概念的支撑度.它将知识定义为不可区分关系的一个族集,使得知识具有了清晰的数学意义.粗集作为一种软计算方法,可以克服传统不确定处理方法(模糊集方法、统计方法)的不足,并且能够和它们有机结合,进一步增强对不确定、不完全信息的处理能力.然而在处理实际系统时,仍然存在一些问题,例如在大数据集下约简的有效计算和处理噪音数据等问题.(Ⅴ)决策树方法:决策树源于概念学习系统,其思路是利用信息论中的互信息(信息增益)找出分辨能力最强的属性,把数据库划分成多个子集,构成一个分支过程;然后递归调用,直至每个子集都包含同一类型的数据;最后利用得到的决策树对新样本进行分类.最有影响的决策树方法是由Quiulan研制的ID3方法.在ID3的基础上,Schlimmer和Fisher设计了ID4递增式算法,Utgor发展了ID4算法,提出了ID5算法,著名的C4.5系统也是基于决策树的.(Ⅵ)模糊论方法:模糊论方法是基于Zadeh提出的模糊集合论建立起来的数据挖掘方法.模糊性是客观存在的,系统的复杂性越高,精确化能力就越低,即模糊性越强,这就是Zadeh总结出来的互克性原理.关于模糊论方法的研究,近年来也取得了较好的研究成果.1.2金融数据库营销1.2.1金融数据库营销的意义数据挖掘技术在金融企业最直接和有效的应用体现在数据库营销方面.数据库营销在国内,特别是金融机构,基本属于研究的起步阶段,虽然银行正陆续实现全行的数据集中系统使用,但这仅仅是作为数据准备的前期基础性工作,与真正意义上的数据库营销研究和发展相距甚远.准确地使用数据挖掘技术开展数据库营销,对于提高金融企业营销成功率具有特别重要的意义.图1展示了各银行在数据库营销和交易量方面的差别.实际运行结果表明,在数据库营销方面的研究工作开展较早、推广使用较为顺利的银行,其在业务量方面具有明显优势.同时银行数据库营销和决策分析系统的建立具有相当的难度,针对该行业的研究可对其他行业有一定的指导和借鉴作用.金融数据库营销的实质体现在以下几个方面:(Ⅰ)通过金融行业数据库的建立和分析,各个部门都对客户资料有详细、全面的了解,可以给予客户更加个性化的服务支持和营销设计,使“一对一”的客户关系管理成为可能.(Ⅱ)数据库营销是一个“信息双向交流”的体系,它为每一位目标客户提供了及时反馈的机会,并且这种反馈是可测定和度量的.(Ⅲ)着重给客户提供全方位的持续服务,从而和市场建立长期稳定的关系,同时与现代信息技术、网络技术相结合,利用计算机信息管理系统来充分建设和利用客户数据库.(Ⅳ)充分发挥市场、销售、服务三大部门的作用,并且使三个部门能充分共享客户信息,打破各部门之间的信息壁垒,从而使各部门以一个企业的整体形象展现在客户面前.(Ⅴ)在企业前端客户关系管理系统背后,是一个功能强大的客户服务数据库,其中存储了客户的各种资料及交易行为,可利用各种数学分析模型对这些数据进行深层次挖掘,对客户的价值和盈利率进行分析.在数据挖掘技术上进行数据库营销,对企业具有一定的现实作用,同时,数据库营销属于对客户服务全过程的跟踪营销,包括对客户基础信息和结果信息的挖掘,客户交易情况的追踪分析,客户忠诚度或风险度的分析,营销活动的响应度分析等内容.1.2.2银行数据库营销的主要属性银行的数据库营销同其他行业相比具有一定差别:(Ⅰ)在数据库的基础(数据信息)方面,银行的数据信息容量巨大,属性众多.仅某一地区某一银行的个人业务客户数量就近一千万人,同时,每一个客户对应相应的客户信息库、交易信息库、账户信息库、积分信息库等,每一个信息库中具有众多的属性.以客户信息库为例,主要包括:身份信息、信用信息、职业信息、居住信息等二十多种属性.以上信息构成了对客户的全方位记录和描述.因此,在数据挖掘分析过程中,选择主要属性的必要性和难度较大.(Ⅱ)在数据库的期限方面,银行的数据信息保存时间较长,客户信息包括从银行成立之日起数十年内发生过交易行为的客户资料.在此基础上,银行的数据挖掘和系统分析的时间跨度长,预测及分析模型的基本条件良好.(Ⅲ)在数据库营销的难度方面,银行的数据库营销目标较为复杂,与其他行业一样,应达到分析客户和产品,提高效益和客户满意度等目标,此外,还应兼顾政策导向、金融秩序、风险监控、内部审计等方面的诸多要求,在分析和制定策略时的不确定因素和环境因素较多.(Ⅳ)在数据库的作用方面,银行业的产品与其他行业相比有较大差别,其他行业的产品完成销售后,即进入售后服务阶段,生产者与消费者之间的关系逐渐疏远,客户数据库的作用主要反映在记录方面.银行业的产品恰恰相反,销售后才逐渐进入稳定联系阶段,关系日益紧密,银行需要不断依靠数据库的支持,不仅需要记录信息,更需要不断分析信息、开展产品的营销和服务活动,维持高价值客户.由于银行数据库营销与其他行业相比具有重要性和特殊性,因此建立银行数据库营销系统十分重要.2引入数据挖掘的相关理论数据挖掘分析在金融业务营销过程中至关重要,这也恰恰是国内金融企业普遍存在的不足.面对日益激烈的国内外竞争,营销策略的制定和执行迫切需要提高科学性和准确性.数据挖掘分析正是金融业务营销工作必不可少的依据和基础.对金融业务营销分析,最有效的是聚类和分类分析、关联规则分析等.聚类和分类分析可以应用于企业对客户群体的分析及营销方案制定等方面,关联规则分析可以应用于对相关业务关系的分析,便于企业进行金融产品的“捆绑营销”、“交叉营销”等高效率的营销方式.选择和制定营销策略必须对客户群体进行深度分析细化,金融企业往往拥有数亿客户信息,但大多数信息分散在各业务系统中,而且在一般账户信息中,主要记载的是客户的基本身份信息,营销中所需的投资偏好、理财习惯、文化水平等信息较少.因此,对金融企业的客户分析难度较大,应引入数据挖掘的相关理论和技术,科学地解决这一问题.金融机构应细分不同的客户群,并实施相应的市场营销策略,有针对性地选择营销渠道策略,充分提高市场运作效率.2.1客户细分和数据库的选择.制定金融业务的客户分析和营销策略,应按以下步骤进行分析:Step1明确营销策略制定的目标,即在众多客户信息中寻找符合营销标准的客户,针对不同类别的客户制定不同的营销策略;Step2在相关数据库中寻找相对重要的数据属性集合;Step3分析得到最主要的数据属性;Step4以主要的数据属性为模型变量,进行模型计算;Step5区分客户群体,设计营销活动方案;Step6校验模型的准确性,检查活动方案的效果;Step7总结分析活动的经验或教训.金融企业对客户的细分,不仅仅是根据客户的性别、年龄、收入、文化程度、职业等自然特征,还包括客户与金融企业间的交互信息.由于自然特征具有笼统性、多变性、滞后性等缺陷,难以全面反映客户的特征和习惯,因此需要利用相关技术挖掘客户的内在特性,即具有商业价值的、反映客户行为特征的特性.同时,在对客户进行细分时,应以行为特性为主要特征,以人口自然特性为辅助特征.其中,行为特性主要包括:选择银行业务的种类、平均业务量、各种银行费用情况、相关账户交易情况、开户时间等.例如,根据客户交易行为,可以得到5种客户群类型,如表1所示.在进行客户分析时,必须首先确定数据属性.金融行业的数据库种类和数量较多,不同客户及交易信息位于不同的数据库中,应从若干相关或不相关的数据库中,根据专家判断法、销售人员判断法、分类分析算法等方式,提取具有针对性的数据属性,并以此为依据进行客户或交易分析.金融行业的数据库信息包括:客户信息、账户信息、卡资料信息、交易信息、积分信息等.其中,客户信息又包括:身份信息、信用信息、职业信息、居住信息等.账户信息主要包括:账户的状态、信用情况以及相关信息.交易信息主要包括:交易发生场景的描述、交易的描述等.依据数据挖掘进行业务营销时,应先确定分析目标,并由此选择相关的数据库信息,在众多属性中确定具有最大信息量的属性字段,并将其作为各种算法的依据.在金融业务营销中,区分不同类型客户,并研究其特点,如年龄、学历、交易额等,分别制定营销策略,这是最为常见的情况.因此,本文将客户信息数据库和交易信息数据库作为基础数据库.2.2构建体系的技术和方法2.2.1信用卡的营销策略在众多客户信息和交易信息中,分析具有一定消费能力的客户群体特征,并根据该特征,制定不同的营销策略.在金融业务,尤其是信用卡业务的营销过程中,较为重要的营销目标是,有效拉升具有一定消费交易群体的交易额,从而快速提高业务收入.较为常见的营销活动是在众多客户数据中分析不同消费层次的客户群体,以其消费金额为活动的基准,设计具有针对性的消费交易拉升活动标准.2.2.2精确定位数据集小,能实现数据库的数据泛化和数据集小化.在对客户信息及交易数据库进行挖掘和分析之前,应先对数据进行精简,即采用一定方法缩减数据数量,或寻找真正有意义的特征以减少数据的维数.如果数据集过大,不仅影响算法的效率,结果的准确性也难以保证.在以上两个数据库的数据中,特征值较多,容易分散对主要数据的分析力度,因此,确定属性时,可先依靠经验判断法,快速确定卡号、交易金额、姓名、年龄、学历等重要数据属性.对以上原始数据库进行精简和分类,得到具有分析意义的取值空间,使得数据的取值数目减少,从而减少计算量.在进行数据泛化和精简后,得到客户基本交易信息.2.2.3金融产品营销属性的信息增益通过分析得到最主要的数据属性对提高模型分析的效率和准确性十分重要.可以使用信息增益作为分类度量标准,选择最大信息增益的决策属性.首先计算关于分类的每个决策属性的期望信息量I(r1,r2,⋯,rm)=−∑ipi×log2pi(1)Ι(r1,r2,⋯,rm)=-∑ipi×log2pi(1)属性A对于分类的期望信息量为E(A)=∑J(S1J+⋯+SMJ)s×I(S1J+⋯+SMJ)(2)E(A)=∑J(S1J+⋯+SΜJ)s×Ι(S1J+⋯+SΜJ)(2)属性A作为决策分类属性的度量值,即信息增益为gain(A)=I(r1,r2,⋯,rm)−E(A)(3)gain(A)=Ι(r1,r2,⋯,rm)-E(A)(3)计算每个决策属性的信息增益,具有最大信息增益的属性作为决策属性.在金融产品营销过程中,应选取属性“交易额”为类别标识属性,属性“性别”、“学历”、“年龄”为决策属性集,构成客户基本信息表,如表2所示.根据类别标识属性取值,分3类(M=3),样本数据集S中共7个元组,C1,C2,C3类对应子集R1,R2,R3中元组个数r1=2,r2=2,r3=3.I(r1,r2,r3)=I(2,2,3)=1.5568Ι(r1,r2,r3)=Ι(2,2,3)=1.5568对每一个决策属性计算期望信息量:当性别=“女”时,S11=1,S21=1,S31=1,A=I(1,1,1)=1.5997.当性别=“男”时,B=I(1,1,2)=1.5.属性“性别”的熵值为E(性别)=37A+47B=1.5427E(性别)=37A+47B=1.5427性别的信息增益为gain(性别)=I(r1,r2,r3)−E(性别)=0.0141gain(性别)=Ι(r1,r2,r3)-E(性别)=0.0141依此类推,学历的信息增益=0.5932,年龄的信息增益=0.6778.由此可见,属性“年龄”具有最大的信息增益值.因此,选择年龄作为主要变量.2.2.4消费层次的确定在以上数据属性确定后,应将其选为模型变量,进行模型计算.由于信用卡消费交易在月均金额分布上呈现明确的分布规律,如表3所示.因此,以上述8个分布作为对象属性xi,i=1,2,…,8.由于营销活动中,客户的认知程度和活动的可操作性直接影响活动效果,多次实践证明,消费交易的层次不宜过多,否则在操作环节将出现客户难以记住,客户服务部门咨询的工作量加大,宣传资料耗费增加,反馈礼品采购环节增多等不利因素.因此,在实际操作中,往往选择两个层次较为适宜,即聚类的个数k=2.由于活动的目标是最大限度拉升消费交易额,因此,每个消费层次的取值以最低水平为宜,在年龄分层中适宜使用中位平均法.Step1随机选择2个对象,每一个对象作为一个类的中心,分别代表2个类;Step2根据距离中心最近的原则,将其他对象分配到各类中;Step3针对每一类,计算其所有对象平均属性值,作为该类的新中心;Step4根据距离中心最近的原则,重新进行所有对象到各类的分配;Step5返回Step3,直到没有变化为止.2.2.5客户的群体特点根据以上测算,得出两类目标客户群体,分别是月交易额在[50,3000],(3000,12000],年龄分别在,(35,50]的区间内的客户群体.通过客户年龄和交易行为分析,可以判断年龄在18~35岁之间的客户处在事业的上升及稳定期,收入日趋稳定、思想活跃,容易接受新鲜事物,同时具有极强的购买力.35~50岁之间的客户生活和收入稳定,交易需求大,交易行为较为固定,交易金额较大,这两部分人群为信用卡产品的核心客户.在营销方案设计上,应充分考虑这两部分客户的消费能力、喜好和习惯,在消费交易拉升起点金额设定时,可将两类客户交易均值作为依据,即分别以450元和6500元作为活动的起始点,当客户的交易额分别达到以上金额时,可以适当给予奖励.在此基础上设计客户消费活动的奖励标准和品种.可以使用经验判断方法或抽样调查方法,了解这两类客户群体的喜好和习惯,从而设计具有吸引力的奖励制度.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版木地板企业社会责任报告编制合同3篇
- 二零二五年度生态保护区打井劳务合作协议4篇
- 二零二五年度新能源汽车零部件生产承包股东内部合同4篇
- 二零二五年度船舶买卖合同船舶检验标准3篇
- 二零二四年国际投资权益转让合同
- 二零二四商务培训中心机房改造及系统集成服务合同3篇
- 二零二四年度新能源汽车电池技术改进合同2篇
- 个人与企业之间2024年度特许经营合同2篇
- 二零二五年度商标产权归属与授权合同3篇
- 二零二五版冷库建设与运营管理合同4篇
- 《中华民族多元一体格局》
- 2023年四川省绵阳市中考数学试卷
- 南安市第三次全国文物普查不可移动文物-各乡镇、街道分布情况登记清单(表五)
- 选煤厂安全知识培训课件
- 项目前期选址分析报告
- 急性肺栓塞抢救流程
- 《形象价值百万》课件
- 红色文化教育国内外研究现状范文十
- 中医基础理论-肝
- 小学外来人员出入校门登记表
- 《土地利用规划学》完整课件
评论
0/150
提交评论