(计算机应用技术专业论文)数据挖掘技术在银行信贷业务中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘技术在银行信贷业务中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘技术在银行信贷业务中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘技术在银行信贷业务中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘技术在银行信贷业务中的应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙扛大学硕士学位论文 数据挖掘技术在银行信贷业务中的应用 摘要 数据挖掘技术是- - 1 7 运用了人工智能、机器学习、统计学等多个领域理论和 技术的新兴交叉学科,可以为企业提取隐含在大量历史数据中,但却潜在有用的 信息和知识,从而为决策的制定提供有力的支持。它和数据仓库、联机分析是当 前及今后商业智能领域的主流技术。数据仓库集成系统业务数据,面向分析型数 据处理,能够简化数据挖掘的某些步骤和提高数据挖掘的效率。联机分析技术则 可以为数据挖掘提供预期的挖掘对象和目标,避免挖掘的盲目性。 在国外,数据挖掘已广泛应用于金融、电信、保险、电力等多方面领域,并 已经取得显著的成果。将数据挖掘技术有效的应用于银行业是技术发展的方向, 也是银行业自身竞争发展的迫切需要。基于这样一种需求,本文对数据挖掘在银 行信贷业务中的应用进行了探讨,作了一些有益的实践,并取得了较好的成果。 本文首先介绍了数据仓库、数据挖掘技术相关的概念,然后再分析了现有的 信贷管理系统存在的不足之后,针对目前银行业的实际特点,结合实践经验,提 出了一个基于数据挖掘的信贷分析系统的设计和实现方法。主要完成了以下工 作: 1 了解相关业务知识,根据需求对银行法人信贷业务进行研究。从c m i s 系统中抽取与该业务相关的数据,并且通过0 r a c l e 9 i 在本地创建小型数据仓 库平台,建立星型多维数据模型。 2 根据情况采取多种方法,如空缺值填充、噪声数据处理、数据映射、数 据概化等,对业务数据进行预处理,提高数据质量,为下一步对业务进行挖掘打 下基础。 3 通过具体的数据挖掘实验,对信贷业务数据迸行挖掘,并对挖掘结果进 行了解释与评估,证明了挖掘模型的可行性和有效性:实现了决策属i d 3 算法。 最后总结了相关实验体会,讨论了数据挖掘技术应用于国内银行业所碰到的 一些难点,并对下一步的工作作了展望。 关键词:数据挖掘;数据仓库;信贷风险管理:数据预处理;决策支持 浙江太学硕士学位论文 1 0 , 1 4 ;5 4 数据挖掘技术在铼钉信贷业务中的应用 a b s t r a c t d a t am i n i n gt e c h n o l o g yi san e wc r o s s i n gc o u r s e ,w h i c hm a k e su s e 。fm a n y r e k h n so f t h e o r i e sa n dt e c h n i q u ed a t am i n i n gg u nd i s t i l t h ev a l a a b t ei n f o r m a t i o na n d k n o w l e d g ew h i c ha wh i d d e ni nh i s t o r i c a ld a t a nc a l lp r o v i d ee r n o l l i e n ts u p p o r tf o r t h ee s t a b l i s h m e n to ft h ed e c i s i o nd a t am i n i n g ,d a t aw a r e h o u s e ,o l a pa n da r ea l lt h e l e a d i n gt e c h n o l o g i e si nb u s i n e s si n t e l l i g e n c e a r e af r o mn o wo nd a t aw a r e h o u s e w h i c hi n t e g r a t e st h es y s t e md a t aa n df a c e sa n a l y t i c a ld a t ap r o c e s s i n gc a ns i m p l i f y c e r t a i ns t e p sa n di m p r o v ee f f i c i e n c yo fd a t am i n i n g o l a pt o o l sc a np r o v i d e p r o s p e c t i v eo b j e c ta n dg o a lf o rd a t am i n i n g , a n dc a l la v o i d b l i n d n e s so f d a t am i n i n g d a t am i n i n gh a sa l r e a d yb r o a d l ya p p l i e di nf i n a n c e ,t e l e c o m m u n i c a t i o n , i n s u r a n c e ,e l e c t r i cp o w e r ,e t c ,a n dh a sa l r e a d yo b t a i n e dv e r yb i ga c h i e v e m e n t + i t $ t h e n e wd i r e c t i o no ft e c h n i q u ed e v e l o p m e n tf o rd a t am i n i n gt oa p p l ya v a i l a b l yi nt h e b a n k i n g ,a n di t sa l s ot h eu r g e n td e m a n do fb a n k s c o m p e t i t i o n a c c o r d i n gt ot h i s n e e d t h i st e x 。td i s c u s s e st h ea p p l i c a t i o no fd a t am i n i n gi nl o a nb u s i n e s so fb a n k i n g , m a k e ss o m eb e u e f i c i a lf u l f i l l m e n t s ,a n do b t a i n ss o m eb e t t e rr e s u l t s t h i sp a p e ri n 打o d u e e st h er e l e v a n tc o n c e p to fd a t aw a r e h o u s ea n dd a t am i n i n g t e c h n o l o g y a f t e ra n a l y z i n gt h es h o r t e o m i n ge x i s t i n g i nt h eb a n k i n gi n f o r m a t i o n m a n a g e m e n ts y s t e mn o w , a i m i n g a tt h e a c t u a lc h a r a c t e r i s t i c so fb a n k i n ga n d c o m b i n i n gw i t ht h ea c t u a le x p e r i e n c e ,w ed e s i g nal o a nd e c i s i o ns u p p o r t i n gs y s t e m b a s e do nd a t am i n i n g f o l l o w i n ga r e t h em a i nj o b s : 1 l e a r nt h er e l e v a n tk n o w l e d g ea n dr e s e a r c ho nt h el o a nb u s i n e s so p e r a t i o n a c c o r d i n gt ot h ed e m a n d d a t ar e l a t e dw i t ho p e r a t i o ni se x t r a c t e df r o mc m i s ,w i t h w h i c hl o c a ld a t aw a r e h o u s ea n ds t a rs c h e m aa r ec r e a t e du s i n go r a c l e 9 i 2 a d o p ts e v e r a lm e t h o d st ol y r e p r o c e s so p e r a t i o n a ld a t aa c c o r d i n gt o t h e c i r c u m s t a n c e ,s u c ha sf i l l i n gt h eb l a n k ,d e a l i n gw i t hn o i s e ,m a p p i n gd a t a ,s y n t h e s i z i n g f i e i d s t h i ss t e pi m p r o v e st h ed a t aq u a l i t ya n df o u n d sg o o db a s ef o rd a t am i n i n gn e x t 3 t h r o u g hd , v oc o n c r e t ed a t am i n i n ge x p e r i m e n t ,t h i sp a p e rc a r r i e so nt h e a n a l y s i st od a t ao fl o a n b u s i n e s s s o m et y p i c a lr u l e sd u go a ta r ee x p l a i n e da n d i i 浙江丈学硕士学位论文 数据挖掘技术在银行信贷业务中的应用 a n a l y z e d ,t o o a n di d 3d e c i s i o na l g o r i t h mi si m p l e m e n t e d a tl a s t ,t h i sp a p e rs u m m a r i e sr e a l i z eo ft h er e l a t e de x p e r i m e n t ,d i s c u s s e st h e d i f f i c u l t yf o rd a t am i n i n gt e c h n i q u ea p p l y i n gi nt h eb a n kc u r r e n t l y , t h ep r o b l e m s e x i s t e da tp r e s e n ta r es u m m a r i z e d ,a n dt h ee x p e c t a t i o nn e x ti sm e n t i o n e di nt h ee n d k e yw o r d s :d a t am i n i n g ,d a t aw a r e h o u s e ,l o a nr i s km a n a g e m e n t ,e t l , d e c i s i o ns u p p o r t i i i 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 第1 章绪论 一直以来,各家银行都在不同程度的进行各种基础信息平台建设,对数据采 取集中式管理。在银行的这些业务数据中保存着大量隐含的、事先未知的、具有 潜在价值的信息。从海量数据中发掘出有关风险控制和信用评估的知识和规律便 逐渐成为银行面临的新挑战。而随着数据挖掘( d a t am i n i n g ) 、数据仓库( d a t a w a r e h o u s e ) 和联机分析处t 里( o n l i n ea n a l y t i c a lp r o c e s s i n go l a p ) 等理论与技术 的研究深入,这一难题的解决有了新的方法。 1 1 论文的研究背景 过去,由于受到当时处理数据的手段水平、数据库容量以及计算机运行速度 等等方面的限制,国内商业银行各支行都有各自的客户信息库,信贷资料数据库, 对原始数据进行简单的统计汇总后再上报。这种分析方法和分析工具都很落后, 为上层决策也只是提供表面的信贷业务数据。由于不能全面把握内部和外部的信 息,缺乏信息的交流,从而造成管理人员不能对信贷资产的风险做出正确的评估, 导致决策失误。 在最近1 0 年内,中国商业银行对信息化工作的重视达到了前所未有的高度。 从最初的业务处理电子化,到后来各银行内部网络和垂直业务体系的建成,直至 数据大集中工程的实施,中国银行业对于信息化的重视,不仅与国际范围内形成 的金融竞争力即信息化能力的共识步调一致,而且在短短数十年间,取得了令国 际同行注目的成绩【1 1 。 但是,一直到了今天与强大对手现实较力的时刻,中国银行业才发现,电子 化和信息化和不是终极目的。信息化本质是保证银行具备核心竞争力的一系列重 要工具。纵观国内商业银行的计算机应用状况,我们不难发现,现在银行实施的 大多数系统所基于的数据库只能实现数据的录入、查询、统计等较低层次的功能, 但却无法发现数据中存在的关联关系和业务规律,更难以根据现有的数据预测未 来业务的发展趋势。用一些银行业务人员的牢骚话来描述这种现状:“报表、报 告满天飞,不知哪个没水份? 数据、数字遍地有,不知哪个是真的? 客户、业务 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 到处是,不知哪个最该抓? 考核、决策天天搞,不知哪个有准头? ”。 目前中国银行业数据管理应用的普遍现状是,随着大量的软件系统的使用, 银行汇集了大量的数据,但是却缺乏挖掘数据背后隐藏的知识手段和工具,所谓 分析仍然停留在对数字的简单计算、汇总上面。日益增多的数据不但没有为业务 决策提供有力的支持,反而巨量数据信息的存储反而成了沉重的负担,甚至出现 了“数据爆炸但知识贫乏”的怪现象这种局面若长此以往而无改观,银行不在 数据和信息的“海洋”中被“淹死”,就会在业务知识和决策规律的“沙漠”中“渴死”。 如何有效的利用这些浩如烟海的业务数据,有效的为业务决策提供智能化的支 持;如何在信息处理的基础上,建立业务分析和预测等应用系统,为银行业务人 员提供准确、高效的决策支持服务,这些都已经成为国内商业银行信息化建设中 迫切需要解决的问题。越来越多的人已经认识到这些问题,并且对数据挖掘在银 行业务中的应用作了大量的思考和研究。 数据挖掘技术的崛起与发展为银行业的信息化建设提供了一个新的起点。数 据挖掘就是借助于人工智能和高级统计技术,运用聚类分析、神经网络、决策树 等技术,从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。当 前,基于数据挖掘的管理在许多先进企业已被广泛应用。在银行业,由于银行产 品具有相当的同质性,因此银行之间的差别,往往在于谁掌握了客户关系,以及 海量的业务和客户信息背后的独特业务规律,谁就可以科学地制定决策,而这正 是数据挖掘技术所要解决的问题 2 1 。也是本文所要尝试解决的问题。 1 2 国内外研究开发现状 数据挖掘技术在金融、电信、保险、电力等各行业有着广泛的应用。就金融 行业的应用而言主要体现在市场营销、客户关系管理、风险管理( 如欺诈检测和 失职预测) 、业务过程再设计等。 数据挖掘技术在美国银行金融领域应用广泛。金融事务需要搜集和处理大 量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、 消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。商业银行业 务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行 科学的分析和归类,并进行信用评估p 】。 浙江大学硕士学位论文 数据挖掘技术在银行信贷业务中的应用 m e l l o n 银行使用i n t e l l i g e n ta g e n t 数据挖掘软件提高销售和定价金融产品 的精确度,如家庭普通贷款。零售信贷客户主要有两类,一类很少使用信贷限 额( 低循环者) ,另一类能够保持较高的未清余额( 高循环者) 。每一类都代表着 销售的挑战。根据新观点,用户的行为会随时间而变化。分析客户整个生命周期 的费用和收入就可以看出谁是最具创利潜能的。 m e l l o n 银行认为“根据市场的某一部分进行定制”能够发现最终用户并将 市场定位于这些用户。但是,要这么做就必须了解关于最终用户特点的信息。数 据挖掘工具为m e l l o n 银行提供了获取此类信息的途径。 m e l l o n 银行销售部在先期数据挖掘项目上使用i n t e l l i g e n c ea g e n t 寻找信息, 主要目的是确定现有m e l l o n 用户购买特定附加产品的倾向,利用该工具可生成 用于检测的模型,可对那些有较高倾向购买银行产品、服务产品和服务的客户进 行有目的的推销。该官员认为,该软件可反馈用于分析和决策的高质量信息,然 后将信息输入产品的算法。 近年来,m e l l o n 银行着手与i b m 联手推出一种大范围的多平台数据挖掘工 具,称之为“智能数据挖掘器”( i n t e l l i g e n t m i n e r f o r d a t a ) 。该项目在宾美银行主 要是将数据挖掘应用在三个业务领域:客户关系管理、风险管理和业务流程再造。 美国f i r s t a r 银行使用m a r k s m a n 数据挖掘工具,根据客户的消费模式预测 何时为客户提供何种产品。f i r s t a r 银行市场调查和数据库营销部经理发现:公 共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入 到新产品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合 适的消费者。m a r k s m a n 能读取8 0 0 到1 0 0 0 个变量并且给它们赋值,根据消费 者是否有家庭财产贷款、赊账卡、存款证或其它储蓄、投资产品,将它们分成若 干组,然后使用数据挖掘工具预测何时向每位消费者提供哪种产品。预测准客户 的需要是美国商业银行的竞争优势。 美国汇丰银行使用了某统计分析与数据挖掘解决方案商的方案,对不断增长 的客户数据进行挖掘,就是建立预测模型来发现交叉销售和“翻滚”销售机会。定 位于每一产品最有价值的客户可以使销售最大化、营销费用最小化。汇丰银行客 户获取和研究部经理和银行各个产品部门的同事在用该公司建立的预测模型的 基础上建立了成功的营销策略。根据报告,短短三年时间,银行的数个产品线销 浙江大学硕士学位论文 数据挖掘技术在银行信贷业务中的应用 售提高了5 0 。通过更精确地定位于目标客户,美国汇丰银行不仅发现了对特定 产品最有前景的客户,同时也节约了费用,因为免去了对不符合预测模型特征的 客户的联系,从而使营销费用减少3 0 c 4 1 。 数据挖掘同样应用于银行的风险管理中。c o r e s t a t e s 银行,其零售信用信息 系统( r e t a i lc r e d i ti n f o r m a t i o ns y s t e m ,r c r i s ) 帮助银行准确分析客户和信用业 务以减少信用风险并监督高风险的帐户。而蒙特利尔银行( b a n ko f m o n t r e a l ) , 它分析进行抵押的客户在支票、储蓄和其它帐户上的交易历史记录,以此来得出 客户拖欠费用的风险。与此类似,美国银行抵押贷款部对客户行为的数据进行数 据挖掘来估计坏帐,这样负责信用风险的经理们就可以最优地确定坏帐准备金, 而这能直接影响收益率。 虽然数据挖掘技术在国外已经得到了广泛的应用,根据美国t h et o w e r g r o u p 咨询公司的调查显示:1 9 9 8 年全球5 0 0 家大银行中,己经有近9 0 家建立了 数据仓库并使用数据挖掘技术为其服务。据了解,在这5 0 0 家银行中,目前至少 有3 0 0 家银行己经从事数据挖掘工作了。而在国内则刚刚起步,处在积极探索和 经验积累阶段。虽然已经引起了人们的广泛关注,但国内大多数银行在这方面的 应用还没有得到真正地实现。随着各银行对数据仓库建设投入的日渐加大,数据 挖掘技术的应用正在逐渐变得普遍和重要【5 】。 数据挖掘涉及数理统计、模糊理论、神经网络等前沿技术,它包含统计学的 方法,又具有比统计学方法更强大的功能。与传统的统计技术相比有以下特点州: n ) 数据挖掘与传统的统计分析技术都关心从数据中发现某种结构。前者是 后者的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技 巧,所以对使用者的要求很高。数据挖掘将高深复杂的统计技术封装起来,使得 业务人员不必了解某些技术细节也能完成对数据进行分析和预测。 ( 2 ) 数据挖掘的大部分核心功能,如聚类、预测、关联分析、分类等,是以 统计分析技术作为支撑的。许多成熟的统计方法,比如回归分析( 多元回归、自 回归、l o g i s t i c 回归) 、判别分析( b a y e s 判别、非参数判别、f i s h e r 判别) 、聚类分 析( 系统聚类、动态聚类) 、探索性数据分析( e x p l o r a t o r yd a t aa n a l y s i s ,简称e d a ) 等,在数据挖掘领域发挥着巨大的作用。 ( 3 ) 统计学适合于中小样本的数据,能通过这些数据的关系获得样本行为的 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 描述,应用范围比较小。而数据挖掘技术是数据驱动的,可以处理海量数据,通 过与业务模型和业务目标相结合的数据模型对数据进行预处理,获取对决策影响 较大的数据样本。它处理的结果不仅可以是样本行为的描述,还可以对这些数据 背后隐藏的背景知识进行描述。 由上可见,数据挖掘相对于传统的统计技术而言有很大的优势。把o l a p 和数据挖掘技术与银行业务有效结合不仅有助于加深银行对业务的理解和认识, 有效提高银行经营管理决策的科学性和管理效率,还能够推动银行对现有信息管 理体系的重构,信息管理体系的整合,加强银行各类业务管理系统间的信息交流, 发挥各系统的整体效益。所以,进行数据挖掘是银行生存发展、提高竞争力的需 要。 在银行中合理有效的使用数据挖掘技术,可以从个人客户账户( 信用卡、各 类储蓄存单、卡折等) 相关信息和消费习惯对客户进行分类预测,比如风险分析、 忠诚度分析、购买潜力分析、产品偏好分析等等。这样就可以针对不同的客户提 供不同的服务,减小风险,提高效益。对于给予优良客户消费优惠折扣以鼓励消 费并吸引潜在客户;还可以通过对一些潜在客户数据分析,拓展有前途的客户【7 】。 1 3 本文的主要工作 本文在分析了银行信贷业务实际特点的基础之上,对数据挖掘技术在客户分 析和决策支持中的应用作了有益的探索,提出了一些解决问题的方法,所做的主 要工作有: ( 1 ) 确定分析主体,了解业务知识,并从c m i s 抽取相关业务数据; ( 2 ) 根据具体情况采用多种方法对数据进行预处理; ( 3 ) 采用o r a c l e 9 i 在本地搭建数据仓库,并建立维度和多维数据集; ( 4 ) 给出了一个基于数据挖掘的信贷业务分析模型; ( 5 ) 对确定的分析主题进行了具体的挖掘实验,并对结果进行评估和解释, 从而证明了该模型能够较好的实现对信贷业务的决策支持,是一次有益的探索; ( 6 ) 实现了决策树i d 3 算法; ( 7 ) 总结了挖掘中的一些体会,并结合数据挖掘的特点分析了当前数据挖掘 应用于银行业务存在的问题,提出了一些解决方法。 浙江丈学硕士学位论文数据挖掘技术在银行信贷业务中的应用 下面将按如下顺序展开个部分内容: 第一章介绍了论文研究背景,以及相关技术在国内外银行业的应用现状: 第二章讲解了数据挖掘、联机分析和数据仓库的基本知识: 第三章根据需求进行主题分析,抽取相关业务数据在本地建立小型数据仓库 和多维数据集; 第四章对两个分析主题进行具体的挖掘实验,评估了模型结果,解释了典型 规则;实现了i d 3 决策树算法。 最后对已有的成果进行总结归纳,指出了存在的问题和不足,为下一步研究 指明新的方向。 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 2 1 数据挖掘介绍 第2 章关键技术介绍 随着信息技术的高速发展,各种形式的数据库中的数据呈海量急剧增长,在 这些海量的数据里隐藏着大量的、有用的知识,而只靠人工或简单的数据检索, 远不能够及时提取出哪些不同层次的知识,由此数据的生成和理解之间出现了越 来越大的差距。为了避免这种情况,必须要有一种能分析大量数据的新型的数据 分析技术,数据挖掘正是这样一种技术,它使得海量的数据被自动的和智能化的 转化为有用的信息和知识成为可能【8 】0 2 1 1 数据挖掘的定义 数据挖掘( d a t a m i n i n g ) 顾名思义就是从大量的数据中挖掘出有用的信息。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实 际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的 过程 9 1 。 从广义上理解,数据、信息是知识的表现方式,但是人们更将概念、规则、 模式、规律和约束等看作知识。这里所说的知识都是相对的,是有特定前提和约 束条件的,在特定领域中具有实际应用价值。同时还要能够易于被用户理解,最 好能用自然语言表达所发现的结果。 数据挖掘与传统的数据分析的本质区别是,数据挖掘是在没有明确假设的前 提下挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效的和实 用的三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是 要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘 出的信息有可能是很出乎人的意料的。最典型的例子就是啤酒与尿布的联系。 数据挖掘是种新的商业信息处理技术,其主要特点是对商业数据库中的大 量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的 关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。对于现在 商业企业的一个巨大的问题是企业拥有的数据量很大,而其中真正有价值的信息 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 却是有限的,因此从海量数据中经过深层数据分析,得到能够帮助企业做出决策 的有用的信息,就是数据挖掘的存在的原因。针对商业企业,人们又把数据挖掘 描述为:按企业既定业务目标,对海量企业数据进行探索和分析,揭示隐藏的、 未知的和验证己知的规律性,并迸一步将其模型化的先进有效的方法。 数据挖掘和数据库知识发现( k d d ) 具有很大的重合度,但由于目前工业界、 媒体、数据库研究领域中,“数据挖掘”一词己被广泛使用并被普遍接受,所以 经常使用它来表示整个知识发现过程。数据挖掘在一些文献中也有其他名称,如 数据开采、数据采掘、知识抽取、知识考察等。 2 1 2 数据挖掘的种类 随着数据挖掘的蓬勃发展,它的功能越来越多,但按其功能分类,主要有以 下几种f l o ”1 。 ( 1 ) 分类( c l a s s i f i c a t i o n ) 分类的目的是得到一个分类函数或分类模型( c l a s s i f i c a t i o nm o d e l ,也称作分 类器) ,该模型能按照事先定义的分类标准,把数据库的数据项映射到给定类别 中的某一个,即对数据进行归类,而且能够根据分类模型,对其他未分类的或是 新的数据做出预测。使用的技术有决策树( d e c i s i o nt r e e ) ,记忆基础推理 ( m e m o r y - b a s e dr e a s o n i n g ) 等。例如,可以根据己有的贷款的历史数据,来建立 一个借款人信用风险等级分类模型,把贷款申请人的风险划分为不同的等级,以 后就可以利用这个模型来对数据库的其他申请者或是新的申请者做出预测。 不同的分类器有不同的特点。评价一个分类器好坏与否可从预测准确度、计 算复杂度、模型简洁度这三个方面来综合考虑。预测准确度是用得最多的评价尺 度,特别是对于预测型分类任务。计算复杂度依赖于具体的实现细节和硬件环境, 在数据挖掘中,由于操作对象是海量数据,因此空间和时间的复杂度问题将是非 常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎。例如, 采用规则表示的分类器构造法就更有用,而神经网络方法产生的结果就难以理 解。 ( 2 ) 预测( p r e d i c t i o n ) 预测是根据已有的长期累积的资料来推测某一属性未知的真值。例如按照贷 款申请人的教育程度、年龄及收入来评估贷款的金额。使用的技术有回归分析、 浙江大学硕士学位论文 数据挖掘技术在银行信贷业务中的应用 时间序列分析和人工神经网络等。预测是根据对象属性的过去观察值来估计该属 性未来的值。例如由借款人的过去还贷情况来预测其未来的还贷情况( 及时还贷 还是拖欠贷款) 。 ( 3 ) 聚类( c l u s t e r i n g ) 聚类是把一组个体按照相似性归纳成若干类别,即“物以类聚”。由聚类所 产生的簇是一组数据对象的集合,这些对象根据最大化类内的相似性、最小化类 间的相似性的原则进行聚类或分组。所形成的每个簇可以看作一个对象类,由它 可以导出规则。聚类也便于分类编制,将观察到的内容组织成类分层结构,把类 似的事件组织在一起。例如,贷款数据库给出的原始数据,聚类方法可以把一些 具有相似特征的数据自动地进行分类。 但聚类与分类的功能是不同的,前者是在事先不知道的条件下根据对象的有 效相似特征分组,而分类是根据预先定好的一些特征值对对象分组,组或类是预 先确定好。 ( 4 ) 关联分析( ( a s s o c i a t i o na n a l y s i s ) 关联分析反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项 属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。比 如,一个借款人已购买了汽车,那么其贷款购买商品房的概率是1 0 。关联规则 挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集 和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大 量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类 设计、交叉购物和贱卖分析。最为著名的关联规则发现方法是r a g r a w a l 提出的 a p r i o r i 算法。 ( 5 ) 时间序列分析( t i m es e r i e sa n a l y s i s ) 给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序 排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阀值,序 列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低 于用户指定的最小支持度阀值。序列分析是用时间区分的,这是它与关联分析的 最大不同。比如,一个借款人上月拖欠贷款,那么这个月仍拖欠贷款的几率是 5 5 。客户购买行为模式预测、w e b 访问模式预测、疾病诊断、自然灾害预测、 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 d n a 序列分析等领域是序列分析的典型应用。序列分析的主要算法有g s v , p r e f i x s p a n 等。 2 1 3 数据挖掘的基本步骤 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的 过程,这些模型和关系可以用来作出预测。 在实施数据挖掘之前,先要制定采取什么样的步骤,每一步都做到什么,达 到怎么样的目标是必要的。有了好的计划才能保证数据挖掘有条不紊的实施并且 取得理想的结果。很多软件供应商和数据挖掘顾问公司都提供了一些数据挖掘过 程模型,来指导他们的客户一步步地进行数据挖掘工作。比如s p s s 的5 a 评估( a s s e s s ) 、访问( a c c e s s ) 、分析( a n a l y z e ) 、行动( a c t ) 、自动化( a u t o m a t e ) , 以及s a s 的s 卧o d a 一一数据抽样( s a m p l e ) 、数据特征探索分析和预处理 ( e x p l o r e ) 、问题明确化数据调整和技术选择( m o d i f y ) 、模型研发知识发现 ( m o d e l ) 、模型和知识的综合解释与评价( a s s e s s ) 【1 2 1 。 无论目前存在有多少种的方法和步骤,总的来说,数据挖掘的基本过程为: 首先要定义商业问题,而后根据选择的组建立数据挖掘库。数据挖掘库中的信息 可以从数据仓库中提取,如果还需要别的信息,还可以从外部数据源中直接获取。 建立数据挖掘库后,需要对数据进行分析,拟定初步的数据模型j 这包括选择变 量,选择记录集合,对变量进行转化或者创建新的变量。在模型初步建立后需要 对模型进行合理的评估,如果模型和实际系统存在较大的误差,则模型需要重性 修改,直到模型和实际系统比较接近在对模型进行解释,并作为辅助决策信息传 递给管理人员。 l o 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 鳓逛置 矗措 簧船攫 图2 1 数据挖掘的基本步骤 ( 1 ) 定义业务问题 要想充分发挥数据挖掘的价值,必须对目标有个清晰明确的定义,即决定 到底想干什么。业务问题的定义是数据挖掘的第一步。具体的来说,就是要分析 应用领域,弄清客户的要求,了解数据和实际的业务问题,然后再次基础之上提 出数据挖掘的目标和制定数据挖掘计划。任何不明确的定义都会严重影响模型的 准确和应用时的效果,这是数据挖掘的基础。 ( 2 ) 数据准备 数据的准备包括数据取样、数据特征探索、分析和预处理,同时要明确问题, 选择适合的数据,必要时进行调整。选择正确的数据源对整个数据挖掘项目的成 败至关重要。数据挖掘所收集的数据集往往存在于不同的数据源,在收集的过程 中也可能出现数据被污染的现象,导致大量噪声数据、冗余数据的存在,这些数 据的存在往往会影响数据挖掘的质量,因此数据准备在数据挖掘过程中是非常重 要的一步。数据中被一般包括数据抽取、数据清洗、数据转换、数据加载等环节。 数据抽取就是根据主题定义的需要,从各个数据源抽取分析数据。数据清洗就是 对数据进行适当的清理和规范,解决多个数据源数据的不规范性、二义性、重复 和不完整的问题,确保数据的准确性。数据转换就是将数据转换成为数据仓库的 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 数据库结构和内部格式,一般包括数据离散化,新建变量、转换变量、拆分数据、 格式变换等。数据加载就是将经过清洗、规范的数据加载到数据仓库中。 ( 3 ) 建立模型 在问题进一步明确,数据结构和内容进一步调整的基础上,就可以根据数据 功能的类型,并结合数据的特征,选择合适的数据挖掘分析方法形成知识模型。 模型是模式和数据间相关性的形式化描述,可以根据已有的专业经验或业务规律 等建立。这步是数据挖掘的核心环节,是实现挖掘工作最为关键的一步。模型 的建立可以采用决策树、神经网络、数理统计、时间序列分析等多种方法。模型 的建立是一个反复、不断改进的过程,可以将数据集分成两部分,一部分作为历 史数据集来建立模型,另部分对这个模型进行测试,不断选择,最终得到最优 的模型。 ( 4 ) 评价与解释 从上述过程中将会得出一系列的分析结果、模式或者模型,可能其中有一些 是有实际意义的,而有些可能没有实际意义或者没有实用价值,甚至在某些情况 下是与事实相反的,因此需要检查、评估数据挖掘的输出,一边从多种实现方法 中选择最优的模型。评估可以根据用户多年的经验,也可以直接用实际数据来验 证模型的正确性,进而调整挖掘模型,不断重复进行挖掘。归纳地说,评估模型 的方法可以有三种:一种方法是直接使用原先建立模型的数据来进行检验,第二 种方法是从数据集中选取一批数据并对模型进行检验,第三种方法是在实际运行 环境中取出新鲜数据进行检验。 一般来说,使用模型得到的如果是一个直接的结论,那当然很好,但是实际 上这种情况并不多,更多的时候得出的是对目标问题多侧面地描述,这时就更要 很好的总结它们的规律性,提供合理的决策支持信息。 2 2 数据挖掘与数据仓库、联机分析的关系 要说明他们之间的关系,就不得不提起商务智能。从技术角度看,商务智能 的过程是企业的决策人员以企业中的数据仓库为基础,经由联机分析处理工具、 数据挖掘工具加上决策规划人员的专业知识,从数据中获得有用的信息和知识, 帮助企业获取利润的过程。- 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 数据仓库是一个用以更好地支持企业或组织的决策分析处理的的数据集合, 它有面向主题、集成、相对稳定、随时间不断变化四个特性,将数据仓库与传统 的面向事务处理的数据库区分开来。 联机分析处理( o l a p ) 是以海量数据为基础的复杂分析技术。它支持各级 管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多 维分析处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员。 数据挖掘( d a t a m i n i n g ) 是从海量数据中,提取隐含在其中的、人们事先不知 道的但又可能有用的信息和知识的过程。数据挖掘不一定非要建立在数据仓库 上,但是如果将数据挖掘和数据仓库协同工作,则可以简化数据挖掘的某些步骤, 大大提高数据挖掘的工作效率。 总的来说,在这三者之中,数据仓库是基础,而联机分析处理和数据挖掘是 数据仓库上获取两种不同目标的数据增值技术。一方面,联机分析技术可以为数 据挖掘提供预期的挖掘对象和目标,避免挖掘的盲目性1 4 1 。另一方面,数据挖 掘技术可以使联机分析处理智能化,减少分析人员手工操作的繁杂性,减轻分析 人员的负担。 近年来,随着数据库技术的应用和发展,人们尝试对d b 中的数据进行再加 工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据 仓库技术( d a t aw a r e h o u s i n g ,简称d w ) 。作为决策支持系统( d e c i s i o n - m a k i n g s u p p o r ts y s t e m ,简称d s s ) ,数据仓库系统包括 1 5 1 6 】: 数据仓库技术; 联机分析处理技术( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) : 数据挖掘技术( d a t am i n i n g ,简称d m ) : 数据仓库系统弥补了原有的数据库的缺点,将原来的以单一数据库为中心的 数据环境发展为一种新环境:体系化环境( 见图2 2 ) 。 浙江大学硕士学位论文数据挖掘技术在银行信贷业务中的应用 2 3 数据仓库 2 3 1 数据仓库的定义 图2 , 2 数据仓库系统 著名的数据仓库专家w h i n i i l o r l 在其著作 - b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一 书中给予如下描述:数据仓库( d a t aw a r e h o u s e ,简称d w ) 是一个面向主题的 f s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、随时间变化( t i m e v a r i a n t ) 的数据集合,用于支持管理决策幅钔。对于数据仓库的概念我们可以 从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它 不同于企业现有的操作型数据库:其次,数据仓库是对多个异构的数据源有效集 成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数 据一般不再修改。数据仓库是数据库技术的一种新的应用,它是用数据库管理系 统来管理其中的数据 2 0 】。 ( 1 ) 面向主题的 数据仓库中的数据是根据面向主题的方式组织的,与传统数据库面向应用相 对应。主题是用户所关心的数据对象,每个主题基本上对应个宏观分析领域, 如客户、商店等。主题是在较高层次上对企业信息系统中的数据综合、归类并进 浙江大学硕士学位论文 数据挖掘技术在银行信贷业务中的应用 行分析应用的抽象。在逻辑意义上,主题对应企业中某一领域所涉及的分析对象。 面向主题的数据组织方式是在较高层次上对分析对象的完整的、一致的描述,能 完整、统一地刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。 在o l t p 系统中数据是根据业务流程进行组织的。而在数据仓库中数据是根据主 题组织的,同一主题的数据往往在一个事实表中,并且只有符合主题的数据才可 进入数据仓库。基于主题组织的数据被划分成为各自独立的领域,每个领域有自 己的逻辑内涵互不交叉。 ( 2 ) 集成的 数据仓库中的数据是集成的。数据仓库的源数据可能是跨操作系统,跨数据 库,跨存储媒体,跨数据媒体的,这些源数据经过抽取( e x l x a c t ) 、转换( t r a n s f o r m ) 、 清洗( c l e a n s i n g ) 、装载( l o a d ) 能进入数据仓库。首先,要统一原始数据中的所有 矛盾之处,其次进行数据的综合和计算,总之要将原始数据结构做一个面向应用 到面向主题的转变。比如业务系统一天就产生几万条源数据,在进入数据仓库时 需依据用户的辅助决策需求进行综合汇总运算,这样的预处理不仅节省了用户查 询所需的时间,也提高了查询的速度。这是数据仓库技术的最关键、最复杂的一 步。我们不仅要统一原始数据中的所有矛盾,还要将这些数据统一到数据仓库的 数据模式上。 ( 3 ) 相对稳定的 数据仓库中的数据是相当长的一段时间内的历史数据的内容,是不同时点的 数据库的集合,以及基于这些集合进行统计、综合与重组的导出数据,而不是联 机处理的数据。数据仓库中的数据主要是供企业决策分析、趋势预测分析之用, 所涉及的数据操作主要是数据分析查询,一般不要求修改。尽管市场是变化的, 源数据库内的具体事务处理过程亦是变化的,但是数据仓库中的数据则是相对稳 定的。 ( 4 ) 随时间变化的 数据仓库的数据不是实时更新的,但也会随着时间的变化不断地更新、增删 和重新综合。数据仓库中的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论