版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融行业数据挖掘技术一、 一、简介“金融行业数据挖掘技术应用论坛”由中国电子信息产业发展研究院(CCID)和其旗下赛迪集团战略数据资源管理中心主办,北京赛迪数据有限公司负责具体承办,2002年11月25日在北京新世纪饭店召开。二、 二、 会议纪要1.会议内容1)数据挖掘技术与金融分析内容■数据仓库结构与技术■数据挖掘技术■评分系统在金融决策中的应用■ ■数据挖掘用于评分系统主要观点:(1) 数据仓库是适合知识发现的过程的结构。数据仓库的处理过程是从“数据清理/整合——>数据仓库——>数据选择——>数据挖掘——>模式评价——>知识”不断循环的过程(注:类似Fayyad96年提出的数据挖掘过程模型。(2) 将数据仓库和挖掘的结构划分为四个层次:第一层是数据层,第二层是多维数据库层MDDB,第三层是OLAP和OLAM,第四层是用户界面(注:类似HanJiawei的OLAM体系结构)(3) 数据挖掘过程包括:数据选择,数据转换,数据挖掘,数据解释。(4) 数据挖掘的方法:联想,划分,聚类,预测,顺序模式,相似时间序列。(5) 数据挖掘的科学方法数学工具:统计学,决策树,神经网络,模糊逻辑,线性规划。(6) 个人信用评分系统是将个人信用的历史(六个月以上)经过45至65个因素的刻划后表述的决策模型。通常个人信用评分为350至850之间。每人从850分起,有坏帐记录,即扣去不同比例的分数。经过评分模型的分析,最后得到决策评分。(850为最好)(7) 评分因素:过去的付帐历史、信用欠帐量、信用卡使用时间、新信用卡的申请、信用卡的类、信用卡交易情况、现金提取情况(8) 应用前景:银行各类信贷风险分析,企业和个人信用风险分析2) 2)如何利用数据挖掘工具协助进行市场营销内容■数据挖掘的定义■IBM数据挖掘的解决方案■ 在金融行业的应用主要观点:(1) (1) 强调了数据挖掘过程,首先必须明确需要解决的商业问题。(2) (2) IBM有从数据库到最上层的挖掘工具的一整套商业智能解决方案。(3) (3) 在银行应用的层次:信用评分,购物篮分析,区隔分析,交叉营销/向上营销,客户流失,客户价值。(4) (4) 讲解了LiftChart图的含义3) 3)数据挖掘在金融行业的应用趋势分析内容■数据管理技术的挑战■结构化数据挖掘应用■非结构化数据挖掘应用■金融行业数据挖掘应用趋势主要观点:(1) (1) 八十年代初,银行自动化建设,九十年代初银行网络化建设阶段,九五末期,数据大集中。(2) (2) 2002年上半年金融行业IT应用特点:数据大集中平稳进行,“银联”改善信用卡环境,电视会议扩大应用,个人理财系统成为新焦点,农信社信息化市场升温,无线局域网开始应用。(3) (3) 结构化挖掘原理:从现有业务系统中抽取数据(业务数据、客户数据),建立深层次的分析体系(数据仓库、数据集市、业务分析模型),以信息驱动业务的管理、新一代电子商务企业(市场触觉敏感、以客户为中心、以信息驱动)。(4) (4) 一个比喻:数据仓库和数据挖掘好比一个大的厨师烧菜,开始需要选择(5)(6(5)(6)(5)结构化数据挖掘内容:(6) 非结构化数据挖掘的意义:企业战略规划的制定和战术方案的实施离不开对于海量非结构化数据的挖掘和现有知识的管理!(7) (7)非结构化数据挖掘在企业竞争情报系统的应用,企业竞争情报系统将成为下一个数据挖掘应用的热点。(8) 金融行业数据挖掘应用趋势,在数据集中的平台上,结合结构化和非结构化数据挖掘技术,部署企业的商业智能、客户关系管理、市场销售分析、竞争对手分析、市场需求动向等。4)用友金融行业财务管理解决方案黄伟先生一上来演示了一个FLASH游戏,在多张不同花色的牌中,让观众记住一张牌,说明他能够知道所有人记住的是什么牌。然后,他抽去一张牌,再打开其他的牌,观众所记住的牌已经都不在了。原因很简单,他换去了所有牌的花色,造成一种错觉。黄伟先生用这个游戏说明,错觉往往带来错误的决策,引申开来,数据挖掘需要有正确的数据,才能进行深入的挖掘。介绍了用友集中式的财务管理解决方案,说明必须先收集这些重要的财务数据,才能进行更深入的挖掘。5)CA数据管理技术行业应用解决方案讲解了CA公司的情况,以及CA的商业智能解决方案,特出了CA自己研制的一种预测技术。6)透过数据挖掘改善客户服务中心的管理讲解了一些数据挖掘概念性的东西,并举出了那个经典的“啤酒-尿布”的案例。7)7)金融信用决策的技术突破——数据挖掘的应用■ 引言■ 信用周期一般介绍■ 信用决策的简化流程■ 信用决策技术解析■ 信用决策技术的几个例子■ 信用决策技术带来的利益■ 中国运用信用技术的可行方案主要观点:(1) (1) 抵押贷款有很多缺点,信用贷款都能弥补,所以信用贷款是好的,是趋势。(2) (2) 信用周期(CreditLifeCycle):(3) (3)信用决策简化流程(4) 传统的决策制定中心是主观制定决策(JUDGEMENT),主观决策存在一些不足,数据挖掘给决策技术带来了突破。数据挖掘是从广义的角度讲的,包括统计、机器学习、神经网络等等。(5) 预测解析(PredictiveAnalytics):信用评分技术(CreditScoring)0■ 内在理解分析(ExploratoryAnalysis/KDD):模块识别和相关性分析。■ 决策建模(DecisionModeling):通过图论方法建立模型,对于给定的一个或多个决策建立数学关系。■策略优化(StrategyOptimization):在给定的一些限制条件下,寻找改进利润的最优策略解。■ ■ 策略精调(StrategyRefinement):精调最优策略解,使其稳定可靠,易理解、易执行。(6) (6)预测解析:针对不同的信用周期阶段和不同的商业目标,建立模型■招商:依据风险的招商模型,申请模型,价值模型和响应模型。■立户:风险(坏帐,破产等),离走和利润定量等。■用户管理:分档系统,风险预测系统,坏帐、破产预警系统,债量预测模型,利润预测模型,欺诈预测模型等。■收帐:前期收帐,后期收帐等。■总体:损失预测,营利预测,最优组合建立,阶梯变坏率预测,等等。(7) (7) 内在理解分析■一般理解分析:变量的相互关系。工具 因子分析、主成分分析、聚类分析、关联规则等。■特殊理解分析:对给定目标,寻找贡献或影响的变量。工具一ISHER显著性检验、参数估计、线性/非线性/LOGISTIC回归、神经网络、决策树等。(8) (8)决策建模:对于1个或几个决策建立图论模型。从而建立起他们之间的数学关系。如下图所示:假设,P、④、p分别记作利率、信用量、债务,则R(收入)=F(X1,…,Xn,p,e,p)L(损失)=F’(X1,…,Xn,p,。,p)c(费用)=f’’(X1,…,Xn,p,。,「)最大利润=R(收入)5小)-L(损失)me,’)-C(费用)皿谯,小)(9) (9) 优化决策和决策精调:(10) (10) 信用评数技术:例子——对偶模型(11)(11)信用决策技术利益:减少坏帐;增加利润;效率提升,开销缩小;策略的公平性和一贯性得以保障。(12) (12) 中国的可行方案■ 逐步建立完整的数据库■ 人员培训(预测建模技术,决策建模技术,策略设计技术)■ 逐步建立决策系统这篇演讲是非常有价值的,所以我将其详细的整理出来。无论对于研究数据挖掘或金融模型的学者/学生,还是从事实际项目设计的工程人员,都有非常高的参考价值。三、 三、结语在短短的三个半小时内,能够组织这样一个规模大、内容丰富、偏重应用的论坛,赛迪是功不可没的。一些可以探讨的概念和思路:1.数据挖掘的定义在提到数据挖掘的时候,一些书或者文献都要强调它与统计和OLAP的区别。我觉得应该从更广义的概念上来理解数据挖掘,它是一门跨越多个学科的技术,只要能够从数据发现有意义的模式,都可以称为数据挖掘。2.数据仓库和数据挖掘的关系很多人一讲数据挖掘,首先必须讲数据仓库。数据挖掘是从大量的数据中发现有意义的模式。大量的数据并不一定是来源于数据仓库。因为,这样会造成一种误解,进行数据挖掘项目,一定要先建立数据仓库。另一方面,数据仓库的结构,其实并适合进行数据挖掘分析,因为我们都看到,大部分数据仓库的结构采用星型或雪花型数据模型,这些数据仓库其实是为OLAP建立的,更适合进行OLAP的多维分析,而要从事数据挖掘项目还需要将数据转换成数据挖掘算法能够识别的数据结构。数据仓库为数据挖掘所做的,应该从数据整合和清洗的角度来理解。也就是说,数据仓库将不同操作源的数据存放到一个集中的环境中,并且进行适当的清洗和转换。这点上面李峻博士所举的厨房的例子是一个贴切的比喻。数据挖掘所需要的数据,能够直接从数据仓库获得,但是获得后还是需要进行转换,如果没有数据仓库,就需要直接从操作型数据源中获取,并且要进行ECTL(抽取、清洗、转换、装载)的操作。因此,没有数据仓库也是能够进行数据挖掘项目,数据仓库的结构不是为数据挖掘设计的,它更适合OLAP操作。3. 国内的数据挖掘项目现状国内的金融行业真正从事数据挖掘项目的不多,这从论坛的国内报告能够看出。报告的内容主要还是“看——想一一说”的步骤。也就是说,看一些资料/文献/书,再从目前的情况中展开联想,最后将这些整理的想法形成方案,并报告(说)出来。我们非常希望,在以后的应用论坛上,能够象林博士举国外的信用决策的例子一样,来讲国内的数据挖掘案例。从而作到“看——想一一做一一说”。4. 金融行业如何从事数据挖掘项目林博士的“中国信用决策的可行方案,,是比较贴切的,除了信用决策,对于其他已经积累了很多业务数据的系统,都可以参考。利用数据挖掘技术,构建决策系统,使得决策来源于数据,而不仅仅是主观判断(JUDGEMENT)。金融行业的数据挖掘研究,需要多方面的人员的共同参与,包括领域专家、数据管理员、数据分析人员、业务分析人员、数据挖掘专家,形成一个团队,从某一个实际的问题出发,摸索适合自己企业的一套研究和开发方法,逐
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年劳动合同范本版
- 《何謂物流管理》课件
- 医疗康复器械
- 2024年度印刷设计与制作服务合同3篇
- 反腐课件教学课件
- 《外事工作概述》课件
- 生产加工合同
- 移动式脚手架安全培训
- 建筑工程砖材料采购合同版04
- 护士护理进修汇报护理
- 中华国学智慧树知到期末考试答案2024年
- MOOC 国际交流英语-哈尔滨工业大学 中国大学慕课答案
- 中外政治思想史-形成性测试四-国开(HB)-参考资料
- 沟通技巧与商务礼仪
- 18 奇妙的建筑 (教案)岭南版美术三年级上册
- 小学三通两平台汇报
- 防火巡查记录表防火检查记录表
- “校园周边环境安全隐患”自检自查(排查)记录表
- 高二上学期日语阅读四篇自测
- 大学生职业生涯规划成长赛道 (第二稿)
- JB T 6464-2006额定电压1kV(Um=1.2kV)到35kV行业标准
评论
0/150
提交评论