应用SAS-EM进行数据挖掘课件_第1页
应用SAS-EM进行数据挖掘课件_第2页
应用SAS-EM进行数据挖掘课件_第3页
应用SAS-EM进行数据挖掘课件_第4页
应用SAS-EM进行数据挖掘课件_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用SAS/EM进行数据挖掘2003-04-16赛仕软件研究所(上海)有限公司应用SAS/EM进行数据挖掘2003-04-16议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介Workshop议程数据挖掘概述2企业决策支持信息系统OLTP数据仓库统计分析数据挖掘决策支持企业知识DWSolutionDM&AnalysisSolutionApplicationforC/S&B/SCBISolution1stQtr2ndQtr3rdQtr4thQtrPowerPlayFileEditDataValuesDisplayTextLegendLocation1992AllProductsAgegroupsRevenue($000)OLAP查询报表企业决策支持信息系统OLTP数据仓库统计分析决策支持企业知识3什么是数据挖掘?定义:

从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程

-Fayyad,Piatetsky-Shapiro特征:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并为企业带来巨大经济效益。什么是数据挖掘?定义:4待分析数据数据仓库处理后数据模式变换后数据

知识Source:”FromDataMiningtoKnowledgeDiscovery:AnOverview”,AdvancesinKnowledgeDiscoveryandDataMining,AAAIPress/TheMITPress.数据抽取数据预处理数据挖掘数据变换解释评价数据挖掘全过程待分析数据处理后模式变换后知识Source:”FromD5数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式识别机器学习人工智能数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式机器6数据挖掘算法(按有无目标变量)有监督算法无监督算法(有目标变量)

(无目标变量)传统回归 无神经网络决策树

逻辑/概率回归决策树 聚类神经网络 神经网络判别分析基于记忆的推理决策树 主成分分析 聚类

关联/序列分析 连接分析 因子分析预测分类探索关联数据挖掘算法(按有无目标变量)有监督算法7①

预测

用过去的数据预测

未来发生什么

预测未来发生的可能性历史数据预测算法

-神经元网络

-决策树-回归②描述

用过去的数据

描述

现在发生了什么描述现在已经发生的规律历史数据描述算法

-聚类-关联数据挖掘算法(按分析目的)①预测预测未来历史数据预测算法②描述描述现在历史数据描8回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法回归算法:线性回归、逻辑回归、概率回归数据挖掘算法9x20.00.20.40.60.81.0x10.00.20.40.60.81.0x20.00.20.40.60.81.0x10.00.20.40.60.81.0使用一元二次项使用简单线性①

预测型–回归

希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法x20.00.20.40.60.81.0x10.00.20.10Time

<13yesno70%9663%ratio

<.39time<10ratio<8410359%①

预测型–决策树

希望预测“绿点”在哪些情况下发生以及发生的概率QuotedpriceLowerlimitprice(ratio)Time00.20.40.60.8910111315数据挖掘常用算法Time<13yesno796ratio<.3911timemethod#oforderratio#ofordereditems

Y1=f1(x).Y2=f2(x).Y3=f3(x).Y=f1(x)+f2(x)+f3(x)数据挖掘常用算法①

预测型–神经元网络

希望预测“绿点”在哪些情况下发生以及发生的概率timeY1=f1(x).Y2=f2(x).Y3=12CombinationADACC

AB&CDSupport2/52/52/51/5Confidence2/32/32/41/3ABCACDBCDADEBCE②

描述型–关联

了解客户购买哪些产品组合数据挖掘常用算法CombinationSupportConfidenceAB13

cluster4cluster3cluster1cluster2cluster5②

描述型–聚类

把具有相似行为的客户分到一群QuotedamountTotalamountQuotedPriceAveragePrice数据挖掘常用算法cluster4cluster3cluster1clust14议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop议程数据挖掘概述15SAS数据挖掘项目方法论

反复挖掘数据(SEMMA)定义业务问题考察业务情况提出业务问题考察数据可用性制定业务计划选择数据挖掘方法探索(E)调整(M)建模(M)评估(A)抽样(S)系统环境评估评估系统环境评估企业准备情况评估IT环境选择软硬件环境规划实施体系结构数据准备创建数据挖掘环境检查和校验数据准备数据模型实施设计模型集成的体系结构生成管理和业务报告清理数据使其可用把模型应用于生产回顾与评价回顾模型对企业生产的效果回顾投资回报回顾模型的性能SAS数据挖掘项目方法论反复挖掘数据(SEMMA)定义16企业化经典统计数据分析工具统计分析:STAT,LAB,INSIGHT计量经济学与时间序列分析:ETS运筹优化:OR质量控制与质量提高:QC矩阵编程语言:IML图形与分析工具:GRAPHThinClient:EnterpriseGuide数据挖掘工具:SAS/EnterpriseMiner傻瓜兼专家型国际标准的全方位的统计分析和数据挖掘工具企业化经典统计数据分析工具国际标准的全方位的17EM基本介绍EM特色EM界面SEMMA方法论节点简介节点通用概貌EM基本介绍EM特色18SAS/EM特色支持广泛的平台包括各种UNIX,MVS,OS/390,Linux可访问的数据源多达50多种,和数据库,数据仓库很好的集成Client/Server结构。SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员丰富的可视化数据探索节点,对数据进行细致分析提供多种数据预处理和变换工具,包括变量自动选择等功能提供丰富的数据挖掘模型和灵活的算法:决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble)提供模型评估模块和多种评估准则提供完整的数据挖掘模型代码输出和打分(Scoring)功能报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。SAS/EM特色支持广泛的平台包括各种UNIX,MVS,OS19SAS/EM界面SAS/EM界面20数据取样SAMPLE选数据样本?数据探索EXPLORE可视化数据探索聚类分析和分类数据调整MODIFY数据重组和细分添加和变换变量模式化MODEL决策树模型数理统计分析人工神经网络时间序列分析评价ASSESS新数据预测结论综合和评价SAS数据挖掘过程方法论-SEMMA数据取样选数据样本?数据探索可视化聚类分析数据调整数据重组21节点简介:Sampling类节点InputData确定数据源。Sampling提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。DataPartition将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。节点简介:Sampling类节点InputData22节点简介:Explore类节点DistributionExplorer提供数据的多维分布图,以了解变量的趋势和特色Multiplot提供所有变量的分布图及对KOV的关系图SAS/INSIGHT提供交互式直观统计分析VariableSelection提供选择对KOV重要的KIVs的功能Association提供关联分析和序列分析LinkAnalysis提供连接关系分析节点简介:Explore类节点DistributionE23节点简介:Modify类节点DataSetAttributes设置或改变数据集与变量的属性FilterOutliers 提供处理数据集中异常点、稀缺值的功能TransformVariables提供变量变换的功能DataReplacement数据集中数据的替换和校正,主要用于处理缺失数据Cluster提供多种方法的聚类分析(K-mean)SOM/Kohonen自组织特征映射网络据进行分类节点简介:Modify类节点DataSetAttrib24节点简介:Model类节点Regression提供多元回归、逻辑/概率回归及自动选择变量变量的功能DecisionTree决策树,支持CHAID,CART,ID3/C4.5等算法NeuralNetwork提供MLP、RBF等网络结构,及多种调整方法UserDefinedModel为SAS程序编制的模型提供统一的模型评价界面Ensemble提供模型整合的功能,如Combine,Stratified,Bagging&BoostingTwo-StageModel两阶段模型MemoryBasedReasoning节点简介:Model类节点Regression25节点简介:Assess类节点Assessment 对不同模型提供图形化比较:“哪一个模型最好?”Reporter 自动生成HTML格式报告节点简介:Assess类节点Assessment 26节点简介:Scoring类节点Score 可输出SAS/BASE方式的预测代码可用于对新的数据集进行预测C*Score 可输出Ccode的预测代码节点简介:Scoring类节点Score 27节点简介:Utilities类节点SASCode提供SAS程序接口。GroupProcessing提供分组处理的功能Subdiagram建立模型流程子表,方便管理ControlPoint控制流程执行,方便管理DataMiningDatabase(DMDB)建立DMDB(MetaData)节点简介:Utilities类节点SASCode28节点通用概貌In/OutDataProperties(选择,浏览)Data/Variables/Log/Output/Notes等Tab修改节点后的自动保存节点的下拉菜单节点通用概貌In/Out29SAS/EM处理示例模型应用建模源数据预处理SAS/EM处理示例模型应用建模源数据预处理30议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop议程数据挖掘概述31Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Workshop(信用风险建模)业务问题32信用风险的业务问题客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用一个“坏账”客户带来的损失相当于数百个“好”客户给您带来的收益信用管理者要求提供对风险进行定量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失信用风险的业务问题客户从商业机构获得资金、产品或服务,承诺在33定义我们关注的高信用风险申请信用时关注的风险Profitable?将来拖欠的可能性很大……客户使用过程中关注的风险信用卡欺诈客户拖欠偿还我提供的信用?多久才是高风险?……催收欠费过程中关注的风险无法收回?定义我们关注的高信用风险申请信用时关注的风险34信用周期-Applying客户申请表内部信息Strategy接受

信用额度利息

其他条件拒绝信用署数据其他外部信息政策/内部规则申请打分引擎(AppScoringEngine)信控人员信用周期-Applying客户申请表内部信息Strate35信用周期-Behaviour行为打分引擎(BehScoringEngine)新的Strategy:Inc/DecLimitX-selling消费存现/取现……移管(Transfer)拖欠(Delinquent)客户消费情况6/157/157/318/109/17消费期对帐单到期日最后期限信用周期-Behaviour行为打分引擎(BehSco36信用周期-Collection收集打分引擎(ColScoringEngine)Strategy被移管的客户9/17卖给债务代理公司Write-off部分偿还全部偿还Recovery损失!催帐单

email

电话

……信用周期-Collection收集打分引擎Strate37Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Workshop(信用风险建模)业务问题38定义所需数据确定业务问题,找出您想预测的事物历史数据必须包含您想预测的事物(目标变量)其它的变量包括客户的属性,交易数据。使用最新的数据。定义所需数据确定业务问题,找出您想预测的事物39信用风险分析数据集市......................................................①哪些客户?......②哪些属性?...目标变量信用风险分析数据集市....................40①哪些客户?currentPerformancewindowobservationwindow①哪些客户?currentPerformancewind41Target

DefinitionExclusionBadIndeterminateGoodTarget

DefinitionExclusion42②哪些属性?

背景数据

年龄

性别

地区信用信息开户日期、余额消费金额、偿还金额卡数量、卡用途信用署信息noofoutstandingloansnoofcurrentloansnooffinishedloans拖欠信息在过去9个月中拖欠超过30天的次数拖欠超过60天的次数最后付款日期

其他相关信息是否本银行的客户多长时间上一次贷款日期②哪些属性?背景数据信用信息信用署信息拖欠信息其他相关信43使用业务知识派生变量新的变量前3月内余额大于0的次数前3月内透支超过10天的次数最后一次消费距今的天数……比率前1/2/3月平均余额/n个月平均余额前1/2/3月消费额/n个月消费额……差分,移动平均,趋势,……观察使用量的动态状况其它???使用业务知识派生变量新的变量44使用RFM方法派生变量MoneyT-1月余额T-2月余额T-3月余额过去三个月/六个月内最大,最小,平均余额……Recency最后一次余额>0元距今天数余额连续2次<=0的时间距今天数余额连续3次<=0的时间距今天数……Frequency余额<=0元的次数余额连续2次<=0的次数余额连续3次<=0的次数……使用RFM方法派生变量Money45Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Workshop(信用风险建模)业务问题46数据挖掘与采样是否需要进行采样?数据在采样前需要进行什么处理?数据挖掘中所用到的一般采样类型。如何决定样本大小?数据挖掘中采样的指导策略。对于某些特定的目的,如验证和测试,是否应该采用多重采样?数据挖掘与采样是否需要进行采样?47针对小概率事件的过采样GoodBad针对小概率事件的过采样GoodBad48数据分割校验测试训练数据分割校验测试训练49Exploration阶段通过探索去理解您的数据显现您的数据InsightDistributionExplorerMultiplot使用VariableSelection工具发现最有影响的变量-降维Exploration阶段通过探索去理解您的数据50DistributionExplorer节点交叉报表简单的汇总分析DistributionExplorer节点交叉报表51Multiplot节点为每个变量自动生成直方图。同时标明每个变量对目标的影响。Multiplot节点为每个变量自动生成直方图。52Modify阶段根据所用的模型进行数据调整优化您的数据极值,异常值缺失值变量转换建立新的变量改变分布的形状定义最优的输入域处理共线性Modify阶段根据所用的模型进行数据调整53Replacement节点包括基于决策树逻辑的缺失值处理。为修正变量建立指示器Replacement节点包括基于决策树逻辑的缺失值处理。54TransformVariables节点提供各种变量转换,包括为了优化二元目标变量预测而对变量进行自动分装。TransformVariables节点提供各种变量转换55VariableSelection节点根据目标变量快速确定输入变量(“modelscreening”)。描述它们拟合线型模型的框架(regression/ANOVA)。单变量R-平方及相关检验。建立新的变量组(AOV16)与降低分类变量的类型。VariableSelection节点根据目标变量快速确56Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Workshop(信用风险建模)业务问题57建立预测模型回归,神经网络和决策树等。Good/Bad作为分析目标。结果:

Bad的可能性(全部方法)

变量的重要性分析(回归,决策树)

规则分析(决策树)建立预测模型回归,神经网络和决策树等。58EM回归节点EM回归节点59EM神经网络节点提供基本选项给普通用户“智能”设定其它的复杂参数EM神经网络节点提供基本选项给普通用户60EM决策树节点EM决策树节点61Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Workshop(信用风险建模)业务问题62Assessment阶段L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论