应用SAS_EM进行数据挖掘_第1页
应用SAS_EM进行数据挖掘_第2页
应用SAS_EM进行数据挖掘_第3页
应用SAS_EM进行数据挖掘_第4页
应用SAS_EM进行数据挖掘_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Copyright 2003, SAS Institute Inc. All rights reserved.应用应用SAS/EM进行进行数据挖掘数据挖掘2003-04-16赛仕软件研究所(上海)有限公司Copyright 2003, SAS Institute Inc. All rights reserved.议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介WorkshopCopyright 2003, SAS Institute Inc. All rights reserved.企业决策支持信息系统OLTP数据仓库数据仓库统计分析统计分析数据挖掘数据挖掘决策支持决策支持企业知

2、识企业知识DW SolutionDM & Analysis SolutionApplication for C/S & B/SCBI Solution1st Qtr2nd Qtr3rd Qtr4th QtrPowerPlayFileEditDataValuesDisplayTextLegendLocation 1992 All Products Age groups Revenue($000)OLAP查询报表查询报表Copyright 2003, SAS Institute Inc. All rights reserved.什么是数据挖掘?定义:定义:从海量的数据库中选择、探索

3、、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro特征:特征: 处理海量的数据; 揭示企业运作中的内在规律; 为企业运作提供直接决策分析,并为企业带来巨大经济效益。Copyright 2003, SAS Institute Inc. All rights reserved.待分析待分析数据数据数据数据仓库仓库处理后处理后数据数据变换后变换后数据数据Source :”From Data Mining to Knowledge Discovery: An Overview”, Advances in Knowle

4、dge Discovery and Data Mining, AAAI Press/The MIT Press.数据抽取数据抽取数据预处理数据预处理数据挖掘数据挖掘数据变换数据变换解释评价解释评价数据挖掘全过程Copyright 2003, SAS Institute Inc. All rights reserved.数据挖掘涉及领域神经计算神经计算数据库数据库知识发现知识发现数据挖掘数据挖掘统计学统计学模式模式识别识别人工人工智能智能Copyright 2003, SAS Institute Inc. All rights reserved.数据挖掘算法(按有无目标变量)Copyright

5、2003, SAS Institute Inc. All rights reserved. 预测 用过去的数据预测 未来发生什么 预测未来预测未来发生的可能性发生的可能性历史数据历史数据预测算法预测算法 - 神经元网络神经元网络 - 决策树决策树 - 回归回归 描述 用过去的数据 描述 现在发生了什么描述现在描述现在已经发生的规律已经发生的规律历史数据历史数据描述算法描述算法 - 聚类聚类 - 关联关联数据挖掘算法(按分析目的)Copyright 2003, SAS Institute Inc. All rights reserved.回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析

6、、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法Copyright 2003, SAS Institute Inc. All rights reserved.x20.00.81.0 x10.0 0.2 0.4 0.6 0.8 1.0 x20.00.81.0 x10.0 0.2 0.4 0.6 0.8 1.0使用一元二次项使用简单线性 预测型预测型 回归回归 希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常

7、用算法Copyright 2003, SAS Institute Inc. All rights reserved.Time 13yes no70%9663%ratio .39time 10ratio 8410359% 预测型预测型 决策树决策树 希望预测“绿点”在哪些情况下发生以及发生的概率Quoted priceLower limit price(ratio)Time00.8910111315数据挖掘常用算法Copyright 2003, SAS Institute Inc. All rights reserved.timemethod# of orderratio# o

8、f ordereditems Y1 = f1(x).Y2 = f2(x).Y3 = f3(x).Y = f1(x) + f2(x) + f3(x)数据挖掘常用算法 预测型预测型 神经元网络神经元网络 希望预测“绿点”在哪些情况下发生以及发生的概率Copyright 2003, SAS Institute Inc. All rights reserved.CombinationA DA CC AB & C DSupport2/52/52/51/5Confidence2/32/32/41/3AB CAC DBC DAD EBC E 描述型描述型 关联关联 了解客户购买哪些产品组合数据挖掘常

9、用算法Copyright 2003, SAS Institute Inc. All rights reserved. cluster4cluster3cluster1cluster2cluster5 描述型描述型 聚类聚类 把具有相似行为的客户分到一群Quoted amountTotal amountQuoted PriceAverage Price数据挖掘常用算法Copyright 2003, SAS Institute Inc. All rights reserved.议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介WorkshopCopyright 2003, SAS Instit

10、ute Inc. All rights reserved.SAS 数据挖掘项目方法论反复反复挖掘挖掘数据数据 (SEMMA)定义业务问题定义业务问题考察业务情况考察业务情况提出业务问题提出业务问题考察数据可用性考察数据可用性制定业务计划制定业务计划选择数据挖掘方法选择数据挖掘方法探索探索(E)调整调整(M)建模建模(M)评估评估(A)抽样抽样(S)系统环境评估系统环境评估评估系统环境评估系统环境评估企业准备情况评估企业准备情况评估评估IT环境环境选择软硬件环境选择软硬件环境规划实施体系结构规划实施体系结构数据准备数据准备创建数据挖掘环创建数据挖掘环境境检查和校验数据检查和校验数据准备数据准备数

11、据模型实施模型实施设计模型集成的体系结构设计模型集成的体系结构生成管理和业务报告生成管理和业务报告清理数据使其可用清理数据使其可用把模型应用于生产把模型应用于生产回顾与评价回顾与评价回顾模型对企业生产的效果回顾模型对企业生产的效果回顾投资回报回顾投资回报回顾模型的性能回顾模型的性能Copyright 2003, SAS Institute Inc. All rights reserved.企业化经典统计数据分析工具 统计分析:STAT,LAB,INSIGHT 计量经济学与时间序列分析:ETS 运筹优化:OR 质量控制与质量提高:QC 矩阵编程语言:IML 图形与分析工具:GRAPHThin C

12、lient: Enterprise Guide数据挖掘工具:SAS/Enterprise Miner 傻瓜兼专家型国际标准的全方位的统计分析和数据挖掘工具Copyright 2003, SAS Institute Inc. All rights reserved.EM基本介绍EM特色EM界面界面SEMMA方法论节点简介节点通用概貌Copyright 2003, SAS Institute Inc. All rights reserved.SAS/EM特色支持广泛的平台包括各种UNIX,MVS,OS/390,Linux可访问的数据源多达50多种,和数据库,数据仓库很好的集成Client/Serv

13、er结构。SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员丰富的可视化数据探索节点,对数据进行细致分析提供多种数据预处理和变换工具,包括变量自动选择等功能提供丰富的数据挖掘模型和灵活的算法: 决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble) 提供模型评估模块和多种评估准则提供完整的数据挖掘模型代码输出和打分(Scoring)功能报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。Copyright 2003,

14、 SAS Institute Inc. All rights reserved.SAS/EM 界面Copyright 2003, SAS Institute Inc. All rights reserved.数据取样数据取样SAMPLE 选数据样本?数据探索数据探索EXPLORE可视化数据探索聚类分析和分类数据调整数据调整MODIFY数据重组和细分添加和变换变量模式化模式化MODEL决策树模型数理统计分析 人工神经网络时间序列分析评价评价ASSESS新数据预测结论综合和评价SAS数据挖掘过程方法论-SEMMACopyright 2003, SAS Institute Inc. All righ

15、ts reserved.节点简介:Sampling类节点Input Data 确定数据源。Sampling 提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。Data Partition 将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Explore类节点Distribution Explorer 提供数据的多维分布图,以了解变量的趋势和特色Multiplot 提供所有变量的分布图及对KOV的关系图SAS/INSI

16、GHT 提供交互式直观统计分析Variable Selection 提供选择对KOV重要的KIVs的功能Association 提供关联分析和序列分析Link Analysis 提供连接关系分析Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Modify类节点Data Set Attributes 设置或改变数据集与变量的属性Filter Outliers 提供处理数据集中异常点、稀缺值的功能Transform Variables 提供变量变换的功能Data Replacement 数据集中数据的替换和校正,主要用于处理

17、缺失数据Cluster 提供多种方法的聚类分析(K-mean)SOM/Kohonen 自组织特征映射网络据进行分类Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Model类节点 提供多元回归、 逻辑/概率回归及自动选择变量变量的功能 决策树,支持CHAID, CART, ID3/ C4.5等算法 提供MLP、RBF等网络结构,及多种调整方法 为SAS程序编制的模型提供统一的模型评价界面 提供模型整合的功能,如Combine, Stratified, Bagging&Boosting 两阶段模型Copyright

18、 2003, SAS Institute Inc. All rights reserved.节点简介: Assess类节点 对不同模型提供图形化比较:“哪一个模型最好? 自动生成HTML格式报告Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Scoring类节点 可输出SAS/BASE方式的预测代码 可用于对新的数据集进行预测 可输出 C code的预测代码Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Utilities类节点 提供SAS程序接口

19、。 提供分组处理的功能 建立模型流程子表,方便管理 控制流程执行,方便管理 建立DMDB(Meta Data)Copyright 2003, SAS Institute Inc. All rights reserved.节点通用概貌In/OutData Properties(选择,浏览)Data/Variables/Log/Output/Notes等Tab修改节点后的自动保存节点的下拉菜单Copyright 2003, SAS Institute Inc. All rights reserved.SAS/EM处理示例模型应用建模源数据预处理Copyright 2003, SAS Institu

20、te Inc. All rights reserved.议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介WorkshopCopyright 2003, SAS Institute Inc. All rights reserved.Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Copyright 2003, SAS Institute Inc. All rights reserved.信用风险的业务问题客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用一个“坏账”客户带来的损失

21、相当于数百个“好”客户给您带来的收益信用管理者要求提供对风险进行定量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失Copyright 2003, SAS Institute Inc. All rights reserved.定义我们关注的高信用风险申请信用时关注的风险 Profitable? 将来拖欠的可能性很大 客户使用过程中关注的风险 信用卡欺诈 客户拖欠偿还我提供的信用?多久才是高风险? 催收欠费过程中关注的风险 无法收回?Copyright 2003, SAS Institute Inc. All rights reserved.信用周期 - Applying客户申请表

22、客户申请表内部信息内部信息Strategy接受接受 信用额度信用额度 利息利息 其他条件其他条件拒绝拒绝 信用署数据信用署数据 其他外部信息其他外部信息 政策政策/内部规则内部规则 申请打分引擎申请打分引擎(App Scoring Engine)信控人员信控人员Copyright 2003, SAS Institute Inc. All rights reserved.信用周期 - Behaviour行为打分引擎(行为打分引擎(Beh Scoring Engine)新的新的Strategy:Inc/Dec LimitX-selling 消费消费 存现存现/取现取现 移管移管(Transfer)

23、拖欠拖欠(Delinquent)客户消费情况客户消费情况6/157/157/318/109/17消费期消费期对帐单对帐单到期日到期日最后期限最后期限Copyright 2003, SAS Institute Inc. All rights reserved.信用周期 - Collection 收集打分引擎收集打分引擎(Col Scoring Engine)Strategy被移管的客户被移管的客户9/17卖给债务代理公司卖给债务代理公司Write-off部分偿还部分偿还全部偿还全部偿还Recovery损损失失! 催帐单催帐单 email 电话电话 Copyright 2003, SAS Inst

24、itute Inc. All rights reserved.Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Copyright 2003, SAS Institute Inc. All rights reserved.定义所需数据确定业务问题,找出您想预测的事物历史数据必须包含您想预测的事物(目标变量)其它的变量包括客户的属性,交易数据。使用最新的数据 。Copyright 2003, SAS Institute Inc. All rights reserved.信用风险分析数据集市. . . . . . . . . . . . . . .

25、 . . . . . . . . . . . . . . . . 哪些客户?. 哪些属性?. . . .目标变量Copyright 2003, SAS Institute Inc. All rights reserved. 哪些客户?currentPerformance windowobservation windowCopyright 2003, SAS Institute Inc. All rights reserved.TargetDefinitionExclusionBadIndeterminateGood01 Dummy Account 102 Dummy Account 203 Under Minimum Age04 Transfer at OBS05 Forced Cancellation06 Closing Status07 Frau

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论