应用SASEM进行数据挖掘_第1页
应用SASEM进行数据挖掘_第2页
应用SASEM进行数据挖掘_第3页
应用SASEM进行数据挖掘_第4页
应用SASEM进行数据挖掘_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用SASEM进行数据挖掘议程 数据挖掘概述 SAS数据挖掘项目方法论及工具SAS/EM Workshop企业决策支持信息系统OLTP数据仓库统计分析数据挖掘决策支持企业知识DW SolutionDM & Analysis SolutionApplication for C/S & B/SCBI Solution1st Qtr2nd Qtr3rd Qtr4th QtrPowerPlayFileEditDataValuesDisplayTextLegendLocation 1992 All Products Age groups Revenue($000)OLAP查询报表什么是数

2、据挖掘?定义:从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro特征: 处理海量的数据; 揭示企业运作中的内在规律; 为企业运作提供直接决策分析,并为企业带来巨大经济效益。待分析数据数据仓库处理后数据变换后数据Source :”From Data Mining to Knowledge Discovery: An Overview”, Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press.数

3、据抽取数据预处理数据挖掘数据变换解释评价数据挖掘全过程数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式识别人工智能数据挖掘算法(按有无目标变量) 预测 用过去的数据预测 未来发生什么 预测未来发生的可能性历史数据预测算法 - 神经元网络 - 决策树 - 回归 描述 用过去的数据 描述 现在发生了什么描述现在已经发生的规律历史数据描述算法 - 聚类 - 关联数据挖掘算法(按分析目的) 回归算法:线性回归、逻辑回归、概率回归 统计方法:主成分分析、因子分析、判别分析等 关联算法:关联模式、序列模式、连接分析等 聚类算法:Cluster、SOM/Kohonen 神经元网络:MLP、RBF 决

4、策树:数据挖掘算法x20.00.20.40.60.81.0 x10.0 0.2 0.4 0.6 0.8 1.0 x20.00.20.40.60.81.0 x10.0 0.2 0.4 0.6 0.8 1.0使用一元二次项使用简单线性 预测型 回归 希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法Time 13yes no70%9663%ratio .39time 10ratio 8410359% 预测型 决策树 希望预测“绿点”在哪些情况下发生以及发生的概率Quoted priceLower limit price(ratio)Time0910111315数据挖掘常用算法timem

5、ethod# of orderratio# of ordereditems Y1 = f1(x).Y2 = f2(x).Y3 = f3(x).Y = f1(x) + f2(x) + f3(x)数据挖掘常用算法 预测型 神经元网络 希望预测“绿点”在哪些情况下发生以及发生的概率CombinationA DA CC AB & C DSupport2/52/52/51/5Confidence2/32/32/41/3AB CAC DBC DAD EBC E 描述型 关联 了解客户购买哪些产品组合数据挖掘常用算法 cluster4cluster3cluster1cluster2cluster5

6、描述型 聚类 把具有相似行为的客户分到一群Quoted amountTotal amountQuoted PriceAverage Price数据挖掘常用算法议程 数据挖掘概述 SAS数据挖掘项目方法论及工具EM简介 WorkshopSAS 数据挖掘项目方法论反复挖掘数据 (SEMMA)定义业务问题考察业务情况提出业务问题考察数据可用性制定业务计划选择数据挖掘方法探索(E)调整(M)建模(M)评估(A)抽样(S)系统环境评估评估系统环境评估企业准备情况评估IT环境选择软硬件环境规划实施体系结构数据准备创建数据挖掘环境检查和校验数据准备数据模型实施设计模型集成的体系结构生成管理和业务报告清理数据

7、使其可用把模型应用于生产回顾与评价回顾模型对企业生产的效果回顾投资回报回顾模型的性能 企业化经典统计数据分析工具 统计分析:STAT,LAB,INSIGHT 计量经济学与时间序列分析:ETS 运筹优化:OR 质量控制与质量提高:QC 矩阵编程语言:IML 图形与分析工具:GRAPH Thin Client: Enterprise Guide 数据挖掘工具:SAS/Enterprise Miner 傻瓜兼专家型国际标准的全方位的统计分析和数据挖掘工具EM基本介绍 EM特色 EM界面界面 SEMMA方法论 节点简介 节点通用概貌SAS/EM特色 支持广泛的平台包括各种UNIX,MVS,OS/390

8、,Linux 可访问的数据源多达50多种,和数据库,数据仓库很好的集成 Client/Server结构。 SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员 丰富的可视化数据探索节点,对数据进行细致分析 提供多种数据预处理和变换工具,包括变量自动选择等功能 提供丰富的数据挖掘模型和灵活的算法: 决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble) 提供模型评估模块和多种评估准则 提供完整的数据挖掘模型代码输出和打分(Scoring)功能 报告工具可以将整个数据挖

9、掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。SAS/EM 界面数据取样SAMPLE 选数据样本?数据探索EXPLORE可视化数据探索聚类分析和分类数据调整MODIFY数据重组和细分添加和变换变量模式化MODEL决策树模型数理统计分析 人工神经网络时间序列分析评价ASSESS新数据预测结论综合和评价SAS数据挖掘过程方法论-SEMMA节点简介:Sampling类节点Input Data 确定数据源。Sampling 提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。Data Partition 将数据划分为训练(Train)、检验(Validation)、测

10、试(Test)数据,以避免模型过拟合。节点简介: Explore类节点Distribution Explorer 提供数据的多维分布图,以了解变量的趋势和特色Multiplot 提供所有变量的分布图及对KOV的关系图SAS/INSIGHT 提供交互式直观统计分析Variable Selection 提供选择对KOV重要的KIVs的功能Association 提供关联分析和序列分析Link Analysis 提供连接关系分析节点简介: Modify类节点Data Set Attributes 设置或改变数据集与变量的属性Filter Outliers 提供处理数据集中异常点、稀缺值的功能Tran

11、sform Variables 提供变量变换的功能Data Replacement 数据集中数据的替换和校正,主要用于处理缺失数据Cluster 提供多种方法的聚类分析(K-mean)SOM/Kohonen 自组织特征映射网络据进行分类节点简介: Model类节点 提供多元回归、 逻辑/概率回归及自动选择变量变量的功能 决策树,支持等算法 提供MLP、RBF等网络结构,及多种调整方法 为SAS程序编制的模型提供统一的模型评价界面 提供模型整合的功能,如Combine, Stratified, Bagging&Boosting 两阶段模型Two-Stage ModelMemory Bas

12、ed Reasoning节点简介: Assess类节点 对不同模型提供图形化比较:“哪一个模型最好? 自动生成HTML格式报告节点简介: Scoring类节点 可输出SAS/BASE方式的预测代码 可用于对新的数据集进行预测 可输出 C code的预测代码节点简介: Utilities类节点 提供SAS程序接口。 提供分组处理的功能 建立模型流程子表,方便管理 控制流程执行,方便管理 建立DMDB(Meta Data)节点通用概貌 In/Out Data Properties(选择,浏览) Data/Variables/Log/Output/Notes等Tab 修改节点后的自动保存 节点的下拉

13、菜单SAS/EM处理示例模型应用建模源数据预处理议程 数据挖掘概述 SAS数据挖掘项目方法论及工具EM简介 WorkshopWorkshop(信用风险建模) 业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施信用风险的业务问题 客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用 一个“坏账”客户带来的损失相当于数百个“好”客户给您带来的收益 信用管理者要求提供对风险进行定量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失定义我们关注的高信用风险 申请信用时关注的风险 Profitable? 将

14、来拖欠的可能性很大 客户使用过程中关注的风险 信用卡欺诈 客户拖欠偿还我提供的信用?多久才是高风险? 催收欠费过程中关注的风险 无法收回?信用周期 - Applying客户申请表内部信息Strategy接受 信用额度 利息 其他条件拒绝 信用署数据 其他外部信息 政策/内部规则 申请打分引擎(App Scoring Engine)信控人员信用周期 - Behaviour行为打分引擎(Beh Scoring Engine)新的Strategy:Inc/Dec LimitX-selling 消费 存现/取现 移管(Transfer)拖欠(Delinquent)客户消费情况6/157/157/318

15、/109/17消费期对帐单到期日最后期限信用周期 - Collection 收集打分引擎(Col Scoring Engine)Strategy被移管的客户9/17卖给债务代理公司Write-off部分偿还全部偿还Recovery损失! 催帐单 email Workshop(信用风险建模) 业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施定义所需数据确定业务问题,找出您想预测的事物历史数据必须包含您想预测的事物(目标变量)其它的变量包括客户的属性,交易数据。使用最新的数据 。信用风险分析数据集市. 哪些客户?. 哪些属性?.目标变量 哪些客户?currentPer

16、formance windowobservation windowTargetDefinitionExclusionBadIndeterminateGood01 Dummy Account 102 Dummy Account 203 Under Minimum Age04 Transfer at OBS05 Forced Cancellation06 Closing Status07 Fraud Accounts08 Familiy Member09 Time on book 0元距今天数余额连续2次=0的时间距今天数余额连续3次=0的时间距今天数Frequency余额=0元的次数余额连续2次

17、=0的次数余额连续3次=36%Score230-2342.5%2.5%5.0%5.0%7.0%235-2392.0%2.5%4.0%5.0%6.0%240-2441.5%2.0%2.5%4.0%5.0%245-2491.2%1.5%2.0%3.0%4.0%=2500.5%0.9%1.0%2.0%3.0%使用比例DTI 0-10%11-15%16-24%25-35%=36%Score230-23450.0%60.0%70.0%70.0%90.0%235-23940.0%50.0%60.0%70.0%80.0%240-24430.0%40.0%50.0%60.0%70.0%245-24920.0%30.0%40.0%50.0%60.0%=25010.0%20.0%30.0%40.0%50.0%DT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论