应用SASEM进行数据挖掘课件_第1页
应用SASEM进行数据挖掘课件_第2页
应用SASEM进行数据挖掘课件_第3页
应用SASEM进行数据挖掘课件_第4页
应用SASEM进行数据挖掘课件_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用SAS/EM进行数据挖掘2003-04-16赛仕软件研究所(上海)有限公司议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介Workshop企业决策支持信息系统OLTP数据仓库统计分析数据挖掘决策支持企业知识DW SolutionDM & Analysis SolutionApplication for C/S & B/SCBI Solution1st Qtr2nd Qtr3rd Qtr4th QtrPowerPlayFileEditDataValuesDisplayTextLegendLocation 1992 All Products Age groups Revenue(

2、$000)OLAP查询报表什么是数据挖掘?定义:从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro特征:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并为企业带来巨大经济效益。待分析数据数据仓库处理后数据模式变换后数据 知识Source :”From Data Mining to Knowledge Discovery: An Overview”, Advances in Knowledge Discovery and Data Mining, AAAI Pr

3、ess/The MIT Press.数据抽取数据预处理数据挖掘数据变换解释评价数据挖掘全过程数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式识别机器学习人工智能数据挖掘算法(按有无目标变量)有监督算法 无监督算法(有目标变量) (无目标变量)传统回归 无神经网络决策树 逻辑/概率回归决策树 聚类神经网络 神经网络判别分析 基于记忆的推理决策树 主成分分析 聚类关联/序列分析连接分析因子分析预测分类探索关联 预测 用过去的数据预测 未来发生什么 预测未来发生的可能性历史数据预测算法 - 神经元网络 - 决策树 - 回归 描述 用过去的数据 描述 现在发生了什么描述现在已经发生的规律历史数

4、据描述算法 - 聚类 - 关联数据挖掘算法(按分析目的)回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法x20.00.20.40.60.81.0 x10.00.20.40.60.81.0 x20.00.20.40.60.81.0 x10.00.20.40.60.81.0使用一元二次项使用简单线性 预测型 回归 希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法Time 13yes

5、 no70%9663%ratio .39time 10ratio 0元距今天数余额连续2次=0的时间距今天数余额连续3次=0的时间距今天数Frequency余额=0元的次数余额连续2次=0的次数余额连续3次=0的次数Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施数据挖掘与采样是否需要进行采样?数据在采样前需要进行什么处理?数据挖掘中所用到的一般采样类型。如何决定样本大小?数据挖掘中采样的指导策略。对于某些特定的目的,如验证和测试,是否应该采用多重采样?针对小概率事件的过采样GoodBad数据分割校验测试训练Exploration 阶段通过探

6、索去理解您的数据显现您的数据 Insight Distribution Explorer Multiplot使用Variable Selection工具发现最有影响的变量- 降维Distribution Explorer节点交叉报表简单的汇总分析Multiplot 节点为每个变量自动生成直方图。同时标明每个变量对目标的影响。Modify 阶段根据所用的模型进行数据调整优化您的数据极值,异常值缺失值变量转换建立新的变量改变分布的形状定义最优的输入域处理共线性Replacement 节点包括基于决策树逻辑的缺失值处理。为修正变量建立指示器Transform Variables 节点提供各种变量转换

7、,包括为了优化二元目标变量预测而对变量进行自动分装。Variable Selection 节点根据目标变量快速确定输入变量 (“model screening”)。描述它们拟合线型模型的框架 (regression/ANOVA)。单变量R-平方及相关检验。建立新的变量组 (AOV16) 与降低分类变量的类型。Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施建立预测模型回归,神经网络和决策树等。Good/Bad作为分析目标。结果:Bad的可能性(全部方法)变量的重要性分析(回归,决策树)规则分析(决策树)EM回归节点EM神经网络节点提供基本选项

8、给普通用户“智能”设定其它的复杂参数EM决策树节点Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Assessment 阶段Lift Charts(又叫 gains chart)利润/损失图(Profit/Loss Charts) 投资效益比图(ROI) 诊断分类图ROC Charts 各种基于临界值的图形(Threshold-based Charts)。Assessment 节点结果的鉴别好中差ROC增益累计增益二值目标的混淆矩阵(Confusion Matrix)正确的否定错误的肯定错误的否定正确的肯定0101预测结果实际结果实际否定合计实际肯定合计否定合计肯定合计分界(Cutoff)概率x20.00.20.40.60.81.0 x10.00.20.40.60.81.0较低的分界概率(.1)较高的分界概率(.5)Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施模型实施我们可以用模型来做什么?评分策略执行监控集成Scoring模型开发模型实施集成到现有的业务系统,决策支持系统中。在线客户服务系统设计Strategy收益模拟R=信用额度*使用率*利息*人数*(1-p(呆帐))Loss=信用额度*人数*p(呆帐)使P=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论