版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用进行数据挖掘第一页,共七十三页,2022年,8月28日议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介Workshop第二页,共七十三页,2022年,8月28日企业决策支持信息系统OLTP数据仓库统计分析数据挖掘决策支持企业知识DWSolutionDM&AnalysisSolutionApplicationforC/S&B/SCBISolution1stQtr2ndQtr3rdQtr4thQtrPowerPlayFileEditDataValuesDisplayTextLegendLocation1992AllProductsAgegroupsRevenue($000)OLAP查询报表第三页,共七十三页,2022年,8月28日什么是数据挖掘?定义:
从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程
-Fayyad,Piatetsky-Shapiro特征:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并为企业带来巨大经济效益。第四页,共七十三页,2022年,8月28日待分析数据数据仓库处理后数据模式变换后数据
知识Source:”FromDataMiningtoKnowledgeDiscovery:AnOverview”,AdvancesinKnowledgeDiscoveryandDataMining,AAAIPress/TheMITPress.数据抽取数据预处理数据挖掘数据变换解释评价数据挖掘全过程第五页,共七十三页,2022年,8月28日数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式识别机器学习人工智能第六页,共七十三页,2022年,8月28日数据挖掘算法(按有无目标变量)有监督算法无监督算法(有目标变量)
(无目标变量)传统回归 无神经网络决策树
逻辑/概率回归决策树 聚类神经网络 神经网络判别分析基于记忆的推理决策树 主成分分析 聚类
关联/序列分析 连接分析 因子分析预测分类探索关联第七页,共七十三页,2022年,8月28日①
预测
用过去的数据预测
未来发生什么
预测未来发生的可能性历史数据预测算法
-神经元网络
-决策树
-回归②描述
用过去的数据
描述
现在发生了什么描述现在已经发生的规律历史数据描述算法
-聚类
-关联数据挖掘算法(按分析目的)第八页,共七十三页,2022年,8月28日回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法第九页,共七十三页,2022年,8月28日x20.00.20.40.60.81.0x10.00.20.40.60.81.0x20.00.20.40.60.81.0x10.00.20.40.60.81.0使用一元二次项使用简单线性①预测型–回归
希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法第十页,共七十三页,2022年,8月28日Time
<13yesno70%9663%ratio
<.39time<10ratio<8410359%①
预测型–决策树
希望预测“绿点”在哪些情况下发生以及发生的概率QuotedpriceLowerlimitprice(ratio)Time00.20.40.60.8910111315数据挖掘常用算法第十一页,共七十三页,2022年,8月28日timemethod#oforderratio#ofordereditems
Y1=f1(x).Y2=f2(x).Y3=f3(x).Y=f1(x)+f2(x)+f3(x)数据挖掘常用算法①预测型–神经元网络
希望预测“绿点”在哪些情况下发生以及发生的概率第十二页,共七十三页,2022年,8月28日CombinationADACC
AB&CDSupport2/52/52/51/5Confidence2/32/32/41/3ABCACDBCDADEBCE②
描述型–关联
了解客户购买哪些产品组合数据挖掘常用算法第十三页,共七十三页,2022年,8月28日
cluster4cluster3cluster1cluster2cluster5②描述型–聚类
把具有相似行为的客户分到一群QuotedamountTotalamountQuotedPriceAveragePrice数据挖掘常用算法第十四页,共七十三页,2022年,8月28日议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop第十五页,共七十三页,2022年,8月28日SAS数据挖掘项目方法论反复挖掘数据(SEMMA)定义业务问题考察业务情况提出业务问题考察数据可用性制定业务计划选择数据挖掘方法探索(E)调整(M)建模(M)评估(A)抽样(S)系统环境评估评估系统环境评估企业准备情况评估IT环境选择软硬件环境规划实施体系结构数据准备创建数据挖掘环境检查和校验数据准备数据模型实施设计模型集成的体系结构生成管理和业务报告清理数据使其可用把模型应用于生产回顾与评价回顾模型对企业生产的效果回顾投资回报回顾模型的性能第十六页,共七十三页,2022年,8月28日企业化经典统计数据分析工具统计分析:STAT,LAB,INSIGHT计量经济学与时间序列分析:ETS运筹优化:OR质量控制与质量提高:QC矩阵编程语言:IML图形与分析工具:GRAPHThinClient:EnterpriseGuide数据挖掘工具:SAS/EnterpriseMiner傻瓜兼专家型国际标准的全方位的统计分析和数据挖掘工具第十七页,共七十三页,2022年,8月28日EM基本介绍EM特色EM界面SEMMA方法论节点简介节点通用概貌第十八页,共七十三页,2022年,8月28日SAS/EM特色支持广泛的平台包括各种UNIX,MVS,OS/390,Linux可访问的数据源多达50多种,和数据库,数据仓库很好的集成Client/Server结构。SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员丰富的可视化数据探索节点,对数据进行细致分析提供多种数据预处理和变换工具,包括变量自动选择等功能提供丰富的数据挖掘模型和灵活的算法:决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble)提供模型评估模块和多种评估准则提供完整的数据挖掘模型代码输出和打分(Scoring)功能报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。第十九页,共七十三页,2022年,8月28日SAS/EM界面第二十页,共七十三页,2022年,8月28日数据取样SAMPLE选数据样本?数据探索EXPLORE可视化数据探索聚类分析和分类数据调整MODIFY数据重组和细分添加和变换变量模式化MODEL决策树模型数理统计分析人工神经网络时间序列分析评价ASSESS新数据预测结论综合和评价SAS数据挖掘过程方法论-SEMMA第二十一页,共七十三页,2022年,8月28日节点简介:Sampling类节点InputData确定数据源。Sampling提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。DataPartition将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。第二十二页,共七十三页,2022年,8月28日节点简介:Explore类节点DistributionExplorer提供数据的多维分布图,以了解变量的趋势和特色Multiplot提供所有变量的分布图及对KOV的关系图SAS/INSIGHT提供交互式直观统计分析VariableSelection提供选择对KOV重要的KIVs的功能Association提供关联分析和序列分析LinkAnalysis提供连接关系分析第二十三页,共七十三页,2022年,8月28日节点简介:Modify类节点DataSetAttributes设置或改变数据集与变量的属性FilterOutliers 提供处理数据集中异常点、稀缺值的功能TransformVariables提供变量变换的功能DataReplacement数据集中数据的替换和校正,主要用于处理缺失数据Cluster提供多种方法的聚类分析(K-mean)SOM/Kohonen自组织特征映射网络据进行分类第二十四页,共七十三页,2022年,8月28日节点简介:Model类节点Regression提供多元回归、逻辑/概率回归及自动选择变量变量的功能DecisionTree决策树,支持CHAID,CART,ID3/C4.5等算法NeuralNetwork提供MLP、RBF等网络结构,及多种调整方法UserDefinedModel为SAS程序编制的模型提供统一的模型评价界面Ensemble提供模型整合的功能,如Combine,Stratified,Bagging&BoostingTwo-StageModel两阶段模型MemoryBasedReasoning第二十五页,共七十三页,2022年,8月28日节点简介:Assess类节点Assessment 对不同模型提供图形化比较:“哪一个模型最好?”Reporter 自动生成HTML格式报告第二十六页,共七十三页,2022年,8月28日节点简介:Scoring类节点Score 可输出SAS/BASE方式的预测代码可用于对新的数据集进行预测C*Score 可输出Ccode的预测代码第二十七页,共七十三页,2022年,8月28日节点简介:Utilities类节点SASCode提供SAS程序接口。GroupProcessing提供分组处理的功能Subdiagram建立模型流程子表,方便管理ControlPoint控制流程执行,方便管理DataMiningDatabase(DMDB)建立DMDB(MetaData)第二十八页,共七十三页,2022年,8月28日节点通用概貌In/OutDataProperties(选择,浏览)Data/Variables/Log/Output/Notes等Tab修改节点后的自动保存节点的下拉菜单第二十九页,共七十三页,2022年,8月28日SAS/EM处理示例模型应用建模源数据预处理第三十页,共七十三页,2022年,8月28日议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop第三十一页,共七十三页,2022年,8月28日Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施第三十二页,共七十三页,2022年,8月28日信用风险的业务问题客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用一个“坏账”客户带来的损失相当于数百个“好”客户给您带来的收益信用管理者要求提供对风险进行定量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失第三十三页,共七十三页,2022年,8月28日定义我们关注的高信用风险申请信用时关注的风险Profitable?将来拖欠的可能性很大……客户使用过程中关注的风险信用卡欺诈客户拖欠偿还我提供的信用?多久才是高风险?……催收欠费过程中关注的风险无法收回?第三十四页,共七十三页,2022年,8月28日信用周期-Applying客户申请表内部信息Strategy接受信用额度利息其他条件拒绝信用署数据其他外部信息政策/内部规则申请打分引擎(AppScoringEngine)信控人员第三十五页,共七十三页,2022年,8月28日信用周期-Behaviour行为打分引擎(BehScoringEngine)新的Strategy:Inc/DecLimitX-selling消费存现/取现
……移管(Transfer)拖欠(Delinquent)客户消费情况6/157/157/318/109/17消费期对帐单到期日最后期限第三十六页,共七十三页,2022年,8月28日信用周期-Collection收集打分引擎(ColScoringEngine)Strategy被移管的客户9/17卖给债务代理公司Write-off部分偿还全部偿还Recovery损失!催帐单
电话
……第三十七页,共七十三页,2022年,8月28日Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施第三十八页,共七十三页,2022年,8月28日定义所需数据确定业务问题,找出您想预测的事物历史数据必须包含您想预测的事物(目标变量)其它的变量包括客户的属性,交易数据。使用最新的数据。第三十九页,共七十三页,2022年,8月28日信用风险分析数据集市......................................................①哪些客户?......②哪些属性?...目标变量第四十页,共七十三页,2022年,8月28日①哪些客户?currentPerformancewindowobservationwindow第四十一页,共七十三页,2022年,8月28日Target
DefinitionExclusionBadIndeterminateGood第四十二页,共七十三页,2022年,8月28日②哪些属性?
背景数据
年龄
性别
地区信用信息开户日期、余额消费金额、偿还金额卡数量、卡用途信用署信息noofoutstandingloansnoofcurrentloansnooffinishedloans拖欠信息在过去9个月中拖欠超过30天的次数拖欠超过60天的次数最后付款日期
其他相关信息是否本银行的客户多长时间上一次贷款日期第四十三页,共七十三页,2022年,8月28日使用业务知识派生变量新的变量前3月内余额大于0的次数前3月内透支超过10天的次数最后一次消费距今的天数……比率前1/2/3月平均余额/n个月平均余额前1/2/3月消费额/n个月消费额……差分,移动平均,趋势,……观察使用量的动态状况其它???第四十四页,共七十三页,2022年,8月28日使用RFM方法派生变量MoneyT-1月余额T-2月余额T-3月余额过去三个月/六个月内最大,最小,平均余额……Recency最后一次余额>0元距今天数余额连续2次<=0的时间距今天数余额连续3次<=0的时间距今天数……Frequency余额<=0元的次数余额连续2次<=0的次数余额连续3次<=0的次数……第四十五页,共七十三页,2022年,8月28日Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施第四十六页,共七十三页,2022年,8月28日数据挖掘与采样是否需要进行采样?数据在采样前需要进行什么处理?数据挖掘中所用到的一般采样类型。如何决定样本大小?数据挖掘中采样的指导策略。对于某些特定的目的,如验证和测试,是否应该采用多重采样?第四十七页,共七十三页,2022年,8月28日针对小概率事件的过采样GoodBad第四十八页,共七十三页,2022年,8月28日数据分割校验测试训练第四十九页,共七十三页,2022年,8月28日Exploration阶段通过探索去理解您的数据显现您的数据InsightDistributionExplorerMultiplot使用VariableSelection工具发现最有影响的变量-降维第五十页,共七十三页,2022年,8月28日DistributionExplorer节点交叉报表简单的汇总分析第五十一页,共七十三页,2022年,8月28日Multiplot节点为每个变量自动生成直方图。同时标明每个变量对目标的影响。第五十二页,共七十三页,2022年,8月28日Modify阶段根据所用的模型进行数据调整优化您的数据极值,异常值缺失值变量转换建立新的变量改变分布的形状定义最优的输入域处理共线性第五十三页,共七十三页,2022年,8月28日Replacement节点包括基于决策树逻辑的缺失值处理。为修正变量建立指示器第五十四页,共七十三页,2022年,8月28日TransformVariables节点提供各种变量转换,包括为了优化二元目标变量预测而对变量进行自动分装。第五十五页,共七十三页,2022年,8月28日VariableSelection节点根据目标变量快速确定输入变量(“modelscreening”)。描述它们拟合线型模型的框架(regression/ANOVA)。单变量R-平方及相关检验。建立新的变量组(AOV16)与降低分类变量的类型。第五十六页,共七十三页,2022年,8月28日Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施第五十七页,共七十三页,2022年,8月28日建立预测模型回归,神经网络和决策树等。Good/Bad作为分析目标。结果:
Bad的可能性(全部方法)
变量的重要性分析(回归,决策树)
规则分析(决策树)第五十八页,共七十三页,2022年,8月28日EM回归节点第五十九页,共七十三页,2022年,8月28日EM神经网络节点提供基本选项给普通用户“智能”设定其它的复杂参数第六十页,共七十三页,2022年,8月28日EM决策树节点第六十一页,共七十三页,2022年,8月28日Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施第六十二页,共七十三页,2022年,8月28日Assessment阶段LiftCharts(又叫
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贺州学院《语言学导论》2022-2023学年第一学期期末试卷
- 2024年度机床设备采购租赁合同3篇
- 党史课程培训活动方案
- 学校庆典活动礼仪培训
- 2024年度高端装备制造生产线出口合同3篇
- 2024年度销售代理合同详细条款3篇
- 护理培训班开班
- 项目经理聘用合同
- 《疆医科大学药学院》课件
- 年度新能源汽车推广应用合同(2024版)
- 2024-2030年中国功能材料行业市场发展现状及发展趋势与投资前景预测研究报告
- 老年糖尿病诊疗指南(2024版)培训试题及答案
- 浙西南民间音乐智慧树知到答案2024年丽水学院
- HG∕T 3704-2003 氟塑料衬里阀门通 用技术条件
- 08SS704 混凝土模块式化粪池
- DL∕T 1845-2018 电力设备高合金钢里氏硬度试验方法
- 医院消除三病母婴传播工作总结汇报
- 质量环境职业健康安全管理体系三合一整合全套体系文件(管理手册+程序文件)
- 部编版九年级上册语文期末复习资料
- 电缆敷设施工方案
- 氧气吸入操作评分标准(中心供氧)
评论
0/150
提交评论