数据挖掘的方法论.ppt_第1页
数据挖掘的方法论.ppt_第2页
数据挖掘的方法论.ppt_第3页
数据挖掘的方法论.ppt_第4页
数据挖掘的方法论.ppt_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章 数据挖掘方法论,数据挖掘将商业需求和所需要的数据联系在一起,它是对客户和商业前景的理解,理解产品和市场,理解供货方和合作伙伴,理解销售的全过程,并用数据将他们整合到一起。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。,数据挖掘方法论CRISP-DM和SEMMA,CRISP-DM(CRoss-Industry Standard Process for Data Mining)即为”跨行业数据挖掘过程标准”,该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段:。CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量

2、达到近60%。,SAS数据挖掘方法论 SEMMA,SAS将数据挖掘过程看成5个阶段 Sample 数据取样 Explore 数据特征探索、分析和预处理 Modify 问题明确化、数据调整和技术选择 Model 模型的研发、知识的发现 Assess 模型和知识的综合解释和评价,CRISP-DM与SEMMA的区别,CRISP-DM是从数据挖掘项目执行的角度谈方法论,SEMMA 则是从对具体数据集的一次探测和挖掘的角度来谈方法论, CRISP- DM的考虑的范围比SEMMA 要大。CRISP-DM关注商业目标、数据的获取和管理, 以及模型在商业背景下的有效性; SEMMA 不否认商业目标,但更强调数

3、据挖掘是一个探索的过程。SEMMA体现了不同算法在项目过程的不同阶段有不同的重要性, 没有如同CRISP-DM一样详细而规范的文本, 从项目管理的需要来看CRISP-DM更适用一些。由于CRISP- DM在阶段间可以反馈,整个流程又是循环的, 在逻辑上CRISP- DM是可以实现SEMMA的, 它们互不矛盾。但由于强调的重点不同, 在实践上则会有明显的区别。,面向CRM的数据挖掘方法论,数据挖掘四个重要的业务过程所构成:理解业务问题;将数据转换成可执行的结果;结果实施过程;评价结果的实施。 成功实现数据挖掘需要全部四个过程,每一步产生的结果不断向后传播,由数据不断产生信息。从数据中提炼信息,不

4、断更新建模技术,根据以前努力的结果改进数据挖掘过程,如此往复生成新的有用的知识。,1. 正确识别业务问题,(1) 实施数据挖掘是否必要? (2) 是否有最让人感兴趣的客户子群或客户细分? (3) 相关的行业规则有哪些? (4) 关于数据 (5) 检验领域专家的观点,2. 数据转换成可操作的决策(2),建立数据挖掘模型是一个互动的过程,2. 数据转换成可操作的决策(2),(1)确认和获取数据 (2)生成有效数据、探索数据以及清洗数据 (3)将数据转换成适合的粒度的数据 (4)加入衍生变量 (5)准备建模数据集 (6)选择建模技术和训练模型 (7)检测模型的性能,3. 将结果生成决策,(1) 新的认知 (2) 用于特定商业活动的结果 (3) 可被储存的结果 (4) 周期性预测结果 (5) 实时得分 (6) 修复数据,4. 评测模型的有效性,5. 成功建立预测模型的要点,(1)预测模型的时间范围 第一个时间范围是训练模型的时间间隔。第二个时间范围是模型产生得分的阶段。 (2)模型的使用有效期 什么是模型使用有效期? 什么是模型预测的有效期?,预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论