




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目 录数据挖掘的基本概念1数据挖掘方法分类2CONTENTS数据挖掘案例31第1页/共21页一、一、数据挖掘的基本概念2第2页/共21页1.知识发现(Knowledge-Discovery in Databases,简称:KDD)u知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。u知识发现就是从数据源中抽取感兴趣的数据,并把这些数据组织成符合挖掘的组织形式,然后利用相应的算法、模型生成想要的知识模式,最后对生成的知识模式进行评估,并把有价值的知识集成到应用系统当中。 3一、数据挖掘
2、的基本概念常用KDD过程模型 (KDD process model) Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文中总结出了KDD包含的5个最基本步骤-+数据源选择目标数据预处理预处理数据转换转换后数据数据挖掘评估知识模式知识第3页/共21页2.数据挖掘的概念u数据挖掘,英文称为 Data mining,又称为资料探勘、数据采矿等等。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。 u数据挖掘是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。u数据挖掘数据挖
3、掘是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。4一、数据挖掘的基本概念第4页/共21页3.数据挖掘的发展历史5一、数据挖掘的基本概念 1989年第11届国际人工智能联合会议。第一次提出KDD的概念。 1995年第一届知识发现和数据挖掘国际学术会议。首次提出数据挖掘的概念。 1995年底美国计算机年会。开始把数据挖掘认为是KDD过程中对数据真正应用算法抽取知识的一个基本步骤。 如今各种各样的数据挖掘软件和算法。第5页/共21页4.数据挖掘基本流程6一、数据挖掘的基本概念DataBusinessUnderstanding
4、DataUnderstandingModelingEvaluationDeploymentDataPreparation跨行业数据挖掘标准流程第6页/共21页4.数据挖掘基本流程7一、数据挖掘的基本概念数据采集开始数据分析数据清洗采样特征提取缺失值计算定量特征二值化定性特征编码数据变换无量纲化特征选择降维训练预测评估结束模型选择第7页/共21页二二、数据挖掘的方法分类8第8页/共21页91.几种简单的数据挖掘方法u分类 (Classification)u聚类(Clustering)u回归分析(Regression analysis)u关联规则(Affinity grouping or asso
5、ciation rules)u复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)二、数据挖掘方法分类第9页/共21页102.分类(Classification) C4.5 (基于决策树改进的算法) CART(分类回归树) SVM(支持向量机) AdaBoost(集成学习算法) kNN(K近邻算法,k-NearestNeighbor) Naive Bayesian(朴素贝叶斯)二、数据挖掘方法分类数据已训练好的模型类别A类别B第10页/共21页112.分类(Classification) kNN(K近邻算法,k-NearestNeighbor)二、数据挖掘方法分类第11页/共21页
6、123.聚类(Clustering)(1)划分方法(2)层次的方法(3)基于密度的方法(4)基于网格的方法(5)基于模型的方法 经典算法:K-means(K均值)二、数据挖掘方法分类第12页/共21页134. 回归分析(Regression analysis) 回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系,反映的是变量或属性间的依赖关系。线性回归多项式回归逻辑回归二、数据挖掘方法分类00.511.522.533.500.511.522.53Y X第13页/共21页145.关联规则(Affinity grouping or association rules) 关
7、联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。 关联规则是形如XY的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。 关联规则中最经典的算法:AprioriApriori算法二、数据挖掘方法分类第14页/共21页155.关联规则(Affinity grouping or association rules)二、数据挖掘方法分类网球拍网球运动鞋羽毛球111102110031
8、000410105011161100 若考虑网球拍-网球的关联关系,则其支持度为S=3/6=0.5,置信度为C=3/5=0.6,假如设计支持度最小为0.5,置信度为0.6,那么网球拍和网球的关联关系就是有意义的一对关联关系。第15页/共21页16二、数据挖掘方法分类5.关联规则(Affinity grouping or association rules)第16页/共21页三三、数据挖掘案例17第17页/共21页18三、数据挖掘案例背景 银行金融衍生品部门最新新上线了一款金融理财产品,而销售方式为直接电邮,考虑到多数用户可能不会对理财产品感兴趣,所以销售目标为用户群中对产品兴趣度最高的前20%数据表 有效字段客户表 姓名、职业、性别、生日、收入日期对照表 日期的各种转化形式账号信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年吉林司法警官职业学院单招职业技能测试题库含答案
- 2024年开展国华能源投资有限公司各中心系统内竞聘70人笔试参考题库附带答案详解
- 热点主题作文写作指导:微笑与沉默(审题指导与例文)
- 2013-2014学年八年级《历史与社会》上册第三单元第一课《秦始皇开创大一统基业》教学设计(平湖市新埭中学)
- 露营大废墟热闹之地寂寞如风
- 2025年广西蓝天航空职业学院单招职业适应性测试题库参考答案
- 2025年黑龙江农垦职业学院单招职业技能测试题库及参考答案
- 第14课 法西斯国家的侵略扩张(教学设计)-2024-2025学年九年级历史下册素养提升教学设计(统编版)
- 2025年广西质量工程职业技术学院单招职业倾向性测试题库含答案
- 《论语》十二章 教学设计 2024-2025学年统编版高中语文选择性必修上册
- 借哪吒精神燃开学斗志 开学主题班会课件
- GB/T 45107-2024表土剥离及其再利用技术要求
- 一年级家长会课件2024-2025学年
- 2024年海南省海口市小升初数学试卷(含答案)
- 广东省五年一贯制语文试卷
- 新版北师大版小学3三年级数学下册全册教案完整(新教材)
- 水轮机结构介绍汇总
- 素描石膏几何体
- ISO_15442(随车起重机安全要求)
- 过桥资金(新)
- 颅内压监测的方法与护理ppt课件
评论
0/150
提交评论