数据挖掘与知识发现(第一章)_第1页
数据挖掘与知识发现(第一章)_第2页
数据挖掘与知识发现(第一章)_第3页
数据挖掘与知识发现(第一章)_第4页
数据挖掘与知识发现(第一章)_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、12 什么是数据挖掘什么是数据挖掘 数据挖掘要解决的问题数据挖掘要解决的问题 数据挖掘的起源数据挖掘的起源 数据挖掘任务数据挖掘任务3 借助借助POS机、手机、电脑、日志、顾客服务记录、机、手机、电脑、日志、顾客服务记录、顾客信息。商业公司可以获取大量的数据。在这顾客信息。商业公司可以获取大量的数据。在这些数据上,我们可以做什么?些数据上,我们可以做什么? 一些问题:一些问题:p谁是最有价值的顾客?谁是最有价值的顾客?p什么产品可以交叉销售或提升销售?什么产品可以交叉销售或提升销售?p公司明年的收入前景如何?公司明年的收入前景如何?4 医学、科学与工程界的研究者正在快速积累大量医学、科学与工程

2、界的研究者正在快速积累大量数据,这些数据对新发现至关重要。数据,这些数据对新发现至关重要。例一:例一:为了更深入地理解地球的气候系统,为了更深入地理解地球的气候系统,NASANASA 已部署了一系列的地球轨道卫星,不停的收集地表,已部署了一系列的地球轨道卫星,不停的收集地表, 海洋和大气的全球观测数据海洋和大气的全球观测数据一些问题:一些问题:p 干旱和飓风的频度和强度与全球变暖有什么联系?干旱和飓风的频度和强度与全球变暖有什么联系?p 海洋表面的温度对地表降水量和温度有什么影响?海洋表面的温度对地表降水量和温度有什么影响?p 如何准确的预测一个度曲的生长季节的开始和结束?如何准确的预测一个度

3、曲的生长季节的开始和结束?5例二:例二:分子生物学研究者希望利用当前收集的大量基因组数据,更分子生物学研究者希望利用当前收集的大量基因组数据,更好的理解基因的结构和功能。好的理解基因的结构和功能。p 数据的噪音和高维性需要新的数据分析方法。数据的噪音和高维性需要新的数据分析方法。数据挖掘也可以用来处理生物学的其他数据挖掘也可以用来处理生物学的其他难题,如蛋白质结构预测,多序列校准,难题,如蛋白质结构预测,多序列校准,生物化学路径建模和种系发生学。生物化学路径建模和种系发生学。61、什么是数据挖掘?、什么是数据挖掘?7到底什么是数据挖掘呢?到底什么是数据挖掘呢?数据挖掘是在大型数据存储库中,数据

4、挖掘是在大型数据存储库中,自动自动地发现地发现有用有用的的信息信息的过程。的过程。1、发现先前未知的有用模式、发现先前未知的有用模式2、预测未来的观测结果、预测未来的观测结果1、数据库中查找个别记录、数据库中查找个别记录2、搜索引擎查找特定页面、搜索引擎查找特定页面8那么,什么又是知识发现呢?那么,什么又是知识发现呢?数据挖掘是数据挖掘是数据库中知识发现数据库中知识发现不可缺少的一部分,而知识发现是将未不可缺少的一部分,而知识发现是将未加工的数据转换为有用信息的加工的数据转换为有用信息的整个过程整个过程。输入数据数据预处理数据挖掘后处理信息特征选择维归约规范化选择数据子集模式过滤可视化模式表示

5、92、数据挖掘要解决的问题、数据挖掘要解决的问题10面临新的数据集带来的问题时,传统的数据分析技术常常面临新的数据集带来的问题时,传统的数据分析技术常常遇到实际的困难。遇到实际的困难。p可伸缩可伸缩需要有能力处理海量数据问题需要有能力处理海量数据问题p高维性高维性需要需要很好的处理维灾难问题很好的处理维灾难问题p异种数据和复杂数据异种数据和复杂数据需要考虑数据对象的复杂性和多样性需要考虑数据对象的复杂性和多样性p数据的所有权与分布数据的所有权与分布需要考虑数据安全性、加快计算速度、汇总计算结果需要考虑数据安全性、加快计算速度、汇总计算结果p非传统的分析非传统的分析非单一假设非单一假设-检验模式

6、检验模式VSVS113、数据挖掘的起源、数据挖掘的起源12人工智能、人工智能、机器学习、机器学习、和模式识别和模式识别数据挖掘的方法来自机器学习或数据挖掘的方法来自机器学习或AI,模式,模式识别,统计学与数据库系统识别,统计学与数据库系统统计学统计学数据挖掘数据挖掘数据库技术、并行计算、分布式计算数据库技术、并行计算、分布式计算133、数据挖掘的任务、数据挖掘的任务14n 预测任务根据其他属性的值,预测特定属性的值根据其他属性的值,预测特定属性的值被预测变量通常被称为被预测变量通常被称为目标变量目标变量n 描述任务导出概括数据中潜在联系的模式导出概括数据中潜在联系的模式包括包括相关相关、趋势趋

7、势、聚类聚类、轨迹轨迹、异常异常15数据数据聚类分析聚类分析关联分析关联分析预测建模预测建模异常检测异常检测16预测建模的任务可以分为预测建模的任务可以分为两类两类:分类回归目标变量离散连续举例是否买书股票价格共同点训练模型, 减小误差预测建模的任务举例预测建模的任务举例:p 确定顾客对产品促销活动的反应确定顾客对产品促销活动的反应p 预测地球生态系统的扰动预测地球生态系统的扰动p 根据检查结果判断病人是否患有疾病根据检查结果判断病人是否患有疾病17例子例子:预测鸢尾花预测鸢尾花(IRIS)(IRIS)的类型的类型, Setosa,Veriscolour, Virginica, Setosa,

8、Veriscolour, Virginica。该数据集包含该数据集包含4 4个属性和个属性和1 1个目标变量。属性为萼片宽度,萼片长度,个目标变量。属性为萼片宽度,萼片长度,花瓣长度,花瓣宽度,目标变量为花的种类。花瓣长度,花瓣宽度,目标变量为花的种类。我们可以根据区间宽度把我们可以根据区间宽度把花瓣花瓣宽度和长度宽度和长度分为分为低中高低中高三类。三类。然后可推出如下规则:然后可推出如下规则:花瓣宽度和花瓣长度为花瓣宽度和花瓣长度为低低蕴涵蕴涵SetosaSetosa花瓣宽度和花瓣长度为花瓣宽度和花瓣长度为中中蕴涵蕴涵VersicolourVersicolour花瓣宽度和花瓣长度为花瓣宽度和

9、花瓣长度为高高蕴涵蕴涵VirginicaVirginica18用来发现描述数据中强关联特征的模式。用来发现描述数据中强关联特征的模式。关联分析的任务举例关联分析的任务举例:p 找出具有相关功能的基因组找出具有相关功能的基因组p 识别用户一起访问的识别用户一起访问的Web页面页面p 理解地球气候系统不同元素之间的联系理解地球气候系统不同元素之间的联系所发现的模式通常用所发现的模式通常用蕴含规则或特征子集蕴含规则或特征子集的形式表示的形式表示搜索空间通常是指数规模的,因此关联分析的目标是搜索空间通常是指数规模的,因此关联分析的目标是以以有效的方式提取有趣的结果有效的方式提取有趣的结果19例子:例子

10、:下面是一杂货店收银台收集的销售数据下面是一杂货店收银台收集的销售数据事务ID商品1 12 23 34 45 56 67 78 89 91010 面包,黄油,尿布,牛奶面包,黄油,尿布,牛奶 咖啡,糖,小甜饼,鲑鱼咖啡,糖,小甜饼,鲑鱼 面包,黄油,咖啡,尿布,牛奶,鸡蛋面包,黄油,咖啡,尿布,牛奶,鸡蛋 面包,黄油,鲑鱼,鸡面包,黄油,鲑鱼,鸡 鸡蛋,面包,黄油鸡蛋,面包,黄油 鲑鱼,尿布,牛奶鲑鱼,尿布,牛奶 面包,茶,糖,鸡蛋面包,茶,糖,鸡蛋 咖啡,糖,鸡,鸡蛋咖啡,糖,鸡,鸡蛋 面包,尿布,牛奶,盐面包,尿布,牛奶,盐 茶,鸡蛋,小甜饼,尿布,牛奶茶,鸡蛋,小甜饼,尿布,牛奶 顾客经

11、常一起购买的顾客经常一起购买的商品是什么?商品是什么?20事务ID商品1 12 23 34 45 56 67 78 89 91010 面包,黄油,面包,黄油,尿布尿布,牛奶牛奶 咖啡,糖,小甜饼,鲑鱼咖啡,糖,小甜饼,鲑鱼 面包,黄油,咖啡,面包,黄油,咖啡,尿布尿布,牛奶牛奶,鸡蛋,鸡蛋 面包,黄油,鲑鱼,鸡面包,黄油,鲑鱼,鸡 鸡蛋,面包,黄油鸡蛋,面包,黄油 鲑鱼,鲑鱼,尿布尿布,牛奶牛奶 面包,茶,糖,鸡蛋面包,茶,糖,鸡蛋 咖啡,糖,鸡,鸡蛋咖啡,糖,鸡,鸡蛋 面包,面包,尿布尿布,牛奶牛奶,盐,盐 茶,鸡蛋,小甜饼,茶,鸡蛋,小甜饼,尿布尿布,牛奶牛奶 例子:例子:下面是一杂货店收

12、银台收集的销售数据下面是一杂货店收银台收集的销售数据顾客经常一起购买的顾客经常一起购买的商品是什么?商品是什么?21旨在发现紧密相关的观测值组群。旨在发现紧密相关的观测值组群。使得与属于使得与属于不同簇不同簇的观测值相比,属于的观测值相比,属于同一簇同一簇的观测值相互之间尽的观测值相互之间尽可能相似。可能相似。聚类分析的任务举例聚类分析的任务举例:p 对相关顾客进行分组对相关顾客进行分组p 找出显著影响地球气候的海洋区域找出显著影响地球气候的海洋区域p 压缩数据压缩数据22例子:例子:下表中的新闻文章可以根据他们各自的主题分组。每篇文章下表中的新闻文章可以根据他们各自的主题分组。每篇文章表示为

13、词表示为词-频率对的组合频率对的组合(w:c)。w是词,是词,c是该词在文章中出现的是该词在文章中出现的次数。次数。这8篇文章如何划分簇?23任务是识别其特征显著不同于其他数据的观测值,这样的观测值点任务是识别其特征显著不同于其他数据的观测值,这样的观测值点称为异常点或离群点。称为异常点或离群点。异常检测算法的目标是发现异常检测算法的目标是发现真正的异常点真正的异常点,而避免错误的将正常的,而避免错误的将正常的对象标注为异常点。一个好的异常检测器应具有对象标注为异常点。一个好的异常检测器应具有高检测率高检测率和和低误报低误报率率。异常检测的任务举例异常检测的任务举例:p 检测欺诈检测欺诈p 网

14、络攻击网络攻击p 疾病的不寻常模式疾病的不寻常模式p 生态系统的扰动生态系统的扰动24例子:例子:信用卡公司记录每个持卡人所做的交易,同时也记录信用限信用卡公司记录每个持卡人所做的交易,同时也记录信用限度、年龄、年薪和地址等个人信息。由于与合法交易相比,欺诈行度、年龄、年薪和地址等个人信息。由于与合法交易相比,欺诈行为的数目相对很少,因此为的数目相对很少,因此异常检测技术异常检测技术可以用来构造可以用来构造用户合法交易用户合法交易的轮廓的轮廓。当一个当一个新的交易新的交易到达时,到达时,与合法交易的轮廓进行比较与合法交易的轮廓进行比较。如果与合法。如果与合法轮廓轮廓很不相同很不相同,就把交易标

15、记为可能是欺诈!,就把交易标记为可能是欺诈!25参考书引论型:引论型:Dunham商务应用型:商务应用型:Berry和和Linoff统计学习型:统计学习型:Cherkassky和和Mulier机器学习型:机器学习型:Duada等,等,Mitchell相关会议直接相关:直接相关:SIG KDD, ICDM, SDM, PKDD, PAKDDSIG KDD, ICDM, SDM, PKDD, PAKDD间接相关:间接相关:SIGMOD,VLDB,CIKM,ICDE,ICML,AAAISIGMOD,VLDB,CIKM,ICDE,ICML,AAAI相关期刊IEEE Transactions on Knowledge and Data Engineering (TKDE)Data Mining and Knowledge Discovery (DMKD)Know

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论