《数据挖掘概论》PPT课件_第1页
《数据挖掘概论》PPT课件_第2页
《数据挖掘概论》PPT课件_第3页
《数据挖掘概论》PPT课件_第4页
《数据挖掘概论》PPT课件_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第1课数据挖掘概论,徐从富,副教授浙江大学人工智能研究所,浙江大学本科生数据挖掘导论课件,内容大纲,数据挖掘介绍数据挖掘系统数据挖掘算法国际会议和期刊主要参考资料,数据挖掘介绍, 数据挖掘的由来数据挖掘的应用基本概念是数据挖掘基本内容数据挖掘区分了基本特征数据挖掘的其他主题数据挖掘的由来是,背景网络之后的下一个技术热点数据爆发了,但是知识匮乏的商业数据中商业信息人类新信息时代数据库中存储的数据量的急剧增长进一步提高了需要从大量数据库和大量复杂信息中提取有价值知识的信息的利用率,是基于数据库的知识发现(Knowledge Discovery in Database ) 相应的数据挖掘理论和技术研

2、究,随着大型数据库的建立和大量数据的出现,必然提出了对强大数据分析工具的迫切需求,为我们创造了新的方向。 但是,现实中经常“数据非常丰富,信息非常匮乏”。 理解收集大量快速增长的数据,存储在大数据库中,没有强大的工具,远远超过了人的能力。 因此被称为“数据之墓”。 专家系统工具太依赖用户和专家,手动将知识输入到知识库中,分析结果有很多偏差和错误,而且花费时间和费用,所以无法执行。 数据矿山、信息金块、数据挖掘工具、网络之后的下一个技术热点,大量的信息给人们带来了方便,同时也带来了很多问题:信息过剩,难以消化信息的真伪,信息安全不一致,难以统一处理,数据爆炸目前的数据库系统虽然能有效地实现数据输

3、入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法从现有数据中预测未来的发展趋势。 没有手段发掘数据背后隐藏的知识,引起了“数据爆炸,但知识匮乏”的现象。 商业数据向商业信息的进化、KDD的出现、基于数据库的知识发现(KDD )这个词首次出现在1989年召开的国际人工智能联合大会IJCAI-89 Workshop上。 1995年在加拿大蒙特利尔召开了第一次KDD国际学术会议(KDD95 )。 由Kluwers Publishers出版,1997年创刊的knowledgediscoveryanddatamining是该领域第一家学术刊物。 数据挖掘的发展、数据挖掘、数据库技术、统计学、

4、高性能计算、人工智能、机器学习、可视化、数据挖掘是多学科的产物,k 作为大数据库中先进的数据分析工具,KDD的研究已经成为数据库和人工智能领域的研究热点。 数据挖掘的应用、电信:流失银行:集群(细分化)、交叉小区百货商店/超市:购物车分析(相关规则)保险:细分化、交叉小区、流失(原因分析)信用卡:欺诈探测、细分化电子商务:网站日志分析税务部门:逃税行为的双曲正切值。 的双曲正切值。 的双曲正切值。 的双曲正切值。 的双曲正切值。 直接邮件应答率为100,电信、GUS日用品零售店需要准确预测未来的商品销售量,降低库存成本。 的双曲正切值。 的双曲正切值。 的双曲正切值。 的双曲正切值。 的双曲正

5、切值。 数据挖掘方法将库存成本比以往减少3.8%,零售店、美国国内税务局需要提高对纳税人的服务水平。 的双曲正切值。 的双曲正切值。 的双曲正切值。 的双曲正切值。 的双曲正切值。合理安排税务官的工作,为纳税人提供更快速准确的服务,税务局、银行、金融事务需要收集和处理大量数据,由于银行在金融领域的地位、工作性质、业务特征和激烈的市场竞争,决定对信息化、电子化有更迫切的要求。 利用数据挖掘技术,有助于银行产品开发部门解释客户过去的需求趋势,预测未来。 美国商业银行是发达国家商业银行的典范,很多地方值得我国学习和参考。 数据挖掘在银行领域的应用,美国银行家协会(ABA )预测数据仓库和数据挖掘技术

6、在美国商业银行的应用增长率为14.9。 Mellon银行使用数据挖掘软件来提高家庭普通贷款等金融产品的销售和定价的精度,包括建立分析客户使用分销渠道的情况和分销渠道容量的利润评估模型的客户关系优化风险控制等。 美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测什么时候向客户提供什么样的产品。 汇丰银行必须对持续增长的客户群进行分类,找到对各产品最有价值的客户。 的双曲馀弦值。 的双曲馀弦值。 的双曲馀弦值。 的双曲馀弦值。 的双曲馀弦值。 营销费用30,银行,基本概念区分,数据挖掘和知识发现数据挖掘和数据仓库数据挖掘和信息处理数据挖掘和在线分析数据挖掘和人工智能,统计学,数据挖掘和

7、知识发现,数据挖掘数据挖掘是从大量、不完全、有噪声、模糊、随机的实际应用数据中提取隐藏在其中、人们事先不知道、但潜在有用的信息和知识的过程。 相似的概念称为知识发现。 知识发现使用数据库管理系统来存储数据,以机器学习的方式来分析数据,挖掘大量数据背后隐藏的知识,这称为数据库知识发现.的知识发现。 数据挖掘和数据仓库,大多数情况下,数据挖掘首先将数据从数据仓库带来到数据挖掘库或数据集市。 直接从数据仓库中获取要进行数据挖掘的数据有很多好处. 数据仓库的数据清理与数据挖掘的数据清理几乎相同,如果在导入数据仓库时数据已被清理,则在进行数据挖掘时很可能不需要再清理一次,所有数据的双曲馀弦值。 数据挖掘

8、库不需要在物理上是单独的数据库,而是数据仓库的逻辑子集。请注意,数据挖掘库可以是数据仓库的逻辑子集。 但是,如果数据仓库的计算资源很紧张,建议您创建另一个数据挖掘库。 当然,没有必要为了数据挖掘而建立数据仓库. 数据仓库并不是必须的。 建立一个巨大的数据仓库,统一各个源的数据,解决所有数据冲突问题,将所有数据导入一个数据仓库是一个巨大的项目,几年内可能花费数百万美元。 但是,为了进行数据挖掘,可以将一个或多个事务数据库导入只读数据库,然后将其用作数据集市,在此基础上进行数据挖掘。 数据挖掘和信息处理、信息处理信息处理基于查询,能找到有用的信息。 但是,这个查询的回答反映了直接存储在数据库中的信

9、息。 没有反映复杂模式和数据库中隐藏的规则。 数据挖掘和在线分析、OLAP分析过程本质上是演绎推理的过程,是决策支持领域的一部分。 传统的查询和报告工具告诉您数据库中发生了什么,OLAP还提供了进一步的步骤。 用户首先创建假设,然后使用OLAP检索数据库,以验证该假设是否正确。 数据挖掘本质上是归纳推理的过程,与OLAP的不同之处在于,数据挖掘不是为了验证某个假设模式(模型)的正确性,而是在数据库中自己查找模型。数据挖掘和OLAP具有一定的互补性。 在利用数据挖掘的结论行动之前,OLAP工具起到了帮助决策的作用。 此外,在知识发现初期,OLAP工具用于搜索数据,发现问题中重要的变量,并发现与异

10、常数据相互影响的变量。 这有助于更好地理解数据,加快知识发现过程。 数据挖掘和人工智能、统计学、数据挖掘利用了人工智能和统计分析的进步的优点。 这两个学科致力于模型的发现和预测。 数据挖掘不能取代传统的统计分析技术。 相反,这是统计分析方法学的扩展和扩展。 许多统计分析技术基于完美的数学理论和高超的技术,虽然预测精度很好,但对用户的要求很高。 随着计算机的计算能力的增强,我们有可能利用计算机的强大的计算能力以相对简单固定的方式完成相同的功能。 一些新兴技术也在知识发现领域取得了良好的效果。 例如,神经元网络和决策树,在充分的数据和计算能力下,几乎不需要人工干预就能自动完成许多有价值的功能。 数

11、据挖掘是一种运用了统计学和人工智能技术的应用程序,它将高度复杂的技术封装在一起,使人们即使不自己学习这些技术也能完成相同的功能,集中在自己必须解决的问题上。 数据挖掘和统计学、数据挖掘分析大量数据很多数据库不符合统计学分析的需要,数据挖掘的基本内容、数据挖掘的定义数据源挖掘的过程数据挖掘的功能数据挖掘的分类数据挖掘类似于数据挖掘,但含义稍有不同的术语是从数据库中发现知识(知识库/数据库中,KDD )知识提取(知识提取)数据/模型分析(数据/模型分析) 数据考古数据渔业技术中业务角度的定义、技术定义和数据挖掘是从大量、不完全、噪声、模糊、随机实用数据中提取隐藏在其中的人们事先不知道但潜在有用的信

12、息和知识的过程。 商业角度的定义、数据挖掘是一种新的商业信息处理技术,其主要特征是提取、转换、分析和其他建模处理商业数据库中大量的商业数据,并从其中提取辅助商业决策的重要数据。 数据挖掘的定义(续),人们对数据挖掘给出了很多定义,内涵也各不相同,目前公认的定义是Fayyad等人提出的。 数据库知识发现(KDD )是一个从大量数据中提取有效、新颖、潜在有用并且最终能理解的模式的非凡过程。数据挖掘的数据源、关系数据库数据仓库事务数据库、高级数据库系统和高级数据库应用、 面向对象数据库空间数据库的时间数据库和时间序列数据库的文本数据库和多媒体数据库的异种数据库WWW、数据挖掘过程、数据挖掘是反复的人

13、机交互处理过程。 这个过程需要几个步骤,很多决策需要用户来做。 从宏观上看,数据挖掘过程主要由数据整理、数据挖掘和结果解释评价三部分组成。 (1)定义业务问题充分发挥数据挖掘的价值,必须明确定义目标,决定想做什么。 否则,很难得到正确的结果。 (2)建立数据挖掘库的数据准备工作需要50%-90%的时间和精力。 一般来说,直接对公司的数据仓库进行数据挖掘不合适,最好创建独立的数据集。数据挖掘库的构建,a )数据收集b )数据描述c )选择,d )数据质量评估和数据清理e )整合f )构建元数据g )数据挖掘库h )数据挖掘库的维护(3)数据分析的目的:最适合预测输出(4)准备数据是建立模型前的最

14、后一个步骤。 分为四个部分: a )选择变量b )选择记录c )创建新变量d )转换变量。 (5)建立模型在建立模型中最重要的是,它是一个反复的过程。 为了判断哪个模型对业务问题最有用,有必要仔细考察不同的模型。 为了保证得到的模型的精度和稳健性,需要定义齐全的“训练验证”协议。 有时把这个协议称为带指导的学习。 验证方法主要有: a )简单验证法b )交叉验证法:首先将原始数据随机分成两部分,然后,将一部分作为训练集的其他部分作为测试集来计算错误率,结束后,交换两个数据再次计算,得到另外的错误率,最后使用所有的数据c )自举法:是评价另一种模型错误率的技术。 特别适合于数据量小时。 和交叉验

15、证一样,模型是用所有数据建立的。 (6)评价和解释a )模型验证。 模型完成后,必须对其结果进行评价并说明价值。 从测试集中得到的精度只对建立模型的数据有意义。 在实际应用中,模型的精度一定会根据应用数据而变化。 更重要的是,精度本身并不一定是选择最佳模型的正确评价方法。 有必要进一步了解错误的类型和相关费用的量。 b )外部认证。 无论我们用模拟的方法计算出的模型的精度有多高,也不能保证这个模型在面对现实世界的真实数据时能得到好的效果。 已证实的有效模型不一定是正确的模型。 这是因为在模型建立过程中隐含的假设。 例如,建立用户购买模型时,可能没有考虑到通货膨胀的影响,但实施模型时,通货膨胀率

16、突然从3%增加到17%显然会对人们的购买意向产生很大的影响,所以使用原始模型预测顾客购买情况会很严重。 (7)模型建立和实证后,有两种主要的使用方法。 第一个方法是向分析人员提供参考,通过他看了这个模型进行分析来提出行动方案。 例如,可以向分析者展示由模型检测到的集合、模型中包含的规则、表示模型的效果的图表。 另一种方法是将该模型应用于不同的数据集。 模型可以用于出示事例的分类,或申请评分。 也可以使用模型来选择满足数据库中特定要求的记录,并使用OLAP工具进行进一步分析。 在提交复杂的应用程序时,数据挖掘可能只是整个产品的一部分,但它可能是最重要的部分。 例如,经常把数据挖掘获得的知识和领域专家的知识结合起来,应用于数据库的数据。 欺诈检查系统可能包含数据挖掘发现的规律,也有人们在实践中已经总结出来的规律。 了解KDD流程(续)、KDD流程(续)、1 .数据准备: KDD应用领域的情况。 包括熟悉相关背景知识,明确用户需求。 2 .数据选择:数据选择的目的是确定目标数据,并根据用户的需要从原始数据库中选择相关数据或样品。 在此过程中,使用几个数据库操作来处理数据库。KDD过程(续),3 .数据预处理:重新处理步骤2中选择的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论