版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数 据 挖 掘 技 术 (Data Mining),注意事项,强调讨论、交流、互动 强调掌握内容的实质 有问题及时发问,主要讨论内容,数据挖掘的提出 相关的基本概念 应用驱动力 技术驱动力 数据挖掘基本概念 数据挖掘的应用 数据挖掘基本步骤 数据挖掘的技术概览 数据挖掘的研究方向,数据、信息、知识、理解和先知,系统学专家Russell Ackoff 博士认为人类大脑中包涵的内容,可以分为五类: 数据(Data): 符号( Symbols )的集合,未加工的、较为原始的形态 信息(Information): 数据经过处理后,有意义的,具有利用价值的,能够回答4W为(“who”, “what”,
2、“where”, and “when”)等问题。 知识(Knowledge): 数据和信息的进一步应用,能够回答“how”的问题 理解(Understanding): “why”的正确评价 先知(Wisdom): 理解的进一步提升,数据、信息、知识和先知的关系,数据挖掘的提出,两个方面 应用需求驱动 技术发展驱动,知识经济时代需要“知本”,在过去的三百年中,我们经历了不同的经济时代 依赖于自然资源的经济时代 生产资本型经济时代 金融资本主导的经济时代 知识经济时代 其主要的资本是“知本”(Know-how),如:企业对客户需求的认识、市场需求、市场分类、正确定价,数据极大丰富,知识极其匮乏,一
3、大批信息系统投入运行,为企事业的发展作出了巨大贡献 各类信息系统大多属于OLTP类型或OA系统 系统运行多年,积累了大量的数据,“数据爆炸”问题 数据是一种宝贵的资源,没有充分发挥作用,解决方案: 数据仓库、联机分析处理和数据挖掘技术,数据、信息和知识,数据仓库和联机分析处理技术 对大量的数据进行有效的集成,面向主题组织数据,按照多维数据模型,对数据进行多维多层次的分析 数据挖掘技术 从大的数据集合中,智能和自动地抽取感兴趣的知识(规则、规律、模式、约束等),数据库技术的发展,1960s: 数据采集、数据库创建阶段 集中于原始文件的处理 层次数据库和网状数据库 1970s: 关系数据库管理系统
4、 关系数据模型和关系数据库管理系统 E-R模型、SQL语言、查询处理和优化、OLTP(恢复和并发技术) 1980s: 高级数据库管理系统 面向对象数据库、对象关系数据库、主动数据库、演绎数据库、模糊数据库、空间数据库、时空数据库、统计数据库 数据挖掘技术 1990s: 数据仓库、联机分析处理和数据挖掘 数据仓库、联机分析处理和数据挖掘, 多媒体数据库, Web数据库、Data Stream,数据仓库、联机分析处理和数据挖掘,大量的业务系统 大量的数据 OLTP系统,分析性环境与操作型环境相分离,OLAP 与 OLTP 相区分,1980s, 数据库中的知识发现(KDD) 数据挖掘的概念,主要讨论
5、内容,数据挖掘的提出 数据挖掘基本概念 数据挖掘基本步骤 数据挖掘的应用 数据挖掘的技术概览 数据挖掘的研究方向,“啤酒”和“尿布”,一则广为流传的案例:啤酒和尿布的故事 美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性, 他们往往也同时购买啤酒。 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。 结果:上述几种商品的销量几乎马上成倍增长。,什么是数据挖掘?,在早期的文献中,对知识发现有多种不尽相同的定义,甚至使用了不同的名称,如数据库中的知识挖掘(KDD)、知识抽取、数据考古学(archaeology)、数据捕捞(dred
6、ging)、数据分析、等等。 在早期文献中,认为“数据挖掘,也称为数据库中的知识发现,是从数据库中的数据抽取隐含的(implicit)、未知的(previously unknown)和潜在有用的(potentially useful)信息(如知识规则、约束和规律等)的非平凡的过程。” G. Piatetsky-Shapiro and W.J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991.,数据挖掘基本概念,数据库中的知识发现是识别数据中有效的、新颖的、潜在有用的和最终可被理解的模式(Pattern)的非平凡过程
7、。 U.M. Fayyad, G. Piatetsky-Shapiro, and P. Smyth. From data mining to knowledge discovery: an overview. In Advances in Knowledge Discover and Data Mining, AAAI/MIT Press, pp.1-30. 数据挖掘(data mining)是KDD过程的一个步骤,它是在现实可接受的计算效率限制下,应用数据分析和发现算法,在数据的基础上,对模式的特定枚举。 U.M. Fayyad, G. Piatetsky-Shapiro, and P. S
8、myth. Knowledge discovery and data mining: towards a unifying framework. In Proc. 2nd Intl Conf. on Knowledge Discovery and Data Mining. Menlo Park, 1996, pp.82,感兴趣的模式,模式是指从数据中抽取的模式或模型。而KDD过程则是对数据库加以必要的选择、预处理、抽样和变换,应用数据挖掘方法(算法)枚举模式,并评价数据挖掘的结果以确定所枚举的模式中的子集,这些子集被称为知识。 感兴趣的模式 有效 (Valid) :该模式具有足够的通用性,即对
9、于新数据该模式同样适用 新颖 (Novel) :该模式是深层次的,事先无法预料到的 潜在有用(Potentially Useful) :该模式可以指导一些有效的行为,不仅仅是检索有效的新颖的模式,可以指导决策人员进行科学决策 最终可被理解(Ultimately Understandable ) :该模式最终是可以解释的,多学科交叉的领域,数据挖掘,人工智能,机器学习,统计学,神经网络,模式识别,知识库系统,知识获取,信息检索,高性能计算,数据可视化,数据挖掘技术的技术支柱,数据库技术 人工智能(机器学习)技术 数理统计,数据挖掘技术的技术支柱(续),数据库技术 数据库技术自70年代以来一直受到
10、应用的青睐 数据库中的数据管理就足够了吗? 目前的发展 数据库管理系统的扩展 特种数据库:演绎数据库、归纳数据库、模糊数据库 数据仓库和数据挖掘,数据挖掘技术的技术支柱(续),人工智能、专家系统和神经网络技术 专家系统实质上是一个问题求解系统 理论工具是基于谓词演算的机器定理证明技术二阶演绎系统 存在的主要问题 从领域专家那里获取知识,进行知识归纳,过程复杂,同时交互过程,有很强的个性和随机性。知识获取是专家系统研究中的瓶颈。 用if-then等类的规则表达从领域专家那里获得的知识,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,知识表示又成为一大难题。 现有的专家系统对常识
11、和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的 发展:开始着手基于案例的推理, 不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。,数据挖掘技术的技术支柱(续),数理统计技术 数理统计是应用数学中最重要、最活跃的学科之一,迄今已有几百年的发展历史。 强大有效的数理统计方法和工具,已成为信息咨询业的基础 数理统计技术需要与数据库技术紧密结合 数据库查询语言SQL中的聚合函数功能极其简单 一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力 以数理统计
12、工具和可视化计算闻名的美国SAS公司,领先进入数据挖掘的行列,就是一个很好的实证。,主要讨论内容,数据挖掘的提出 数据挖掘基本概念 数据挖掘技术的应用 数据挖掘基本步骤 数据挖掘的技术概览 数据挖掘的研究方向,数据挖掘技术的应用领域,科学研究 市场营销 风险管理 产品制造 通信网络 ,科学研究领域,卫星遥感 SKICAT (SkyImageCatalogingandAnalysisTool):它是美国加州理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一
13、。 生物信息:主要应用在基因工程研究 基因表达路径分析 基因表达相似性分析 基因表达共发生分析,市场营销,目标市场分析 市场营销效果分析 交叉销售分析 客户关系管理 客户分类分析 客户行为分析 客户满意度分析 客户忠诚度分析,风险分析,现金流分析与预测 金融投资(信贷) 客户欺诈行为分析 通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性,主要讨论内容,数据挖掘的提出 数据挖掘基本概念 数据挖掘技术的应用 数据挖掘基本步骤 数据挖掘的技术概览 数据挖掘的研究方向,数据挖掘的基本过程,好的计划才能保证有条不紊的实施并取得成功 一些软件供应商和用户组织成立了行业协会,试图建立跨行业数据挖
14、掘过程标准(CRISP-DM) NCR Systems Engineering Copenhagen(丹麦) Daimler-Benz AG(德国) SPSS/Internal Solutions Ltd.(英国) OHRA Verzekeringen en Bank Grep B.V(荷兰) ,软件厂商提出的数据挖掘过程,SPSS的5A 评估(Assess) 访问(Access) 分析(Analyze) 行动(Act) 自动化(Automate) SAS的SEMMA 采样(Sample) 探索(Explore) 修正(Modify) 建模(Model) 评估(Assess),知识发现的基本过
15、程,数据挖掘是知识发现的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,与任务相关数据的选取,数据挖掘,模式评价,定义商业模型,KDD处理的基本步骤,定义商业模型 了解业务是最为重要的一步 了解任务的背景知识,清晰明确定义要解决的问题,为挖掘准备数据服务 有效的问题定义还包含一个对知识发现项目得到结果进行衡量的标准 还包括整个项目预算和理性的解释,KDD处理的基本步骤(续),数据准备(Data Preparation):5090 确定、了解数据源 数据收集 数据描述 数据选择:从数据源中选择部分相关的数据 数据清理与预处理 数据质量评估 数据集成:建立统一的数据视图 数据缩减和
16、预分析:缩小数据范围;对数据进行细致地观察和预处理 构建元数据 加载数据挖掘库,KDD处理的基本步骤(续),数据挖掘(Data Mining) 选择数据挖掘的方式:预测、描述 选择数据挖掘的算法 进行数据挖掘:获取感兴趣的模式,知识表达(挖掘结果的表述) 分析结果以用户便于理解的方式提供给用户 利用可视化工具 某些分析结果可以存储在知识库中,供以后进一步分析 模式评估 对分析结果进行评价(是否满意),对结果予以解释 递归执行上述过程,提高分析的质量,直到满意为止。 知识应用,KDD处理的基本步骤(续),数据挖掘系统的典型结构,知识库,主要讨论内容,数据挖掘的提出 数据挖掘基本概念 数据挖掘技术
17、的应用 数据挖掘基本步骤 数据挖掘的技术概览 数据挖掘的研究方向,数据挖掘技术的要求,处理各种的数据类型 具有高性能和高可扩展性(scalability)的数据挖掘算法 数据挖掘结果的有用性和确定性 不同的数据挖掘结果的表示 在不同的抽象层次上进行交互的挖掘 从不同的数据源中挖掘信息 保护隐私和数据安全,不同角度的数据挖掘分类,针对的数据源不同 关系数据库、对象数据库、空间数据库、时序数据库、文档数据库、多媒体数据库、Web等 采用的不同的分析方法 关联分析、分类分析、聚类分析、趋势分析、偏差分析以及异常点分析等 采用的不同技术 利用数据库或数据仓库的方法、机器学习的方法、统计的方法、神经网络
18、的方法等。 不同的应用领域 金融、电信、商业、DNA分析、 、股市分析等,数据挖掘技术分类,描述(Description):了解数据中潜在的规律、规则 概念/类描述 关联分析 聚类分析 孤立点(异常点)分析 预言(Predication):用历史预测未来 分类分析 趋势分析 回归分析 序列模式分析,数据挖掘的分析方法,概念/类描述:特征化和区分 通过综合、汇总、归纳和对比,分析事物的特征 关联分析 发现数据库中数据间的相互关联 多维关联 vs. 单维关联 例如: age(X, “20.29”) income(X, “20.29K”) buys(X, “PC”) support = 2%, co
19、nfidence = 60% buys(T, “computer”) buys(T, “software”) support = 1%, confidence = 75%,数据挖掘的分析方法,聚类分析 每个类的标识事先不确定,把一组对象按照相似性归成若干类别,即“物以类聚”。 基本的原则:属于同一类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大。 孤立点(异常点)分析(Outlier analysis) 发现与数据的一般行为不一致的数据对象,即异常点。 通常可以将它视为噪音数据或非常事件,如:欺诈行为等,分类 在数据库的一个对象集中发现公共的属性,并根据分类模型把这些对象分成
20、不同的类的过程。 例如:根据不同的气候环境,对不同地区进行分类; 根据不同的成绩,对学生进行分类 方法表述: 决策树、分类规则、神经网络等 趋势分析(Trend and evolution analysis) 趋势和偏差:回归分析 序列模式分析,数据挖掘的分析方法,兴趣度问题,一个数据挖掘系统的挖掘结果可能会产生成千上万个模式,但是并不是所有的模式都有意义。 兴趣度的度量:一个模式是否感兴趣,取决于它是否容易被用户所理解,是否有效可信,是否潜在有用,是否新颖等 兴趣度的度量: 客观的度量: 从模式的角度出发,基于模式结构的某些统计的结果,如:支持度(support)、可信度(confidence)等。 主观的度量: 从用户的角度出发,对模式的信任程度,如:新颖性、可操作性等。,“查全率”和“查准率”,找到所有用户可能感兴趣的模式:查全率 Can a data mining system find all the interesting patterns? 只查找用户感兴趣的模式:查准率 Can a data mining system find only the interesting patterns? 具体方法 首先查找所有的模式 滤去用户不感兴趣的模式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人体排毒课件
- 2025年江苏航运职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年枣庄职业学院高职单招语文2018-2024历年参考题库频考点含答案解析
- 10kV配电站房工程施工方案与技术支持
- 中班幼儿故事主题活动策划方案五篇
- 物流配送委托合同范本
- 幼儿园志愿者活动策划方案三篇
- 企业合同管理制度年
- 沪教版(上海)七年级地理第一学期中国区域篇(上)- 1.1 《新疆维吾尔自治区》听课评课记录
- 货物买卖合同范文
- 湖南省长沙市长郡教育集团2024-2025学年七年级上学期期末考试英语试题(含答案)
- 2024-2025学年人教版三年级(上)英语寒假作业(九)
- 《招标投标法》考试题库200题(含答案)
- 立春气象与健康
- 河南退役军人专升本计算机真题答案
- DB52T 1167-2017 含笑属栽培技术规程 乐昌含笑
- 2025年全国高考体育单招考试政治模拟试卷试题(含答案详解)
- 驾驶证学法减分(学法免分)试题和答案(50题完整版)1650
- 人教版2024新版七年级上册数学第六章几何图形初步学业质量测试卷(含答案)
- 小学数学五年级上册奥数应用题100道(含答案)
- 工业机器人编程语言:Epson RC+ 基本指令集教程
评论
0/150
提交评论