




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘考试复习大纲 数据挖掘期末复习 数据挖掘考试复习大纲 第一章、数据挖掘概论 数据挖掘考试复习大纲 数据挖掘: 数据库中的知识挖掘(KDD) q数据挖掘知识挖掘 的核心 数据清理数据清理 数据集成数据集成 数据库数据库 数据仓库数据仓库 任务相关数据任务相关数据 选择选择 数据挖掘数据挖掘 模式评估模式评估 数据挖掘考试复习大纲 知识挖掘的步骤 n了解应用领域 q了解相关的知识和应用的目标 n创建目标数据集: 选择数据 n数据清理和预处理: (这个可能要占全过程60的工作量) n数据缩减和变换 q找到有用的特征,维数缩减/变量缩减,不变量的表示。 n选择数据挖掘的功能 q数据总结, 分类
2、模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析 等. n选择挖掘算法 n数据挖掘: 寻找感兴趣的模式 n模式评估和知识表示 q可视化,转换,消除冗余模式等等 n运用发现的知识 数据挖掘考试复习大纲 体系结构:典型数据挖掘系统 数据仓库数据仓库 数据清洗数据清洗过滤过滤 数据库数据库 数据库或数据仓库服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 数据集成数据集成 数据挖掘考试复习大纲 数据挖掘的主要功能 n概念/类描述: 特性化和区分 q归纳,总结和对比数据的特性。 n关联分析 q发现数据之间的关联规则,这些规则展示属性值频繁的在给定的数据中所一 起出现的条件。 n分类和预测 q通
3、过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对 象类。 n聚类分析 q将类似的数据归类到一起,形成一个新的类别进行分析。 n孤立点分析 q通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见 事件进行孤立点分析而得到结论。 n趋势和演变分析 q描述行为随时间变化的对象的发展规律或趋势 数据挖掘考试复习大纲 数据挖掘:多个学科的融合 数据挖掘 数据库系统统计学 其他学科 算法 机器学习可视化 数据挖掘考试复习大纲 数据挖掘的主要问题 n挖掘方法 q在不同的数据类型中挖掘不同类型的知识, e.g., 生物数据, 流式数据, Web数据 q性能性能: 算法的有
4、效性、可伸缩性和并行处理算法的有效性、可伸缩性和并行处理 q模式评估: 兴趣度问题 q背景知识的合并 q处理噪声何不完全数据 q并行, 分布式和增量挖掘算法 q新发现知识与已有知识的集成: 知识融合 n用户交互 q数据挖掘查询语言和特定的数据挖掘 q数据挖掘结果的表示和显示 q多个抽象层的交互知识挖掘 n应用和社会因素 q特定域的数据挖掘 & 不可视的数据挖掘 q数据安全,完整和保密的保护 数据挖掘考试复习大纲 第二章、数据仓库和OLAP技术 数据挖掘考试复习大纲 什么是数据仓库? p67 n数据仓库的定义很多,但却很难有一种严格的定义 q它是一个提供决策支持功能的数据库,它与公司的操作数据
5、库分开维护。 q为统一的历史数据分析提供坚实的平台,对信息处理提供支 持 n“数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”W. H. Inmon(数据仓库构造方面的领头设计 师) n建立数据仓库(data warehousing): q构造和使用数据仓库的过程。 数据挖掘考试复习大纲 数据仓库与异种数据库集成 p68 n传统的异种数据库集成: q在多个异种数据库上建立包装程序(wrappers)和中介程序 (mediators ) q查询驱动方法当从客户端传过来一个查询时,首先使用 元数据字典将查询转换成相应异种数据库上的查询;然后,
6、将这些查询映射和发送到局部查询处理器 q缺点:复杂的信息过虑和集成处理,竞争资源 n数据仓库: 更新驱动 q将来自多个异种源的信息预先集成,并存储在数据仓库中, 供直接查询和分析 q高性能 数据挖掘考试复习大纲 OLTP系统和OLAP系统的比较 p69 数据挖掘考试复习大纲 从关系表和电子表格到数据立方体 p70 n数据仓库和数据仓库技术基于多维数据模型多维数据模型。这个模型把数据看 作是数据立方体数据立方体形式。多维数据模型围绕中心主题组织,该主题 用事实表事实表表示。事实事实是数值度量的。 n数据立方体数据立方体允许以多维数据建模和观察。它由维维和事实事实定义。 n维维是关于一个组织想要记
7、录的视角或观点。每个维都有一个表与 之相关联,称为维表维表。 n事实表事实表包括事实的名称或度量以及每个相关维表的关键字 n在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体基本方体。 给定一个维的集合,我们可以构造一个方体的格方体的格,每个都在不同 的汇总级或不同的数据子集显示数据,方体的格称为数据立方体数据立方体。 0维方体存放最高层的汇总,称作顶点方体顶点方体;而存放最底层汇总的 方体则称为基本方体基本方体。 数据挖掘考试复习大纲 度量的分类 p76 n一个数据立方体的度量是一个数值函数,该函数可以 对数据立方体的每一个点求值。度量可以根据其所用 的聚集函数分为三类: q分布的(
8、distributive):将函数用于n个聚集值得到的结果和将 函数用于所有数据得到的结果一样。 n比如:count(),sum(),min(),max()等 q代数的(algebraic):函数可以由一个带M个参数的代数函数 计算(M为有界整数),而每个参数值都可以有一个分布的 聚集函数求得。 n比如:avg(),min_N(),standard_deviation() q整体的(holistic):描述函数的子聚集所需的存储没有一个常 数界。 n比如:median(),mode(),rank() 数据挖掘考试复习大纲 概念分层:location维的一个概念分层 p77 all Europe
9、North_America MexicoCanadaSpainGermany Vancouver M. WindL. Chan . . . . . all region office country TorontoFrankfurt city 数据挖掘考试复习大纲 多维数据模型上的OLAP操作 79 n上卷(roll-up):汇总数据 q通过一个维的概念分层向上攀升或者通过维规约 n下钻(drill-down):上卷的逆操作 q由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下 或引入新的维来实现 n切片和切块(slice and dice) q投影和选择操作 n转轴(pivot) q
10、立方体的重定位,可视化,或将一个3维立方体转化维一个2维平 面序列 n其他OLAP操作 q钻过(drill_across):执行涉及多个事实表的查询 q钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层, 到后端关系表 数据挖掘考试复习大纲 数据仓库设计的四种视图 82 n数据仓库设计的四种视图 q自顶向下视图 n允许我们选择数据仓库所需的相关信息 q数据源视图 n揭示被操作数据库系统所捕获、存储和管理的信息 q数据仓库视图 n有事实表和维表所组成 q商务查询视图 n从最终用户的角度透视数据仓库中的数据 数据挖掘考试复习大纲 三种数据仓库模型 84 n企业仓库 q搜集
11、关于跨越整个组织的主题的所有信息 n数据集市 q企业范围数据的一个子集,对于特定的客户是有用的。其范 围限于选定的主题,比如一个商场的数据集市 n独立的数据集市 VS. 非独立的数据集市(数据来自于企业数据 仓库) n虚拟仓库 q操作数据库上的一系列视图 q只有一些可能的汇总视图被物化 数据挖掘考试复习大纲 OLAP服务器类型 86 n逻辑上,OLAP服务器从数据仓库或数据集市中给商业用户提供多 维数据 n物理上,OLAP的底层数据存储实现可以有多种不同的方式 q关系OLAP服务器(ROLAP) n使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而 用OLAP中间件支持其余部分 n包
12、括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务 n较大的可扩展性 q多维OLAP服务器(MOLAP) n基于数组的多维存储引擎(稀疏矩阵技术) n能对预计算的汇总数据快速索引 q混合OLAP服务器(HOLAP) n结合上述两种技术,更大的使用灵活性 q特殊的SQL服务器 n在星型和雪花模型上支持SQL查询 数据挖掘考试复习大纲 方体计算的多路数组聚集方法(1) n将数组分成块(chunk,一个可以装入内存的小子方) n压缩的稀疏数组寻址:(chunk_id, offset) n通过访问立方体单元,计算聚集。可以优化访问单元组的次序, 使得每个单元被访问的次数最小化,从而减少内存访
13、问和磁盘I/O 的开销。 A(month) B 29303132 1234 5 9 13141516 64636261 48474645 a1a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2a3 C(item) B(city) 44 28 56 40 24 52 36 20 60哪个是多路数组哪个是多路数组 聚集的最佳遍历聚集的最佳遍历 次序?次序? 数据挖掘考试复习大纲 第三章、数据预处理 数据挖掘考试复习大纲 为什么要预处理数据? n现实世界的数据是“肮脏的” q不完整的:有些感兴趣的属性缺少属性值,或仅包 含聚集数据 q含噪声的:包含错误或者“孤立点” q不一致的:在编码或者
14、命名上存在差异 n没有高质量的数据,就没有高质量的挖掘结果 q高质量的决策必须依赖高质量的数据 q数据仓库需要对高质量的数据进行一致地集成 数据挖掘考试复习大纲 数据预处理的主要任务 p31 n数据清理 q填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性 n数据集成 q集成多个数据库、数据立方体或文件 n数据变换 q规范化和聚集 n数据归约 q得到数据集的压缩表示,它小得多,但可以得到相同或相近 的结果 q数据离散化 n数据归约的一部分,通过概念分层和数据的离散化来规约数据, 对数字型数据特别重要 数据挖掘考试复习大纲 如何处理空缺值 39 n忽略元组:当类标号缺少时通常这么做(假
15、定挖掘任 务设计分类或描述),当每个属性缺少值的百分比变 化很大时,它的效果非常差。 n人工填写空缺值:工作量大,可行性低 n使用一个全局变量填充空缺值:比如使用unknown或 - n使用属性的平均值填充空缺值 n使用与给定元组属同一类的所有样本的平均值 n使用最可能的值填充空缺值:使用像Bayesian公式或 判定树这样的基于推断的方法 数据挖掘考试复习大纲 噪声数据 p40 n噪声:一个测量变量中的随机错误或偏差 n引起不正确属性值的原因 q数据收集工具的问题 q数据输入错误 q数据传输错误 q技术限制 q命名规则的不一致 n其它需要数据清理的数据问题 q重复记录 q不完整的数据 q不一
16、致的数据 数据挖掘考试复习大纲 如何处理噪声数据 p40 n分箱(binning): q首先排序数据,并将他们分到等深的箱中 q然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平 滑等等 n聚类: q监测并且去除孤立点 n计算机和人工检查结合 q计算机检测可疑数据,然后对它们进行人工判断 n回归 q通过让数据适应回归函数来平滑数据 数据挖掘考试复习大纲 数据变换 45 n平滑:去除数据中的噪声 (分箱、聚类、回归) n聚集:汇总,数据立方体的构建 n数据概化:沿概念分层向上汇总 n规范化:将数据按比例缩放,使之落入一个小的特定 区间 q最小最大规范化 qz-score规范化 q小数定标规范化
17、 n属性构造 q通过现有属性构造新的属性,并添加到属性集中;以增加对 高维数据的结构的理解和精确度 数据挖掘考试复习大纲 数据归约策略 47 n数据仓库中往往存有海量数据,在其上进行复杂的数 据分析与挖掘需要很长的时间 n数据归约 q数据归约可以用来得到数据集的归约表示,它小得多,但可 以产生相同的(或几乎相同的)分析结果 n数据归约策略 q数据立方体聚集 q维归约 q数据压缩 q数值归约 q离散化和概念分层产生 n用于数据归约的时间不应当超过或“抵消”在归约后 的数据上挖掘节省的时间。 数据挖掘考试复习大纲 分类数据的概念分层生成 p56 n分类数据是指无序的离散数据,它有有限个值(可能 很
18、多个)。 n分类数据的概念分层生成方法: q由用户或专家在模式级显式的说明属性的部分序。 q通过显示数据分组说明分层结构的一部分。 q说明属性集,但不说明它们的偏序,然后系统根据算法自动 产生属性的序,构造有意义的概念分层。 q对只说明部分属性集的情况,则可根据数据库模式中的数据 语义定义对属性的捆绑信息,来恢复相关的属性。 数据挖掘考试复习大纲 第四章、数据挖掘原语和DMQL 数据挖掘考试复习大纲 数据挖掘原语的组成部分 n数据挖掘原语应该包括以下部分: q说明数据库的部分或用户感兴趣的数据集 q要挖掘的知识类型 q用于指导挖掘的背景知识 q模式评估、兴趣度量 q如何显示发现的知识 n数据挖
19、掘原语用于用户和数据挖掘系统通信,让用户 能从不同的角度和深度审查和发现结果,并指导挖掘 过程。 数据挖掘考试复习大纲 说明数据挖掘任务的原语 n任务相关的数据 q数据库(仓库)名、数据立方体、选择条件、相关属性、分 组条件 n挖掘的知识类型 q特征化、区分、关联、分类/预测、聚类 n背景知识 q概念分层,关联的确信度 n模式兴趣度度量 q简单性、确定性、实用性、新颖性 n发现模式的可视化 q规则、表、图表、图、判定树 数据挖掘考试复习大纲 兴趣度度量 n没有兴趣度度量,挖掘出来的有用模式,很可 能会给淹没在用户不感兴趣的模式中。 q简单性 q确定性 q实用性 q新颖性 n兴趣度的客观度量方法
20、:根据模式的结构和统 计,用一个临界值来判断某个模式是不是用户 感兴趣的。 数据挖掘考试复习大纲 第五章、特征化和比较 数据挖掘考试复习大纲 两种不同类别的数据挖掘 n从数据分析的角度看,数据挖掘可以分为描述 性挖掘和预测性挖掘 q描述性挖掘:以简洁概要的方式描述数据,并提供 数据的有趣的一般性质。 q预测性数据挖掘:通过分析数据建立一个或一组模 型,并试图预测新数据集的行为。 数据挖掘考试复习大纲 什么是概念描述? n描述性挖掘 VS. 预测性挖掘 q描述性挖掘:以简洁概要的方式描述数据,并提供 数据的有趣的一般性质。 q预测性数据挖掘:通过分析数据建立一个或一组模 型,并试图预测新数据集的
21、行为。 n概念描述:为数据的特征化和比较产生描述 (当所描述的概念所指的是一类对象时,也称 为类描述类描述) q特征化:提供给定数据集的简洁汇总。 q区分:提供两个或多个数据集的比较描述。 数据挖掘考试复习大纲 数据概化 n数据概化 q数据库中的数据和对象通常包含原始概念层的细节信息,数 据概化就是将数据库中的跟任务相关的数据集从较低的概念 层抽象到较高的概念层的过程。 n主要方法: q数据立方体(OLAP使用的方法) q面向属性的归纳方法 1 2 3 4 5 概念层 数据挖掘考试复习大纲 面向属性的归纳 nAttribute-oriented induction, AOI (KDD 89 W
22、orkshop) n受数据类型和度量类型的约束比较少 n面向属性归纳的基本思想: q使用关系数据库查询收集任务相关的数据 q通过考察任务相关数据中每个属性的不同值的个数进行概化, 方法是属性删除或者是属性概化 q通过合并相等的,概化的广义元组,并累计他们对应的计数 值进行聚集操作 q通过与用户交互,将广义关系以图表或规则等形式,提交给 用户 数据挖掘考试复习大纲 面向属性的归纳的基本步骤 n数据聚焦,获得初始工作关系 n进行面向属性的归纳 q基本操作是数据概化,对有大量不同值的属性大量不同值的属性,进 行进一步概化 n属性删除 n属性概化 q属性概化控制:控制概化过程,确定有多少不同的 值才算
23、是有大量不同值的属性大量不同值的属性 n属性概化临界值控制 n概化关系临界值控制 数据挖掘考试复习大纲 概念描述的属性相关分析步骤 (1) n数据收集 q通过查询处理,收集目标类和对比类数据 n使用保守的AOI进行预相关分析 q识别属性和维的集合,它们是所选择的相关性分析度量的应 用对象 q因为不同的概念层对某个类描述的相关性可能很不同,因此 在这个过程中同时要包含概念分层 q对有大量不同值的属性进行删除或概化 q在这一级进行概化时,临界值要相应比较高,以便在后续步 骤的分析中包含更多属性(保守的) q产生候选关系 数据挖掘考试复习大纲 概念描述的属性相关分析步骤 (2) n使用选定的相关分析
24、度量删除不相关和弱相关 的属性 q使用选定的相关分析度量(e.g.信息增益),评估 候选关系中的每个属性 q根据所计算的相关性对属性进行排序 q低于临界值的不相关和弱相关的属性被删除 q产生初始目标类工作关系(或初始对比类工作关系) n使用AOI产生概念描述 q使用一组不太保守的属性概化临界值进行AOI 数据挖掘考试复习大纲 挖掘类比较:区分不同的类 n类比较挖掘的目标是得到将目标类与对比类相区分的 描述。 q目标类和对比类间必须具有可比性,即两者间要有相似的属 性或维。 n本科生 VS. 研究生;student VS. address n很多应用于概念描述的技巧可以应用于类比较,比如 属性概
25、化。 q属性概化必须在所有比较类上同步进行,将属性概化到同一 抽象层后进行比较。 nCity VS country 数据挖掘考试复习大纲 类比较的过程 136 n数据收集 q通过查询处理收集数据库中相关的数据,并将其划分为一个目标类 和一个或多个对比类 n维相关分析 q使用属性相关分析方法,使我们的任务中仅包含强相关的维 n同步概化 q同步的在目标类和对比类上进行概化,得到主目标类关系主目标类关系/方体方体 和 主对比类关系主对比类关系/方体方体 n导出比较的表示 q用可视化技术表达类比较描述,通常会包含“对比”度量,反映目 标类与对比类间的比较 (e.g count%) 数据挖掘考试复习大纲
26、 在大型数据库中挖掘描述统计计量 n对于数据挖掘任务,用户经常关心的数据特征包括数 据的中心趋势和离散特征 q中心趋势的度量包括:mean, median, mode 和 midrange q数据离散度量包括:quartiles, 五数概括和标准差等 q关系数据库中,系统提供了以下聚集函数:count(), sum(), avg(), max(), min() q在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何 利用关系数据库现有的函数来计算上述两类用户感兴趣的度 量值 数据挖掘考试复习大纲 第六章、关联规则挖掘 数据挖掘考试复习大纲 什么是关联规则挖掘? n关联规则挖掘: q从事务数据库
27、,关系数据库和其他信息存储中的大 量数据的项集之间发现有趣的、频繁出现的模式、 关联和相关性。 n应用: q购物篮分析、分类设计、捆绑销售和亏本销售分析 数据挖掘考试复习大纲 关联规则:基本概念 n给定: q项的集合:I=i1,i2,.,in q任务相关数据D是数据库事务的集合,每个事务T则 是项的集合,使得 q每个事务由事务标识符TID标识; qA,B为两个项集,事务T包含A当且仅当 n则关联规则是如下蕴涵式: q其中 并且 ,规则 在事 务集D中成立,并且具有支持度s和置信度c IT TA , csBA IBIA , BABA 数据挖掘考试复习大纲 Apriori算法 nApriori算法
28、利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k-项 集用于探察(k+1)-项集,来穷尽数据集中的所有频繁 项集。 q先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2, 接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次 数据库扫描。 nApriori性质:频繁项集的所有非空子集也必须是频繁 的。( 模式不可能比A更频繁的出现) qApriori算法是反单调的,即一个集合如果不能通过测试,则 该集合的所有超集也不能通过相同的测试。 BA 数据挖掘考试复习大纲 Apriori算法步骤 nApriori算法由连接连接和剪枝剪枝两个
29、步骤组成。 n连接:连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集 的集合,该候选候选k项集项集记为Ck。 qLk-1中的两个元素L1和L2可以执行连接操作 的条件是 n剪枝:剪枝: Ck是Lk的超集,即它的成员可能不是频繁的, 但是所有频繁的k-项集都在Ck中(为什么?)。因此 可以通过扫描数据库,通过计算每个k-项集的支持度 来得到Lk 。 q为了减少计算量,可以使用Apriori性质,即如果一个k-项集 的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直 接从Ck删除。 )1 1()22(.)22()1 1 ( 21212121 klklklklllll 21 l
30、l 数据挖掘考试复习大纲 Apriori算法示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3L3 3rd scan 数据挖掘考试复习大纲 使用Apiori性质由L2产生C3 n1 连接: qC3=L2 L2= A,C,B,C,B,EC,E A,C,B,C,B,EC,E = A,B,C,A,C,E,B,C,E n2使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的, 对候选项C3,我们可以删除其子集为非频繁的选项: qA,B,C的2项子集是A,B,A,C,B,C,其中A,B不是L2的元素, 所以删除这个选项; qA,C,E的2项子集是
31、A,C,A,E,C,E,其中A,E 不是L2的元素, 所以删除这个选项; qB,C,E的2项子集是B,C,B,E,C,E,它的所有2项子集都是 L2的元素,因此保留这个选项。 n3这样,剪枝后得到C3=B,C,E 数据挖掘考试复习大纲 多层关联一致支持度 VS. 递减支持度 n一致支持度:对所有层都使 用一致的最小支持度 q优点:搜索时容易采用优化 策略,即一个项如果不满足 最小支持度,它的所有子项 都可以不用搜索 q缺点:最小支持度值设置困 难 n太高:将丢掉出现在较低抽 象层中有意义的关联规则 n太低:会在较高层产生太多 的无兴趣的规则 n递减支持度:在较低层使用 递减的最小支持度 q抽象
32、层越低,对应的最小支 持度越小 Computer support=10% Laptop support=6% Desktop support=4% min_sup = 5% min_sup = 5%min_sup = 3% 数据挖掘考试复习大纲 多层关联搜索策略 n具有递减支持度的多层关联规则的搜索策略 q逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于 剪枝 q层交叉单项过滤:一个第i层的项被考察,当且仅当它在第 (i-1)层的父节点是频繁的(图6-14) q层交叉k项集过滤:一个第i层的k项集被考察,当且仅当它在 第(i-1)层的对应父节点k-项集是频繁的(图6-15) n搜索策略比较
33、 q逐层独立策略条件松,可能导致底层考察大量非频繁项 q层交叉k项集过滤策略限制太强,仅允许考察频繁k-项集的子 女 q层交叉单项过滤策略是上述两者的折中,但仍可能丢失低层 频繁项(图6-14) 数据挖掘考试复习大纲 关联规则的兴趣度度量 n客观度量 q两个流行的度量指标 n支持度 n置信度 n主观度量 q最终,只有用户才能确定一个规则是否有趣的,而且这种判 断是主观的,因不同的用户而异;通常认为一个规则(模式) 是有趣的,如果: n它是出人意料的 n可行动的(用户可以使用该规则做某些事情) n挖掘了关联规则后,哪些规则是用户感兴趣的?强关 联规则是否就是有趣的? 数据挖掘考试复习大纲 第七章
34、、分类和预测 数据挖掘考试复习大纲 分类 VS. 预测 n分类: q预测分类标号(或离散值) q根据训练数据集和类标号属性,构建模型来分类现有数据, 并用来分类新数据 n预测: q建立连续函数值模型,比如预测空缺值 n典型应用 q信誉证实 q目标市场 q医疗诊断 q性能预测 数据挖掘考试复习大纲 数据分类一个两步过程 n第一步,建立一个模型,描述预定数据类集和概念集 q假定每个元组属于一个预定义的类,由一个类标号属性确定 q基本概念 n训练数据集训练数据集:由为建立模型而被分析的数据元组形成 n训练样本训练样本:训练数据集中的单个样本(元组) q学习模型可以用分类规则、判定树或数学公式的形式提
35、供 n第二步,使用模型,对将来的或未知的对象进行分类 q首先评估模型的预测准确率 n对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 n模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 n测试集要独立于训练样本集,否则会出现“过分适应数据”的情况 数据挖掘考试复习大纲 有指导的学习 VS. 无指导的学习 n有指导的学习(用于分类) q模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行 q新数据使用训练数据集中得到的规则进行分类 n无指导的学习(用于聚类) q每个训练样本的类编号是未知的,要学习的类集合 或数量也可能是事先未知的 q通过一系列的度量、观察来建立数据中
36、的类编号或 进行聚类 数据挖掘考试复习大纲 比较分类方法 n使用下列标准比较分类和预测方法 q预测的准确率:模型正确预测新数据的类编号的能 力 q速度:产生和使用模型的计算花销 q健壮性:给定噪声数据或有空缺值的数据,模型正 确预测的能力 q可伸缩性:对大量数据,有效的构建模型的能力可伸缩性:对大量数据,有效的构建模型的能力 q可解释性:学习模型提供的理解和洞察的层次 数据挖掘考试复习大纲 用判定树归纳分类 n什么是判定树? q类似于流程图的树结构 q每个内部节点表示在一个属性上的测试 q每个分枝代表一个测试输出 q每个树叶节点代表类或类分布 n判定树的生成由两个阶段组成 q判定树构建 n开始
37、时,所有的训练样本都在根节点 n递归的通过选定的属性,来划分样本 (必须是离散值) q树剪枝 n许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检 测和剪去这种分枝 n判定树的使用:对未知样本进行分类 q通过将样本的属性值与判定树相比较 数据挖掘考试复习大纲 贝叶斯分类 n贝叶斯分类利用统计学中的 贝叶斯定理,来预测类成员 的概率,即给定一个样本, 计算该样本属于一个特定的 类的概率。 n朴素贝叶斯分类:假设每个 属性之间都是相互独立的, 并且每个属性对非类问题产 生的影响都是一样的。 )( )()|( )|( DP hPhDP DhP 数据挖掘考试复习大纲 后向传播分类 n后向传播是一种
38、神经网络学习算法;神经网络是一组 连接的输入/输出单元,每个连接都与一个权相连。在 学习阶段,通过调整神经网络的权,使得能够预测输 入样本的正确标号来学习。 n优点 q预测精度总的来说较高 q健壮性好,训练样本中包含错误时也可正常工作 q输出可能是离散值、连续值或者是离散或量化属性的向量值 q对目标进行分类较快 n缺点 q训练(学习)时间长 q蕴涵在学习的权中的符号含义很难理解 q很难根专业领域知识相整合 数据挖掘考试复习大纲 什么是预测? n预测是构造和使用模型评估无样本类,或评估给定样 本可能具有的属性或值空间。 n预测和分类的异同 n相同点 q两者都需要构建模型 q都用模型来估计未知值 n预测当中主要的估计方法是回归分析 q线性回归和多元回归 q非线性回归 n不同点 q分类法主要是用来预测类标号(分类属性值) q预测法主要是用来估计连续值(量化属性值) 数据挖掘考试复习大纲 第八章、聚类分析 数据挖掘考试复习大纲 什么是聚类分析? n聚类(簇):数据对象的集合 q在同一个聚类(簇)中的对象彼此相似 q不同簇中的对象则相异 n聚类分析 q将物理或抽象对象的集合分组成为由类似的对象组成的多个 类的过程 n聚类是一种无指导的学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB23-T2945-2021-相变沥青混合料路面设计与施工技术规范-黑龙江省
- DB23-T2878-2021-过伐林红松大径材单株抚育技术-黑龙江省
- DB23-T2842-2021-政务信息资源数据交换规范-黑龙江省
- 基层医院采购管理制度
- 工具集中采购管理制度
- 工程公司工地管理制度
- 商场收银收款管理制度
- 创业培训教师管理制度
- 创业期间公司管理制度
- 外贸汽车采购方案(3篇)
- 医疗机构制剂品种保密申报
- 【试卷】-《新能源汽车整车控制系统检修》课程考试试卷(闭卷)A卷
- 整本书阅读教学设计《田螺姑娘》
- 高速公路服务区发展调研报告
- 重大隐患判定标准培训课件
- 桥梁健康监测方案
- 华为公司知识管理
- 羽毛球培训项目实施方案
- 外观件批准报告AAR
- 福建省2022年6月普通高中学业水平合格性考试生物试卷(含答案)
- 幼儿园中班创意美术《甜甜圈》课件
评论
0/150
提交评论