数据挖掘期末复习_第1页
数据挖掘期末复习_第2页
数据挖掘期末复习_第3页
数据挖掘期末复习_第4页
数据挖掘期末复习_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 什么是数据挖掘(Data Mining)?请举例。 HYPERLINK l _bookmark1 22 简述知识发现(KDD)过程。 HYPERLINK l _bookmark2 23 简述数据挖掘的功能。(PPT 引言 1.4) HYPERLINK l _bookmark3 24 为什么要进行数据预处理?(PPT2,1) HYPERLINK l _bookmark4 35 怎样平滑噪声数据(ppt2.3.2) HYPERLINK l _bookmark5 3 HYPERLINK l _bookmark6 HYPERLINK l _bookmark7 HYPERLINK l _bookma

2、rk8 HYPERLINK l _bookmark9 HYPERLINK l _bookmark10 HYPERLINK l _bookmark11 12 简述数据仓库建模的基本模式。(3 种,可图示) PPT 数据仓库 P4049 HYPERLINK l _bookmark12 6 HYPERLINK l _bookmark13 HYPERLINK l _bookmark14 HYPERLINK l _bookmark15 HYPERLINK l _bookmark16 HYPERLINK l _bookmark17 AprioriFPGrowth HYPERLINK l _bookmark

3、18 11 HYPERLINK l _bookmark19 19 阐述神经网络分类的主要原理。(三层结构,后向传播) HYPERLINK l _bookmark20 14 HYPERLINK l _bookmark21 HYPERLINK l _bookmark22 HYPERLINK l _bookmark23 HYPERLINK l _bookmark24 HYPERLINK l _bookmark25 HYPERLINK l _bookmark26 26 简述基于密度的聚类方法,例如DBSCAN。 HYPERLINK l _bookmark27 16 数据挖掘:是从大量数据中提取或 挖掘

4、知识, 也就是从存放在数据库 ,数据仓库或其他信息库中的数据挖掘有趣知识的过程. 数据挖掘是可以从数据库中提取有趣的知识规律或高层信息发现的知识,可以用于决策,过程控制,信息管理, 查询处理. 它不是一种从数据库,统计学和机器学习发展的技术的简单转化,它涉及多学科技术的集成,包括数据库技术,统计学,机器学习, 高性能计算模式识别,神经网络,数据可视化,信息 检索, 图象与信号处理和空间数据分析 . 随着数据库技术发展,数据的丰富带来了对强有 力的数据分析工具的需求, 大量的数据被描述为数据丰富,但信息贫乏,所以数据挖掘出 来了.意义:需求:数据丰富,但知识贫乏。技术:数据库技术的演化随着全球信

5、息化的发展,自动数据采集工具和成熟的数据库技术导致海洋数据存储在 要的,所以数据挖掘引起了信息产业的极大关注。涉及领域广(企业管理、产品控制、 市场分析、工程设计和科学研究等)。 Where. How. What.意义2 简述知识发现( KDD)过程。当把数据挖掘看作知识发现过程时,它涉及的步骤为: 数据清理:消除噪声或不一致数据 数据集成:多种数据源可以组合在一起 数据选择:从数据库中检索与分析任务相关的数据 数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作 数据挖掘:基本步骤,使用智能方法提取数据模式 模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式 知识表示:使用

6、可视化和知识表示技术,向用户提供挖掘的知识(网上) 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任 务在当前数据上进行推断,以进行预测。数据挖掘通过预测未来趋势及行为,做出前摄的、 动预测趋势和行为 对指定事件最可能作出反应的群体。5.2 关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间 存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目 确定的,因此关联分析生成的规则带有可信度。5.3 聚类 象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。5.4 概念描述 生成一个类的特征

7、性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多, 如决策树方法、遗传算法等。5.5 偏差检测 值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。4 为什么要进行数据预处理?( PPT2,1)1)不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。2)含噪声的包含错误或存在偏离期望的离群值。3)不一致的采用的编码或表示不同,如属性名称不同4)冗余的如属性之间可以相互导出5)数据错误的不可避免性与危害6)数据预处理的形式(1)数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解 决不一致(2)数据集成集成多个数据库、数据立方或文件(3)数据变换规

8、范化和聚集(4) 数据归约简化数据、但产生同样或相似的结果ppt 分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。 划分:等频、等宽光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据) 回归:用一个函数(回归函数)拟合数据来光滑数据。可分为:线性回归、多元线性回归 聚类:将类似的值聚集为簇。检测离群点 其他:如数据归约、离散化和概念分层。(1) 忽略元组: 当缺少类标号时通常这样做 (假定挖掘任务涉及分类)。除非元组有多个属 (2)人工填写缺失值:一般,该方法很费时,并且当数据集很大,缺少很多值时,该方法 (3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常

9、数(如“Unknown”或- ) 替换。如果缺失值都用“Unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概 为它们都具有相同的值“Unknown”。因此,尽管该方法简单,但是它并不十分可靠。(4)使用属性的均值填充缺失值:例如,假定 AllElectronics 顾客的平均收入为 56 000 k 的平均收入替换 income 中的缺失值。(6)使用最可能的值填充缺失值:可以用回归、使用贝叶斯形式化的基于推理的工具或决 直方图(概括给定属性分布的图形方法、每个矩形等宽) 分位数图、分位数-分位数图(q-q 图)观察单变量数据分布的简单有效方法 散布图、散布图矩阵(直接观察是否存在

10、簇(cluster),离群点等、每个点对应一个坐标 局部回归(Loess)曲线(添加一条光滑曲线到散布图) 直观明了地识别数据集中的离群点 判断数据集的偏态和尾重 比较几批数据的形状1)最小-最大规范化:将原始数据 v 经线性变换,映射到区间new_minA, new_maxAv = A (new _ max 一 new _ min ) + new _ minmaxminAA AA A例如:income 的最大,最小值分别为 9000,2000,则将它的值映射到0,1时,若 income在原数 据的区间minA, maxA之外,将导致“越界”错误。 2) z-score 规范化(零均值规范化)

11、:属性 A 的值基于 A 的平均值和标准差规范化。v 一 v = AA缺点:对离群点不敏感price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34划分为(等深的)箱:用箱平均值平滑:用箱边界值平滑:(以下内容来的百度)用边界值平滑时,先确定两个边界,然后依次计算除边界值外的其它值与两个边界的距离,与之距离最小的边界确定为平滑边界值。具体如下计算:-箱 1:| 8-4 |4;| 15-8 |7;故选 4 做为平滑边界值。 | 9-4 |5;| 15-9 |6;故选 4 做为平滑边界值。-箱 2:| 21-21 |0;| 25-21

12、 |4;故选 21 做为平滑边界值。 | 24-21 |3;| 25-24 |1;故选 25 做为平滑边界值。-箱 3:| 28-26 |2;| 34-28 |6;故选 26 做为平滑边界值。 | 29-26 |3;| 34-29 |5;故选 26 做为平滑边界值。11 什么是数据仓库?或数据仓库的 4 特 过程” 星型模型: 模式图很像星星爆发,维表围绕事实表显示在射线上 雪花模型: 雪花模式是星型模式的变种,其中某些维表是规范化的,把数据进一步分解 到 附 加 的 表 中 , 形 成 类 似 于 雪 花 的 形 状 星网模型: 多个事实表共享维表,这种模式可以看作星型模式集,因此也可以称为

13、星 系模式,或者事实星座 闭(频繁)项集:若不存在真超项集 Y (Y X ),使得 Y 与 X 在数据集 S 中有相同的支 极大(频繁)项集:如果 X 是频繁的,并且不存在频繁的超项集 Y 使得 Y X ,称 X14 Apriori 算法基本步骤。能够根据所给数 扫描数据库,累积每个项的支持度计数,生成频繁 1 项集集合 L1; 扫描数据库,由 L1 构造、搜索频繁 2 项集 L2; 同理,生成 L3,直到不能生成频繁 k 项集。 Apriori 性质:频繁项集的所有非空子集也必须是频繁的。 i.e., 如果 AB 是频繁项集, A 和 B 都应该是频繁项集反单调性:如果一个集合不能通过测试,

14、则它的所有超集也都不能通过相同的测试。扫描数据库一次,找到频繁 1 项集对频繁项集降序排序步骤(一):步骤: insert_tree(p|P,T). insert_tree(P,N).步骤(二):步骤:procedureFPGrowth Tree, x) 完全: 1 不会破坏任何事务的长模式; 2 为频繁模式挖掘保持完整的信息Apriori 算法时间消耗的主要症结反映在两个方面,一是由于对海量数据库的多趟电子 JOIN 以及可能需要 重复扫描数据库,是 Apriori 算法的两大缺点 机能研究显示 FP-growth 比 Apriori 快一个数目级,这是由于 FP-growth 不生成候 选

15、集,不用候选集实验,而且施用收缩的数据布局,避免反复数据库电子扫描FP-growth 算法的应用范围最广 ,它把事务数据库压缩 . 到一个 FP-树进行处理 , 相对 Apriori 算法来说,最大的优点是不需要产生候选频繁项集且只需要两次扫描数据库。但是它 以代表训练样本的单个节点开始建树(创建 N 节点)。如果样本都在同一个类,则该节点成为树叶,并用该类标记。 对测试属性的每个已知的值,创建一个分支,并据此划分样本。上,就不必考虑该节点的任何后代。递归划分步骤,当下列条件之一成立时停止:给定节点的所有样本属于同一类。 转换成树叶,并用样本中的多数所在的类别标记它。分支(测试属性的分枝)没有

16、样本。在这种情况下,以样本中的多数创建一个树叶。 ID3 算法的核心是:在决策树各级结点上选择属性时,用信息增益(information gain)作为属性的选择标准,以使得在每一个非叶结点进行测试时,能获得关于 结点的分支,直到所有子集仅包含同一类别的数据为 inAIsssmEAD 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的 。 1) 预排序。对于连续属性在每个内部结点寻找其最优分裂标准时,都需要对训 序。 属于哪个孩子结点,若内存能够容纳下整个哈希 1 2)如何停止(停止条件) 神经元是神经网络中基本的信息处理单元,他由下列部分组成:1 一 组 突 触 和 联

17、 结 , 联 结 具 有 权 值 2 通过加法器功能,将计算输入的权值之和u = wjxj3 激励函数限制神经元输出的幅度 节点,经过非线形变换,产生输出信号Yk,网络训练的每个样本包括输入向量 X 和期望输 t网络输出值 Y 与期望输出值 t 之间的偏差,通过调整输入节点与隐层节点的联接强 度取值 Wij和隐层节点与输出节点之间的联接强度 Tjk 以及阈值,使误差沿梯度方向下降, 经过反复学习训练,确定与最小误差相对应的网络参数(权值和阈值),训练即告停止。此 (百度百科)如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一 个类别,则该样本也属于这个类别。

18、急性子(急切学习法)决策树、贝叶斯、神经网络给定训练元组,立刻建立模型,学习分类慢性子(惰性学习法)给定训练元组,知道看到检验元组时才分类,比如 k-最近邻分类,基于案例的推理聚类分析:将数据对象的集合分成由相似对象组成的多个类聚类分析中要划分的类是未知的 象的集合分组成为由类似的对象组成的多个类的分 域,包括数学,计算机科学,统计学,生物学和经济 。层次聚类: 按某种标准将给定数据对象集合进行层次的分解。将嵌套定义的簇集组成一棵层次形式的树 凝聚的把每个点都作为一个簇,开始聚类每一步合并两个最近的簇,直到只剩下一个簇 分裂的所有的点看做一个簇每一步,分裂一个簇,直到每个点都是一个簇 给定 k

19、 : 任意选择 k 个点作为初始的质心 repeat 将每个点指派到最近(相似)的簇集 重新计算每个簇的均值,即更新质心 until 不再发生变化. 简单、有效 可用于各种数据类型 (但并非适合所有数据类型) 对含离群点的数据聚类时也有问题 AGNES (凝聚的层次聚类)Kaufmann and Rousseeuw (1990)将具有最少相异性的点合并将这些簇合并成越来越大的簇直到所有终结条件被满足 DIANA (分裂的层次聚类)Kaufmann and Rousseeuw (1990)与 AGNES 刚好相反直到每个对象自成一簇 基本层次凝聚聚类计算相似度矩阵(或邻近矩阵)一个簇合并最近的两个簇更新相似度矩阵Until 仅剩下一个簇关键操作: 计算两个簇间的相似度有多种方法度量距离或者相似度DBSCAN: 算法随机的选择点 p寻找所有从点 p 关于 Eps and MinPts

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论