数据挖掘复习题_第1页
数据挖掘复习题_第2页
数据挖掘复习题_第3页
数据挖掘复习题_第4页
数据挖掘复习题_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档 1欢迎下载 第一章 1 数据挖掘的定义 从大量的 不完全的 有噪声的 模糊的 随机的数据中 提取隐含在其中的 人们事先不知道的 但又 是潜在有用的信息和知识的过程 2 数据挖掘的源是否必须是数据仓库的数据 可以有哪些来源 关系数据库 数据仓库 事务数据库 高级数据 3 数据挖掘的常用方法 聚类分析 决策树 人工神经网络 粗糙集 关联规则挖掘 统计分析 4 数据挖掘的过程包括哪些步骤 每一步具体包括哪些内容 5 数据挖掘与数据仓库的关系 联系和区别 联系 数据仓库为数据挖掘提供了更好的 更广泛的数据源 数据仓库为数据挖掘提供了新的支持平台 数据仓库为更好地使用数据挖掘工具提供了方便 数据挖掘为数据仓库提供了更好的决策支持 数据挖掘对数据仓库的数据组织提出了更高的要求 数据挖掘为数据仓库提供了广泛的技术支持 区别 数据仓库是存数据 数据挖掘是用数据 第二章 1 数据仓库的定义 数据仓库是一个面向主题的 集成的 随时间而变化的 不容易丢失的数据集合 支持管理部门的决策制 定过程 2 数据仓库数据的四大基本特征 面向主题的 集成的 不可更新的 随时间变化的 3 数据仓库体系结构有 3 个独立的数据层次 精品文档 2欢迎下载 信息获取层 信息存储层 信息传递层 4 粒度的定义 它对数据仓库有什么影响 1 是指数据仓库的数据单位中保存数据细化或综合程度的级别 粒度越小 细节程度越高 综合程度 越低 回答查询的种类就越多 2 影响存放在数据仓库中的数据量大小 影响数据仓库所能回答查询问题的细节程度 5 在数据仓库中 数据按照粒度从小到大可分为死哥级别 早期细节级 当前细节级 轻度细节级和高度细节级 6 数据分割的标准 可按日期 地域 业务领域 或按多个分割标准的组合 但一般包括日期项 7 数据仓库设计中 一般存在着三级数据模型 概念数据模型 逻辑数据模型 物理数据模型 8 数据仓库涉及步骤 概念模型设计 技术准备工作 逻辑模型设计 物理模型设计 数据仓库的生成 数据仓库的使用和 维护 9 数据装入时 并不是一次就将准备装入的数据全部装入数据仓库 而是按照逻辑模型设计中所确定和分 析的主题域 先装入并生成某一主题域 10 建立数据仓库的步骤并不是一成不变的 但最终应该满足用户的分析需求 第三章 1 联机事务处理与联机分析处理的区别 联机事务处理 On Line Transaction Processing OLTP 作为数据管理手段 主要用于事务处理 但它 对分析处理一直不能令人满意 联机分析处理 On Line Analytical Processing OLAP 是决策支持系统的有机组成部分 利用存储在 数据仓库中的数据完成各种分析操作 并以直观易懂的形式将分析结果返回给决策分析人员 2 OLAP 的主要特征 快速性 可分析性 多维性 信息性 3 钻取 Drill Roll up Drill down 改变维的层次 变换分析的粒度 分向上钻取和向下钻取 向上钻取 在某一维上将低层次的细节数据概括到高层次的汇总数据 或者减少维数 向下钻取 从汇总数据深入到细节数据进行观察或增加新维 4 ROLAP 是基于关系数据库的 OLAP 实现 而 MOLAP 是基于多为数据结构组织的 OLAP 实现 5 OLAP 根据其数据存储格式可分为三类 关系 OLAP 多维 OLAP 混合 OLAP 6 雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余 的数据 7 OLAP 的衡量标准 1 透明性准则 OLAP 在体系结构中的位置和数据源对用户是透明的 2 动态的稀疏矩阵处理准则 对任意给定的稀疏矩阵 存在且仅存在一个最优的物理视图 3 维的等同性准则 每一数据维在数据结构和操作能力上都是等同的 精品文档 3欢迎下载 第四章 1 数据预处理的方法 数据清洗 数据集成 数据变换 数据归约等 2 分箱方法 统一权重 统一区间 最小熵 用户自定义区间 3 数据平滑处理方法 按平均值 按边界值 按中值 4 数据规范化的定义 规范化的常用方法有哪些 1 将数据按比例缩放 使之落入一个特定的区域 如 0 1 称为规范化 标准化 2 常用方法 最小 最大规范化 零 均值规范化 小数定标规范化 5 数据规约 从大数据集中得到其归约的表示 小数据集 归约的目的是减少原始数据量 可以再小数据集上得到与原始数据相同的挖掘结果 第五章 1 关联规则挖掘的任务 找到事务数据库 D 中支持度和置信度分别满足用户指定的最小支持度 min sup 和最小置信度 min con 的规 则 2 关联规则挖掘问题分哪两个步骤 找出 D 中所有的频繁项集 从频繁项集中产生关联规则 3 Apriori 性质 频繁项集的所有非空子集也都必须是频繁的 这是频繁项集的先验知识 可以减少候选频繁项集的数量 4 负边界 负边界中的项集是非频繁的 但每个项集的所有子集都是频繁的 第六章 1 决策树的基本概念 适用于离散值属性 连续值属性 采用自顶向下的递归方式产生一个类似于流程图的树结构 再根节点和 内部节点上选择合适的描述属性 并且根据该属性的不同取值向下建立分枝 2 决策树的优点 进行分类器设计时 决策时分类方法所需时间相对较少 决策树的分类模型是树状结构 简单直观 比较 符合人类的理解方式 可以将决策树中到达每个叶节点的路径转换为 IF THEN 形式的分类规则 这种形式 更有利于理解 3 决策树剪枝 决策树剪枝过程试图检测和去掉多余的分支 以提高未知类标号的数据进行分类时的准确性 精品文档 4欢迎下载 第八章 1 神经网络之所以能够胜任一些复杂的工作 是因为它有学习的能力 2 具有较好的泛化能力是神经网络设计的评价指标之一 3 BP 神经网络的拓扑结构分为多个层次 输入层 隐含层 输出层 4 神经网络进行学习实际上就是学习其连接的权值 5 BP 神经网络学习过程由信号的正向传播与误差的返乡传播两个过程组成 6 在线训练 每处理一个训练实例 就更新一次权重 7 离线训练 把所有训练实例都处理一遍之后 再更新权重 8 利用梯度下降法更新权重易于陷入局部极小值 从而无法得到最优解 9 BP 神经网络的优点和缺点 1 BP 神经网络的优点 抗噪性能好 既能处理连续数据 也能处理类别型数据 在多个领域有成功应用 既适合有监督学习 也适合无监督学习 具有较好的泛化能力 具有较好的逼近非线性映射的能力 具有较好的容错性 2 BP 神经网络的缺点 缺乏可解释性 可能无法找到最优解 可能存在过学习问题 第九章 1 聚类分析定义 把一个给定的数据对象集合分成不同的簇 在同一簇 或类 中 对象之间具有较高的相似性 不同簇 或类 的对象之间具有较高的相异性 2 聚类分析方法通常分为哪些方法 基于划分的聚类方法 基于层次的聚类方法 基于密度的聚类方法 基于网格的聚类方法 谱聚类方法 3 数据挖掘技术对聚类分析的要求有哪几个方面 1 可伸缩性 适用于增长的大数据集 2 处理不同类型属性的能力 支持多种类型属性的数据集 3 发现任意形状聚类的能力 除了球星聚类外 能划分出任意形状聚类 4 减小对先验知识和用户自定义参数的依赖性 5 处理噪声数据的能力 对孤立点 缺失值 错误数据等噪声数据的抗干扰性 6 可解释性和实用性 降维 可视化显示 4 K 平均方法与 k 中心点方法比较 1 当存在噪声和离群点时 k 中心点方法比 k 均值方法更加鲁棒 2 k 中心点方法的执行代价比 k 平均方法要高 精品文档 5欢迎下载 3 两种方法都要用户指定簇的数目 k 5 聚类分析中最常用的距离有欧几里的距离 曼哈坦距离 明可夫斯基距离等 6 基于划分的聚类算法有 k 中心点方法和 k 平均方法等 单选题举例 1 决策树中不包含以下哪种结点 C 根节点 B 内部节点 C 外部节点 D 叶结点 2 某超市研究销售记录数据后发现 买啤酒的人很大概率也会购买尿布 这种属于数据挖掘的哪类问题 A A 关联规则发现 B 聚类 C 分类 D 自然语言处理 3 将原始数据进行集成 变换 维度规约 数值规约是在以下哪个步骤的任务 C A 频繁模式挖掘 B 分类和预测 C 数据预处理 D 数据流挖掘 4 当不知道数据所带标签 类别 时 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相 分离 B A 分类 B 聚类 C 关联分析 D 决策树分析 5 什么是 KDD A A 数据挖掘与知识发现 B 领域知识发现 C 文档知识发现 D 动态知识发现 判断题举例 1 数据挖掘的主要任务是从数据中发现潜在的规则 从而能更好的完成描述数据 预测数据等任务 2 数据挖掘的目标不在数据采集策略 而在于对于已经存在的数据进行模式的发掘 3 离群点可以是合法的数据对象或者值 4 DSS 主要是基于数据仓库 联机数据分析和数据挖掘技术的应用 5 OLAP 技术侧重于把数据库中的数据进行分析 转换成辅助决策信息 是维数据库技术发展之后迅猛发 展起来的一种新技术 6 离散属性总是具有有限个值 7 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则 8 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数 9 先验原理可以表述为 如果一个项集是频繁的 那包含它的所有项集也是频繁的 10 分类和回归都可用于预测 分类的输出是离散的类别值 而回归的输出是连续数值 11 在聚类分析当中 簇内的相似性越大 簇间的差别越大 聚类的效果就越差 12

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论