数据挖掘_复习_第1页
数据挖掘_复习_第2页
数据挖掘_复习_第3页
数据挖掘_复习_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一名词解释1 .数据挖掘:从大型数据库的数据中提取人们感兴趣的知识。决策树:一个类似于流程图的树结构,内部节点表示一个属性(取值)上的测试,其分支 代表每个结果;其每个叶子节点代表一个类别,树的最高节点就是根节点。聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。数据分类:从数据库中发现数据对象的共性,并将数据对象分成不同的几类的一个过程。维:透视或关于一个组织想要记录的实体。多层次关联规则:一个关联规则的内容涉及不同抽象层次的内容。单层次关联规则:一个关联规则的内容涉及单一个层次的内容。局外者:数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。数据仓库:一个面

2、向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决 策制定。数据集市:数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。数据区别:将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。数据特征化:目标类数据的一般特征或特性的汇总。噪声数据:指数据中存在错误、异常(偏离期望值)的数据。不完整数据:感兴趣的属性没有值。不一致数据:数据内涵出现不一致的情况。数据清洗:消除数据中所存在的噪声以及纠正其不一致的错误。数据集成:将来自多个数据源的数据合并到一起构成一个完整的数据集。数据消减:通过删除冗余特征或聚类消除多余数据。数据转换:将一种格式的数据转换为另一种格式的数据。分类

3、:预测分类标号(或离散值),在分类属性中的训练样本集和值(类标号)的基础上分类,数据(建立模型)并使用它分类新数据。簇:是一组数据对象的集合(是由聚类所生成的)。数据源:是表明数据地址的联机字符串数据源视图:是一个抽象层们能够让用户修改查看数据的方式,或者定义一个图表并在 稍后转换实际的源。一个图表题填空:菜单栏、标签页、解决方案资源管理器、属性窗口、错误窗口、设计 窗口、设计标签。(顺时针方向填写)P82二.简答题预测与分类的区别是什么?分类是预测数据对象的离散类别,预测是用于数据对象的连续取值数据分类由哪几步过程组成?第一步,建立一个模型,描述指定的数据类集或概念集;第二步,使用模型进行分

4、类。ID3算法的核心是什么?在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个叶节点 进行测试时能获得关于被测试记录最大的类别信息。为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。朴素贝叶斯分类假定一个属性值对给定类的影响独立于其它属性的值。该假定称作类条 件独立。做此假定是为了简化所需计算,并在此意义下称为“朴素的”。设为一个类别未知的数据样本,H为某个假设,若数据样本X属于一个特定的类别C, 分类问题就是决定P(HIX),即在获得数据样本X时假设成立的概率。神经网络的优点和缺点分别是什么?优点:其对噪音数据的高承受能力,以及它对未经过训练的数据的分

5、类能力。缺点:需要很长的训练时间,因而对于有足够长训练时间的应用更合适。典型的数据挖掘系统主要由哪几部分组成?数据库,数据仓库或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;图形 用户界面OLAP与OLTP的全称分别是什么?它们两者之间的区别是什么?联机事务处理 OLTP (on-line transaction processing);联机分析处理 OLAP (on-line analytical processing);OLTP和OLAP的区别:用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据;数据库设计:O

6、LTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型;视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP系统主要关注汇总的 统一的数据;访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。数据仓库与数据集市的区别是什么?数据仓库收集了关于整个组织的主题信息,因此是企业范围的。对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模;数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。对于数据集 市,流行星型或雪花模式,因为它们都适合对单个主题建模。不完整数

7、据的产生原因有哪些?有些属性的内容有时没有有些数据当时被认为是不必要的由于误解或检测设备失灵导致相关数据没有记录下来与其他记录内容不一致而被删除历史记录或对数据的修改被忽略了。噪声数据的产生原因有哪些?数据采集设备有问题在数据录入过程中发生了人为或计算机错误数据传输过程中发生错误由于命名规则或数据代码不同而引起的不一致。对遗漏数据有哪些处理方法?忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。数据消减的主要策略有哪些?数据立方合计;维数消减;数据压缩;数据块消减;离散化与概念层次生成。数据源对象可以创建几种不同的安全认

8、证选项?4种:使用特定用户名和密码;使用服务账户;使用当前用户的凭据;默认值。数据挖掘对聚类的典型要求有哪些?可伸缩性;处理不同类型属性的能力;发现任意形状的聚类;用于决定输入参数的领域知识 最小化;处理“噪声”数据的能力;对于输入记录的顺序不敏感;高维度;基于约束的聚类。简述下列聚类算法划分方法:给定一个n个对象或元组的数据库,一个划分方法构造数据的k个划分,每个划 分表示一个聚类,并且k n。层次方法:对给定数据对象集合进行层次的分解。基于密度的方法:只要是临近区域的密度超过某个阀值,就继续聚类。基于网格的方法:把对象空间量化为有限数目的单元。基于模型的方法:试图优化给定的数据和某些数学模

9、型之间的适应性。三.计算题假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。使用按箱边界值平滑对以上数据进行平滑,箱的深度为3。例题如下操作:* price 的排序后数据(美元):4, 8, 9, 15, 21, 21, 24, 25, 26, 28,29, 34*划分为(等深的)箱:-箱 1: 4, 8, 9, 15-箱 2: 21, 21, 24, 25

10、-箱 3: 26, 28, 29, 34*用箱平均值平滑:-箱 1: 9, 9, 9, 9-箱 2: 23, 23, 23, 23-箱 3: 29, 29, 29, 29*用箱边界值平滑:-Bin 1: 4, 4, 4, 15-Bin 2: 21, 21, 25, 25-Bin 3: 26, 26, 26, 342.使用以下age数据:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,回答以下问题:使用min-max规范化,将age值35转换到0.0,1.0区间。使用z-sco

11、re规范化转换age值35,其中,age的标准偏差为12.94年。使用小数定标规范化转换age值35。画一个宽度为10的等宽的直方图。例题如下操作:1.大最小规格化:规格化对原始数据进行线性变换。假定min A和max A分别为属性A的最小和最大值,最大最小规格化方法通过计算将A的 值v映射到区间new _minA,new _max A中的v。p - min:H) + Hniax- min H例3.1假定属性income的最小与最大值分别为$12,000和$98,000。我们想映射income (income值为$73,600)到区间0, 1。73,600-12,000?1698,000-12,000零均值规格化:属性A的值基于A的平均值和标准差规范化。A的值v被规范化为v,由下式计算:其中,A和a A分别为属性A的平均值和标准差。当属性A的最大和最小值未知,或局外者左右了最小最大规格化时,该方法是有用的。A例3.=假定属性income的平均值和标准差分别为$54,000和$16,000。使用零均值规格化方法,值$73,600被转换为什么?7X600-54,00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论