2024年商业经济行业技能考试-数据挖掘工程师历年高频考点试卷专家荟萃含答案_第1页
2024年商业经济行业技能考试-数据挖掘工程师历年高频考点试卷专家荟萃含答案_第2页
2024年商业经济行业技能考试-数据挖掘工程师历年高频考点试卷专家荟萃含答案_第3页
2024年商业经济行业技能考试-数据挖掘工程师历年高频考点试卷专家荟萃含答案_第4页
2024年商业经济行业技能考试-数据挖掘工程师历年高频考点试卷专家荟萃含答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024年商业经济行业技能考试-数据挖掘工程师历年高频考点试卷专家荟萃含答案(图片大小可自由调整)第1卷一.参考题库(共25题)1.以下哪个聚类算法不属于基于网格的聚类算法()。A、STINGB、WaveClusterC、MAFIAD、BIRCH2.何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。3.列举操作型数据与分析型数据的主要区别。4.分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?5.如果规则集中的规则按照优先级降序排列,则称规则集是()。A、无序规则B、穷举规则C、互斥规则D、有序规则6.下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是()。A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇C、JP聚类是基于SNN相似度的概念D、JP聚类的基本时间复杂度为O(m)7.何谓数据仓库?为什么要建立数据仓库?8.决策树9.简述基于划分的聚类方法。划分的准则是什么?10.考虑如下的频繁3-项集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。 (a)根据Apriori算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。 (b)写出经过剪枝后的所有候选4-项集。11.为什么要建立数据仓库?12.关于OLAP的特性,下面正确的是:()。 (1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)13.以下哪个指标不是表示对象间的相似度和相异度?()A、Euclidean距离B、Manhattan距离C、Eula距离D、Minkowski距离14.以下哪项关于决策树的说法是错误的?()A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题15.ROLAP16.数据清理的目的是什么?17.在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为()。A、基于类的排序方案B、基于规则的排序方案C、基于度量的排序方案D、基于规格的排序方案18.OLAP服务器的类型主要包括:()、()和()19.分类的定义是什么?20.下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作?()A、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot)21.下面哪种分类方法是属于神经网络学习算法?()A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理22.定量属性可以是整数值或者是连续值。23.已知数据元组中age的值如下(按递增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a)使用min-max规范化,将age值35转换到[0.0,1.0]区间。 (b)使用z-score规范化转换age值35,其中,age的标准偏差为12.94年。 (c)使用小数定标规范化转换age值35。24.简述数据仓库的组成。25.什么是数据仓库的数据ETL过程?第2卷一.参考题库(共25题)1.特征搜索过程中不可缺少的环节就是()。2.简述Apriori算法的思想,谈谈该算法的应用领域。3.调和数据是存储在()数据仓库和操作型数据存储中的数据。4.当维表中的主键在事实表中没有与外键关联时,这样的维称为()。它于事实表并无关系,但有时在查询限制条件中需要用到。5.频繁项集6.Apriori算法的计算复杂度受()影响。A、支持度阀值B、项数(维度)C、事务数D、事务平均宽度7.常用的数值属性概念分层的方法有哪些?8.考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为()。A、0.75B、0.35C、0.4678D、0.57389.下面不属于创建新属性的相关方法的是:()。A、特征提取B、特征修改C、映射数据到新的空间D、特征构造10.比较统计学与数据挖掘的异同?11.在图集合中发现一组公共子结构,这样的任务称为()。A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘12.数据挖掘定义是什么?13.简述决策树的构建。14.如果叶贝斯网络的各个结点都没有任何证据,从历史数据中如何用两种不同的方法得到各个结点的发生概率?15.根据特征选择过程与后续数据挖掘任务的关联可分为三种方法:()。根据是否用到类信息的指导,分为(),()和()特征选择,16.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。17.什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。为每类方法给出例子。18.从结构的角度看,数据仓库模型包括以下几类?()A、企业仓库B、数据集市C、虚拟仓库D、信息仓库19.列举离群点挖掘的常见应用。20.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()。A、18.3B、22.6C、26.8D、27.921.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A、4B、5C、6D、722.聚类分析中常见的数据类型有哪些?23.雪花型模式是对()维表的进一步层次化和规范化来消除冗余的数据。24.()都属于分裂的层次聚类算法。A、二分K均值B、MSTC、ChameleonD、组平均25.一个数据仓库系统的建立通畅需要经过哪些步骤?第3卷一.参考题库(共25题)1.一个数据库有5个事务,如表所示。设min_sup=60%,min_conf=80%。 (a)分别用Apriori算法和FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。 (b)比较穷举法和Apriori算法生成的候选项集的数量。 (c)利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。2.分类的过程包括获取数据、预处理、分类器设计和()3.OLTP4.考虑下表数据集,请完成以下问题: (1)估计条件概率。 (2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号; (3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率。 (4)同(2),使用(3)中的条件概率。 (5)比较估计概率的两种方法,哪一种更好,为什么?5.下面属于定量的属性类型是:()。A、标称B、序数C、区间D、相异6.下面的散点图显示哪种属性相关性?() A、不相关;B、正相关;C、负相关;D、先正相关然后负相关7.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8.非频繁模式()。A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感9.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。10.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则11.何谓聚类?它与分类有什么异同?12.数据规范化13.分类器设计阶段包含三个过程:划分数据集、分类器构造和()14.商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。15.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。16.“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个()的速度交换数据和业务规则。17.离散属性总是具有有限个值。18.如何提高Apriori算法的有效性?有哪些常见方法?19.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。20.下面选项中t不是s的子序列的是()。A、s=,t=B、s=,t=C、s=,t=D、s=,t=21.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。22.在评价不平衡类问题分类的度量方法有如下几种,()。A、F1度量B、召回率(recall)C、精度(precision)D、真正率(turepositiverate,TPR)23.存放最低层汇总的方体称为()。A、顶点方体B、方体的格C、基本方体D、维24.何谓数据挖掘?它有哪些方面的功能?25.什么是关联规则?关联规则的应用有哪些?第1卷参考答案一.参考题库1.参考答案:D2.参考答案: 将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0.0~1.0),称为规范化。 规范化的常用方法有: (1)最大-最小规范化; (2)零-均值规范化; (3)小数定标规范化。 3.参考答案:4.参考答案: 分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。 分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。5.参考答案:D6.参考答案:D7.参考答案:数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。 建立数据仓库的目的有3个: 一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。 二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。 三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。8.参考答案:是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法,可用于对新样本进行分类。9.参考答案: 基于划分的聚类方法:给顶一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,丙炔k《=n。划分方法要求每个组至少包含一个对象并且每个对象属于且仅数以一个组。聚类目标可以是最优化某种量度,比如最小化数据点与类中心的距离平方和等。 划分准则是同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同。10.参考答案:(a)利用频繁3-项集生成的所有候选4-项集: {1,2,3,4},{1,2,3,5},{1,2,4,5},{1,3,4,5},{2,3,4,5} (b)经过剪枝后的所有候选4-项集: {1,2,3,4},{1,2,3,5}11.参考答案: 建立数据仓库的目的有3个: 一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。 二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。 三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。12.参考答案:D13.参考答案:C14.参考答案:C15.参考答案:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。16.参考答案:试图填充缺失数据,去除噪声并识别离群点,纠正数据中的不一致值。17.参考答案:B18.参考答案:关系OLAP服务器;多维OLAP服务器;混合OLAP服务器19.参考答案:分类是数据挖掘中的主要手段,其任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,把类标号未知的样本映射到某个预先给定的类标号中。20.参考答案:B21.参考答案:C22.参考答案:正确23.参考答案:(a)已知最大值为70,最小值为13,则可将35规范化为: (b)已知均值为30,标准差为12.94,则可将35规范化为: (c)使用小数定标规范化可将35规范化为:35/100=0.3524.参考答案:数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。25.参考答案: 数据的ETL过程就是负责将操作型数据转换成调和数据的过程。数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持EDW的当前有效性和扩展性。 整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。第2卷参考答案一.参考题库1.参考答案:逐步评估2.参考答案: 思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。 在商务、金融、保险等领域皆有应用。3.参考答案:企业级4.参考答案:退化维5.参考答案:指满足最小支持度的项集,是挖掘关联规则的基本条件之一。6.参考答案:A,B,C,D7.参考答案:分箱、直方图分析,聚类分析,基于熵的离散化和通过自然划分分段。8.参考答案:D9.参考答案:B10.参考答案: 统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。 数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。 统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。11.参考答案:B12.参考答案:技术层面上:数据挖掘就是从大量数据提取有用信息的过程; 商业层面上:数据挖掘就是对大量业务数据进行抽取,转换和分析以及建模处理,从中提取辅助商业决策的关键性数据。13.参考答案:1)属性的选择(很重要,一般要最大限度地增大样本集纯度) 2)获得大小适合的决策树 3)使用ID3等经典算法构建决策树14.参考答案:可以用两种方式从历史数据中得到各个节点的发生概率:(1)用各节点的发生次数除以总的数据条数,就是各个节点的发生概率。(2)首先,用第一种方法计算原因节点的发生概率,然后计算原因节点到中间节点或结果节点的条件概率,最后根据原因节点的概率和这些条件概率计算结果节点的概率。15.参考答案:过滤,封装和嵌入;监督式;无监督式;半监督式16.参考答案:错误17.参考答案:聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。主要有以下几种类型方法: (1)划分方法 给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。 使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。 (2)层次方法 这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。 代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。 (3)基于密度的方法 基于密度的方法与其它方法的一个根本*区别是:它不是基于各种各样的距离,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是:只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。 代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。 (4)基于模型的方法 基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在假定就是:目标数据集是由一系列的概率分布所决定的。 基于模型的方法主要有两类:统计学方法和神经网络方法(SOM)。18.参考答案:A,B,C19.参考答案: 1,欺诈检测; 2,网络入侵; 3,故障诊断; 4,可疑金融交易监控20.参考答案:A21.参考答案:C22.参考答案:常见数据类型有区间标度变量、比例标度型变量、二元变量、标称型、序数型以及混合类型等。23.参考答案:星型模式24.参考答案:A,B25.参考答案: (1)收集和分析业务需求; (2)建立数据模型和数据仓库的物理设计; (3)定义数据源; (4)选择数据仓库技术和平台; (5)从操作型数据库中抽取、清洗及转换数据到数据仓库; (6)选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件; (7)更新数据仓库。第3卷参考答案一.参考题库1.参考答案:(a)频繁1-项集:M,O,K,E,Y 频繁2-项集:{M,K},{O,K},{O,E},{K,Y},{K,E} 频繁3-项集:{O,K,E} (b)穷举法:M=2k-1=211-1=2047 Apriori算法:23 (c){O,K}—>{E},支持度0.6,置信度1 {O,E}—>{k},支持度0.6,置信度12.参考答案:分类决策3.参考答案:OLTP为联机事务处理的缩写,OLAP是联机分析处理的缩写。前者是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论