2024年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案_第1页
2024年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案_第2页
2024年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案_第3页
2024年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案_第4页
2024年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(图片大小可自由调整)2024年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案第I卷一.参考题库(共100题)1.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。2.下面属于维归约常用的线性代数技术的有()。A、主成分分析B、特征提取C、奇异值分解D、特征加权E、离散化3.一个数据库有5个事务,如表所示。设min_sup=60%,min_conf=80%。 (a)分别用Apriori算法和FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。 (b)比较穷举法和Apriori算法生成的候选项集的数量。 (c)利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。4.列举离群点挖掘的常见应用。5.简述缺失值的处理方法。6.数据仓库在技术上的工作过程是()。A、数据的抽取B、存储和管理C、数据的表现D、数据仓库设计7.列举操作型数据与分析型数据的主要区别。8.数据仓库发展演变的5个阶段是什么?9.以下属于可伸缩聚类算法的是()。A、CUREB、DENCLUEC、CLIQUED、OPOSSUM10.简述数据的定义及类型。11.简述K-中心点算法的输入、输出及聚类过程(流程)。12.离群点可以是合法的数据对象或者值。13.图挖掘技术在社会网络分析中扮演了重要的角色。14.简述基于划分的聚类方法。划分的准则是什么?15.数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化()结构来提高数据存取性能。16.以下哪种聚类方法可以发现任意形状的聚类?()A、划分的方法B、基于模型的方法C、基于密度的方法D、层次的方法17.数据仓库是随着时间变化的,下面的描述不正确的是()A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随事件变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合18.关于OLAP的特性,下面正确的是:()。 (1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)19.为什么要进行维归约?20.数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。21.数据离散度的常用度量包括()22.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。23.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。24.下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作?()A、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot)25.帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。A、关联分析B、分类和预测C、聚类分析D、孤立点分析E、演变分析26.当维表中的主键在事实表中没有与外键关联时,这样的维称为()。它于事实表并无关系,但有时在查询限制条件中需要用到。27.关于数据仓库的设计,四种不同的视图必须考虑,分别是:()、()、()、()28.什么是分类?分类的应用领域有哪些?29.分类器设计阶段包含三个过程:划分数据集、分类器构造和()30.以下哪个指标不是表示对象间的相似度和相异度?()A、Euclidean距离B、Manhattan距离C、Eula距离D、Minkowski距离31.根据特征选择过程与后续数据挖掘任务的关联可分为三种方法:()。根据是否用到类信息的指导,分为(),()和()特征选择,32.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘33.什么是基于像素的可视化技术?它有什么缺点?34.为什么时间总是数据仓库或数据集市的维?35.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术36.简述数据仓库ETL软件的主要功能和对产生数据的目标要求。37.确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计()38.数据集如下表所示: (a)把每一个事务作为一个购物篮,计算项集{e},{b,d}和{b,d,e}的支持度。 (b)利用(a)中结果计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。置信度是一个对称的度量吗? (c)把每一个用户购买的所有商品作为一个购物篮,计算项集{e},{b,d}和{b,d,e}的支持度。 (d)利用(b)中结果计算关联规则{b,d}→{e}和 {e}→{b,d}的置信度。置信度是一个对称的度量吗?39.哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?()A、上卷B、下钻C、切块D、转轴40.怎样从历史数据中训练出结点之间的条件概率或联合条件概率?41.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A、关联规则发现B、聚类C、分类D、自然语言处理42.数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。A、所涉及的算法的复杂性B、所涉及的数据量C、计算结果的表现形式D、是否使用了人工智能技术43.业务元数据主要包含的内容是什么?44.当前的数据挖掘研究中,最主要的三个研究方向是:()、()和()45.数据仓库的()通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。46.下列关于分类和聚类哪个描述是正确的?()A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习47.假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录p、q及两个簇C1、C2的信息如下,分别求出记录和簇彼此之间的距离。(k-means算法的拓展) p={男,广州,18},q={女,深圳,20} C1={男:25,女:5;广州:20,深圳:6,韶关:4;19} C2={男:3,女:12;汕头:12,深圳:1,湛江:2;24}48.下面哪种分类方法是属于神经网络学习算法?()A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理49.什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。为每类方法给出例子。50.简述决策树的构建。51.粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类()52.通过数据挖掘过程所推倒出的关系和摘要经常被称为:()。A、模型B、模式C、模范D、模具53.下列()不是将主观信息加入到模式发现任务中的方法。A、与同一时期其他数据对比B、可视化C、基于模板的方法D、主观兴趣度量54.在判定树归纳中,为什么树剪枝是有用的?55.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。56.下面哪些问题是我们进行数据预处理的原因?()A、数据中的空缺值B、噪声数据C、数据中的不一致性D、数据中的概念分层57.数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:()、当前细节级、轻度综合级和高度综合级。58.()这些数据特性都是对聚类分析具有很强影响的。A、高维性B、规模C、稀疏性D、噪声和离群点59.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为()。A、无序规则B、穷举规则C、互斥规则D、有序规则60.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A、4B、5C、6D、761.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:()、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。62.下列哪个不是专门用于可视化时间空间数据的技术:()。A、等高线图B、饼图C、曲面图D、矢量场图63.非频繁模式()。A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感64.大型数据库中的关联规则挖掘包含两个过程()和()65.简述处理空缺值的方法。66.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、()、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。67.聚类分析中常见的数据类型有哪些?68.朴素贝叶斯分类是基于()假设。69.()通过将属性域划分为区间,从而减少给定连续值的个数。A、概念分层B、离散化C、分箱D、直方图70.ROLAP是基于()的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。71.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。72.什么是关联规则?关联规则的应用有哪些?73.考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是:()。A、31B、24C、55D、374.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。75.简述数据仓库的组成。76.以下哪个聚类算法不属于基于网格的聚类算法()。A、STINGB、WaveClusterC、MAFIAD、BIRCH77.关于OLAP的特性,下面正确的是() (1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)78.什么是聚类分析?聚类分析的应用领域有哪些?79.层次聚类方法包括哪些?80.简述数据挖掘的任务。81.简述k-means算法,层次聚类算法的优缺点。82.置信度(confidence)是衡量兴趣度度量()的指标。A、简洁性B、确定性C、实用性D、新颖性83.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()。A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,584.在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数。A、曼哈顿距离B、平方欧几里德距离C、余弦距离D、Bregman散度85.数据的预处理方法有哪些?86.以下哪些原因可能引起空缺值?()A、设备异常B、命名规则的不一致C、与其他已有数据不一致而被删除D、在输入时,有些数据因为得不到重视而没有被输入87.从结构的角度看,数据仓库模型包括以下几类?()A、企业仓库B、数据集市C、虚拟仓库D、信息仓库88.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。89.给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。90.在聚类分析当中,()等技术可以处理任意形状的簇。A、MIN(单链)B、MAX(全链)C、组平均D、Chameleon91.一个对象的离群点得分是该对象周围密度的逆。这是基于()的离群点定义。A、概率B、邻近度C、密度D、聚类92.以下属于分类器评价或比较尺度的有()。A、预测准确度B、召回率C、模型描述的简洁度D、计算复杂度93.从信息处理角度看,神经元具有哪些基本特征?写出描述神经元状态的M-P方程并说明其含义。94.什么是技术元数据?主要包含的内容是什么?95.以下哪个范围是数据仓库的数据库规模的一个合理范围?()A、1-100MB、100M-10GC、10-1000GD、100GB-数TB96.考虑下表数据集,请完成以下问题: (1)估计条件概率。 (2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号; (3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率。 (4)同(2),使用(3)中的条件概率。 (5)比较估计概率的两种方法,哪一种更好,为什么?97.如果叶贝斯网络的各个结点都没有任何证据,从历史数据中如何用两种不同的方法得到各个结点的发生概率?98.著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:()、()、()和()99.依据类信息可利用的程度,离群点挖掘可分为哪三种基本方法?100.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。第I卷参考答案一.参考题库1.参考答案:错误2.参考答案:A,C3.参考答案:(a)频繁1-项集:M,O,K,E,Y 频繁2-项集:{M,K},{O,K},{O,E},{K,Y},{K,E} 频繁3-项集:{O,K,E} (b)穷举法:M=2k-1=211-1=2047 Apriori算法:23 (c){O,K}—>{E},支持度0.6,置信度1 {O,E}—>{k},支持度0.6,置信度14.参考答案: 1,欺诈检测; 2,网络入侵; 3,故障诊断; 4,可疑金融交易监控5.参考答案:(分析时)忽略元组,(分析时)忽略属性列,(估计缺失值)人工填写缺失数据,(估计缺失值)自动填充缺失数据。6.参考答案:A,B,C,D7.参考答案:8.参考答案:以报表为主; 以分析为主; 以预测模型为主; 以运行向导为主以实时数据仓库; 自动决策应用为主。9.参考答案:A10.参考答案:数据及数据类型:数据是数据库存储的基本对象,数据类型:标称属性,序数属性,区间属性,比率属性。11.参考答案:12.参考答案:正确13.参考答案:正确14.参考答案: 基于划分的聚类方法:给顶一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,丙炔k《=n。划分方法要求每个组至少包含一个对象并且每个对象属于且仅数以一个组。聚类目标可以是最优化某种量度,比如最小化数据点与类中心的距离平方和等。 划分准则是同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同。15.参考答案:索引16.参考答案:C17.参考答案:C18.参考答案:D19.参考答案:维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。20.参考答案:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。21.参考答案:极差、分位数、四分位数、百分位数、四分位数极差和标准差22.参考答案:正确23.参考答案:错误24.参考答案:B25.参考答案:C26.参考答案:退化维27.参考答案:自上向下视图;数据源视图;数据仓库视图;商务查询视图28.参考答案: 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。 分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命。29.参考答案:分类器测试30.参考答案:C31.参考答案:过滤,封装和嵌入;监督式;无监督式;半监督式32.参考答案:C33.参考答案:对于一个M维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点;难以呈现对维空间的数据分布,不显示数据子空间是否存在稠密区域。34.参考答案:因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。35.参考答案:A36.参考答案:ETL软件的主要功能: 数据的抽取,数据的转换,数据的加载; 对产生数据的目标要求: 详细的、历史的、规范化的、可理解的、即时的、质量可控制的。37.参考答案:聚合模型38.参考答案: (c)如果把每一个用户购买所有的所有商品作为一个购物篮,则 (d)利用c中结果计算关联规则{b,d}→{e}和{e}→{b,d}的置信度,则 置信度不是一个对称的度量39.参考答案:A40.参考答案:要训练条件概率P(B|A),可以在历史数据中统计A发生的次数T(A),然后统计在A发生的数据中B发生的次数T(A,B),条件概率P(B|A)=T(B)/T(A)。要训练联合条件概率P(C|A,B),可以在历史数据中统计A、B共同发生的次数T(A,B),然后在A、B共同发生的数据中统计C发生的次数T(A,B,C),联合条件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符号A、B、C可以表示某个事件,也可以表示该事件的相反事件。41.参考答案:A42.参考答案:B43.参考答案:业务元数据:从业务角度描述了DW中的数据,提供了介于使用者和实际系统之间的语义层,主要包括: 1.使用者的业务属于所表达的数据模型、对象名和属性名。 2.访问数据的原则和数据的来源。 3.系统提供的分析方法及公式和报表的信息。44.参考答案:统计学;数据路技术;机器学习45.参考答案:逻辑模型46.参考答案:C47.参考答案:取x=1,得到的各距离如下: d(p,q)=1+1+20-18=4 d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5 d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8 d(q,C1)=(1-5/30)+(1-6/30)+(20-19)=79/30 d(q,C2)=(1-12/15)+(1-1/15)+(24-20)=77/15 d(C1,C2)=[1-(25*3+5*12)/(30*15)]+[1-(6*1)/(30*15)]+(24-19)=1003/15048.参考答案:C49.参考答案:聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。主要有以下几种类型方法: (1)划分方法 给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K50.参考答案:1)属性的选择(很重要,一般要最大限度地增大样本集纯度) 2)获得大小适合的决策树 3)使用ID3等经典算法构建决策树51.参考答案:越多52.参考答案:A,B53.参考答案:A54.参考答案:决策树建立时,血多分析反映的是训练数据中的噪声和离群点点,树剪枝可以识别并剪去这种分枝,以提高对未知数据分类的准确性。55.参考答案:正确56.参考答案:A,B,C57.参考答案:早期细节级58.参考答案:A,B,C,D59.参考答案:A60.参考答案:C61.参考答案:两层架构62.参考答案:B63.参考答案:A,D64.参考答案:找出所有频繁项集;由频繁项集产生强关联规则65.参考答案: ①忽略该记录; ②去掉属性; ③手工填写空缺值; ④使用默认值; ⑤使用属性平均值; ⑥使用同类样本平均值。66.参考答案:以分析为主67.参考答案:常见数据类型有区间标度变量、比例标度型变量、二元变量、标称型、序数型以及混合类型等。68.参考答案:类条件独立69.参考答案:B70.参考答案:关系数据库71.参考答案:错误72.参考答案: 关联规则挖掘是用来发现超级市场中用户购买的商品之间的隐含关联关系,并用规则的形式表示出来,称为关联规则(AssociationRule)。 关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。73.参考答案:A74.参考答案:错误75.参考答案:数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。76.参考答案:D77.参考答案:D78.参考答案: 聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,不同类别的数据样本之间具有较低的相似度。 聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘、Web数据挖掘等域都有广泛应用。在商业领域,聚类可以帮助市场分析人员对客户的基本数据进行分析,发现购买模式不同的客户群,从而协助市场调整销售计划;在文本挖掘和Web数据挖掘领域中,聚类可以将网站数据按照读者的兴趣度进行划分,有助于网站内容的改进。79.参考答案:层次聚类方法包括凝聚型和分解型两中层次聚类方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论