版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023年商业经济行业技能考试-数据挖掘工程师考试历年重点考核试题含答案(图片大小可自由调整)第1卷一.参考题库(共50题)1.根据规则中所处理的值类型,关联规则可分为:()和()2.在聚类分析当中,()等技术可以处理任意形状的簇。A、MIN(单链)B、MAX(全链)C、组平均D、Chameleon3.聚类4.数据聚合需要考虑的问题有哪些?5.方体计算的主要挑战是()和()之间的矛盾。6.以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现次数) 1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。 请分别用等宽的方法和等高的方法对上面的数据集进行划分。7.分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?8.关联规则挖掘中,两个主要的兴趣度度量是:()和()9.以下各项均是针对数据仓库的不同说法,你认为正确的有()。A、数据仓库就是数据库B、数据仓库是一切商业智能系统的基础C、数据仓库是面向业务的,支持联机事务处理(OLTP)D、数据仓库支持决策而非事务处理E、数据仓库的主要目标就是帮助分析,做长期性的战略制定10.预测型知识11.什么是ETL?12.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。13.给定基本方体,方体的物化有三种选择:()、()和()14.按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:()、快照事实、线性项目事实和事件事实。15.什么是用户信息需求表(信息包图法)?它为什么适用于数据仓库的概念模型的设计?16.从结构的角度看,数据仓库模型包括以下几类?()A、企业仓库B、数据集市C、虚拟仓库D、信息仓库17.偏差型知识18.确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计()19.关于基本数据的元数据是指()A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息20.数据概化是指:()21.遗传算法与传统寻优算法相比有什么特点?22.何谓文本挖掘?它与信息检索有什么关系(异同)。23.简述决策树的构建。24.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:()。A、忽略元组B、使用属性的平均值填充空缺值C、使用一个全局常量填充空缺值D、使用与给定元组属同一类的所有样本的平均值E、使用最可能的值填充空缺值25.数据清理的目的是处理数据中的()。A、空缺值B、噪声数据C、不一致数据D、敏感数据26.怎样从历史数据中训练出结点之间的条件概率或联合条件概率?27.连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和()28.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。29.数据挖掘要解决的问题是什么?30.为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。31.下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?()A、空间填充曲线B、散点图矩阵C、平行坐标D、圆弓分割32.关于OLAP和OLTP的说法,下列不正确的是()A、OLAP事务量大,但事务内容比较简单且重复率高B、OLAP的最终数据来源与OLTP不一样C、OLTP面对的是决策人员和高层管理人员D、OLTP以应用为核心,是应用驱动的33.抽取、转换、加载过程的目的是为决策支持应用提供一个()、权威数据源。因此,我们要求ETL过程产生的数据是详细的、历史的、规范的、可理解的、即时的和质量可控制的。34.聚类分析可以看作是一种非监督的分类。35.通过数据挖掘过程所推倒出的关系和摘要经常被称为:()。A、模型B、模式C、模范D、模具36.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。37.如何用决策树进行分类?38.数据规范化39.简述基于划分的聚类方法。划分的准则是什么?40.下面哪个不属于数据的属性类型:()。A、标称B、序数C、区间D、相异41.什么是特征选择?42.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()。A、0.821B、1.224C、1.458D、0.71643.下面哪种分类方法是属于神经网络学习算法?()A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理44.简述数据仓库与数据挖掘的关系?45.一个好的聚类分析方法会产生高质量的聚类,具有两个特征:()和()46.典型聚类方法有哪些?47.OLTP48.数据仓库的三层架构主要包括以下哪三部分?()A、数据源B、数据仓库服务器C、OLAP服务器D、前端工具49.简述数据仓库设计的三级模型的基本内容。50.聚类分析包括连续型、二值离散型、()和混合类型4种类型描述属性的相似度计算方法。第1卷参考答案一.参考题库1.正确答案:布尔关联规则;量化关联规则2.正确答案:A,D3.正确答案:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。4.正确答案:(1)模式识别:这主要是实体识别问题; (2)冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或维的命名不一致,也可能导致冗余,可以用相关分析来检测; (3)数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同。5.正确答案:海量数据;有限的内存和时间6.正确答案:(1)等宽方法:划分为3个数据集,每个数据集的宽度为价格10。价格在1—10之间出现次数为13;价格在11—20之间出现的次数为24;价格在21—30之间出现的次数为13。 (2)等高方法:划分为2个数据集,每个数据集的高度为出现的次数4。出现次数1—4之间的价格为1、8、10、12、14、21、28、30,共8个数据;出现次数5—8之间的价格为5、15、18、20、25,共5个数据。7.正确答案: 分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。 分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。8.正确答案:支持度;置信度9.正确答案:B,C,D,E10.正确答案:是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。11.正确答案: E.TL用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 E.TL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。12.正确答案:错误13.正确答案:不物化;部分物化;全物化14.正确答案:事务事实15.正确答案: 信息包图法,也叫用户信息需求表,就是在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等;而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行(代表超立方体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库。 总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开始设计(用户的观点是通过与用户交流得到的),站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。16.正确答案:A,B,C17.正确答案:是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。18.正确答案:聚合模型19.正确答案:D20.正确答案:沿概念分层向上概化21.正确答案: ①遗传算法为群体搜索,有利于寻找到全局最优解; ②遗传算法采用高效有方向的随机搜索,搜索效率高; ③遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域; ④遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好; ⑤遗传算法具有隐含并行性,具有更高的运行效率。22.正确答案:文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它与信息检索之间有以下几方面的区别:方法论不同:信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户无法预知的。着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理解文本的内容和结构。目的不同:信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。评价方法不同:信息检索用查准率和查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。23.正确答案:1)属性的选择(很重要,一般要最大限度地增大样本集纯度) 2)获得大小适合的决策树 3)使用ID3等经典算法构建决策树24.正确答案:A,B,C,D,E25.正确答案:A,B,C26.正确答案:要训练条件概率P(B|A),可以在历史数据中统计A发生的次数T(A),然后统计在A发生的数据中B发生的次数T(A,B),条件概率P(B|A)=T(B)/T(A)。要训练联合条件概率P(C|A,B),可以在历史数据中统计A、B共同发生的次数T(A,B),然后在A、B共同发生的数据中统计C发生的次数T(A,B,C),联合条件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符号A、B、C可以表示某个事件,也可以表示该事件的相反事件。27.正确答案:明考斯基距离28.正确答案:正确29.正确答案:面对高维,复杂,异构的海量数据,如何集中获取有用的信息和知识。30.正确答案:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用缺乏准确性,因为变量之间经常存在依赖关系,这种依赖关系影响了朴素贝叶斯分类器的准确性。31.正确答案:B32.正确答案:A33.正确答案:单一的34.正确答案:正确35.正确答案:A,B36.正确答案:错误37.正确答案:决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。38.正确答案:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。 规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。39.正确答案: 基于划分的聚类方法:给顶一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,丙炔k《=n。划分方法要求每个组至少包含一个对象并且每个对象属于且仅数以一个组。聚类目标可以是最优化某种量度,比如最小化数据点与类中心的距离平方和等。 划分准则是同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同。40.正确答案:D41.正确答案:从一组已知特征的集合中选取最具有代表性的特征子集,使其保留原有数据的大部分特征,正确区分数据集中的每个数据对象。42.正确答案:D43.正确答案:C44.正确答案:数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。45.正确答案:高类内相似度;低类间相似度46.正确答案:1)划分方法(每个划分表示一个聚类) 2)层次方法(将数据对象组成一个聚类树) 3)基于密度的方法(绝大多数划分方法都是基于对象之间的距离大小进行聚类) 4)基于模型的方法(试图将给定数据与某个数学模型搭成最佳拟合) 5)基于图的聚类算法(利用图的许
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 一次性使用医用口罩的储存条件验证方案
- 大学生实习就业服务方案
- 区块链企业A股上市法律解决方案
- 旅游行业紧急事件应急处置方案
- 办公家具验收标准方案
- 海洋平台光伏发电接入方案设计
- 酒店管理校企实训合作方案
- 环保监测监控系统方案
- LNG运输安全管理方案
- 商超通风风管施工方案
- 2024年秋季1530安全教育记录
- 邀请函单页模板
- 附件4:配网安健环设施标准配置
- 办公室工作流程图示
- (完整版)营销策划服务清单
- 产品标签模板
- OBE理念与人才培养方案制定PPT课件
- 离任审计工作方案 样稿
- 四大名著称四大小说三国演义西游记水浒传红楼梦中国古典章回小说PPT资料课件
- 港珠澳大桥项目管理案例分析PPT课件
- GB∕T 12810-2021 实验室玻璃仪器 玻璃量器的容量校准和使用方法
评论
0/150
提交评论