版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
长风破浪会有时,直挂云帆济沧海。商业经济行业技能考试-数据挖掘工程师笔试(2018-2023年)真题摘选含答案(图片大小可自由调整)卷I一.参考题库(共30题)1.何谓相异度矩阵?它有什么特点?2.粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类()3.什么是ETL?4.进行数值归约时,三种常用的有参方法是:()、()和()5.划分聚类方法对数据集进行聚类时包含什么要点?6.简述数据挖掘的任务。7.存放最低层汇总的方体称为()。A、顶点方体B、方体的格C、基本方体D、维8.下列几种数据挖掘功能中,()被广泛的用于购物篮分析。A、关联分析B、分类和预测C、聚类分析D、演变分析9.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。10.何谓聚类?它与分类有什么异同?11.下列关于分类和聚类哪个描述是正确的?()A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习12.数据从集结区加载到数据仓库中的主要方法是什么?13.在数据挖掘中,常用的聚类算法包括:()、()、()、基于网格的方法和基于模型的方法。14.下表中列出了4个点的两个最近邻。使用SNN相似度定义,计算每对点之间的SNN相似度。 15.一个好的聚类分析方法会产生高质量的聚类,具有两个特征:()和()16.数据仓库中间层OLAP服务器只能采用关系型OLAP。17.数据挖掘的特征:()。18.离群点可以是合法的数据对象或者值。19.下面选项中t不是s的子序列的是()。A、s=,t=B、s=,t=C、s=,t=D、s=,t=20.下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?()A、空间填充曲线B、散点图矩阵C、平行坐标D、圆弓分割21.大型数据库中的关联规则挖掘包含两个过程()和()22.()这些数据特性都是对聚类分析具有很强影响的。A、高维性B、规模C、稀疏性D、噪声和离群点23.对于数据挖掘中的原始数据,存在的问题有:()。A、不一致B、重复C、不完整D、含噪声E、维度高24.简述维度归约和特征变换。25.非频繁模式()。A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感26.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。27.()都属于簇有效性的监督度量。A、轮廓系数B、共性分类相关系数C、熵D、F度量28.OLAP系统和OLTP系统的主要区别包括()。A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据29.SQLServerSSAS提供了所有业务数据的同意整合试图,可以作为传统报表、()、关键性能指示器记分卡和数据挖掘的基础。30.简述K-means算法的基本操作步骤(包括算法的输入和输出)。卷I参考答案一.参考题库1.参考答案: 相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。 其特点是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示: 2.参考答案:越多3.参考答案: E.TL用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 E.TL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。4.参考答案:线性回归方法;多元回归;对数线性模型5.参考答案:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。6.参考答案:分类分析(按照某种规则),聚类分析(具有共性),回归分析,关联分析(具有关联规则),离群点检测(发现与众不同的数据),演化分析(随时间变化的数据对象的趋势),序列模式挖掘(分析前后序列模式)。7.参考答案:C8.参考答案:A9.参考答案: 1,忽略元组。当类标号缺少是通常这么做,当每个属性缺省值的百分比变化很大时,他的效果非常差。 2,人工填写空缺值。这种方法工作量大,可行性低。 3,使用一个全局变量填充空缺值。 4,使用属性的平均值填充空缺值。 5,使用与给定元组属同一类的所有样本的平均值。 6,使用最可能的值填充空缺值。10.参考答案: 聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。 聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。11.参考答案:C12.参考答案:SQL命令(如Insert或Update) 由DW供应商或第三方提供专门的加载工具 由DW管理员编写自定义程序13.参考答案:划分方法;层次方法;基于密度的方法14.参考答案:SNN即共享最近邻个数为其相似度。 点1和点2的SNN相似度:0(没有共享最近邻) 点1和点3的SNN相似度:1(共享点4这个最近邻) 点1和点4的SNN相似度:1(共享点3这个最近邻) 点2和点3的SNN相似度:1(共享点4这个最近邻) 点2和点4的SNN相似度:1(共享点3这个最近邻) 点3和点4的SNN相似度:0(没有共享最近邻)15.参考答案:高类内相似度;低类间相似度16.参考答案:错误17.参考答案:先前未知,有效和实用18.参考答案:正确19.参考答案:C20.参考答案:B21.参考答案:找出所有频繁项集;由频繁项集产生强关联规则22.参考答案:A,B,C,D23.参考答案:A,B,C,D,E24.参考答案:维度归约和特征变换:维度归约可以删除不相关的特征并降低噪声,降低维度灾难风险,降低数据挖掘的时间复杂度和空间复杂度,特征变幻可以反应出数据的不同视角的不同特征。25.参考答案:A,D26.参考答案:正确27.参考答案:C,D28.参考答案:A,B,D29.参考答案:在线分析处理30.参考答案:卷II一.参考题库(共30题)1.数据离散度的常用度量包括()2.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。3.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。4.什么是数据仓库的数据ETL过程?5.帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。A、关联分析B、分类和预测C、聚类分析D、孤立点分析E、演变分析6.列举离群点挖掘的常见应用。7.数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。8.简述抽样的定义及分类。9.数据的预处理方法有哪些?10.数据仓库常见的存储优化方法是什么?11.什么是星型模式?它的特征是什么?12.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。13.为什么要关注离群点?14.关联规则的分类有哪些?关联规则挖掘的步骤包括什么?15.贝叶斯网络的三个主要议题是什么?16.数据规范化17.支持度18.以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现次数) 1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。 请分别用等宽的方法和等高的方法对上面的数据集进行划分。19.数据仓库就是一个面向主题的、集成的、()、反映历史变化的数据集合。20.概念分层图是()图。A、无向无环B、有向无环C、有向有环D、无向有环21.()都属于分裂的层次聚类算法。A、二分K均值B、MSTC、ChameleonD、组平均22.决策树是一种树形结构,包括()和()三个部分。23.考虑下表所示二元分类问题的数据集。 (1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择哪个属性? (2)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择哪个属性?24.数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。A、所涉及的算法的复杂性B、所涉及的数据量C、计算结果的表现形式D、是否使用了人工智能技术25.计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?()A、算术平均值B、截尾均值C、中位数D、众数26.简述k-means算法,层次聚类算法的优缺点。27.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A、4B、5C、6D、728.简述你对数据仓库未来发展趋势的看法。29.从信息处理角度看,神经元具有哪些基本特征?写出描述神经元状态的M-P方程并说明其含义。30.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()。A、0.821B、1.224C、1.458D、0.716卷II参考答案一.参考题库1.参考答案:极差、分位数、四分位数、百分位数、四分位数极差和标准差2.参考答案:正确3.参考答案:错误4.参考答案: 数据的ETL过程就是负责将操作型数据转换成调和数据的过程。数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持EDW的当前有效性和扩展性。 整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。5.参考答案:C6.参考答案: 1,欺诈检测; 2,网络入侵; 3,故障诊断; 4,可疑金融交易监控7.参考答案:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。8.参考答案:抽样:长期用于数据的事先调查和最终的数据分析,在数据挖掘中,抽样是选择数据子集进行分析的常用方法。 1)无放回的简单随机抽样方法 2)有放回的简单随机抽样方法 3)分层抽样方法9.参考答案:数据清理,数据集成,数据变换,数据归约,数据离散化。10.参考答案:表的归并与簇文件;反向规范化,引入冗余;表的物理分割。11.参考答案:在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相关联。12.参考答案:错误13.参考答案:在一些应用领域中,识别离群点是许多工作的基础和前提。一般地,离群点可能对应于稀有事件或异常行为,所以,离群点的挖掘会给我们带来新的视角和发现,离群点往往具有特殊的意义和很高的实用价值,需要对其进行认真审视和研究,因为它们表示一种偏差或新的模式的开始,这可能会对用户带来危害,或造成巨大损失。14.参考答案: 关联规则的分类: (1)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。 (2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 (3)基于规则中处理的变量的类型不同,关联规则可以分为布尔型和数值型。 关联规则挖掘的步骤: (1)找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集; (2)利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度进行取舍,产生强关联规则。15.参考答案:贝叶斯网络的3个主要议题分别是:预测、诊断和历史数据训练。16.参考答案:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。 规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。17.参考答案:规则A→B的支持度指的是所有事件中A与B同地发生的的概率,即P(A∪B),是AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。18.参考答案:(1)等宽方法:划分为3个数据集,每个数据集的宽度为价格10。价格在1—10之间出现次数为13;价格在11—20之间出现的次数为24;价格在21—30之间出现的次数为13。 (2)等高方法:划分为2个数据集,每个数据集的高度为出现的次数4。出现次数1—4之间的价格为1、8、10、12、14、21、28、30,共8个数据;出现次数5—8之间的价格为5、15、18、20、25,共5个数据。19.参考答案:相对稳定的20.参考答案:B21.参考答案:A,B22.参考答案:决策节点,分支节点;页节点23.参考答案:按照属性A和B划分时,数据集可分为如下两种情况: 按照属性A划分样本集分别得到的两个子集(A取值T和A取值F)的信息熵分别为: 按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信息熵分别为: 因此,决策树归纳算法将会选择属性A。 (2) 划分前的Gini值为G=1-0.42-0.62=0.48 按照属性A划分时Gini指标: 因此,决策树归纳算法将会选择属性B。24.参考答案:B25.参考答案:B26.参考答案:(1)k-means算法: 优点:算法描述容易,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 菏泽居间工程合同范例
- 二手喷砂机转让合同范例
- 工地进土合同范例
- 装修配件合同范例
- 代建项目回购合同范例
- 美发股分配合同范例
- 自驾拖车租赁合同范例
- 南京路租房合同范例
- 消防验收合同范例复制
- 装修打包工合同范例
- 《小水电生态流量泄放设施改造及监测技术导则》
- 车辆维修及配件采购项目 投标方案(技术标 )
- 养老院事故报告管理制度
- 2024年1月辽宁省普通高中学业水平合格性考试物理试题(含答案解析)
- 期末测试卷(试题)-2024-2025学年四年级上册数学沪教版
- 电子产品生产工艺流程手册
- 酒厂融资方案
- 污水处理运营维护方案
- 《Python程序设计》高职全套教学课件
- 辽宁省大连市2023-2024学年高三上学期双基测试(期末考试) 英语 含答案
- 大气污染控制工程学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论