2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案_第1页
2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案_第2页
2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案_第3页
2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案_第4页
2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案第1卷一.参考题库(共75题)1.如何提高Apriori算法的有效性?有哪些常见方法?2.在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为()。A、基于类的排序方案B、基于规则的排序方案C、基于度量的排序方案D、基于规格的排序方案3.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:()。A、忽略元组B、使用属性的平均值填充空缺值C、使用一个全局常量填充空缺值D、使用与给定元组属同一类的所有样本的平均值E、使用最可能的值填充空缺值4.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。5.在项目实施时,根据事实表的特点和拥护的查询需求,可以选用()、业务类型、区域和下属组织等多种数据分割类型。6.划分聚类方法对数据集进行聚类时包含什么要点?7.()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。A、MIN(单链)B、MAX(全链)C、组平均D、Ward方法8.何谓相异度矩阵?它有什么特点?9.下列关于分类和聚类哪个描述是正确的?()A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习10.以下哪项关于决策树的说法是错误的?()A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题11.进行数值归约时,三种常用的有参方法是:()、()和()12.何谓数据挖掘?它有哪些方面的功能?13.在判定树归纳中,为什么树剪枝是有用的?14.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。15.给定两个向量对象,分别表示为p1(22,1,42,10),p2(20,0,36,8): (a)计算两个对象之间的欧几里得距离 (b)计算两个对象之间的曼哈顿距离 (c)计算两个对象之间的闵可夫斯基距离,用x=3 (d)计算两个对象之间的切比雪夫距离16.置信度(confidence)是衡量兴趣度度量()的指标。A、简洁性B、确定性C、实用性D、新颖性17.根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。A、关联分析B、分类和预测C、演变分析D、概念描述18.下面哪个不属于数据的属性类型:()。A、标称B、序数C、区间D、相异19.Apriori算法所面临的主要的挑战包括()。A、会消耗大量的内存B、会产生大量的候选项集C、对候选项集的支持度计算非常繁琐D、要对数据进行多次扫描20.简述数据仓库的组成。21.下面的散点图显示哪种属性相关性?() A、不相关;B、正相关;C、负相关;D、先正相关然后负相关22.分类器设计阶段包含三个过程:划分数据集、分类器构造和()23.一个数据库有5个事务,如表所示。设min_sup=60%,min_conf=80%。 (a)分别用Apriori算法和FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。 (b)比较穷举法和Apriori算法生成的候选项集的数量。 (c)利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。24.以下哪些学科和数据挖掘有密切联系?()A、统计B、计算机组成原理C、矿产挖掘D、人工智能25.什么是关联规则?关联规则的应用有哪些?26.定量属性可以是整数值或者是连续值。27.平均值函数avg()属于哪种类型的度量?()A、分布的B、代数的C、整体的D、混合的28.已知数据元组中age的值如下(按递增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a)使用min-max规范化,将age值35转换到[0.0,1.0]区间。 (b)使用z-score规范化转换age值35,其中,age的标准偏差为12.94年。 (c)使用小数定标规范化转换age值35。29.数据挖掘技术对聚类分析的要求有哪几个方面?30.比较数据挖掘与OLAP的差异?31.数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:()、()和()32.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。33.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。34.如何用决策树进行分类?35.一种常用的确定离群点的简单方法是()36.Aprior算法包括()和()两个基本步骤37.在数据挖掘中,常用的聚类算法包括:()、()、()、基于网格的方法和基于模型的方法。38.哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?()A、上卷B、下钻C、切块D、转轴39.计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?()A、算术平均值B、截尾均值C、中位数D、众数40.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘41.为什么说数据仓库具有随时间而变化的特征?42.数据清理的目的是什么?43.为什么要进行维归约?44.下面属于维归约常用的线性代数技术的有()。A、主成分分析B、特征提取C、奇异值分解D、特征加权E、离散化45.简述处理空缺值的方法。46.下面哪些问题是我们进行数据预处理的原因?()A、数据中的空缺值B、噪声数据C、数据中的不一致性D、数据中的概念分层47.什么是用户信息需求表(信息包图法)?它为什么适用于数据仓库的概念模型的设计?48.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()。A、18.3B、22.6C、26.8D、27.949.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()。A、一年级B、二年级C、三年级D、四年级50.数据仓库在存储和管理方面的特点与关键技术是什么?51.数据挖掘对聚类的典型要求有哪些?52.简述k-means算法,层次聚类算法的优缺点。53.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。54.关于OLAP和OLTP的说法,下列不正确的是()A、OLAP事务量大,但事务内容比较简单且重复率高B、OLAP的最终数据来源与OLTP不一样C、OLTP面对的是决策人员和高层管理人员D、OLTP以应用为核心,是应用驱动的55.下表中列出了4个点的两个最近邻。使用SNN相似度定义,计算每对点之间的SNN相似度。 56.层次聚类方法包括哪些?57.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。58.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:()。A、1比特B、2.6比特C、3.2比特D、3.8比特59.为什么要关注离群点?60.分类模型的学习方法有哪些?61.Web挖掘包括哪些步骤?62.两个文档向量d1和d2的值为:d1=(1,0,3,0,2),d2=(3,2,0,0,1),则它们的余弦相似度为:()63.在图集合中发现一组公共子结构,这样的任务称为()。A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘64.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、()、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。65.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?66.考虑下表数据集,请完成以下问题: (1)估计条件概率。 (2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号; (3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率。 (4)同(2),使用(3)中的条件概率。 (5)比较估计概率的两种方法,哪一种更好,为什么?67.数据仓库按照其开发过程,其关键环节包括()、数据存储于管理和数据表现等。68.请描述主成份分析(PCA)算法步骤69.下面哪种数据挖掘方法可以用来检测孤立点?()A、概念描述B、分类和预测C、聚类分析D、演变分析70.关联规则挖掘中,两个主要的兴趣度度量是:()和()71.著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:()、()、()和()72.数据分类模型的常用表示形式包括()、()等。73.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。74.简述分类模型的评价。75.特征提取技术并不依赖于特定的领域。第2卷一.参考题库(共75题)1.举例说明聚类分析的典型应用。2.帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。A、关联分析B、分类和预测C、聚类分析D、孤立点分析E、演变分析3.数据聚合的目的是什么?4.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。5.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()。A、0.821B、1.224C、1.458D、0.7166.定义下列数据挖掘功能: 关联、分类、聚类、演变分析、离群点检测 使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。7.数据仓库的三层架构主要包括以下哪三部分?()A、数据源B、数据仓库服务器C、OLAP服务器D、前端工具8.何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。9.数据仓库是随着时间变化的,下面的描述不正确的是()A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随事件变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合10.非频繁模式()。A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感11.一个典型的数据挖掘系统应该包括哪些组成部分?12.下表所示的相依表汇总了超级市场的事务数据。其中hotdogs指包含热狗的事务,指不包含热狗的事务。hamburgers指包含汉堡的事务,指不包含汉堡的事务。 假设挖掘出的关联规则是“hotdogs=>hamburgers”。给定最小支持度阈值25%和最小置信度阈值50%,这个关联规则是强规则吗? 计算关联规则“hotdogs=>hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?13.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。A、平方欧几里德距离B、余弦距离C、直接相似度D、共享最近邻14.支持向量机中常用的核函数有多项式核函数、径向基核函数和()15.简述K-平均算法的输入、输出及聚类过程(流程)。16.数据的预处理方法有哪些?17.数据仓库就是一个面向主题的、集成的、()、反映历史变化的数据集合。18.考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是:()。A、31B、24C、55D、319.()都属于分裂的层次聚类算法。A、二分K均值B、MSTC、ChameleonD、组平均20.操作型数据存储实际上是一个集成的、面向主题的、可更新的、()、企业级的、详细的数据库,也叫运营数据存储。21.简述分类模型性能评价的指标。22.维度可以根据其变化快慢分为元变化维度、()维度和剧烈变化维度三类。23.比较OLAP的数据模型MOLAP与ROLAP?24.只有非零值才重要的二元属性被称作:()。A、计数属性B、离散属性C、非对称的二元属性D、对称属性25.简述分类器设计阶段包含的3个过程。26.ROLAP是基于()的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。27.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?()A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则28.数据处理通常分成两大类:联机事务处理和()29.下列度量不具有反演性的是()。A、系数B、几率C、Cohen度量D、兴趣因子30.()通过将属性域划分为区间,从而减少给定连续值的个数。A、概念分层B、离散化C、分箱D、直方图31.以下两种描述分别对应哪两种对分类算法的评价标准?() (1)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (2)描述有多少比例的小偷给警察抓了的标准。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC32.使用星型模式可以从一定程度上()查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。33.OLAP系统和OLTP系统的主要区别包括()。A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据34.何谓文本挖掘?它与信息检索有什么关系(异同)。35.多维分析是指以“维”形式组织起来的数据采取切片、切块、()和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。36.以下哪些分类方法可以较好地避免样本的不平衡问题,()。A、KNNB、SVMC、BayesD、神经网络37.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A、分类B、聚类C、关联分析D、隐马尔可夫链38.在数据挖掘之前为什么要对原始数据进行预处理?39.粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类()40.在聚类分析当中,()等技术可以处理任意形状的簇。A、MIN(单链)B、MAX(全链)C、组平均D、Chameleon41.噪声和伪像是数据错误这一相同表述的两种叫法。42.以下属于分类器评价或比较尺度的有()。A、预测准确度B、召回率C、模型描述的简洁度D、计算复杂度43.进行数据规范化的目的是()。A、去掉数据中的噪声B、对数据进行汇总和聚集C、使用概念分层,用高层次概念替换低层次“原始”数据D、将属性按比例缩放,使之落入一个小的特定区间44.进行数据预处理时所使用的主要方法包括:()、()、()和()45.数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。46.BIRCH是一种()。A、分类器B、聚类算法C、关联分析算法D、特征选择算法47.哪种数据变换的方法将数据沿概念分层向上汇总?()A、平滑B、聚集C、数据概化D、规范化48.数据挖掘要解决的问题是什么?49.下面属于数据集的一般特性的有:()。A、连续性B、维度C、稀疏性D、分辨率E、相异性50.什么是分类?分类的应用领域有哪些?51.()这些数据特性都是对聚类分析具有很强影响的。A、高维性B、规模C、稀疏性D、噪声和离群点52.下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作?()A、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot)53.何谓OLTP和OLAP?它们的主要异同有哪些?54.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。55.聚类分析中常见的数据类型有哪些?56.假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录p、q及两个簇C1、C2的信息如下,分别求出记录和簇彼此之间的距离。(k-means算法的拓展) p={男,广州,18},q={女,深圳,20} C1={男:25,女:5;广州:20,深圳:6,韶关:4;19} C2={男:3,女:12;汕头:12,深圳:1,湛江:2;24}57.给定基本方体,方体的物化有三种选择:()、()和()58.为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?59.简述数据预处理方法和内容。60.简述基于划分的聚类方法。划分的准则是什么?61.抽取、转换、加载过程的目的是为决策支持应用提供一个()、权威数据源。因此,我们要求ETL过程产生的数据是详细的、历史的、规范的、可理解的、即时的和质量可控制的。62.如果叶贝斯网络的各个结点都没有任何证据,从历史数据中如何用两种不同的方法得到各个结点的发生概率?63.简述数据清理的基本内容。64.下面哪种分类方法是属于神经网络学习算法?()A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理65.数据仓库常见的存储优化方法是什么?66.简述联机分析处理的四个特征?67.怎样从历史数据中训练出结点之间的条件概率或联合条件概率?68.依据类信息可利用的程度,离群点挖掘可分为哪三种基本方法?69.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为()和业务元数据两类。70.如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。71.何谓数据仓库?为什么要建立数据仓库?72.通过数据挖掘过程所推倒出的关系和摘要经常被称为:()。A、模型B、模式C、模范D、模具73.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A、边界点B、质心C、离群点D、核心点74.通过聚集多个分类器的预测来提高分类准确率的技术称为()。A、组合(ensemble)B、聚集(aggregate)C、合并(combination)D、投票(voting)75.调和数据是存储在()数据仓库和操作型数据存储中的数据。第1卷参考答案一.参考题库1.参考答案: 可以使用一下几个思路来提升Apriori算法:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法。 常见方法包括: 1,基于hash表的项集计数; 2,事务压缩; 3,划分; 4,选样; 5,动态项集计数。2.参考答案:B3.参考答案:A,B,C,D,E4.参考答案:错误5.参考答案:时间6.参考答案:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。7.参考答案:D8.参考答案: 相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。 其特点是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示: 9.参考答案:C10.参考答案:C11.参考答案:线性回归方法;多元回归;对数线性模型12.参考答案: 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。 数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。13.参考答案:决策树建立时,血多分析反映的是训练数据中的噪声和离群点点,树剪枝可以识别并剪去这种分枝,以提高对未知数据分类的准确性。14.参考答案:错误15.参考答案:(a)计算两个对象之间的欧几里得距离 (b)计算两个对象之间的曼哈顿距离 (c)计算两个对象之间的闵可夫斯基距离,其中参数r=3 16.参考答案:B17.参考答案:B18.参考答案:D19.参考答案:B,C,D20.参考答案:数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。21.参考答案:C22.参考答案:分类器测试23.参考答案:(a)频繁1-项集:M,O,K,E,Y 频繁2-项集:{M,K},{O,K},{O,E},{K,Y},{K,E} 频繁3-项集:{O,K,E} (b)穷举法:M=2k-1=211-1=2047 Apriori算法:23 (c){O,K}—>{E},支持度0.6,置信度1 {O,E}—>{k},支持度0.6,置信度124.参考答案:A,D25.参考答案: 关联规则挖掘是用来发现超级市场中用户购买的商品之间的隐含关联关系,并用规则的形式表示出来,称为关联规则(AssociationRule)。 关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。26.参考答案:正确27.参考答案:B28.参考答案:(a)已知最大值为70,最小值为13,则可将35规范化为: (b)已知均值为30,标准差为12.94,则可将35规范化为: (c)使用小数定标规范化可将35规范化为:35/100=0.3529.参考答案:可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性。30.参考答案: OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。 数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。31.参考答案:分布的;代数的;整体的32.参考答案:错误33.参考答案:错误34.参考答案:决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。35.参考答案:出落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值36.参考答案:连接;剪枝37.参考答案:划分方法;层次方法;基于密度的方法38.参考答案:A39.参考答案:B40.参考答案:C41.参考答案: 1,数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息。 2,数据仓库中的每一个关键结构都隐式或显式的包含时间元素,而操作数据库中的关键结构可能就不包含时间元素。42.参考答案:试图填充缺失数据,去除噪声并识别离群点,纠正数据中的不一致值。43.参考答案:维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。44.参考答案:A,C45.参考答案: ①忽略该记录; ②去掉属性; ③手工填写空缺值; ④使用默认值; ⑤使用属性平均值; ⑥使用同类样本平均值。46.参考答案:A,B,C47.参考答案: 信息包图法,也叫用户信息需求表,就是在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等;而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行(代表超立方体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库。 总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开始设计(用户的观点是通过与用户交流得到的),站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。48.参考答案:A49.参考答案:A50.参考答案:数据仓库面对的是大量数据的存储与管理; 并行处理; 针对决策支持查询的优化; 支持多维分析的查询模式。51.参考答案:1)可伸缩性 2)处理不同类型属性的能力 3)发现任意形状的聚类 4)用于决定输入参数的领域知识最小化 5)处理噪声数据的能力 6)对输入记录的顺序不敏感 7)高维度 8)基于约束的聚类 9)可解释性和可用性52.参考答案:(1)k-means算法: 优点:算法描述容易,实现简单快速 不足: 簇的个数要预先给定 对初始值的依赖极大 不适合大量数据的处理 对噪声点和离群点很敏感 很难检测到“自然的”簇 (2)层次聚类算法: BIRCH算法: 优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。 不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。 C.URE算法: 优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。 缺点:算法在处理大量数据时必须基于抽样,划分等技术。 R.OCK算法: 优点:分类恰当,可采用随机抽样处理数据。 缺点:最坏的情况下时间复杂度级数大。 基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。53.参考答案:错误54.参考答案:A55.参考答案:SNN即共享最近邻个数为其相似度。 点1和点2的SNN相似度:0(没有共享最近邻) 点1和点3的SNN相似度:1(共享点4这个最近邻) 点1和点4的SNN相似度:1(共享点3这个最近邻) 点2和点3的SNN相似度:1(共享点4这个最近邻) 点2和点4的SNN相似度:1(共享点3这个最近邻) 点3和点4的SNN相似度:0(没有共享最近邻)56.参考答案:层次聚类方法包括凝聚型和分解型两中层次聚类方法。57.参考答案: 1,忽略元组。当类标号缺少是通常这么做,当每个属性缺省值的百分比变化很大时,他的效果非常差。 2,人工填写空缺值。这种方法工作量大,可行性低。 3,使用一个全局变量填充空缺值。 4,使用属性的平均值填充空缺值。 5,使用与给定元组属同一类的所有样本的平均值。 6,使用最可能的值填充空缺值。58.参考答案:B59.参考答案:在一些应用领域中,识别离群点是许多工作的基础和前提。一般地,离群点可能对应于稀有事件或异常行为,所以,离群点的挖掘会给我们带来新的视角和发现,离群点往往具有特殊的意义和很高的实用价值,需要对其进行认真审视和研究,因为它们表示一种偏差或新的模式的开始,这可能会对用户带来危害,或造成巨大损失。60.参考答案:基于决策树的分类方法,贝叶斯分类方法,k-最近邻分类方法,神经网络方法。61.参考答案:数据清理(可能有占全过程的60%的工作量);将数据存入数据仓库;建立数据立方体;选择用来进行数据挖掘的数据;数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果;将模式或者知识应用或者存入知识库。62.参考答案:5/1363.参考答案:B64.参考答案:以分析为主65.参考答案: 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。 粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。 按粒度组织数据的方式主要有: ①简单堆积结构 ②轮转综合结构 ③简单直接结构 ④连续结构66.参考答案: (5)当条件概率为0的时候,条件概率的预测用Laplace估计方法比较好,因为我们不想整个条件概率计算结果为0。67.参考答案:数据抽取68.参考答案: 1.规范化输入的数据:所有属性落在相同的区间内; 2,计算k个标准正交向量,即主成分; 3,每个数据数据的向量都是这k主成分向量的线性组合; 4,主成分按照重要程度降序排序。69.参考答案:C70.参考答案:支持度;置信度71.参考答案:面向主题;数据集成;随时间而变化;数据不易丢失72.参考答案:分类规则;决策树和数学公式73.参考答案:错误74.参考答案:分类过程一般分为两步:第一步是利用分类算法对训练集进行学习,建立分类模型;第二步是用分类模型对标号未知的测试数据进行分类。75.参考答案:错误第2卷参考答案一.参考题库1.参考答案: ①商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。 ②生物学:推导植物或动物的分类,对基于进行分类,获得对种群中固有结构的认识。 ③WEB文档分类。 ④其他:如地球观测数据库中相似地区的确定;各类保险投保人的分组;一个城市中不同类型、价值、地理位置房子的分组等。 ⑤聚类分析还可作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其他的数据挖掘。聚类分析是一种数据简化技术,它把基于相似数据特征的变量或个案组合在一起。2.参考答案:C3.参考答案:将两个或多个数据源中的数据,存放在一个一致的数据存储设备中。4.参考答案:正确5.参考答案:D6.参考答案:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现的关联规则为:。其中,X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学生有98%拥有个人计算机。 分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到一个预测模型,预测新客户是否可能会流失。 聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为低值客户、高值客户以及普通客户等。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。 离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。7.参考答案:B,C,D8.参考答案: 将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0.0~1.0),称为规范化。 规范化的常用方法有: (1)最大-最小规范化; (2)零-均值规范化; (3)小数定标规范化。 9.参考答案:C10.参考答案:A,D11.参考答案: 1,数据库、数据仓库或其他信息库; 2,数据库或数据仓库服务器; 3,知识库; 4,数据挖掘引擎; 5,模式评估模块; 6.图形用户界面。12.参考答案: 故这个关联规则是强规则。 S({hamburgers})=2500/5000=50% 提升度=1.334 提升度大于1,表明hot dogs和hamburgers不是互相独立的,二者之间存在正相关关系。13.参考答案:D14.参考答案:S型核函数15.参考答案:16.参考答案:数据清理,数据集成,数据变换,数据归约,数据离散化。17.参考答案:相对稳定的18.参考答案:A19.参考答案:A,B20.参考答案:当前值的21.参考答案:(1)分类准确率:指模型正确地预测新的或先前未知的数据的类标号的能力。(影响分类准确率的因素:训练数据集,记录的数目,属性的数目,属性中的信息,测试数据集记录的分布情况) (2)计算复杂度:决定着算法执行的速率和占用的资源,依赖于具体的实现细节和软、硬件环境。 (3)可解释性:分类结果只有可解释性好,容易理解,才能更好地用于决策支持。 (4)可伸缩性。 (5)稳定性:指不会随着数据的变化而发生剧烈变化。 (6)强壮性:指数据集含有噪声和空缺值的情况下,分类器正确分类数据的能力。22.参考答案:缓慢变化23.参考答案: MOLAP是事先生成多维立方体,供以后查询分析用,而ROLAP是通过动态的生成Sql,去做查询关系型数据库,如果没有做性能优化,数据量很大的时候,性能问题就会显得比较突出了。 24.参考答案:C25.参考答案:划分数据集,分类器构造,分类器测试。26.参考答案:关系数据库27.参考答案:B28.参考答案:联机分析处理29.参考答案:D30.参考答案:B31.参考答案:A32.参考答案:提高33.参考答案:A,B,D34.参考答案:文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它与信息检索之间有以下几方面的区别:方法论不同:信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户无法预知的。着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理解文本的内容和结构。目的不同:信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。评价方法不同:信息检索用查准率和查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。35.参考答案:钻取36.参考答案:A37.参考答案:B38.参考答案: 原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。 为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。39.参考答案:越多40.参考答案:A,D41.参考答案:错误42.参考答案:A,C,D43.参考答案:D44.参考答案:数据清理;数据集成;数据变换;数据规约45.参考答案:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。46.参考答案:B47.参考答案:C48.参考答案:面对高维,复杂,异构的海量数据,如何集中获取有用的信息和知识。49.参考答案:B,C,D50.参考答案: 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。 分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命。51.参考答案:A,B,C,D52.参考答案:B53.参考答案: OLTP即联机事务处理,是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。 OLAP即联机分析处理,是在OLTP基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支持服务。 OLTP和OLAP的主要区别如下表: 54.参考答案: 使用一个独立的数据仓库进行OLAP处理为了以下的目的: 1,提高两个系统的性能:操作数据库是为了OLTP而设计的,没有为OLAP操作优化,同时在错啊做数据库上处理OLAP查询,会打打降低操作任务的性能;而数据仓库是为了OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。 2,两者有着不同的功能:操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问,这是如果将事务处理的并行机制和回复机制用于这种OLAP操作,就会显著降低OLAP的性能。 3,两者有着不同的数据:数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。55.参考答案:常见数据类型有区间标度变量、比例标度型变量、二元变量、标称型、序数型以及混合类型等。56.参考答案:取x=1,得到的各距离如下: d(p,q)=1+1+20-18=4 d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5 d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论