2023年商业经济行业技能考试-数据挖掘工程师考试参考题库(含答案)_第1页
2023年商业经济行业技能考试-数据挖掘工程师考试参考题库(含答案)_第2页
2023年商业经济行业技能考试-数据挖掘工程师考试参考题库(含答案)_第3页
2023年商业经济行业技能考试-数据挖掘工程师考试参考题库(含答案)_第4页
2023年商业经济行业技能考试-数据挖掘工程师考试参考题库(含答案)_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023年商业经济行业技能考试-数据挖掘工程师考试参考题库(含答案)(图片大小可任意调节)第I卷一.全考点试题库(共20题)1.支持度

正确答案:规则A→B的支持度指的是所有事件中A与B同地发生的的概率,即P(A∪B),是AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。2.什么是分类?分类的应用领域有哪些?

正确答案:

分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。

分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命。3.关联知识

正确答案:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。4.关于混合模型聚类算法的优缺点,下面说法正确的是()。

A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理

B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布

C、混合模型很难发现不同大小和椭球形状的簇

D、混合模型在有噪声和离群点时不会存在问题

正确答案:B5.()都属于簇有效性的监督度量。

A、轮廓系数

B、共性分类相关系数

C、熵

D、F度量

正确答案:C,D6.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

正确答案:错误7.一个典型的数据挖掘系统应该包括哪些组成部分?

正确答案:

1,数据库、数据仓库或其他信息库;

2,数据库或数据仓库服务器;

3,知识库;

4,数据挖掘引擎;

5,模式评估模块;

6.图形用户界面。8.项集的频率是指()

正确答案:包含项集的事务数9.数据集分为三类:()。

正确答案:记录数据,基于图形的数据和有序的数据集10.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。

正确答案:错误11.简述数据仓库与数据挖掘的关系?

正确答案:数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。12.DBSCAN在最坏情况下的时间复杂度是()。

A、O(m)

B、O(m2)

C、O(logm)

D、O(m*logm)

正确答案:B13.在数据挖掘之前为什么要对原始数据进行预处理?

正确答案:

原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。

为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。14.请描述主成份分析(PCA)算法步骤

正确答案:

1.规范化输入的数据:所有属性落在相同的区间内;

2,计算k个标准正交向量,即主成分;

3,每个数据数据的向量都是这k主成分向量的线性组合;

4,主成分按照重要程度降序排序。15.在有关数据仓库测试,下列说法不正确的是:()。

A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试

B、当数据仓库的每个单独组件完成后,就需要对他们进行单元测试

C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试

D、在测试之前没必要制定详细的测试计划

正确答案:D16.层次聚类方法包括哪些?

正确答案:层次聚类方法包括凝聚型和分解型两中层次聚类方法。17.以下哪些学科和数据挖掘有密切联系?()

A、统计

B、计算机组成原理

C、矿产挖掘

D、人工智能

正确答案:A,D18.请列出3种数据仓库产品,并说明其优缺点。

正确答案:

(1)IBM提供了基于可视化数据仓库的商业智能(BI)解决方案,包括:VisualWarehouse(VW),Essbase/DB2OLAPServer5.0、IBMDB2UDB,其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2OLAPServer支持“维”的定义和数据装载。

(2)Oracle数据仓库解决方案主要包括OracleExpress和OracleDiscoverer两个部分。OracleExpress由四个工具组成:OracleExpressServer是一个MOLAP(多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库

(3)Microsoft将OLAP功能集成到SQLServer数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分。BI平台是BI解决方案的基础,包括ETL平台SQLServer2005IntegrationService(SSIS)、数据仓库引擎SQLServer2005RDBMS以及多维分析和数据挖掘引擎SQLServer2005AnalysisService、报表管理引擎SQLServer2005ReportingService。19.考虑如下的频繁3-项集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。 (a)根据Apriori算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。 (b)写出经过剪枝后的所有候选4-项集。

正确答案:(a)利用频繁3-项集生成的所有候选4-项集:

{1,2,3,4},{1,2,3,5},{1,2,4,5},{1,3,4,5},{2,3,4,5}

(b)经过剪枝后的所有候选4-项集:

{1,2,3,4},{1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论