大数据分析与挖掘技术复习题（附参考答案） (一)

上传人：浪*** IP属地：河北上传时间：2024-12-14 格式：PDF 页数：162 大小：30.60MB 积分：12 举报 版权申诉

已阅读5页，还剩157页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

【题目】

【题型：单选题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于Python的说法错误的是（）。

[A.]Python是一种面向对象的解释型高级编程语言

[B.]可移植性和可扩展性不强

[C.1结构简单，语法和代码定义清晰明确

[D.]易于学习和维护

【答案】B

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于Python中的注释说法正确的是（）。

（A.）Python中可以使用"仍作为注秤，"竹右边的一切内容均不会被执行

[B.]Python中可以使用“阴进行一行或多行注释

[C.lPython中注释下的一切内容会被执行但不显示

[D.]Python中只有使用*〃这一种注释方法

【答案】A

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：否】【自动判分：是】

【应用类别：终考】【特殊标签：】

如需在Python中安装第三方工具库或包（packages）,可以在终端使用的

命令是（）。

[A.]install（package的名称）

[B.]installpip（package的名称）

[C.]pipinstall（package的名称）

[D.]pip（package的名称）

【答案】C

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

关于统计和数据挖掘，下列说法错误的是（）。

[A.]统计侧重于从样本到总体的推断

[B.]数据挖掘侧重于预测个体记录

[C.1经典统计中强调的推断在数据挖掘中已不存在

[D.]经典统计中强调的推断在数据挖掘中依然存在

【答案】D

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：多选题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于Python的说法正确的是（）。

[A.]Python是一种面向对象的解释型高级编程语言

（B.1可移植性和可扩展性不强

【C.】结构简单，语法和代码定义清晰明确

[D.]易于学习和维护

【答案】ACD

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

关于统计和数据挖掘，下列说法正确的是（）。

LA.]统计侧重于从样本到总体的推断

[B.1数据挖掘侧重于预测个体记录

[c.l经典统计中强调的推断在数据挖掘中已不存在

[D.]经典统计中强调的推断在数据挖掘中依然存在

【答案】ABC

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：多选题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

统计和数据挖掘的主要区别是（）。

[A.]统计侧重于从样本到总体的推断

（B.]统计侧重于预测个体记录

[C.1数据挖掘侧重于从样本到总体的推断

[D.]数据挖掘侧重于预测个体记录

【答案】AD

【知识点】04399.1.L1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列属于Python的第三方库的是（）。

[A.]Statsmodels

[B.]Matplotlib

[C.]Scipy

[D.]Scikit-learn

【答案】ABCD

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于Python中的注释说法错误的是（）。

[A.]Python中可以使用午〃作为注释，有〃右边的一切内容均不会被执行

[B.]Python中可以使用有〃进行一行或多行注释

[C.]Python中注释下的一切内容会被执行但不显示

[D.]Python中只有使用"y这一种注释方法

【答案】BCD

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：判断题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

Python中可以使用“#〃作为注释，"#"右边的一切内容均不会被执行。

[A.]V

[B.]x

【答案】A

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

Python是一种面向对象的解释型高级编程语言，其结构简单，易于学习和维护，但可移植

性和可扩展性较差。

[A.]V

[B.]x

【答案】B

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

Python中的注释会被执行但不显示结果。

[A.]V

(B.lx

【答案】B

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：判断题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

与统计学相比，数据挖掘以开放式方式处理大型数据集，这使得其不可能像推断所需的那

样对所分析问题施以严格的限制。

[A.]V

[B.]x

【答案】A

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

Python中只能使用州〃作为注释，并且可以对多行注释。

[A.]V

(B.lx

【答案】B

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

经典统计中强调的推断在数据挖掘中依然存在。

[A.]V

[B.]x

【答案】B

【知识点】04399.1.1.1

【解析】无

【题目】

【题型：单选题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

在Python基本库中，最常见也是最主要的数据结构类型是（）。

[A.]表格

[B.]文字

（C.1数组

[D.J序列

【答案】D

【知识点】04399.1.1.2

【解析】无

【题目】

【题型：多选题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

Python中常见的序列数据结构类型有（）。

[A.]数字

[B.]列表

[C,J元组

[D.]字典

【答案】ABCD

【知识点】04399.1.1.2

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

在Python基本库中，序列是最常见也是最主要的数据结构类型。

[A.]V

[B.]x

【答案】A

【知识点】04399.1.1.2

【解析】无

【题目】

【题型：判断题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

Python可以使用import语句导入已经安装在系统中的package。

[A.]V

[B1*

【答案】A

【知识点】04399.1.1.3

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

在调用statsmodels进行数据分析时，往往采用数据分析接口（api）的方式进行。

[A.]V

[B.]x

【答案】A

【知识点】04399.1.1.3

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列操作不属于数据分析和挖掘的一般流程的是（）。

[A.]数据预处理

[B.]探索性分析

[C.1从平台或渠道获取数据

[D.]将模型结果进行可视化

【答案】C

【知识点】04399.1.3.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列操作属于数据分析和挖掘的一般流程的是（）。

[A.]数据预处理

[B.]探索性分析

[C.1从平台或渠道获取数据

【D.】将模型结果进行可视化

【答案】ABD

【知识点】04399.1.3.1

【解析】无

【题目】

【题型：判断题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据挖掘的对象是各种各样的数据，针对不同的数据其分析方法可能是不同的。但这并不

是说数据挖掘没有章法，其是有一般流程的。

[A.]V

[B.Jx

【答案】A

【知识点】04399.1.3.1

【解析】无

【题目】

【题型：判断题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据挖掘的对象是各种各样的数据，针对不同的数据其分析方法可能是不同的，所以说数

据挖掘没有章法。

[A.]V

[B.]x

【答案】B

【知识点】04399.1.3.1

【解析】无

【题目】

【题型：单选题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据预处理是数据分析工作的（）。

[A.]实施阶段

[B.]准备阶段

【C.】总结阶段

[D.]收尾阶段

【答案】B

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据预处理涉及数据整理和整合的各个方面，不包括（）。

[A.]数据清洗

[B.]数据筛选

[C.1数据变换

[D.]数据可视化

【答案】D

【知识点】04399.2.1.1

【解析】无

【题n】

【题型：单选题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

除了填补缺失值，另一个处理缺失值的常用方法就是删除缺失值。这可以通过函数（）实

现。

[A.]dropna()

[B.]deletenaf)

[C.]clearna()

[D.]thrownaf)

【答案】A

【知识点】0439921.1

【解析】无

【题目】

【题型：单选题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

删除缺失值的函数dropna（）,默认是删除行，如果要对列进行删除，则需要添加参数（）。

[A.]axis=null

[B.]axis=-l

[C.]axis=O

[D.]axis=l

【答案】D

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：单选题】【难度：难】【考核能力：应用】【漏选得分：否】【自动判分：是】

【应用类别：终考】【特殊标签：】

如果想把原始数据中的问号转成Python中缺失值的表示方式NaN,可以输入的语句是

()o

importnumpyasnp

[A.]data=data.replace(?,np.NaN)

[B.]data=data.replace('?'/np.NaN)

[C.]data=data.replace('?'/NaN)

[D.]data=data.replace('?7np.NaN')

【答案】B

【知识点】0439921.1

【解析】无

【题目】

【题型：单选题】【难度：难】【考核能力：应用】【漏选得分:【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于函数dropna。的说法不正确的是（）。

[A.]作用是删除缺失值

[B.]默认是删除行

[C.1默认足删除列

[D.]作用于数据框来实现

【答案】C

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分:【自动判分：是】

【应用类别：终考】【特殊标签：】

下列不属于缺失值的产生原因的是（）。

[A.]数据本身为异常值

[B.]某些原因没有收集到信息

[C.1对于这些个体来说这些属性是不可用的

[D.]数据重复出现

【答案】AD

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：多选题】【难度：难】【考核能力：应用】【漏选得分:【自动判分:是】

【应用类别：终考】【特殊标签：】

下列关于函数dropna。的说法正确的是（）。

[A.]作用是删除缺失值

[B.]默认是删除行

[C.1默认是删除列

[D.]作用于数据框来实现

【答案】ABD

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

一般数据的预处理，主要包括（）。

[A.]异常点检测

[B.1噪声数据检测

[C.J缺失值的处理

[D.]重复数据的处理

【答案】ABCD

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据预处理涉及数据整理和整合的各个方面，主要包括（）。

[A.]数据清洗

[B.]数据筛选

[C.1数据变换

[D.]数据可视化

【答案】ABC

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

缺失值的产生，有可能是因为（）。

[A.]数据本身为异常值

[B.]某些原因没有收集到信息

[C.1对于这些个体来说这些属性是不可用的

[D.]数据重复出现

【答案】BC

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

缺失值的产生有可能是因为某些原因没有收集到信息，也有可能是对于这些个体来说这些

属性是不可用的。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

dropna。函数默认是删除列，要对行进行删除，则需要添加参数axis=l。

[A.]V

[B.]x

【答案】B

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据预处理是数据分析工作的实施阶段。

[A.]V

[B.]x

【答案】B

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

在某些情况下，有些时候并不一定会收集到数据，因而会造成观测值或变量的数据有缺失,

这些缺失的数据就称为缺失值。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：否】【自动判分：是】

【应用类别：终考】【特殊标签：】

除了填补缺失值，另一个处理缺失值的常用方法就是删除缺失值。这可以通过函数dropna()

作用于数据框来实现。

[A.lV

[B.]x

【答案】A

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签；】

数据预处理是数据分析工作的准备阶段。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：易】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

如果数据质量不高，则会影响数据挖掘的结果。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

dropna()函数默认是删除行，要对列进行删除，则需要添加参数axis=l。

[A.]V

[B.]x

【答案】A

【知识点】0439921.1

【解析】无

【题目】

【题型：判断题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

dropna。函数默认是删除行，要对列进行删除，则需要添加参数axis=0。

[A.]V

[B.]x

【答案】B

【知识点】04399.2.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签；】

数据预处理涉及数据整理和整合的各个方面，包括数据清洗、筛选和数据变换，用于数据

挖掘前的模型选择等，有助于提高数据挖掘的效率。

[A.]V

[B.]x

【答案】A

【知识点】0439921.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下面哪项代码是对数据data进行标准化的过程（）。

[A.]Z=(data-data.mean())/data.std()

[B.]Z=(data.mean()-dcta)/data.std()

[C.]Z=(data-data.std()i/data.mean()

[D.]Z=(data.std()-data)/data.mean()

【答案】A

【知识点】04399.2.1.2

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列代码可以将数据data转换成数值型数据的是（）。

[A.]pd.to_numeric(data)

[B.]pd.to_num(data)

[C.]pd.to_number(data)

[D.]pd.to_string(data)

【答案】B

【知识点】04399.2.1.2

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

缺失值会受到标准化过程影响。

[A.]V

(B.lx

【答案】B

【知识点】04399.2.1.2

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

异常点通常是指处于数据边界和数据集中的其他点有着不同模式的点。

[A.]V

(B.lx

【答案】A

【知识点】04399.2.1.2

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：否】【自动判分：是】

【应用类别：终考】【特殊标签：】

为了去除异常值，我们可以对每个变量计算Z-得分，然后去除那些Z-得分异常高或者异常

低的个体。

[A.]V

(B.lx

【答案】A

【知识点】04399.2.1.2

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

缺失值是不受标准化过程影响的。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.1.2

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列代码可以将数据集力ta中的重复个体检测出的是()。

[A.]data.repeat()

[B.]data.repetition()

[C.]data.duplicated()

[D.]data.duplication()

【答案】C

【知识点】04399.2.1.3

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于函数duplicated。的说法不正确的是()。

[A.]函数结果会返回数据中的所有重复值

[B.]函数结果会返回一个布尔数组

[C.1函数结果表明每一行是否与前面行有重复

[D.]函数结果会返回数据中的所有非重复值

【答案】AD

【知识点】04399.2.1.3

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于函数duplicated。的说法正确的是()。

[A.]函数结果会返回数据中的所有重复值

[B.]函数结果会返回一个布尔数组

[C.1函数结果表明每一行是否与前面行有重复

[D.]函数结果会返回数据中的所有非重复值

【答案】BC

【知识点】04399.2.1.3

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

duplicated。函数会返回一个布尔数组，表明每一行是否与前面行有重复。

[A.]V

[B.lx

【答案】A

【知识点】04399.2.1.3

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分；是】

【应用类别：终考】【特殊标签：】

duplicated。函数可以将数据中的重复值直接筛选出来。

[A.]V

[B.lx

【答案】B

【知识点】04399.2.13

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

一些数据集是由合并数据源形成的，这就使其有可能含有重复数据或者近似重复的个体。

[A.]V

(B.lx

【答案】A

【知识点】04399.2.1.3

【解析】无

【题目】

【题型：单选题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据整合是•个将两个或者多个对象的值合并成•个对象的预处理操作，数据整合不包括

()O

[A.]删除数据的异常值

[B.]减少接下来处理数据的大小

[C.1改变粒度分析（从精细到粗放尺度）

[D.]提高数据的解释能力

【答案】A

【知识点】04399.2.2.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据整合是一个将两个或者多个对象的值合并成一个对象的预处理操作，数据整合包括

（）O

[A.]删除数据的异常值

（B.1减少接下来处理数据的大小

[C.1改变粒度分析（从精细到粗放尺度）

[D.]提高数据的解释能力

【答案】BCD

【知识点】04399.2.2.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

数据整合是•个将两个或者多个对象的值合并成•个对象的预处理操作。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.2.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于抽样的说法正确的是（）。

[A.]抽样有多种方法，如有放回抽样、无放回抽样等

[B.1有放回抽样则将抽出来的个体从抽样对象中去除

[C.1无放回抽样有可能对同一个个体抽中了多次

[D.]无放回抽样会有重复的个体

【答案】A

【知识点】04399.23.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于抽样的说法错误的是（）。

[A.]抽样有多种方法，如有放回抽样、无放回抽样等

[B.]无放回抽样则将抽出来的个体从抽样对象中去除

[C.J有放回抽样有可能对同一个个体抽中了多次

[D.]无放回抽样会有重复的个体

【答案】D

【知识点】04399.2.3.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签；】

下列关于抽样的说法正确为是（）。

[A.]抽样有多种方法，如有放回抽样、无放回抽样等

[B.]无放回抽样则将抽出来的个体从抽样对象中去除

[CJ有放回抽样有可能对同一个个体抽中了多次

[D.]无放回抽样会有重复的个体

【答案】ABC

【知识点】04399.2.3.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

无放回抽样有可能对同一个个体抽中了多次，有放【可抽样则将抽出来的个体从抽样对象中

去除，因此不会有重复的个体。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.3.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

有放回抽样有可能对同一个个体抽中了多次，无放回抽样则将抽出来的个体从抽样对象中

去除，因此不会有重复:的个体。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.3.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

离散化是一种将连续取值的变量转换成一个分类变量的数据预处理步骤。

[A.]V

[B.Jx

【答案】A

【知识点】04399.2.4.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

高散化是一种将分类取值的变量转换成一个连续变量的数据预处理步骤。

[A.]V

[B1x

【答案】B

【知识点】04399.2.4.1

【解析】无

【题目】

【题型：单选题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于主成分的属性说法错误的是（）。

[A.]它们是原始变量的线性组合

[B.]它们相互正交（垂直）

[C.1它们捕获了数据差异最小的方向

[D.]它们捕获了数据差异最大的方向

【答案】C

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

卜列关于主成分分析的说法错误的是（）。

[A.]主成分分析一种经典的减少分析变量的方法

[B.]它将数据从原始的低维空间投影到高维空间

[C.1它将数据从原始的高维空间投影到低维空间

[D.]所有原始变量可通过变换的方式得到综合变量，称为主成分

【答案】B

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：多选题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于主成分分析的说法错误的是（）。

[A.]主成分分析一种经典的减少分析变量的方法

【B.】主成分分析一种经典增加分析变量的方法

[C.1它将数据从原始的高维空间投影到低维空间

[D.1它将数据从原始的低维空间投影到高维空间

【答案】BD

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：多选题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于主成分分析的说法正确的是（）。

[A.]主成分分析一种经典的减少分析变量的方法

[B.]主成分分析一种经典增加分析变显的方法

[C.1它将数据从原始的高维空间投影到低维空间

[D.]它将数据从原始的低维空间投影到高维空间

【答案】AC

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：多选题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于主成分的属性说法正确的是（）。

[A.]它们是原始变量的线性组合

【B.】它们相互正交（垂直）

[C.1它们捕获了数据差异最小的方向

[D.]它们捕获了数据差异最大的方向

【答案】ABD

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于主成分分析的说法正确的是（）。

[A.]主成分分析一种经典的减少分析变量的方法

[B.]它将数据从原始的低维空间投影到高维空间

【CJ它将数据从原始的高维空间投影到低维空间

[D.]所有原始变最可通过变换的方式得到综合变最，称为主成分

【答案】ACD

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

主成分分析是一种经典的增加分析变量的方法，它将数据从原始的低维空间投影到高维空

间。

[A.]V

[B.]x

【答案】B

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：判断题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

主成分是原始变量的线性组合，它们相互正交（垂直），捕获了数据差异最小的方向。

[A.]V

（B.lx

【答案】B

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

主成分分析是一种经典的减少分析变量的方法，它将数据从原始的高维空间投影到低维空

间。

[A.]V

[B.]x

【答案】A

【知识点】0439925.1

【解析】无

【题目】

【题型：判断题】【难度：难】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

主成分是原始变最的线性组合，它们相互正交（垂直），捕获了数据差异最大的方向。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.5.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于设定虚拟变量时应当遵循的原则说法不正确的是（）。

LA.]对于有k个表现值的定性变量，只设定（k-i）个虚拟变量

[B.1虚拟变量的值通常用"或"1"来表示

[c.l对于每个样本而言，同一个定性变量对应虚拟变置的值之和不超过1

[D.]设定虚拟变量时对其数量一般不做要求

【答案】D

【知识点】04399.2.6.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

设定虚拟变量时应当遵循如下哪些原则（）。

[A.1对于有k个表现值的定性变量，只设定（k-1）个虚拟变量

（B.]虚拟变量的值通常用“0〃或"1〃来表示

[C.1对于每个样本而言，同•个定性变量对应虚拟变量的值之和不超过1

[D.]设定虚拟变量时对其数量一般不做要求

【答案】ABC

【知识点】04399.2.6.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

设定虚拟变显时，虚拟变吊的值通常用"0"或“1〃来表示。

[A.lV

[B.]x

【答案】A

【知识点】04399.2.6.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签；】

虚拟变量的设定即把对变量的定量描述转化成对定性数据的描述。

[A.]V

[B.]x

【答案】B

【知识点】04399.2.6.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

虚拟变量的设定即把对变量的定性描述转化成对定量数据的描述。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.6.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

设定虚拟变量时，对于有k个表现值的定性变量，只设定（k-1）个虚拟变量。

[A.]V

[B.]x

【答案】A

【知识点】04399.2.6.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

设定虚拟变显时，对■于每个样本而言，同一个定性变吊:对应虚拟变最的值之和不超过10

[A.lV

[B.]x

【答案】A

【知识点】04399.2.6.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签；】

下列关于性能评估的指标说法错误的是（）。

[A.]对于预测任务的数据挖掘，性能评估的指标包括平均绝对误差和均方根误差等

[B.]对于分类任务的数据挖掘，评价指标一般可通过一个混淆矩阵计算得到

【CJ数据挖掘方法预测性能的评估是数据挖掘中的一人重要内容

[D.]ROC曲线不是常用的评价方法

【答案】D

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于期望预测误差的说法错误的是（）。

[A.]期望预测误差实际上是真实值与预测值在某种损失函数下的差值

[B.]期望预测误差实际上是真实值与预测值在某种损矢函数下的平均值

[C.1通常我们使用期望预测误差作为寻优的目标函数

[D.]有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的

函数f

【答案】A

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

在回归学习中常用的损失函数是（）。

[A.]0-1损失函数

【B.】平方损失函数

[C.1指数损失函数

[D.]负二项损失函数

【答案】B

【知识点】0439931.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列不属于期望预测误差的是（）。

[A.]模型假设失误带来的误差

[B.]采用某种方法估计最优值时，估计值的平均可能偏离了真实值

[C.1估计值自身由于数据的随机性产生一个波动部分

[D.]一些主观人为因素

【答案】D

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：单选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于偏差和方差的说法不正确的是（）。

[A.]偏差和方差受模型的复杂度影响

[B.]模型越复杂，偏差越小，方差越大

[C.1模型越复杂，偏差越大，方差越小

[D.]模型越简单，偏差越大，而方差越小

【答案】C

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列不属于通过样本估计期望预测误差的方式的是（）。

[A.]不重复抽样

[B.]重复抽样

[C.1非交叉验证

[D.]交叉验证

【答案】AC

【知识点】043993.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

卜.列关于性能评估的指标说法正确的是（）。

[A.]对于预测任务的数据挖掘，性能评估的指标包括平均绝对误差和均方根误差等

[B.]对于分类任务的数据挖掘，评价指标一般可通过一个混淆矩阵计算得到

[C.]数据挖掘方法预测性能的评估是数据挖掘中的一人重要内容

[D.]ROC曲线不是常用的评价方法

【答案】ABC

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列属于通过样本估计期望预测误差的方式的是（）。

[A.]不重复抽样

[B.]重复抽样

【C.】非交叉验证

[D.]交叉验证

【答案】BD

【知识点】043993.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于期望预测误差的说法正确的是（）。

[A.]期望预测误差实际上是真实值与预测值在某种损失函数下的差值

[B.]期望预测误差实际上是真实值与预测值在某种损矢函数下的平均值

[C.1通常我们使用期望预测误差作为寻优的目标函数

[D.]有监督学习模型的目的是寻找•个可以很好地描述自变量X与因变量Y之间关系的

函数f

【答案】BCD

【知识点】043993.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于偏差和方差的说法正确的是（）。

[A.]模型越复杂，偏差越大，方差越小

[B.]模型越好杂，偏差越小，方差越大

【C.】模型越简单，偏差越小，方差越大

[D.]模型越简单，偏差越大，方差越小

【答案】BD

【知识点】0439931.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分:是】【自动判分：是】

【应用类别：终考】【特殊标签；】

下列关于偏差和方差的说法不正确的是（）。

[A.]模型越复杂,偏差越大,方差越小

[B.]模型越复杂,偏差越小,方差越大

[C.1模型越简单,偏差越小,方差越大

[D.]模型越简单,偏差越大,方差越小

【答案】AC

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列属于常用的损失函数的是（）。

（A.J0-1损失函数

[B.]平方损失函数

[C.1指数损失函数

[D.]负二项损失函数

【答案】ABCD

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

期望预测误差主要包括（）。

[A.]模型假设失误带来的误差

[B.]采用某种方法估计最优值时，估计值的平均可能偏离了真实值

（C.）估计值自身由于数据的随机性产生一个波动部分

[D.]一些主观人为因素

【答案】ABC

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：多选题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

下列关于偏差和方差的说法正确的是（）。

[A.]偏差和方差受模型的复杂度影响

[B.]模型越复杂，偏差越小，方差越大

[C.1模型越复杂，偏差越大，方差越小

[D.]模型越简单，偏差越大，方差越小

【答案】ABD

【知识点】043993.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

在回归学习中常用的损失密数是指数损失函数。

[A.]V

[B.]x

【答案】B

【知识点】0439931.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

模型越复杂，偏差越小，方差越大；模型越简单，偏差越大，而方差越小。

[A.]V

[B.]x

【答案】A

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

通过样本估计期望预测误差i般有重复抽样和交叉验证两种方式。

[A.]V

[B.]x

【答案】A

【知识点】04399.3.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数to

[A.]V

[B.]x

【答案】A

【知识点】043993.1.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

模型越复杂，偏差越大，方差越小；模型越简单，偏差越小，而方差越大。

[A.]V

[B.]x

【答案】B

【知识点】0439931.1

【解析】无

【题目】

【题型：判断题】【难度：中】【考核能力：应用】【漏选得分：是】【自动判分：是】

【应用类别：终考】【特殊标签：】

通过样本估计期望预测误差只有重复抽样这一种方式。

[A.]V

[B.]x

【答案】B

【知识点】04399.3.1.1

【解析】无

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析与挖掘技术复习题（附参考答案） (一)

文档简介

温馨提示

最新文档

评论

大数据分析与挖掘技术复习题（附参考答案） (一)

文档简介

温馨提示

最新文档

评论

相关文档