2024年应用及操作处理大数据技能知识考试题库与答案_第1页
2024年应用及操作处理大数据技能知识考试题库与答案_第2页
2024年应用及操作处理大数据技能知识考试题库与答案_第3页
2024年应用及操作处理大数据技能知识考试题库与答案_第4页
2024年应用及操作处理大数据技能知识考试题库与答案_第5页
已阅读5页,还剩41页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024年应用及操作处理大数据技能知识考试题库与答案一、单选题1.图像平滑会造成什么效果?A、图像边缘模糊化B、图像边缘清晰化C、无影响D、以上答案都不正确参考答案:A2.在处理非结构化数据时,哪种技术常用于提取有用信息?A.数据清洗B.文本挖掘C.数据聚合D.统计分析参考答案:B3.在数据科学项目中,数据科学家如何验证模型的泛化能力?A.在训练数据集上进行测试B.在验证数据集上进行测试C.在未见过的测试数据集上进行测试D.通过交叉验证参考答案:C4.在数据科学中,哪种方法常用于降维以减少数据的复杂度?A.标准化B.正规化C.主成分分析(PCA)D.交叉验证参考答案:C5.以下哪个不是数据预处理阶段的常见步骤?A.数据清洗B.数据集成C.数据可视化D.数据转换参考答案:C6.在使用决策树算法时,哪个参数可能导致模型过拟合?A.树的深度B.最小样本分割数C.两者都可能D.两者都不可能参考答案:C7.在数据仓库中,数据集市(DataMart)与数据仓库的主要区别是什么?A.数据集市包含的数据量更小B.数据集市不需要ETL过程C.数据集市是面向特定业务部门的D.数据集市不支持复杂查询参考答案:C8.以下哪个不是机器学习中的监督学习算法?A.K-最近邻B.决策树C.K-means聚类D.逻辑回归参考答案:C9.在处理时间序列数据时,哪种方法常用于平滑数据以减少噪声?A.移动平均B.傅里叶变换C.标准化D.决策树参考答案:A10.在数据科学项目中,哪个步骤通常用于发现数据中的隐藏模式或关系?A.数据清洗B.数据可视化C.特征工程D.建模与预测参考答案:B11.在数据科学项目中,特征选择(FeatureSelection)的主要目的是什么?A.减少计算时间B.提高模型的可解释性C.两者都是D.两者都不是参考答案:C12.以下哪个不是数据清洗(DataCleaning)过程中可能遇到的挑战?A.缺失值处理B.异常值检测C.数据加密D.数据类型不一致参考答案:C13.以下哪个不是A/B测试中的关键要素?A.实验组和对照组B.假设检验C.数据可视化D.样本大小计算参考答案:C14.在进行数据清洗时,处理异常值(outliers)的一种常用方法是什么?A.填充为中位数或众数B.删除异常值所在的行或列C.使用插值法进行填充D.标准化或归一化数据参考答案:B15.以下哪个不是数据挖掘的常用技术?A.关联规则挖掘B.聚类分析C.回归分析D.神经网络参考答案:D16.以下哪个不是K-means聚类算法可能面临的挑战?A.需要预先指定聚类数量(K值)B.对初始聚类中心的选择敏感C.只能处理球形簇D.无法处理大规模数据集参考答案:D17.以下哪个不是自然语言处理(NLP)中的任务?A.情感分析B.命名实体识别C.回归分析D.机器翻译参考答案:C18.在数据科学项目中,A/B测试的结果如何统计上显著?A.当且仅当实验组和对照组的差异在统计上显著时B.当实验组的性能始终优于对照组时C.当实验组的性能标准差小于对照组时D.当实验组的样本数量大于对照组时参考答案:A19.在使用随机森林进行特征重要性评估时,哪个指标通常用于衡量特征的重要性?A.特征在树中出现的次数B.特征在树中作为分裂节点的平均增益C.特征值的范围D.特征在数据集中的缺失率参考答案:B20.以下哪个不是数据清洗过程中可能遇到的挑战?A.缺失值处理B.异常值检测与处理C.数据整合与合并D.数据加密与安全性(数据加密和安全性更多是关于数据保护,而不是数据清洗的直接挑战)参考答案:D21.关于Spark的说法中,哪个是错误的?A、采用内存计算模式B、可利用多种语言编程C、主要用于批处理D、可进行map()操作参考答案:C22.对数值型输出,最常见的结合策略是?A、投票法B、平均法C、学习法D、排序法参考答案:B23.以下属于考虑词语位置关系的模型有?A、词向量模型B、词袋模型C、词的分布式表示D、TF-IDF参考答案:A24.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确的是?A、需要将这些样本全部强制转换为支持向量B、需要将这些样本中可以转化的样本转换为支持向量,不能转换的直接删除C、移去或者减少这些样本对分类结果没有影响D、以上都不对参考答案:C25.在数据仓库中,哪种类型的事实表通常包含详细的业务活动数据?A.累积快照事实表B.事务事实表C.周期快照事实表D.无事实表(此选项不符合实际,仅为排除项)参考答案:B26.哪种类型的机器学习算法不依赖于数据实例的标签进行训练?A.监督学习B.无监督学习C.半监督学习D.强化学习(强化学习虽然不完全依赖标签,但它通常涉及奖励信号,不完全等同于无监督学习)参考答案:B27.在数据科学中,A/B测试主要用于什么目的?A.评估不同机器学习算法的性能B.评估不同数据预处理方法的效果C.评估网站或应用的不同版本对用户行为的影响D.评估不同数据可视化工具的优劣参考答案:C28.在使用深度学习进行图像分类时,哪个层通常用于输出最终的分类结果?A.卷积层B.池化层C.全连接层(或称为密集层)D.激活层(但这里特指用于输出的激活层,如softmax)参考答案:D29.在数据科学项目中,哪个步骤通常涉及将原始数据转换为可用于模型训练的形式?A.数据收集B.数据清洗C.特征工程D.模型训练参考答案:C30.当图像通过信道传输时,噪声一般与什么无关?A.信道传输的质量B.出现的图像信号C.是否有中转信道的过程D.图像在信道前后的处理参考答案:B31.在留出法、交叉验证法和自助法三种评估方法中,哪种更适用于数据集较小、难以划分训练集和测试集的情况?A.留出法B.交叉验证法C.自助法D.留一法参考答案:C32.在数据科学中,通常可以采用哪种方法有效避免数据加工和数据备份的偏见?A.A/B测试B.训练集和测试集的划分C.测试集和验证集的划分参考答案:B33.下列不属于深度学习内容的是?A.深度置信网络B.受限玻尔兹曼机C.卷积神经网络D.贝叶斯学习参考答案:D34.在大数据项目中,哪个阶段可能涉及使用数据工程师来优化数据查询性能?A.数据采集B.数据清洗C.数据存储与管理D.数据分析与可视化参考答案:C35.以下哪个不是NoSQL数据库的特点?A.不保证事务的ACID特性B.易于扩展C.支持复杂的SQL查询D.灵活的数据模型参考答案:C36.在数据仓库设计中,星型模式与雪花模式的主要区别在于?A.存储的数据量B.表的连接方式C.数据更新的频率D.数据的来源参考答案:B37.以下哪种算法常用于推荐系统中,基于用户的历史行为预测其兴趣?A.决策树B.协同过滤C.朴素贝叶斯D.逻辑回归参考答案:B38.在数据预处理阶段,缺失值处理的一种常用方法是?A.删除包含缺失值的行或列B.用均值、中位数或众数填充C.忽略缺失值,直接进行后续分析D.将缺失值视为一个新的类别参考答案:B39.下列哪个不是大数据处理面临的挑战?A.数据安全性B.数据实时性C.数据一致性D.数据存储与计算成本参考答案:C40.在使用K-means聚类算法时,通常需要预先确定的参数是?A.聚类中心的数量B.数据点的维度C.数据点的数量D.聚类半径参考答案:A41.哪种类型的机器学习算法适合处理非线性关系的数据?A.线性回归B.决策树C.逻辑回归D.朴素贝叶斯参考答案:B42.哪个不是大数据安全面临的挑战?A.数据泄露B.数据篡改C.数据存储成本D.隐私保护参考答案:C43.在机器学习中,哪种学习类型涉及在没有明确标记的数据集上进行训练?A.监督学习B.无监督学习C.半监督学习D.强化学习参考答案:B44.以下哪个不是数据科学家在数据探索阶段可能执行的任务?A.数据清洗B.缺失值处理C.特征工程D.模型部署(模型部署通常发生在数据探索和分析之后)参考答案:D45.在数据可视化中,哪种图表类型最适合展示时间序列数据?A.条形图B.折线图C.饼图D.热力图参考答案:B46.以下哪个不是大数据处理中的关键挑战?A.数据多样性B.数据实时性C.数据安全性D.数据一致性(在分布式系统中,数据一致性是一个重要问题,但在大数据处理的上下文中,它通常不是首要挑战,特别是与数据多样性、实时性和安全性相比)参考答案:D47.哪种类型的数据库最适合处理图结构数据?A.关系型数据库B.文档型数据库C.列式数据库D.图数据库参考答案:D48.在数据科学中,交叉验证(Cross-Validation)的主要目的是什么?A.减少过拟合B.加速模型训练C.增加模型的复杂度D.无需训练集和测试集的分割参考答案:A49.在机器学习中,梯度下降(GradientDescent)算法属于哪一类优化算法?A.局部搜索算法B.贪心算法C.动态规划D.启发式算法参考答案:A50.以下哪个不是自然语言处理(NLP)中的常见任务?A.情感分析B.命名实体识别C.语音识别D.机器翻译参考答案:C51.以下哪个不是数据科学家在处理大数据时可能面临的挑战?A.数据存储和访问B.数据安全和隐私C.数据可视化D.实时数据处理参考答案:C52.在数据科学项目中,数据泄露(DataLeakage)指的是什么?A.数据在传输过程中被未经授权的第三方获取B.在模型训练过程中,测试数据的信息被间接地用于训练模型C.数据在存储过程中因硬件故障而丢失D.数据在可视化时未进行脱敏处理参考答案:B53.在机器学习中,正则化(Regularization)的主要目的是什么?A.增加模型的复杂度B.减少模型的训练时间C.防止过拟合D.提高模型的解释性参考答案:C54.以下哪个不是数据预处理中处理缺失值的常用方法?A.删除含有缺失值的行或列B.用均值、中位数或众数填充C.使用插值法(如线性插值)D.忽略缺失值,直接进行模型训练参考答案:D55.在使用随机森林(RandomForest)算法时,哪个参数的增加通常会导致模型变得更加复杂?A.树的数量B.树的深度C.叶子节点所需的最小样本数D.分割节点所需的最小样本数参考答案:B56.在使用机器学习模型时,特征缩放(FeatureScaling)的主要目的是什么?A.提高模型的准确率B.加快模型的训练速度C.减少数据的存储空间D.使得不同量纲的特征能够公平地比较参考答案:D二、多选题1.在建立模型时,需要用到()。A.训练数据B.测试数据C.原始数据D.验证数据参考答案:ABD2.决策树的划分选择有()。A.增益系数B.信息增益C.增益率D.基尼系数E、信息增益量参考答案:BCD3.关于数据流转和应用,以下说法正确的是()。A.数据流转和应用过程中应确保可追溯、可复查B.前序环节应保证数据的真实、完整C.前序环节应及时传递到后序环节D.前后环节数据应保持衔接一致参考答案:ABCD4.CNN相比于全连接的DNN有哪些优势()A.参数更少B.泛化更好C.训练更快D.更容易搭建;参考答案:ABC5.语音识别的方法包括()。A.声道模型方法B.模板匹配的方法C.利用仍神经网络的方法D.语音知识方法参考答案:ABCD6.以下描述中属于Analytics0的主要特点的是()。A.侧重嵌入式分析B.重视非结构化数据的分析C.以决策支持为主要目的D.注重解释性分析和预测性分析参考答案:BCD7.下面哪些是基于核的机器学习算法(__)。A.最大期望算法B.径向基核函数C.线性判别分析法D.支持向量机参考答案:BCD8.Python的优点有()。A.变量不用预定义类型B.数据结构功能强大C.语言可解释性强D.变量类型固定参考答案:ABC9.K均值聚类和层次聚类在一些方面有重大差异。以下哪些说法是正确的()A.在K均值聚类中,必须在运行算法前选定想要的簇的个数B.在k均值聚类中,可以在运行算法后选定想要的簇的个数C.在层次聚类中,可以在运行算法后选定想要的簇的个数D.k均值聚类算法所需的计算量比层次聚类算法小得多参考答案:ACD10.影响聚类算法效果的主要原因有:()A.特征选取B.模式相似性测度C.分类准则D.已知类别的样本质量参考答案:ABC11.直方图修正法包括()。A.直方图统计B.直方图均衡C.直方图过滤D.直方图规定化;参考答案:BD12.特征选择的目的:()。A.减少特征数量、降维B.使模型泛化能力更强C.增强模型拟合能力D.减少过拟合。参考答案:ABD13.LSTM应用场景应用场景有哪些()A.翻译语言B.语音识别C.图像识别D.股票预测参考答案:ABD14.数据科学项目主要涉及的活动包括()。A.模式/模型的应用及维护B.模式/模型的洞见C.结果的可视化与文档化D.模式/模型的验证和优化参考答案:ABCD15.以下属于规则的分词方法的是()。A.正向最大匹配法B.逆向最大匹配法C.双向最大匹配法D.条件随机场参考答案:ABC16.集成学习中多样性的增强有哪些()A.数据样本扰动B.输入属性扰动C.输出表示扰动D.算法参数扰动参考答案:ABCD17.下列哪些现象属于乘性噪声()。A.电视光栅的退化B.二值图像上的胡椒盐噪声C.信道传输受扰D.胶片材料的退化参考答案:AD18.在支持向量机中,参数的选取会影响拟合的结果,如果出现过拟合的现象,则导致该结果的原因有可能是(__)。A.其他参数保持不变,C值过大B.其他参数保持不变,λ值较少C.其他参数保持不变,σ较大D.其他参数保持不变,σ较小参考答案:ABD19.常用的爬虫技巧有以下哪些()。A.更改header,伪装成浏览器进行爬取B.设置爬取的时间间隔C.应用神经网络算法识别网站验证码D.通过代理服务器进行爬取参考答案:ABCD20.下列哪些是词语情感分析的方法()。A.基于网络的分析方法B.基于word-embedding的分析方法C.基于词典的分析方法D.基于词频的分析方法参考答案:AC21.大数据的参考架构分为哪三个层次()A.角色B.活动C.逻辑构件D.功能组件参考答案:ABD22.Spark有哪些缺陷()。A.于内存的计算B.持Schema信息C.支持增量迭代计算D.支持细粒度更新操作参考答案:CD23.在BP网络中,常用于缓解其过拟合的策略有()。A.早停策略B.正则化策略C.全局最小策略D.局部最小策略参考答案:AB24.数据可视化是利用计算机图形学和图像处理技术,将数据转换成()或()在屏幕上显示出来,并进行交互处理的理论、方法和技术。A.文字B.图形C.图像D.视频参考答案:BC25.下列哪些是情感分析的应用场景()。A.数据挖掘B.信息检索C.文本分词D.市场营销参考答案:ABD26.常用的冲突消解策略有包括()。A.投票法B.排序法C.元规则法D.调研法参考答案:ABC27.线性模型的基本形式有()。A.线性回归B.对数几率回归(二分类问题)C.线性判别分析(Fisher判别分析)D.多分类学习参考答案:ABCD28.在网络爬虫的爬行策略中,应用最为常见的是()。A.深度优先遍历策略B.广度优先遍历策略C.高度优先遍历策略D.反向链接策略E、大站优先策略参考答案:AB29.请问下面哪些是离散型变量()。A.示波器B.心电图及脑动电图扫描器对脑电波的测量C.过去数月的总销售额D.公司每年的红利参考答案:CD30.分布式列式存储的功能有()。A.支持在线快速读写B.支持线性扩展C.具备节点监控管理D.数据同源不压缩参考答案:ABC31.数据从产生到终结共有()环节。A.数据产生环节B.数据传输环节C.数据使用环节D.数据共享环节E、数据销毁环节参考答案:ABCDE32.关于HDFS的文件写入,正确的是()。A.不支持多用户对同一文件的写操作;B.用户不可以在文件任意位置进行修改;C.默认将文件复制成三份存放;D.复制的文件块默认不存在同一机架上;参考答案:ABCD733.下面对LDA判别分析的思想描述正确的是()。A.同类样例的投影点尽可能近B.异类样例的投影点尽可能远C.同类样例的投影点尽可能远D.异类样例的投影点尽可能近参考答案:AB34.下面属于范数规则化的作用的是()和()。A.保证模型尽可能的简单,避免过拟合B.约束模型特征C.最小化问题D.最大化问题参考答案:AB35.我们想要减少数据集中的特征数,即降维.选择以下适合的方案:()。A.使用前向特征选择方法B.使用后向特征排除方法C.我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征D.查看相关性表,去除相关性最高的一些特征参考答案:ABCD36.以下说法正确的是()。A.负梯度方向是使函数值下降最快的方向B.当目标函数是凸函数时,梯度下降法的解是全局最优解C.梯度下降法比牛顿法收敛速度快D.拟牛顿法不需要计算Hesse矩阵参考答案:ABD37.对于主成分分析方法,降维后低维空间的维数d可以通过()方法确定。A.由用户事先指定B.通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取C.可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值D.随机设置参考答案:ABC38.变量名可以包含()。A.字母B.数字C.下划线D.空格参考答案:ABC39.从可视化处理视角看,可以将数据分为四个类型()并采用不同的视觉映射方法。A.定类数据B.定序数据C.定距离数据D.定比暑假参考答案:ABCD40.下列关于特征的稀疏性说法正确的是()。A.稀疏性指的是矩阵中有许多列与当前学习任务无关B.稀疏样本可减少学习任务的计算开销C.学习任务难度可能有所降低D.稀疏矩阵没有高效的存储方法参考答案:ABC41.数据可视化中,从数据到知识的转换途径()。A.可视化分析B.自动化建模C.用户交互D.参数优化参考答案:AB42.在数据缺失严重时,会对分析结果造成较大的影响,因此剔除的异常值和缺失值,要采用合理的方法进行填补,常用的方法有()。A.平均值填充B.K最近邻距离法C.回归法D.极大似然估计E、多重插补法参考答案:ABCDE43.假设目标遍历的类别非常不平衡,即主要类别占据了训练数据的99%,现在你的模型在训练集上表现为99%的准确度,那么下面说法正确的是:()。A.准确度并不适合衡量不平衡类别问题B.准确度适合衡量不平衡类别问题C.精确度和召回率适合于衡量不平衡类别问题D.精确度和召回率不适合衡量不平衡类别问题参考答案:AC44.图像压缩是建立在图像存在()几种冗余之上。A.编程冗余B.像素间冗余C.心理视觉冗余D.计算资源冗余参考答案:ABC45.图像识别的一般步骤包括()。A.预处理B.特征提取C.超像素生成D.识别分类参考答案:ABD46.RDD具有()和()特征。A.可容错性;B.简洁性;C.并行数据结构;D.结构化;参考答案:AC47.以下哪层是卷积神经网络的组成部分。A.卷积层B.中间层C.池化层D.全连接层参考答案:ACD48.神经网络的拓扑结构可以分为()和随机型网络等。A.前向型B.后向型C.反馈型D.自组织竞争型参考答案:ACD49.空间域滤波是直接以图像中的像素操作为基础的滤波,空间滤波器有时也可称为()。A.空间掩模B.核C.模板D.窗口参考答案:ABCD50.下面关于单样本t检验的说法,错误的是()。A.当单样本t检验的自由度越来越大时,正态分布越来越趋向于t分布B.单样本t检验适用于样本量比较多(n>30)的情况C.t分布的不确定性比正态分布小,其原因是样本数量比较小D.单样本t检验通常也被叫做学生t检验参考答案:ABC51.以下关于数据维度的描述,正确的是()。A.采用列表表示一维数据,不同数据类型的元素是可以的B.JSON格式可以表示比二维数据还复杂的高维数据C.二维数据可以看成是一维数据的组合形式D.字典不可以表示二维以上的高维数据参考答案:ABC52.下列哪些项属于传统循环神经网络的性质()A.上一时刻的网络状态信息将会作用于下一时刻的网络状态B.并行处理序列中所有信息C.容易梯度爆炸/消失D.易于搭建参考答案:AC53.关于总体和样本的说法,正确的是:A.总体也就是研究对象的全体B.如果总体是某一条生产线上生产的全部产品,那么样本可以是每间隔10秒抽取的产品C.样本是从总体的随机抽样D.如果总体是某一小学的1000名学生,那么样本可以是一年级的100名学生参考答案:ABC54.数据可视化涉及到()等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。A.计算机图形学B.图像处理C.计算机视觉D.计算机辅助设计参考答案:ABCD55.下列场景适合使用Python的是()。A.可作为脚本语言,快速编写小型程序、脚本等B.可应用在数据科学、交互式计算及可视化领域C.可作为胶水语言,整合如C++等语言代码D.Python适用于低延时、高利用率的应用场景参考答案:ABC56.下列关于PCA说法正确的是()。A.在使用PCA之前,我们必须标准化数据B.应该选择具有最大方差的主成分C.应该选择具有最小方差的主成分D.可以使用PCA在低维空间中可视化数据参考答案:ABD57.以下哪几项属于汉语未登录词的类型()。A.存在于词典但出现频率较少的词B.新出现的普通词汇C.专有名词D.专业名词和研究领域名称参考答案:BCD58.以下关于降维方法,叙述正确的是()。A.主成分分析是一种常用的非线性降维方法B.核化线性降维是一种常用的线性降维方法C.流形学习是一种借鉴拓扑流形概念的降维方法D.度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习参考答案:CD59.关于降维说法正确的是()。A.PA是根据方差这一属性降维的B.降维可以防止模型过拟合C.降维降低了数据集特征的维度D.降维方法有PLA等参考答案:ACD60.大数据的资产属性体现在()。A.具有劳动增值B.涉及法律权属C.具有财务价值D.涉及道德与伦理参考答案:ABCD61.以下算法中可以应用于图像分割的是()。A.边缘检测技术B.阈值分割技术C.基于区域的分割技术D.区域生长方法参考答案:ABCD62.下列关于密度聚类说法错误的是(__)。A.DBSCAN是一种著名的密度聚类算法B.密度聚类从样本数量的角度来考察样本之间的可连接性C.密度聚类基于不可连接样本不断扩展聚类簇易获得最终的聚类结果D.密度直达关系通常满足对称性参考答案:BCD63.随机森林在做数据处理方面有什么优势()。A.不需要做缺失值处理B.不需要处理噪音C.不需要做特征选择D.不需要平衡数据集参考答案:ACD64.特征向量的归一化方法有哪些()A.线性函数转换B.对数函数转换C.反余切函数转换D.减去均值,除以方差参考答案:ABCD65.“以数据为中心”是数据产品区别于其他类型产品的本质特征,表现在()方面。A.数据驱动B.数据密集型C.数据范式D.数据可视化参考答案:ABC66.以下关于集成学习的说法正确的是:()。A.随机森林是减少模型的方差,而GBDT是减少模型的偏差B.组成随机森林的树可以并行生成,而GBDT是串行生成C.随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和参考答案:ABC67.常用的数据审计方法可以分为()。A.预定义审计B.自定义审计C.可视化审计D.结构化审计参考答案:ABC68.随机森林的随机性主要体现在()。A.决策树选择的随机性B.数据集的随机性C.待选特征的随机性D.参数选择的随机性参考答案:BC69.有两种策略常用来缓解BP网络的过拟合,分别是()和()。A.晚停B.早停C.正则化D.加入损失函数参考答案:BC70.预剪枝使得决策树的很多分子都没有展开,会导致()。A.显著减少训练时间开销B.显著减少测试时间开销C.降低过拟合风险D.提高欠拟合风险参考答案:ABCD71.一个监督观测值集合会被划分为()。A.训练集B.验证集C.测试集D.预处理集参考答案:ABC72.关于梯度消失和梯度消失,以下说法正确的是:(__)。73.A.根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是99,在经过足够多层传播之后,误差对输入层的偏导会趋于0B.可以采用ReLU激活函数有效的解决梯度消失的情况C.根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大D.可以通过减小初始权重矩阵的值来缓解梯度爆炸参考答案:ABCD74.循环神经网络主要被应用于哪些场景(__)。A.语音识别B.语音建模C.机器翻译D.图像识别参考答案:ABC75.以下属于频率域图像滤波的方法有()。A.中值滤波B.均值滤波C.布特沃斯滤波D.高斯滤波参考答案:CD76.卷积神经网络中常用的池化函数包括()。A.最大池化函数B.L2范数C.相邻矩形区域内的平均值D.基于据中心像素距离的加权平均函数参考答案:ABCD77.ETL技术主要涉及()操作。A.抽取B.转换C.加载D.分析参考答案:ABC78.以下可用于处理由于光照不均带来的影响的图像处理方法有()。A.同态滤波B.顶帽变换C.基于移动平均的局部阈值处理D.拉普拉斯算子参考答案:ABC79.下面关于Python中的列表和字典说法正确的是()。A.字典和列表都可以通过“[]”操作符访问元素的值B.列表的索引必须是整型数或者切片C.字典不过是列表的另一个名字。二者没有区别D.字典的长度是动态的,而列表的长度是固定的参考答案:AB80.ETL包含下列哪些过程()A.数据抽取B.数据转换C.数据加载D.数据展现参考答案:ABC81.处理图像平滑处理的滤波有()。A.盒式滤波B.均值滤波C.高斯滤波D.中值滤波参考答案:ABCD82.参数估计可以分为()。A.点估计B.一致估计C.区间估计D.无偏估计参考答案:AC83.下列哪些是传统RDBMS的缺点()A.表结构schema扩展不方便B.全文搜索功能较弱C.大数据场景下I/O较高D.存储和处理复杂关系型数据功能较弱参考答案:ABCD84.以下哪些滤波器能在卷积窗口的边界上使卷积掩膜中心像素和它的4-邻接点的系数降至0附近()。A.同态滤波B.高斯滤波C.巴特沃斯滤波D.中值滤波参考答案:BC85.关于卷积神经网络的叙述中正确的是()。A.可用于处理时间序列数据B.可用于处理图像数据C.卷积网络中使用的卷积运算就是数学中的卷积计算D.至少在网络的一层中使用卷积参考答案:ABD86.对于不同场景内容,一般数字图像可以分为()。A.二值图像B.灰度图像C.彩色图像D.深度图像参考答案:ABC87.下面关于中心极限定理的说法,正确的是:A.中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限B.中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以t分布为极限C.中心极限定理为Z检验提供了理论支持D.中心极限定理是数理统计学和误差分析的基础参考答案:ACD88.下列关于情感分析的说法正确的是()。A.简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程B.情感分析的发展得益于社交媒体的兴起C.按照处理文本的粒度不同,情感分析大致可分为词语级,句子级、篇章级三个D.情感分析可以应用于文本挖掘参考答案:ABCD89.下列既可以用于分类,又可以用于回归的机器学习算法有:A.k近邻B.逻辑回归C.决策树D.线性回归参考答案:AC90.数据安全不仅包括数据保密性,还包括()。A.完整性B.可用性C.不可否认性D.可审计性参考答案:ABCD91.异常值的检测方法有()A.直接通过数据可视化进行观察B.通过统计分布进行判断C.通过相对距离进行度量D.通过相对密度进行度量参考答案:ABCD92.深度学习方法不适用于以下哪些场景()。A.数据样本充足B.数据样本不足C.数据集具有局部相关特性D.数据集没有局部相关特性参考答案:BD93.以下对模型性能提高有帮助的是()。A.数据预处理B.特征工程C.机器学习算法D.模型集成参考答案:ABCD94.在Hive架构中支持对数据的操作有()。A.插入B.查询C.删除D.分析;参考答案:BD95.以下图像技术中属于图像处理技术的是()。A.图像编码B.图像合成C.图像增强D.图像分类参考答案:AC96.回归分析有很多种类,常见的有()。A.线性回归B.系数回归C.逻辑回归D.曲线回归参考答案:ACD97.算法“歧视”现象可能出现在()。A.算法设计B.算法实现C.算法投入使用D.算法验证参考答案:ABC98.下面关于机器学习的理解正确的是()。A.非监督学习的样本数据是要求带标签的B.监督学习和非监督学习的区别在于是否要求样本数据带标签C.强化学习以输入数据作为对模型的反馈D.卷积神经网络一般用于图像处理等局部特征相关的数据参考答案:BCD99.决策树()情况下会导致递归返回。A.当前节点包含的样本全属于同一类B.当前属性集为空C.当前节点包含的样本集合为空D.所有样本在所有属性上取值相同参考答案:ABCD100.下列关于数据科学中常用的统计学知识说法错误的是()。A.从行为目的与思维方式看,数据统计方法可以分为基本分析方法和元分析方法B.从方法论角度看,基于统计的数据分析方法又可分为描述统计和推断统计C.描述统计可分为集中趋势分析、离中趋势分析、参数估计和假设检验D.推断统计包括采样分布和相关分析参考答案:ABCD101.()是通过对无标记训练样本的学习来进行分类的。A.密度估计B.异常检测C.线性回归D.聚类分析参考答案:ABD102.数据再利用的意义在于()A.挖掘数据的潜在价值B.提高社会效益,优化社会管理C.实现数据重组的创新价值D.优化存储设备,降低设备成本E、利用数据可拓展性拓宽业务领域参考答案:ACE103.非频繁模式()。A.其支持度小于阈值B.都是不让人感兴趣的C.包含负模式和负相关模式D.对异常数据项敏感参考答案:AD104.机器学习的三个关键组成要素是()。A.任务TB.性能指标PC.目标函数VD.经验来源E参考答案:ABD105.图像数字化应该包括哪些过程()。A.采样B.模糊C.量化D.统计参考答案:AC106.以下关于CSV文件的描述,正确的选项是()。A.CSV文件可用于不同工具间进行数据交换B.CSV文件格式是一种通用的,相对简单的文件格式,应用于程序之间转移表格数据。C.SV文件通过多种编码表示字符D.CSV文件的每一行是一维数据,可以使用Python中的列表类型表示参考答案:ABD107.Analytics0的主要特点有()。A.分析活动滞后于数据的生成B.重视结构化数据的分析C.以对历史数据的理解为主要目的D.注重描述性分析参考答案:ABCD108.Spark的技术架构可以分为哪几层()。A.资源管理层;B.Spark核心层;C.应用层;D.服务层;参考答案:ABD109.完整性约束通常包括()A.实体完整性B.域完整性C.参照完整性D.用户定义完整性参考答案:ABCD110.EDA(探索性数据分析)方法与传统统计学的验证性分析方法的区别有()。A.EDA需要事先提出假设,而验证性分析不需要B.EDA中采用的方法往往比验证性分析简单C.在一般数据科学项目中,探索性分析在先,验证性分析在后D.EDA更为简单、易学和易用参考答案:BCD111.关于分析学习和归纳学习的比较,说法正确的是()。A.归纳学习拟合数据假设,分析学习拟合领域理论的假设B.归纳学习论证方式为统计推理,分析学习为演绎推理C.归纳学习不需要隐式的先验知识D.训练数据不足时归纳学习可能会失败参考答案:ABCD112.统计模式分类问题中,当先验概率未知时,可以使用()。A.最小最大损失准则B.最小误判概率准则C.最小损失准则D.N-P判决参考答案:AD113.HBase性能优化包含下面的哪些选项()。A.读优化B.写优化C.配置优化D.JVM优化参考答案:ABCD114.下列哪个是Hadoop运行的模式()。A.单机版B.伪分布式C.分布式D.全分布式参考答案:ABC115.下列属于CNN关键层的是(__)。A.输入层B.卷积层C.激活层D.池化层参考答案:ABCD116.关于神经元的叙述,哪些是正确的()A.每个神经元可以有一个输入和一个输出B.每个神经元可以有多个输入和一个输出C.每个神经元可以有多个输入和多个输出D.每个神经元可以有多个输出和一个输入参考答案:ABCD117.哪些项不属于使用池化层相比于相同步长的卷积层的优势()A.参数更少B.可以获得更大下采样C.速度更快D.有助于提升精度参考答案:BCD118.使用极大似然估计的前提条件有()。A.数据服从某种已知的特定数据分布型B.已经得到了一部分数据集C.提前已知某先验概率D.数据集各个属性相对独立参考答案:AB119.以下描述中正确的是()。A.统计学是数据科学的理论基础之一B.Python语言是统计学家发明的语言C.机器学习是数据科学的理论基础之一D.数据科学是统计学的一个分支领域(子学科)参考答案:AC120.传统关系数据库的优点包括()。A.数据一致性高B.数据冗余度低C.简单处理的效率高D.产品成熟度高参考答案:ABD121.Python的模块符合以下哪些说法()。A.模块让你能够有逻辑地组织你的Python代码段B.Python拥有丰富的模块,不支持自定义模块C.把相关的代码分配到一个模块里能让你的代码更好用,更易懂D.模块能定义函数,类和变量,模块里也能包含可执行的代码。参考答案:ACD122.关于神经网络,下列说法正确的是()A.增加网络层数,可能会增加测试集分类错误率B.增加网络层数,一定会增加训练集分类错误率C.减少网络层数,可能会减少测试集分类错误率D.减少网络层数,一定会减少训练集分类错误率参考答案:AC123.Flume特点包括()。A.分布式B.高可靠C.高容错D.易于定制和扩展参考答案:ABCD124.深度学习的实质及其与浅层学习的说法正确的是(__)。A.DL强调模型深度B.DL突出特征学习的重要性.特征变换+非人工C.没有区别D.以上答案都不正确参考答案:AB125.如何在监督式学习中使用聚类算法()A.首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法B.在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征C.在应用监督式学习之前,不能创建聚类D.在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征参考答案:AB126.(__)可以帮助解决训练集在特征空间中线性不可分的问题。A.硬间隔B.软间隔C.核函数D.拉格朗日乘子法参考答案:BC127.下面关于连续型随机变量以及连续型概率密度函数的说法,正确的是。A.“一个客服一天可能接听到多少个电话”是一个连续型随机变量B.正态分布是一种连续型随机变量的概率分布C.可以使用概率密度函数来描述连续型随机变量的概率分布D.连续型概率密度函数曲线下方的面积之和为1参考答案:BCD128.假设检验中,首先需要提出零假设和备择假设,零假设是(),备择假设是()。A.只有出现的概率大于阈值才会被拒绝的,只有零假设出现的概率大于阈值才会被承认的B.希望推翻的结论,希望证明的结论C.只有出现的概率小于阈值才会被拒绝的,只有零假设出现的概率小于阈值才会被承认的D.希望证明的结论,希望推翻的结论参考答案:BC129.数据科学基本原则中,三世界原则指的是()A.我们的世界B.数据世界C.物理世界D.数字世界参考答案:ABC130.某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区工单数量,构建抢修热点。以下模型算法构建步骤中合理的顺序是:()。A.将历史数据进行随机自助法重抽样,生成N个训练样本集B.将N个训练样本集分别做决策树,生成N棵决策树C.将N棵决策树随机构成随机森林D.未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运算,并计算出最终结果。参考答案:ABCD131.针对维数灾难,我们主要采用的降维方法有哪些()。A.多维缩放B.主成分分析C.核化线性降维D.流形学习E、度量学习参考答案:ABCDE132.特征工程一般需要做哪些工作()。A.正则化B.标准化C.特征处理D.特征选择参考答案:CD133.图像识别的精度会受到以下那些因素的影响()。A.数据类别数量不平衡B.输入图像尺寸不同C.图像中存在类标之外的环

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论