大数据-单选复习试题及答案

上传人：喝*** IP属地：浙江上传时间：2025-01-19 格式：DOCX 页数：35 大小：61.48KB 积分：30 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第页大数据-单选复习试题及答案1.1.关于以下代码，运行结果正确的是s1="k:1|k1:2|k2:3|k3:4"d1={}lst=s1.split("|")foriinlst:lst2=i.split(":")d1[lst2[0]]=lst2[1]print(d1)A、{'k':'1','k1':'2','k2':'3','k3':'4'}B、["k:1","k1:2","k2:3","k3:4"]C、["k","1","k1","2","k2","3","k3","4"]D、程序错误【正确答案】：A2.评估完模型后，我们发现模型中有很高的偏差。我们怎样来减少这个偏差A、减少模型中特征的数量B、增加模型中特征的数量C、增加模型中的数据点D、以上所有【正确答案】：B3.以下哪项不属于Python语言的特点()A、依赖平台B、支持中文C、语法简洁D、类库丰富【正确答案】：A4.Spark为处理结构化数据而设计的模块是（）A、SparkSQLB、SparkStreamingC、MLibD、Graphx【正确答案】：A5.以下关于视图的描述中，不正确的是（）A、视图是外模式B、使用视图可以加快查询语句的执行速度C、视图是虚表D、使用视图可以加快查询语句的编写【正确答案】：B6.Python中关于函数的形参与实参，以下选项中描述不正确的是A、实参就是在函数调用的时候，通过函数后面的括号传递给函数，让函数处理的值B、形参只是在函数定义时使用C、实参可以是变量或值D、函数的实参不可以是表达式【正确答案】：D7.下面关于MapReduce模型中Map函数与Reduce函数的描述，正确的是()A、一个Map函数就是对一部分原始数据进行指定的操作。B、一个Map操作就是对每个ReDuce所产生的一部分中间结果进行合并操作。C、Map与Map之间不是相互独立的。D、Reduce与Reduce之间不是相互独立的。【正确答案】：A8.Python中定义函数的关键字是()A、functionB、defunC、defineD、def【正确答案】：D9.与传统关系数据库不同的是，HBase是()的数据库。A、结构化的B、单一版本的C、面向列D、非开源的【正确答案】：C10.以下异常类型，哪一个是使用的序列对象的位置索引超出范围时引发的异常？A、ImportErrorB、IndentationErrorC、IndexErrorD、TypeError【正确答案】：C11.下面哪些选项不正确描述了HBase的特性？（）。A、事务性B、高性能C、面向列D、可伸缩【正确答案】：A12.在sklearn中，下面哪个类或方法，位于preprocessing模块A、train_test_splitB、LabelEncoderC、accuracy_scoreDecisionTreeClassifier【正确答案】：B13.下列Python3代码运行的结果为（）a='a'print(a>'b'or'c')A、aB、bC、cD、FALSE【正确答案】：C14.以下程序的输出结果是______。X=3.1415926Print(round(x,2),round(x))A、6.283B、2,2C、3,3.14D、3.14,3【正确答案】：D15.在shell脚本中如何移除array数组中索引为2的元素？A、delarray[2]B、unsetarray[2]C、removearray[2]D、rmarray[2]【正确答案】：B16.F1参数()，说明模型越稳定。A、越小B、越大C、越趋近于某一特定值D、F1参数和模型稳定性没有关系【正确答案】：B17.Linux系统中，在/logs目录中查找更改时间在5日以前的文件并删除它们A、findlogs-typef-mtime+5-execrm\;B、findlogs-typef-atime+5-execrm\;C、findlogs-typef-ctime+5-execrm;D、findlogs-typef-mtime+5-execrm;【正确答案】：A18.我们想在在一个百万级的数据集上构建机器学习模型，每条数据有5000个特征。可是训练这么大量的数据集会有很多困难，一下哪些步骤可以有效地训练模型A、我们可以从数据集中随机选取一些样本，在样本上构建模型B、我们可以尝试联机机器学习算法C、我们可以用主成分分析来减少特征D、以上所有【正确答案】：D19.表达式[3foriinrange(3)]的值为A、3,3,3B、0,1,2C、[3,3,3]D、[0,1,2]【正确答案】：C20.下列哪个组件不能用SQL进行访问？（）。A、HiveB、MySQLC、HBaseD、Phoenix【正确答案】：C21.Hadoop中MapReduce组件擅长处理（）场景的计算任务。A、迭代计算B、离线计算C、实时交互计算D、流式计算【正确答案】：B22.HBase为什么适用于海量数据存储?A、集群规模小B、支持列存表C、多列簇特性D、HDFS做底层存储【正确答案】：D23.请输入以下代码的输出形式x=np.array([1,2,3])y=np.array([4,5,6])print(x**y)A、["579"]B、["-3-3-3"]C、["41018"]D、["132729"]【正确答案】：D24.下列关于支持向量的说法正确的是（)A、到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B、训练集中的所有样本点都是支持向量C、每一类样本集中都分别只有一个支持向量D、支持向量的个数越多越好【正确答案】：A25.在数据预处理中，将多个数据源中的数据整合到一个一致的数据存储（如数据仓库）中，这一过程称为A、数据提取B、数据集成C、数据清理D、数据加载【正确答案】：B26.SQL语句中的条件用以下哪一项来表达()A、THENB、WHILEC、WHERED、IF【正确答案】：C27.交叉验证如果设置K=5，会训练几次A、4B、5C、6D、7【正确答案】：B28.在MapReduce中，通常把Map拆分成了M个片段，把Reduce拆分成R个片段执行。一般情况下，（）由用户指定。A、M值B、R值C、M值和R值D、以上都不正确【正确答案】：B29.以下描述中，属于决策树策略的是()A、最优投影方向B、梯度下降方法C、最大特征值D、最大信息增益【正确答案】：D30.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是：()A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样【正确答案】：D31.下列关于线性回归分析中的残差（Residuals）说法正确的是？A、残差均值总是为零B、残差均值总是小于零C、残差均值总是大于零D、以上说法都不对【正确答案】：A32.HBase依赖（）提供强大的计算能力。A、ZookeeperB、ChubbyC、RPCD、MapReduce【正确答案】：D33.考虑两队之间的足球比赛：队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为()A、0.75B、0.35C、0.4678D、0.5738【正确答案】：D34.以下哪个命令不能在hadoop中创建test文件夹A、hadoopfs-mkdirtestB、hadoopdfs-mkdirtestC、hdfsdfs-mkdirtestD、hdfsls-mkdirtest【正确答案】：D35.下面关于贝叶斯分类器描述错误的是A、以贝叶斯定理为基础B、是基于后验概率，推导出先验概率C、可以解决有监督学习的问题D、可以用极大似然估计法解贝叶斯分类器【正确答案】：B36.deff1(a,b):A,b=1,2returnA,bA,b=10,20Print(a,b)Print(f1(a,b))Print(a,b)第二和第三个print函数分别输出的结果是()A、(1,2)12B、(10,20)12C、(1,2)1020D、(10,20)1020【正确答案】：C37.给出如下代码，可以输出"python"的是s="Pythonisbeautifull!"A、print(s[:-14])B、print(s[0:6].lower())C、print(s[0:6])D、print(s[-21:-14].lower())【正确答案】：B38.Kafka集群中，Kafka服务端的角色是:（)A、BrokerB、ConsumerC、ZookeeperD、Producer【正确答案】：A39.执行以下代码，当用户输入：python，输出结果为try：n=eval(input("请输入一个整数："))print(n*3)except:print("输入错误，请重新输入！")A、输入错误，请重新输入！B、pythonpythonpythonC、没有任何输出D、python**3【正确答案】：A40.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核【正确答案】：D41.查看视图的字段信息命令A、show视图名B、DESCRIBE视图名;C、create视图名D、view视图名【正确答案】：B42.在HDFS中的块默认大小为()。A、16MBB、32MBC、64MBD、128MB【正确答案】：C43.print(df.iloc[[1,3]])显示A、第1和第3行B、第1到第3行C、第1和第3列D、第1到第3列【正确答案】：A44.Hive常被用来处理（）场景。A、事务性处理B、批量计算C、实时性计算D、流计算【正确答案】：B45.importpandasaspddata={'a':[2,1,5,6],'b':['kl','d',1,'kl'],'c':[6,5,1,6]}df=pd.DataFrame(data)d1=df.iloc[0:2,2]d2=df.loc[df['b']=='kl','c']print(d1)print(d2)输出结果是A、0,61,5Name:c,dtype:int64B、0,63,6Name:c,dtype:int64C、1,52,1Name:c,dtype:int64D、1,53,6Name:c,dtype:int64【正确答案】：A46.在shell脚本中，以下哪个特殊符号代表脚本运行的当前进程ID号？A、$#B、$*C、$?D、$$【正确答案】：D47.下列不属于数据仓库设计的三级数据模型的是()。A、概念模型B、逻辑模型C、物理模型D、关联模型【正确答案】：D48.关于Python的lambda函数，以下选项中描述错误的是（）A、lambda用于定义简单的、能够在一行内表示的函数B、f=lambdax,y:x+y执行后，f的类型为数字类型C、可以使用lambda函数定义列表的排序原则D、lambda函数将函数名作为函数结果返回【正确答案】：B49.以下哪项不属于Python语言的特点()A、依赖平台B、支持中文C、语法简洁D、类库丰富【正确答案】：A50.SparkSQL快速的计算效率得益于（）。A、CatalystB、ExecutionC、ParserD、Analyzer【正确答案】：A51.Spark的技术架构可以分为三层，不包括（）A、Spark核心层B、服务层C、平台层D、资源管理层【正确答案】：C52.Python程序采用Unicode编码，英文字符和中文字符在Python中分别对应字符长度分A、2和2B、1和1C、2和1D、1和2【正确答案】：B53.1.如下：str1="Runoobexamplewow!!!"str2="exam";Print(str1.find(str2,5))打印的结果是A、6B、7C、8D、-1【正确答案】：B54.以下代码输出的结果是x=(1,)print(type(x))A、<class'dict'>B、<class'set'>C、<class'tuple'>D、<class'int'>【正确答案】：C55.已知顾客的消费记录:I1:西红柿、排骨、鸡蛋I2:西红柿、茄子I3:鸡蛋、袜子I4:西红柿、排骨、茄子西红柿茄子的支持度是(),置信度是()A、0.50.67B、0.50.5C、0.670.5D、0.250.67【正确答案】：D56.现在有一亿条数据要插入Hbase，使用下列哪种方式最好？A、shell端put命令B、put方法C、bulkload方法D、insert方法【正确答案】：C57.通过查询语句使用关键字()可以向Hive表中插入数据。A、LoadB、InsertC、ImportD、Location【正确答案】：B58.评估完模型之后，发现模型存在高偏差（highbias），应该如何解决？A、减少模型的特征数量B、增加模型的特征数量C、增加样本数量D、以上说法都正确【正确答案】：B59.以下代码的输出结果是______。Forsin"HelloWorld":ifs=="W":continuePrint(s,end="")A、HelloB、HelloWorldC、WorldD、Helloorld【正确答案】：D60.以下聚合函数求平均数的是()A、COUNTB、MAXC、AVGD、SUM【正确答案】：C61.将python中的.py文件转换为.pyc文件的组件为()A、编辑器B、编译器C、虚拟机D、解释器【正确答案】：B62.‍以下关于训练集、验证集和测试集说法不正确的是A、验证集用于调整模型参数B、测试集是纯粹是用于测试模型泛化能力C、训练集是用来训练以及评估模型性能D、以上说法都不对【正确答案】：C63.MongoDB是一种()类NoSQL数据库管理系统。A、Key-ValueB、Key-DocumentC、Key-ColumnD、图存储模型【正确答案】：A64.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布.这种属于数据挖掘的哪类问题A、关联规则分析B、聚类C、分类D、自然语言处理【正确答案】：A65.下列属于分类算法的是（）A、多元线性回归B、逻辑回归C、K均值D、一元线性回归【正确答案】：B66.下面有关分类算法的准确率，召回率，F1值的描述，错误的是A、准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率C、率正确率.召回率和F值取值都在0和1之间，数值越接近0，查准率或查全率就越高D、率为了解决准确率和召回率冲突问题，引入了F1分数【正确答案】：C67.SparkSQL的前身是（）。A、SQLB、SharkC、SparkRDDD、MapReduce【正确答案】：B68.YARN中默认的资源调度器是:（）。A、FIFO调度器B、容量调度器C、Fair调度器D、以上全部是【正确答案】：B69.input()输入的是数据类型是()A、整型B、复数型C、字符串型D、浮点型【正确答案】：C70.关于定义函数，说法正确是()A、函数中必须要写return语句B、函数没有return返回值为NoneC、函数要返回多少个值，就需要使用多少个return语句D、函数必需要return返回函数值【正确答案】：B71.交叉验证的目的是()A、提高分类准确率B、得到更稳定的模型C、验证结果的准确性D、增大分类的误差【正确答案】：B72.XGBoost它的本质是什么算法A、随机森林B、GBDTC、线性回归D、逻辑回归【正确答案】：B73.为了实现负载均衡、提升服务器端的数据处理能力、提高故障恢复能力以及保证服务质量等目的，NoSQL数据库采取（）技术。A、数据存储B、数据转换C、数据交互D、数据分布【正确答案】：D74.Linux系统中，哪一条命令可以用来装载所有在/etc/fstab中定义的文件系统？A、amountB、mount–aC、fmountD、mount–f【正确答案】：B75.下面正确的关闭文件的语句格式是()A、<变量名>.closeB、close(文件名)C、<变量名>.close()D、close(变量名)【正确答案】：C76.数据框中方法中dropna()的作用是A、去掉空值,并以默认值填充B、去掉空值所在的行C、去掉指定的某行D、去掉指定的某些值【正确答案】：B77.自然语言处理、语音识别、股票交易、气象预测等应用适合采用()处理。A、循环神经网络B、卷积神经网络C、多层神经网络D、单层神经网络【正确答案】：A78.下面（）子句专用于GroupBy操作中的条件过滤功能。A、WHERE子句B、HAVING子句C、LIMIT子句D、ORDERBY子句【正确答案】：B79.在决策树中，当一个节点分叉的时候，以下关于“信息增益”正确的是1.不纯的节点越少，越需要更多的信息来描述种群2.信息增益可以用熵作为“1-Entropy”来推导3.信息增益偏向于数值大的属性A、1B、2C、2和3D、都正确【正确答案】：C80.利用“linear_model.LinearRegression()”训练模型时调用.fit()方法需要传递的第一个参数是（）。A、样本特征XB、样本权重C、是否考虑计算截距D、样本标签Y【正确答案】：A81.使用哪个关键字声明匿名函数A、functionB、funcC、defD、lambda【正确答案】：D82.在python中，以下不能作为变量名的是A、5yB、TeacherC、studentD、_abc【正确答案】：A83.ROC曲线图凸向（），代表模型越理想。A、左上角B、左下角C、右上角D、右下角【正确答案】：A84.在select语句的where子句中使用正则表达式过滤数据的关键字是()A、likeB、againstC、matchD、regexp【正确答案】：D85.以下语句不能创建一个字典的是（）A、d={3:5}B、d={(1,2,3):'Python'}C、d={[1,2,3]:'Python'}D、d={}【正确答案】：C86.关于机器学习算法正确的是A、LR模型在加入正则化项后Variance将增大B、线性SVM是寻找最小边缘的超平面的一个分类器C、xgboost和GDBT都是属于boosting算法D、xgboost和随机森林都是属于bagging算法【正确答案】：C87.以下哪种方法不属于特征选择的标准方法：()A、嵌入B、过滤C、包装D、抽样【正确答案】：D88.在使用sklearn的时候，我们经常使用train_test_split函数来切分数据集为训练数据和测试数据，该函数位于哪个模块A、clusterB、preprocessingC、linear_modelD、model_selection【正确答案】：D89.BP神经网络具有很的表示能力，它经常遭遇（），其训练误差持续降低，但测试误差却可能上升。A、欠拟合B、误差过大C、误差过小D、过拟合【正确答案】：D90.以下关于人工神经网络的描述正确的是()A、神经网络对训练数据中的噪声不敏感，因此不用考虑数据质量B、神经网络训练后很容易得到分类的规则C、训练人工神经网络是一个很耗时的过程D、只能用于分类任务【正确答案】：C91.不属于KNN算法要素的是:A、k值的选择B、距离度量C、分类决策的规则D、训练样本的个数【正确答案】：D92.数据湖探索（DataLakeInsight，简称DLI）是支持以下（）形式的大数据计算分析服务。A、流式处理B、批处理C、流批一体D、都不支持【正确答案】：C93.当需要在字符串中使用特殊字符时，python使用哪项作为转义字符A、\B、/C、#D、%【正确答案】：A94.关于Python赋值语句，以下选项中不合法的是（）A、x=y=1B、x=(y=1)C、x,y=y,xD、x=1;y=1【正确答案】：B95.消息系统Kafka如何保证高吞吐能力?A、持久性机制B、Partition机制C、冗佘备份机制D、多订阅者机制【正确答案】：B96.在shell脚本中，当脚本编写完成后可以通过sh命令的什么参数来调试脚本？A、-xvB、-XvC、-oD、-t【正确答案】：A97.以下关于程序异常的处理描述中，错误的是A、在try-except-else-finally结构中，不管是否会发生异常，都会执行finally子句中的代码B、一般不建议在try中放太多代码，而建议只放入可能会引发异常的代码C、带有else子句的异常处理结构，如果不发生异常则执行else子句中的代码D、在try-except-else结构中，如果try子句的语句引发了异常，则会执行else子句中的代码【正确答案】：D98.参数delimiter的使用说明为（）A、str，数据的分割符B、bytes，编码格式C、bool，是否将加载的数据拆分为多个组，True表示拆，False不拆D、int，跳过多少行，一般用于跳过前几行的描述性文字【正确答案】：A99.shell中，当字符串用单引号''括起来时，SHELL将（）A、解释引号内的特殊字符B、执行引号中的命令C、不解释引号内的特殊字符D、结束进程【正确答案】：C100.下面哪种不属于数据预处理的方法？()A、变量代换B、离散化C、聚集D、估计遗漏值【正确答案】：D101.以下关于神经网络的说法中，正确的是A、增加网络层数，一定能减小训练集错误率B、减小网络层数，一定能减小测试集错误率C、增加网络层数，可能增加测试集错误率D、增加网络层数，一定增加测试集错误率【正确答案】：C102.关于累加器，下面哪个是错误的A、支持加法B、支持数值类型C、可并行D、不支持自定义类型【正确答案】：D103.属于卷积神经网络应用方向的是（）。A、图像分类B、目标检测C、图像语义分割D、以上答案都正确【正确答案】：D104.下列表达式的值为True的是（）A、5+5j>2-3jB、{'name1','name2'}!={'name2','name1'}C、(3,(6,4))>(3,(4,6))D、'abc'<'ab0'【正确答案】：C105.数据挖掘的英文简写是()A、DKDB、KDDC、DMDA【正确答案】：C106.KNN算法是基于（）A、概率空间B、颜色空间C、距离空间D、线性空间【正确答案】：C107.将年龄用区间标签（例如0~18、19~44、45-59、60~100）或概念标签（如儿童、青年、中年和老年表示），该描述中用到的数据变换的策略为()。A、标准化B、数值化C、连续化D、离散化【正确答案】：D108.大数据最显著的特征是:（）。A、数据规模大B、数据类型多样C、数据处理速度快D、数据价值密度高【正确答案】：A109.当决策树出现过拟合后，需要使用（）技术缩小树的结构和规模A、剪枝B、回归C、小波D、调和【正确答案】：A110.python文件的追加模式是A、+B、aC、tD、r【正确答案】：B111.为提高计算性能，Spark中Transformation操作采用的是()计算模式A、活性B、惰性C、实时D、非实时【正确答案】：B112.以下哪项不属于批量数据采集工具？A、SqoopB、FlumeC、其他ETL工具D、MapReduce【正确答案】：D113.foriin["one","two","three","four"]:print(i.upper(),end="")以上代码运行之后，结果为A、onetwothreefourB、twothreefouronetwothreefourC、twothreefourONETWOTHREEFOURD、twothreefourONETWOTHREEFOUR【正确答案】：C114.print(df.iloc[:,2])显示A、前两列B、后两列C、第二列D、前两行【正确答案】：A115.以下哪项属于DDL操作()A、updateB、createC、insertD、delete【正确答案】：B116.执行下列代码，运行错误的是deffunc(a,b=1,c=2):passA、func(1,2,3)B、func(1,c=7)C、func(1,,3)D、func(1)【正确答案】：C117.在数据分析和处理方面具有分析方法丰富、分析模型扩展差、数据挖掘能力强等特点的分析工具是()。A、WekaB、SPSSC、SASD、R【正确答案】：B118.假设有命令importnumpyasnpArray1=np.linspace(1,5,3,dtype=int)print(Array1)则,执行结果是A、[135]B、[125]C、[1.3.5.]D、[1.2.5.]【正确答案】：A119.关于MapReduce的存储，说法不正确的是（）。A、输入数据由GFS管理，一般存储在集群机器的本地磁盘B、GFS把每个文件分解成多个分片，并将每一个分片保存在多台机器C、MRv1采用基于槽位的资源分配模型，是一种粗粒度的资源划分单位D、Hadoop将槽位Slot分为JobSlot和TaskSlot【正确答案】：D120.下面哪个命令可以查询Hive中的表及表的基本信息？()A、ShowCreateTabletableNameB、ShowTablesC、ShowTableinfotableNameD、ShowtableName【正确答案】：B121.以下可获取信息表维度的是A、print(df.values)B、print(df.dtypes)C、print(df.ndim)D、print(df.unoqie)【正确答案】：C122.数据的存储结果指的是n=1000whilen>1:print(n)n=n/2A、11B、10C、9D、无限循环【正确答案】：B123.Python代码中mpl.rcParams['font.sans-serif']=['SimHei']的作用是(____)。A、设置图表中文显示的字体B、设置图表图例的位置C、设置图表标题的颜色D、设置图表标题的位置【正确答案】：A124.KNN方法中的K指的是什么？（）A、最近邻的距离阈值B、最近邻的个数C、最近邻的占总数据的比例D、最近邻的距离占数据最大距离的比例【正确答案】：B125.能将文本文件“data.txt”读取到数组data中的语句是:A、np.save('data.txt',data,fmt='%d')B、data1=np.load('data.txt')C、np.savetxt('data.txt',data,fmt='%d')D、data=np.loadtxt('data.txt')【正确答案】：D126.组合多条SQL查询语句形成组合查询的操作符是()A、SELECTB、ALLC、LINKD、UNION【正确答案】：D127.把本地文件放到集群里，可以使用下面哪个hadoopshell的命令?（）A、hadoopfs-putB、hadoopfs–put/C、hadoopfs–push/D、hadoop-push/【正确答案】：B128.关于选择k层交叉检验中“k”的值，以下说法正确的是A、k并不是越大越好，更大的k会减慢检验结果的过程B、选择更大的k会导致降低向真实期望错误的倾斜C、选择总是能最小化交叉验证中的方差的kD、以上所有【正确答案】：D129.以下选项中不是Python对文件的打开模式的是A、rB、wC、aD、c【正确答案】：D130.以下()问题不适合应用神经网络。A、预测电信客户流失的可能性B、辅助确定是否给银行的客户贷款C、对基金公司的客户进行分组，了解每组客户的特点D、股票走势的预测【正确答案】：C131.一般情况下，K-NN最近邻方法在()的情况下效果较好A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布【正确答案】：B132.关于L1、L2正则化下列说法正确的是？A、L2正则化能防止过拟合，提升模型的泛化能力，但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏【正确答案】：C133.程序如下S=0Foriinrange(1,11):s=s+ii=i+1Print(s)以上程序去掉那一语句，将不影响程序的功能()A、i=i+1B、print(s)C、s=s+iD、foriinrange(1,11):【正确答案】：A134.关于朴素贝叶斯分类算法，描述正确的是：A、它假设属性之间相互独立B、根据先验概率计算后验概率C、对于给定的待分类项X={a1,a2,…,an}，求解在此项出现的条件下各个类别yi出现的概率，哪个P(yi|X)最大，就把此待分类项归属于哪个类别。D、有最小错误率判断规则和最小风险判断规则【正确答案】：A135.关于Hive与Hadoop其他组件的关系，以下描述错误的是：（）A、Hive最终将数据存储在HDFS中B、Hive是Hadoop平台的数据仓库工具C、HQL可以通过MapReduce执行任务D、Hive对HBase有强依赖【正确答案】：D136.以下哪项用来分组()A、ORDERBYB、ORDEREDBYC、GROUPBYD、GROUPEDBY【正确答案】：C137.变量sstr='天使的翅膀带着我在尘世飞翔'，执行下列选项，不能输出'翅膀'的是A、print(sstr[3::2])B、print(sstr[3:-8])C、print(sstr[-10:-8])D、print(sstr[3:5])【正确答案】：A138.存储过程的调用有几种方式（)A、2B、3C、4D、1【正确答案】：D139.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计A、EM算法B、维特比算法C、前向后向算法D、极大似然估计【正确答案】：D140.假设有命令importnumpyasnpbArray=np.array([[1,2,3],[4,5,6]])则,bArray.ndim的结果是A、1B、2C、3D、4【正确答案】：B141.属于监督学习的机器学习算法是()A、贝叶斯分类器B、主成分分析C、K-MeansD、高斯混合聚类【正确答案】：A142.在HDFS中()是文件系统的工作节点。A、DataNodeB、ClientC、NameNodeD、Flume【正确答案】：A143.使用SVM模型遇到了欠拟合的问题，以下哪个选项能提高模型性能A、增加惩罚参数“C”B、减少惩罚参数C、减少核系数（gamma的值）D、以上均可【正确答案】：A144.Spark提供了较为灵活的集群管理模式，不包括（）A、Standalone模式B、Mesos模式C、Storage模式D、YARN模式【正确答案】：C145.数据仓库仅仅是提供存储的，提供一种()的服务，不面向最终分析用户：而数据集市是()的，面向最终用户。A、面向数据管理、面向分析应用B、面向分析应用、面向数据管理C、面向分析应用、面向事务交互D、面向事务交互、面向数据管理【正确答案】：A146.关于随机森林算法，下列说法不正确的是（）A、每一棵决策树之间是没有关联的B、后一棵树更关注上一棵树分错的样本C、每一棵树都不需要做剪枝D、每一棵树都是一棵CART树【正确答案】：B147.列表变量lis共包含10个元素，lis索引的取值范围是A、（0,10）B、（0,9）C、[0,10]D、[0,9]【正确答案】：D148.为了允许支持向量机在一些样本上出错，引入()的概念。A、软间隔B、硬间隔C、间隔D、误差【正确答案】：A149.与HadoopMapReduce的（）不同的是,Spark采用的是（）模式A、分布式计算，内存计算B、硬盘计算，内存计算C、批处理计算，分布式计算D、批处理计算，硬盘计算【正确答案】：B150.Python中关于全局变量和局部变量，以下选项中描述不正确的是A、全局变量是在整个py文件中声明，全局范围内都可以访问B、在函数内部修改全局变量的值，要先用global声明全局变量C、如果要修改全局变量，可在函数内部用关键字global声明D、全局变量不能和局部变量重名【正确答案】：D151.bootstrap数据是什么意思？A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征C、有放回地从总共N个样本中抽样n个样本D、无放回地从总共N个样本中抽样n个样本【正确答案】：C152.数据应用按照“谁经手，谁使用，谁负责”的原则，规范使用过程，切实防范()风险A、数据录入不及时B、业务数据失泄C、数据变更记录缺失D、业务数据不一致【正确答案】：B153.在Numpy包中，计算中位数的函数为（）A、numpy.var()B、numpy.mean()C、numpy.std()D、numpy.median()【正确答案】：D154.下列哪个语句在Python中是非法的（）A、x=(y=z+1)B、x=y=z=1C、x+=yD、x,y=y,x【正确答案】：A155.以下哪个是回归模型评判的指标A、mean_squared_errorB、准确率C、召回率D、轮廓系数【正确答案】：A156.以下保留字不属于分支结构的是A、ifB、elifC、elseD、while【正确答案】：D157.Lasso回归与传统的线性回归方程区别是A、增加L1范数惩罚因子B、增加L2范数惩罚因子C、无区别D、Lasso回归是线性方程在sigmoid函数上的嵌套【正确答案】：A158.下列不是递归程序特点的是（）A、一定要有基例B、执行效率高C、思路简单，代码不一定容易理解D、书写简单【正确答案】：B159.下列方法中没有考虑先验分布的是()A、最大后验估计B、贝叶斯分类器C、贝叶斯学习D、最大似然估计【正确答案】：D160.以下不能创建一个字典的语句是A、dict1={}B、dict2={3:5}C、dict3={[1,2,3]:“uestc”}D、dict4={(1,2,3):“uestc”}【正确答案】：C161.启动HBase集群的命令是（）。A、start-dfs.shB、zkServer.shstartC、start-hbase.shD、start-yarn.sh【正确答案】：C162.混淆矩阵中的TP=16，FP=12，FN=8，TN=4，查准率是（）A、44565B、44563C、44658D、44595【正确答案】：C163.在shell脚本中，以下哪个特殊符号代表所有向脚本传递的参数？A、$#B、$?C、$@D、$$【正确答案】：C164.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求A、二分类问题B、多分类问题C、层次聚类问题D、回归问题【正确答案】：B165.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘中的什么问题？()A、关联规则发现B、聚类C、自然语言处理D、分类【正确答案】：A166.以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称()A、双曲线B、P-R曲线C、科克曲线D、共轭曲线【正确答案】：B167.下面关于支持向量机（SVM）的描述错误的是A、是一种监督式学习的方法B、可用于多分类的问题C、是一种生成式模型D、支持非线性的核函数【正确答案】：C168.Hadoop的三种运行模式不包括()。A、单机模式B、单分布式模式C、完全分布式模式D、伪分布式模式【正确答案】：B169.逻辑运算符中not、anor的优先级从高到低排列的是（）。A、not>and>orB、not>or>andC、and>not>orD、or>not>and【正确答案】：A170.标准差的方法名称为A、ptpB、stdC、covD、var【正确答案】：B171.数据加工的本质是()。A、将低层次数据转换为高层次数据的过程B、将复杂数据转换为简单数据的过程C、将脏数据处理为干净数据的过程D、将乱数据处理为整齐数据的过程【正确答案】：A172.如果使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明A、欠拟合B、模型很棒C、过拟合D、算法不好【正确答案】：C173.（）是一种处理时序数据的神经网络，常用语语音识别、机器翻译等领域。A、前馈卷神经网络B、卷积神经网络C、循环神经网络D、对抗神经网络【正确答案】：C174.Hadoop中，使用命令（）可以启动分布式计算系统。A、start-hdfs.shB、start-mapreC、start-map.shD、start-fs.sh【正确答案】：B175.在一个线性回归问题中，我们使用R平方（R-Squared）来判断拟合度。此时，如果增加一个特征，模型不变，则下面说法正确的是？A、如果R-Squared增加，则这个特征有意义B、如果R-Squared减小，则这个特征没有意义C、仅看R-Squared单一变量，无法确定这个特征是否有意义。D、以上说法都不对【正确答案】：C176.“ab”+”c”*2结果是：A、abc2B、abcabcC、abccD、Ababcc【正确答案】：C177.以下程序输出结果中，正确的是nums=[1,2,3,4]nums.append([5,6,7,8])print(len(nums))A、4B、5C、8D、以上都不对【正确答案】：B178.关于特征选择，下列对Ridge回归和Lasso回归说法正确的是A、Ridge回归适用于特征选择B、Lasso回归适用于特征选择C、两个都适用于特征选择D、以上说法都不对【正确答案】：B179.在Spark运行过程中，每个Job可以划分为更小的Task集合，每组任务被称为（）。A、DAGBlockC、ApplicationD、Stage【正确答案】：D180.time库的time.time()函数的作用是()A、返回系统当

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据-单选复习试题及答案

文档简介

温馨提示

最新文档

评论