版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页大数据-单选复习测试题1.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计A、EM算法B、维特比算法C、前向后向算法D、极大似然估计【正确答案】:D2.Spark计算框架在分布式环境下对数据处理后的结果进行随机的、实时的存储归功于()。A、HiveB、OracleC、MongodbD、HBase【正确答案】:D3.在shell脚本中,当脚本编写完成后可以通过sh命令的什么参数来调试脚本?A、-xvB、-XvC、-oD、-t【正确答案】:A4.当决策树出现过拟合后,需要使用()技术缩小树的结构和规模A、剪枝B、回归C、小波D、调和【正确答案】:A5.()是一种处理时序数据的神经网络,常用语语音识别、机器翻译等领域。A、前馈卷神经网络B、卷积神经网络C、循环神经网络D、对抗神经网络【正确答案】:C6.importpandasaspddf=pd.DataFrame('a':[1,2,3])print(df.shape)输出结果是A、(3,)B、(3,1)C、(,3)D、-3【正确答案】:B7.1.如下:str1="Runoobexamplewow!!!"str2="exam";Print(str1.find(str2,5))打印的结果是A、6B、7C、8D、-1【正确答案】:B8.F1参数(),说明模型越稳定。A、越小B、越大C、越趋近于某一特定值D、F1参数和模型稳定性没有关系【正确答案】:B9.以下选项中不是Python对文件的打开模式的是A、rB、wC、aD、c【正确答案】:D10.回归问题和分类问题的区别是什么?A、回归问题与分类问题在输入属性值上要求不同B、回归问题有标签,分类问题没有C、回归问题输出值是连续的,分类问题输出值是离散的D、回归问题输出值是离散的,分类问题输出值是连续的【正确答案】:C11.现在有一亿条数据要插入Hbase,使用下列哪种方式最好?A、shell端put命令B、put方法C、bulkload方法D、insert方法【正确答案】:C12.死锁发生的原因是()A、并发控制B、服务器故障C、数据错误D、操作失误【正确答案】:A13.Hive常被用来处理()场景。A、事务性处理B、批量计算C、实时性计算D、流计算【正确答案】:B14.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求A、二分类问题B、多分类问题C、层次聚类问题D、回归问题【正确答案】:B15.在shell脚本中,标准输出文件(stdout)的文件描述符为多少?A、0B、1C、2D、3【正确答案】:B16.下列不是递归程序特点的是()A、一定要有基例B、执行效率高C、思路简单,代码不一定容易理解D、书写简单【正确答案】:B17.与传统关系数据库不同的是,HBase是()的数据库。A、结构化的B、单一版本的C、面向列D、非开源的【正确答案】:C18.一般情况下,KNN最近邻方法在()情况下效果最好A、样本呈现团状分布B、样本呈现链状分布C、样本较多但典型性不好D、样本较少但典型性好【正确答案】:D19.input()输入的是数据类型是()A、整型B、复数型C、字符串型D、浮点型【正确答案】:C20.在shell脚本中,以下哪个特殊符号代表所有向脚本传递的参数?A、$#B、$?C、$@D、$$【正确答案】:C21.在HDFS中()是文件系统的工作节点。A、DataNodeB、ClientC、NameNodeD、Flume【正确答案】:A22.ROC曲线图凸向(),代表模型越理想。A、左上角B、左下角C、右上角D、右下角【正确答案】:A23.SparkSQL的前身是()。A、SQLB、SharkC、SparkRDDD、MapReduce【正确答案】:B24.为了观察测试Y与X之间的线性关系,X是连续变量,使用下列哪种图形比较适合?A、散点图B、柱形图C、直方图D、以上都不对【正确答案】:A25.数据加工的本质是()。A、将低层次数据转换为高层次数据的过程B、将复杂数据转换为简单数据的过程C、将脏数据处理为干净数据的过程D、将乱数据处理为整齐数据的过程【正确答案】:A26.使用哪个关键字声明匿名函数A、functionB、funcC、defD、lambda【正确答案】:D27.下列说法错误的是A、当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解B、进行PCA降维时,需要计算协方差矩阵C、沿负梯度的方向一定是最优的方向D、利用拉格朗日函数能解带约束的优化问题【正确答案】:C28.Python中关于函数的形参与实参,以下选项中描述不正确的是A、实参就是在函数调用的时候,通过函数后面的括号传递给函数,让函数处理的值B、形参只是在函数定义时使用C、实参可以是变量或值D、函数的实参不可以是表达式【正确答案】:D29.关于Python赋值语句,下列选项不合法的是A、m,n=n,mB、n=2;m=3C、n,m=12D、n,m="12"【正确答案】:C30.以下哪项属于DDL操作()A、updateB、createC、insertD、delete【正确答案】:B31.Spark为处理结构化数据而设计的模块是()A、SparkSQLB、SparkStreamingC、MLibD、Graphx【正确答案】:A32.下列属于分类算法的是()A、多元线性回归B、逻辑回归C、K均值D、一元线性回归【正确答案】:B33.当不知道数据所处类别时,可以使用哪种技术促使同类数据与其他类数据分离A、分类B、聚类C、关联分析D、隐马尔可夫链【正确答案】:B34.在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数()A、EpsB、MinPtsC、质心D、边界【正确答案】:B35.下列哪一个神经网络模型更适合于自然语言处理()A、卷积神经网络CNNB、循环神经网络RNNC、BP神经网络模型D、Hopfield神经网格模型【正确答案】:B36.print(df.iloc[[1,3]])显示A、第1和第3行B、第1到第3行C、第1和第3列D、第1到第3列【正确答案】:A37.Hadoop中MapReduce组件擅长处理()场景的计算任务。A、迭代计算B、离线计算C、实时交互计算D、流式计算【正确答案】:B38.()是用来评估神经网络计算模型对样本的预测值和真实值之间的误差大小。A、优化函数B、梯度下降C、反向传播D、损失函数【正确答案】:D39.Python代码中mpl.rcParams['font.sans-serif']=['SimHei']的作用是(____)。A、设置图表中文显示的字体B、设置图表图例的位置C、设置图表标题的颜色D、设置图表标题的位置【正确答案】:A40.print(df.iloc[:,2])显示A、前两列B、后两列C、第二列D、前两行【正确答案】:A41.下面有关分类算法的准确率,召回率,F1值的描述,错误的是A、准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率C、率正确率.召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率就越高D、率为了解决准确率和召回率冲突问题,引入了F1分数【正确答案】:C42.对Boosting模型的描述错误的是A、采用串行训练模式B、增加被错误分类样本的权值C、通过改变训练集进行有针对性的学习D、基础分类器采用少数服从多数原则进行集成【正确答案】:D43.将年龄用区间标签(例如0~18、19~44、45-59、60~100)或概念标签(如儿童、青年、中年和老年表示),该描述中用到的数据变换的策略为()。A、标准化B、数值化C、连续化D、离散化【正确答案】:D44.能够提取出图片边缘特征的网络是()。A、全连接层B、池化层C、卷积层D、隐藏层【正确答案】:C45.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样【正确答案】:D46.评估完模型之后,发现模型存在高偏差(highbias),应该如何解决?A、减少模型的特征数量B、增加模型的特征数量C、增加样本数量D、以上说法都正确【正确答案】:B47.数据挖掘的英文简写是()A、DKDB、KDDC、DMDA【正确答案】:C48.下列Python3代码运行的结果为()a=1try:a+=1except:a+=1else:a+=1finally:a+=1print(a)A、2B、3C、4D、5【正确答案】:C49.在MapReduce中,通常把Map拆分成了M个片段,把Reduce拆分成R个片段执行。一般情况下,()由用户指定。A、M值B、R值C、M值和R值D、以上都不正确【正确答案】:B50.deff1(a,b):A,b=1,2returnA,bA,b=10,20Print(a,b)Print(f1(a,b))Print(a,b)第二和第三个print函数分别输出的结果是()A、(1,2)12B、(10,20)12C、(1,2)1020D、(10,20)1020【正确答案】:C51.()属于无监督学习A、分类B、回归C、聚类D、决策树模型【正确答案】:C52.一般而言,若数据类别比例超过()即认为数据集中存在不均衡数据的现象A、0.084027778B、0.167361111C、0.042361111D、0.125694444【正确答案】:B53.假如你在训练一个线性回归模型,有下面两句话:1、如果数据量较少,容易发生过拟合。2、如果假设空间较小,容易发生过拟合。关于这两句话,下列说法正确的是?A、1和2都错误B、1正确,2错误C、1错误,2正确D、1和2都正确【正确答案】:B54.评估完模型后,我们发现模型中有很高的偏差。我们怎样来减少这个偏差A、减少模型中特征的数量B、增加模型中特征的数量C、增加模型中的数据点D、以上所有【正确答案】:B55.1.执行以下代码,返回结果是x={"姓名":"张三","单位":"河北电信"}print(x.pop("单位","abcd"))A、{"姓名":"张三"}B、"河北电信"C、"abcd"D、"张三"【正确答案】:B56.deff1(a,b):c=a*breturna*b+10Print(f1(2,4))Print(c)第二print函数的输出的是()A、c未定义B、4C、2D、8【正确答案】:A57.Python程序采用Unicode编码,英文字符和中文字符在Python中分别对应字符长度分A、2和2B、1和1C、2和1D、1和2【正确答案】:B58.在决策树中,当一个节点分叉的时候,以下关于“信息增益”正确的是1.不纯的节点越少,越需要更多的信息来描述种群2.信息增益可以用熵作为“1-Entropy”来推导3.信息增益偏向于数值大的属性A、1B、2C、2和3D、都正确【正确答案】:C59.数据框中方法中dropna()的作用是A、去掉空值,并以默认值填充B、去掉空值所在的行C、去掉指定的某行D、去掉指定的某些值【正确答案】:B60.在数据清洗中,对“脏”数据源需要进行操作处理,不包括以下哪个方面A、完全清除某些输入字段B、自动替换掉某些错误数据值C、对分配和调整的规则进行完备的文档记录D、补入一些丢失的数据【正确答案】:C61.下列哪个语句在Python中是非法的()A、x=(y=z+1)B、x=y=z=1C、x+=yD、x,y=y,x【正确答案】:A62.以下关于Hive内置函效描述正确的是?A、to_data():获取当前日期B、descfunctionsupper:查看系统自带的函效C、substr():求字符串长度D、trim():去除空字符【正确答案】:D63.下列Python3代码运行的结果为()a='a'print(a>'b'or'c')A、aB、bC、cD、FALSE【正确答案】:C64.Hbase中数据存储的文件格式是:()。A、HlogB、TextFileC、HfileD、SequenceFile【正确答案】:C65.关于break的作用,下列说法中正确的是()A、跳出所有for/while循环B、按照缩进跳出一层语句块C、跳出一层for/while循环D、按照缩进跳出除函数缩进外的所有语句块【正确答案】:C66.请输入以下代码的输出形式x=np.array([1,2,3])y=np.array([4,5,6])print(x**y)A、["579"]B、["-3-3-3"]C、["41018"]D、["132729"]【正确答案】:D67.设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作A、分桶B、分区C、索引D、分表【正确答案】:A68.Hadoop框架是用下面()语言写的A、PytyonB、JavaC++D、Scala【正确答案】:B69.关于选择k层交叉检验中“k”的值,以下说法正确的是A、k并不是越大越好,更大的k会减慢检验结果的过程B、选择更大的k会导致降低向真实期望错误的倾斜C、选择总是能最小化交叉验证中的方差的kD、以上所有【正确答案】:D70.执行下列程序,输出结果为()deffun(a,*,b):print(b)fun(1,2,3,4)A、[2,3,4]B、[3,4]C、报错D、4【正确答案】:C71.下面关于贝叶斯分类器描述错误的是A、以贝叶斯定理为基础B、是基于后验概率,推导出先验概率C、可以解决有监督学习的问题D、可以用极大似然估计法解贝叶斯分类器【正确答案】:B72.在shell脚本中如何移除array数组中索引为2的元素?A、delarray[2]B、unsetarray[2]C、removearray[2]D、rmarray[2]【正确答案】:B73.关于L1、L2正则化下列说法正确的是?A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏【正确答案】:C74.HDFS中的block默认保存几个备份A、3份B、2份C、1份D、不确定【正确答案】:A75.在shell脚本中,标准错误文件(stderr)的文件描述符为多少?A、0B、1C、2D、3【正确答案】:C76.1.关于以下代码,运行结果正确的是s1="k:1|k1:2|k2:3|k3:4"d1={}lst=s1.split("|")foriinlst:lst2=i.split(":")d1[lst2[0]]=lst2[1]print(d1)A、{'k':'1','k1':'2','k2':'3','k3':'4'}B、["k:1","k1:2","k2:3","k3:4"]C、["k","1","k1","2","k2","3","k3","4"]D、程序错误【正确答案】:A77.给出如下代码,可以输出"Python"的是()S='Pythonisbeautiful!'A、print(s[0:6].lower())B、print(s[-21:-14].lower)C、print(s[:-14])D、print(s[1:6])【正确答案】:C78.关于定义函数,说法正确是()A、函数中必须要写return语句B、函数没有return返回值为NoneC、函数要返回多少个值,就需要使用多少个return语句D、函数必需要return返回函数值【正确答案】:B79.属于监督学习的机器学习算法是()A、贝叶斯分类器B、主成分分析C、K-MeansD、高斯混合聚类【正确答案】:A80.在shell脚本中,显示用户的主目录的命令是什么?A、echo$HOMEB、echo$USERDIRC、echo$ENVD、echo$ECHO【正确答案】:A81.以下哪项不属于批量数据采集工具?A、SqoopB、FlumeC、其他ETL工具D、MapReduce【正确答案】:D82.以下描述中,属于决策树策略的是()A、最优投影方向B、梯度下降方法C、最大特征值D、最大信息增益【正确答案】:D83.以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称()A、双曲线B、P-R曲线C、科克曲线D、共轭曲线【正确答案】:B84.以下()问题不适合应用神经网络。A、预测电信客户流失的可能性B、辅助确定是否给银行的客户贷款C、对基金公司的客户进行分组,了解每组客户的特点D、股票走势的预测【正确答案】:C85.以下哪项不属于Python语言的特点()A、依赖平台B、支持中文C、语法简洁D、类库丰富【正确答案】:A86.关于朴素贝叶斯分类算法,描述正确的是:A、它假设属性之间相互独立B、根据先验概率计算后验概率C、对于给定的待分类项X={a1,a2,…,an},求解在此项出现的条件下各个类别yi出现的概率,哪个P(yi|X)最大,就把此待分类项归属于哪个类别。D、有最小错误率判断规则和最小风险判断规则【正确答案】:A87.属于卷积神经网络应用方向的是()。A、图像分类B、目标检测C、图像语义分割D、以上答案都正确【正确答案】:D88.Hadoop的三种运行模式不包括()。A、单机模式B、单分布式模式C、完全分布式模式D、伪分布式模式【正确答案】:B89.卷积神经网络(convolu-tionalneuralnetwork,CNN),是一种专门用来处理具有类似()的数据的神经网络。A、网格结构B、数组结构C、序列结构D、表格结构【正确答案】:A90.以下代码输出的结果是x=(1,)print(type(x))A、<class'dict'>B、<class'set'>C、<class'tuple'>D、<class'int'>【正确答案】:C91.执行以下代码,当用户输入:python,输出结果为try:n=eval(input("请输入一个整数:"))print(n*3)except:print("输入错误,请重新输入!")A、输入错误,请重新输入!B、pythonpythonpythonC、没有任何输出D、python**3【正确答案】:A92.有关朴素贝叶斯分类算法的叙述中正确的是()A、朴素贝叶斯分类算法是一种精确的分类算法B、采用朴素贝叶斯分类算法将一个样本分到某个类别中,表示它100%属于该类别C、朴素贝叶斯分类算法是一种基于概率的分类算法D、以上都不对【正确答案】:C93.以下哪项不属于Python语言的特点()A、依赖平台B、支持中文C、语法简洁D、类库丰富【正确答案】:A94.SQL语句中的条件用以下哪一项来表达()A、THENB、WHILEC、WHERED、IF【正确答案】:C95.在python中,以下不能作为变量名的是A、5yB、TeacherC、studentD、_abc【正确答案】:A96.在Numpy包中,计算中位数的函数为()A、numpy.var()B、numpy.mean()C、numpy.std()D、numpy.median()【正确答案】:D97.()是通用编程语言。A、PythonB、HTMLC、JavaScriptD、SQL【正确答案】:A98.以下语句错误的是()A、altertableempdeletecolumnaddcolumn;B、altertableempmodifycolumnaddcolumnchar(10);C、altertableempchangeaddcolumnaddcolumnint;D、altertableempaddcolumnaddcolumnint;【正确答案】:A99.为数据表创建索引的目的是()A、提高查询的检索性能B、归类C、创建唯一索引D、创建主键【正确答案】:A100.我们想在大数据集上训练决策树,为了使用较少时间,我们可以()A、减少树的数量B、增加树的深度C、减少树的深度D、增加学习率【正确答案】:C101.shell中,当字符串用单引号''括起来时,SHELL将()A、解释引号内的特殊字符B、执行引号中的命令C、不解释引号内的特殊字符D、结束进程【正确答案】:C102.查看视图的字段信息命令A、show视图名B、DESCRIBE视图名;C、create视图名D、view视图名【正确答案】:B103.启动HBase集群的命令是()。A、start-dfs.shB、zkServer.shstartC、start-hbase.shD、start-yarn.sh【正确答案】:C104.关于Hive建表基本操作,描述正确的是:()A、一旦表建好,不可再修改表名B、一旦表建好,不可再增加新列C、创建外表时需要指定external关键字D、一旦表建好,不可再修改列名【正确答案】:C105.假设有命令importnumpyasnpbArray=np.array([[1,2,3],[4,5,6]])则,bArray.ndim的结果是A、1B、2C、3D、4【正确答案】:B106.将python中的.py文件转换为.pyc文件的组件为()A、编辑器B、编译器C、虚拟机D、解释器【正确答案】:B107.以下程序输出结果中,正确的是nums=[1,2,3,4]nums.append([5,6,7,8])print(len(nums))A、4B、5C、8D、以上都不对【正确答案】:B108.下面哪种不属于数据预处理的方法?()A、变量代换B、离散化C、聚集D、估计遗漏值【正确答案】:D109.以下保留字不属于分支结构的是A、ifB、elifC、elseD、while【正确答案】:D110.自然语言处理、语音识别、股票交易、气象预测等应用适合采用()处理。A、循环神经网络B、卷积神经网络C、多层神经网络D、单层神经网络【正确答案】:A111.下列表达式的值为True的是()A、5+5j>2-3jB、{'name1','name2'}!={'name2','name1'}C、(3,(6,4))>(3,(4,6))D、'abc'<'ab0'【正确答案】:C112.可以创建3*3单位矩阵的命令是:A=np.zeros(3)B、A=np.ones(3)C、A=np.eye(3)D、A=np.full(3,3)【正确答案】:C113.一般来说,下列哪种方法常用来预测连续独立变量?A、线性回归B、逻辑回顾C、线性回归和逻辑回归都行D、以上说法都不对【正确答案】:A114.以下关于神经网络的说法中,正确的是A、增加网络层数,一定能减小训练集错误率B、减小网络层数,一定能减小测试集错误率C、增加网络层数,可能增加测试集错误率D、增加网络层数,一定增加测试集错误率【正确答案】:C115.参数delimiter的使用说明为()A、str,数据的分割符B、bytes,编码格式C、bool,是否将加载的数据拆分为多个组,True表示拆,False不拆D、int,跳过多少行,一般用于跳过前几行的描述性文字【正确答案】:A116.以下语句的执行结果是______。Y1=''Y2=''Print(y1.isspace(),y2.isspace())A、FalseFalseB、FalseTrueC、TrueTrueD、TrueFalse【正确答案】:B117.把本地文件放到集群里,可以使用下面哪个hadoopshell的命令?()A、hadoopfs-putB、hadoopfs–put/C、hadoopfs–push/D、hadoop-push/【正确答案】:B118.请选择以下代码的输出形式x=np.array([1,2,3])y=np.array([4,5,6])print(x-y)A、["579"]B、["-3-3-3"]C、["132729"]D、["41018"]【正确答案】:B119.python文件的追加模式是A、+B、aC、tD、r【正确答案】:B120.Scala中,数组的遍历方式不包含()。A、for循环遍历B、while循环遍历C、do...while循环遍历D、do...for循环遍历【正确答案】:D121.绘制散点图用到哪种函数A、scatterB、barC、pieD、boxplot【正确答案】:A122.以下异常类型,哪一个是使用的序列对象的位置索引超出范围时引发的异常?A、ImportErrorB、IndentationErrorC、IndexErrorD、TypeError【正确答案】:C123.下列关于存储过程的特点说法正确的是()A、用户创建的存储过程或自定义函数可以重复调用,因此数据传输量少。B、编写的SOL存储在数据库中,因此执行速度快。C、创建时编译,执行时调用,因此开发效率高。D、通过指定存储过程的访问权限,因此安全系数高。【正确答案】:D124.HBase为什么适用于海量数据存储?A、集群规模小B、支持列存表C、多列簇特性D、HDFS做底层存储【正确答案】:D125.HBase依赖()提供强大的计算能力。A、ZookeeperB、ChubbyC、RPCD、MapReduce【正确答案】:D126.数据仓库仅仅是提供存储的,提供一种()的服务,不面向最终分析用户:而数据集市是()的,面向最终用户。A、面向数据管理、面向分析应用B、面向分析应用、面向数据管理C、面向分析应用、面向事务交互D、面向事务交互、面向数据管理【正确答案】:A127.foriin["one","two","three","four"]:print(i.upper(),end="")以上代码运行之后,结果为A、onetwothreefourB、twothreefouronetwothreefourC、twothreefourONETWOTHREEFOURD、twothreefourONETWOTHREEFOUR【正确答案】:C128.下面关于支持向量机(SVM)的描述错误的是A、是一种监督式学习的方法B、可用于多分类的问题C、是一种生成式模型D、支持非线性的核函数【正确答案】:C129.在shell脚本中,以下哪个特殊符号代表脚本运行的当前进程ID号?A、$#B、$*C、$?D、$$【正确答案】:D130.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离A、分类B、聚类C、关联规则发现D、主成分分析【正确答案】:B131.下列算法常用于聚类的问题是A、k-meansB、逻辑回归模型C、决策树模型D、随机森林模型【正确答案】:A132.关于排序的参数axis的使用说明为()A、要排序的数组B、排序算法,默认为“quicksort”C、排序的字段名,可指定字段排序,默认为NoneD、使得sort函数可以沿着指定轴对数据集进行排序【正确答案】:D133.列表变量lis共包含10个元素,lis索引的取值范围是A、(0,10)B、(0,9)C、[0,10]D、[0,9]【正确答案】:D134.用于分类与回归应用的主要算法有:()Apriori算法、HotSpot算法B、RBF神经网络、K均值法、决策树C、K均值法、SOM神经网络D、决策树、BP神经网络、贝叶斯【正确答案】:D135.下面哪个程序负责HDFS数据存储?()A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode【正确答案】:C136.以下代码的输出结果是______。Forsin"HelloWorld":ifs=="W":continuePrint(s,end="")A、HelloB、HelloWorldC、WorldD、Helloorld【正确答案】:D137.关于k折交叉验证,下列说法正确的是?A、k值并不是越大越好,k值过大,会降低运算速度B、选择更大的k值,会让偏差更小,因为k值越大,训练集越接近整个训练样本C、选择合适的k值,能减小验方差D、以上说法都正确【正确答案】:D138.关于MapReduce的存储,说法不正确的是()。A、输入数据由GFS管理,一般存储在集群机器的本地磁盘B、GFS把每个文件分解成多个分片,并将每一个分片保存在多台机器C、MRv1采用基于槽位的资源分配模型,是一种粗粒度的资源划分单位D、Hadoop将槽位Slot分为JobSlot和TaskSlot【正确答案】:D139.函数dtypes的返回值为A、维度数B、索引C、元素D、类型【正确答案】:D140.以下关于程序异常的处理描述中,错误的是A、在try-except-else-finally结构中,不管是否会发生异常,都会执行finally子句中的代码B、一般不建议在try中放太多代码,而建议只放入可能会引发异常的代码C、带有else子句的异常处理结构,如果不发生异常则执行else子句中的代码D、在try-except-else结构中,如果try子句的语句引发了异常,则会执行else子句中的代码【正确答案】:D141.bootstrap数据是什么意思?A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征C、有放回地从总共N个样本中抽样n个样本D、无放回地从总共N个样本中抽样n个样本【正确答案】:C142.根据是否需要标注数据,机器学习方法可以分为有监督学习和无监督学习。监督学习中的训练集用于A、定量评价机器学习性能B、估算模型C、验证模型D、定性评价机器学习性能【正确答案】:B143.以下哪项用来分组()A、ORDERBYB、ORDEREDBYC、GROUPBYD、GROUPEDBY【正确答案】:C144.在sklearn中,下面哪个类或方法,位于preprocessing模块A、train_test_splitB、LabelEncoderC、accuracy_scoreDecisionTreeClassifier【正确答案】:B145.通过查询语句使用关键字()可以向Hive表中插入数据。A、LoadB、InsertC、ImportD、Location【正确答案】:B146.在Python中,令s='3.14159',下列选项描述错误的是(____)。A、float(s)的结果是3.14159B、int(s)的结果是3C、bool(s)的结果是TrueD、bool(None)的结果是True【正确答案】:D147.Hadoop生态系统中,HBase是一种()。A、分布式文件系统B、数据仓库C、实时分布式数据库D、分布式计算系统【正确答案】:C148.以下机器学习中,在数据预处理时,不需要考虑归一化处理的是A、logistic回归B、SVMC、树形模型D、神经网络【正确答案】:C149.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核【正确答案】:D150.以下哪个是回归模型评判的指标A、mean_squared_errorB、准确率C、召回率D、轮廓系数【正确答案】:A151.Numpy包中创建数组的函数为()A、arrayB、shapeC、reshapeD、ndim【正确答案】:A152.不属于KNN算法要素的是:A、k值的选择B、距离度量C、分类决策的规则D、训练样本的个数【正确答案】:D153.在数据分析和处理方面具有分析方法丰富、分析模型扩展差、数据挖掘能力强等特点的分析工具是()。A、WekaB、SPSSC、SASD、R【正确答案】:B154.以下哪个命令不能在hadoop中创建test文件夹A、hadoopfs-mkdirtestB、hadoopdfs-mkdirtestC、hdfsdfs-mkdirtestD、hdfsls-mkdirtest【正确答案】:D155.Sk-learn中用于生成精准率、召回率和F1得分的函数是()。APB、CMatrixC、completeness_scoreD、classification_report【正确答案】:D156.在一个线性回归问题中,我们使用R平方(R-Squared)来判断拟合度。此时,如果增加一个特征,模型不变,则下面说法正确的是?A、如果R-Squared增加,则这个特征有意义B、如果R-Squared减小,则这个特征没有意义C、仅看R-Squared单一变量,无法确定这个特征是否有意义。D、以上说法都不对【正确答案】:C157.关于Python赋值语句,以下选项中不合法的是()A、x=y=1B、x=(y=1)C、x,y=y,xD、x=1;y=1【正确答案】:B158.()是一类机器学习技术,在学习模型时,它使用标记的和未标记的实例。A、监督学习B、无监督学习C、半监督学习D、主动学习【正确答案】:C159.最小二乘回归方法的等效回归方法()A、Logistic回归B、多项式回归C、非线性基函数回归D、线性均值和正态误差的最大似然回归【正确答案】:D160.使用哪个关键字来创建python自定义函数A、functionB、funcC、procedureD、def【正确答案】:D161.Scikit-Learn中,()可以实现整数分类值转化为独热向量。A、OridinalEncoderB、OneHotEncoderC、LableEncoderD、AutoEncoder【正确答案】:B162.HDFS的设计是以()为主要应用场景。A、一次写入,一次读取B、多次写入,一次读取C、一次写入,多次读取D、多次写入,多次读取【正确答案】:C163.Scala是一种纯粹的面向对象语言,每一个值都是()。A、类B、接口C、特质D、对象【正确答案】:D164.在n维空间中(n>1),下列哪种方法最适合用来检测异常值?A、正态概率图B、箱形图C、马氏距离D、散点图【正确答案】:C165.YARN中默认的资源调度器是:()。A、FIFO调度器B、容量调度器C、Fair调度器D、以上全部是【正确答案】:B166.Spark核心层主要关注()问题A、存储B、计算C、传输D、连接【正确答案】:B167.deff1(a,b):a=a+breturnA,10Print(f1(1,2))Print函数输出的结果是()A、(3,10)B、(10,3)C、(10,10)D、(3,3)【正确答案】:A168.shell中,以下哪个命令能判断变量var是否为空A、test[-f$var]B、test[-e$var]C、test[-a$var]D、test[-z$var]【正确答案】:D169.大数据最显著的特征是:()。A、数据规模大B、数据类型多样C、数据处理速度快D、数据价值密度高【正确答案】:A170.1.下列代码中n输出的值是m=lambdax,y,z:(x+y)**zn=m(1,2,3)A、9B、3C、36D、27【正确答案】:D171.为了实现负载均衡、提升服务器端的数据处理能力、提高故障恢复能力以及保证服务质量等目的,NoSQL数据库采取()技术。A、数据存储B、数据转换C、数据交互D、数据分布【正确答案】:D172.下面哪个命令可以查询Hive中的表及表的基本信息?()A、ShowCreateTabletableNameB、ShowTablesC、ShowTableinfotableNameD、ShowtableName【正确答案】:B173.使用SVM模型遇到了欠拟合的问题,以下哪个选项能提高模型性能A、增加惩罚参数“C”B、减少惩罚参数C、减少核系数(gamma的值)D、以上均可【正确答案】:A174.数据的存储结果指的是n=1000whilen>1:print(n)n=n/2A、11B、10C、9D、无限循环【正确答案】:B175.Lasso回归与传统的线性回归方程区别是A、增加L1范数惩罚因子B、增加L2范数惩罚因子C、无区别D、Lasso回归是线性方程在sigmoid函数上的嵌套【正确答案】:A176.Linux系统中,哪一条命令可以用来装载所有在/etc/fstab中定义的文件系统?A、amountB、mount–aC、fmountD、mount–f【正确答案】:B177.关于降维算法,下列说法错误的是()。A、PCA是有监督学习算法B、ICA能够使数据中的的分量最大化独立,而PCA不能C、LDA是有监督学习算法D、LDA降维后,同类别的数据分布更为密集【正确答案】:A178.EM算法是A、有监督B、无监督C、半监督D、都不是【正确答案】:B179.Spark的技术架构可以分为三层,不包括()A、Spark核心层B、服务层C、平台层D、资源管理层【正确答案】:C180.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?A、第一个B、第二个C、第三个D、第四个【正确答案】:B181
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度矿山设备搬运作业合同3篇
- 田园猫行业销售工作总结
- 玩具行业业务员工作总结
- 二零二五年度出租车夜间运营承包合作协议3篇
- 二零二五年度施工合同施工进度与竣工验收标准3篇
- 土地使用权买卖协议书(2篇)
- 国际设计展览会赞助合同(2篇)
- 二零二五年度包车居间服务合同范本(货运版)2篇
- 二零二五年度旅游项目开发融资合同范本3篇
- 对数方程换底换元法计算举例解析A5
- 2025年度爱读书学长策划的读书讲座系列合同2篇
- 广东省深圳市宝安区2024-2025学年八年级英语上学期1月期末英语试卷(含答案)
- 《招标投标法》考试题库200题(含答案)
- 《交通运输行业安全生产监督检查工作指南 第2部分:道路运输》
- 初二生物期末质量分析及整改措施
- 公交车站台服务规范与安全意识
- 云南省楚雄彝族自治州2024届高三上学期期末考试数学试题(解析版)
- 苏州工业园区ESG发展白皮书
- 《安防摄像机智能化指标要求和评估方法》
- 慢阻肺护理个案病例范文
- 辽宁省工程咨询集团有限责任公司 笔试 题库
评论
0/150
提交评论