版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据开发基础大数据开发基础(习题卷33)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下列说法正确的是()。A)散点图不能在子图中绘制B)散点图的x轴刻度必须为数值C)折线图可以用作查看特征间的趋势关系D)箱线图可以用来查看特征间的相关关系答案:C解析:[单选题]2.以下属于非监督学习算法的是()A)SVMB)knnC)k-meansD)LR答案:C解析:[单选题]3.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是()。A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样答案:D解析:[单选题]4.预剪枝是指在决策树生成过程中,对每个结点在划分(__)进行估计。A)前B)中C)后D)不估计答案:A解析:[单选题]5.通常来说,()能够用来预测连续因变量A)线性回归B)逻辑回归C)线性回归和逻辑回归D)以上答案都不正确答案:A解析:[单选题]6.机器学习中,基于样本分布的距离是()。A)马氏距离B)欧式距离C)曼哈顿距离D)闵可夫斯基距离答案:A解析:马氏距离是基于样本分布的一种距离。[单选题]7.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:A)二分类问题B)多分类问题C)层次聚类问题D)回归问题答案:B解析:[单选题]8.修改数据库表结构用以下哪一项()A)UPDATEB)CREATEC)UPDATEDD)ALTER答案:D解析:[单选题]9.下列表达式中,返回True的是()。A)a=2b=2a=bB)3>2>1C)TrueandFalseD)2!=2答案:B解析:[单选题]10.以下哪个不是Flume的核心组件:()A)数据块(Block)B)数据源(Source)C)数据通道(Channel)D)数据槽(Sink)答案:A解析:[单选题]11.Oracle数据中,创建一个数据库需要多少个控制文件A)0B)1C)2D)3答案:B解析:[单选题]12.下列对Hadoop存储机制描述不正确的是()。A)HDFS中的默认的存储单元是64M的数据块B)在HDFS中,如果一个文件的大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的C)HDFS中的默认的存储单元是32M的数据块D)在HDFS中有量中两种重要的节点分别是NameNode和DataNode答案:C解析:[单选题]13.定义类如下:classhello():defshowInfo(sef):print(self.x)下面描述正确的是A)该类不可以实例化B)该类可以实例化C)在pycharm工具中会出现语法错误,说self没有定义D)该类可以实例化,并且能正常通过对象调用showInfo()答案:B解析:[单选题]14.type(1e6)的结果为()。A)<class'int'>B)<class'float'>C)<class'complex'>D)<class'bool'>答案:B解析:1e6为float类型。[单选题]15.下面哪个功能不是大数据平台安全管理组件提供的功能()。A)接口代理B)接口认证C)接口授权D)路由代理答案:D解析:接口可以对用户的身份和请求的参数进行验证,以保证接口的安全。通过添加身份验证和数字签名的方法提高接口安全性,防止数据被集改和信息泄露。[单选题]16.数据的原始内容及其备份数据,是数据产品的研发的哪个阶段()。A)零次数据B)一次数据C)二次数据D)采集数据答案:A解析:[单选题]17.ADS的普通表的一级分区数量最多有()。A)无限制B)128个C)256个D)1000个答案:C解析:[单选题]18.多用于结构分析场景,以树枝状形式展示数据构成或内在逻辑关系的图表是?()A)雷达图B)漏斗图C)瀑布图D)树图答案:D解析:[单选题]19.()监控信息不能从OTS的用户管理控制台直接获得。A)读写吞吐量B)平均返回延迟值C)QPSD)TPS答案:D解析:[单选题]20.()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻圃了学习问题本身的难度A)偏差B)方差C)噪声D)泛化误差答案:C解析:[单选题]21.Python使用()符号标示注释。A)&B)*C)#D)//答案:C解析:单行注释使用#号。[单选题]22.Jieba的()会把文本精确切分,不存在冗余单词。A)匹配模式B)全模式C)精准模式D)搜索引擎模式答案:C解析:精准模式不存在冗余,而全模式存在。[单选题]23.输人图像已被转换为大小为28x28的矩阵和大小为7x7的步幅为1的核心/滤波十器卷和提阵的大小是()A)22x22B)21x21C)28x28D)7x7答案:A解析:[单选题]24.下列Maxcompute的()函数可以用在查询的where子句中。A)userdefinedtablefunctionB)userdefinedaggregationfunctionC)userdefinedscalarfunctionD)userdefinedfunction答案:D解析:[单选题]25.下面关于机械思维的核心思想,描述错误的是:()A)世界变化的规律是确定的B)lit界变化的规律是无法确定的C)规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚D)这些规律应该是放之四海而皆准的.可以应用到各种未知领域指导实践答案:B解析:[单选题]26.int('0xa',16)的结果为()。A)10B)12C)16D)a答案:A解析:[单选题]27.有关Hive支持的基本数据类型,以下那个是4byte有符合整数()A)TinyintB)SmalintC)IntD)Bigint答案:C解析:[单选题]28.HDFS默认的副本是几份?A)5B)3C)6D)4答案:B解析:[单选题]29.真负率是指(__)。A)正样本预测结果数/正样本实际数B)被预测为负的正样本结果数/正样本实际数C)被预测为正的负样本结果数/负样本实际数D)负样本预测结果数/负样本实际数答案:D解析:[单选题]30.?啤酒与尿布?的故事体现了哪种大数据思维方式()A)我为人人,人人为我B)全样而非抽样C)效率而非精确D)相关而非因果答案:D解析:[单选题]31.大数据中所说的数据量大是指数据达到了()级别?A)MBB)PBC)KBD)TB答案:B解析:[单选题]32.Stage的Task的数量由什么决定()A)PartitionB)JobC)StageD)TaskScheduler答案:A解析:[单选题]33.在Hadoop配置文件中,以下属于core-site.xml文件主要内容的是()A)用于定义系统级别的参数,如HDFSURL、Hadoop的临时目录等。B)名称节点和数据节点的存放位置、文件副本的个数文件读取权限等。C)配置ResourceManager,NodeManager的通信端口,web监控端口等。D)包括JobHistoryServer和应用程序参数两部分,如reduce任务的默认个数、任务所能够使用内存的默认上下限等。答案:A解析:[单选题]34.要在HDFS的根目录中建立一个叫hadoo的目录,下面哪一条命令是正确的()A)mkdirhadooB)mkdir/hadooC)hadoopmkdirhadooD)hadoopfs-mkdir/hadoo答案:D解析:记住即可[单选题]35.RDD的特点不包括()。A)RDD之间有依赖关系,可溯源B)RDD由很多partition构成C)对RDD的每个split或partition做计算D)RDD可以增量更新答案:D解析:[单选题]36.下图为Flume数据传输架构,图中???号处的组件是?A)InterceptorB)ChannelProcessorC)ChannelSelectorD)以上全不正确答案:C解析:[单选题]37.sklearn.decomposition.PCA()的作用是()。A)因子分析B)数据降维C)稀疏编码D)唯一编码答案:B解析:PCA()是一种常用的降维方法,在数据维度较高时使用。[单选题]38.聚类是一类重要的机器学习算法,以下哪些场景属于聚类问题?A)判断一个网络访问是否为入侵访问。B)某网商对客户的购物行为进行分析,从而为不同组用户推荐商品C)根据学生的成绩,给出学生的名次。D)对数据库的论文根据内容主题的不同做划分答案:D解析:[单选题]39.数据科学是一门以()为主要研究任务的独立学科。A)数据驱动、数据业务化、数据洞见、数据产品研发和(或)数据生态系统的建设B)数据研发C)数据处理D)数据洞见答案:A解析:数据科学是一门以实现从数据到信息、从数据到知识和(或)从数据到智慧的转化为主要研究目的,以数据驱动、数据业务化、数据洞见、数据产品研发和(或)数据生态系统的建设为主要研究任务的独立学科。[单选题]40.使用()关键字声明匿名函数。A)functionB)funcC)defD)lambda答案:D解析:[单选题]41.Hbase元数据MetaRegion路由器信息存放在()。A)ZookeeperB)Meta表C)HMasterD)Root表答案:B解析:[单选题]42.下面描述错误是:()A)?探针盒子?就是一款自动收集用户隐私的产品B)许多顾客在使用WiFi之后会收到大量的广告信息,甚至自己的手机号码也会被当做信息进行多次买卖C)在免费上网的背后,其实也存在着不小的信息安全风险,或许8一不小心,就落入了电脑黑客们设计的WiFi陷阱之中D)免费WIFI都是安全的,可以放心使用答案:D解析:[单选题]43.下述说法错误的是()A)、关联规则属于半监督学习B)、有监督学习使用已知模式预测数据,其使用前提是训练集为带标签数据C)、当训练集中是不带标签的信息时,通常采用无监督学习算法D)、半监督学习算法有半监督分类方法(如生成式方法、判别式方法等)答案:A解析:[单选题]44.()负责HDFS数据存储。A)NameNodeB)JobTrackerC)DataNodeD)SecondaryNameNode答案:C解析:DataNode负责HDFS的数据块存储。[单选题]45.对数几率回归(logisticsregression)和一般回归分析有什么区别?A)对数几率回归是设计用来预测事件可能性的B)对数几率回归可以用来度量模型拟合程度C)对数几率回归可以用来估计回归系数D)以上所有答案:D解析:[单选题]46.多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的()技术。A)无监督特征选择B)无监督降维C)监督特征选择D)监督降维答案:D解析:[单选题]47.下列数据类型Hive不支持的是()。A)StructB)IntC)MapD)Long答案:D解析:Hive支持原生数据类型(TinyInt、SmallInt、Int、BigInt、Boolean、Float、Double、String),也支持复杂数据类型(Map、Array、Struct、Union),不支持Long。[单选题]48.下列(___)是对目录操作。A)mkdirB)printC)closeD)remove答案:A解析:[单选题]49.下列方法中,能够让所有单词的首字母变成大写的方法是()。A)capitalizeB)titleC)upperD)Ijust答案:B解析:[单选题]50.数据质量以()为监控对象,目前支持对离线数据的监控。A)数据群B)数据集C)数据列D)数据模块答案:B解析:[单选题]51.以下描述中不属于"规整数据(TidyData)"三个基本原则的是()。A)每一类观察单元构成一个关系(表)B)每个观察占且仅占一行C)每个变量占且仅占一列D)每个观察占且仅占一个关系(表)答案:D解析:tidyData原则为每列代表一个单独变量、每行代表单个观察值、每种观察形成一个表格。[单选题]52.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()。A)2x+y=4B)x+2y=5C)x+2y=3D)2x-y=0答案:C解析:对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。斜率是两点连线的斜率的负倒数。即-1/(-1-3)/(0-2)=-1/2,可得y=-(1/2)x+c,过中点(0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故方程为x+2y=3。[单选题]53.下面关于MapReduce的描述中正确的是?A)MapReduce程序必须包含Mapper和ReducerB)MapReduce程序的MapTask可以任意指定C)MapReduce程序的ReduceTask可以任意指定D)MapReduce程序的默认数据读取组件是TextInputFormat答案:D解析:[单选题]54.自然语言理解是人工智能的重要应用领域,下面列举中的()不是它要实现的目标。A)理解别人讲的话。B)对自然语言表示的信息进行分析概括或编辑。C)欣赏音乐。D)机器翻译。答案:C解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.以下布尔表达式在逻辑上等同的是哪几个()?A)not(-610)B)-6>=0and-6C)not(-6D)not(-6>10or-6==10)答案:ABC解析:[多选题]56.有效抑制机器学习过拟合的方法是?()A)加大数据量B)减少数据量C)重新设计损失函数,引入平滑函数D)平滑损失函数答案:ACD解析:[多选题]57.大数据计算框架Flink的支持哪些资源调度方式?A)DockerB)YARNC)StandaloneD)Mesos答案:ABCD解析:[多选题]58.下列关于学习器的性能度量说法正确的是(__)。A)对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为:真正例、假正例、真反例、假反例B)查准率和查全率是一对矛盾的度量C)一般来说,查准率越高,查全率往往也偏高D)一般来说,查准率越高,查全率往往偏低答案:ABD解析:[多选题]59.以下属于决策树算法是:()A)CLSB)ID3C)C4.5D)CART答案:ABCD解析:[多选题]60.数据的类型主要包括:()A)文本B)图片C)音频D)视频答案:ABCD解析:[多选题]61.时间序列的作用包含:()A)为预测和决策提供可靠的数量信息B)深入揭示现象变化的数据特征C)反映现象发展变化的趋势和规律D)揭示现象变化的内在原因答案:ABCD解析:[多选题]62.Hive执行查询的时候会调用哪些模块?A)executorB)complierC)optimizerD)MetaStore答案:ABCD解析:[多选题]63.Zookeeper中的数据节点znode分为哪几种类型?A)semi-persistentB)ephemeralC)temporaryD)persistent答案:BD解析:[多选题]64.下图展示了HDFS的标签存储策略,观察下图,HBase的数据会被存储到哪些数据节点上A)DataNodeAB)DataNodeBC)DataNodeED)DataNodeF答案:AB解析:[多选题]65.下列方法中,可以用于特征降维的方法包括()A)主成分分析PCAB)线性判别分析LDAC)深度学习SparseAutoEncoderD)矩阵奇异值分解SVD答案:ABD解析:[多选题]66.关于离散化说法错误的有()A)离散化是将数值属性转换为字符串型属性B)有监督离散化有两种等宽和等频方法C)等宽离散化是使实例分布均匀的D)离散化包括无监督离散化和有监督离散化答案:ABC解析:[多选题]67.MySQL可以运行在以下哪些平台上A)MacOSB)UbuntuC)RedHatD)Windows答案:ABCD解析:[多选题]68.长短时记忆神经网络兰个门是()A)进化门B)输出门C)输入门D)遗忘门答案:BCD解析:[多选题]69.Flink可以基于以下哪些窗口进行统计?A)时间窗口B)滑动窗口C)会话窗口D)countWindow答案:ABCD解析:[多选题]70.调用Zookeeper客户端命令中包含哪些信息?A)Ip地址B)端口号C)服务器名称D)用户名答案:AB解析:[多选题]71."噪声"是指测量变量中的随机错误或偏差,噪声数据的主要表现有哪几种形式()A)错误数据B)假数据C)异常数据D)僵尸数据答案:ABC解析:错误数据、假数据、异常数据在测量变量中多被定义为噪声。[多选题]72.影响基本K-均值算法的主要因素有()A)样本输入顺序B)模式相似性测度C)聚类准则D)初始类中心的选取答案:ABD解析:[多选题]73.联接可将水平方向上合并两个数据集合,并产生一个新的结果集合。联接可分为()A)内部联接B)外部联接C)顺序联接D)交叉联接答案:ABD解析:[多选题]74.对于Maxcompute的多路输出(multiinsert),()描述是不正确的。A)对于源表为分区表的,相同的一个分区不能出现多次B)目标表为分区表的,对于不同的分区,可以混合使用insertinto和insertoverwrite,对于相同的分区则不可混用C)一般情况下,单个sql中最多可以写128路输出D)对于源表为未分区表的,该表可以出现多次答案:BD解析:[多选题]75.以下是复数的有()。A)k=2+3jB)k=complex(2,3)C)k=2+3lD)k=2+3J答案:ABD解析:[多选题]76.关于K均值和DBSCAN的比较,以下说法正确的是()A)K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B)K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C)K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D)K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇答案:BCD解析:[多选题]77.Redis使用场景包含以下哪些特点?A)支持持久化B)丰富数据结构在取C)低时延D)高性能答案:ABCD解析:第3部分:判断题,共16题,请判断题目是否正确。[判断题]78.df1=pdA)正确B)错误答案:错解析:[判断题]79.牛顿的方法论就是机械思维A)正确B)错误答案:对解析:[判断题]80.Oracle是非关系型数据库的一种。()A)正确B)错误答案:对解析:[判断题]81.在Windows平台上编写的Python程序无法在Unix平台运行。A)正确B)错误答案:错解析:[判断题]82.使用列表推导式生成包含10个数字5的列表,语句可以写为[5foriinrange(10)]。A)正确B)错误答案:对解析:[判断题]83.HBase支持完整的事务机制。A)正确B)错误答案:错解析:[判断题]84.假设有非空列表x,那么x.append(3)、x=x+[3]与x.insert(0,3)在执行时间上基本没有太大区别A)正确B)错误答案:错解析:[判断题]85.列表可以作为字典的?键?A)正确B)错误答案:错解析:[判断题]86.Spark本身并没有提供分布式文件系统,因此Spark的分析大多依赖于Hadoop的分布式文件系统HDFS。A)正确B)错误答案:对解析:[判断题]87.离线批处理,通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用,离线处理对处理时间要求不高。A)正确B)错误答案:对解析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论