大数据建模练习(习题卷5)_第1页
大数据建模练习(习题卷5)_第2页
大数据建模练习(习题卷5)_第3页
大数据建模练习(习题卷5)_第4页
大数据建模练习(习题卷5)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据建模练习大数据建模练习(习题卷5)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据建模练习第1部分:单项选择题,共39题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.?中国宝钢集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率?这个案例属于()的应用A)分类B)聚类C)规则发现D)预测答案:A解析:[单选题]2.OLAM技术一般简称为?数据联机分析挖掘?,下面说法正确的是:A)OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性B)由于OLAM的立方体和用于OLAP的立方体有本质的区别C)基于WEB的OLAM是WEB技术与OLAM技术的结合D)OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作答案:D解析:[单选题]3.删除数据表用以下哪一项()A)DROPB)UPDATEC)DELETED)DELETED答案:A解析:[单选题]4.设x=10;y=20,下列语句能正确运行结束的是:A)max=x>y?x:yB)whileTrue:passC)min=xifx<yelseyD)if(x>y)print(x)答案:C解析:[单选题]5.以下程序不可能的输出结果是:fromrandomimport*x=[30,45,50,90]print(choice(x))A)30B)45C)55D)90答案:C解析:[单选题]6.以下关于程序控制结构描述错误的是:A)单分支结构是用if保留字判断满足一个条件,就执行相应的处理代码B)二分支结构是用if-else根据条件的真假,执行两种处理代码C)多分支结构是用if-elif-else处理多种可能的情况D)在Python的程序流程图中可以用处理框表示计算的输出结果答案:D解析:[单选题]7.什么是KDD?A)数据挖掘与知识发现B)领域知识发现C)文档知识发现D)动态知识发现答案:A解析:[单选题]8.以下语句错误的是()A)altertableempdeletecolumnaddcolumn;B)altertableempmodifycolumnaddcolumnchar(10);C)altertableempchangeaddcolumnaddcolumnint;D)altertableempaddcolumnaddcolumnint;答案:A解析:[单选题]9.下面关于数据粒度的描述不正确的是:A)粒度是指数据仓库小数据单元的详细程度和级别B)数据越详细,粒度就越小,级别也就越高C)数据综合度越高,粒度也就越大,级别也就越高D)粒度的具体划分将直接影响数据仓库中的数据量以及查询质量答案:C解析:[单选题]10.以下匹配'1ton'和'2ton'及'3ton'的正则表达式是()A)'123ton'B)'1,2,3ton'C)'[123]ton'D)'1|2|3ton'答案:C解析:[单选题]11.关系数据库中,主键是()A)创建唯一的索引,允许空值B)只允许以表中第一字段建立C)允许有多个主键的D)为标识表中唯一的实体答案:D解析:[单选题]12.触发器不是响应以下哪一语句而自动执行的Mysql语句A)selectB)insertC)deleteD)update答案:A解析:[单选题]13.使用SELECT语句随机地从表中挑出指定数量的行,可以使用的方法是()A)在LIMIT子句中使用RAND()函数指定行数,并用ORDERBY子句定义一个排序规则B)只要使用LIMIT子句定义指定的行数即可,不使用ORDERBY子句C)只要在ORDERBY子句中使用RAND()函数,不使用LIMIT子句D)在ORDERBY子句中使用RAND()函数,并用LIMIT子句定义行数答案:D解析:[单选题]14.下列有关数据库的描述,正确的是A)数据库是一个关系B)数据库是一个DBF文件C)数据库是一个结构化的数据集合D)数据库是一组文件答案:C解析:[单选题]15.按某种逻辑关系组织起来的一批数据,按一定的映象方式把它存放在计算机的存储器中,并在这些数据上定义了一个运算的集合,就叫做()。A)运算结构B)关系结构C)数据结构D)数据库答案:C解析:[单选题]16.例如数据库中有A表,包括学生,学科,成绩三个字段,数据库结构为学生学科成绩张三语文80张三数学100李四语文70李四数学80李四英语80如何统计每个学科的最高分()A)select学生,max(成绩)fromAgroupby学生;B)select学生,max(成绩)fromAgroupby学科;C)select学生,max(成绩)fromAorderby学生;D)select学生,max(成绩)fromAgroupby成绩;答案:B解析:[单选题]17.下面哪种不属于数据预处理的方法?A)变量代换B)离散化C)聚集D)估计遗漏值答案:D解析:[单选题]18.以下哪项用来排序()A)ORDEREDBYB)ORDERBYC)GROUPBYD)GROUPEDBY答案:B解析:[单选题]19.按照姓名降序排列()A)ORDERBYDESCNAMEB)ORDERBYNAMEDESCC)ORDERBYNAMEASCD)ORDERBYASCNAME答案:B解析:[单选题]20.以下能够删除一列的是()A)altertableempremoveaddcolumnB)altertableempdropcolumnaddcolumnC)altertableempdeletecolumnaddcolumnD)altertableempdeleteaddcolumn答案:B解析:[单选题]21.()的工作内容是先收集初始数据,然后进行熟悉数据的各种活动,包括识别数据的质量问题,找到对数据的基本观察,或假设隐含的信息来检测出感兴趣的数据子集A)数据理解B)业务理解C)数据预处理D)建模答案:A解析:[单选题]22.用来插入数据的命令是(),用于更新的命令是()A)INSERT,UPDATEB)CREATE,INSERTINTOC)DELETE,UPDATED)UPDATE,INSERT答案:A解析:[单选题]23.以下关于文件的描述,错误的是:A)二进制文件和文本文件的操作步骤都是?打开-操作-关闭?B)open()打开文件之后,文件的内容并没有在内存中C)open()只能打开一个已经存在的文件D)文件读写之后,要调用close()才能确保文件被保存在磁盘中了答案:C解析:[单选题]24.在天算建模平台中,常用聚合算子实现对数据进行分组和统计。以下关于聚合函数算子的说法不正确的是A)统计某个时间段内购买车票总花费的金额数,需要用到?总和?函数。B)统计某个人入住宾馆的总次数,需要用到?总数?函数C)需要统计旅馆住宿的人群中,其中人员最小的年龄时,需要用到?最小?函数。D)需要统计某人某段时间在某个宾馆出现的次数时,需要用到?总和?函数答案:D解析:[单选题]25.如果要回滚一个事务,则要使用()语句。A)committransactionB)begintransactionC)revokeD)rollbacktransaction答案:D解析:[单选题]26.运行以下程序,输出结果的是:str1="NanjingUniversity"str2=str1[:7]+"Normal"+str1[-10:]print(str2)A)NormalUB)NanjingNormalC)NormalUniversityD)NanjingNormalUniversity答案:D解析:[单选题]27.以下关于random库的描述,正确的是:A)设定相同种子,每次调用随机函数生成的随机数不相同B)通过fromrandomimport*引入random随机库的部分函数C)uniform(0,1)与uniform(0.0,1.0)的输出结果不同,前者输出随机整数,后者输出随机小数D)randint(a,b)是生成一个[a,b]之间的整数答案:D解析:[单选题]28.下列哪一种不属于BI工具数据集的数据字段类型?()A)文本B)数值C)日期D)整型答案:D解析:[单选题]29.用于将事务处理写到数据库的命令是()A)insertB)rollbackC)commitD)savepoint答案:C解析:[单选题]30.下列哪些语句对主键的说明正确()A)主键可重复B)主键不唯一C)在数据表中的唯一索引D)主键用foreignkey修饰答案:C解析:[单选题]31.用户输入整数的时候不合规导致程序出错,为了不让程序异常中断,需要用到的语句是:A)if语句B)eval语句C)try-except语句D)循环语句答案:C解析:[单选题]32.以下程序输出到文件text.csv里的结果是:fo=open("text.csv",'w')x=[90,87,93]fo.write(",".join(str(x)))fo.close()A)[90,87,93]B)90,87,93C),9,0,,,,8,7,,,,9,3,D)[,9,0,,,,8,7,,,,9,3,]答案:D解析:[单选题]33.软件开发的结构化生命周期方法将软件生命周期划分成A)定义、开发、运行维护B)设计阶段、编程阶段、测试阶段C)总体设计、详细设计、编程调试D)需求分析、功能定义、系统设计答案:A解析:[单选题]34.R是用于统计分析、绘图的语言和操作环境。R是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。以下哪个不是R语言的优点?A)完整的程序设计语言B)开源软件C)运行速度快D)扩展包多答案:C解析:[单选题]35.可以用一组属性描述其定义、标识、表示和允许值的数据单元,在一定语境下,通常用于构建一个正确、独立且无歧义的特定概念语义的信息单元,可以理解为数据的基本单元。请问该基本单元是指?A)字段B)数据元C)元数据D)数值答案:B解析:[单选题]36.从数据表中查找记录用以下哪一项()A)UPDATEB)FINDC)SELECTD)CREATE答案:C解析:[单选题]37.有三个表,它们的记录行数分别是10行、2行和6行,三个表进行交叉连接后,结果集中共有()行数据A)18B)26C)不确定D)120答案:D解析:第2部分:多项选择题,共27题,每题至少两个正确答案,多选或少选均不得分。[多选题]38.mySQL支持哪些逻辑运算符A)&&B)||C)NOTD)AND答案:CD解析:[多选题]39.在mysql提示符下可以输入一个SQL语句,并以()结尾,然后按回车执行该语句()A)?\G?B)?。?C)?\g?D)?;?答案:ACD解析:[多选题]40.HBase是Hadoop的数据库,能对大型数据提供随即、实时的读写访问,存储处理大型的数据。Hbase还是一个开源的、分布式的、多版本的、面向列的存储模型,存储松散型数据。以下属于Hbase特点的是?A)高可靠性B)高效性C)可伸缩D)可搭建大规模的结构化存储集群答案:ABCD解析:[多选题]41.下面的选项是关系数据库基本特征的是()。A)与列的次序无关B)不同的列应有不同的数据类型C)不同的列应有不同的列名D)与行的次序无关答案:ACD解析:[多选题]42.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。ID项集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、鸡蛋4面包、尿布、啤酒、鸡蛋5啤酒、鸡蛋A)面包、牛奶、尿布B)面包、啤酒C)尿布、啤酒D)啤酒、鸡蛋答案:AD解析:[多选题]43.关于GBDT算法,下列说法正确的是()?A)增加用于分割的最小样本数量,有助于避免过拟合B)增加用于分割的最小样本数量,容易造成过拟合C)减小每个基本树的样本比例,有助于减小方差D)减小每个基本树的样本比例,有助于减小偏差答案:AC解析:[多选题]44.关于Excel数据库应用的描述正确的有()。A)是一个数据清单B)是按一定组织方式存储在一起的相关数据的集合C)是一个数组D)是程序化的电子表格答案:AB解析:[多选题]45.关于神经网络,下列说法正确的是?()A)增加网络层数,可能会增加测试集分类错误率B)增加网络层数,一定会增加训练集分类错误率C)减少网络层数,可能会减少测试集分类错误率D)减少网络层数,一定会减少训练集分类错误率答案:AC解析:[多选题]46.对于删除操作以下说法正确的是()A)dropdatabase数据库名:删除数据库B)deletefrom表名;删除表中所有记录条C)deletefrom表名where字段名=值;删除符合条件的记录条D)droptable表名;删除表答案:ABCD解析:[多选题]47.在数据库系统中,有哪几种数据模型?()A)实体联系模型B)关系模型C)网状模型D)层次模型答案:BCD解析:[多选题]48.数据接入是认识数据的过程,通过认识数据,定义数据从获取、处理、存储、使用到消亡全生命周期的流转机制及各环节的流程、方法和程序;根据数据定义将数据读入大数据中心,并完成与数据提供方的数据对账。数据接入模块主要包含哪几部分的操作?A)数据探查B)数据定义C)数据读取D)数据对账答案:ABCD解析:[多选题]49.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及()等方面A)挖掘频繁模式B)分类和预测C)聚类分析D)偏差分析答案:ABCD解析:[多选题]50.L-BFGS的描述中,正确的是()A)适合大规模的数值计算B)具备牛顿法收敛速度快的特点C)不需要存储Hesse矩阵D)空间消耗相对于BFGS小答案:ABCD解析:[多选题]51.下列关于sigmoid函数描述正确的是()A)取值范围为(0,1),他可以将一个实数映射到(0,1)的区间,看做概率值B)只能做二分类C)阈值一般设置在0.5,大于该值的概率表示正例D)只有该函数能将实数映射到(0,1)区间答案:ABC解析:[多选题]52.下列说法正确的是()A)一张数据表一旦建立完成,是不能修改的。B)在MySQL中,用户在单机上操作的数据就存放在单机中。C)在MySQL中,可以建立多个数据库,但也可以通过限定,使用户只能建立一个数据库。D)要建立一张数据表,必须先建数据表的结构。答案:BCD解析:[多选题]53.ApacheHadoop具有良好的生态圈系统,在Hadoop的生态圈中包含了许许多多的组件,以下组件哪些属于Hadoop生态圈中的组件A)HDFSB)YarnC)HbaseD)Sqoop答案:ABCD解析:[多选题]54.以下哪些分类方法不能避免样本的不平衡问题()A)KNNB)SVMC)BayesD)神经网络答案:BCD解析:[多选题]55.在评价不平衡类问题分类的度量方法有如下几种:()A)F1度量B)召回率(recall)C)精度(precision)D)真正率(turepositiverate,TPR)答案:ABCD解析:[多选题]56.Pandas是数据分析的三大剑客之一,是Python的核心数据分析库,它提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理各种类型的数据,那Pandas能处理什么样的数据?A)与SQL或Excel表类似的数据B)有序和无序(非固定频率)的时间序列数据C)带行列标签的矩阵数据D)任意其他形式的观测、统计数据集答案:ABCD解析:[多选题]57.以下哪些选项关于决策树的说法是正确的()A)冗余属性不会对决策树的准确率造成不利的影响B)子树可能在决策树中重复多次C)决策树算法对于噪声的干扰非常敏感D)寻找最佳决策树是NP完全问题答案:ABD解析:[多选题]58.下面属于训练集(Trainingdataset)和测试集(Testingdataset)区别表述的是()A)Testingdataset用于测试寻找到的函数的效果B)Trainingdataset用于寻找函数C)Trainingdataset用于挑选模D)Trainingdataset用于构建模型答案:ABCD解析:[多选题]59.关于OLAP和OLTP的区别描述,正确的是:()A)OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的答案:ABD解析:[多选题]60.关于CREATE语句下列说法正确的是()A)createtable表名(字段名1字段类型,字段名2字段类型,)B)createtables表名(字段类型,字段名1字段类型,字段名2)C)createtables表名(字段名1字段类型,字段名2字段类型,)D)createtable表名(字段类型,字段名1字段类型,字段名2)答案:AD解析:[多选题]61.网络安全(CyberSecurity)是指网络系统的()、()及其系统中的()受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。A)硬件B)软件C)数据D)设备答案:ABC解析:[多选题]62.在mysql提示符下,输入____命令,可以查看由mysql自己解释的命令()A)\?B)?C)helpD)\h答案:BCD解析:[多选题]63.在挖掘同住人员时往往需要计算同住宿人前后入住的时间差,如已将时间转换成时间戳,要计算两列时间戳时间差的计算可以使用A)添加字段B)时间处理C)列计算D)缺失值处理答案:AC解析:[多选题]64.下面列出的条目中,哪些是数据仓库的基本特征:()A)数据仓库是面向主题的B)数据仓库的数据是集成的C)数据仓库的数据是相对稳定的D)数据仓库的数据是反映历史变化的E)数据仓库是面向事务的答案:ACD解析:第3部分:判断题,共21题,请判断题目是否正确。[判断题]65.大数据的价值是通过数据共享、算法共享后获取最大的数据价值A)正确B)错误答案:错解析:[判断题]66.在训练完SVM之后,我们可以只保留支持向量,而舍去所有非支持向量。仍然不会影响模型分类能力A)正确B)错误答案:对解析:[判断题]67.()MySQL数据库管理系统只能在Windows操作系统下运行。A)正确B)错误答案:错解析:[判断题]68.()逻辑值的?真?和?假?可以用逻辑常量TRUE和FALSE表示。A)正确B)错误答案:对解析:[判断题]69.离群点可以是合法的数据对象或者值。A)正确B)错误答案:对解析:[判断题]70.BI工具数据集数据可以直接在数据集页面手工修改()A)正确B)错误答案:错解析:[判断题]71.pip命令也支持扩展名为.whl的文件直接安装Python扩展库A)正确B)错误答案:对解析:[判断题]72.机器学习的实质是根据现有数据,寻找输入数据和输出数据的映射关系/函数A)正确B)错误答案:对解析:[判断题]73.()建立索引的目的在于加快查询速度以及约束输入的数据。A)正确B)错误答案:对解析:[判断题]74.数据仓库中间层OLAP服务器只能采用关系型OLAPA)正确B)错误答案:错解析:[判断题]75.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测,并将这些用户喜欢的项推荐给有相似兴趣的用户A)正确B)错误答案:对解析:[判断题]76.增加模型的复杂度,总能减小训练样本误差A)正确B)错误答案:对解析:[判断题]77.只能通过切片访问列表中的元素,不能使用切片修改列表中的元素A)正确B)错误答案:错解析:[判断题]78.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集A)正确B)错误答案:对解析:[判断题]79.用于分类的离散化方法之间的根本区别在于是否使用类信息A)正确B)错误答案:对解析:[判断题]80.在UTF-8编码中一个汉字需要占用3个字节A)正确B)错误答案:对解析:[判断题]81.已知x为非空列表,那么执行语句x[0]=3之后,列表对象x的内存地址不变A)正确B)错误答案:对解析:[判断题]82.Python数据结构主要有列表、元组、字典和集合,其中列表与元组完成一样,包括方法与属性都是一样;字典与集合都是用{},字典有键值对,集合没有。A)正确B)错误答案:错解析:[判断题]83.()在C/S模式中,客户端不能和服务器端安装在同一台机器上。A)正确B)错误答案:错解析:[判断题]84.在try...except...else结构中,如果try块的语句引发了异常则会执行else块中的代码A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论