大数据挖掘技术练习(习题卷3)_第1页
大数据挖掘技术练习(习题卷3)_第2页
大数据挖掘技术练习(习题卷3)_第3页
大数据挖掘技术练习(习题卷3)_第4页
大数据挖掘技术练习(习题卷3)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.关于基本数据的元数据是指:A)基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B)基本元数据包括与企业相关的管理方面的数据和信息;C)基本元数据包括日志文件和简历执行处理的时序调度信息;D)基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.答案:D解析:[单选题]2.在上题中,属于定量的属性类型是:A)标称B)序数C)区间D)相异答案:C解析:[单选题]3.关于OLAP的特性,下面正确的是:()(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A)(1)(2)(3)B)(2)(3)(4)C)(1)(2)(3)(4)D)(1)(2)(3)(4)(5)答案:D解析:[单选题]4.当所有观测值都落在回归直线上,则这两个变量之间的相关系数为()A)1B)-1C)+1或-1D)0答案:C解析:[单选题]5.在SQL中,创建数据库用的命令是()A)CREATESCHEMAB)CREATETABLEC)CREATEVIEWD)CREATEDATABASE答案:D解析:[单选题]6.DBSCAN最大时间复杂度的是A)O(m)B)O(m2)C)O(logm)D)O(m*logm)答案:B解析:[单选题]7.LTE中采用CP(CyclicPrefix)的主要目的是()A)可以抵抗多径带来的ISI和ICIB)可以提高峰值速率C)可以降低PARD)可以减小系统时延答案:A解析:[单选题]8.5G时代来临,万物互联互通将不再只是纸上谈兵,互联网即将消失,进入()时代A)数据B)物联网C)信息D)共享答案:B解析:[单选题]9.下面选项中t不是s的子序列的是()A)S=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>B)S=<{2,4},{3,5,6},{8}>t=<{2},{8}>C)S=<{1,2},{3,4}>t=<{1},{2}>D)S=<{2,4},{2,4}>t=<{2},{4}>答案:C解析:[单选题]10.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:A)1比特B)2.6比特C)3.2比特D)3.8比特答案:B解析:[单选题]11.哪个选项不是Python语言的整数类型?A)0B1010B)0E99C)0x9aD)88答案:B解析:[单选题]12.OLAM技术一般简称为?数据联机分析挖掘?,下面说法正确的是:A)OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B)由于OLAM的立方体和用于OLAP的立方体有本质的区别.C)基于WEB的OLAM是WEB技术与OLAM技术的结合.D)OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作.答案:D解析:[单选题]13.人工神经网络受到了生物学的启发,它是由一系列简单单元相互密集连接构成,其中每一个单元有一定数量的实值输入(可能是其他单元的输出),并产生()的实数值输出(可能成为其他很多单元的输入)A)一定数量B)单一C)多个D)不确定答案:B解析:[单选题]14.在中移动的集中性能管理应用落地-居民区4G&宽带网络能力全景分析手册中,感知差居民区的定义是:A)4G感知质差用户占比>5%或4G驻留比<95%B)4G感知优良用户占比<80%或4G驻留比<90%C)4G感知优良用户占比<80%且4G驻留比<90%D)4G感知质差用户占比>5%且4G驻留比<95%答案:A解析:[单选题]15.()数据挖掘方法能够帮助市场分析人员找出顾客购买的商品之间的关联关系A)分类B)预测C)关联分析D)聚类答案:C解析:[单选题]16.因业务需要进行客户敏感数据查询操作时,必须确保所有查询操作行为经过()授权,并留存授权记录,禁止在未经授权的情况下进行查询操作。A)上级主管部门B)用户C)金库审批员D)部门级以上领导答案:B解析:[单选题]17.()是数据仓库体系架构的重要组成部分,具备数据仓库的部分特征和OLTP系统的部分特征。A)E.SB;B)D.MC)ODSD)E.TL答案:C解析:[单选题]18.概念分层图是()图。A)无向无环B)有向无环C)有向有环D)无向有环答案:B解析:[单选题]19.如何启动Namenode?A)start-dfs.shB)start-hdfs.shC)start-yarn.shD)start-yan.sh答案:A解析:[单选题]20.sklearn.linear_model中的()可实现线性回归A)LinearAlgebraB)LinearActuatorC)LinearRegressionD)LinearCausation答案:C解析:[单选题]21.对于企业来说,数据使用的关键是()A)数据收集B)数据存储C)数据分析D)数据再利用答案:D解析:[单选题]22.已知:A)klB)dC)1D)6答案:A解析:[单选题]23.个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助()为其顾客购物提供完全个性化的决策支持和信息服务。A)公司B)各单位C)跨国企业D)电子商务网站答案:D解析:[单选题]24.以下不可以用来分类的模型是A)线性回归模型B)神经网络模型C)逻辑回归模型D)支持向量机答案:A解析:[单选题]25.根据中国移动统一DPI设备规范,文件名中%A,代表___A)话单类型编码B)文件序号C)分钟D)秒钟答案:A解析:[单选题]26.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A)统计方法B)邻近度C)密度D)聚类技术答案:A解析:[单选题]27.人工智能在医疗上的使用不包括()A)医疗大数据B)回收废弃医疗设备C)智能医疗D)生物制药答案:B解析:[单选题]28.下列train_test_split参数解释错误的是()A)train_data:所要划分的样本结果B)test_size:样本占比,如果是整数的话就是样本的数量C)random_state:是随机数的种子D)随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样答案:A解析:[单选题]29.为了比较利用不同分类算法构建的分类模型的性能,可以利用图形进行比较,常用的图形包括()。A)条形图B)ROC曲线C)饼图D)直方图答案:B解析:[单选题]30.下列哪个指标是利用MR进行计算的()A)VOLTE用户网络原因万投比B)VOLTE用户VOLTE话务量占比C)MR综合覆盖率D)VOLTE超频注册占比答案:C解析:[单选题]31.下列说明错误的是()A)性别=?男?=>职业=?司机?,是布尔型关联规则B)性别=?女?=>avg(收入)=2300,是一个数值型关联规则C)肝炎=>ALT(丙氨酸转氨酶)升高,是一个单层关联规则D)性别=?女?=>职业=?秘书?,是多维关联规则答案:C解析:[单选题]32.()用于文本分类A)高斯朴素贝叶斯B)伯努利朴素贝叶斯C)多项式朴素贝叶斯D)半朴素贝叶斯答案:C解析:[单选题]33.根据《中国移动集中性能管理应用落地手册-有线宽带端到端业务质量分析》,要求信令数据的关联回填率达到A)1B)0.9C)0.8D)0.7答案:B解析:[单选题]34.Zookeeper是A)集群协调服务B)分布式应用C)AB都不对D)AB都对答案:D解析:[单选题]35.大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并()成为帮助企业经营决策更积极目的的信息。A)收集B)整理C)规划D)聚集答案:B解析:[单选题]36.在数据分析和处理方面具有分析方法丰富、分析模型扩展强、数据挖掘能力强等特点的分析工具是()。A)WekaB)SPSSC)SASD)R答案:D解析:[单选题]37.在数据挖掘过程中,()可以看作是承载数据和挖掘算法的基础设施。A)云平台B)物联网C)SPSSD)WEKA答案:A解析:[单选题]38.决策树中不包含()A)根结点B)内部结点C)外部结点D)叶子结点答案:C解析:[单选题]39.hadoop关闭分布式计算框架命令是?A)stop-yarn.shB)stop-yan.shC)stop-hbase.shD)stop-dfs.sh答案:A解析:[单选题]40.目前业务流量占比最高的业务大类是A)即时通信B)邮件C)视频D)下载答案:C解析:[单选题]41.统计档案表中学生来自多少个城市,下面SQL语句正确的是______。A)SELCETSUM(DISTINCT家庭住址)FROM档案表;B)SELCETDISTINCT家庭住址FROM档案表;C)SELCETCOUNT(家庭住址)FROM档案表;D)SELCETCOUNT(DISTINCT家庭住址)FROM档案表;答案:D解析:[单选题]42.下面关于数据粒度的描述不正确的是:A)粒度是指数据仓库小数据单元的详细程度和级别;B)数据越详细,粒度就越小,级别也就越高;C)数据综合度越高,粒度也就越大,级别也就越高;D)粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.答案:C解析:[单选题]43.S1-basedhandover流程中建立临时数据转发通道时,数据传输方向是A)SourceENB->SourcePGW->TargetPGW->TargetENBB)TargetENB->TargetSGW->SourceSGW->SourceENBC)SourceSGW->TargetSGW->TargetENBD)SourceENB->SourceSGW->TargetSGW->TargetENB答案:D解析:[单选题]44.以下关于操作型数据和分析型数据的基本特点的叙述中错误的是()A)操作型数据是细节的,而分析型数据是综合的B)操作型数据是可更新的,而分析型数据是不可更新的C)操作型数据是事务驱动的,而分析型数据是分析驱动的D)操作型数据是面向分析的,而分析型数据是面向具体应用的答案:D解析:[单选题]45.下列不属于数据仓库设计的三级数据模型的是()。A)概念模型B)逻辑模型C)物理模型D)关联模型答案:D解析:[单选题]46.数据仓库的模式中,最基本的是()。A)事实星座模型B)雪花模型C)星形模型D)以上都不对答案:C解析:[单选题]47.MR数据引入对基站建设规划的主要增益在于A)弱覆盖区域识别B)网速慢区域识别C)高干扰区域识别D)高价值区域识别答案:A解析:[单选题]48.以下哪一点不是PCI规划需要重点关注的A)频率B)RS位置C)小区位置关系D)TA归属答案:D解析:[单选题]49.是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A)边界点B)质心C)离群点D)核心点答案:C解析:[单选题]50.被广泛用于购物篮分析的是()。A)关联分析;B)分类和预测C)聚类分析D)演变分析答案:A解析:[单选题]51.()的目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。A)数据清洗B)数据集成C)数据变换D)数据归约答案:D解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.非频繁模式____A)其支持度小于阈值B)都是不让人感兴趣的C)包含负模式和负相关模式D)正确异常数据项敏感答案:AD解析:[多选题]53.针对涉及多张表的取数需求,SQL查询中至少因包含的关键字为A)selectB)joinC)createD)format答案:AB解析:[多选题]54.下表是一个购物篮,假定支持度阈值为40%,其中____是频繁闭项集。TID项1abc2abcd3bce4acde5deA)abcB)adC)cdD)de答案:AD解析:[多选题]55.根据《中国移动统一DPI设备规范》,移动网数据XDR包含那几个部分()A)特定业务信息B)移动网通用信息C)通用业务信息D)公共信息答案:ABCD解析:[多选题]56.集中性能?四轮驱动?包含以下业务()A)家宽业务B)集客业务C)新业务D)移动业务答案:ABCD解析:[多选题]57.缺省承载建立过程的成功率会进一步影响哪些指标A)UE附着成功率B)PDNConnection建立成功率C)业务请求成功率D)MME建立缺省S5S8承载成功率答案:AB解析:[多选题]58.营销观念是营销过程中如何处理()利益关系。A)企业B)员工C)顾客D)社会答案:ACD解析:[多选题]59.算法处理流程中()属于分类器训练阶段A)确定特征属性B)获取训练样本C)对每个类别计算P(yi)D)对每个特征属性计算所有划分的条件概率答案:CD解析:[多选题]60.聚类分析的应用有()A)聚类分析可以作为其它算法的预处理步骤B)可以作为一个独立的工具来获得数据的分布情况,聚类分析是获得数据分布情况的有效方法C)聚类分析可以完成孤立点挖掘D)客户价值分析答案:ABCD解析:[多选题]61.用于分类与回归应用的主要算法有A)决策树B)BP神经网络C)贝叶斯D)K均值答案:ABC解析:[多选题]62.数据离散化是指为了数据分析的需要,将连续数据转换为离散型数据的过程。数据离散化的方法有()A)随机取值B)等距离散法C)数值规约D)等频离散法答案:BD解析:[多选题]63.Hadoop可以安装在哪些操作系统?A)redhatlinuxB)centosC)UbuntuD)windows答案:ABCD解析:[多选题]64.下列指标受终端性能影响的有()A)无线掉线率B)4G用户附着成功率C)视频缓冲时长D)http响应时延答案:ABC解析:[多选题]65.视频初缓成功率指标下降,根据分段定界法需对哪些指标进行分析A)DNS解析成功率B)TCP握手成功率C)Http响应成功率D)Attach成功率答案:ABC解析:[多选题]66.关于PGW的数据配置哪些说法是错误的?A)SGW与PGW可以合设B)不可以配置与APN对应的地址池用于动态分配用户地址C)只能配置1个相连接的PCRFD)PGW不能独立部署答案:BCD解析:[多选题]67.以下的说法,错误的是:A)终端的IMEI具有唯一性,所以现网DPI采集的IMEI中,没有重复的IMEIB)双卡双待手机有两个IMEIC)IMEI一共是14位D)可以通过拨号*#06#看到手机终端的IMEI答案:AC解析:[多选题]68.下列哪些协议属于OSI参考模型中应用层的应用?()A)HTTPB)FTPC)RPCD)SNMPE)NFS答案:ABDE解析:第3部分:判断题,共20题,请判断题目是否正确。[判断题]69.使用EXISTS实现子查询时,必须使用内、外查询的相同意义的列进行比较运算。A)正确B)错误答案:错解析:[判断题]70.Python列表中所有元素必须为相同类型的数据。A)正确B)错误答案:错解析:[判断题]71.支持度不需要考虑前件与后件发生的顺序,而置信度需要考虑。A)正确B)错误答案:对解析:[判断题]72.天气属性值中?晴天?和?多云?可以用不同的数字来表示,它们没有前后次序关系A)正确B)错误答案:对解析:[判断题]73.R2的值越接近1,说明回归直线对观测值的拟合程度越好。A)正确B)错误答案:对解析:[判断题]74.已知x和y是两个字符串,那么表达式sum((1fori,jinzip(x,y)ifi==j))可以用来计算两个字符串中对应位置字符相等的个数。A)正确B)错误答案:对解析:[判断题]75.K-均值聚类算法是一种基于原型的、根据距离划分组的算法。A)正确B)错误答案:对解析:[判断题]76.在聚类分析当中,簇内得相似性越大,簇间得差别越大,聚类得效果就越差。A)正确B)错误答案:错解析:[判断题]77.使用普通文本编辑器软件也可以正常查看二进制文件的内容。A)正确B)错误答案:错解析:[判断题]78.对于列表而言,在尾部追加元素比在中间位置插入元素速度更快一些,尤其是对于包含大量元素的列表。A)正确B)错误答案:对解析:[判断题]79.已知x=?Python是一种非常好的编程语言?.encode(),那么表达式x.decode(?gbk?)的值为?Python是一种非常好的编程语言?。A)正确B)错误答案:错解析:[判断题]80.SELECT语句是SQL的核心语句,它完成查询功能。A)正确B)错误答案:对解析:[判断题]81.Python列表、元组、字符串都属于有序序列。A)正确B)错误答案:对解析:[判断题]82.文件打开的默认方式是只读。A)正确B)错误答案:对解析:[判断题]83.分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程。又可称为无监督学习。A)正确B)错误答案:错解析:[判断题]84.扩展库numpy中的append()函数和insert()函数是在原数组的基础上追加或插入元素,没有返回值。A)正确B)错误答案:错解析:[判断题]85.文件对象是可以迭代的。A)正确B)错误答案:对解析:[判断题]86.神经网络既可以用于分类问题,又可以用于回归问题。A)正确B)错误答案:对解析:[判断题]87.已知x为非空列表,那么执行语句x[0]=3之后,列表对象x的内存地址不变。A)正确B)错误答案:对解析:[判断题]88.表达式list(?[1,2,3]?)的值是[1,2,3]。A)正确B)错误答案:错解析:第4部分:问答题,共12题,请在空白处填写正确答案。[问答题]89.在K-中心点算法中,如果某样本点成为____后,绝对误差能小于____所造成的绝对误差,那么K-中心点算法认为该样本点是可以取代____的。答案:代表对象点|原代表对象点|原代表对象点解析:[问答题]90.已知x=[3,5,7],那么表达式x[10:]的值为__。答案:[];解析:[问答题]91.在对文本进行处理时,首先需要对文本进行特征提取,最常见的两种方法是______和______。答案:单词计数向量、TF-IDF解析:[问答题]92.分类的任务就是通过学习得到一个____ƒ,把每个____x映射到一个预先定义的____y答案:目标函数|属性|类标号解析:[问答题]93.sklea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论