版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷22)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.可视化时间空间数据的技术不包括A)等高线图B)饼图C)曲面图D)矢量场图答案:B解析:[单选题]2.在MySQL中,对于字段值为空值(NULL)叙述正确的是______。A)空值等同于空字符串B)空值表示字段还没有确定值C)不支持字段值为空值D)空值等同于数值0答案:B解析:[单选题]3.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:A)0.821B)1.224C)1.458D)0.716答案:D解析:[单选题]4.OLAP系统按照其数据在存储器中的存储格式可以分为()三种类型。A)关系OLAP、对象OLAP、混合型OLAPB)关系OLAP、混合型OLAP、多维OLAPC)对象OLAP、混合型OLAP、多维OLAPD)关系OLAP、对象OLAP、多维OLAP答案:B解析:[单选题]5.以下哪些不是业务质量指标KQIA)页面响应成功率B)视频下载速率C)及时通信接入时延D)Attach成功率答案:D解析:[单选题]6.在数据预处理中,将多个数据源中的数据整合到一个一致的数据存储(如数据仓库)中,这一过程称为A)数据提取B)数据集成C)数据清理D)数据加载答案:B解析:[单选题]7.NLTK最适用于哪种类型的任务A)语言处理B)图像处理C)声音处理D)文字处理答案:A解析:[单选题]8.因子分析的主要作用有()A)对变量进行降维B)对变量进行判别C)对变量进行聚类D)以上都不对答案:A解析:[单选题]9.关于方差的描述错误的是()A)用于两个或两个以上样本均数差异的显著性检验。B)原假设是无差异。C)对立假设是无差异D)在概率论和统计方差衡量随机变量或一组数据时离散程度的度量答案:C解析:[单选题]10.文件重命名的方法为()A)writeB)renameC)readD)open答案:B解析:Open是打开文件Read的按自己读取数据Rename是重命名Write是写文件[单选题]11.LTE中,对于频分双工(FDD)的操作,定义了4中随机接入的前导格式,其中格式3的Tcp()μsA)203.13B)406.26C)101.3D)684.38答案:D解析:[单选题]12.当新业务、行为出现或目标跟踪业务出现新版本时,DPI设备应能在()周之内具备新业务或新版本的识别能力。A)1B)2C)3D)4答案:A解析:[单选题]13.以下哪种方法不属于特征选择的标准方法:A)嵌入B)过滤C)包装D)抽样答案:D解析:[单选题]14.描述一组对称(或正态)分布数据的离散程度时,最适宜选择的指标是()A)极差B)标准差C)均值D)变异系数答案:B解析:[单选题]15.已知:A){'a':0,'b':[1,2,3]}B){'a':0,'b':[1,2]}C)[1,2]D)[1,2,3]答案:D解析:setdefault函数向字典中添加键和值,如果没有,则首先将该键值对加入,并将对应的值作为默认值,然后返回该默认值;如果字典中键已经有了,那么取回该键对应的默认值。[单选题]16.下述哪个参数用于UE从GSM/UMTS网络重选到LTE网络过程中的位置更新请求A)GUTIB)OldGUTIC)PTMSI/RAID)OldPTMSI/RAI答案:A解析:[单选题]17.下面哪些功能网络爬虫做不到?A)分析教务系统网络接口,用程序在网上抢最热门的课。B)爬取某个人电脑中的数据和文件。C)爬取网络公开的用户信息,并汇总出售。D)持续关注某个人的微博或朋友圈,自动为新发布的内容点赞。答案:B解析:题型:[单选题]18.正则表达式字符集中,()表示空白字符。A)\dB)\DC)\sD)\w答案:C解析:[单选题]19.用于分类与回归应用的主要算法有(C)。A)K均值法、SOM神经网络B)Apriori算法、HotSpot算法C)决策树、BP神经网络、贝叶斯D)RBF神经网络、K均值法、决策树答案:C解析:[单选题]20.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含A)1,2,3,4B)1,2,3,5C)1,2,4,5D)1,3,4,5答案:C解析:[单选题]21.以下______函数不是字符串裁剪函数?A)lpad()B)left()C)ltrim()D)right()答案:A解析:[单选题]22.k-均值算法是一种()算法。A)关联规则发现B)聚类C)分类D)自然语言处理答案:B解析:[单选题]23.以下有关贝叶斯信念网络(BBN)的叙述中错误的是()A)BBN是一个有向无环图B)BBN中每个结点代表一个随机变量C)BBN中每条有向边表示变量之间的依赖关系D)BBN中最多只有一个输出结点答案:D解析:[单选题]24.下列是数据挖掘的是()A)看到医院戴口罩人数增多,断定近期患病人数多B)从大量的数据中通过算法搜索隐藏于其中信息的过程C)分析得知价格高的茶叶销量低,价格低的茶叶销量高D)看到地面上有黄金和黏土,判断黄金更珍贵捡起黄金答案:B解析:[单选题]25.下列哪一个TCP层指标不反应S1口以下的质差问题?A)RTT上行时延B)RTT下行时延C)TCP下行重传率D)TCP上行重传率答案:A解析:[单选题]26.在进行数据挖掘任务的时候,通常面临样本数据特征过多的情况,我们可以通过Filter过滤法选择那些对我们分析任务更有帮助的特征,下列方法哪个不是用来做特征过滤的()A)卡方检验B)F检验C)互信息法D)奇异值分解答案:D解析:[单选题]27.业务请求次数为统计一定的时间粒度及网元粒度下,ProcedureType为()的S1-MME接口XDR的个数A)2B)3C)4D)5答案:A解析:[单选题]28.FTP服务器使用的熟知端口是()A)20B)21C)22D)23答案:A解析:[单选题]29.利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第二个参数是()。A)样本特征XB)样本标签YC)判断标准D)设置结点的最小样本数量答案:B解析:[单选题]30.下列请求报头中,可以记载用户信息实现模拟登录的是()。A)User-AgentB)CookieC)ConnectionD)Host答案:A解析:[单选题]31.《个人信息保护法》发布执行时间()。A)2021年9月1日;B)2021年10月1日;C)2021年11月1日D)2021年12月1日答案:C解析:[单选题]32.数据正规化(DataNormalization)是在知识发掘处理(KnowledgeDiscoveryProcess)中的哪一个阶段进行?A)数据清洗B)数据选择C)数据编码D)数据扩充答案:C解析:[单选题]33.()是Google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构。A)GFSB)MapReduceC)ChubbyD)BitTable答案:B解析:[单选题]34.设X={1,2,3}是频繁项集,则可由X产生____个关联规则。A)4B)5C)6D)7答案:C解析:[单选题]35.居民区4G&宽带网络能力全景分析的指标采集最小粒度不包括A)月粒度B)地市粒度C)居民区粒度D)SAEGW网元粒度答案:D解析:[单选题]36.哪个选项是下列代码的执行结果?S='PYTHON'Print("{0:3}".format(s))A)PYTHB)PYTHOC)PYTHOND)PYT答案:C解析:[单选题]37.下列说法不正确的是()A)训练误差是指模型在训练集上的错分样本比率,说白了就是在训练集上训练完毕后在训练集本身上进行预测得到了错分率B)泛化误差是指模型在未知记录上的期望误差,说白了就是在训练集上没见过的数据的错分样本比率C)在样本集划分时,如果得到的训练集与测试集的数据没有交集,此时测试误差基本等同于泛化误差D)偏差大:拟合不足/过拟合;方差大:欠拟合答案:D解析:[单选题]38.数据挖掘工具箱中数据可视化技术的组件不包括A)histogramsB)scatterplotsC)distributionchartsD)caseselection答案:D解析:[单选题]39.通过代码?fromsklearnimporttree?引入决策树模块,并通过代码?clf=tree.DecisionTreeClassifier()?构造分类器对象后,训练时要调用的方法是(),在训练后做预测时要调用的方法是()。A)clf.fit()B)clf.predict()C)clf.train()D)clf.learn()答案:A解析:[单选题]40.在潜在购机用户挖掘时,与以下哪个因素无关A)上一次购机时间B)用户偏好的APP使用情况C)终端品牌D)套餐消费情况答案:B解析:[单选题]41.以下不是Python数据类型的是:A)实数B)整数C)列表D)字符串答案:A解析:实数是数学中的概念,在Python中对应浮点数。[单选题]42.终端品牌与以下哪个用户特征无关A)性别B)ARPUC)上网习惯D)生活所在地理位置答案:C解析:[单选题]43.可通过以下信令消息中的哪个字段,识别手机是否支持VOLTEA)VoicePreferforE-UTRANB)VoicedomainforE-UTRANC)VoiceFirstforE-UTRAND)VoiceCallforE-UTRAN答案:B解析:[单选题]44.下面有关分类算法的准确率、召回率、F1值的描述,错误的是()A)准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率C)正确率、召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率就越高D)为了解决准确率和召回率冲突问题,引入了F1分数答案:C解析:[单选题]45.当用户发起附着时,如该用户的imsi号段信息在MME上并没有制作相应数据,则MME将A)拒绝该用户附着请求B)仍允许该用户附着请求C)转发该用户附着请求至HLR/HSS进行鉴权D)匹配默认规则答案:A解析:[单选题]46.有一组数据其均值是20,对其中的每一个数据都加上10,那么得到的这组新数据的均值是()。A)20B)10C)15D)30答案:D解析:[单选题]47.IP地址表示什么A)本地broadcastB)直接multicastC)本地networkD)本地loopback答案:A解析:[单选题]48.模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,模型泛化能力太差,这是()的原因A)欠拟合B)泛化误差C)过拟合D)经验误差答案:C解析:[单选题]49.在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数()A)EpsB)MinPtsC)质心D)边界答案:B解析:[单选题]50.()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果A)数据清洗B)数据集成C)数据变换D)数据归约答案:D解析:[单选题]51.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为A)无序规则B)穷举规则C)互斥规则D)有序规则答案:A解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.伪分布模式中的注意点?A)伪分布式适用于开发和测试环境B)所有守护进程都在同一台机器上运行C)守护进程在不同的机器上运行D)伪分布模式不能用于开发分布式代码答案:AB解析:[多选题]53.以下哪些指标可以通过网优平台获取?()A)无线接通率B)IMS初始注册成功率C)空口上下行流量D)E-RAB建立成功率答案:ACD解析:[多选题]54.()都属于分裂的层次聚类算法。A)二分K均值B)MSTC)ChameleonD)组平均答案:AB解析:[多选题]55.层次聚类主要有()类型A)凝集层次聚类B)凝聚层次聚类C)分散层次聚类D)分裂层次聚类答案:BD解析:[多选题]56.()都属于簇有效性的监督度量。A)轮廓系数B)共性分类相关系数C)熵D)F度量答案:CD解析:[多选题]57.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是()TID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐A)啤酒、尿布B)啤酒、面包C)面包、尿布D)啤酒、牛奶答案:BD解析:[多选题]58.S-GW的功能包括A)寻呼消息的发送B)数据的路由和传播C)用户面数据的加密D)NAC层信令的加密答案:BC解析:[多选题]59.联机分析处理包括()基本分析功能。A)聚类B)切片C)转轴D)切块答案:BCD解析:[多选题]60.智能翻译可以实现的功能为()A)多种语言翻译B)语音翻译C)方言翻译D)拍照翻译答案:ABCD解析:[多选题]61.产生过度拟合数据问题的原因有()A)样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽略了真实的输入输出间的关系B)样本抽取错误,包括样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点等C)建模时使用了样本中太多无关的输入变量D)在决策树模型搭建中,使用的算法对于决策树的生长没有合理的限制和修剪,决策树的自由生长有可能每片叶子里只包含单纯的事件数据答案:ABCD解析:[多选题]62.数据挖掘的算法,根据算法分析数据的方式可分为:A)假设检验型算法(Top-Down)B)知识发现型算法(Bottom-Up)C)扫描类比型算法(Left-Right)D)排除干扰型算法(Noise-Clean)答案:AB解析:[多选题]63.以下sklearn中的模型,哪些是解决回归分析的?()A)LinearRegressionB)SVRC)LogisticRegressionD)Ridge答案:ABD解析:[多选题]64.hbase有哪些特点?A)hbase支持随机查询B)hbase支持数据修改C)hbase支持多表链接D)hbase支持多master答案:ABD解析:[多选题]65.在《居民区4G&宽带网络能力全景分析》应用中,建立常驻用户与居民区的关联模型方法有()A)基于信令识别用户常驻居民区B)基于MR打点法识别用户常驻居民区C)基于语音话单识别用户常驻居民区D)基于用户宽带开户信息识别答案:ABCD解析:[多选题]66.《实时业务质量监控保障》落地手册中提出的实时数据处理架构,给出了哪些参考架构A)基于开源框架的流数据处理架构B)基于自主研发的精简XDR架构C)基于MPP数据库架构D)基于Spark框架架构答案:AB解析:[多选题]67.根据《中国移动大数据安全管控分类分级实施指南》,以下哪些属于敏感级数据A)实体身份证明B)自然人身份标识C)网络身份标识D)终端设备标识答案:BC解析:[多选题]68.数据挖掘工具选取需要考虑的因素有()A)可产生的模式种类的数量B)解决复杂问题的能力C)操纵性能D)数据存取能力E)和其他产品的接口答案:ABCDE解析:第3部分:判断题,共20题,请判断题目是否正确。[判断题]69.登录网站时,只有浏览器发送的请求才能获得响应内容。A)正确B)错误答案:对解析:[判断题]70.医生根据患者的症状判断所患疾病类型属于聚类任务。A)正确B)错误答案:错解析:[判断题]71.Python字符串方法replace()对字符串进行原地修改。A)正确B)错误答案:错解析:[判断题]72.假设已成功导入os和sys标准库,那么表达式os.path.dirname(sys.executable)的值为Python安装目录。A)正确B)错误答案:对解析:[判断题]73.通常有些网站返回的数据会出现乱码,肯定是客户端没有反馈正确的编码导致的。A)正确B)错误答案:错解析:[判断题]74.在SELECT语句中,消除出现重复记录的关键字是DISTINCT。A)正确B)错误答案:对解析:[判断题]75.已知x={1:1,2:2},那么语句x[3]=3无法正常执行。A)正确B)错误答案:错解析:[判断题]76.一个关联规则既要满足最小支持度,又要满足最小置信度。A)正确B)错误答案:对解析:[判断题]77.预测性分析是数据分析的最高阶段,可以直接产生商业价值。A)正确B)错误答案:对解析:[判断题]78.数据仓库中间层OLAP服务器只能采用关系型OLAP()A)正确B)错误答案:错解析:[判断题]79.每个网站都有robots.txt文件A)正确B)错误答案:错解析:不是每个网站都有robots文件[判断题]80.已知A和B是两个集合,并且表达式A<B的值为False,那么表达式A>B的值一定为True。A)正确B)错误答案:错解析:[判断题]81.特征提取技术并不依赖于特定的领域。A)正确B)错误答案:错解析:[判断题]82.回归分析与分类都属于有监督学习,解决问题的过程相同,都是先通过训练数据集进行学习,以得到一个模型然后利用模型进行预测。A)正确B)错误答案:对解析:[判断题]83.具体来讲,若一个项集X的支持度大于用户给定的一个最小支持度阈值,则X被称为频繁项集(或频繁模式)。A)正确B)错误答案:对解析:[判断题]84.可视化技术正确于分析的数据类型通常不是专用性的。A)正确B)错误答案:错解析:[判断题]85.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。()A)正确B)错误答案:错解析:[判断题]86.如果两个变量不独立,那这两者的相关系数必然不等于0。A)正确B)错误答案:错解析:[判断题]87.DIKW金字塔理论揭示的是数据、信息、智慧、知识的递增关系。A)正确B)错误答案:错解析:[判断题]88.删除列表中重复元素最简单的方法是将其转换为集合后再重新转换为列表。A)正确B)错误答案:对解析:第4部分:问答题,共12题,请在空白处填写正确答案。[问答题]89.聚集的目的是什么?答案:1、数据约减2、改变尺度3、提高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《诊断学胸部评估》课件
- 2024年黑龙江省《消防员资格证之一级防火考试》必刷500题标准卷
- 中级微观经济学范里安课件ch
- 2024年高考生物必修全部和选修1基础知识清单(以问题串形式呈现)含答案
- 单位管理制度集粹汇编【人事管理】十篇
- 《盆景制作与欣赏》课件
- 单位管理制度汇编大合集【人力资源管理篇】
- 高中语文文言文阅读部分
- 单位管理制度范例选集【职工管理】十篇
- 单位管理制度范例合集【人员管理】十篇
- 水利水电工程安全管理制度例文(三篇)
- 2025四川宜宾市南溪区属国企业招聘融资人员6人管理单位笔试遴选500模拟题附带答案详解
- DB45T 2048-2019 微型消防站建设管理规范
- SCTP大云云计算PT2题库【深信服】认证考试题库及答案
- 外研版(2024新版)七年级上册英语期末质量监测试卷 3套(含答案)
- 《测土配方施肥》课件
- 人教版2024-2025学年第一学期八年级物理期末综合复习练习卷(含答案)
- 职业健康检查管理制度
- 电梯维保管理体系手册
- 2024年国家电网招聘之通信类题库及参考答案(考试直接用)
- 第12课《词四首》课件+2023-2024学年统编版语文九年级下册
评论
0/150
提交评论