版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷20)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下列不属于常见的交叉验证方法的是()。A)抽样法B)k折交叉验证C)留一法D)留出法[单选题]2.《物联网端到端业务质量分析》落地手册中,物联网端到端定界分析?七元四阶?法的四阶不包括?A)终端移动性B)业务接入C)网络切换D)业务使用[单选题]3.()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。A)MIN(单链)B)MAX(全链)C)组平均D)Ward方法[单选题]4.能够在字符串中匹配?aab?,而不能匹配?aaab?和?aaaab?的正则表达式()A)r?a*?b?B)r?a{,2}b?C)r?aab?D)r?aaab?[单选题]5.在SELECT语句中,DISTINCT子句的作用是______。A)对查询结果进行分组B)消除重复出现的查询记录C)按条件显示部分查询记录D)删除查询结果中符合条件的记录[单选题]6.()是研究一种或者多种因素的变化对试验结果的观测值是否有显著影响的统计方法。A)因子分析;B)数据降维C)方差分析D)假设检验[单选题]7.Hadoop擅长支撑hive进行()A)数据采集B)数据计算C)日志存储D)日志搜索[单选题]8.办理不限流量套餐的用户群体主要的流量消费去向是A)即时通信B)音乐C)下载D)视频[单选题]9.评估完模型之后,发现模型存在高偏差(highbias),应该如何解决?()A)减少模型的特征数量B)增加模型的特征数量C)增加样本数量D)以上说法都正确[单选题]10.假设Python中data=pd.Series(["1","2","3","4"]),则data.loc[2:]的职是A)3B)234C)34D)12[单选题]11.DHCP支持哪种类型的地址分配()A)自动分配B)动态分配C)手工分配D)以上[单选题]12.如果一个匹配中,任何一个节点都不同时是两条或多条边的端点,也称作()A)极大匹配B)二分匹配C)完美匹配D)极小匹配[单选题]13.OLAP的核心是()A)对用户的快速响应B)互操作性C)多维数据分析D)以上都不是[单选题]14.MySQL中,删除视图su_view的命令是______。A)deletesu_viewB)droptablesu_viewC)dropviewsu_viewD)dropsu_view[单选题]15.实际由源业务系统自动接入的指标数据占指标体系中应接指标总数的比例称为()A)指标数据自动采集率;B)指标数据接入率C)指标数据接入及时率;D)指标数据完整率[单选题]16.以下()不是影响时间序列变化的要素。A)长期趋势B)季节变动C)循环波动D)有规则变化[单选题]17.给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为()。A)df.mean()B)df.statistics()C)df.summary()D)df.describe()[单选题]18.在字符串打印中,哪个是出现中文字符对不齐问题的原因?A)英文字体没有与中文字体设为相同。B)没有对Python源代码作编码约束,应该在文件首行表示源代码为UTF-8编码C)Python3输出对中文支持不好。D)中文字符占两个位置,而英文字符只占一个位置。[单选题]19.假设有n个数据点,其中一半用于训练,另一半用于测试,随着n的增加而训练误差和测试误差之间的差别会A)增加B)减少C)不变D)无法判断[单选题]20.以下关于字符串.strip()方法功能说明正确的是:A)连接两个字符串序列B)替换字符串中特定字符C)按照指定字符分割字符串为数组D)去掉字符串两侧指定字符[单选题]21.在有指导的数据挖掘中,有关测试集的说法错误的是()A)测试集和训练集是相互联系的B)测试集是用以测试模型的数据集C)通常测试集大约占总样本的三分之一D)K-次交叉验证中,测试集只有1个,训练集有K-1个[单选题]22.在FP-growth构建频繁模式树中,每个()(除根结点外)代表一个单项,树中的每条()代表原数据中每一个条目的各个项。如果把条目内的项组合在一起看成一个字符串,则字符串前缀相同时共享相同的()。A)路径;路径;路径B)结点;路径;结点C)路径;路径;结点D)结点;路径;路径[单选题]23.从购物篮商品集中找出商品与商品之间的关系,有助于发现同商品之间的联系()A)聚类B)分类C)预测D)关联[单选题]24.下列度量不具有反演性的是A)系数B)几率C)Cohen度量D)兴趣因子[单选题]25.下列哪种()算法不能从现有数据中挖掘类似群体A)指数平滑法B)K-means算法C)K-medoids算法D)CLARANS算法[单选题]26.神经网络就是模拟人的大脑的神经单元的工作方式,但进行了很大的简化,神经网络由很多神经网络层构成,而每一层又由许多单元组成,第一层叫输入层,最后一层叫输出层,中间的各层叫()A)中间层B)简略层C)过渡层D)隐藏层[单选题]27.属于财务专业明细数据表的是()A)客户收费流水表;B)应收票据信息表;C)公司分压线损统计表;D)供应计划表[单选题]28.以下哪个指标不是用来评估回归模型()A)R2B)MSE(MeanSquaredError)C)MAE(MeanAbsoluteError)D)Recall[单选题]29.在数据库中有工资表,表中包括?职工号、所在单位、基本工资和应发工资?等字段,如果要以单位统计应发工资总数,那么?所在单位?和?应发工资?字段应选择______。A)SUM,GROUPBYB)COUNT,GROUPBYC)GROUPBY,SUMD)GROUPBY,COUNT[单选题]30.下面哪个不是信息提取的思路?A)结合部分格式解析和搜索的方式提取所需要的信息。B)按照信息格式完全解析,解析后找到所需提取的信息。C)无视格式,直接搜索找到所需提取的信息。D)通过自然语言处理方式找到所需提取的信息。[单选题]31.利用?linear_model.LinearRegression()?训练模型时调用.fit()方法需要传递的,第二个参数是()。A)是否考虑计算截距B)样本权重C)样本特征XD)样本标签Y[单选题]32.VOLTE业务评估体系中,VOLTE语音掉线率属于哪一类指标?A)保持性B)接入性C)完整性D)移动性[单选题]33.信令监测系统在架构上分为哪三层?A)采集层、共享层、应用层B)采集层、解码层、识别层C)物理层、网络层、应用层D)接入层、汇聚层、核心层[单选题]34.DPI技术主要应用在ISO分层的哪一层?A)网络层B)会话层C)应用层D)数据链路层[单选题]35.在数据库中已建立了tBook表,若查找图书编号是?TP1134?和?TP1138?的记录,则SELECT查询的WHERE条件为______。A)图书编号="TP1134"AND"TP1138"B)图书编号NOTIN("TP1134","TP1138")C)图书编号IN("TP1134","TP1138")D)图书编号NOT("TP1134"AND"TP1138")[单选题]36.MapReduce的Map函数产生很多的()A)KeyB)ValueC)<key,value>D)Hash[单选题]37.在网管上使用路径法创建以下哪种业务时需选择单向服务路径A)在两纤单向通道保护环上创建VC12级别的业务B)在两纤双向复用段保护环上创建VC12级别的业务C)在两纤单向复用段保护环上创建VC12级别的业务D)在两纤双向通道保护环上创建VC12级别的业务[单选题]38.已知:importpandasaspddata={'a':[2,1,5,6],'b':['kl','d',1,'kl'],'c':[6,5,1,6]}df=pd.DataFrame(data)TF=[True,False,False,True]print(df.iloc[TF,1])A)0,kl3,klName:b,dtype:objectB)0,23,6Name:a,dtype:objectC)0,63,6Name:c,dtype:objectD)0,kl2,1Name:b,dtype:object[单选题]39.需求分析活动的一个重要任务是进行(),明确用户需求的隐含信息,展开为明确的对软件系统的行为期望,即系统需求。A)需求整理B)需求细化C)需求获取D)需求分析[单选题]40.下面哪个算法可以将文本数据转换为数值数据?()A)TF-IDFB)决策树C)PCAD)DBSCAN[单选题]41.根据《中国移动大数据安全管控分类分级实施指南》,服务内容和资料数据属于A)A类B)B类C)C类D)D类[单选题]42.小概率事件和假设检验的基本思想:小概率事件通常指发生概率小于5%的事件,认为在一次试验中几乎不可能发生。A)1%B)3%C)5%D)10%[单选题]43.某终端换机用户识别的需求中,需对使用体验和用户使用需求不匹配的用户进行识别,挖掘重度游戏迷等用户画像,使用哪类算法最合适A)决策树B)最小二乘法C)时间序列D)贝叶斯判别[单选题]44.倒传递神经网络(BP神经网络)的训练顺序为何?(A:调整权重;B:计算误差值;C:利用随机的权重产生输出的结果)A)BCAB)CABC)BACD)CBA[单选题]45.以下哪种情况对Kmeans模型的影响较小()。A)给定错误聚类个数B)簇的大小分布不均衡C)不同簇的方差相差较大D)数据有各向异性分布[单选题]46.某牙膏厂原来生产两面针药物牙膏,现在又增加牙刷生产,这属于()A)同心多元化B)水平多元化C)集团多元化D)相关多元化[单选题]47.对原始数据进行聚集、抽样、违归约等是哪个步骤的任务A)数据预处理B)业务理解C)数据理解D)数据量挖掘[单选题]48.下列不属于数据预处理原因的是()。A)数据有可能不能很好地反映潜在的模式B)有些数据属性是无用的或者冗余的C)数据可能存在缺失、错误、不一致等问题D)数据量过于庞大[单选题]49.页面显示成功率指标定义中关于页面显示成功次数描述正确的是A)HTTPREPLYDATA消息的次数B)L4protocal=0时,DLData字段值C)L4protocal=1时,DLData字段值D)HTTPREPLY200OK消息次数[单选题]50.统一DPI设备技术规范3.0中,尚未支撑的解析协议是A)CoAPB)PPPOEC)MPLSD)GTP[单选题]51.在MySQL的SQL查询中,为了计算某数值字段的平均值应使用函数______。A)AVGB)SUMC)MAXD)MIN第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.以下说法正确的有()A)OMC采用服务器-客户端模式B)OMC与eNodeB通信的单元为NMA,其完成协议和数据模型的转换,是O接口的接口单元和处理单元C)可利用OMC集成的快配工具完成邻区的快速和批量配置D)每个OMC机房都应配置2台冷备份的交换机和2台热备份的CE或路由器[多选题]53.全分布模式有什么注意点?A)全分布模式通常被用于生产环境B)在生产环境里我们使用N台主机组成一个Hadoop集群C)这里会存在单独的Namenode运行的主机D)这里会存在单独的Datanode运行的主机[多选题]54.哪些算法可以用于流量预测?A)随机森林B)BP神经网络C)时间序列D)F值分布[多选题]55.数据挖掘中分类的常用方法有()A)决策树B)判别分析C)类神经网络D)记忆基础推理[多选题]56.下边关于字典的定义正确的是:A){'name':'Tom','age':18,'score':[91,92,93]}B){'name':'Tom','score':18,'score':[91,92,93]}C){'name':'Tom','chengji':18,[91,92,93]:'score'}D){'name':'Tom',18:'chengji','score':[91,92,93]}[多选题]57.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集ID项集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、鸡蛋4面包、尿布、啤酒、鸡蛋5啤酒、鸡蛋A)面包、牛奶、尿布B)面包、啤酒C)尿布、啤酒D)啤酒、鸡蛋[多选题]58.视频文件格式主流的有如下哪几种文件格式()A)flvB)3gpC)mp4D)ts[多选题]59.下列属于互联网普惠金融会造成的现象的是()A)消费数据加持人工智能,解决了个人征信问题B)互联网金融彻底改变了消费习惯,用户使用支付宝和微信就能完成99%的支持场景,中国进入无现金社会C)支付宝旗下的天宏基金成为最大的货币基金D)用户的零钱自动转余额宝,银行短期存款消失,揽储压力山大[多选题]60.根据XDR类型的不同,原始码流的内容不同,如果是业务XDR,原始码流则包含原始业务数据中的哪些部分A)LinkTypeB)CardTypeC)CardIDD)payload[多选题]61.二分类预测问题如设定阈值为0.5,概率大于等于0.5的样本归入正样本,小于0.5的样本归入负样本。用阈值>0.5重新划分样本到正例类和反例类,下面说法正确是A)增加阈值不会提高召回率B)增加阈值会提高召回率C)增加阈值不会降低查准率D)增加阈值会降低查准率[多选题]62.以下哪些方法可以用于分类模型的特征选择()A)chi2B)f_classifC)mutual_info_classifD)f_regression[多选题]63.以下哪些指标可以判断出劣化问题可能出现在核心网元?A)TCP握手时延B)服务器侧上行RTTC)服务器侧下行RTTD)HTTP响应成功率[多选题]64.数据科学中的主流语音工具()A)RB)C++C)JavaD)Python[多选题]65.通过集中性能系统发现,摩拜单车网络接入时长偏长。为了检查无线及终端侧问题,根据《中国移动集中性能管理应用落地手册-物联网端到端业务质量分析》分析思路,需要对哪些过程进行分析?A)身份识别过程B)鉴权过程C)PDP激活过程D)用户PDP上下文更新过程[多选题]66.商业模式描述正确的是:A)B2B--商家对商家B)B2C--商家对人C)O2O--线上对线下D)C2C--人对人[多选题]67.以下属于聚类算法的是()A)K均值B)DBSCANC)AprioriD)knn[多选题]68.根据性能管理应用落地手册,针对?网页浏览?的评估指标,至少需包含()A)页面响应成功率B)页面响应时延C)页面显示成功率D)页面显示时长E)下载速率第3部分:判断题,共20题,请判断题目是否正确。[判断题]69.已知x是一个足够大的numpy二维数组,那么语句x[0,2]=4的作用是把行下标为0、列下标为2的元素值改为4。A)正确B)错误[判断题]70.下列robots.txt文件中,User-agent后面跟的是爬虫的名称,Disallow后面跟着可以爬虫的网页A)正确B)错误[判断题]71.使用readlines方法把整个文件中的内容进行一次性读取。A)正确B)错误[判断题]72.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。A)正确B)错误[判断题]73.当两种产品为互补品时,其交叉弹性小于零。A)正确B)错误[判断题]74.列表可以作为字典的?键?。A)正确B)错误[判断题]75.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。A)正确B)错误[判断题]76.主成分分析能够达到去除冗余、降低噪音和降维的目的,但无法得到反映事物本质的新变量。A)正确B)错误[判断题]77.g=lambdax:3不是一个合法的赋值表达式。A)正确B)错误[判断题]78.Python集合不支持使用下标访问其中的元素。A)正确B)错误[判断题]79.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。A)正确B)错误[判断题]80.Python支持使用字典的?键?作为下标来访问字典中的值。A)正确B)错误[判断题]81.在对不同项目进行风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。A)正确B)错误[判断题]82.两个不等长的数组不能相加A)正确B)错误[判断题]83.已知列表x中包含超过5个以上的元素,那么语句x=x[:5]+x[5:]的作用是将列表x中的元素循环左移5位。A)正确B)错误[判断题]84.具体来讲,若一个项集X的支持度大于用户给定的一个最小支持度阈值,则X被称为频繁项集(或频繁模式)。A)正确B)错误[判断题]85.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。A)正确B)错误[判断题]86.已知列表x=[1,2,3],那么执行语句x=3之后,变量x的地址不变。A)正确B)错误[判断题]87.小项目集的任何超集也一定是小的A)正确B)错误[判断题]88.K近邻数值预测是利用一个样本的K个最相似的邻居的目标属性的取值来进行预测。A)正确B)错误第4部分:问答题,共12题,请在空白处填写正确答案。[问答题]89.选取属于bo0okstore子元素的倒数第二个book元素[问答题]90.10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购买的人是800个。则规则A=>B的支持度为(),置信度为9(),提升度为()。[问答题]91.如果要对列表进行升序排列,则可以使用()方法实现[问答题]92.已知x=[3,7,5],那么执行语句x=x.sort(reverse=True)之后,x的值为___。[问答题]93.分类任务就是通过学习得到一个(),把每个属性集x映射到一个类标号y。[问答题]94.通过____方法,可以对预定义的空字典进行赋值[问答题]95.基于划分的聚类算法有()和()。[问答题]96.假设列表对象aList的值为[3,4,5,6,7,9,11,13,15,17],那么切片aList[3:7]得到的值是____________。[问答题]97.Python在调用efficient-apriori包中的apriori函数训练挖掘关联规则时,设定最小支持度的参数是______。[问答题]98.只有非零值才重要的二元属性被称作()。[问答题]99.列表、元组、字符串是Python的___(有序?无序)序列。[问答题]100.分类模型的误差大致分为两种:()和()。1.答案:A解析:2.答案:A解析:3.答案:D解析:4.答案:B解析:5.答案:B解析:6.答案:C解析:7.答案:D解析:8.答案:D解析:9.答案:B解析:10.答案:C解析:11.答案:D解析:12.答案:C解析:13.答案:C解析:14.答案:C解析:15.答案:A解析:16.答案:D解析:17.答案:D解析:18.答案:D解析:19.答案:B解析:20.答案:D解析:21.答案:A解析:22.答案:D解析:23.答案:D解析:24.答案:D解析:25.答案:A解析:26.答案:D解析:27.答案:B解析:28.答案:D解析:29.答案:C解析:30.答案:D解析:题型:31.答案:D解析:32.答案:A解析:33.答案:A解析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考物理总复习专题十一交变电流第1讲交变电流的产生和描述练习含答案
- 清算风险管理协议
- 油漆购销合同范例
- 九年级道德与法治上册 第一单元 富强与创新 第一课 踏上强国之路 第2框走向共同富裕教案1 新人教版
- 二年级品德与生活上册 玩中有发现教案1 首师大版
- 2024-2025学年新教材高中生物 第四章 生物的变异 第一节 基因突变可能引起性状改变教案(2)浙科版必修2
- 2024-2025学年高中历史 第一单元 第1课 第一次世界大战的爆发教案1 新人教版选修3
- 2024-2025学年高中地理 第二章 中国的主要自然灾害 2.1 自然资源利用中存在的问题教案 中图版选修6
- 广东省佛山市顺德区江义初级中学九年级化学上册 3.1 分子和原子教案3 (新版)新人教版
- 2023七年级语文下册 第四单元 写作 怎样选材配套教案 新人教版
- 办公楼装饰装修工程施工组织设计方案
- 农业行业农产品质量追溯与安全监管方案
- 2024年二手物品寄售合同
- 2023年辽阳宏伟区龙鼎山社区卫生服务中心招聘工作人员考试真题
- 三年级数学(上)计算题专项练习附答案集锦
- 高一期中家长会班级基本情况打算和措施模板
- 历史期中复习课件七年级上册复习课件(部编版2024)
- 餐饮服务课件 学习任务4 摆台技能(2)-中餐宴会摆台
- 专题7.2 空间点、直线、平面之间的位置关系(举一反三)(新高考专用)(学生版) 2025年高考数学一轮复习专练(新高考专用)
- 7.2.2 先天性行为和学习行为练习 同步练习
- 2024-2025学年八年级物理上册 4.2光的反射说课稿(新版)新人教版
评论
0/150
提交评论