版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷18)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.关于Python字符串下列说法错误的是()A)字符应该视为长度为1的字符串B)字符串以\0标志字符串的结束C)既可以用单引号,也可以使用双引号创建字符串D)在三引号字符串中可以包含换行回车等特殊字符[单选题]2.如果说人工智能是一座高大上的房子,那么()就是它的基石A)新技术B)资金C)大数据D)需求[单选题]3.如下哪个不是最近邻分类器的特点()A)它使用具体的训练实例进行预测,不必维护源自数据的模型B)分类一个测试样例开销很大C)最近邻分类器基于全局信息进行预测D)可以生产任意形状的决策边界[单选题]4.关于性能度量不正确的是()A)性能度量是衡量模型泛化能力的评价标准,反映了任务需求B)在对比不同模型的能力时,使用不同的性能度量会导致不同的评判结果,这就意味着模型的?好坏?是相对的C)回归任务最常用的性能度量是?均方误差?D)性能度量实用意义不大[单选题]5.在比较模型的拟合效果时,甲、乙、丙、丁四个模型的决定系数R^2的值分别约为0.96、0.85、0.80和0.7,则拟合效果好的模型是()。A)丁B)乙C)甲D)丙[单选题]6.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:)A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样[单选题]7.朴素贝叶斯算法是一种()数据挖掘算法。A)关联分析B)预测C)分类D)聚类[单选题]8.eNodeB和SGW之间使用哪种协议?()A)S1APB)X2APC)GTP-CD)GTP-U[单选题]9.当前MME测量上报周期为多少()A)5分钟B)10分钟C)15分钟D)1小时[单选题]10.y与x之间的线性回归方程y=a+bx必定过()。A)(0,0)点B)(x,y)点C)(0,y)点D)(x,0)点[单选题]11.为了简化条件概率的计算,朴素贝叶斯算法提出条件假设(用于分类的特征在类别确定的条件下相互独立)即()的意义A)简化B)朴素C)分类D)统计[单选题]12.连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。任务可分为两个步骤完成。首先将连续属性排序,并通过指定n-1个分割点把它们分成n个区间。然后,将一个区间中的所有值映射到相同的()。A)分类值B)平均值C)特征值D)最大值[单选题]13.在数据预处理中,将多个数据源中的数据整合到一个一致的数据存储(如数据仓库)中,这一过程称为()A)数据提取B)数据集成C)数据清理D)数据加载[单选题]14.数据框中方法中dropna()的作用是A)去掉空值,并以默认值填充B)去掉空值所在的行C)去掉指定的某行D)去掉指定的某些值[单选题]15.给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为()。A)df.describe()B)df.statistics()C)df.mean()D)df.summary()[单选题]16.下面哪个说明了JSON信息标记方法的缺陷或不足?A)JSON标记仅用于JavaScript语言B)JSON标记的信息存在类型,处理繁琐。C)JSON应用领域十分有限D)JSON标记不能书写注释。[单选题]17.下列不属于标称属性的是()。A)眼球颜色B)性别C)温度D)邮政编码[单选题]18.以下哪项不属于分类算法()A)决策树B)随机森林C)神经网络D)K-means算法[单选题]19.如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则自连接产生的C2中包含()个项集。A)1B)2C)3D)4[单选题]20.下列不属于数据挖掘所处理的数据必须具有性质的是()A)准确性B)完整性C)一致性D)价值性[单选题]21.为支撑市场营销,除下述哪个用户终端特征识别外,均能用于提高批开用户的VoLTE转化成功率A)软件版本B)软开关状态识别C)VoLTE版本D)芯片版本[单选题]22.先按课程号升序排列,再按成绩降序排列检索出选课表中的所有信息,下面SQL语句正确的是______。A)SELECT*FROM选课表ORDERBY课程号,成绩;B)SELECT*FROM选课表GROUPBY课程号,成绩;C)SELECT*FROM选课表ORDERBY课程号,成绩DESC;D)SELECT*FROM选课表ORDERBY课程号DESC,成绩;[单选题]23.当置信水平一定时,置信区间的宽度()A)随着样本量的增大而减小B)随着样本量的增大而增大C)与样本量的大小无关D)先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。[单选题]24.以下哪项不是集团要求各省集中性能平台必须包含的VoLTE指标?()A)注册成功率B)VoLTE呼叫接通率C)VoLTE掉话率D)MOS3.0以上占比[单选题]25.以下()数据挖掘方法能够帮助市场分析人员将购买商品的顾客进行分类划分A)分类B)预测C)关联分析D)聚类[单选题]26.规则I->j,?有可能?,等于所有包含I的购物篮中同时包含J的购物篮的比例,为()。A)置信度B)可信度C)兴趣度D)支持度[单选题]27.()算法是最广泛使用的聚类算法,算法简单,易于理解和操作。A)gglomerativeB)C.UREC)K-meansD)k-中心点算法[单选题]28.朴素贝叶斯分类算法为()A)生成式模型B)判别式模型C)统计模型D)预算模型[单选题]29.与WHEREdnoIN('IM','CS')条件等价的查询表达式是______。A)WHEREdnoBETWEEN'IM'OR'CS'B)WHEREdnoBETWEEN'IM'AND'CS'C)WHEREdno='IM'ORdno='CS'D)WHEREdno='IM'ANDdno='CS'[单选题]30.在SQLServer提供的EM聚类算法中,叙述正确的是()A)必须要设置聚类的分类数B)不必指定聚类的分类数C)可以不指定聚类的分类数,此时采用默认值D)以上都不对[单选题]31.在Bigtable中,()主要用来存储子表数据以及一些日志文件A)GFSB)ChubbyC)SSTableD)MapReduce二、(共40题)[单选题]32.P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的闵可夫斯基距离(k=3)是()。A)6B)√45C)∛233D)11[单选题]33.数据预处理的任务不包括()。A)数据清洗B)数据规范化和离散化C)数据分类D)特征提取与特征选择[单选题]34.个人信息的收集、处理和利用应当遵循()的原则,不得违反法律、法规的规定和双方的约定收集、处理和利用个人信息。()A)正规、合法、必要B)合法、正当、必要C)合法、合规、正当D)合法、合理、合规[单选题]35.一个神经元接收输人信号为x(1<i<n),权值为w;(1≤i<n),输出为y=f(net),其中f称为激活函数或激励函数,通常net的取值是()。A)AB)BC)CD)D[单选题]36.用户使用小包传输的数据业务时,哪项指标对用户感知的影响较明显?A)首包时延B)响应成功率C)下载速率D)登陆成功率[单选题]37.下列属于间接数据挖掘的是()A)分类B)估值C)聚集D)预言[单选题]38.Byte代表一个字节,及()的数值范围。A)0~100B)0~155C)0~200D)0~255[单选题]39.关于统计学和大数据之间的关系,一下说法错误的是()。A)面临大数据,统计学的研究对象有所改变;B)在大数据环境中,需要首先将未知的问题转化为可用的统计方法;C)在大数据分析过程中,传统的统计分析过程?定量-定位-再定性?转变为?定量-定性?;D)在大数据环境中,需要将统计研究的对象范围扩展到一切数据。[单选题]40.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?A)第一个B)第二个C)第三个D)第四个[单选题]41.已知x=[1,2,3],执行语句x.append(4)之后,x的值是()A)[1,2,3,4]B)[4]C)[1,2,3]D)4[单选题]42.T检验比较A)两个方差B)两个比值C)两个平均数的差异是否显著D)标准差[单选题]43.只要具有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力以及()的关键要素。A)提高消费B)提高GDPC)提高生活水平D)创造消费者盈余[单选题]44.评估两个不同样本的?相似性?,通常使用的方法就是计算两个样本之间的()A)大小B)方差C)距离D)差距[单选题]45.若I={a,b,c,d},D中含有10个事务,{a,b)和{a,c}是一个频繁项集,则以下叙述中正确的是()A){a,b,d}一定是频繁项集B){a,b,c}一定是频繁项集C){b,c}一定是频繁项集D)以上都不对[单选题]46.Tableau能够对数据进行处理包括()。A)将多个数据源数据拼接为一个宽表;B)修改、删除、新增数据行;C)对数据进行行列转换、重命名、格式修改;D)对数据进行计算、合并生成新的数据列[单选题]47.贝叶斯信念网络由两部分组成,分别是网络结构和()。A)条件概率B)先验概率C)后验概率D)条件概率表[单选题]48.将复杂的地址简化成北、中、南、东四区,是在进行?A)数据正规化B)数据一般化C)数据离散化D)数据整合[单选题]49.Python中Pandas的Series对象中查看数据集中有多少个观察值,采用哪个命令A)headB)infoC)shapeD)columns[单选题]50.分布式存储框架的配置信息在哪个文件中A)core-site.xmlB)hdfs-site.xmlC)mapred-site.xmlD)hadoop-env.sh[单选题]51.数据挖掘是从数据中发掘知识的过程,在这个过程中()可以作为挖掘工具,数据可以被看作是土壤,云平台可以看作是承载数据和挖掘算法的基础设施。A)锄头B)数据库服务器C)聚类分析D)人工智能和数据库技术第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.下列关于QOS的描述正确的是()A)EPS是在HSS和PCRF中签约QOSB)HSS里可以签约用户建立的所有承载的QOSC)在GPRS系统中,Qos签约在HLR中,对于每个PDP上下文,都要分配各自相应的QosD)如果默认承载的Qos不能满足某种业务的需求,UE需要为其请求建立一个专有承载,由PGW基于PCRF授予的Qos参数来决定分配给专有承载的Qos,所以没有必要在HSS里签约专有承载的Qos[多选题]53.寻呼响应成功次数为统计一定的时间粒度及网元粒度下,满足以下哪两个条件()的S1-MME接口XDR的个数A)ProcedureType=4B)ProcedureStatus=0C)ProcedureType=1D)ProcedureStatus=1[多选题]54.为了比较利用不同分类算法构建的分类模型的性能,可以利用图形进行比较,常用的图形包括()。A)直方图B)增益图C)ROC曲线D)条形图[多选题]55.描述变量离期望值大小的指标是()A)方差B)变异系数C)标准差D)期望[多选题]56.移动网信令XDR包括以下哪些内容A)移动网通用信息B)公共信息C)信令信息D)通用业务信息[多选题]57.for变量in序列:执行语句块中序列可以是()A)数组B)列表C)元组D)字典[多选题]58.人工智能中运用到语音识别理论创造的产品有()A)语音助手B)智能音箱C)在线翻译D)智能游戏[多选题]59.SELECT语句中可以使用的运算符是______。A)NOTB)BETWEENANDC)LIKED)#[多选题]60.关于DNS下列叙述正确的是()A)子节点能识别父节点的IP地址B)DNS采用客户服务器工作模式C)域名的命名原则是采用层次结构的命名树D)域名不能反映计算机所在的物理地址[多选题]61.以下哪些方法可以用于回归模型的特征选择()A)chi2B)f_classifC)mutual_info_regressionD)f_regression[多选题]62.Apriori算法的计算复杂度受____影响。A)支持度阀值B)项数(维度)C)事务数D)事务平均宽度[多选题]63.以下哪些属于物联网端到端定界分析?七元四阶?法中七元A)用户侧系统B)终端C)无线D)物联网基地[多选题]64.以下关于人工神经网络(ANN)的描述正确的有A)神经网络对训练数据中的噪声非常鲁棒B)可以处理冗余特征C)训练ANN是一个很耗时的过程D)至少含有一个隐藏层的多层神经网络[多选题]65.在Excel中,要选定A到E列单元格,操作正确的是()A)用鼠标左键单击列号A,然后向右拖动鼠标至列号E,再释放鼠标左键B)左键单击列号A,再按下shift键不放并用鼠标左键单击列号E,最后释放shift键C)单击列号A,然后先按下Ctrl键不放,再用鼠标单击B,C,D,E列号,最后释放Ctrl键D)按shift键不放,用鼠标左键单击A,B,C,D,E的每个列号[多选题]66.一下哪些终端是需要进行识别的A)智能家居B)智能穿戴(电话手表)C)手机D)物联网终端[多选题]67.概率分析中,应计算出()表明该风险因素的风险程度。A)变异系数B)期望值C)方差D)标准差[多选题]68.DPI设备应遵循的协议识别能力要求中,属于必选协议的有()A)HTTPSB)H.323C)TelnetD)SNMPE)TSL第3部分:判断题,共20题,请判断题目是否正确。[判断题]69.用于分类的离散化方法之间的根本区别在于是否使用类信息。A)正确B)错误[判断题]70.计算公司的总销售额,是数据挖掘任务。A)正确B)错误[判断题]71.一元线性回归的步骤:构建包含因变量和自变量的训练集;通过散点图确认因变量和自变量之前的近似线性关系;计算系数和构建模型;模型检验;利用模型进行预测。A)正确B)错误[判断题]72.只能对列表进行切片操作,不能对元组和字符串进行切片操作。A)正确B)错误[判断题]73.Python运算符%不仅可以用来求余数,还可以用来格式化字符串。A)正确B)错误[判断题]74.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。A)正确B)错误[判断题]75.通过driver的get()方法可以将页面的内容加载到浏览器的对象中,如果页面没有加载完,此方法会一直阻塞等待。A)正确B)错误[判断题]76.LF、RF算法分别为逻辑回归算法、随机森林算法的简称。A)正确B)错误[判断题]77.聚类与分类在归类之前都知道样本的类别A)正确B)错误[判断题]78.元组是不可变的,不支持列表对象的inset()、remove()等方法,也不支持del命令删除其中的元素,但可以使用del命令删除整个元组对象。A)正确B)错误[判断题]79.朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。()A)正确B)错误[判断题]80.通过数据离散化,可以实现缩减数据量的效果。A)正确B)错误[判断题]81.正则表达式?^\d{18}|\d{15}$?只能检查给定字符串是否为18位或15位数字字符,并不能保证一定是合法的身份证号。A)正确B)错误[判断题]82.Python的主程序文件python.exe属于二进制文件。A)正确B)错误[判断题]83.表达式?a?+1的值为?b?。A)正确B)错误[判断题]84.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。A)正确B)错误[判断题]85.k近邻算法中,如果k值选取过小,则结果会对噪声点的影响特别敏感。()A)正确B)错误[判断题]86.如果对象p是从对象q关于Eps和MinPts密度可达的,则对象q是从对象p关于Eps和MinPts密度可达的。A)正确B)错误[判断题]87.266.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。A)正确B)错误[判断题]88.一般而言,定量预测方法在满足下列三个条件时才能使用:一是能够知道待测变量的过去值,二是信息可以量化,三是过去的变动形式将持续到未来是一个合理的假设。A)正确B)错误第4部分:问答题,共12题,请在空白处填写正确答案。[问答题]89.主成分分析(PCA)是一种广泛用于不同领域的无监督线性数据转换技术。其目标是在高维数据中找到____的方向,并将数据映射到一个维度小得多的新子空间上。借助于____,将其分量相关的原随机向量转化成其分量不相关的新随机向量。[问答题]90.使用列表推导式得到100以内所有能被13整除的数的代码可以写作______。[问答题]91.列表对象的sort()方法用来对列表元素进行原地排序,该函数返回值为。[问答题]92.一组数据:20,40,50,58,65,80,80,82,86,90,96,105,120,200。采用等距分箱法分为4箱,其中82位于第()个箱。(填写阿拉伯数字)[问答题]93.表达式list(range(5))的值为______。[问答题]94.字典的_____________方法返回字典中的?键-值对?列表[问答题]95.切片选取的区间是左闭右()型的,不包含结束位的值[问答题]96.什么是数据挖掘,它有哪些功能?[问答题]97.数据挖掘中计算向量之间相关性时一般会用到哪些距离?______、______、______(答对3个即可)[问答题]98.等距离分箱可能导致属于某些区间的取值非常多,而某些区间的取值又非常少。()则能够解决此问题。[问答题]99.Lk为频繁k项集,Lk中某个元素与其中另一个元素可以执行连接操作的前提是它们中有()个项是相同的,只有()个项是不同的。[问答题]100.分类分析主要包含有()和()两个阶段。1.答案:B解析:2.答案:C解析:3.答案:C解析:4.答案:D解析:5.答案:C解析:6.答案:D解析:7.答案:C解析:8.答案:D解析:9.答案:C解析:10.答案:B解析:11.答案:B解析:12.答案:A解析:13.答案:B解析:14.答案:B解析:15.答案:A解析:16.答案:D解析:17.答案:C解析:18.答案:D解析:19.答案:D解析:20.答案:D解析:21.答案:D解析:22.答案:C解析:23.答案:A解析:24.答案:D解析:25.答案
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 供暖行业课件教学课件
- 脑血吸虫病病例分析
- 库欣病诊治专家共识
- 2023年香料香精资金筹措计划书
- 踩点点课件教学课件
- 施工单位安全员述职报告
- 期末考前安全教育主题班会
- 安防员个人述职报告
- 肛肠科一病一品汇报
- 猜猜他是谁教案及反思
- 2024年消防宣传月知识竞赛考试题库500题(含答案)
- 医院病历书写基本规范培训课件
- 国开2024年秋《机电控制工程基础》形考任务1答案
- 2024年典型事故案例警示教育手册15例
- 高一历史(中外历史纲要上册)期中测试卷及答案
- CJT 358-2019 非开挖工程用聚乙烯管
- 20K607 防排烟及暖通防火设计审查与安装
- 一氧化碳中毒培训课件
- 教案(餐巾折花)
- 幼儿成语故事《刻舟求剑》
- 一元三次、一元四次方程的基本解法毕业论文
评论
0/150
提交评论