大数据挖掘技术练习(习题卷4)_第1页
大数据挖掘技术练习(习题卷4)_第2页
大数据挖掘技术练习(习题卷4)_第3页
大数据挖掘技术练习(习题卷4)_第4页
大数据挖掘技术练习(习题卷4)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.DPI规范中,流量流向统计字段AppType=0x03代表()A)所有流量B)某个应用大类C)某个应用小类D)某个协议类别答案:B解析:[单选题]2.要查询所有课程中,各门课程的最低分,下面SQL语句正确的是______。A)SELCET课程号,MIN(成绩)FROM选课表GROUPBY课程号;B)SELCET课程号,SUM(成绩),FROM选课表GROUPBY课程号;C)SELCET课程号,MAX(成绩),MIN(成绩),AVERAGE(成绩)FROM选课表GROUPBY课程号;D)SELCET课程号,MAX(成绩),FROM选课表GROUPBY课程号;答案:A解析:[单选题]3.数据的多重共线性导致我们无法使用最小二乘法求解线性回归问题,以下哪个算法从根本上解决了这一点()A)Ridge回归B)Lasso回归C)逻辑回归D)多项式回归答案:A解析:[单选题]4.下列关于聚类分析的描述中,正确的是:A)如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点B)在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差C)K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定D)聚类分析可以看作是一种有监督的分类答案:A解析:[单选题]5.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?A)探索性数据分析B)建模描述C)预测建模D)寻找模式和规则答案:B解析:[单选题]6.NaiveBayes是属于数据挖掘中的什么方法?A)聚类B)分类C)时间序列D)关联规则答案:B解析:[单选题]7.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()A)0.821B)1.224C)1.458D)0.716答案:D解析:[单选题]8.缺失值处理方法中错误的是()。A)对于所有属性都可以使用均值B)对于离散属性或定性属性,使用众数C)对于分类属性,使用同类对象属性值的均值D)转换为分类问题或数值预测问题答案:A解析:[单选题]9.为了可以把多个评估器链接成一个复合评估器,sklearn中提供了PipeLine机制,下面关于PipeLine描述不正确的是()A)管道中的最后一个评估器一定要是一个实现了predict方法的学习器B)管道中的所有评估器,除了最后一个评估器,管道中的所有评估器必须都是转换器。C)管道中的评估器参数可以通过<estimator>__语义来访问D)管道中的评估器可以通过索引或名称访问答案:A解析:[单选题]10.()是指对描述对象的属性进行重新组合,获得一组反映事物本质的少量的新的属性的过程。()是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。A)数据选择;数据提取B)特征提取;特征选择C)数据提取;数据选择D)特征选择;特征提取答案:B解析:[单选题]11.在下列抽样方法中,需要预先将样本指定多个组的抽样方法是()。A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样答案:C解析:[单选题]12.如果性能报表中没有KPI数据,不可能是以下哪种情况()A)采集周期内没有进行相关的业务B)采集周期内性能统计计划处于挂起状态C)pc进程挂死D)FTP服务器与eNB之间ping不通答案:A解析:[单选题]13.使用requests库发送请求后,返回response对象的属性中,表示网页内容的是()A)status_codeB)encondingC)apprence_encondingD)text答案:D解析:[单选题]14.在MySQL中,常用的聚合函数名不包括______。A)GROUPBYB)MAXC)SUMD)COUNT答案:A解析:[单选题]15.附着失败且错误码为#7,#8,#14,通常什么原因引起A)用户原因B)无线侧原因C)核心网原因D)SP原因答案:A解析:[单选题]16.人工智能的目的是让机器能够()A)具有完全的智能B)完全和人脑一样考虑问题C)完全替代人D)模拟、延伸和扩展人的智能答案:D解析:[单选题]17.Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第一个返回值是()。A)关联规则B)最小支持度C)频繁项集D)最小置信度答案:C解析:[单选题]18.数据集成的内容不包括()A)实体识别B)冗余处理C)数据规约D)数值冲突处理答案:C解析:[单选题]19.设X={a,b,c}是一个频繁项集,则最多可由X产生()个关联规则。A)4B)5C)6D)7答案:C解析:[单选题]20.大数据最明显的特点是()A)数据类型多样B)数据规模大C)数据价值密度高D)数据处理速度快答案:B解析:[单选题]21.变量的量纲比如以厘米或者米为单位对下面哪种方法会有影响()A)方差分析B)回归分析C)聚类分析D)主成分分析答案:C解析:[单选题]22.在人工智能研究领域中,主要研究计算机如何自动获取知识和技能,实现自我完善的研究分支学科叫()A)专家系统B)机器学习C)神经网络D)模式识别答案:B解析:[单选题]23.在图集合中发现一组公共子结构,这样的任务称为A)频繁子集挖掘B)频繁子图挖掘C)频繁数据项挖掘D)频繁模式挖掘答案:B解析:[单选题]24.大数据应用需求分为年度需求和()两类。A)季度需求B)月度需求C)周需求D)即时需求答案:D解析:[单选题]25.从目前技术角度来讲,下面说法不正确的是()A)人工智能还属于弱人工智能范畴B)AI依然没有常识、没有自我意识C)AI没有真正的情感,不具备抽象能力D)人工智能已无所不能答案:D解析:[单选题]26.数据在规定的时间前和频度周期内接入系统的比例称为()A)指标数据自动采集率;B)指标数据接入率C)指标数据接入及时率;D)指标数据完整率答案:C解析:[单选题]27.CRISP-DM模型中Evaluation表示对建立的模型进行评估,重点具体考虑得出的结果是否符合()的商业目的。A)第二步B)第三步C)第一步D)最后一步答案:C解析:[单选题]28.熵表示为消除不确定性所需要的信息量,投掷均匀正六面体骰子的熵是()比特。A)1B)2.6C)3.2D)3.8答案:B解析:[单选题]29.ODS是指()A)企业数据中心;B)数据仓库C)操作型存储D)总线答案:B解析:[单选题]30.ROC曲线凸向哪个角,代表模型越理想?A)左上角B)右上角C)左下角D)右下角答案:A解析:[单选题]31.以下哪种方法不属于于监督学习模型()A)决策树B)线性回归C)关联分析D)判别分析答案:C解析:[单选题]32.无线网性能劣化可能导致以下哪个指标出现问题?()A)小区RTT下行时延B)TCP一二次握手时延C)服务器侧下行RTTD)小区RTT上行时延答案:A解析:[单选题]33.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等宽划分(宽度为50)方法将它们划分成四个箱,求15在哪个箱子?()A)第1个B)第2个C)第3个D)第4个答案:A解析:[单选题]34.以下哪些指标可以通过网优平台获取?()A)无线接通率B)eSRVCC切换成功率C)TCH话务量D)E-RAB建立成功率答案:B解析:[单选题]35.下列不是智能的特征的是()A)具有储存空间B)具有学习能力C)具有记忆与思维的能力D)具有自适应能力答案:A解析:[单选题]36.下列代码实现()功能X=list(range(20))Forindex,valueinenumerate(x):ifvalue==3:x[index]=5A)判断列表x中是否含3、5B)输出列表中3、5C)将列表x中值为3的元素修改为5D)将列表x中任意3个值修改为5答案:C解析:[单选题]37.在ID3算法中信息增益是指()A)信息的溢出程度B)信息的增加效益C)熵增加的程度最大D)熵减少的程度最大答案:D解析:[单选题]38.数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是A)单个模型之间有高相关性B)单个模型之间有低相关性C)在集成学习中使用?平均权重?而不是?投票?会比较好D)单个模型都是用的一个算法答案:B解析:[单选题]39.有关强关联规则的叙述中正确的是()。A)强关联规则是同时满足最小支持度阈值和最小置信度阈值的规则B)强关联规则是满足最小支持度阈值的规则C)强关联规则是满足最小置信度阈值的规则D)所有的规则都是强关联规则答案:A解析:[单选题]40.下面哪个不是Python合法得标识浮()A)int32B)40XLC)selfD)_name_答案:B解析:[单选题]41.k均值聚类的目标是()。A)最大化簇间距离B)最大化质心距离C)簇的大小基本一致D)最小化簇内距离的平方和答案:D解析:[单选题]42.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A)边界点B)质心C)离群点D)核心点答案:C解析:[单选题]43.使用等距离分箱法进行数据离散化,数据范围为20,40,50,58,65,80,80,82,86,90,96,105,120,200,区间个数为4。下列属于4个箱的区间是()。A)[20,65]B)[110,155)C)(155,200]D)(65,110)答案:B解析:[单选题]44.可以对按城市汇总的销售数据进行(),来观察按国家总的数据。A)上卷B)下钻C)切片D)切块答案:A解析:[单选题]45.下列关于计算机存储容量单位的说法中,错误的是()A)1KB<1MB<1GBB)基本单位是字节(Byte)C)一个汉字需要一个字节的存储空间D)一个字节能够容纳一个英文字符答案:C解析:[单选题]46.下列属于数据仓库特点的是()A)综合性和提炼性数据B)重复性的、可预测的处理C)一次处理的数据量小D)面向操作人员,支持日常操作答案:A解析:[单选题]47.当你输入hadoopfsck/造成?connectionrefusedjavaexception??时,系统究竟发生了什么?A)datanode出现故障B)resoucemanger出现故障C)nodemanger出现故障D)Namenode出现故障答案:D解析:[单选题]48.下列不属于浏览器开发者模式面板的为()A)ElementsB)ConsoleC)SourcesD)headers答案:D解析:headers是请求头信息[单选题]49.基于《中国移动DPI识别能力规范》,Skype属于哪一类业务()A)P2PB)VoIPC)即时通信D)微博答案:B解析:[单选题]50.下列选项中,属于非结构化数据的是:A)图像B)HTMLC)XMLD)JSON答案:A解析:[单选题]51.IMEISV一共有几位A)1B)2C)3D)4答案:B解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.有了()和()之后,向量就可以在另一个坐标系中进行表示A)方向B)大小C)特征值D)特征向量答案:CD解析:[多选题]53.确定一个投资方案可行的必要条件是()。A)净现值大于零B)现值指数大于1C)投资回收期小于1年D)内部报酬率较高答案:AB解析:[多选题]54.PDP激活信令流程中涉及哪些进程A)PFPB)GTPC)SPPD)GBP答案:ABCD解析:[多选题]55.基于内容的推荐生成推荐的过程主要依靠A)内容分析器B)文件学习器C)过滤部件D)推荐系统答案:ABC解析:[多选题]56.自动驾驶技术在以下()领域实现A)大型客机B)战斗机C)高铁列车D)民用汽车答案:ABCD解析:[多选题]57.电子元器件:A)电子管B)晶体管C)小规模中规模集成电路D)大规模或超大规模集成电路答案:ABCD解析:[多选题]58.在进行容量估算中需要明确的因素有()A)确定规划区的人员流量及发展趋势B)移动用户渗透率C)TDL用户占比D)业务话务模型答案:ABCD解析:[多选题]59.属于分裂的层次聚类算法有A)二分K均值B)MSTC)ChameleonD)组平均答案:AB解析:[多选题]60.下列关于集成学习描述正确的是()A)集成学习本身并不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,以达到获得比单个学习器更好的学习效果的一种机器学习方法。B)集成学习的基学习器要求使用不同算法C)集成学习的基学习器可以使用相同的算法生成D)集成学习主要分为Bagging、Boosting和Stacking答案:ACD解析:[多选题]61.在聚类分析当中,()等技术可以处理任意形状的簇。A)MIN(单链)B)MAX(全链)C)组平均D)Chameleon答案:AD解析:[多选题]62.以下关于STDP协议的描述,正确的是A)SDTP为实时数据共享传输协议B)数据传输量大,实时性高C)不需要握手鉴权过程D)用于信令采集网关把采集到的原始信令数据传送到信令共享平台答案:ABCD解析:[多选题]63.Weka是著名的开源机器学习和数据挖掘软件,高级用户可以通过哪些方式调用其分析组件A)Java编程B)命令行C)智能客服D)远程接口答案:AB解析:[多选题]64.完全竞争性的市场具有()等特点。A)任一企业无法操纵市场B)少数企业可以影响交易数量C)多个竞争企业同时存在D)企业必须采取随行就市定价法答案:ACD解析:[多选题]65.以下选项能成为子查询返回结果的是______。A)一个表B)一个值C)一列数据D)一个表达式#答案:ABC解析:[多选题]66.在聚类分析当中,可以处理任意形状的簇的方法包括:A)MIN(单链)B)ChameleonC)MAX(全链)D)组平均答案:AB解析:[多选题]67.如下表student中,如何筛选type为包含数学或语文的记录?IDtypescoreA01数学78A02语文76A03英语90A04数学68A05英语84A)select*fromstudentwheretype=?数学?andtype=?语文?B)select*fromstudentwheretype=?数学?ortype=?语文?C)select*fromstudentwheretypein(?数学?,?语文?)D)select*fromstudentwheretypein(?数学???语文?)答案:BC解析:[多选题]68.数据仓库在技术上的工作过程是:()A)数据的抽取B)存储和管理C)数据的表现D)数据仓库设计E)数据的表现答案:ABCD解析:第3部分:判断题,共20题,请判断题目是否正确。[判断题]69.序列数据没有时间戳。A)正确B)错误答案:对解析:[判断题]70.聚类分析是一种有监督的学习方法。A)正确B)错误答案:错解析:[判断题]71.正则表达式?[^abc]?可以一个匹配任意除?a?、?b?、?c?之外的字符。A)正确B)错误答案:对解析:[判断题]72.如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。A)正确B)错误答案:对解析:[判断题]73.已知x和y是两个等长的整数列表,那么表达式sum((i*jfori,jinzip(x,y)))的作用是计算这两个列表所表示的向量的内积。A)正确B)错误答案:对解析:[判断题]74.多元回归是对一个自变量和多个因变量之间的回归分析。A)正确B)错误答案:错解析:[判断题]75.267.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。A)正确B)错误答案:错解析:[判断题]76.对于生成器对象x=(3foriinrange(5)),连续两次执行list(x)的结果是一样的。A)正确B)错误答案:错解析:[判断题]77.特征选择过程是描述同一对象的多个属性的取值范围,统一到相同的范围,避免某些属性的作用大于其它属性。A)正确B)错误答案:错解析:[判断题]78.在结构化数据中进行关联分析发现其中的频繁模式和关联规则。对于取值连续的属性,首先将其离散化,然后将每个取值区间作为一个值,继而转化为?属性=值?的形式。A)正确B)错误答案:对解析:[判断题]79.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。A)正确B)错误答案:错解析:[判断题]80.假设有非空列表x,那么x.append(3)、x=x+[3]与x.insert(0,3)在执行时间上基本没有太大区别。A)正确B)错误答案:错解析:[判断题]81.元组中的元素不能修改。A)正确B)错误答案:对解析:[判断题]82.信息熵给出了一种度量不确定性的方式,是用来衡量随机变量不确定性的,熵就是信息的期望值。A)正确B)错误答案:对解析:[判断题]83.属性A的熵值H(X,A)是为了获取样本关于属性A的信息所需要付出的代价。A)正确B)错误答案:对解析:[判断题]84.readlines方法可以一次将数据读出A)正确B)错误答案:对解析:[判断题]85.使用del命令或者列表对象的remove()方法删除列表中元素时会影响列表中部分元素的索引。A)正确B)错误答案:对解析:[判断题]86.通过数据离散化,可以实现缩减数据量的效果。A)正确B)错误答案:对解析:[判断题]87.已知L1=[1,2,3]L1.extend(['kl','ml'])print(L1)则结果为为[1,2,3,['kl','ml']]A)正确B)错误答案:错解析:[判断题]88.可信度是对关联规则的准确度的衡量。()A)正确B)错误答案:错解析:第4部分:问答题,共12题,请在空白处填写正确答案。[问答题]89.Python标准库os.pat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论