大数据挖掘技术练习(习题卷2)_第1页
大数据挖掘技术练习(习题卷2)_第2页
大数据挖掘技术练习(习题卷2)_第3页
大数据挖掘技术练习(习题卷2)_第4页
大数据挖掘技术练习(习题卷2)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.感知器以一个()作为输入,计算这些输入的线性组合,然后如果结果大于某个阈值就输出1,否则输出-1A)实数B)线性组合C)实数值向量D)实例答案:C解析:[单选题]2.高斯朴素贝叶斯构造方法为()A)sklearn.naive_bayes.MultinomialNBB)sklearn.naive_bayes.BernoulliNBC)sklearn.naive_bayes.GaussianNBD)semi-naiveBayesclassifiers答案:C解析:[单选题]3.下列方法中,能够用来设置代理服务器的是____。A)urlopenB)ProxyHandlerC)urldecodeD)Proxy答案:B解析:[单选题]4.对回归问题和分类问题的评价最常用的指标是A)准确率B)召回率C)误差D)方差答案:C解析:[单选题]5.下列Python库或模块中,支持正则表达式语法的是____。A)bs4B)lxmlC)reD)json答案:C解析:[单选题]6.个人信息保护影响评估报告和处理情况记录应当至少保存()年。A)一B)十C)五D)三答案:D解析:[单选题]7.78.以下哪个聚类算法不属于基于网格的聚类算法()。A)STINGB)WaveClusterC)MAFIAD)BIRCH答案:D解析:[单选题]8.所谓高维数据,指的是A)数据对象很多B)数据属性很多C)以上都正确D)以上都错误答案:B解析:[单选题]9.delta法则的关键思想:使用()来搜索可能权向量的假设空间,以找到最佳拟合训练样例的权向量A)梯度下降B)聚类分析C)决策树D)判别分析答案:A解析:[单选题]10.可用作数据挖掘分析中的关联规则算法有A)Apriori算法、FP-Tree算法B)K均值法、SOM神经网络C)决策树、对数回归、关联模式D)RBF神经网络、K均值法、决策树答案:A解析:[单选题]11.在发生或者可能发生个人信息泄露、毁损、丢失的情况时,应当立即采取()措施,按照规定及时告知用户并向有关主管部门报告。()A)弥补B)补救C)救援D)相关答案:B解析:[单选题]12.什么是KDD?()A)数据挖掘与知识发现B)领域知识发现C)文档知识发现D)动态知识发现答案:A解析:[单选题]13.如何退出vi编辑器输入模式?1按ESC;2键入:q(如果你没有输入任何当下)3或者键入:wq(如果你已经输入当下)4按下Enter。A)1、3、2、4B)3、2、1、4C)2、1、3、4D)1、2、3、4答案:D解析:[单选题]14.LTE规划仿真中的详细规划不涉及的是()A)业务分布B)覆盖预测C)参数规划D)容量仿真答案:A解析:[单选题]15.如对用户的信令序列编码成时间序列,则可以利用哪种算法可以进行具备故障区分能力的特征挖掘A)EMB)K-MeansC)CARTD)PrefixSpan答案:D解析:[单选题]16.以下关于OLAP的叙述中错误的是()A)一个多维数组可以表示为(维1,维2,…,维n)B)维的一个取值称为该维的一个维成员C)OLAP是联机分析处理D)OLAP是数据仓库进行分析决策的基础答案:A解析:[单选题]17.即时通信业务的XDR类型编码是A)100B)101C)110D)113答案:C解析:[单选题]18.关于决策树算法,以下的叙述错误的是A)决策树修剪技术有预修剪和后修剪B)决策树层数越多,预测结果准确性越高C)C5.0、CHAID、CART都属于决策树算法D)修剪技术是为了防止过拟合的问题答案:B解析:[单选题]19.设置hadoop启动环境变量的文件是?A)core-site.xmlB)hdfs-site.xmlC)mapred-site.xmlD)hadoop-env.sh答案:D解析:[单选题]20.推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、(),推测客户将来可能的购买行为。A)客户的朋友B)客户的个人信息C)客户的兴趣爱好D)客户过去的购买行为和购买记录答案:D解析:[单选题]21.假设某属性的最大值和最小值分别为8000和15000,要将其映射到[0,1],按照最小-最大规范化方法对属性进行缩放,则12600将变换为:A)0.748B)0.767C)0.715D)0.725答案:B解析:[单选题]22.下面关于构建模型树的说法中,错误的是()。A)如果当前结点t所关联的数据集Dt中样本个数小于给定阈值或者Dt中样本的目标属性取值的标准差小于给定阈值,则将该结点标记为叶子节点B)创建一个结点t,与结点t关联的数据集记为DtC)在选择分类属性时,应选择时SDR值最小的属性D)SDR代表误差的期望减少答案:C解析:[单选题]23.在一个表中有字段?专业?,要查找包含?信息?两个字的记录,正确的表达式是______。A)LEFT(专业,2)="信息"B)LIKE"%信息%"C)LIKE"_信息_"D)RIGHT(专业,2)="信息"答案:B解析:[单选题]24.网络建设大类的标签中不包括A)4G弱覆盖B)宽带未覆盖C)宽带需光改D)4G发展不足答案:D解析:[单选题]25.我们把delta训练法则理解为训练一个()的感知器,也就是一个线性单元A)有阈值B)无阈值C)无限制D)有限制答案:B解析:[单选题]26.IMEI中的TypeAllocationCode字段可以确定哪些信息A)装配号B)终端型号C)出厂序号D)检验码答案:B解析:[单选题]27.下面哪个不是信息标记的格式?A)JSONB)YAMLC)CSVD)HTML答案:C解析:[单选题]28.3GPPR8及以后的SGSN与MME之间的接口是()A)S3B)S12C)S6D)S4答案:A解析:[单选题]29.Python科学计算的基本包是()。A)MatplotlibB)PandasC)NumpyD)Scikit-learn答案:C解析:[单选题]30.播放流畅度为统计时间段内视频播放流畅的单据量N1除以总的视频单据量N2。其中视频播放流畅的单据为:(视频平均下载速率/视频码率)>=()的单据。A)1B)1.1C)1.2D)1.3答案:C解析:[单选题]31.NoSQL含义是指()A)NO!SQL;B)NomberSQL;C)NotOnlySQLD)NOLLSQL答案:C解析:[单选题]32.使能一台IP地址为的主机访问Internet的必要技术是A)静态路由B)动态路由C)路由引入D)NAT答案:D解析:[单选题]33.大数据科学关注大数据网络发展和运营过程中()大数据的规律及其与自然和社会活动之间的关系。A)大数据网络发展和运营过程B)规划建设运营管理C)规律和验证D)发现和验证答案:D解析:[单选题]34.Requests库中,下面哪个是检查Response对象返回是否成功的状态属性?A)raise_for_statusB)headersC)status_codeD)status答案:C解析:题型:[单选题]35.以下关于前馈神经网络的叙述中正确的是()A)前馈神经网络只能有3层B)前馈神经网络中存在反馈C)前馈神经网络中每一层只接受来自前一层单元的输入D)以上都是正确的答案:C解析:[单选题]36.通常,我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此,需使用一个()来测试学习期对新样本的判别能力A)数据集B)测试集C)模型集D)训练集答案:B解析:[单选题]37.有一条关联规则为A→B,此规则的信心水平(confidence)为60%,则代表()A)买B商品的顾客中,有60%的顾客会同时购买AB)同时购买A,B两商品的顾客,占所有顾客的60%C)买A商品的顾客中,有60%的顾客会同时购买BD)两商品A,B在交易数据库中同时被购买的机率为60%答案:C解析:[单选题]38.Requests库中,下面哪个属性代表了从服务器返回HTTP协议头所推荐的编码方式?A)headersB)apparent_encodingC)textD)encoding答案:D解析:题型:[单选题]39.对于任一个频繁项集X和它的一个非空真子集Y,S=X-Y,规则S→Y成立的条件是()。A)confidence(→S)≥minconfB)confidence(→Y)<minconfC)confidence(→S)<minconfD)confidence(S→Y)≥minconf答案:D解析:[单选题]40.需求分析的目的是保证需求的()A)目的性和一致性B)完整性和一致性C)正确性和目的性D)完整性和目的性答案:B解析:[单选题]41.以下哪个算法是无监督学习算法()A)DBSCANB)RandomForestRegressorC)KNND)SVC答案:A解析:[单选题]42.在TDLTE网络中,用户的业务属性数据是在哪个网元上配置?A)MMEB)PDNGatewayC)HSSD)eNodeB答案:C解析:[单选题]43.通过聚集多个分类器的预测来提高分类准确率的技术称为A)组合(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)答案:A解析:[单选题]44.关于决策树算法描述错误的是()A)决策树包含根结点、内部结点和叶结点B)决策树算法对噪声的干扰十分敏感C)寻找最佳决策树是完全问题D)冗余属性不会对决策树的准确性造成不良影响答案:B解析:[单选题]45.对于双路的室分系统来说,影响性能的因素有那些()A)双路功率的平衡度B)双路天线间距C)A&BD)以上都不影响答案:C解析:[单选题]46.()框架是大数据的核心框架A)集中式计算B)隔离式计算C)分布式计算D)混合式计算答案:C解析:[单选题]47.已知事件A的概率P(A)=0.6,U为必然事件,则P(A+U)=1,P(AU)=A)0.4B)0.6C)0D)1答案:B解析:[单选题]48.关于主成分数目的选取,正确的是()A)保留多少个主成分取决于累计方差在方差总和中所占百分比B)一般选择50%以上C)选择前两个就可以D)选择的数目和变量的个数一致答案:A解析:[单选题]49.python不支持的数据类型有()A)charB)intC)floatD)list答案:A解析:[单选题]50.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?A)频繁模式挖掘B)分类和预测C)数据预处理D)数据流挖掘答案:C解析:[单选题]51.如果我使用数据集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明()A)欠拟合B)模型很棒C)过拟合D)算法不好答案:C解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.文本挖掘的工具有()A)SPPTextMiningB)IBMDB2intelligentMinerC)SASTextMinerD)SPSSTextMining答案:BCD解析:[多选题]53.下面有关HAVING子句的说法中正确的是()A)HAVING子句必须与GROUPBY子句同时使用,不能单独使用B)使用HAVING子句的同时不能使用WHERE子句C)使用HAVING子句的同时可以使用WHERE子句D)使用HAVING子句的作用是限定分组的条件答案:ACD解析:[多选题]54.簇有效性的面向相似性的度量包括()。A)精度B)RandC)JaccardD)召回率答案:BC解析:[多选题]55.检索所有姓?张?、姓?田?的学生信息,可以使用的SQL语句有______。A)SELECT*FROMstudentWHEREstudent_nameLIKE('张%'OR'田%');B)SELECT*FROMstudentWHERESUBSTRING(student_name,1,1)in('张','田');C)SELECT*FROMstudentWHERESUBSTRING(student_name,1,1)='张'ORSUBSTRING(student_name,1,1)='田';D)SELECT*FROMstudentWHEREstudent_nameLIKE'张%'ORstudent_nameLIKE'田%';答案:BCD解析:[多选题]56.在PTN构建的承载网络中,经常会用到链路聚合技术来实现对端口的保护和扩大链路带宽。使用U2000网管进行监控工作时,经常会发现有LAG_MEMBER_DOWN告警上报,则触发该告警上报的原因有A)端口的物理连接不可用B)聚合组端口运行了LACP,但LACP报文收发不正常C)端口误码越限D)聚合组端口有环回设置答案:ABCD解析:[多选题]57.以下哪些变量使用RFM方法构造出来的?()A)最近3期境外消费金额B)最近6期网银消费交易笔数C)信用额度D)距最近一次逾期的月数答案:ABD解析:[多选题]58.()这些数据特性都是正确聚类分析具有很强影响的。A)高维性B)规模C)稀疏性D)噪声和离群点答案:ABCD解析:[多选题]59.可以应用失败码定界法的指标包括A)附着成功率B)HTTP响应成功率C)TAU成功率D)TCP建立成功率答案:ABC解析:[多选题]60.若检验统计量F近似等于1,说明()A)组间方差中不包含系统因素的影响B)组内方差中不包含系统因素的影响C)组间方差中包含系统因素的影响D)方差分析中不应拒绝原假设答案:AD解析:[多选题]61.经常与子查询一起使用的运算符有______。A)INB)EXISTSC)ANYD)ALL答案:ABCD解析:[多选题]62.通过性能平台获取家庭宽带性能指标的方法有A)平台前端页面获取B)后端数据库获取C)网管导出D)宽带性能系统导出答案:ABD解析:[多选题]63.关于大数据的来源,以下理解正确的是()A)大数据是数据量变积累达到质变的结果B)数据的产生需要经历很长时间C)我们每个人都是数据的制造者D)当今的世界,基本上一切都可以用数字表达,所以叫数字化的世界答案:ACD解析:[多选题]64.某4G新用户,采用全新USIM卡完成EPS初始附着流程,请列举为完成该流程,SGSN-MME中可能需要用到的业务地址(ServiceIP)有哪些?A)S1-MMEB)S6aC)S10-GTP-CD)S11-GTP-C、DNS这些service的serviceIP地址答案:ABCD解析:[多选题]65.统计学和数据挖掘区别在()A)两者没有区别B)数据挖掘经常会面对尺度为GB甚至TB数量级的数据库,而用传统的统计方法很难处理这么大尺度的数据集C)两者采用的模型有区别,数据挖掘往往需要采用各种相应的数学模型和应用传统统计学以外的数学工具,才能建立最适合描述对象的模型或规则D)统计学和数据挖掘完全没有联系答案:BC解析:[多选题]66.网络大数据支撑规划进而实现最大化发挥网络资源价值并满足不同业务目标诉求的建模关键点是A)价值热点区域识别B)用户行为及收益分析C)覆盖评估D)体验评估答案:AB解析:[多选题]67.在SQL语句中,与表达式?成绩BETWEEN80AND90?功能不同的表达式是______。A)成绩>=80AND成绩<=90B)成绩<=80AND成绩>90C)成绩>=80OR成绩<=90D)成绩>80AND成绩<90答案:BCD解析:[多选题]68.下面列出的条目中,哪些是数据仓库的基本特征:()A)数据仓库是面向主题的B)数据仓库的数据是集成的C)数据仓库的数据是相正确稳定的D)数据仓库的数据是反映历史变化的E)数据仓库是面向事务的答案:ACD解析:第3部分:判断题,共20题,请判断题目是否正确。[判断题]69.模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。()A)正确B)错误答案:对解析:[判断题]70.列表对象的pop()方法默认删除并返回最后一个元素,如果列表已空则抛出异常。A)正确B)错误答案:对解析:[判断题]71.正确于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本正确分类结果没有影响。A)正确B)错误答案:对解析:[判断题]72.urlopen()是一个特殊的opener,支持设置代理IP。A)正确B)错误答案:错解析:[判断题]73.连接查询中,使用ON指定两个表之间的连接条件。A)正确B)错误答案:对解析:[判断题]74.如果一个规则X→Y同时满足support(X→Y)≥minsup和confidence(X→Y)≥minconf,则称该规则在数据库D中成立,其中minsup和minconA)正确B)错误答案:错解析:[判断题]75.一个算法的优劣可以用空间复杂度(SpaceComplexity)与时间复杂度(Timecomplexity)来衡量。A)正确B)错误答案:对解析:[判断题]76.k中心点算法在每个簇中选出一个最靠近均值的实际的对象来代表该簇。A)正确B)错误答案:对解析:[判断题]77.回归分析预测的值是连续的A)正确B)错误答案:对解析:[判断题]78.在一元线性回归模型中,变量显著性检验(t检验)与方程显著性检验(F检验)是一致的。A)正确B)错误答案:对解析:[判断题]79.文本文件是可以迭代的,可以使用forlineinfp类似的语句遍历文件对象fp中的每一行。A)正确B)错误答案:对解析:[判断题]80.品质数据既可以用整数值表示,也可以用连续值表示。A)正确B)错误答案:对解析:[判断题]81.re模块中的match方法是从字符串的开头对输入的正则表达式进行匹配。A)正确B)错误答案:对解析:[判断题]82.C4.5算法挑选具有最高信息增益的属性为测试属性。A)正确B)错误答案:错解析:[判断题]83.k中心点算法使用绝对误差标准作为度量聚类质量的目标函数A)正确B)错误答案:对解析:[判断题]84.Datahoop1.2版中K-means聚类分析要求输入的数据必须是数值型数据。A)正确B)错误答案:对解析:[判断题]85.已知x=list(range(20)),那么语句delx[::2]可以正常执行。A)正确B)错误答案:对解析:[判断题]86.服务器可以根据请求报头中的Accept进行判断,以返回适当的文件格式给浏览器。A)正确B)错误答案:对解析:[判断题]87.Python3.x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论