版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据挖掘技术练习大数据挖掘技术练习(习题卷14)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据挖掘技术练习第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.用户面分析包括A)DNS查询B)网络附着C)承载建立D)TAU更新答案:A解析:[单选题]2.维度规约是在以下哪个步骤的任务?()A)频繁模式挖掘B)降维C)数据预处理D)数据流挖掘答案:C解析:[单选题]3.在用SQL查询时,用WHERE子句指出的是______。A)查询结果B)查询条件C)查询视图D)查询目标答案:B解析:[单选题]4.卡方检验?A)是一种假设检验B)是一种T检验C)SAS有专门卡方检验过程D)样本含量小于40也可以使用答案:A解析:[单选题]5.在进行数据分箱时,我们所说的基于MDLP的分组指的是A)组距分组B)分位数分组C)多变量分组D)基于最短描述长度原则答案:D解析:[单选题]6.CART算法采用的是基尼(Gini)指数(选Gini指数最小的特征s)作为分裂标准,同时它也包含后剪枝操作。CART算法生成的是一棵()。A)二叉树B)三叉树C)决策树D)FP树答案:A解析:[单选题]7.给出下列结论:1)在回归分析中,可用指数系数R方的值判断模型的拟合效果,R方越大,模型的拟合效果越好;2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r的值判断模型的拟合效果,r越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越宽,说明模型的拟合精度越高.以上结论中,正确的有()个.A)1B)2C)3D)4答案:A解析:[单选题]8.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A)DELETEB)DROPC)CLEARD)REMORE答案:A解析:[单选题]9.下面哪个是用来定义类的关键字?A)continueB)classC)defD)yield答案:B解析:[单选题]10.SELECT语句中的JOIN用来实现多个表的连接查询,JOIN应放在下列哪个短语之后______。A)FROMB)WHEREC)OND)GROUPBY答案:A解析:[单选题]11.已知学生表student的数据如下:学号姓名年龄性别班级20180001张三18男计算机1班20180002李四19男计算机1班20180003王五20男计算机1班20180004刘七19女计算机2班执行下列命令后,得到的记录数是______。SELECT班级,MAX(年龄)FROMstudentGROUPBY班级;A)4B)3C)2D)1答案:C解析:[单选题]12.协同过滤算法解决的是数据挖掘中的哪类问题()A)分类问题B)聚类问题C)推荐问题D)自然语言处理问题答案:C解析:[单选题]13.在CBD商圈,以下哪类APP流量占比最高A)即时通信B)音乐C)下载D)视频答案:A解析:[单选题]14.HDFS存储数据时,默认存储为()份A)1B)2C)3D)4答案:C解析:[单选题]15.面不属于创建新属性的相关方法的是()A)特征提取B)特征修改C)映射数据到新的空间D)特征构造答案:B解析:[单选题]16.下列选项中错误的是()。A)MSE=SSE/dfEB)MST=SST/dfTC)SSR=SST+SSED)MSR=SSR/dfR答案:C解析:[单选题]17.对于LTE系统KPI性能指标描述错误的是(D)A)覆盖类指标主要关注RSRP、RS-CINR、覆盖率B)呼叫建立和保持类主要关注RRC连接建立成功率、E-RAB建立成功率、无线接通率、E-RAB建立阻塞率、RRC连接异常掉话率C)移动性管理类主要包括eNB内切换成功率、X2口切换成移动性管理类主要包括eNB内切换成功率、X2口切换成功率、S1口切换成功率、系统间切换成功率(包含与GSM/WCDMA/TD/CDMA等系统的切换)、E-RAB掉话率D)系统资源类指标主要关注上下行误块率、上下行MAC层重传率等答案:C解析:[单选题]18.的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。()A)数据清洗B)数据集成C)数据变换D)数据归约答案:D解析:[单选题]19.下列方法中,获取当前页渲染后的源代码是()A)close()B)quit()C)page_sourceD)title答案:C解析:[单选题]20.以下叙述错误的是:A)时序预测回归预测一样,也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同B)分类是预测数据对象的离散类别,预测是用于数据对象的连续取值C)聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程D)分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法答案:A解析:[单选题]21.关于HBASE描述错误的是A)空值占据空间B)高可靠性C)面向列D)高性能答案:A解析:[单选题]22.概念分层图是____图。A)无向无环B)有向无环C)有向有环D)无向有环答案:B解析:[单选题]23.d={}d.setdefault('a',0)d.setdefault('b',[1,2,3])d.setdefault('b',[1,2])print(d)A){'a':0,'b':[1,2,3]}B){'a':0,'b':[1,2]}C){'b':[1,2,3]}D){'a':0}答案:A解析:setdefault函数向字典中添加键和值,如果没有,则首先将该键值对加入,并将对应的值作为默认值,然后返回该默认值;如果字典中键已经有了,那么取回该键对应的默认值。[单选题]24.快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析的是()。A)Map;B)ReduceC)H.iveD)SQL语句答案:D解析:[单选题]25.可以最全面反映整个网络缺省EPS承载的建立成功率的指标是A)PDN连接建立成功率B)缺省承载激活成功率C)MME建立缺省S5S8承载成功率D)位置更新的成功率答案:A解析:[单选题]26.下列选项中,属于结构化数据的是____。A)图像B)文本C)办公文档D)JSON答案:D解析:[单选题]27.关于数据仓库设计,下列说法中正确的是()。A)不可能从用户的需求出发来进行数据仓库的设计B)只能从各部门业务应用的方式来设计数据模型C)在进行数据仓库主题数据模型设计时要强调数据的集成性D)在进行数据仓库概念模型设计时,必须要设计实体关系图答案:C解析:[单选题]28.下列不属于数据质量问题的是()。A)缺失值B)不一致的值C)重复数据D)非结构数据答案:D解析:[单选题]29.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A)18.3B)22.6C)26.8D)27.9答案:A解析:[单选题]30.已知某企业第20期的模型参数a=91856-105,用二次指数平滑法预测第25期的销售量是()。A)1023.5B)1443.5C)4697.5D)5117.5答案:B解析:[单选题]31.下列不属于联机分析处理的基本分析功能的是()。A)转块B)切片C)转轴D)切块答案:A解析:[单选题]32.人工智能研究的基本内容不包括()A)组装机器B)机器思维C)机器行为D)机器感知答案:A解析:[单选题]33.平均用户DOU最高的是以下哪个APPA)微信B)爱奇艺C)淘宝D)抖音答案:D解析:[单选题]34.下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是()。A)JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。B)JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。C)JP聚类是基于SNN相似度的概念。D)JP聚类的基本时间复杂度为O(m)。答案:D解析:[单选题]35.以下哪个聚类算法不是属于基于原型的聚类()。A)模糊c均值B)EM算法C)SOMD)CLIQUE答案:D解析:[单选题]36.()应该意味着这两个点属于一个分类的可能性越大A)在同一区间B)距离越远C)距离越近D)出现频率小答案:C解析:[单选题]37.以下哪种算法是关联规则挖掘()A)SVCB)KNNC)AprioriD)PCA答案:C解析:[单选题]38.数据中心侧的数据流转方式未为()A)D.XP;B)E.SPC)OGGD)E.TL答案:D解析:[单选题]39.朴素贝叶斯分类中得到条件概率的方法错误的是()。A)对于定量属性,假设变量服从某种概率分布,通过训练数据集估计分布的参数B)对于定性属性,计算某一类别的样本中某种属性取该值的样本所占比例来近似C)对于定量属性,将取值离散化变为区间,再当做定性属性处理D)对于定性属性,将转化为定量属性,再计算相应的概率答案:D解析:[单选题]40.下述算法中不属于聚类算法的是A)K-MeansB)DBSCANC)AprioriD)Jarvis-Patrick答案:C解析:[单选题]41.SGW和PGWS5/S8协议栈自上而下正确的顺序是()A)GTP/TCP/IP/L2/L1B)GTP/UDP/IP/L2/L1C)GTP/SCTP/IP/L2/L1D)GTP/RLC/MAC/L1答案:B解析:[单选题]42.给定numpy.ndarray类型的数X,在以下代码中,eps参数的含义是()。Fromsklearn.clusterimportDBSCANClustering=DBSCAN(=3,min_samples=2).fit()A)簇的个数B)邻域半径C)每个簇的最小样本数D)收敛条件阈值答案:B解析:[单选题]43.Uu接口XDR数据结构中,ProcedureType字段属于A)公共信息B)Uu接口信息C)Uu接口KeywordD)Uu接口事件流程开始/结束标识答案:B解析:[单选题]44.Hadoop框架中两大核心是:()和MapReducEA)H.CFS;B)H.DFSC)H.EFSD)H.FFS答案:B解析:[单选题]45.数据仓库的最终目的是()A)收集业务需求B)建立数据仓库逻辑模型C)开发数据仓库的应用分析D)为用户和业务部门提供决策支持答案:D解析:[单选题]46.用户能正常使用VOLTE终端,打VOLTE电话,然后用户VOLTE终端关机,将SIM卡放入2G终端,并且拨打电话后,再关机,将SIM卡放回原VOLTE终端,开机后,这时用户拨打电话会出现以下哪个现象A)用户通话CSFB回落B)用户能正常打通VOLTE高清电话C)用户通话失败,终端话筒无声D)VOLTE终端出现脱网答案:A解析:[单选题]47.给定历史时间数据,通过拟合时序模型,分析研究时序数据的发展变化规律,得出观测数据的历史统计特征,再据此进行外推预测目标的分析方法是()。A)聚类;B)回归C)时间序列D)汇总统计答案:C解析:[单选题]48.在Numpy包中,计算中位数的函数为()。A)numpy.median()B)numpy.var()C)numpy.std()D)numpy.mean()答案:A解析:[单选题]49.以下不属于开源的数据挖掘工具是()A)RapidMinerB)NLTKC)KNIMED)WEKA答案:B解析:[单选题]50.HTTP响应中404代码指的是()A)请求被服务器拒绝B)服务器无法找到请求的URLC)不允许使用此方法请求相应的URLD)服务器内部错误答案:B解析:[单选题]51.余弦相似度适用于()情况。A)属性类型多B)属性数量多C)距离相近D)有大量零值维度答案:D解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.影响聚类算法结果的主要因素有()A)特征选取B)已知类别的样本质量C)模式相似性测度D)分类准则答案:ACD解析:[多选题]53.数据预处理方法主要有()A)数据清洗B)数据集成C)数据变换D)数据归约答案:ABCD解析:[多选题]54.数据挖掘的分类方法包括A)基于距离的分类方法B)决策树C)贝叶斯分类方法D)规则归纳分类方法答案:ABCD解析:[多选题]55.Namenode的作用是?A)存储用户上传的生产数据B)完成用户计算任务C)存储datanode节点报告的运行数据D)将用户的计算工作分配给各个计算节点答案:CD解析:[多选题]56.数据挖掘主要构建四大模型描述错误的是()A)聚类是依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情况B)分类指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程C)预测是基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值D)关联分析又称关联挖掘,在数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构答案:AB解析:[多选题]57.VoLTE网络接通率的取数方法为()A)VoLTE语音网络接通次数:xDR中字段?Interface?=Mw,且?ServiceType?=1,且?ProcedureType?=5,且?CALL_SIDE?=1,且?ALERTING_TIME?≠全F,或RESPONSE_CODE=403、或RESPONSE_CODE=404、RESPONSE_CODE=405、RESPONSE_CODE=413、RESPONSE_CODE=414、RESPONSE_CODE=415、RESPONSE_CODE=416、RESPONSE_CODE=422、RESPONSE_CODE=423、RESPONSE_CODE=480、RESPONSE_CODE=486、RESPONSE_CODE=488、RESPONSE_CODE=600、RESPONSE_CODE=603、RESPONSE_CODE=604、RESPONSE_CODE=606)的xDR个数。B)VoLTE语音始呼用户原因早释总次数:若:?SOURCE_ACCESS_TYPE?=1/2,且?DEST_ACCESS_TYPE?=1/2,则:xDR中字段?Interface?=Mw,且?ServiceType?=1,且?ProcedureType?=5,且?CALL_SIDE?=1,且?SOURCE_ACCESS_TYPE?=1/2,且?DEST_ACCESS_TYPE?=1/2,且?ProcedureEndTime?-?ProcedureStartTime?<8s,且?FIRST_FAIL_NE_IP?为SCSCFIP且?RESPONSE_CODE?=487的xDR个数。C)VoLTE语音呼叫总次数:xDR中字段?Interface?=Mw,且?ServiceType?=1,且?ProcedureType?=5,且?CALL_SIDE?=1的xDR个数D)根据MwXDR。答案:ABCD解析:[多选题]58.MySQL视图包括______。A)普通视图B)检查视图C)一般视图D)虚表答案:AB解析:[多选题]59.常用的非线性函数除了多项式函数之外,还包括()。A)幂函数B)对数函数C)双曲函数D)指数函数答案:ABCD解析:[多选题]60.预测性能的优劣需要一定的度量来衡量,常用的度量是()。A)RAE(相对绝对误差)B)MAE(平均绝对误差)C)MSE(均方误差)D)RSE(相对平方误差)答案:ABCD解析:[多选题]61.下列标签一定要成对出现的是()A)<HTML〉〈/HTML〉B)<P〉〈/P〉C)<TITLE〉〈/TITLE〉D)<BODY〉〈/BODY〉答案:ACD解析:[多选题]62.以下各项均是针对数据仓库的不同说法,你认为正确的有()。A)数据仓库就是数据库B)数据仓库是一切商业智能系统的基础C)数据仓库是面向业务的,支持联机事务处理(OLTP)D)数据仓库支持决策而非事务处理答案:BCD解析:[多选题]63.diameter基本协议运行在()传输协议上A)SNMPB)SCTPC)TCPD)UDP答案:CD解析:[多选题]64.市场需求分析包含几个要素A)产品定位B)市场需求C)目标人群D)推广策略答案:ABCD解析:[多选题]65.下列关于机器学习中L1正则化和L2正则化的描述正确的是?()A)使用L1可以得到稀疏的权值B)使用L1可以得到平滑的权值C)使用L2可以得到稀疏的权值D)使用L2可以得到平滑的权值答案:BCD解析:[多选题]66.区块链特征包含有()A)分布式是区块链技术区别于其他技术的核心要点,数据由系统中维护功能的节点共同维护B)区块链技术通过数字加密算法进行编排,节点相互联系,没有一个中心节点可以被打击和篡改,稳定性和安全性更高C)公有区块链系统是对所有人开放的,任何人均可以通过端口进行查询和开发,系统是公开透明的,从而也更容易形成共识D)区块链技术节点之间交换遵循一定的算法,通过程序规则自行判断,并形成一种信任,即使是在匿名的情况下,也会对对方产生基本的信任答案:ABCD解析:[多选题]67.非频繁模式__()__A)其支持度小于阈值B)都是不让人感兴趣的C)包含负模式和负相关模式D)对异常数据项敏感答案:AD解析:[多选题]68.下列属于不同的有序数据的有?A)时序数据B)序列数据C)时间序列数据D)事务数据E)空间数据答案:ABCE解析:第3部分:判断题,共20题,请判断题目是否正确。[判断题]69.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。()A)正确B)错误答案:错解析:[判断题]70.边际收入是指每增加1单位销量所带来的总收入的增加额度。A)正确B)错误答案:对解析:[判断题]71.resquests库中的get()方法可以只有一个参数A)正确B)错误答案:对解析:[判断题]72.根据顾客的年龄对顾客信息进行排序属于数据挖掘的任务A)正确B)错误答案:错解析:[判断题]73.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。A)正确B)错误答案:对解析:[判断题]74.文件打开之后可以不关闭,因为程序执行完成后可以自动关闭文件。A)正确B)错误答案:错解析:文件打开之后,若不使用了要关闭。避免程序崩溃导致数据丢失[判断题]75.已知x为非空字符串,那么表达式?,?.join(x.split(?,?))==x的值一定为True。A)正确B)错误答案:对解析:[判断题]76.反爬虫主要有以下几种方式:通过UA判断、通过单IP频繁访问判断、通过Cookie判断、动态页面加载、采用验证码。A)正确B)错误答案:对解析:[判断题]77.模型树构建之后,为了避免过度拟合,需要对模型树进行剪枝。A)正确B)错误答案:对解析:[判断题]78.数据挖掘主要构建四大类模型包括:分类、聚类、预测和关联()A)正确B)错误答案:对解析:[判断题]79.如果需要连接大量字符串成为一个字符串,那么使用字符串对象的join()方法比运算符+具有更高的效率。A)正确B)错误答案:对解析:[判断题]80.样本容量是指从总体中抽取的个体。A)正确B)错误答案:错解析:[判断题]81.如果一个正确象不强属于任何簇,那么该正确象是基于聚类的离群点。A)正确B)错误答案:对解析:[判断题]82.轮廓系数是将凝聚度和分离度相结合的一种度量,越大聚类效果越好。A)正确B)错误答案:对解析:[判断题]83.企业购并处于竞争地位的同类型企业形成企业集团称为集团多角化。A)正确B)错误答案:错解析:[判断题]84.在模型树的构建过程中,分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据,将标准差作为一种误差度量,将分裂前后标准差的减少量作为误差的期望减少,称为SDR。A)正确B)错误答案:对解析:[判断题]85.不同的算法可能用不同的时间、空间或效率来完成同样的任务。A)正确B)错误答案:对解析:[判断题]86.数据框中的iloc属性主要基于列标签进行索引A)正确B)错误答案:错解析:[判断题]87.JSONPath是一种信息抽取类库,用于从JSON文档中抽取指定信息。A)正确B)错误答案:对解析:[判断题]88.决策树中基于信息增益分裂准则的一个缺陷是它趋向于多值属性。()A)正确B)错误答案:对解析:第4部分:问答题,共12题,请在空白处填写正确答案。[问答题]89.数据挖掘(DataMining,DM),是从____的、有____的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的____的过程。答案:大量|噪声|信息和知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年农业合作社劳务合作合同模板4篇
- 2025年度船舶改装设计服务合同范本3篇
- 2025年度母婴护理与家居安全月嫂服务合同4篇
- 二零二五年度新能源材料名义合伙人合同4篇
- 2025年储煤场租赁与智能化仓储解决方案合同4篇
- 二零二五年度农药产品市场拓展销售合同4篇
- 二零二五年度木屑生物质复合材料承包协议4篇
- 二零二五美容院美容院美容院美容院美容产品售后服务合同2篇
- 二零二五年度医疗健康行业借款合同协议2篇
- 23-24年项目部安全管理人员安全培训考试题及答案审定
- 2021年全国高考物理真题试卷及解析(全国已卷)
- 拆迁评估机构选定方案
- 趣味知识问答100道
- 钢管竖向承载力表
- 2024年新北师大版八年级上册物理全册教学课件(新版教材)
- 人教版数学四年级下册核心素养目标全册教学设计
- JJG 692-2010无创自动测量血压计
- 三年级下册口算天天100题(A4打印版)
- 徐州市2023-2024学年八年级上学期期末地理试卷(含答案解析)
- CSSD职业暴露与防护
- 饮料对人体的危害1
评论
0/150
提交评论