2025年CPDA考试真题与答案_第1页
2025年CPDA考试真题与答案_第2页
2025年CPDA考试真题与答案_第3页
2025年CPDA考试真题与答案_第4页
2025年CPDA考试真题与答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、判断題(題数:15,共15.0分)1.定量属性可以是整数值或者是持续值。()對的答案:√2.分类模型的误差大体分為两种:训练误差(trainingerror)和泛化误差(generalizationerror)。()對的答案:√3.在决策树中,伴随树中結點数变得太大,虽然模型的训练误差還在继续減低,不過检查误差開始增大,這是出現了模型拟合局限性的問題。()對的答案:×4.在聚类分析當中,簇内的相似性越大,簇间的差异越大,聚类的效果就越差。()對的答案:×5.聚类分析可以看作是一种非监督的分类。()對的答案:√6.假如一种對象不强属于任何簇,那么该對象是基于聚类的离群點。()對的答案:√7.容許误差应根据錯误记录對整個系统也許带来的破壞来确定,一般正是那些低使用率的产品或不常使用的产品為库存误差带来很大麻烦,因此应結合数量方差比例和绝對值方差来确定误差。()對的答案:√8.召回率反应的是预测為正中的样本中正例的概率。()對的答案:×9.支持度表达前项与後项在一种数据集中同步出現的频率。()對的答案:√10.最大最小值原则化法也叫极值法,该措施合用于已知数据集的最小值或最大值状况。()對的答案:√11.波特五力模型中五個压力来源是供应商议价能力、购置者的议价能力、行业新進入者的威胁、替代产品的威胁及企业内部的管理压力。()(1.0分)1.0分對的答案:×12.异常值在数理记录裏一般是指一组观测值中与平均值的偏差超過三倍原则差的测定值。()對的答案:×13.数据可视化可以便于人們對数据的理解。()對的答案:√14.大数据思维,是指一种意识,认為公開的数据一旦处理得當可认為人类急需处理的問題提供答案。()對的答案:√15.资金自身具有時间价值。()對的答案:×二、單项选择題(題数:30,共45.0分)1.某超市研究销售记录发現,购置牛奶的人很大概率會购置面包,這种属于数据挖掘的哪类問題?()A、聚类分析B、关联规则C、分类分析D、自然語言处理對的答案:B2.如下两种描述分别對应哪两种對分类算法的评价原则?()(a)警察抓杀人犯,描述警察抓的人中有多少個是杀人犯的原则。(b)描述有多少比例的杀人犯給警察抓了的原则。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC對的答案:A3.将原始数据進行集成、变换、维度规约、数值规约是在如下哪個环节的任务?()A、数据获取B、分类和预测C、数据预处理D、数据可视化對的答案:C4.當不懂得数据所带標签時,可以使用哪种技术促使带同类標签的数据与带其他標签的数据相分离?()A、分类B、聚类C、关联分析D、主成分分析對的答案:B5.下面哪种不属于数据预处理的措施?()A、变量代换B、离散化C、汇集D、估计遗漏值對的答案:D6.假设12個销售价格记录组已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等宽划分(宽度為50)措施将它們划提成四個箱,求15在哪個箱子裏?()A、第一种B、第二個C、第三個D、第四個對的答案:A7.如下哪些算法是分类算法?()A、DBSCANB、C4.5C、K-MeanD、K-medoids對的答案:B8.如下哪些分类措施可以很好地防止样本的不平衡問題?()A、KNNB、SVMC、BayesD、神經网络對的答案:A9.有关K均值和DBSCAN的比较,如下說法不對的的是()。A、K均值丢弃被它识别為噪声的對象,而DBSCAN一般聚类所有對象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不一样大小的簇,DBSCAN可以处理不一样大小和不一样形状的簇D、K均值可以发現不是明显分离的簇,即便簇有重叠也可以发現,不過DBSCAN會合并有重叠的簇對的答案:A10.下列不属于关联分析的关键要素的是()A、支持度B、置信度C、满意度D、提高度對的答案:C11.因子分析的重要作用有()A、對变量進行降维B、對变量進行鉴别C、對变量進行聚类D、以上都不對對的答案:A12.ROC曲线凸向哪個角,代表模型越理想?()A、左上角B、左下角C、右上角D、右下角對的答案:A13.SQL語句中删除表的命令是()A、DROPTABLEB、DELETETABLEC、ERASETABLED、DELETEDBF對的答案:A14.在多元回归模型的检查中,目的是检查每一种自变量与因变量在指定明显性水平上与否存在线性有关关系的检查是()A、r检查B、t检查C、f检查D、DW检查對的答案:B15.()提供的支撑技术,有效处理了大数据分析、研发的問題,例如虚拟化技术、并行计算、海量存储和海量管理等。A、點计算B、线计算C、雲计算D、面计算對的答案:C16.智能健康手环的应用開发,体現了()的数据采集技术的应用。A、记录报表B、网络爬虫C、API接口D、传感器對的答案:D17.下列有关数据重组的說法中,錯误的是()A、数据重组是数据的重新生产和重新采集B、数据重组可以使数据焕发新的光辉C、数据重组实現的关键在于多源数据融合和数据集成D、数据重组有助于实現新奇的数据模式创新對的答案:A18.美国海軍軍官莫裏通過對前人航海曰志的分析,绘制了新的航海路线图,標明了大風与洋流也許发生的地點。這体現了大数据分析理念中的()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析措施上更重视有关分析而不是因果分析C、在分析效果上更追究效率而不是绝對精确D、在数据规模上强调相對数据而不是绝對数据對的答案:B19.目前国内社會中,最為突出的大数据环境是()A、互联网B、物联网C、综合国力D、自然资源對的答案:A20.下列有关聚类挖掘技术的說法中,錯误的是()A、不预先设定数据归类类目,完全根据数据自身性质将数据聚合成不一样类别B、规定同类数据的内容相似度尽量小C、规定不一样类数据的内容相似度尽量小D、与分类挖掘技术相似的是,都是要對数据進行分类处理對的答案:B21.下列有关大数据的分析理念的說法中,錯误的是()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析措施上更重视有关分析而不是因果分析C、在分析效果上更追究效率而不是绝對精确D、在数据规模上强调相對数据而不是绝對数据對的答案:D22.對于企业来說,数据使用的关键是()A、数据搜集B、数据存储C、数据分析D、数据再运用對的答案:D23.数据仓库的最终目的是()A、搜集业务需求B、建立数据仓库逻辑模型C、開发数据仓库的应用分析D、為顾客和业务部门提供决策支持對的答案:D24.大数据背景下,数据支撑业务的目的是()A、建立数据科學B、完毕数据应用C、配置数据硬件D、吸纳数据人才對的答案:B25.在SQL中,创立数据库用的命令是()A、CREATESCHEMAB、CREATETABLEC、CREATEVIEWD、CREATEDATABASE對的答案:D26.下列四项中,不属于数据库特點的是()A、数据共享B、数据完整性C、数据冗余很高D、数据独立性高對的答案:C27.资金的時间价值是()A、同一资金在同一時點上价值量的差额B、同一资金在不一样步點上价值量的差额C、不一样资金在同一時點上价值量的差额D、不一样资金在不一样步點上价值量的差额對的答案:B28.下列选项中属于現金流入的项目是()A、所得税B、建设投资C、經营成本D、营业收入對的答案:D29.下列有关计算机存储容量單位的說法中,錯误的是()A、1KB<1MB<1GBB、基本單位是字节(Byte)C、一种中文需要一种字节的存储空间D、一种字节可以容纳一种英文字符對的答案:C30.按数据的构造程度来划分,分為()A、构造化数据半构造化数据非构造化数据B、强构造化数据弱构造化数据C、截面数据面板数据D、一级数据二级数据三级数据對的答案:A三、多选題(題数:20,共40.0分)1.如下属于数据预处理的是()A、缺失值填充B、噪声数据剔除C、异常值识别D、数据可视化對的答案:ABC2.缺失值的处理措施有哪些?()A、用平均值填充B、忽视缺失记录C、以任意数据填充D、用默认值填充對的答案:ABD3.如下属于数据规约措施的是()A、数据离散化B、数据原则化C、噪声数据识别D、数据压缩對的答案:AD4.数据挖掘的预测建模任务重要包括哪几大类問題?()A、分类B、回归C、模式发現D、模式匹配對的答案:AB5.如下說法對的的有哪些?()A、大数据仅仅是讲数据的体量大B、大数据對老式行业有协助C、大数据會带来机器智能D、大数据是一种思维方式對的答案:BCD6.有关大数据的来源,如下理解對的的是()A、大数据是数据量变积累到达质变的成果B、数据的产生需要經历很長時间C、我們每個人都是数据的制造者D、當今的世界,基本上一切都可以用数字体現,因此叫数字化的世界對的答案:ACD7.大数据在今天這個時间點上爆发的原因有哪些?()A、多种传感器無時無刻不在為我們提供大量的数据B、多种监控设备無時無刻不在為我們提供大量的数据C、多种智能设备無時無刻不在為我們提供大量的数据D、互联网的搜集和积累對的答案:ABCD8.()這些数据特性都是對聚类分析具有很强影响的。A、高维性B、规模C、稀疏性D、噪声和离群點對的答案:ABCD9.如下哪個分布是右偏分布?()A、均匀分布B、卡方分布C、F分布D、對数正态分布對的答案:BCD10.如下哪些变量使用RFM措施构造出来的?()A、近来3期境外消费金额B、近来6期网银消费交易笔数C、信用额度D、距近来一次逾期的月数對的答案:ABD11.如下表student中,怎样筛选type為包括数學或語文的记录?()A、select*fromstudentwheretype=“数學”andtype=“語文”B、select*fromstudentwheretype=“数學”ortype=“語文”C、select*fromstudentwheretypein(“数學”,“語文”)D、select*fromstudentwheretypein(“数學”?“語文”)對的答案:BC12.主成分分析计算选择有关系数计算法時,确定主成分個数的大体原则包括()A、特性根值不小于1B、特性根值不小于0.8C、累积特性根值加總占總特性根值的80%以上D、累积特性根值加總占總特性根值的90%以上對的答案:AC13.在客户关系管理中,客户的生命周期都包括()阶段。A、潜在客户B、响应客户C、即得客户D、流失客户對的答案:ABCD14.分箱措施有哪些?()(2.0分)0.0分A、等深分箱B、等宽分箱C、数据原则化D、自定义区间法對的答案:ABD15.运用Apriori算法计算频繁项集可以有效減少计算频繁集的時间复杂度。在如下的购物篮中产生支持度不不不小于3的候选3-项集,在候选2-项集中需要剪枝的是()ID项集。1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶對的答案:BD16.我們可以用哪种方式来防止决策树過度拟合的問題?()A、运用修剪法来限制树的深度B、运用盆栽法规定每個节點下的最小的记录数目C、运用逐渐回归法来删除部分数据D、目前并無适合的措施来处理這問題對的答案:A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论