版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据挖掘分析专业考试题及答案单选题1.通过(),计算频数、众数、中位数等一个或多个数据指标,探索数据的分布结构。A、概率统计法B、汇总统计法C、可视化法D、分类统计法参考答案:B2.MapReduce是一种()计算模型A、集中式;B、分布式C、离散式D、放射式参考答案:B3.一种商品价格变动与由此引起另外一种商品需求量相对变动的比率称为()A、需求价格弹性B、供给价格弹性C、需求交叉弹性D、供给交叉弹性参考答案:C4.请问以下何者属于时间序列的问题?A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上均不是参考答案:B5.非参数检验是针对()分布情况做的假设。A、总体B、局部C、个体参考答案:A6.分类器效果检验中的准确率是指()A、预测正确的数据在总数据中的比例B、预测为正的数据在总数据中的比例C、预测为正的数据中实际为正的数据所占比例D、实际为正的数据中被预测为正的数据所占比例参考答案:C7.《数据安全法》发布执行时间()。A、2021年9月1日;B、2021年10月1日;C、2021年11月1日D、2021年12月1日参考答案:A8.实际接入的指标数占应接指标总数的比例,统计时又分线上和线下接入率称为()A、指标数据自动采集率;B、指标数据接入率C、指标数据接入及时率;D、指标数据完整率参考答案:B9.关于回归分析,下列说法中错误的是()A、作回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析,要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。B、在进行线性回归分析进行的数据准备的时候,要求因变量y和自变量x都是符合总体正态的随机变量。C、回归直线不要随意外延D、所有非线性回归都可以转化为线性回归参考答案:D10.净现值、内部收益率、获利指数指标之间的数量关系()NPV>0A、当PI<1,时,IRR>iNPV>0B、当PI>1,时,IRR>iNPV<0C、当PI<1时,IRR>i,NPV<0、当DPI>1IRR>i,时,参考答案:B11.关于K均值和DBSCAN的比较,以下说法不正确的是()A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。参考答案:A12.人们购买制冷用空调主要是为了在夏天获得凉爽空气,这属于空调产品整体概念中的()A、有形产品B、直接产品C、核心产品D、主要产品参考答案:C13.某牙膏厂原来生产两面针药物牙膏,现在又增加牙刷生产,这属于()A、同心多元化B、水平多元化C、集团多元化D、相关多元化参考答案:B14.在发生或者可能发生个人信息泄露、毁损、丢失的情况时,应当立即采取()措施,按照规定及时告知用户并向有关主管部门报告。()A、弥补B、补救C、救援D、相关参考答案:B15.回归分析的第一步是()A、确定解释量和被解释变量B、确定回归模型C、建立回归方程D、进行检验参考答案:A16.当所有观测值都落在回归直线上,则这两个变量之间的相关系数为()A、1B、-1C、+1或-1D、0参考答案:C17.()是进行项目投资效益评价的最终依据。A、现金流量B、盈亏平衡点C、净现金流量D、现金流入量参考答案:C18.被广泛用于购物篮分析的是()。A、关联分析;B、分类和预测C、聚类分析D、演变分析参考答案:A19.下面哪种不属于数据预处理的方法?()A、变量代换B、离散化C、聚集D、估计遗漏值参考答案:D20.下列不属于关联分析的关键要素的是()A、支持度B、置信度C、满意度D、提升度参考答案:C21.NoSQL含义是指()A、NO!SQL;B、NomberSQL;C、NotOnlySQLD、NOLLSQL参考答案:C22.资金的时间价值是()A、同一资金在同一时点上价值量的差额B、同一资金在不同时点上价值量的差额C、不同资金在同一时点上价值量的差额D、不同资金在不同时点上价值量的差额参考答案:B23.以下哪种方法不属于于监督学习模型()A、决策树B、线性回归C、关联分析D、判别分析参考答案:C24.在多元回归模型的检验中,目的是检验每一个自变量与因变量在指定显著性水平上是否存在线性相关关系的检验是()A、r检验B、t检验C、f检验D、DW检验参考答案:B25.关于混合模型聚类算法的优缺点,下面说法正确的是()A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。B、混合模型比K均值或模糊C均值更一般,因为它可以使用各种类型的分布。C、混合模型很难发现不同大小和椭球形状的簇。D、混合模型在有噪声和离群点时不会存在问题。参考答案:B26.大数据背景下,数据支撑业务的目的是()A、建立数据科学B、完成数据应用C、配备数据硬件D、吸纳数据人才参考答案:B27.下面关于因子分析的说法正确的是()A、因子分析就是主成分分析B、因子之间可相关也可不相关C、因子受量纲的影响D、可以对因子进行旋转,使其意义更明显参考答案:D28.快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析的是()。A、Map;B、ReduceC、H.iveD、SQL语句参考答案:D29.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是()A、数据越多越好B、尽可能多的适合的数据C、数据越少越好D、以上三条都不正确参考答案:B30.以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况参考答案:D31.将复杂的地址简化成北、中、南、东四区,是在进行?A、数据正规化B、数据一般化C、数据离散化D、数据整合参考答案:B32.Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用()语言实现开源软件框架。A、javaB、C.++C、R语言参考答案:A33.大数据特征错误的是()。A、容量大;B、类型多C、价值高D、系统多参考答案:D34.Apriori算法是最基本的一种关联规则算法,它采用布尔关联规则的挖掘频繁项集的算法,利用()搜索的方法挖掘频繁项集。A、逐层B、逐级C、自底向上D、自上而下参考答案:A35.分类算法以()定理为基础,采用概率方法对数据进行建模A、决策树B、K-最邻近C、SVMD、贝叶斯参考答案:D36.自然界中某种事物发生时其他事物也会发生,则这种联系称之为()。A、连接B、联络C、关联D、联系参考答案:C37.源业务系统接入数据中心的方式主要有:JDBCESB和()。A、D.XP;B、E.SPC、0GGD、E.TL参考答案:C38.下列哪个不属于个人信息影响评估原则()A、个人信息的处理目的、处理方式等是否合法、正当、必要B、对个人的影响及风险程度C、谁主管谁负责D、所采取的安全保护措施是否合法、有效并与风险程度相适应。参考答案:C39.以下哪项关于决策树的说法是错误的()A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题参考答案:C40.Hadoop框架中两大核心是:()和MapReducEA、H.CFS;B、H.DFSC、H.EFSD、H.FFS参考答案:B41.将数据转换为可视化的形式,便于直观快速发现数据规律。的数据探索方法是()。A、汇总统计法B、概率统计法C、可视化法参考答案:C42.矩估计的基本原理是()A、用样本矩估计总体矩B、使得似然函数达到最大C、使得似然函数达到最小D、小概率事件在一次试验中是不可能发生的参考答案:A43.数据预处理目前常用的异常数据识别方法包括业务判别法、()、箱线图判别法、统计判别法A、聚类判别法;B、回归判别法C、抽样判别法参考答案:A44.算法的核心思想是()逐层构造一个树。A、自上而下B、自下而上C、自左向右D、自右向左参考答案:A45.下列关于大数据的分析理念的说法中,错误的是()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据参考答案:D46.什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现参考答案:A47.某家长为了使孩子在第3-6年上大学的4年中,每年年初得到10000元助学基金,他应在2年前在银行存入多少钱?(年利率按5%计算)()A、33771B、30291C、32163D、45256参考答案:A48.关于K均值和DBSCAN的比较,以下说法不正确的是()。A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇参考答案:A49.SQL查询语句中HAVING子句的作用是()A、指出分组查询的范围B、指出分组查询的值C、指出分组查询的条件D、指出分组查询的内容参考答案:C50.一组数据中出现次数最多的数据称为()。A、分位数B、中位数C、众数参考答案:C51.JSON中的中括号一般来表示()。A、数组;B、标点符号C、对象D、注释参考答案:C52.模型构建指基于()数据构建数据挖掘模型。A、线上B、线下C、实时D、历史参考答案:D53.Tableau在处理离线地图时,需要将标记设置为()。A、路径;B、区域C、边形D、已填充地图参考答案:A54.以下关于人工神经网络(ANN)的描述错误的有()A、神经网络对训练数据中的噪声非常鲁棒B、可以处理冗余特征C、训练ANN是一个很耗时的过程D、至少含有一个隐藏层的多层神经网络参考答案:A55.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据参考答案:B56.当时间序列的环比增长速度大体相同时,适宜拟合()A、指数曲线B、抛物线C、直线D、对数曲线参考答案:A57.将多个指标转化为少数几个指标的一种统计分析方法是()。A、数据预处理;B、数据降维C、主成分分析D、假设检验参考答案:C58.设X={1,2,3}是频繁项集,则可由X可产生()个关联规则。A、3B、4C、5D、6参考答案:D59.当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理()A、直接使用该变量B、根据是否缺失,生成指示变量,仅使用指示变量作为解释变量C、使用多重插补的方法进行缺失值填补D、直接删除该变量参考答案:B60.大数据分析挖掘流程正确的是()。A、业务理解→数据理解→数据准备→建立模型→模型评估;B、业务理解→数据准备→数据理解→建立模型→模型评估;C、业务理解→数据准备→数据理解→模型评估→建立模型;D、业务理解→数据准备→模型评估→数据理解→建立模型参考答案:A61.()是统计学的基础,是统计学里面最重要的概率分布A、正态分布;B、静态分布C、动态分布D、稳态分布参考答案:A62.因子分析的主要作用有()A、对变量进行降维B、对变量进行判别C、对变量进行聚类D、以上都不对参考答案:A63.数据中心侧的数据流转方式未为()A、D.XP;B、E.SPC、0GGD、E.TL参考答案:D64.给定历史时间数据,通过拟合时序模型,分析研究时序数据的发展变化规律,得出观测数据的历史统计特征,再据此进行外推预测目标的分析方法是()。A、聚类;B、回归C、时间序列D、汇总统计参考答案:C65.智能健康手环的应用开发,体现了()的数据采集技术的应。A、统计报表B、网络爬虫C、API接口D、传感器参考答案:D66.假设检验中显著性水平是()A、推断时犯取伪错误的概率B、推断时取伪弃真的概率C、正确推断的概率D、是推断的可信度参考答案:B67.以下哪些算法是分类算法()A、DBSCANB、C4.5C、K-MeanD、EM参考答案:B68.以下关于大数据应用说法错误的是()。A、大数据起源互联网,目前处于成熟期;B、目前金融、电信、零售、公共服务等领域在积极的探索和应用大数据;C、互联网是大数据的发源地;D、互联网上形成了多种相对成熟的应用模式。参考答案:A69.下列关于计算机存储容量单位的说法中,错误的是()A、1KB<1MB<1GBB、基本单位是字节(Byte)C、一个汉字需要一个字节的存储空间D、一个字节能够容纳一个英文字符参考答案:C70.当置信水平一定时,置信区间的宽度()A、随着样本量的增大而减小B、随着样本量的增大而增大C、与样本量的大小无关D、先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。参考答案:A71.倒传递神经网络(BP神经网络)的训练顺序为何?(A:调整权重;B:计算误差值;C:利用随机的权重产生输出的结果)A、BCAB、CABC、BACD、CBA参考答案:D72.个人信息保护影响评估报告和处理情况记录应当至少保存()年。A、一B、十C、五D、三参考答案:D73.资金的时间价值是()A、同一资金在同一时点上价值量的差额B、同一资金在不同时点上价值量的差额C、不同资金在同一时点上价值量的差额D、不同资金在不同时点上价值量的差额参考答案:B74.有一条关联规则为A→B,此规则的信心水平(confidence)为60%,则代表()A、买B商品的顾客中,有60%的顾客会同时购买AB、同时购买A,B两商品的顾客,占所有顾客的60%C、买A商品的顾客中,有60%的顾客会同时购买BD、两商品A,B在交易数据库中同时被购买的机率为60%参考答案:C75.有一组数据其均值是20,对其中的每一个数据都加上10,那么得到的这组新数据的均值是()。A、20B、10C、15D、30参考答案:D76.与大数据密切相关的技术是()。A、蓝牙;B、云计算C、Wi-FiD、博弈论参考答案:B77.在数据分析和处理方面具有分析方法丰富、分析模型扩展强、数据挖掘能力强等特点的分析工具是()。A、WekaB、SPSSC、SASD、R参考答案:D78.用于分类与回归应用的主要算法有:()A、Apriori算法、HotSpot算法B、RBF神经网络、K均值法、决策树C、K均值法、SOM神经网络D、决策树、BP神经网络、贝叶斯参考答案:D79.()提供的支撑技术,有效解决了大数据分析、研发的问题,比如虚拟化技术、并行计算、海量存储和海量管理等。A、点计算B、线计算C、云计算D、面计算参考答案:C80.描述一组对称(或正态)分布数据的离散程度时,最适宜选择的指标是()A、极差B、标准差C、均值D、变异系数参考答案:B81.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,若采用合并策略,则由候选产生过程得到4-项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5参考答案:C82.相关分析与回归分析的一个重要区别是()A、前者研究变量之间关系的密切程度,后者研究变量间的变动关系,并用方程式表示B、前者研究变量之间的变动关系,后者研究变量间关系的密切程度C、两者都研究变量间的变动关系D、两者都不研究变量间的变动关系参考答案:A83.SQL语句中删除表的命令是()A、DROPTABLEB、DELETETABLEC、ERASETABLED、DELETEDBF参考答案:A84.已知事件A的概率P(A)=0.6,U为必然事件,则P(A+U)=1,P(AU)=A、0.4B、0.6C、0D、1参考答案:B85.迈克尔·波特的“五力模型”中,五种竞争力量中不包括()A、新进入者B、供应商议价能力C、其他利益相关者力量D、行业中现有竞争者参考答案:C86.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等宽划分(宽度为50)方法将它们划分成四个箱,求15在哪个箱子?()A、第1个B、第2个C、第3个D、第4个参考答案:A87.()是研究一种或者多种因素的变化对试验结果的观测值是否有显著影响的统计方法。A、因子分析;B、数据降维C、方差分析D、假设检验参考答案:C88.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A、关联规则发现B、聚类C、分类D、自然语言处理参考答案:A89.以下哪个指标不能用于线性回归中的模型比较()A、R方B、调整R方C、AICD、BIC参考答案:A90.下面关于聚类分析说法错误的是()A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分参考答案:A91.分类变量使用以下哪个统计量进行缺失值填补较合适A、均值B、最大值C、众数D、中位数参考答案:C92.若数据量较大,下面哪种方式比较适合()A、系统聚类B、快速聚类(k-means)C、A和B都可以D、A和B都不可以参考答案:B93.在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什么A、违反了建模的假设条件B、加大了处理的难度C、无法针对分区后各个数据集的特征分别做数据清洗D、无法对不同数据清理的方法进行比较,以选择最优方法参考答案:D94.数据仓库是随着时间变化的,下面的描述不正确的是()A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随时间变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合参考答案:C95.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、DELETEB、DROPC、CLEARD、REMORE参考答案:A96.依照《中华人民共和国数据安全法》和有关法律、行政法规的规定,()负责统筹协调网络数据安全和相关监管工作。A、工业和信息化部B、国家安全部门C、国家网信部门D、通信主管部门参考答案:C97.假设属性ine的最大最小值分别是12000元和98000元。利用最大-最小规范化的方法将属性的值映射到0至1的范围内。对属性ine的73600元将被转化为()A、0.751B、0.163C、0.457D、0.716参考答案:D98.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则参考答案:C99.自动化高级分析实验室,实现与统一数据资源库互联,实现数据的自助组表、自助分析功能,满足不同层级、不同水平的用户需求的是()A、初级分析;B、综合分析C、系统聚类C、典型分析D、高级分析参考答案:D100.下列选项中属于现金流入的项目是()A、所得税B、建设投资C、经营成本D、营业收入参考答案:D101.一组N个观测值按数值大小排列,分成100份,处于X%位置的值称第X个百分位数称为()。A、分位数B、中位数C、众数参考答案:A102.开始将N个样品各自作为一类,将规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类,此种聚类方法是()A、K-meansB、SOM聚类D、有序聚类参考答案:C103.指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度()A、平滑常数B、指数平滑数初始值C、跨越期D、季节指数参考答案:A104.变量的量纲比如以厘米或者米为单位对下面哪种方法会有影响()A、方差分析B、回归分析C、聚类分析D、主成分分析参考答案:C105.关于Tableau的特点,以下说法错误的是()A、学习成本低,简单易用;B、图表精美;C、开发快速,分享便捷;D、需要IT大量人员参与参考答案:D106.在ID3算法中信息增益是指()A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大参考答案:D107.一组数据中最大值与最小值的差值称为(),也称全距。A、极差B、极距C、距离D、方差参考答案:A108.()是一种开源软件编程语言,主要用于统计分析,绘图和数据挖掘,内置多种统计及分析功能。A、H.IVE;B、H.ADOOPC、R;D、H.FDS参考答案:C109.决策树中的InformationGain的计算是用来?A、剪枝B、使树成长C、处理缺失值和异常值D、砍树参考答案:B110.泊松回归是一种广泛应用的()回归模型。A、线性B、非线性C、预测D、估算参考答案:B111.数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数参考答案:A112.下列四项中,不属于数据库特点的是()A、数据共享B、数据完整性C、数据冗余很高D、数据独立性高参考答案:C113.某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。则至少订一种报的概率为()A、0.82B、0.85C、0.80D、0.75参考答案:D114.关于统计学和大数据之间的关系,一下说法错误的是()。A、面临大数据,统计学的研究对象有所改变;B、在大数据环境中,需要首先将未知的问题转化为可用的统计方法;C、在大数据分析过程中,传统的统计分析过程“定量一定位一再定性”转变为“定量一定性”;D、在大数据环境中,需要将统计研究的对象范围扩展到一切数据。参考答案:A115.在数据分析和处理方面具有分析方法丰富、分析模型扩展差、数据挖掘能力强等特点的分析工具是()。A、WekaB、SPSSC、SASD、R参考答案:B116.下列说明错误的是()A、性别=“男”=>职业=“司机”,是布尔型关联规则B、性别=“女”=>avg(收入)=2300,是一个数值型关联规则C、肝炎=>ALT(丙氨酸转氨酶)升高,是一个单层关联规则D、性别=“女”=>职业=“秘书”,是多维关联规则参考答案:C117.Hive是基于Hadoop的一个数据()工具A、分析;B、仓库C、制图D、可视化参考答案:B118.数据记录内容完整比例,包括指标单位维度、业务维度组合记录条数完整,指标字段值完整称为()A、指标数据自动采集率;B、指标数据接入率C、指标数据接入及时率;D、指标数据完整率参考答案:D119.EXCEL中,求标准差的函数是()A、AVERAGEB、MEDIANC、MODED、STDEV参考答案:D120.对于下列实验数据:1,108,11,8,5,6,8,8,7,11,描述其集中趋势用()最为适宜,其值是()。A、平均数,14.4B、中位数,8.5C、众数,8D、以上都可以参考答案:C121.《个人信息保护法》发布执行时间()。A、2021年9月1日;B、2021年10月1日;C、2021年11月1日D、2021年12月1日参考答案:C122.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测A、统计方法B、邻近度C、密度D、聚类技术参考答案:A123.下列关于聚类挖掘技术的说法中,错误的是()A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不B、要求同类数据的内容相似度尽可能C、要求不同类数据的内容相似度尽可能D、与分类挖掘技术相似的是,都是要对数据进行分类处理参考答案:B124.按数据的结构程度来划分,分为()A、结构化数据、半结构化数据、非结构化数据B、强结构化数据、弱结构化数据C、截面数据、面板数据D、一级数据、二级数据、三级数据参考答案:A125.当前国内社会中,最为突出的大数据环境是()A、互联网B、物联网C、综合国力D、自然资源参考答案:A126.()是一种松散耦合的服务和应用之间标准的集成方式。A、E.SB;B、D.MC、ODSD、E.TL同类别参考答案:A127.在建立线性回归(LinearRegression)之前我们可以利用何种方法挑选重要属性,以降低模型的复杂度?A、皮尔森相关系数B、卡方检定C、T-检定D、Z-Score参考答案:A128.给定一个置信概率和置信区域,若误差超过置信区域,则认为误差不是随机误差引起,视为异常值的判别方法()。A、聚类判别法;B、回归判别法C、抽样判别法D、统计判别法参考答案:D129.ROC曲线凸向哪个角,代表模型越理想?A、左上角B、右上角C、左下角D、右下角参考答案:A130..给出下列结论:1)在回归分析中,可用指数系数R方的值判断模型的拟合效果,R方越大,模型的拟合效果越好;2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r的值判断模型的拟合效果,r越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越宽,说明模型的拟合精度越高.以上结论中,正确的有()个.A、1B、2C、3D、4参考答案:A131.回归是一种预测建模技术,研究()和()的依存关系。A、预测值、实际值B、自变量、因变量C、绝对误差、平方误差D、测试样本、集合参考答案:B132.0DS是指()A、企业数据中心;B、数据仓库C、操作型存储D、总线参考答案:B133.用简单随机重复抽样方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需要扩大到原来的()A、2倍B、3倍C、4倍D、5倍参考答案:C134.假设{BCE}为一频繁项目集(FrequentItemset),则根据AprioriPrinciple以下何者不是子频繁项目?A、BCC、CB、CED、CD参考答案:D135.假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数参考答案:C136.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、数据获取B、分类和预测C、数据预处理D、数据可视化参考答案:C137.在有指导的数据挖掘中,有关测试集的说法错误的是()A、测试集和训练集是相互联系的B、测试集是用以测试模型的数据集C、通常测试集大约占总样本的三分之一D、K-次交叉验证中,测试集只有1个,训练集有K-1个参考答案:A138.以下那一项不是大数据提供的用户交互方式是()。A、企业报表;B、查询C、大数据分析挖掘D、可视化参考答案:A139.表示职称为副教授、性别为男的表达式为()A、职称=’副教授’OR性别=’男’B、职称=’副教授’AND性别=’男’C、BETWEEN'副教授’AND'男’D、IN('副教授’,’男’)参考答案:B140.Logistic回归是在商业领域上使用最广泛的预测模型,常用于()分类变量预测和概率预测。A、四值B、三值C、二值D、一值参考答案:C141.检查异常值常用的统计图形是()A、柱状图B、箱线图C、帕累托图D、气泡图参考答案:B142.以下哪条属于个人信息影响的评估场景:()A、处理敏感个人信息,利用个人信息进行自动化决策B、委托处理个人信息、向第三方提供个人信息、公开个人信息C、向境外提供个人信息D、以上皆是参考答案:D143.《个人信息保护法》对于企业的影响不包括()A、需要强化个人信息处理这主体责任B、明确了可以量化的中国版执行罚则C、需要设立负责处理个人信息保护相关事务的专门机构和指定代表D、收集和处理数据时可以不遵循“最小化”原则参考答案:D144.实际由源业务系统自动接入的指标数据占指标体系中应接指标总数的比例称为()A、指标数据自动采集率;B、指标数据接入率C、指标数据接入及时率;D、指标数据完整率参考答案:A145.假设检验中,拒绝域的边界称为()A、临界值B、临界点C、置信水平D、边际值参考答案:A146.以下关于大数据的概念和理解不正确的是()A、大数据是指无法再容许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一的数据集的大小在几十TB和PB之间;B、大数据是一项技术,能够对复杂海量数据进行实时获取、传输、存储、加工和利用的高薪技术;C、大数据是一种挑战,现有的数据采集、传输、存储、处理和分析技术已无法适用于现有的需要;D、大数据是一个时代,拥有大数据是时代的特征、解读大数据是时代的任务、应用大数据是时代的机遇。参考答案:A147.数据收集的标准为()而非动用企业全部数据。A、一致性、可靠性、时效性B、相同性、可靠性、时效性C、C相关性、可靠性、时效性D、一致性、可靠性、实际性参考答案:C148.MySQL是()A、操作系统;B、数据库C、聊天软件D、浏览器参考答案:B149.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A、分类B、聚类C、关联分析D、主成分分析参考答案:B150.某超市研究销售记录发现,购买奶的很概率会购买包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理参考答案:B151.苹果公司对IPHONE的降价行为属于()A、地域性差别定价B、时间性差别定价C、非线性定价或数量折扣定价D、其他形式的定价参考答案:B152.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A、分类B、聚类C、关联分析D、隐马尔可夫链参考答案:B153.NaiveBayes是属于数据挖掘中的什么方法?A、聚类B、分类C、时间序列D、关联规则参考答案:B154.《中华人民共和国数据安全法》中的数据,是指任何以电子或者其他方式对()的记录。A、数据B、信息C、文件D、知识参考答案:B155.下列不属于原始数据来源的是()A、行政记录B、统计调查C、统计年鉴D、实验参考答案:C156.数据挖掘技术包括三个主要的部分()A、数据、模型、技术B、算法、技术、领域知识C、数据、建模能力、算法与技术D、建模能力、算法与技术、领域知识参考答案:C157.(),用于显示树状结构数据。A、矩形式树状结构图;B、平行结构树C、垂直结构树参考答案:A158.在Excel工作表中,在某单元格内输入数值123,不正确的输入形式是()A、123B、=123C、+123D、*123参考答案:D159.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。A、关联规则挖掘B、分类与回归C、聚类分析D、时序预测参考答案:A160.在有关数据仓库测试,下列说法不正确的是()A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试B、当数据仓库的每个单独组件完成后,就需要对他们进行单元测试C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D、在测试之前没必要制定详细的测试计划参考答案:D161.Byte代表一个字节,及()的数值范围。A、0~100B、0~155C、0~200D、0~255参考答案:D162.目前常用的识别异常数据的方法有物理判别法和()。A、化学判别法B、统计判别法C、静态判别法D、动态判别法参考答案:B163.下列有关Apriori算法的说法中不正确的是()A、Apriori算法是关联分析中最常用的算法之一。B、应用Apriori算法时,需要先设定模型的最小支持度、最小置信度等阈值。C、应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据。D、Apriori算法扫描数据库的次数依赖于最大频繁项集中项的数量。参考答案:C164.VBA语言中,声明变量的关键字是()。A、SET;B、C.ONSTC、PRIVATED、IM参考答案:D165.下列四项中,不属于数据库特点的是()A、数据共享B、数据完整性C、数据冗余很高D、数据独立性高参考答案:C166.维度规约是在以下哪个步骤的任务?()A、频繁模式挖掘B、降维C、数据预处理D、数据流挖掘参考答案:C167.属于财务专业明细数据表的是()A、客户收费流水表;B、应收票据信息表;C、公司分压线损统计表;D、供应计划表参考答案:B168.以下哪个变量可以反映客户的忠诚度?()A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率参考答案:A169.某项目预计运行5年后的净现值为4500万元,如折现率为16%,其终值应为()万元(说明:结果保留两位小数)A、8045.86B、6996.21C、9451.54D、7000.02参考答案:C170.数据在规定的时间前和频度周期内接入系统的比例称为()A、指标数据自动采集率;B、指标数据接入率C、指标数据接入及时率;D、指标数据完整率参考答案:C171.数据正规化(DataNormalization)是在知识发掘处理(KnowledgeDiscoveryProcess)中的哪一个阶段进行?A、数据清洗B、数据选择C、数据编码D、数据扩充参考答案:C172.东北人养了一只鸡和一头猪。一天鸡问猪:“主人呢?”猪说:“出去买蘑菇了。"鸡听了撒丫子就跑。猪说:“你跑什么?”鸡叫道:“有本事主人买粉条的时候你小子别跑!"以上对话体现了数据分析方法中的()A、关联B、聚类C、分类D、自然语言处理参考答案:A173.以下叙述正确的是()A、极差较少受异常值的影响B、四分位差较少受异常值的影响C、方差较少受异常值的影响D、标准差较少受异常值的影响参考答案:B174.大数据应用需求分为年度需求和()两类。A、季度需求B、月度需求C、周需求D、即时需求参考答案:D175.关联规则是反映事物之间的依赖关系,典型例子是购物篮分析,常见算法有Apriori关联算法和()算法。A、贝叶斯算法B、线性回归C、F.P-growth关联算法D、聚类算法参考答案:C176.无监督学习,应用最广的是()算法A、聚类算法;B、降维算法;C、关联规则算法;D、文本挖掘参考答案:A177.以下哪些分类方法可以较好地避免样本的不平衡问题?()A、KNNB、SVMC、BayesD、神经网络参考答案:A178.数据仓库的最终目的是()A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持参考答案:D179.下列不属于分类算法的是()A、C4.5算法B、逻辑回归C、KNN算法D、TF-TDF算法参考答案:D180.如下哪个不是最近邻分类器的特点()A、它使用具体的训练实例进行预测,不必维护源自数据的模型B、分类一个测试样例开销很大C、最近邻分类器基于全局信息进行预测D、可以生产任意形状的决策边界参考答案:C181.个人信息的收集、处理和利用应当遵循()的原则,不得违反法律、法规的规定和双方的约定收集、处理和利用个人信息。()A、正规、合法、必要B、合法、正当、必要C、合法、合规、正当D、合法、合理、合规参考答案:B182.Tableau能够对数据进行处理包括()。A、将多个数据源数据拼接为一个宽表;B、修改、删除、新增数据行;C、对数据进行行列转换、重命名、格式修改;D、对数据进行计算、合并生成新的数据列参考答案:A183.()是数据仓库体系架构的重要组成部分,具备数据仓库的部分特征和OLTP系统的部分特征。A、E.SB;B、D.MC、ODSD、E.TL参考答案:C184.RFM方法中的F说明客户的()A、兴趣度B、粘性C、当前价值D、未来价值参考答案:A185.关于主成分数目的选取,正确的是()A、保留多少个主成分取决于累计方差在方差总和中所占百分比B、一般选择50%以上C、选择前两个就可以D、选择的数目和变量的个数一致参考答案:A186.下列关于数据重组的说法中,错误的是()A、数据重组是数据的重新生产和重新采集B、数据重组能够使数据焕发新的光芒C、数据重组实现的关键在于多源数据融合和数据集成D、数据重组有利于实现新颖的数据模式创新参考答案:A187.在SQL中,创建数据库用的命令是()A、CREATESCHEMAB、CREATETABLEC、CREATEVIEWD、CREATEDATABASE参考答案:D188.当时间序列数据点的一阶差分近似为一常数,可配合以下哪种预测模型()A、直线B、二次抛物线C、三次抛物线D、指数曲线参考答案:A189.对于企业来说,数据使用的关键是()A、数据收集B、数据存储C、数据分析D、数据再利用参考答案:D190.线性回归算法寻找()与预测目标之间的线性关系。A、属性B、根因C、表象参考答案:A191.下面不属于明细数据质量评价指标的是()。A、接入率;B、自动采集率C、及时率D、完整率参考答案:B192.以下哪些分类方法可以较好地避免样本的不平衡问题?()A、KNNB、SVMC、BayesD、神经网络参考答案:A193.()算法是最广泛使用的聚类算法,算法简单,易于理解和操作。A、gglomerativeB、C.UREC、K-meansD、k-中心点算法参考答案:C194贝叶斯决策是根据()进行决策的一种方法。A、极大似然概率B、先验概率C、边际概率D、后验概率参考答案:D多选题1.下列何种算法可以帮助我们做数值的预测(Prediction)?A、AprioriB、DecisionTreeC、NaiveBayesD、LinearRegression参考答案:BD2.层次聚类的聚类方式有()A、凝聚方式聚类B、分解方式聚类C、Q型聚类D、R型聚类参考答案:AB3.有下列情形之一的,个人信息处理者应当事前进行个人信息保护影响评估,并对处理情况进行记录:A、处理敏感个人信息;B、利用个人信息进行自动化决策;C、委托处理个人信息.向其他个人信息处理者提供个人信息.公开个人信息;D、向境外提供个人信息;E、其他对个人权益有重大影响的个人信息处理活动。参考答案:ABCDE4.以下有关随机森林算法的说法正确的是()A、随机森林算法的分类精度不会随着决策树数量的增加而提高。B、随机森林算法对异常值和缺失值不敏感。C、随机森林算法不需要考虑过拟合问题。D、决策树之间相关系数越低.每棵决策树分类精度越高的随机森林模型的分类效果越好。参考答案:ABD5.数据开放需求分类A、政府监管类B、公益服务类C、商务增值类D、公开开放类参考答案:ABCD6.敏感性分析的计算指标有()A、盈亏平衡点B、敏感度系数C、临界点D、净现值参考答案:BCD7.描述变量离期望值大小的指标是()A、方差B、变异系数C、标准差D、期望参考答案:ABC8.以下哪个分布是右偏分布()A、均匀分布B、卡方分布C、F分布D、对数正态分布参考答案:BCD9.天猫分析人员希望通过聚类方法定位代商家刷信用级别的违规者,以下那种操作不应该进行()A、对变量进行标准化B、对变量进行百分位秩或Turkey正态性转换C、对变量进行因子分析或聚类分析D、对变量进行分箱处理参考答案:BD10.完全竞争性的市场具有()等特点。A、任一企业无法操纵市场B、少数企业可以影响交易数量C、多个竞争企业同时存在D、企业必须采取随行就市定价法参考答案:ACD11.数据结构:A、结构化B、半结构化C、非结构化参考答案:ABC12.关于大数据的来源,以下理解正确的是()A、大数据是数据量变积累达到质变的结果B、数据的产生需要经历很长时间C、我们每个人都是数据的制造者D、当今的世界,基本上一切都可以用数字表达,所以叫数字化的世界参考答案:ACD13.对于计算期不等的项目(方案)比选,可采纳的决策方法有()A、最小公倍数法B、内部收益率法C、等年值法D、获利指数法参考答案:AC14.随机对比实验的调查方法的优点是()A、能够测算实验误差B、可以提高实验结果的可靠性C、可以节省分析过程和时间D、费用开支小参考答案:AB15.NoSQL数据库采用“数据分布技术”主要是为了实现()A、复杂查询能力B、负载均衡C、提升服务器端的数据处理能力D、提高故障恢复能力及保障服务质量参考答案:BCD16.相关分析的任务有()A、判定现象之间有无关系B、判定现象之间关系的方向C、判定相关关系的紧密程度D、说明现象之间联系的具体形式参考答案:ABCD17.元组在某些属性上缺少值是常有的。在实际数据中,描述处理该问题的各种方法有()A、直接删除B、.使用属性的平均值填充空缺值C、使用一个全局常量填充空缺D、使用与给定元组属同一类的所有样本的平均值参考答案:ABC18.如下表student中,如何筛选type为包含数学或语文的记录?IDtypescoreA01数学78A02语文76AO3英语90A04数学68A05英语84数学"andtype="语文"数学"ortype="语文"数学","语文")数学”?”语文")A、select*fromstudentwheretype=”B、select*fromstudentwheretype="C、select*fromstudentwheretypein("D、select*fromstudentwheretypein(”参考答案:BC19.以下哪些变量使用RFM方法构造出来的?()A、最近3期境外消费金额B、最近6期网银消费交易笔数C、信用额度D、距最近一次逾期的月数参考答案:ABD20.以下关于逻辑回归的说法正确的是()A、应用逻辑回归时,异常值会对模型造成很大的干扰。B、逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。C、逻辑回归对模型中自变量的多重共线性较为敏感。D、逻辑回归属于分类算法。参考答案:ACD21.主成分分析计算选择相关系数计算法时,确定主成分个数的致原则包括()A、特征根值大于1B、特征根值大于3C、累积特征根值加总占总特征根值的80%以上D、累积特征根值加总占总特征根值的90%以上参考答案:AC22.大数据应用建设及运营过程中如发生数据安全问题,应立即暂停大数据应用建设或运营工作,向()部门汇报。A、互联网部B、安监部C、法规部D、相关专业管理部门参考答案:ABCD23.下列关于统计量的表述中,正确的有()A、估计同一个总体参数可以用多个不同的统计量B、统计量是样本的函数C、.统计量不含有总体的参数D、统计量是随机变量参考答案:ABD24.下列对ID3算法的描述,正确的是()A、每个节点的分支度都不相同B、使用InformationGain作为节点分割的依据C、可以处理数值型态的字段D、方法处理空值的字段参考答案:ABD25.数据科学中的主流语音工具()A、RB、C++C、JavaD、Python参考答案:AD26.定基发展速度与环比发展速度的关系有()。A、各环比发展速度之和等于相应的定基发展速度B、各环比发展速度之积等于相应的定基发展速度C、两个环比发展速度之商等于相应的定基发展速度D、两个定基发展速度之商等于相应的环比发展速度参考答案:BD27.处理噪声数据的常用方法。A、分箱B、聚类C、回归D、对比参考答案:ABC28.行业分析数据采集方法有()。A、一手资料B、实地考察法C、专家访谈法D、收集媒体信息参考答案:ABCD29.货币时间价值用相对值来表示时,在数量上应当理解为扣除()后的社会平均利润率。A、时间因素B、通货膨胀因素C、纯粹利率D、风险因素参考答案:BD30.商业模式描述正确的是:A、B2B--商家对商家B、B2C--商家对人C、020--线上对线下D、C2C--人对人参考答案:ABCD31.以下属于聚类算法的是()A、K均值B、DBSCANC、AprioriD、knn参考答案:AB32.KANO模型定义的顾客需求层次有()A、兴奋型需求B、喜爱型需求C、基本型需求D、期望型需求参考答案:ACD33.根据分析内容和侧重面不同,风险分析的方法有()A、敏感性分析B、概率分析C、经济效益分析D、盈亏平衡分析参考答案:ABD34.在全面调查和抽样调查中都存在的误差是()A、系统误差B、登记性误差C、责任心误差D、技术性误差参考答案:BCD35.敏感个人信息划定依据()A、与人格尊严相关B、与人身.财产安全相关C、不满十四周岁未成年人的个人信息D、与公司管理要求相关参考答案:ABC36.在客户关系管理中,客户的生命周期都包括()阶段。A、潜在客户B、响应客户C、即得客户D、流失客户参考答案:ABCD37.以下属于数据预处理的是()A、缺失值填充B、噪声数据剔除C、异常值识别D、数据可视化参考答案:ABC38.我们可以用哪种方式来避免决策树过度拟合的问题?()A、利用修剪法来限制树的深度B、利用盆栽法规定每个节点下的最小的记录数C、利用逐步回归法来删除部分数据D、目前并无适合的方法来处理这问题参考答案:AB39.在有关数据仓库测试,下列说法中正确的是()A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试B、当数据仓库的每个单独组件完成后,就需要对他们进行单元测试C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D、在测试之前可以不制定详细的测试计划,测试过程中实时调整。参考答案:ABC40.关于基准收益率的表述,正确的是()A、基准收益率越高越好B、基准收益率越低越好,但不能低于银行贷款利率C、可以采用项目加权平均资金成本为基础确定基准收益率D、可以采用国家有关部门或行业统一发布的行业基准收益率参考答案:CD41.分箱方法有哪些?()A、等深分箱B、等宽分箱C、数据标准化D、自定义区间法参考答案:ABD42.数据类型:A、离散Q型B、连续性C、符号型D、文本型参考答案:ABCD43.营销观念是营销过程中如何处理()利益关系。A、企业B、员工C、顾客D、社会参考答案:ACD44.HDFS(分布式文件系统)作为Hadoop生态系统的数据存储基础,其特点为()A、支持超大文件B、基于商用硬件C、流式数据访问D、高吞吐量参考答案:ABCD45.随机抽样方法有()A、等距随机抽样B、综合随机抽样C、简单随机抽样D、分群随机抽样参考答案:ACD46.能消除时间序列中的不规则变动和季节变动的方法是()A、移动平均法B、指数平滑法C、时间序列乘法模型D、季节指数参考答案:AD47.关于数据范式描述准确的是:A、经验科学是第一范式,主要研究模型是科学实验;B、理论科学是第二范式,主要研究模型是数学模型;C、计算科学是第三范式,主要研究模型是计算机仿真和模拟,第三范式是“人脑+电脑”,人脑是主角;D、数据密集型科学是第四范式,的主要研究模型是数据挖掘和机器学习,特别是机器学习,第四范式是“电脑+人脑”,电脑是主角。参考答案:ABCD48.如下表student中,如何筛选type为包含数学或语文的记录?()A、select*fromstudentwheretype="数学"andtype="语文"B、select*fromstudentwheretype="数学"ortype=“语文”C、select*fromstudentwheretypein(“数学”,“语文”)D、select*fromstudentwheretypein(“数学”?“语文”)参考答案:BC49.下列项目中,其变动可以改变盈亏平衡点位置的因素有()A、单价B、单位变动成本C、销量D、固定成本参考答案:ABCD50.某种产品的生产总费用2003年为50万元,比2002年多2万元,而单位产品成本2003年比2002年降低5%,则()A、生产费用总指数为104.17%B、生产费用指数为108.56%C、单位成本指数为95%D、产量指数为109.65%E、由于成本降低而节约的生产费用为2.63万元参考答案:ACDE51.按照性质,预测方法大致可分为()。A、定性预测B、情景预测C、时间序列预测D、回归预测参考答案:ACD52.以下属于分类器评价或比较尺度的有()A、预测准确度B、召回率C、模型描述的简洁度D、F1-Score参考答案:ABD53.如下哪些不是基于规则的分类器的特点()A、规则集的表达能力远不如决策树好B、基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分C、无法被用来产生更易于解释的描述性模型D、非常适合处理类分布不平衡的数据集参考答案:AC54.数据离散化是指为了数据分析的需要,将连续数据转换为离散型数据的过程。数据离散化的方法有()A、随机取值B、等距离散法C、数值规约D、等频离散法参考答案:BD55.缺失值的处理方法有哪些?()A、用平均值填充B、忽略缺失记录C、以任意数据填充D、用默认值填充参考答案:ABD56.()这些数据特性都是对聚类分析具有很强影响的。A、高维性B、规模C、稀疏性D、噪声和离群点参考答案:ABCD57.以下属于数据规约方法的是()A、数据离散化B、数据标准化C、噪声数据识别D、数据压缩参考答案:AD58.在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示()A、有充足的理由否定原假设B、原假设必定是错误的C、犯错误的概率不大于aD、犯错误的概率不大于bE、在H。成立的情况下发生了小概率事件参考答案:ACE59.电子元器件:A、电子管B、晶体管C、小规模中规模集成电路D、大规模或超大规模集成电路参考答案:ABCD60.若检验统计量F近似等于1,说明()A、组间方差中不包含系统因素的影响B、组内方差中不包含系统因素的影响C、组间方差中包含系统因素的影响D、方差分析中不应拒绝原假设参考答案:AD61.统计决策的基本原则是()A、可行性B、发展性C、合理性D、经济性参考答案:ACD62.促销预算的方法主要有()。A、量入为出法B、竞争对等法C、销售比例法D、目标任务法参考答案:ABCD63.以下哪个分布是右偏分布?()A、均匀分布B、卡方分布C、F分布D、对数正态分布参考答案:BCD64.大数据在今天这个时间点上爆发的原因有哪些?()A、各种传感器无时无刻不在为我们提供大量的数据B、各种监控设备无时无刻不在为我们提供大量的数据C、各种智能设备无时无刻不在为我们提供大量的数据D、互联网的收集和积累参考答案:ABCD65.数据挖掘的预测建模任务主要包括哪几大类问题?()A、分类B、回归C、模式发现D、模式匹配参考答案:AB66.从复杂度及价值高低两个维度,可以将数据分析分为()A、描述性分析(DescriptiveAnalytics)B、诊断性分析(DiagnosticAnalytics)C、预测性分析(PredictiveAnalytics)D、规范性分析(PrescriptiveAnalytics)参考答案:ABCD67.下面有关HAVING子句的说法中正确的是()A、HAVING子句必须与GROUPBY子句同时使用,不能单独使用B、使用HAVING子句的同时不能使用WHERE子句C、使用HAVING子句的同时可以使用WHERE子句D、使用HAVING子句的作用是限定分组的条件参考答案:ACD68.在作逻辑回归时,如果区域这个变量,当Region=A时Y取值均为1,无法确定是否出现的是哪个问题?A、共线性B、异常值C、拟完全分离(Quasi-pleteseparation)D、缺失值参考答案:ABD69.以下哪个聚类分析的方法是利用统计学定义的距离进行度量()A、层次聚类法B、快速聚类法(K-Means)C、基于密度的聚类法D、基于网格的聚类法参考答案:AB70.方差分析的基本假设前提包括()A、各处理条件下的样本均来自正态总体B、各处理条件下的样本相互独立C、各处理条件下样本的方差都相等D、各处理条件下样本均值相等,方差可以不等参考答案:ABC71.季节变动主要是由()引起的。A、自然灾害B、政治事件C、制度.法律.习俗D、自然界的季节变化参考答案:CD72.以下说法正确的有哪些?()A、大数据仅仅是讲数据的体量大B、大数据对传统行业有帮助C、大数据会带来机器智能D、大数据是一种思维方式参考答案:BCD73.下列公式正确的是()A、流动资金=流动资产-流动负债B、流动资产=应收账款+存货C、流动负债=应付账款+预收账款D、流动资金本年增加额=本年流动资金-上年流动资金参考答案:ACD74.决策树法分析问题的主要步骤包括()。A、结构化问题B、设计可能结果发生的概率C、设计结果的得益D、分析问题参考答案:ABCD75.下列说法中不正确的是()A、任何两个变量都具有相关关系B、人的知识与其年龄具有相关关系C、散点图中的各点是分散的没有规律D、根据散点图求得的回归直线方程都是有意义的参考答案:ACD76.投资项目的现金流量中经营成本与会计中的“总成本费用”概念有根本的不同,不包括A、利息支出B、摊销费C、折旧费D、维修费参考答案:ABC77.符合下列情形之一的,个人信息处理者方可处理个人信息A、取得个人的同意;B、为订立.履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需;C、为履行法定职责或者法定义务所必需;D、为应对突发公共卫生事件,或者紧急情况下为保护
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 志愿者工作协议
- 招标文件封面的设计理念
- 授权代收款项合同模板
- 尽职调查法律纠纷预防合同
- 电梯井道工程招标
- 喷头购销合同协议
- 医院电采暖设备招标
- 房屋过户买卖合同范本样式
- 波纹管采购协议书
- 工业品购买合同格式示例
- 2024年华东电力设计院限公司校园招聘高频难、易错点500题模拟试题附带答案详解
- 2024年浙江省中考英语试题卷(含答案解析)
- 人教版(2019)必修 第二册Unit 2 Wildlife Protection Reading for writing教学设计
- 高校实验室安全基础学习通超星期末考试答案章节答案2024年
- 时代乐章第一课城市名片 课件 2024-2025学年人教版(2024)初中美术七年级上册
- 高一机械制图期末考试卷
- 生化分析仪器市场发展预测和趋势分析
- 全国英语等级考试三级阅读真题
- 2.3.3真菌课件人教版生物七年级上册2024新教材
- 表现形式 课件 2024-2025学年人教版初中美术七年级上册
- 第二课 只有社会主义才能救中国+同步练习 高中政治统编版必修一中国特色社会主义
评论
0/150
提交评论