大数据CDA考试(习题卷2)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：65 大小：125.03KB 积分：3.6 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据CDA考试大数据CDA考试(习题卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据CDA考试第1部分：单项选择题，共118题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.以下哪一项属于时间序列可以解决的问题?()A)信用卡发卡银行发掘出的潜在的卡奴B)基金经理人针对某股票做出未来价格预测C)移动公司将用户区分为数个群体D)以上均不是[单选题]2.实际应用中，关于主成分数量K的取值，下列说法错误的是()A)可以基于碎石图进行判断B)特征根从大到小排序，通常要求前K个特征根都大于1C)通常要求K个主成分的累积方差比超过80%D)各个主成分之间的方向夹角需要尽可能的小[单选题]3.HFile数据格式中的Data字段用于()。A)存储实际的KeyValue数据B)存储数据的起点C)指定字段的长度D)存储数据块的起点[单选题]4.BIRCH是一种()。A)分类器B)聚类算法C)关联分析算法D)特征选择算法[单选题]5.创建Loader作业中,可以在以下哪个步骤中设置过滤器类型?()A)输入设置B)转换C)基本信息D)输出[单选题]6.Flink的数据转换操作在以下哪些环节中完成()?A)channelB)TransformationC)sinkD)source[单选题]7.分析师小A想要在数据表中查询名称里包含?新款?的产品。那么在进行查询时，可以选择以下哪种方式用来进行模糊匹配()A)likeB)<>C)distinctD)between[单选题]8.Hadoop组件在企业应用中,能用于大数据集实时查询的产品有()。A)HiveB)PigC)MahoutD)Hbase[单选题]9.下选项不属于原始数据来源的是(。A)犯罪记录B)抽样调查C)统计年鉴D)模拟实验[单选题]10.字段?户籍所在省份?，下列方法最适宜的是()A)需要编码为数值变量B)需要编码为字符变量C)需要编码为二分变量D)需要编码为分类变量[单选题]11.以下不属于随机森林算法特点的是()。A)能处理比较高维的数据B)模型的泛化能力强C)模型的运行速度不快D)有很强的抗干扰能力[单选题]12.下列情境中，数据分析师不正确的做法是()A)客户行为分析中决策数据化均需谨慎B)数据挖掘分析中势必强调模型的精确性，模型都不精确谈何决策支持C)数据分析师需要具备建构模型和数据展示的能力D)业务问题的洞察与模型的理解同样重要[单选题]13.以下哪种说法是错误的。()A)聚类的部分步骤与分类相似,但度量维度的不同会导致结果不同;B)由于聚类是无监督学习,对聚类的结果没有严格意义的好坏之分C)应通过与理想相似矩阵比较,看分类效果D)对样本数据进行预处理时,对数据进行标准化会影响聚类结果[单选题]14.如果需要由数据生产者决定数据发送给目标Bolt的某一个确定的Task,应选择以下哪种消息发布策略()?A)局部字段分组B)广播分组C)直接分组D)全局分组[单选题]15.关于fusioninsightmaster界面hive日志收集的描述中,哪个不对?A)可指定实例进行日志收集,比如指定收集metastore的日志B)可指定节点ip进行下载某个ip的日志C)可指定特定用户进行日志收集,例如仅下载用户的日志D)可指定时间进行日志收集,如:只收集2016-1-1到20161-10的日志[单选题]16.按组织市场调查的时间层次确定，调查可以分为()。A)经常性市场调查（不定期）B)定期市场调查C)临时性市场调查（一次性）D)以上都是[单选题]17.时间序列模型不能应用到以下哪种情况。()A)系统描述B)预测未来C)决策和控制D)行业分析[单选题]18.Kafka集群中,Kafka服务端的角色是?A)BrokerB)ConsumerC)ZookeeperD)Producer[单选题]19.以下哪个操作是hive不支持的?()A)表增加列B)表删除列C)表修改列D)修改表名[单选题]20.下面与Zookeeper类似的框架是?A)ProtobufB)JavaC)KafkaD)Chubby[单选题]21.变量的量纲比如以分或者元为单位对下面哪种方法会有影响。)A)方差分析B)回归分析C)聚类分析D)主成分分析[单选题]22.WTForms中用来验证数据是否有效使用的是A)DataRequired()B)RequiredC)InputRequired()D)Optional()[单选题]23.下面说法错误的是()。A)Hadoop集群采用的是Master/Slave工作模式B)DataNode上保存着的是元数据,真正的数据是存放在NameNode上的C)HDFS采用了口种对文件切割后分别存放的存储方式。D)HDFS是为高数据吞吐量应用优化的。[单选题]24.下列关于HDFS的描述正确的是?A)NameNode磁盘元数据不保存Block的位置信息B)DataNode通过长连接与NameNode保持通信C)HDFS集群支持数据的随机读写D)如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作[单选题]25.以下对最近邻分类算法(KNN)的说法错误的是()。A)它使用具体的训练实例进行预测,不必维护源自数据的模型B)分类一个测试样例开销很大C)最近邻分类器基于全局信息进行预测D)可生产任意形状的决策边界[单选题]26.某手机电池生产商对电池的生产工艺进行了改进，并对外宣称改进后的电池能够显著地提高手机待机时间，为了检验该改进工艺是否有效，你的建议是()。A)使用相关系数分析方法分析工艺改进前后的相关性。B)使用线性回归，检验工艺改进对待机时间的影响。C)使用t检验分析工艺改进前后的待机时间是否有显著差异。D)使用卡方的独立性检验查看工艺改进与待机时间是否相关。[单选题]27.关于hive建表基本描述正确的是()A)不可再修改表名B)可再增加新列C)创建外部表需要制定external关键字D)不可再修改列名[单选题]28.下列哪一项方法对于发现异常值没有帮助()A)均值加减标准差法B)百分分数法C)聚类法D)梯度下降法[单选题]29.Zookeeper的Scheme认证方式不包括以下哪项?()A)digestB)saslC)authD)world[单选题]30.下面语句在编译时不会出现警告或错误的是()A)floatf=3.14:B)charc="c?;C)Booleanb=null;D)inti=10.0;[单选题]31.hadoop平台中要查看Yarn服务中一个application的信息,通常需要使用什么命令?A)containerB)jarC)application-attemptD)Application[单选题]32.关于Kafka的基本概念描述错误的是()?A)Kafka集群包含一个或多个服务实例,这些服务实例被称为BrokerB)每条发布到Kafka集群的消息都有一个类别,这个类别被称为TopicC)每个Consumer属于多个的ConsumerGroupD)Kafka将Topic分成一个或者多个Partition,每个Partition在物理上对应一个文件夹,该文件夹下存储这个Partition的所有消息[单选题]33.Flume支持多级级联的sink类型是()?A)hdfssinkB)avrosinkC)filerollsinkD)hbasesink[单选题]34.下列关于Sparkstreaming和Streaming比较说法不正确的是?A)Sparkstreaming个微批处理框架,事件需要积累到一定量时才进行处理B)Streaming的执行逻辑是即时启动,运行完后再回收C)Sparkstreaming的吞吐量大约是Streaming的2-5倍D)Sparkstreaming事件处理时延比Streaming更高[单选题]35.日常数据通报型报告的特点错误的是()。A)进度性B)规范性C)时效性D)全面性[单选题]36.在进行模板渲染时,需要从flask中导入()A)flaskB)templatesC)url_forD)render_templates[单选题]37.以下有关聚类算法中K-means和DBSCAN说法错误的是()。A)K均值会丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。B)K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C)K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。D)K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇[单选题]38.下面不属于简单随机抽样的局限性的是()A)当总体数量很大时，不易构造抽样框B)抽出的单位很分散，给实施调查增加了困难C)没有利用其它辅助信息以提高估计的效率D)不能用于推断总体[单选题]39.在ID3算法中信息增益是指()。A)信息的溢出程度B)信息的增加效益C)熵增加的程度最大D)熵减少的程度最大[单选题]40.聚类方法中,以下哪种方法需要指定聚类个数。()A)层次聚类B)K均值聚类C)基于密度的聚类D)基于网格的聚类[单选题]41.关于数据分析报告错误的是()。A)展示分析结果B)验证分析质量C)展示分析过程D)提供决策依据[单选题]42.在Java中,一个类可同时定义许多同名的方法,这些方法的形式参个数、类型或顺序各不相同,传回的值也可以不相同。这种面向对象程序的特性称为A)隐藏B)覆盖C)重载D)Java不支持此特性[单选题]43.KafkaClusterMirroring工具可以实现以下哪项功能?A)Kafka跨集群数据同步方式B)Kafka单集群内数据备份C)Kafka单集群内数据恢复D)以上全不正确[单选题]44.关于MapReduce的说法正确的是()。A)MapReduce1.0用YARN框架来进行资源调度的B)MapReduce是基于内存计算的框架C)MapReduce是分布式文件存储系统D)MapReduce1.0既是一个计算框架又是一个资源调度框架[单选题]45.请问以下哪个命令组成是错误的?A)sbin/stop-dfs.shB)sbin/hdfsdfsadmin-reportC)bin/hadoopnamenode-formatD)bin/hadoopfs-cat/hadoopdata/my.txt[单选题]46.以下关于KafkaPartition偏移量的描述不正确的是?()A)每条消息在文件中的位置称为offset(偏移量)B)消费者通过(offset/.partition.topic)跟踪记录C)唯一标记一条消息D)Offset是一个String型字符串[单选题]47.下列选项中适合Mapreduce的场景()A)实时交互计算B)迭代计算C)流式计算D)离线计算[单选题]48.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据分析的哪类问题？A)关联规则发现B)聚类C)分类D)自然语言处理[单选题]49.用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是()。A)专题分析报告B)综合分析报告C)日常数据通报D)实时运营报告[单选题]50.数据挖掘算法中,下列关于聚类的说法中,错误的是()A)不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B)要求同类数据的内容相似度尽可能小C)要求不同类数据的内容相似度尽可能小D)与分类挖掘技术相似的是,都是要对数据进行分类处理[单选题]51.Hive中的这条命令?ALTERTABLEemployeeADDcolumns(columnlstring).?是什么含义?A)创建表B)删除表C)添加列D)修改文件格式[单选题]52.在使用SQLAIchemy模型从数据库中查询数据时,可以使用模型提供的()属性调用各种过滤方法和查询方法。A)queryB)orderC)filterD)select[单选题]53.现在通过参数估计得到一个一元线性回归模型为y=3x+4。那么在回归系数检验中下列说法错误的是()A)检验统计量是t统计量B)原假设是C)如果拒绝原假设，就认为自变量与因变量存在显著的线性关系D)判断是否拒绝原假设，可以用P值与显著性水平进行比较[单选题]54.如果多元线性回归模型中残差不等于0，而是一个常数，那么()A)这个常数应该包含在常数项B)应该去除常数项C)应该去除残差项D)模型有效[单选题]55.RDD有Transformation和Action算子,下列属于Action算子的是?()A)mapB)saveASTexFileC)FilterD)reducebykey[单选题]56.WTForms中表示多行文本字段的是A)StringFieldB)TextAreaFieldC)TextFieldD)SelectField[单选题]57.下面不是Zookeeper特点的是()。A)简单B)富有表现力C)支持索引D)是一个资源库[单选题]58.Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。以下关于hive特性的描述不正确的是?A)灵活方便的ETLB)易用易编程C)可直接访可HDFS文件以及HbaseD)仅支持mapreduce计算引擎[单选题]59.下列关于计算机存储容量单位的说法中,错误的是()。A)1KB<1MB<1GBB)基本单位是字节(Byte)C)一个汉字需要一个字节的存储空间D)一个字节能够容纳一个英文字符[单选题]60.Flink中的(接口用于流数据处理,()接口用于批处理?A)DatabatchAPI,DatastreamAPIB)StreamAPI,BatchAPIC)DatastreamAPI,DatasetAPID)BatchAPI,StreamAPI[单选题]61.以下关于K-Means算法错误的是()。A)K值无法预先判断,只适用于球形类的形状的聚类B)算法可能收敛到局部最优点C)算法对极值点及噪点较为敏感D)中心点的个数,通常值是在8-10个之间[单选题]62.以下哪个不属于Hadoop中Mapreduce组件的特点?A)高容错B)良好的扩展性C)实时计算D)易手编程[单选题]63.Java的字符类型采用的是Unicode编码方案,每个Unicode码占用()个比特位。A)8B)16C)32D)64[单选题]64.某个保险公司发现，其投保人年龄分布的偏态系数为5.83，那么下面表述正确的是()A)这是一组极度左偏的数据B)偏态系数在0附近，所以只是轻微的左偏C)偏态系数在0附近，所以只是轻微的右偏D)这是一组极度右偏的数据[单选题]65.在Java中,?456?于()类的对象。A)intB)StringC)IntegerD)Stri[单选题]66.下列属于定量数据的是()？A)一个消费者调查中鞋子的品牌B)一次考试的成绩C)一篇文章的等级D)一个篮球队员衣服上的数字[单选题]67.关于被私有访问控制符private修饰的成员变量,以下说法正确的是()A)可以被三种类所引用:该类自身、与它在同一个包中的其他类在其他包中的该类的子类B)可以被两种类访问和引用:该类本身、该类的所有子类C)只能被该类自身所访问和修改D)只能被同一个包中的类访问[单选题]68.以下不属于分类模型评估中基于比率维度的指标是()。A)KS值B)特异性C)Kappa统计量D)Lift值[单选题]69.以下哪个不是DataStream的组成部件()?A)DatasourceB)TransformationsC)ChannelD)Datasink[单选题]70.对下列情况的总体、总体参数描述正确的是()？①你在A保险公司工作，公司要求你确定在追尾车祸事故中，对受害者赔付的平均金额。这时候的总体包含所有追尾事故的已经拿到保险金的受害者。相关的总体参数是对受害者赔付的平均金额。②当你被B快餐厅录用，确定每月用于炸薯条的土豆的用量。这时候的总体包括每月送来的用于炸薯条的土豆重量。相关的总体参数是每月送来的土豆的平均重量，以及其重量的差异。③你是C公司下属的商业记者，正在调查一种抗癌新药对儿童骨癌治疗是否有效。这时候的总体包含所有儿童骨癌病人。其中重要的总体参数是没有用新药治疗就痊愈的儿童百分比及用新药治疗后痊愈的儿童百分比。A)①②③B)①②C)①③D)②③[单选题]71.下列哪个属性是hdfs-site.xml中的配置()。A)dfs.replicationB)fs.defaultFSC)D)yarn.resourcemanager.addresS[单选题]72.Hive不适用于以下哪个场景A)非实时分析,例如日析B)数据挖掘,例如用户析,区域展示C)数据汇总,例如母天,每击数,点击排行D)实时在线数[单选题]73.逻辑回归模型中计算得到的发生概率p，一般作为()A)绝对概率B)相对概率C)绝对概率的自然对数D)相对概率的自然对数[单选题]74.DBSCAN算法的过程是()。①删除噪声点。②每组连通的核心点形成一个簇。③将所有点标记为核心点边界点和噪声点。④将每个边界点指派到一个与之关联的核心点的簇中。⑤为距离在Eps之内的所有核心点之间赋予一条边。A)①②④⑤③B)③①⑤②④C)③①②④⑤D)①④⑤②③[单选题]75.在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。Fusioninsight中,针对小文件的场景通常采用()算子,来对Table中的小文件生成的partition进行合并,少partition数,从而避免在shuffle的时候,生成过多的hash分桶,提升性能?A)groupbyB)CoaleaseC)connectD)join[单选题]76.已知a={a,b,d)是满足最小支持度的频繁项集,若不考虑置信度,由a可产生关联规则的数量为()。A)3B)4C)5D)6[单选题]77.下列哪个命令是从HDFS下载日录/文件到本地的?()A)dfs-putB)dfs-catC)dfs-getD)dfs-mkdir[单选题]78.相较于电话和面访调查，下面不属于自填式问卷调查弱点的是()A)问卷的返回率比较低B)不适合结构复杂的问卷C)调查周期比较长D)调查的成本较高[单选题]79.有一组数据的偏态系数为-4、23，那么下面表述正确的是()A)这是一组极度左偏的数据B)偏态系数在0附近，所以只是轻微的左偏C)偏态系数在0附近，所以只是轻微的右偏D)这是一组极度右偏的数据[单选题]80.下列国家的大数据发展行动中,集中体现?重视基础、首都先行?的国家是(1。A)美国B)日本C)中国D)韩国[单选题]81.HBase的物理存储单元是什么?A)RegionB)ColumnFamilyC)ColumnD)ROW[单选题]82.下列哪一项方法对于发现异常值有帮助()A)减去均值，并除以标准差B)梯度下降法C)相关性分析D)归一化处理[单选题]83.马斯洛需求理论将人的需求从低到高依次排序是()。A)生理需求安全需求社交需求自我实现需求尊重需求B)生理需求安全需求尊重需求社交需求自我实现需求C)安全需求生理需求尊重需求自我实现需求社交需求D)生理需求安全需求社交需求尊重需求自我实现需求[单选题]84.以下对hive中表数据操作描述正确的是()。A)hive可以修改行值B)hive可以修改列值C)hive不可以修改特定行值、列值D)以上说法都不对[单选题]85.QQ图可以用来检验()A)正态性B)共线性C)同方差D)过拟合[单选题]86.在Webhcat架构中,用户能够通过安全的HTTPS协议执行以下哪些操作?A)执行HiveDDL操作B)运行Mapreduce任务C)运行HiveHOL任务D)以上全都正确[单选题]87.分析顾客的消费行为,以便有针对性的向其推荐感兴趣的服务,于()问题A)关联规则挖掘B)分类与回归C)聚类分析D)时序预测[单选题]88.在Fusioninsiehtaanarer界面中,对Loader的操作不包括下列哪个选项新)A)切换Loader主备节点B)启动Loader实例C)配置Loader参数D)查看Loader服务状态[单选题]89.某数据分析员希望展示某网站10年来月度访问量数据，采用以下哪个图形比较合适？A)散点图B)饼图C)盒须图D)折线图[单选题]90.Zookeeper在分布式应用中主要的作用不包括以下哪些选项?A)选举Master节点B)保证各节点上数据的C)分配集群资源D)存储及群中[单选题]91.将复杂的通讯地址简化成东、南、西、北、中五个类别,是在()进行?A)数据正规化B)数据一般化C)数据离散化D)数据整合[单选题]92.结构化程序设计所规定的三种基本控制结构是()A)输入、处理、输出B)树形、同形、环形C)顺序、选择、循环D)主程序、子程序、函数[单选题]93.神经网络是()算法的一种。A)分类B)聚类C)关联D)回归[单选题]94.对student1和student2两张表进行innerjoin连接后，形成的新表中()A)一定包含student1中的所有行，不一定包含student2中的所有行B)不一定包含student1中的所有行，一定包含student2中的所有行C)一定包含student1中的所有行，一定包含student2中的所有行D)不一定包含student1中的所有行，不一定包含student2中的所有行[单选题]95.关于HadoopMapReduce分片(spit)概念,下列说法不正确的是()。A)Hadoop为每个split创建一个Map任务B)split的多少决定了Map任务的数目C)大多数情况下,理想的分片大小是一个HDFS块对应一个spitD)split是一个物理概念[单选题]96.NumberSystem.out.printin("5"+2);的输出结果应该是()A)52B)7C)2D)5[单选题]97.Flink是流计算处理和批处理平台,()是数据批处理和流处理的核心引擎A)RuntimeB)DataStreamC)DataSetD)FlinkCore[单选题]98.以下更新HBase表中数据的语法,输写正确的是()。A)updateuser.xiaoming'setinfo.age=1B)update'users','xiaoming'info,age','29C)putusers'xiaoming',infoageD)put'users','xiaoming''infoage','29[单选题]99.关于相关性rA,B说法错误的是()。A)rA,B>0,正相关。A随B的值得增大而增大B)rA,B=0,不相关。AB无关C)rA,B<0,负相关。A随B的值得增大而减少D)不能单纯依据rA,B<=0确定AB的相关性[单选题]100.关于Hive与Hadoop其他组件的关系。以下描述错误的是?()A)Hive最终将数据存储在HDFS中B)Hive是Hadoop平台的数据仓库工具C)HQL可以通过Mapreduce执行任务D)Hive对Hbase有强依赖[单选题]101.在查看中国电商市场的交易数据时，会发现由于双11的存在，中国电商市场的交易额会在每年第四季度有很大的增幅。这一特征体现了电商市场成交数据的()A)长期趋势变动B)季节变动C)周期变动D)以上都是[单选题]102.一项不属Hive的流控特性()?A)已经建立的总连接数阈值控制B)某个特定用户已经建立的连接数阈值控制C)每个用户已经建立的连数闻值控制D)单位时间内所建立的连接数阈值控制[单选题]103.()盒须图()中，Q1到其最近的内限距离为()。A)IQRB)1、5IQRC)0、5D)0、75[单选题]104.Hadoop的HBase不适合哪些数据类型的应用场景?A)大文件应用场景B)海量数据应用场景C)高吞吐率应用场景D)半结构化数据应用场景[单选题]105.HBase来源哪篇博文?A)TheGoogleFileSystemB)MapReduceC)BigTableD)Chubby[单选题]106.以下关于一元线性回归分析中（y=b0+b1x+ε）的假定，描述错误的是()。A)因变量y与自变量x之间具有线性关系B)误差项ε是一个期望值为0的随机变量C)误差项ε的方差σ2D)因变量来自于正态总体[单选题]107.如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)A)200B)40000C)400D)1200[单选题]108.在Flask框架中,自定义错误页面使用的装饰器是A)error()B)handler(C)errorhandler()D)page([单选题]109.为了提高Kafka的容错性,Kafka支持Partition的复制策略,以下关于LeaderPartition和FollowPartition的描述错误的是()A)Kafka针对Partition的制需要选出一个Leader。由该Leader负责Partition的读写操作。其他的副本节点只是负责数据同步B)由于LeaderServer承載了全部的请求压力。因此从集群的整体考虑,Kafka会将Leader,均衡的分散在每个实例上,来确保数据均衡C)一个Kafka集群各个节点间不可能互为Leader和FlowerD)如果Leader失效。那么将会有其他follower来接管(成为新的Leader)[单选题]110.在Mapper类中,共有4个函数:setup()、map()、()l、run)。A)Reducer()B)cleanup()C)Split()D)local()[单选题]111.在数据库模型中,可以指定条件对记录进行排序,使用的方法是()。A)order_byB)filterC)orderD)group([单选题]112.在进行缺失值填补时，若数据呈明显的偏态分布，则可考虑采用下列哪种方法？()A)将存在缺失值的样本删除B)将存在缺失值的变量删除C)中位数填补D)均值填补[单选题]113.在建立线性回归(LinearRegression)之前我们可以利用何种方法挑选重要属性,以降低模型的复杂度?()A)皮尔森相关系数B)卡方检定C)T-检定D)Z-Score[单选题]114.下列哪一个关键字用于实现接口来定义类?A)extendsB)implementsC)abstractD)interface[单选题]115.下述概念中不属于面向对象方法的是()。A)对象、消息B)继承、多态C)类、封装D)过程调用[单选题]116.在研究数据中，有一个变量?饮料类型?有4个水平?果汁?、?碳酸饮料?、?能量饮料?和?其他?，由于该变量的少量数据缺失，那么缺失值用哪种填充方式会比较好？A)均值B)中位数C)众数D)调和平均数[单选题]117.以下选项中,哪个有可能是Apriori算法所挖出来的结果?()A)买计算机同会购买相关软件B)买打印机后过三个月会买墨水C)卖便携计算机较台式机所获得额外利益D)以上皆均不是[单选题]118.使用?select*from表1innerjoin表2on表1.员工id=表2.员工id?语句对下边两个表进行查询，查询结果中应有几行数据表1A)2B)3C)4D)5第2部分：多项选择题，共74题，每题至少两个正确答案,多选或少选均不得分。[多选题]119.MapReduce与HBase的关系,哪些描述是正确的()。A)两者不可或缺,MapReduce是HBase可以正常运行的保证B)两者不是强关联关系,没有MapReduce,HBase可以正常运行C)MapReduce可以直接访问HBaseD)它们之间没有任何关系[多选题]120.以下属于时间序列建模步骤的有()A)平稳性检验B)模型识别C)参数估计D)模型检验[多选题]121.YARN容量调度器的主要特点有哪些?A)容量保证B)动态更新配置文件C)灵活性D)多重租赁[多选题]122.Fusioninsight家族包含下列哪些子产品?4A)FusioninsightFarmerB)FusioninsightMinerC)FusioninsightHDD)GAUSSDB200[多选题]123.过程层网络实现()的数据通讯A)间隔层与过程层B)间隔层设备之间C)过程层设备之间D)间隔层和站控层[多选题]124.以下哪些是Spark的常驻进程()?A)JobHistoryB)SparkResourceC)NodeManagerD)JDBCServer[多选题]125.HadoopHDFS自身的局限性包括()。A)不适合做低延迟、细粒度访问B)无法高效存储大量的小文件C)不支持多文件的写入及任意修改文件D)无法实现数据的冗余备份存储[多选题]126.Stage的Task的数量不是由什么决定()A)PartitionB)JobC)StageD)TaskScheduler[多选题]127.下列属于Flume数据监控的指标是?A)Sink写入数据量B)Datanode数量C)Channel缓存数据量D)Source接受数据量[多选题]128.测试集选取的方法一般包括()。A)保持法B)随机二次抽样C)交叉验证D)自助法[多选题]129.分析宏观环境从以下哪些方面来收集信息。()A)政策法律环境B)经济环境C)社会文化环境D)技术环境[多选题]130.调用Zookeeper客户端命委中包含哪些信息?A)Ip地址B)端口号C)服务器名称D)用户名[多选题]131.合并单元发送数据给间隔层设备同步原则()A)点对点-光纤直连-谁使用谁同步B)点对点-光纤直连-谁发送谁同步C)组网-经过交换机-谁发送谁同步D)组网-经过交换机-谁使用谁同步[多选题]132.以下关丁KafkaPartition说法正确的有?A)引入Partition机制,保证了Kafka的高吞吐能力B)每个Partition都是有序且不可变的消息队列C)Partition数量决足了每个consumergroup中井发消费者的最大数量D)每个Partition在存储层面对应一个10g文件[多选题]133.下列选项中,哪些是Spark的重要角色()A)NodemanagerB)ResourcemanagerC)DatanodeD)Driver[多选题]134.以下叙述正确的是。A)目标变量（标签）是离散值，称为分类任务B)目标变量（标签）是连续值，称为回归任务C)垃圾邮件识别属于回归任务D)预测房屋价格属于回归任务[多选题]135.下面哪些端口是spark自带服务的端口()A)8080B)4040C)8090D)18080[多选题]136.关于HBase二级索引的描述,哪些是正确的?A)核心是倒排表B)二级索引概念是对应Rowkey这个?一级?索引C)二级索引使用平衡二叉树D)二级索引使用LSM结构[多选题]137.以下选项中,属于HDFS架构关键特性的是?()A)HA高可靠性B)健壮机制C)元数据持久化机制D)多方式访问机制[多选题]138.描述数据集中趋势的常见指标是()。A)均值B)中位数C)众数D)四分位数[多选题]139.INT型数据是实际业务中经常需要用到的一类数据。以下可以对INT型数据使用的函数包括()。A)roundB)maxC)absD)now[多选题]140.以下哪些是MatLab软件的特点。()A)高效的数值计算及符号计算功能,能使用户从繁杂的数学运算分析中解脱出来B)具有完备的图形处理功能实现计算结果和编程的可视化C)友好的用户界面及接近数学表达式的自然化语言,使学者易于学习和掌握D)功能丰富的应用工具箱(如信号处理工具箱、通信工具箱等),为用户提供了大量方便实用的处理工具[多选题]141.FusioninsightHD集群中包含了多种服务,每种服务又由若干角色组成,下面哪些是服务的角色?()A)HDFSB)NamenodC)DatanodeD)Hbase[多选题]142.回归模型的检验需要经过以下哪些方面。()A)样本容量B)模型显著性C)无偏估计D)拟合优度[多选题]143.张亮持有A、B、C、D、E五只股票,请问以下不属于时间序列问题的有()。A)透过A只股票过去一年来的股价走势,预测明天A只股票的开盘价格B)将E五只股票区分为赚钱与赔钱两个类别C)将E五只股票区分为甲、乙、丙三个群体D)透过A,C,D三只股票过去一年来的走势,预测明天A只股票的开盘价格[多选题]144.spark的特点包括()A)快速B)通用C)미征伸D)兼容性[多选题]145.nodemaager的内存和CPU的数量,是通过下列哪些选项进行配置?A)Yamsceduler.capacity.root.Queueamaximum-capacityB)Yarnnodemanager.resourcecpu-vcoreC)arnnodemanager.vmem-pmom-ratioD)Yarn.modemanager.resource.memory-mb[多选题]146.在Loader历史作业记录中,可以查看以不哪些内容?A)作业状态B)脏数据键接C)措误行/文件数量D)作业开始/运行时间[多选题]147.数据产生可以分为哪几个阶段。()A)运营式系统阶段B)用户原创内容阶段C)感知式系统阶段D)级数增长阶段[多选题]148.Mapreduce过程中,以下属于Shuffle机制的是?()A)CopyB)PartitionC)combineD)Sort/Merge[多选题]149.YARN主要包含的模块有以下哪些?A)ApplicationMasterB)ResourceManagerC)NodeManagerD)QuorumJournalManager[多选题]150.机器学习主要包含以下几类模式A)监督学习B)无监督学习C)半监督学习D)强化学习[多选题]151.下列关于脏数据的说法中,正确的是()A)格式不规范B)编码不统C)意义不明确D)与实际业务关系不大[多选题]152.以下指标中,反应离散趋势的有()。A)方差B)四分位数C)变异系数D)D极差[多选题]153.统计分析方法的局限是()。A)不全面不深刻B)统计决断的结论并非绝对正确C)运用情况复杂,对方法要求高D)不能反映总体数量特征[多选题]154.关于spark容错说法错误的有()A)在容错机制中,如果一个节点死机了,而且运算窄依赖,则只要把丢失的父RDD分区重算即可,依于其他节点B)宽依赖开销更大C)Checkpoint可以节约大量的系统资源D)RDD的容错机制是基于SparkStreaming的容错机制[多选题]155.Apriori算法的计算复杂度受哪些因素影响?()A)支持度阀值B)项数(维度)C)事务数D)事务平均宽度[多选题]156.时间序列建模是一种应用很广的统计建模方法,可用在以下哪几种情况。()A)系统描述B)系统分析C)预测未来D)决策和控制[多选题]157.scala语言中一个函数可以定义在A)构造函数里B)class内C)object内D)main函数内[多选题]158.小A针对产品特征进行了一次聚类分析，结果并不理想。以下哪些方法有助于获得更有效的聚类结果()A)标准化B)主成分分析C)因子分析D)变量聚类[多选题]159.关于SecondaryNameNode哪项是正确的?A)它是NameNode的热备B)它对内存没有要求C)它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D)SecondaryNameNode应与NameNode部署到一个节点[多选题]160.大数据分析相关技术主要特征包括?A)机器学习,全量特征B)数据背后事件关联性分析C)基于海量数据为基础D)基于精确样本为基础[多选题]161.给你几万条用户数据,每条用户数据的电话号码是其唯一的关键字段,请选择合适的数据结构,将这些用户数据加载到内存中管理起来。这个数据结构支持基于电话号码的快速查询,同时又支持新数据的快速插入(有新的用户不断注册进来):(A)链表B)Hash表C)B+TreeD)队列[多选题]162.hdfs不适用哪些场景?A)流式数据访问B)大量小文件存储C)大文件存储与访问D)随机写入[多选题]163.下列数据结构不具有记忆功能的是?A)队列B)循环队列C)栈D)顺序表[多选题]164.消除时间序列中的不规则变动和季节变动的方法是()。A)移动平均法B)指数平滑法C)时间序列乘法模型D)季节指数[多选题]165.关于HBase的特性,哪些是正确的()?A)高可靠性B)高性能C)面向列D)可伸缩[多选题]166.下面选项中,哪些不是mysql数据库的引擎A)InnodbB)OLTPC)MemoryD)OLAP[多选题]167.从生命周期维度看,数据主要经历那几个阶段?A)数据采集B)数据存储C)数据管理D)数据分析[多选题]168.hive在load是不检索数据是否符合schema的,hive遵循的是schemaonread(读时模式)只有在读时模式的时候才检查hive的数据字段,shena,下关于Flink中transformation的说法正确的是?A)可以通过window设定时间窗口B)filter操件是对每个元素执行boolean函数C)flatmap是对文本进行切分D)keyby是将源头数据按照key进行分组,以保证同一个key的元数据分到同样的组中[多选题]169.fusioninstghthd集群包含多种服务,每种服务又有若干个角色组成,下面那些是角色?A)namenodeB)hbaseC)datanodeD)以上全都正确[多选题]170.以下属回归算法的前提假设的是()。A)正态性假设B)零均值性假设C)等方差性假设D)独立性假设[多选题]171.HadoopMapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这5个编程组件中。A)Partitioner和CombinerB)Split和SortC)InputFormat和OutputFormatD)Mapper和Reducer[多选题]172.分析消费者购买行为模型的特征变量有()。A)自然社会因素B)文化因素C)产品因素D)个人因素[多选题]173.对于HBase系统的使用场景,以下说法正确的是()。A)需对数据进行随机读操作或者随机写操作B)大数据量并发操作C)需要进行多表联合查询D)读写访问均是非常简单的操作[多选题]174.以下连接中属于表的横向连接的有()A)innerB)leftC)rightD)union[多选题]175.以下数据结构属于线性数据结构的是?A)队列B)线性表C)二叉树D)栈[多选题]176.可以使用数据分析来解决的业务问题包括()。A)客户的价值评估B)贷款的风险度量C)商铺的选址D)客流预测[多选题]177.Hadoop的HBase主要特点有哪些?A)高可靠性B)高性能C)面向列D)可伸缩[多选题]178.以下关于Kafkalogs中segmentfile的说法正确的是?A)通过素引信息可以快速定位messageB)稀疏存储即将原来的完整数据,只间隔的选择多条进行存储C)是index元数据全部映射到memory,可以避免segmentfile的index数据I0磁盘操作D)索引文件稀疏存储,可以大幅度降低index文件元数据占用空间大小[多选题]179.ABC公司的数据团队为了预测销售量，进行了一次多元线性回归，模型结果无效，可能的原因有()A)多重共线性B)条件异方差C)非条件异方差D)序列相关[多选题]180.下列哪些选项是安装HBase前所必须安装的?A)操作系统B)JDKC)ShellScriptD)JavaCode[多选题]181.下列属于描述性统计中集中趋势度量的有()。A)均值B)众数C)四分位差D)极差[多选题]182.数据分析挖掘流程不包括哪些？A)基层调查B)数据收集C)构建模型和模型评估D)分析师培养[多选题]183.关于SparkSQL&Hive区别与联系,下列说法正确的是?()A)SparkSQL依赖HiVe的元数据B)SparkSQL的执行引擎为Sparkcore.,Hive默认执行引擎为MapreduceC)SparkSQL不可以使用Hive的自定义函数D)SparkSQL兼容绝大部分Hive的语法和函数[多选题]184.下面对HBase的描述哪些是正确的?A)不是开源的B)是面向列的C)是分布式的D)是一种NoSQL数据库[多选题]185.大数据4V特征包括()。A)数据规模大,数据量巨大(Volume)B)数据种类繁多,包括半结构化数据和非结构化数据(Variety)C)价值密度低,如同沙里淘金(Value)D)数据处理速度快,能实时获取信息(Velocity)[多选题]186.Task运行不在以下选项中Executor上的工作单元()A)DriverprogramB)sparkmasterC)workernodeD)Clustermanager[多选题]187.对大数据的管理和使用包括哪些方面()A)大数据的运营B)大数据的挖掘C)大数据的应用D)大数据的存储[多选题]188.可向顶点着色器(VertexShader)传递数据的方式?A)uniform变量B)attribute变量C)varying变量D)vertex变量[多选题]189.Hadoop集群规模很大时,数据的分布情况会非常关键,用户需要根据数据分布情况,决定集群是扩容,数据是否需要做负载均衡等,fusioninsight资源分布监控说法正确()A)用户快速聚焦在最关键的资源消耗上B)通过每个服务主业的资源分布查看界面,看到关键的资源分布情况C)通过dashboard界面,可以查看到主机资源分不清哪个矿,例如内存占用率在50-75%的主机列表,并提供链接跳转D)帮助用户迅速找到资源消耗最高的点,采取适当的措施[多选题]190.常见的数据污染有(0A)数据不完整B)噪声数据C)数据不一致D)数据冗余[多选题]191.实际业务中，数据常常来源于不同的数据表。以下连接方式中会包括两个表的所有信息的有()A)innerB)leftC)fullD)union[多选题]192.四分位数的特征值是(】。A)最大值B)最小值C)中位数D)四分位数第3部分：判断题，共68题，请判断题目是否正确。[判断题]193.导入数据到Hive表时不会检查数据合法性,只会在读取数据时候检查。A)正确B)错误[判断题]194.四分位数是指在统计学中把序列中的数值由小到大排列并分成四等份,处于分割点位置的数值。A)正确B)错误[判断题]195.HDFS中当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为?宕机?,节点上面的所有数据都会被标记为?不可读?,名称节点不会再给它们发送任何I/O请求A)正确B)错误[判断题]196.具有较高置信度的项集也一定具有较高的支持度。A)正确B)错误[判断题]197.Flume的tertises配置文件中可以配置多个channel来传输数据。A)正确B)错误[判断题]198.+十、一运算只适用于变量A)正确B)错误[判断题]199.执行下列代码后,输入数字100后,最终的输出结果为class'int'。()inp=input('请输入一个整数:)print(type(inp))A)正确B)错误[判断题]200.编译后的Java应用程序可由Javac,exe解释执行A)正确B)错误[判断题]201.HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输。A)正确B)错误[判断题]202.没有特别指明的整数都是属于长整型A)正确B)错误[判断题]203.Hive不支超时重试机制。()A)正确B)错误[判断题]204.Yarn-client和Yarn-cluster主要区是ApplicationMaster进程的区别。A)正确B)错误[判断题]205.赋值运算具有左结合性A)正确B)错误[判断题]206.Fusionis界面上,当收到Kafka磁盘容量不足告警,且该告警的原因已经排除硬件故障时系统管理员需要考虑扩容解决此问题。A)正确B)错误[判断题]207.Java源程序经编译后生成字节码文件A)正确B)错误[判断题]208.HBase是Apache的Hadoop项目的子项目,利用HadoopHDFS作为具文件存储系统,适合于非结构化数据存储。()A)正确B)错误[判断题]209.Flume中source必须确切的与一个channel关联()A)正确B)错误[判断题]210.数据分析报告的重点是传递分析的结论以及其中有价值的信息给决策者,因此报告的结论与建议是需要重点表述的。A)正确B)错误[判断题]211.HDFS名称节点会定期做检查数据块的副本数量,一旦发现某个数据块的副本数量小于冗余因子,就会启动数据冗余复制,生成新的副本。A)正确B)错误[判断题]212.关系运算的结果一定为布尔值A)正确B)错误[判断题]213.函数imread()是用于读取图片文件中的数据。A)正确B)错误[判断题]214.容量调度器在进行资源分配,现有同级的2个队列Q1和2,他们的容量均为30,其中Q1已使用8,Q2已使用14则会优先将资源分配给Q1。()A)正确B)错误[判断题]215.语法错误需要等到运行时才会被发现A)正确B)错误[判断题]216.遗传算法与传统优化算法的极大区别是遗传算法从问题解的串集开始搜索,而不是从单个解开始。A)正确B)错误[判断题]217.在YARN的任务调度中,一旦Applicationmlaster申请到资源后,使与对应的Resourcemanager通信,要求它启动任务()A)正确B)错误[判断题]218.等课分箱法也即统一区间,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子深度。A)正确B)错误[判断题]219.FP-Growth算法不产生候选集而直接生成頻繁集的频繁模式增长算法,该算法采用分而治之的策略。A)正确B)错误[判断题]220.四分位差易受极端值的影旧A)正确B)错误[判断题]221.集合中的元素都是唯一的,不允许出现重复的元素。A)正确B)错误[判断题]222.变异系数又称?离散系数也标?标准差率,是标准差与平均数的比值,记为C.V。A)正确B)错误[判断题]223.网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息网络数据采集方法。A)正确B)错误[判断题]224.Hadoop系统中,如果文件系统的备份因子是3,那么每次MapReduce任务运行的task所需要的文件都要从3个有副本的机器上传输需要处理的文件。A)正确B)错误[判断题]225.一个Java源程序文件中只能定义一个public类A)正确B)错误[判断题]226.关联规则挖掘就是寻找满足最小置信度的所有频繁项集。A)正确B)错误[判断题]227.HDFS支持大文件存储,同时支持多个用户对同一个文件的写操作,以及在文件任意位置进行修改A)正确B)错误[判断题]228.在多元回归分析中,检验方程的拟合优度用调整后的R的平方效果更好。A)正确B)错误[判断题]229.时序预测是指通过时间序列搜索出的重复发生率较高的模式,与回归预测一样,也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。A)正确B)错误[判断题]230.动态定价是指电子商务企业通过数据构建客户资料,来实现灵活的定价和折扣策路。A)正确B)错误[判断题]231.Hdfs,yarn,hbase,以及spark资源监控,spark任务监控的默认web端口分为50070,8088,16010,8080,4040。1A)正确B)错误[判断题]232.在使用flask_moment模块进行格式化日期时间时,不需要进行实例化()。A)正确B)错误[判断题]233.使用Shell命令insert对HBase中的一张表进行数据添加操作。()A)正确B)错误[判断题]234.HBase允许创建空表,不需要建立列簇。()A)正确B)错误[判断题]235.对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量A)正确B)错误[判断题]236.聚类问题是一种无监督的学习任务,即训练样本的标记信息是未知的,通过对无标记训练样本的学习,来揭示数据的内在性质,就可以为进一步数据分析提供基础。A)正确B)错误[判断题]237.数据来源于信息,是经过加工后的信息。A)正确B)错误[判断题]238.Flume架构中,一个sink可以连接多个channel。()A)正确B)错误[判断题]239.DBSCAN算法中,在给定的Eps半径邻域内,所有核心点的点数都不应该少于MinPts闻值。A)正确B)错误[判断题]240.Spark是基于内存的计算,所有Spark程序运行过程中的数据只能存储在内存申A)正确B)错误[判断题]241.神经网络对未经过训练的数据具有分类功能,但其需要很长时间进行训练。A)正确B)错误[判断题]242.数据异常值检方法以正态分布为前提,若数据偏离正态分布或样本较小时,则检验结果未必可靠,校验是否正态分布可借助W检验、D检验。A)正确B)错误[判断题]243.在Flask中定义路由时,默认监听的HTTP方式是GET()。A)正确B)错误[判断题]244.HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。A)正确B)错误[判断题]245.FusioninsightManage支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补。()A)正确B)错误[判断题]246.回归研究的是数据之间的非确定性关系。A)正确B)错误[判断题]247.Ganglia不仅可以进行监控,也可以进行告警。A)正确B)错误[判断题]248.Hbase的最小存储单元是Region。A)正确B)错误[判断题]249.随着数据量的增大,异常值和缺失值对整体分析结果的影响会逐渐变小,因此在?大数据?模式下,数据清洗可忽路异常值和缺失值的影响,而侧重对数据结构合理性的分析。A)正确B)错误[判断题]250.如果某些Containers的物理内存利用率超过了配置的内存阈值,但所有Containers的总内存利用率并没有超过设置的Nodemanager内存值,那么内存使用过多的containers仍可以继续运行。A)正确B)错误[判断题]251.算术平均数公式是算数平均数=总体标志值(数据)总和/总体单位总和。A)正确B)错误[判断题]252.hadoop的HDFS文件格式化命令为:hadoopnamenode-format。A)正确B)错误[判断题]253.决策树是做分类预测的最优算法,因为此算法对噪声数据和共线性都不敏感。A)正确B)错误[判断题]254.相关图中的跳点是指时间序列从上升趋势突然变为下降趋势的点,拐点是指与其他数据不一致的观测值。A)正确B)错误[判断题]255.在Mapreduce编程中,代码不仅要描述做什么,还要描述具体怎么做。A)正确B)错误[判断题]256.8种基本数据类型的类型名全为小写A)正确B)错误[判断题]257.数据清洗过程中,对遗漏数据的处理方法有:忽路该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。A)正确B)错误[判断题]258.Resourcemanager采用高可用方案,当Activeresourcemanager发现故障时只能通过内置的zookeeper来启动standby的resourcemanager,将其状态切换为active。A)正确B)错误[判断题]259.命令行编译java应用程序必须包含扩展名(java)A)正确B)错误[判断题]260.HDFS集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。A)正确B)错误1.答案:B解析:2.答案:D解析:主成分数量的选取可以依赖于碎石图，也需要特征根大于1，并累积方差超过80%（通常）。但是各个主成分需要是正交的，即方向是垂直的。3.答案:A解析:4.答案:B解析:5.答案:A解析:6.答案:B解析:7.答案:A解析:可以通过使用like?%字符串%?的形式来进行模糊匹配，寻找包含字符串取值的所有记录。8.答案:D解析:9.答案:C解析:10.答案:D解析:省份更适合用分类变量。11.答案:C解析:12.答案:B解析:本题A和B产生疑惑，A项决策数据化均需谨慎不仅仅在客户行为分析中，在其他数据分析中也是同样，B项?数据挖掘分析中，模型都不精确谈何决策支持?模型的精确性是一个很模糊的字眼，况且使用?势必?显然不合适。在不同行业中，对精确性的要求不同，此外如果模型精确度不够，但却能发现有用的商业知识也是可以接受。多选题共20题，共40、0分13.答案:C解析:14.答案:C解析:15.答案:C解析:16.答案:D解析:由题意17.答案:D解析:18.答案:A解析:19.答案:B解析:20.答案:D解析:21.答案:C解析:22.答案:A解析:23.答案:B解析:24.答案:A解析:25.答案:C解析:26.答案:C解析:本题需要检验工艺对待机时间的影响，其本质是分析工艺改进前后的待机时间均值是否有显著差异或显著提高，因此用t检验。27.答案:C解析:28.答案:D解析:D是加速收敛的方法29.答案:B解析:30.答案:C解析:31.答案:D解析:32.答案:C解析:33.答案:B解析:34.答案:B解析:35.答案:D解析:36.答案:D解析:37.答案:A解析:38.答案:D解析:所有随机抽样都可以用于推断总体39.答案:D解析:40.答案:B解析:41.答案:C解析:42.答案:C解析:43.答案:A解析:44.答案:D解析:45.答案:B解析:hdfsdfsadmin-report46.答案:D解析:47.答案:D解析:48.答案:A解析:49.答案:C解析:50.答案:B解析:51.答案:C解析:52.答案:A解析:53.答案:B解析:原假设是54.答案:A解析:如果残差的期望不等于0，而等于其他的某个常数，那么这个常数就应该出现在多元线性回归的常数项内。55.答案:B解析:56.答案:B解析:57.答案:C解析:58.答案:D解析:59.答案:C解析:60.答案:C解析:61.答案:D解析:62.答案:C解析:63.答案:C解析:64.答案:D解析:超过正负3，就是极度偏态了。65.答案:B解析:66.答案:B解析:品牌属于分类，因此代表定性数据。一篇文章的字母等级属于定性数据，因为它代表从不及格到非常好的过程。考试的分数属于定量数据，因为它计算的是正确题目的分数。球员的队服号码是定性数据，因为这些数据用来表示身份，并且这些数据不能用来做计算。67.答案:C解析:68.答案:C解析:69.答案:C解析:70.答案:A解析:71.答案:D解析:72.答案:D解析:73.答案:B解析:p仅是相对的可能性，而不是绝对的发生概率。74.答案:B解析:75.答案:D解析:76.答案:D解析:77.答案:C解析:78.答案:D解析:三个类型中，面访的成本最高79.答

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据CDA考试(习题卷2)

文档简介

温馨提示

最新文档

评论

大数据CDA考试(习题卷2)

文档简介

温馨提示

最新文档

评论

相关文档