大数据题库-数据理论基础练习卷附答案

上传人：啊*** IP属地：浙江上传时间：2023-12-27 格式：DOC 页数：58 大小：91.21KB 积分：20 举报 版权申诉

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第页大数据题库-数据理论基础练习卷附答案1.数据科学是一门以（）为主要研究任务的独立学科。A、数据驱动、数据业务化、数据洞见、数据产品研发和（或）数据生态系统的建设B、数据研发C、数据处理D、数据洞见【正确答案】：A解析：

数据科学是一门以实现从数据到信息、从数据到知识和（或）从数据到智慧的转化为主要研究目的，以数据驱动、数据业务化、数据洞见、数据产品研发和（或）数据生态系统的建设为主要研究任务的独立学科。2.不属于Mayer-SchönbergerV和CukierK．在其著名论著《BigData：ARevolutionThatWillTransformHowWeLive，Work，andThink》中提出了大数据时代统计的思维变革的是（）。A、不是随机样本，而是全体数据B、不是精确性，而是混杂性C、不是描述性分析，而是预测性分析D、不是因果关系，而是相关关系【正确答案】：C解析：

Mayer-SchönbergerV和CukierK.在其著名论著《BigData：ARevolutionThatWillTransformHowWeLive，Work，andThink》中提出了大数据时代统计的思维变革：①不是随机样本，而是全体数据：大数据时代应遵循“样本＝总体”的理念，需要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。②不是精确性，而是混杂性；大数据时代应承认数据的复杂性，数据分析目的不应追求精确性，数据分析的主要瓶颈是如何提升效率而不是保证分析结果的精确度。③不是因果关系，而是相关关系：大数据时代的思想方式应转变--不再探求难以捉摸的因果关系，转而关注事物的相关关系。3.BASE原则的含义不包括（）。A、基本可用B、柔性状态C、最终一致D、基础条件【正确答案】：D解析：

BASE原则是BasicallyAvailable（基本可用）、SoftState（柔性状态）和EventallyConsistent（最终--致）的缩写。BasicallyAvailable是指可以容忍系统的短期不可用，并不追求全天候服务；SoftState是指不要求一直保持强一致状态；EventuallyConsistent是指最终数据一致，而不是严格的实时一致，系统在某一个时刻后达到一致性要求即可。4.下列属于NoSQL数据库中Key-Value缺点的是（）。A、不记录结构信息B、查询性能不高，缺乏统一查询语法C、功能相对有限D、功能相对有限，不易于做分布式集群【正确答案】：A解析：

Key-Value型数据通常Key与Value之间采用某种方法（如哈希表）建立KValue映射，其缺点是不记录结构信息，无法建立索引。5.下列关于文本分类的说法不正确的是（）。A、文本分类是指按照预先定义的主题类别，由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类系统大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建，该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤【正确答案】：C解析：

词袋模型没有考虑文本词语的原本行文顺序。6.下列描述中属于DMM（数据管理成熟度模型）中的关键过程域数据战略的是（）。A、数据战略制定B、业务术语表C、数据质量评估D、过程质量保障【正确答案】：A解析：

数据战略制定属于DMM（数据管理成熟度模型）中的关键过程域“数据战略”。7.美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（）。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据【正确答案】：B解析：

本次分析主要分析了大风和洋流可能发生的地与安全航路的相关性。8.下列关于缺失值填补的说法不正确的是（）。A、填补数据可以用中位数或者众数等B、Pandas.dropna可以用来填补缺失值C、用平均值填补会引入相关D、哑变量填补是将缺失值当做一类新特征处理【正确答案】：B解析：

Pandas.dropna可以用来删除缺失值。9.数据的故事化描述是指为了提升数据的（），将数据还原成关联至特定的情景的过程。A、可理解性、可记忆性、可体验性B、可接受性、可记忆性、可体验性C、可接受性、可记忆性、可呈现性D、可理解性、可记忆性、可呈线性【正确答案】：A解析：

数据的故事化描述（Storytelling）是指为了提升数据的可理解性、可记忆性及可体验性，将数据还原成关联至特定的情景的过程。10.对于数据3,3,2,3,6,3,10,3,6,3,2，得出以下结论：①这组数据的众数是3；②这组数据的众数与中位数的数值不相等；③这组数据的中位数与平均数的数值不相等；④这组数据的平均数与众数的数值相等。其中结论正确的个数为（）。A、1B、2C、3D、4【正确答案】：B解析：

众数是指一组数据中出现最多的变量值；中位数是指一组数据排序后处于中间位置的变量值；均值是各数值加总求和再除以总的个数。此题中众数为3，中位数为3，平均值为4，故①和③正确。11.下列描述中不属于规整数据（TidyData）三个基本原则的是（）。A、每一类观察单元构成一个关系（表）B、每个观察占且仅占一行C、每个变量占且仅占一列D、每个观察占且仅占一个关系（表）【正确答案】：D解析：

tidyData原则为每列代表一个单独变量、每行代表单个观察值、每种观察形成一个表格。12.决定事务对数据对象加锁后拥有何种控制权的是锁的（）。A、状态B、类型C、数量D、属性【正确答案】：B解析：

在2PL中，锁的类型分为排他锁和共享锁等。13.（）是指个体对视觉感知信息的进一步加工处理过程，包括视觉信息的抽取、转换、存储、简化、合并、理解和决策加工活动。A、视觉感知B、视觉认知C、视觉编码D、视觉转换【正确答案】：B解析：

视觉感知（VisualPerception）是指客观事物通过视觉感觉器官（眼睛等）在人脑中产生直接反应的过程。视觉感知是产生视觉认知的前提条件。视觉认知（VisualCognition）是指个体对视觉感知信息的进一步加工处理过程，包括视觉信息的抽取、转换、存储、简化、合并、理解和决策等加工活动。14.下列描述中不属于向量空间模型缺陷的是（）。A、维度灾难B、模型稀疏性C、语义信息缺失D、无法计算文本相似度【正确答案】：D解析：

无法计算文本相似度的原因有出现新词在向量模型中没有该词汇或分词工具对于词汇切分与上次不同等其他原因。15.下列关于OLAP和OLTP的区别描述不正确的是（）。A、OLAP主要是关于如何理解聚集的大量不同的数据，它与OTAP应用程序不同B、与OLAP应用程序不同，OLTP应用程序包含大量相对简单的事务C、OLAP的特点在于事务量大，但事务内容比较简单且重复率高D、OLAP是以数据仓库为基础的，但其最终数据来源与OLTP一样均来自底层的数据库系统，两者面对的用户是相同的【正确答案】：C解析：

OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，记录即时的增、删、改、查，比如在银行存取一笔款，就是一个事务交易。OLAP即联机分析处理，是数据仓库的核心，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。16.在空间维度上刻画数据连续性是数据的（）。A、可关联性B、可溯源性C、可理解性D、可复制性【正确答案】：A解析：

数据连续性理论是指由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据保护措施，其目的是保障数据的可用性、可信性和可控性，降低数据的失用、失信和失控的风险。刻画数据连续性的特点描述如下：①可关联性是在空间维度上刻画数据连续性，代表的是不同数据对象之间的连续性。它是保障数据可用性的重要前提，代表了数据是否具备支持开放关联和跨域存取的能力，进而避免数据资源的碎片化。因此，研究数据可关联性的意义在于降低数据的“失用”风险。②可溯源性是在时间维度上刻画数据连续性，代表的是同一个数据对象的历史版本之间的连续性。它是保障数据可信性的重要前提，代表了数据是否具备支持证据链管理、可信度评估以及预测分析的能力。因此，研究数据可溯源性的意义在于降低数据的“失信”风险。③可理解性是在内容维度上刻画数据连续性，代表的是数据与其产生、管理和维护的主体（包括人与计算机）之间的连续性。它是降低数据的可控性的重要前提，代表了数据是否具备自描述和自包含信息。因此，研究数据可理解性的意义在于降低数据的“失控”风险。17.在著名管理学家Thomas·H．Davernport在《哈佛商业论坛》上发表的题为《第三代分析学（Analytics3.0）》的经典论文中，Analytics3.0时代是指（）。A、商务智能时代B、大数据时代C、数据富足供给时代D、数据智能时代【正确答案】：C解析：

Analytics3.0的名称为数据富足供给时代（Data-enrichedOfferings）。与Analytics2.0不同的是，Analytics3.0中数据分析更为专业化，从技术实现和常用工具角度看，Analytics3.0将采用更为专业的分析工具，而不再直接采用Hadoop、Spark、NoSQL等大数据分析技术。同时，数据分析工作也由专业从事数据分析的数据科学家-首席分析师完成，数据科学家的类型将得到进一步细化。18.常用的数据归约方法可以分为（）。A、维归约、数据压缩B、维归约、参数归约C、维归约、值归约D、数据压缩、值归约【正确答案】：C解析：

常用的数据归约方法有维归约和值归约两种。19.数据分析的第一步是（）。A、探索性分析B、描述性分析C、诊断性分析D、规范性分析【正确答案】：B解析：

数据分析的步骤：描述性分析、诊断性分析、预测性分析、规范性分析。20.数据管理成熟度模型中成熟度等级最高的是（）。A、已优化级B、已测量级C、已定义级D、已管理级【正确答案】：A解析：

已优化是数据管理成熟度模型中成熟度的最高等级。21.数据科学家可能会同时使用多个算法（模型）进行预测，并且把这些算法的结果集成起来进行最后的预测（集成学习），下列关于集成学习的说法正确的是（）。A、单个模型之间具有高相关性B、单个模型之间具有低相关性C、在集成学习中使用平均权重而不是投票会比较好D、单个模型都用同一个算法【正确答案】：B解析：

集成学习就是组合这里的多个弱监督模型以期得到一个更好、更全面的强监督模型，集成学习潜在的思想是即便某一个弱模型得到了错误的预测，其他的弱模型也可以将错误

纠正回来。某一个弱模型要有一定的准确性，即学习器不能太坏，并且要有多样性，即个体学习器间具有差异。集成中既可包含同种类型的弱模型，也可包含不同类型的弱模型。22.下列关于描述性分析与探索性分析的描述正确的是（）。A、描述性分析是相对于验证性分析的一种提法B、探索性分析是验证性分析的基础C、探索性分析是相对于验证性分析的一种提法D、探索性分析是数据分析的第一步【正确答案】：C解析：

描述性分析与探索性分析两者的区别：

（1）描述性分析（DescriptiveAnalytics）是相对于诊断性分析、预测性分析和规范性分析的一种提法，主要指的是对一组数据的各种统计特征（如平均数、标准差、中位数、频数分布、正态或偏态程度等）进行分析，以便描述测量样本的各种特征及其所对应总体的特征。

（2）探索性数据分析（ExploratoryDataAnalysis，EDA）是相对于验证性分析的一种提法，主要指的是指在尽量少的先验假定下，对已有的数据（特别是调查或观察得来的原始数据）进行探索，并通过作图、制表、方程拟合、计算特征量等较为简单的方法，探索数据的结构和规律的一种数据分析方法。23.数据可视化的方法论基础是（）。A、统计图表B、视觉编码C、图论D、图形符号学【正确答案】：B解析：

数据可视化方法体系的方法论基础主要是指视觉编码。视觉编码为其他数据可视化方法提供了方法论基础，奠定了数据可视化方法体系的根基。24.下列关于基本元数据描述正确的是（）。A、基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息【正确答案】：D解析：

基本元数据（Metadata）又称中介数据、中继数据，为描述数据的数据（dataaboutdata)。25.下列属于无监督学习的是（）。A、K-meansB、SVMC、最大熵D、CRF【正确答案】：A解析：

K-means是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，这是一个典型聚类算法，聚类就是一种发现这种内在结构的技术，该类算法被称为无监督学习。26.从复杂度及价值高低两个维度，可以将数据分析分为（)。A、描述性分析、诊断性分析、预测性分析、探索性分析B、探索性分析、诊断性分析、预测性分析、规范性分析C、探索性分析、描述性分析、预测性分析、规范性分析D、描述性分析、诊断性分析、预测性分析、规范性分析【正确答案】：D解析：

大数据分析使得决策有了科学基础，现在做决策可以基于实际的数据而不仅仅依赖于过去的经验或者直觉。根据分析结果的不同，我们大致可以将数据分析分为描述性分析、诊断性分析、预测性分析、规范性分析四类，不同的分析类型将需要不同的技术和分析算法。27.下列不属于数据科学项目主要角色的是（)。A、项目发起人B、项目经理C、操作员D、验收人员【正确答案】：D解析：

数据科学项目涉及的主要角色有项目发起人（ProjectSponsor）、项目经理（ProjecManager）、客户（Client）、数据科学家（DataScientist）、数据工程师（DataEngineer）、操作员（Operations）等。28.下列不属于数据科学跨平台基础设施和分析工具的是（）。A、微软AzureB、Google云平台C、阿里云D、Adobephotoshop【正确答案】：D解析：

Adobephotoshop软件一般不作为数据分析工具。29.下列关于数据仓库开发特点的描述不正确的是（）。A、数据仓库开发要从数据出发B、数据仓库使用的需求在开发初期就要明确C、数据仓库的开发是一个不断循环的过程，是启发式的开发D、在数据仓库环境中，并不存在操作型环境中所固定的和较确切的处理流，数据仓库中数据分析和处理更灵活，且没有固定的模式【正确答案】：A解析：

数据仓库开发要从需求出发。30.探索性分析与验证性分析的不同点是（）。A、探索性分析需要事先假设B、探索性分析比验证性分析复杂C、探索性分析在前D、验证性分析在前【正确答案】：C解析：

验证性分析需要事先假设，因数据不同复杂程度也不同，探索性分析一般在前，为验证性分析提供参考。31.下列关于数据重组的说法错误的是（）。A、数据重组是数据的重新生产和重新采集B、数据重组能够使数据焕发新的光芒C、数据重组实现的关键在于多源数据融合和数据集成D、数据重组有利于实现新颖的数据模式创新【正确答案】：A解析：

数据重组将数据库内各数据的相关信息重新组织。32.大数据参考架构的水平轴和垂直轴分别为（）。A、信息（活动）价值链和信息技术价值链B、信息技术价值链和信息（活动）价值链C、信息交互价值链和信息技术价值链D、信息（活动）价值链和信息交互价值链【正确答案】：A解析：

大数据参考架构围绕代表大数据价值链的信息价值链（水平轴）和信息技术价值链（垂直轴）两个维度组织展开。33.下列情景中不属于数据故事化的是（）。A、还原情景B、统计情景C、移植情景D、虚构情景【正确答案】：B解析：

数据的故事化描述（Storytelling）是指为了提升数据的可理解性、可记忆性及可体验性，将数据还原成关联至特定的情景的过程。由此可见，数据故事化也是数据转换的表现形式之一，其本质是以故事讲述的方式展现数据的内容。数据故事化中的情景，可以是：①还原情景：还原数据所计量和记录信息时的原始情景；②移植情景：并非对应信息的原始情景，而是将数据移植到另一个真实发生的情景（如目标用户比较熟悉的情景）之中；③虚构情景：数据的故事化描述中所选择的情景并非为真实存在的情景，而是根据讲述人的想象力设计出来的虚构情景。34.下列不属于数据科学与统计学区别的是（A、数据科学中的数据不仅仅是数值B、数据科学关注的不仅仅是“单一学科”问题，超出了数学、统计学、计算机科学等单一学科的范畴C、数据科学不仅仅是理论研究，也不是纯领域实务知识，它关注和强调的是二者的结合D、数据科学和统计学中的计算一样，仅仅是加减乘除【正确答案】：D解析：

数据科学中的计算并不仅仅是加／减／乘／除等数学计算，而是包括数据的查询、挖掘、洞见、分析、可视化等更多类型的计算。35.数据的可用性取决于（）。A、数据分析B、数据集采C、数据质量D、数据需求【正确答案】：C解析：

略。36.下列关于等距离散化和等频离散化的叙述不正确的是（）。A、等距离散化是将连续型特征的取值区间均匀地划分成多个区间段B、等距离散化对数据离群值不敏感C、等频离散化考虑了区间段中的样本个数，使每个区间段的样本数相同D、等频离散化会将相似的样本划分到不同的区间【正确答案】：B解析：

等距离散化对数据离群值敏感。37.下列关于特征编码的叙述不正确的是（）。A、特征编码是将非数值型特征转换成数值型特征的方法B、数字编码与特征的排序无关C、One-Hot编码中，原始特征有n种取值，转换后就会产生n列新特征D、哑变量编码解决了One-Hot编码中存在线性关系的问题【正确答案】：B解析：

数字编码与特征的排序有关，先出现的优先排序。38.在数据科学项目的活动流程中，主要用于回答“我们用什么方式记录和展现数据结果”问题的是（）。A、数据的获得与管理B、模式／模型的验证和优化C、结果的可视化与文档化D、模式／模型的应用及维护【正确答案】：C解析：

结果的可视化与文档化阶段主要回答的问题是“我们用什么方式记录和展现数据结果”。结果的可视化和文档化分别代表的是数据项目结果的可视化表达和文档化记录（包括故事化描述）。可视化和文档化方式的选择对于数据科学项目的成败，尤其是项目干系人（Stakeholders）的正确理解具有重要意义。39.将观测值分为相同数目的两部分，当统计结果为非对称分布时经常使用的是（)。A、众数B、标准差C、中位数D、均值【正确答案】：C解析：

中位数是指一组数据排序后处于中间位置的变量值。40.在比较模型的拟合效果时，甲、乙、丙三个模型的相关指数R2的值分别约为0.71、0.85、0.90，则拟合效果较好的模型是（）。A、甲B、乙C、丙D、效果一样【正确答案】：C解析：

R2的取值为0～1，越靠近1，拟合效果越好。41.（）反映数据的精细化程度，越细化的数据，价值越高。A、规模B、灵活性C、关联度D、颗粒度【正确答案】：D解析：

颗粒度反映的是数据的精细化程度。42.一般将原始业务数据分为多个部分，用于构建模型的是（)。A、训练集B、测试集C、验证集D、全部数据【正确答案】：A解析：

训练集、测试集和验证集的功能分别为训练（构建）模型、测试模型以及模型选择与超级参数的调优。43.下列关于大数据的分析理念的说法错误的是（）。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追求效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据【正确答案】：D解析：

在大数据的分析理念中，数据规模上强调绝对数据而不是相对数据。44.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是（)。A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样【正确答案】：D解析：

略。45.下列关于数据仓库随时间变化的描述不正确的是（）。A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随时间变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合【正确答案】：C解析：

一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。46.相关关系是一种与函数关系区别的非确定性关系，而相关分析就是研究事物或象之间是否存在这种非确定性关系的统计方法，下列不属于相关性分析方法的()。A、Pearson相关系数B、Spearman秩相关系数C、Kendall相关系数D、傅里叶系数【正确答案】：D解析：

傅里叶系数由Fouriercoefficient翻译而来，有多个中文译名。它是数学分析中的个概念，常常被应用在信号处理领域中。对于任意的周期信号，如果满足一定条件，都可以展开三角函数的线性组合，每个展开项的系数称为傅里叶系数，不能用于解释相关性。47.数据产品的定义是（）。A、数据产品是指能够供给市场，被人们使用和消费，并能满足人们某种需求的任何东西B、数据产品是可以发挥数据价值去辅助用户更优地做决策（甚至行动）的一种产品形式C、数据产品是指为了满足自身的需要，通过科技发明或经验总结而形成的技术D、数据产品是数据科学的结果，创造了新的实物形态和使用价值的产品【正确答案】：B解析：

数据产品是可以发挥数据价值去辅助用户更优地做决策（甚至行动）的一种产品形式。48.已知一组数据的协方差矩阵，下列关于主分量说法的错误的是（）。A、主分量分析的最佳准则是对一组数据按一组正交基分解，在只取相同数量分量的条件下，以均方误差计算截尾误差最小B、在经主分量分解后，协方差矩阵成为对角矩阵C、主分量分析就是K-L变换D、主分量是通过求协方差矩阵的特征值得到【正确答案】：C解析：

K-L变换与PCA变换是不同的概念，PCA的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种。如二阶矩阵、协方差矩阵、总类内离散度矩阵等。当K-L变换矩阵为协方差矩阵时，等同于PCA。49.下列关于数据交易市场的说法错误的是（）。A、数据交易市场是大数据产业发展到一定程度的产物B、商业化的数据交易活动催生了多方参与的第三方数据交易市场C、数据交易市场通过生产、研发和分析数据，为数据交易提供帮助D、数据交易市场是大数据资源化的必然产物【正确答案】：C解析：

数据交易市场不生产数据。50.下列不属于数据脱敏要求的是（）。A、双向性B、单向性C、无残留D、易于实现【正确答案】：A解析：

数据脱敏操作不能停留在简单地将敏感信息屏蔽掉或匿名处理。数据脱敏操作必须满足以下3个要求：单向性、无残留、易于实现。51.下列关于混合模型聚类算法的优、缺点的说法正确的是（）。A、当簇只包含少量数据点或者数据点近似协线性时，混合模型也能很好地处理B、混合模型很难发现不同大小和椭球形状的簇C、混合模型比K均值或模糊C均值更一般，因为它可以使用各种类型的分布D、混合模型在有噪声和离群点时不会存在问题【正确答案】：C解析：

K均值与模糊C均值都是迭代求取最终值的聚类划分，即聚类中心与隶属度值。两者都不能保证找到问题的最优解，都有可能收敛到局部极值。模糊C均值是K均值方法的改进，算法的目标函数与K均值一致，区别在于目标函数中增加了模糊权重指数；GMM高斯混合模型聚类采用了新的判断依据-概率，即通过属于某一类的概率大小来判断最终的归属类别。52.下列不是目前机器学习所面临的问题是（)。A、测试集的规模B、维度灾难C、特征工程D、过拟合【正确答案】：A解析：

目前，机器学习领域所面临的主要挑战包括过拟合（Overfiting）、维度灾难（CurseofDimensionality）、特征工程（FeatureEngineering）、算法的可扩展性（Scalability）和模型集成。53.下列关于在回归分析中解释变量与非解释变量的说法正确的是（）。A、解释变量和被解释变量都是随机变量B、解释变量为非随机变量，被解释变量为随机变量C、解释变量和被解释变量都为非随机变量D、解释变量为随机变量，被解释变量为非随机变量【正确答案】：B解析：

在回归分析中，解释变量可以理解为自变量，具有确定性，因此为非随机变量被解释变量可以理解为因变量，具有随机性，因此为随机变量。54.数据的原始内容及其备份数据是数据产品研发的（)。A、零次数据B、一次数据C、二次数据D、采集数据【正确答案】：A解析：

零次数据是数据的原始内容及其备份数据，如各种感知仪器设备中直接生成的数据。零次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题。55.数据变换的策略包括（）。A、平滑处理、特征构造、聚集、标准化、离散化B、平滑处理、特征构造、聚集、审计、离散化C、平滑处理、聚集、标准化、审计、离散化D、特征构造、聚集、标准化、审计、离散化【正确答案】：A解析：

数据变换的策略不包括审计。56.下列描述中不属于数据安全技术保护与信息系统“三同步”原则的是（）。A、同步规划B、同步建设C、同步使用D、同步运维【正确答案】：D解析：

数据安全技术保护与信息系统包含同步规划、同步建设、同步使用三项原则。57.从数据到智慧的转换依次递进过程是（）。A、数据、知识、信息、理解、智慧B、数据、信息、理解、知识、智慧C、数据、信息、知识、理解、智慧D、数据、理解、信息、知识、智慧【正确答案】：C解析：

DIKW金字塔（DIKWPyramid）模型揭示了数据（Data）与信息（Information）、知识（Knowledge）、智慧（Wisdom）之间的区别与联系，自底向上分别为数据、信息、知识、智慧。58.与其他观测值的差别较大，以至于怀疑它是由不同的机制产生的观测值是（)。A、边界点B、质心C、离群点D、核心点【正确答案】：C解析：

离群点（outlier）是指数值中远离数值的一般水平的极端大值和极端小值。59.数据使用环节的安全技术措施除防火墙、（）、防病毒、防DDOS、漏洞检测等网络安全防护技术措施外，还需实现以下安全技术能力：账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。A、入侵检测B、病毒检测C、程序检测D、进程检测【正确答案】：A解析：

数据使用环节的安全技术措施除防火墙、入侵检测、防病毒、防DDOS、漏洞检测等网络安全防护技术措施外，还需实现以下安全技术能力：账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。60.（）是从（多条）信息中发现的共性规律、模式、模型、理论、方法。A、信息B、数据C、知识D、智慧【正确答案】：C解析：

知识是人们从数据、信息中发现的，在数据／信息中存在的共性规律、认识、经验与常识。通常根据能否清晰地表述和有效地转移，将知识分为显性知识（ExplicitKnowledge）和隐性知识（TacitKnowledge）两种。61.表示数据分布是否为对称性的统计量是（)。A、方差B、中位数C、偏态D、峰态【正确答案】：C解析：

偏态（Skewness）描述数据分布的对称性，当偏态系数等于0时，对应数据的分布为对称；否则分布为非对称。峰态（Kurtosis）描述数据分布的平峰或尖峰程度，当峰态系数等于0时，数据分布为标准正态分布；否则比正态分布更平或更尖。62.某工厂共有100名员工，他们的月工资方差是s，现在给每个员工的月工资增加3000元，那么他们的新工资的方差（）。A、为s＋3000B、小了C、大了D、不变【正确答案】：D解析：

方差用来计算每一个变量（观察值）与总体均数之间的差异。63.数据集成的基本类型是（）。A、内容集成、结构集成B、内容集成、规约集成C、规约集成、结构集成D、模式集成、结构集成【正确答案】：A解析：

数据集成是指通过应用间的数据交换从而达到集成，主要解决数据的分布性和异构性的问题，其前提是被集成应用必须公开数据结构，即必须公开表间结构、表间关系、编码的含义等。64.（）是一个组织机构的数据管理的愿景、目标以及功能蓝图的统一管理。A、数据治理B、数据战略C、数据加工D、数据能力【正确答案】：B解析：

数据战略（DataStrategy）是一个机构的数据管理的愿景、目标以及功能蓝图的统一管理。从DMM模型可看出，数据战略是组织机构的数据管理工作的重要前提。65.下列关于线性回归分析中的残差的说法正确的是（）。A、残差均值总是为零B、残差均值总是约等于零C、残差均值总是大于零D、以上答案都不正确【正确答案】：A解析：

线性回归分析中，目标是残差最小化。残差平方和是关于参数的函数，为了求残差极小值，令残差关于参数的偏导数为零，会得到残差和为零，即残差均值为零。66.（）的本质是将低层次数据转换为高层次数据的过程。A、数据处理B、数据计算C、数据加工D、整齐数据【正确答案】：C解析：

数据加工（DataWrangling或DataMunging）的本质是将低层次数据转换为高层次数据的过程。从加工程度看，数据可以分为零次、一次、二次、三次数据。67.大数据涌现现象的形式有多种，不属于大数据涌现形式的是（）。A、价值涌现B、隐私涌现C、物质涌现D、质量涌现【正确答案】：C解析：

大数据并不等同于小数据的集合。从小数据到大数据的过程中出现了涌现现象，涌现才是大数据的本质特征。涌现（Emergence）就是系统大于元素之和，或者系统在跨越层次时，出现了新的质。大数据涌现现象的具体表现形式有多种，如价值涌现、隐私涌现、质量涌现和安全涌现等。68.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的（不可恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A、暂时隔离B、暂时删除C、永久删除D、不做处理【正确答案】：C解析：

数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永删除、不可恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。69.（）认为，大数据时代的数据管理目标不一定理想和完美，一致性、可用性和分区容错性中的任何两个特征的保证（争取）可能导致另一个特征的损失（放弃）。A、CAP理论BASE原则C、数据一致性理论D、大数据法则【正确答案】：A解析：

CAP理论认为，一个分布式系统不能同时满足一致性（Consistency）、可用性（Availability）和分区容错性（PartitionTolcrancc）等需求，而最多只能同时满足其中的两个特征。CAP理论告诉我们，数据管理不一定是理想的-一致性、可用性和分区容错性中的任何两个特征的保证（争取）可能导致另一个特征的损失（放弃）。70.下列关于数据转换的说法正确的是（）。A、Json内的取值只能有统一格式B、PDF文件在不同平台上打开显示不同C、可以通过Python将CSV文件转换成Excel格式D、Excel存储数据的量无限制【正确答案】：C解析：

Json内的取值可以有多种格式，PDF文件在不同平台上打开显示相同，Excel存储数据的量在Excel2007及以后版本，一个工作表最多可有1048576行、16384列。71.集群的最主要“瓶颈”通常是（）。A、CPUB、网络C、磁盘I／OD、内存【正确答案】：C解析：

磁盘I／O是不可扩充的，其他的可以扩充。72.数据资产维护是指为保证数据质量，对数据进行（）等处理的过程。A、更正B、删除C、补充录入D、以上答案都正确【正确答案】：D解析：

数据资产维护是指为保证数据质量，对数据进行更正、删除、补充录入等处理的过程。73.大数据的“4V”特性不包括（）。A、VolumeB、VelocityC、VisualD、Variety【正确答案】：C解析：

通常，用“4V”来表示大数据的基本特征：Volume（数据量大）、Variety（类型多）、Value（价值高）、Velocity（速度快）。74.下列关于数据的描述错误的是（）。A、数据化与数字化是两个不同概念B、数据与数值是一个概念C、大数据与海量数据是两个不同的概念D、数据和信息是两个不同的概念【正确答案】：B解析：

除了数值，数据科学中的数据还包括文字、图形、图像、动画、文本、语音、视频、多媒体和富媒体等多种类型。75.关系云的一个重要功能是提供（）。A、数据库即服务B、虚拟服务C、弹性计算D、按需服务【正确答案】：A解析：

关系云的一个重要功能是提供数据库即服务（DatabaseasaService），用户无须在本机安装数据库管理软件，也不需要搭建自己的数据管理集群，而只需要使用服务提供商提供的数据库服务。76.离散程度的测度值愈大，则（）。A、反映变量值愈分散，算术平均数代表性愈差B、反映变量值愈集中，算术平均数代表性愈差C、反映变量值愈分散，算术平均数代表性愈好D、反映变量值愈集中，算术平均数代表性愈好【正确答案】：A解析：

离散程度的测度值愈大，则反映变量值愈分散，算术平均数代表性愈差。77.有研究发现“页面的显示速度每延迟1s，网站访问量就会降低11％，从而导致营业额或者注册量减少7％，顾客满意度下降16％”。该项研究表明了在数据产品开发中更加重要的是（）。A、查全率B、用户体验C、数据可视化D、查准率【正确答案】：B解析：

在大数据时代，用户体验更加重要。78.（）是指理解挖掘项目的目标业务需求。A、业务理解B、数据理解C、数据准备D、数据建模【正确答案】：A解析：

根据跨行业数据挖掘标准流程（cross-industrystandardprocessfordatamining，CRISP-DM）模型，业务理解是指从业务的角度了解项目的要求和最终目的，并将这些目的与数据挖掘的定义以及结果结合起来。79.下列不属于大数据重要意义的是（）。A、大数据成为推动经济转型发展的新动力B、大数据成为重塑国家竞争优势的新机遇C、大数据成为提升政府治理能力的新途径D、大数据会增加经济发展的成本【正确答案】：D解析：

大数据可以促进经济的发展，催生新的业态，在辅助商业决策、降低运营成本、精准市场的营销方面都能发挥作用，进一步提升企业竞争力。80.下列关于数据创新的说法正确的是（）。A、多个数据集的总和价值等于单个数据集价值相加B、由于数据的再利用，数据应该永久保存下去C、相同数据多次用于相同或类似用途，其有效性会降低D、数据只有开放价值才可以得到真正释放【正确答案】：D解析：

略。81.下列判断错误的是（）。A、XML数据属于半结构化数据B、JSON文件属于非结构化数据C、PPT文件属于非结构化数据D、音视频文件属于非结构化数据【正确答案】：B解析：

JSON文件属于半结构化数据。82.下列关于缺失值的说法错误的是（）。A、可以利用统计量对缺失值进行填补B、可以利用K近邻值对缺失值进行填补C、只要有缺失值就必须把对应记录删除D、对于缺失值较多的属性可以考虑删除【正确答案】：C解析：

缺失值可以通过删除、填补等方法进行处理。83.具有体量大、来源多样、生成极快和多变等特征并且难以用传统数据体系机构有效处理的包含大量数据集的数据是（）。A、海量数据B、大数据C、厚数据D、异构数据【正确答案】：B解析：

GB／T35295-2017《信息技术／大数据／术语》认为，大数据是具有体量大、来源多样、生成极快、多变等特征，并且难以用传统数据体系机构有效处理的包含大量数据集的数据。84.异常检测中，检测一元正态分布中的离群点基于的技术是（)。A、统计方法B、邻近度C、密度D、机器学习技术【正确答案】：A解析：

略。85.将原始数据进行集成、变换、维度规约、数值规约是下列步骤中（）的任务。A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘【正确答案】：C解析：

数据预处理是对原始数据进行集成、变换、维度规约、数值规约的过程。频繁模式挖掘、分类和预测和数据流挖掘均属于数据挖掘范畴。86.下列不属于大数据平台安全管理组件提供的功能的是（）。A、接口代理B、接口认证C、接口授权D、路由代理【正确答案】：D解析：

接口可以对用户的身份和请求的参数进行验证，以保证接口的安全。通过添加身份验证和数字签名的方法提高接口安全性，防止数据被篡改和信息泄露。87.下列关于数据科学的描述错误的是（）。A、数据科学中的数据不仅仅是数值，也不等同于数值B、数据科学中的计算包括数据的查询、挖掘、洞见等C、数据科学强调的是跨学科视角D、数据科学不包括理论知识，只包括领域实务经验【正确答案】：D解析：

数据科学既包括理论知识，又包括领域实务经验。88.数据管理成熟度模型-DMM将一个机构的数据管理工作抽象成6个关键过程域，即数据战略、（）、数据质量、平台与架构、数据操作以及辅助性过程。A、数据管理B、数据治理C、数据策略D、数据安全【正确答案】：B解析：

DMM模型将一个机构的数据管理工作抽象成6个关键过程域，即数据战略、数据治理、数据质量、平台与架构、数据操作以及辅助性过程。89.下列关于误差的说法正确的是（）。A、训练样本容量增加，泛化误差也会增加B、过拟合指数据在训练集上的误差过大C、过拟合可以通过减少模型参数数量解决D、交叉验证不重复使用数据【正确答案】：C解析：

解决过拟合的两条主线：一是增大数据集；二是降低模型的复杂度（根据VC维理论可知），如减少模型参数数量。90.下列关于可视化方法体系的说法不正确的是（）。A、通常采用视觉图形元素和视觉通道两个维度进行视觉编码B、常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等C、领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用D、视觉编码为其他数据可视化方法提供了方法学基础【正确答案】：C解析：

领域方法在所属领域内其可视化的信度和效果高于基础方法的直接应用。91.下列关于OLAP的特性的描述：①快速性；②可分析性；③多维性；④信息性；⑤共享性。正确的是（）。A、①②③B、②③④C、①②③④D、①②③④⑤【正确答案】：D解析：

OLAP具有快速性、可分析性、多维性、信息性、共享性等特性。92.目前，多数NoSQL数据库是针对特定应用场景研发出来的，其设计遵循（）原则，更强调读写效率、数据容量以及系统可扩展性。A、EASYB、READC、BASED、BASIC【正确答案】：C解析：

BASE原则是BasicallyAvailable（基本可用）、SoftState（柔性状态）和EventuallyConsistent（最终一致）的缩写。BasicallyAvailable是指可以容忍系统的短期不可用，并不追求全天候服务；SoftState是指不要求一直保持强一致状态；EventuallyConsistent是指最终数据一致，而不是严格的实时一致，系统在某一个时刻后达到一致性要求即可。93.下列关于数据清洗的说法不正确的是（）。A、对单数据源，主键取值不能重复B、多数据源会存在数据重复、单位不一致的问题C、连续型数据不存在冗余问题D、缺失值可以采用删除和填补等方法处理【正确答案】：C解析：

连续型数据可能存在冗余问题。94.下列不属于现阶段的大数据技术体系主要类型的是（）。A、数据源与AppB、基础设施C、HadoopD、数据资源【正确答案】：C解析：

Speechpad的联合创始人DaveFeinleib于2012年发布大数据产业全景图（BigDataLandscape），首次较为全面地刻画了当时快速发展中的大数据技术体系。后来，该图及其画法成为大数据和数据科学的重要分析工具，得到广泛地应用和不断地更新。MattTurck等组织绘制了2017大数据产业全景图（BigDataLandscape2017）。从2017人数据产业全景图看，现阶段的大数据技术体系主要类型包括数据资源、数据源与App、开源工具、跨平台基础设施和分析工具、行业应用、企业应用、基础设施和分析工具。95.大数据是指不用随机分析法这样的捷径，而采用（)。A、所有数据B、部分数据C、少量数据D、抽样数据【正确答案】：A解析：

大数据的一种表现形式为接近其总体的所有数据。96.第一数字定律中使用概率最大的数字是（）。A、0B、1C、2D、3【正确答案】：B解析：

第一数字定律表示，数字1使用最多，使用概率接近1／3；数字2为17.6％；数字3为12.5％；依次递减，数字9的使用概率是4.6％。97.下列不是开源工具特点的是（）。A、免费B、可以直接获取源代码C、用户可以修改源代码并不加说明用于自己的软件中D、开源工具一样具有版权【正确答案】：C解析：

延伸的代码中（修改和有源代码衍生的代码中）需要带有原来代码中的协议、商标、专利声明和其他原来作者规定需要包含的说明。如果再发布的产品中包含一个Notice文件，则在Notice文件中需要带有开源工具的Licence。你可以在Notice中增加自己的许可，但不可以表现为对开源工具Licence构成更改。98.下列不属于数据预处理方法的是（）。A、数据清洗B、数据集成C、数据变换D、数据统计【正确答案】：D解析：

数据统计并非为数据预处理的常见内容。99.（）是实现数据战略的重要保障。A、数据管理B、数据分析C、数据治理D、数据规划【正确答案】：C解析：

从DMM模型可以看出，数据治理是实现数据战略的重要保障。数据管理指通过管理数据实现组织机构的某种业务目的。然而，数据治理则指如何确保数据管理顺利、有效、科学地完成。100.下列不属于视觉通道表现力评价指标的是（）。A、精确性B、可辨认性C、可分离性D、可转换性【正确答案】：D解析：

在数据来源和目标用户已定的情况下，不同视觉通道的表现力不同。视觉通道表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。1.在建立模型时，需要用到的数据有（）。A、训练数据B、测试数据C、原始数据D、验证数据【正确答案】：ABD解析：

在机器学习中，通常将数据分为训练集、测试集和验证集。2.在数据科学中，通常可以采用（）有效避免数据加工和数据备份的偏见。A／B测试B、训练集和测试集的划分C、测试集和验证集的划分D、图灵测试【正确答案】：A解析：

A／B测试是一种对比试验，准确说是一种分离式组间试验，在试验过程中，我们从总体中随机抽取一些样本进行数据统计，进而得出对总体参数的多个评估。A／B测试能有效避免数据加工和数据备份的偏见，对算法／模型选择偏见具有重要借鉴意义。3.噪声是指测量变量中的随机错误或偏差，噪声数据的主要表现形式有（）。A、错误数据B、假数据C、异常数据D、僵尸数据【正确答案】：ABC解析：

错误数据、假数据、异常数据在测量变量中多被定义为噪声。4.在网络爬虫的爬行策略中，应用最为常见的有（）。A、深度优先遇历策略B、广度优先遍历策略C、高度优先遍历策略D、反向链接策略E、大站优先策略【正确答案】：AB解析：

在网络爬虫的爬行策略中，应用最为常见的是深度优先遍历策略、广度优先遍历策略。5.数据从产生到终结共包含的环节有（）。A、数据产生B、数据传输C、数据使用D、数据共享E、数据销毁【正确答案】：ABCDE解析：

数据的全寿命周期有获取（产生）、存储、共享、维护、应用（使用）、消亡（销毁），在以上这些过程都会有数据传输过程。6.下列描述中正确的有（）。A、统计学是数据科学的理论基础之一B、Python语言是统计学家发明的语言C、机器学习是数据科学的理论基础之一D、数据科学是统计学的一个分支领域（子学科）【正确答案】：AC解析：

Python发明者是GuidoVanRossum，并非为统计学家；数据科学是一门独立学科，已经超出了统计学一个学科的研究范畴，并非为统计学的一个分支。7.下列关于数据科学中常用统计学知识的说法错误的有（）。A、从行为目的与思维方式看，数据统计方法可以分为基本分析方法和元分析方法B、从方法论角度看，基于统计的数据分析方法又可分为描述统计和推断统计C、描述统计可分为集中趋势分析、离散趋势分析、参数估计和假设检验D、推断统计包括采样分布和相关分析【正确答案】：ABCD解析：

从行为目的与思维方式看，数据统计方法包括描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析等；从方法论角度看，描述统计可分为集中趋势分析和离散趋势分析；推断统计包括总体参数估计和假设检验两方面内容。8.下列关于数据流转和应用的说法正确的有（）。A、数据流转和应用过程中应确保可追溯、可复查B、前序环节应保证数据的真实、完整C、前序环节应及时传递到后序环节D、前后环节数据应保持衔接一致【正确答案】：ABCD解析：

数据流转和应用主要包括可追溯、可复查，数据真实、完整，环节衔接完整，环节衔接数据一致。9.下列关于探索型数据分析常用图表的说法正确的有（）。A、绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B、探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C、在探索型数据分析时应该尽量避免使用饼图，然而在数据报告中可以使用饼图达到更加美观的效果D、直方图和箱型图都可以用来展示数据的分布情况【正确答案】：BCD解析：

数据之间的特征和对比使用条形图可更加直观地展示数据。10.在数据科学中，计算模式发生了根本性的变化-从集中式计算、分布式计算、网格计算等传统计算过渡至云计算，有一定的代表性的是Google云计算三大技术，这三大技术包括（）。A、HadoopYRN资源管理器B、GFS分布式存储系统C、MapRedue分布式处理技术D、BigTable分布式数据库【正确答案】：BCD解析：

Goolge于2003～2008年间发表的3篇论文在云计算和大数据技术领域产生了深远影响，被称为Google云计算三大技术或三大论文：①GFS论文--GhemawatS，GobiofH.LeungST.TheGooglefilesystem[C].ACMSIGOPSoperatingsystemsreview.ACM,2003,37(5);29-43．；②MapReduce论文DeanJ，GhemawatS．MapReduce：simplifieddataprocessingonlargeclusters［J］．CommunicationsoftheACM，2008,51（1）：107-113．；③Bigtable论文--ChangF．DeanJ,GhemawatS,etal.Bigtable:Adistributedstoragesystemforstructureddata[].ACMTransactionsonComputerSystems(TOCS),2008,26(2):4.。11.数据安全不仅包括数据保密性，还包括（)。A、完整性B、可用性C、不可否认性D、可审计性【正确答案】：ABCD解析：

数据安全不等同于数据保密。通常，除了数据保密--数据的机密也（Confidentiality）之外，数据安全还包括完整性（Integrity）、可用性（Availability）、不可否认性（Non-repudiation）、鉴别（Authentication）、可审计性（Accountability）和可靠姓（Reliability）等多个维度。12.已定义级（DefinedLevel）的主要特点包括（）。A、组织机构已明确给出了关键过程的标准定义，并定期对其进行改进B、已提供了关键过程的测量与预测方法C、关键过程的执行过程并不是简单或死板地执行组织机构给出的标准定义，而是根据具体业务进行了一定的裁剪工作D、数据的重要性已成为组织机构层次的共识，将数据当作成功实现组织机构使命的关键因素之一【正确答案】：ABCD解析：

DMM的已定义级（DefinedLevel）：组织机构已经定义了自己的标准关键过程。其主要特点如下：①组织机构已明确给出了关键过程的标准定义，并定期对其进行改进；②已提供了关键过程的测量与预测方法；③关键过程的执行过程并不是简单或死板地执行组织机构给出的标准定义，而是根据具体业务进行了一定的裁剪工作；④数据的重要性已成为组织机构层次的共识，将数据当作成功实现组织机构使命的关键因素之一。13.假设检验中，首先需要提出零假设和备择假设，下列关于零假设和备择假设的描述正确的有（）。A、零假设是只有出现的概率大于阈值才会被拒绝的；备择假设是只有零假设出现的概率大于阈值才会被承认的B、零假设是希望推翻的结论；备择假设是希望证明的结论C、零假设是只有出现的概率小于阈值才会被拒绝的；备择假设是只有零假设出现的概率小于阈值才会被承认的D、零假设是希望证明的结论；备择假设是希望推翻的结论【正确答案】：BC解析：

略14.下列属于大数据的资产属性体现的方面有（）。A、具有劳动增值B、涉及法律权属C、具有财务价值D、涉及道德与伦理【正确答案】：ABCD解析：

大数据的资产属性体现在具有劳动增值、涉及法律权属、具有财务价值、涉及道德与伦理。15.下列关于降维说法正确的有（）。A、PA是根据方差这一属性降维的B、降维可以防止模型过拟合C、降维降低了数据集特征的维度D、降维方法有PLA等【正确答案】：ACD解析：

降维不能用于防止模型过拟合。16.下列关于数据维度的描述正确的有（）。A、采用列表表示一维数据，不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据【正确答案】：ABC解析：

字典可以表示二维以上的高维数据。17.特征工程一般需要做的工作包含（）。A、正则化B、标准化C、特征处理D、特征选择【正确答案】：CD解析：

特征工程包括特征选择、特征处理、特征变换、特征衍生等。18.NoSQL数据库常用的数据模型包括（）。A、Key-ValueB、Key-DocumentC、Key-ColumnD、图存储【正确答案】：ABCD解析：

NoSQL数据库常用的数据模型包括Key-Value、Key-Document、Key-Column、存储。19.列式数据库（如BigTable和HBase）以表的形式存储数据，表结构包含的元素有（）。A、关键字B、时间戳C、列簇D、数据类型【正确答案】：ABC解析：

BigTable和HBase的索引由行关键字、列簇和时间戳组成。20.主要用来实现实时计算类应用的组件有（）。A、流计算组件B、内存计算组件C、MPP数据库D、Hadoop的后台定时分析计算任务【正确答案】：AB解析：

实时计算类应用主要通过流计算组件、内存计算组件来实现。21.数据科学以数据尤其是大数据为研究对象，主要研究内容包括（）。A、数据加工B、数据管理C、数据计算D、数据产品开发【正确答案】：ABCD解析：

数据科学是一门以数据，尤其是大数据为研究对象，并以数据统计、机器学习、数据可视化等为理论基础，主要研究数据加工、数据管理、数据计算、数据产品开发等活动的交叉性学科。22.DGI定义的数据治理任务包括（)。A、数据质量的评估B、主动定义或序化规则C、为数据利益相关者提供持续跨职能的保护与服务D、应对并解决因不遵守规则而产生的问题【正确答案】：BCD解析：

DGI（TheDataGovemanceInstitute）认为数据治理是对数据相关的决策及数据使用权限控制的活动。它是一个信息处理过程中根据模型来执行的决策权和承担责任的系统，规定了谁可以在什么情况下对哪些信息做怎样的处理。23.在假设检验中，当原假设为伪，但数据分析人员没有拒绝它时犯的错误叫（)。A、a错误B、β错误C、取伪错误D、弃真错误【正确答案】：BC解析：

a错误（弃真错误）：当原假设为真时，但我们错误地认为“原偶的”，进而导致拒绝这个正确假设；β错误（取伪错误）：当原假设为假时，但我们错误地认为“原假设是成立的”，进而导致接受此错误假设。24.下列关于单样本Z检验的说法正确的有（）。A、在Python中，单样本Z检验可以使用scipy．stats．ttest＿1samp（）实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量（近似）满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量【正确答案】：BCD解析：

在Python中，单样本Z检验可以使用statsmodels.stats.weightstats.ztest实现。25.数据管理包含的管理活动有（）。A、识别B、度量C、监拉D、预警【正确答案】：ABCD解析：

数据管理指对数据生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控以及预警等一系列管理活动，并通过改善和提高组织的管理水平是的数据质量获得进一步提高。26.下列属于数据统计分析工具的有（）。A、WekaB、SASC、SPSSD、Matlab【正确答案】：ABCD解析：

常用统计软件的种类包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。27.噪声数据的产生原因主要有（）。A、数据采集设备有问题B、在数据录入过程中发生了人为或计算机错误C、数据传输过程中发生错误D、由于命名规则或数据代码不同而引起的不一致【正确答案】：ABCD解析：

噪声数据的产生原因主要有数据采集设备有问题、在数据录入过程中发生了人为或计算机错误、数据传输过程中发生错误、由于命名规则或数据代码不同而引起的不一致。28.大数据偏见包括（）。A、数据源的选择偏见B、算法与模型偏见C、结果解读方法的偏见D、数据呈现方式的偏见【正确答案】：ABCD解析：

大数据偏见是数据科学项目中必须关注和加以避免的问题，上述四个活动中均可能出现偏见。29.下列既可以用于分类，又可以用于回归的机器学习算法有（）。A、k近邻B、逻辑回归C、决策树D、线性回归【正确答案】：AC解析：

逻辑回归只用于分类，线性回归只用于回归。30.下列为RDBMS中事务遵循原则的有（）。A、原子性（Atomicity）B、一致性（Consistency）C、隔离性（Isolation）D、持久性（Durability）【正确答案】：ABCD解析：

关系数据库中的事务需要具备一定的规则-ACID特征。ACID是指数据库事务正确执行的4个基本要素的缩写：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）。31.下列关于中心极限定理的说法正确的有（）。A、中心极限定理说明，对于大量相互独立的随机变量，其均值的分布以正态分布为极限B、中心极限定理说明，对于大量相互独立的随机变量，其均值的分布以t分布为极限C、中心极限定理为Z检验提供了理论支持D、中心极限定理是数理统计学和误差分析的基础【正确答案】：ACD解析：

中心极限定理说明，对于大量相互独立的随机变量，其均值的分布以正态分布为极限。32.在数据安全领域常用的P2DR模型中，P、D和R代表的是（）。A、策略B、防护C、检测D、响应【正确答案】：ABCD解析：

P2DR模型是美国ISS公司提出的一种动态网络安全体系，认为网络安全是一种动态的、有条件的相对安全。P2DR模型包括四个主要部分：Policy（策略）、Protection（防护）、Detection（检测）和Response（响应）。其中，安全策略处于核心地位，为其他三个组成部分提供支持和指导，而保护、检测和响应为网络安全的三个基本活动。33.数据来源和目标用户已定的情况下，不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括（）。A、精确性B、可辨认性C、可分离性D、视觉突出性【正确答案】：ABCD解析：

在数据来源和目标用户已定的情况下，不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。评价指标描述如下：①精确性代表的是人类感知系统对于可视化编码结果和原始数据之间的吻合程度。斯坦福大学Mackinlay曾于1986年提出了不同视觉通道所表示信息的精确性。②可辨认性是指视觉通道的可辨认度。③可分离性是指同一个视觉图形元素的不同视觉通道的表现力之间应具备一定的独立性。④视觉突出性是指视觉编码结果能否在很短的时间内（如毫秒级）能够迅速准确表达出可视化编码的主要意图。34.下列描述中属于Analytics2.0主要特点的有（）。A、侧重嵌入式分析B、重视非结构化数据的分析C、以决策支持为主要目的D、注重解释性分析和预测性分析【正确答案】：BCD解析：

著名管理学家Thomas·H·Davernport于2013年在《哈佛商业论坛（HarvardBusinessReview）》上发表一篇题为《第三代分析学（Analytics3.0）》的论文，将数据分析的方法、技术和工具-分析学（Analytics）分为三个不同时代-商务智能时代、大数据时代和数据富足供给时代，即Analytics1.0、Analytics2.0和Analytics3.0。其中，Analytics2.0的主要特点有分析活动与数据的生成几乎同步，强调数据分析的实时性；重视非结构化数据的分析；以决策支持为主要目的；注重解释性分析和预测性分析。35.区块链是（）等计算机技术的新型应用模式。A、分布式数据存储B、点对点传输C、共识机制D、加密算法【正确答案】：ABCD解析：

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。36.下列关于连续型随机变量以及连续型概率密度函数的说法正确的有（）。A、一个客服一天可能接听到多少个电话是一个连续型随机变量B、正态分布是一种连续型随机变量的概率分布C、可以使用概率密度函数来描述连续型随机变量的概率分布D、连续型概率密度函数曲线下方的面积之和为1【正确答案】：BCD解析：

一个客服一天可能接听到多少个电话是一个离散型随机变量。37.下列描述中属于特征选择的优点有（）。A、解决模型自身的缺陷B、减少过拟合C、提升模型的性能D、增强模型的泛化能力【正确答案】：BCD解析：

特征选择无法克服模型自身的缺陷，二者是独立的。38.可视分析学是一门以可视交互为基础，综合运用（）等技术等多个学科领域的知识，以实现人机协同完成可视化任务为主要目的的分析推理学科。A、物理学B、图形学C、数据挖掘D、人机交互【正确答案】：BCD解析：

可视分析学（VisualAnalytics）；科学可视化和信息可视化理论的进一步演变以及与其他学科相互交融发展之后的结果。在数据科学中，通常采用数据可视化的广义定义方法，并以可视分析学为主要理论基础。39.使用极大似然估计的前提条件有（）。A、数据服从某种已知的特定数据分布型B、已经得到了一部分数据集C、提前已知某先验概率D、数据集各个属性相对独立【正确答案】：AB解析：

极大似然估计（MLE）要求样本独立同分布，否则无法用概率密度函数乘积的形式。假设的分布与真实的分布要一致，否则会南辕北辙。如果对总体分布一无所知是无法使用MLE的。40.下列关于分析学习和归纳学习的比较的说法正确的有（）。A、归纳学习拟合数据假设，分析学习拟合领域理论的假设B、归纳学习论证方式为统计推理，分析学习为演绎推理C、归纳学习不需要先验知识D、训练数据不足时归纳学习可能会失败【正确答案】：ABCD解析：

分析学习是相对于归纳学习的一种提法，其特点是使用先验知识来分析或解释每个训练样本，以推理出样本的哪些特征与目标函数相关或不相关。因此，这些解释能使机器学习系统比单独依靠数据进行泛化有更高的精度。分析学习使用先验知识来减小待搜索假设空间的复杂度，减小了样本复杂度并提高了机器学习系统的泛化精度。可见，分析学习与归纳学习的优缺点在一定程度上具有互补性，分析学习方法的优点在于可用先验知识从较少的数据中更精确地泛化以引导学习。但是，当先验知识不正确或不足时，分析学习的缺点也会被突显；归纳学习具有的优点是不需要显式的先验知识，并且主要基于训练数据学习到规律。然而，若训练数据不足时它能会失败，并且会被其中隐式的归纳偏置所误导，而归纳偏置是从观察数据中泛化所必需的过程。因此，我们可以考虑如何将二者结合成一个单独的算法，以获得它们各自的优点。41.分布式列式存储的功能有（）。A、支持在线快速读写B、支持线性扩展C、具备节点监控管理D、数据同源不压缩【正确答案】：ABC解析：

分布式列式存储的功能包括数据压缩。42.下列说法中正确的有（）。A、云计算的主要特点是非常昂贵B、大数据是多源、异构、动态的复杂数据，即具有4V特征的数据C、大数据是数据科学的研究对象之一D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件（或算法）【正确答案】：BCD解析：

云计算的一个重要优势在于其经济性。与其他计算模式不同的是，云计算的出发点是如何使用成本低的商用机（而不是成本很高的高性能服务器）实现强大的计算能力。43.数据科学基本原则中，“三世界”原则指的是（）。A、精神世界B、数据世界C、物理世界D、数字世界【正确答案】：ABC解析：

大数据时代的到来，在我们的精神世界和物理世界之间出现了一种新的世界-数据世界。因此，在数据科学中，通常需要研究如何运用数据世界中已存在的痕迹数据的方式解决物理世界中的具体问题，而不是直接到物理世界，采用问卷和访谈等方法亲自收集采访数据。相对于采访数据，痕迹数据更具有客观性。图灵奖获得者JimGray提出的科学研究第四范式-数据密集型科学发现（Data-intensiveScientificDiscovery）是“三世界”原则的代表性理论之一。44.下列关于随机变量及其概率分布的说法正确的有（）。A、随机变量可以分为离散型随机变量和连续型随机变量B、随机变量的概率分布指的是一个随机变量所有取值的可能性C、扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5，其中正面朝上次数为0与正面朝上次数为5的概率是一样的D、扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5，其中正面朝上次数为5的概率是最大的【正确答案】：ABC解析：

扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5，其中正面朝上次数为5的概率不是最大的。45.下列为离散型变量的有（）。A、示波器B、心电图及脑动电图扫描器对脑电波的测量C、过去数月的总销售额D、公司每年的红利【正确答案】：CD解析：

在统计学中，变量按其数值表现是否连续，分为连续变量和离散变量。离散变量指变量值可以按一定顺序一一列举，通常以整数位取值的变量，如职工人数、工厂数、机器台数等。有些性质上属于连续变量的现象也按整数取值，即可以把它们当做离散变量来看待。例如年龄、评定成绩等虽属连续变量，但一般按整数计算，按离散变量来处理。离散变量的数值用计数的方法取得。46.以数据为中心是数据产品区别于其他类型产品的本质特征，表现方面有（）。A、数据驱动B、数据密集型C、数据范式D、数据可视化【正确答案】：ABC解析：

以数据为中心是数据产品区别于其他类型产品的本质特征。数据产品的以数据中心的特征不仅体现在以数据为核心生产要素，而且还主要表现在数据驱动、数据密集和数据范式。47.下列关于现阶段大数据技术体系的说法正确的有（）。A、基础设施提供数据计算、数据存储、数据加工（DataWrangling或DataMunging）等服务B、数据流处理、统计工具、日志分析都属于常用的开源工具C、数据资源代表的是生成数据的机构D、数据源与App为数据科学和大数据产业生态系统提供数据内容【正确答案】：ABCD解析：

Speechpad的联合创始人DaveFeinleib于2012年发布大数据产业全景图（BigDataLandscape），首次较为全面地刻画了当时快速发展中的大数据技术体系。后来，该图及其画法成为大数据和数据科学的重要分析工具，得到了广泛应用和不断更新。MattTurck等组织绘制了2017大数据产业全景图（BigDataLandscape2017）。从2017大数据产业全景图看，现阶段的大数据技术体系主要类型包括数据资源、数据源与App、开源工具、跨平台基础设施和分析工具、行业应用、企业应用、基础设施和分析工具。48.下列关于数据产品研发的说法错误的有（）。A、从加工程度看，可以将数据分为一次数据、二次数据和三次数据B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C、二次数据是对一次数据进行深度处理或分析后得到的增值数据D、三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的洞见数据【正确答案】：ABD解析：

二次数据是一种按照信息的生产过程和加工深度进行对信息

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据题库-数据理论基础练习卷附答案

文档简介

温馨提示

最新文档

评论

大数据题库-数据理论基础练习卷附答案

文档简介

温馨提示

最新文档

评论

相关文档