大数据题库-数据理论基础复习测试卷附答案

上传人：喝*** IP属地：广西上传时间：2023-12-27 格式：DOC 页数：57 大小：89.52KB 积分：20 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第页大数据题库-数据理论基础复习测试卷附答案1.下列关于在回归分析中解释变量与非解释变量的说法正确的是（）。A、解释变量和被解释变量都是随机变量B、解释变量为非随机变量，被解释变量为随机变量C、解释变量和被解释变量都为非随机变量D、解释变量为随机变量，被解释变量为非随机变量【正确答案】：B解析：

在回归分析中，解释变量可以理解为自变量，具有确定性，因此为非随机变量被解释变量可以理解为因变量，具有随机性，因此为随机变量。2.下列不能作为数据科学数据源的是（）。A、医院里的病历、检查、诊断等与健康相关的数据B、物联网中涉及设备运行情况的日志数据C、金融领域客户的借款记录以及信用情况D、个人电脑中用于备忘的日记【正确答案】：D解析：

数据科学数据源的前提条件是数据需要具备规律性、周期性等特征，个人电脑中用于备忘的日记一般不具备规律性。3.下列不是NoSQL数据库的是（）。A、MongoDBBigTableC、HBaseD、Access【正确答案】：D解析：

NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统。典型的NoSQL产品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其开源系统HBasc、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。4.下列关于数据整合和分组的说法不正确的是（）。A、数据连接可以用concat或merge函数B、axiis=11表示轴向连接C、数据分组可以使用mean函数D、使用agg可以自定义多个聚合函数【正确答案】：C解析：

数据分组不可以使用mcan函数，mean函数为求平均数函数。5.对于数据3,3,2,3,6,3,10,3,6,3,2，得出以下结论：①这组数据的众数是3；②这组数据的众数与中位数的数值不相等；③这组数据的中位数与平均数的数值不相等；④这组数据的平均数与众数的数值相等。其中结论正确的个数为（）。A、1B、2C、3D、4【正确答案】：B解析：

众数是指一组数据中出现最多的变量值；中位数是指一组数据排序后处于中间位置的变量值；均值是各数值加总求和再除以总的个数。此题中众数为3，中位数为3，平均值为4，故①和③正确。6.下列描述中不属于向量空间模型缺陷的是（）。A、维度灾难B、模型稀疏性C、语义信息缺失D、无法计算文本相似度【正确答案】：D解析：

无法计算文本相似度的原因有出现新词在向量模型中没有该词汇或分词工具对于词汇切分与上次不同等其他原因。7.下列关于数据仓库最终目的的描述正确的是（）。A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持【正确答案】：D解析：

数据仓库的最终目的是为用户和业务部门提供决策支持。8.与其他观测值的差别较大，以至于怀疑它是由不同的机制产生的观测值是（)。A、边界点B、质心C、离群点D、核心点【正确答案】：C解析：

离群点（outlier）是指数值中远离数值的一般水平的极端大值和极端小值。9.下列关于基本元数据描述正确的是（）。A、基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息【正确答案】：D解析：

基本元数据（Metadata）又称中介数据、中继数据，为描述数据的数据（dataaboutdata)。10.数据管理成熟度模型中成熟度等级最高的是（）。A、已优化级B、已测量级C、已定义级D、已管理级【正确答案】：A解析：

已优化是数据管理成熟度模型中成熟度的最高等级。11.下列关于数据仓库开发特点的描述不正确的是（）。A、数据仓库开发要从数据出发B、数据仓库使用的需求在开发初期就要明确C、数据仓库的开发是一个不断循环的过程，是启发式的开发D、在数据仓库环境中，并不存在操作型环境中所固定的和较确切的处理流，数据仓库中数据分析和处理更灵活，且没有固定的模式【正确答案】：A解析：

数据仓库开发要从需求出发。12.下列描述中属于DMM（数据管理成熟度模型）中的关键过程域数据战略的是（）。A、数据战略制定B、业务术语表C、数据质量评估D、过程质量保障【正确答案】：A解析：

数据战略制定属于DMM（数据管理成熟度模型）中的关键过程域“数据战略”。13.下列关于OLAP的特性的描述：①快速性；②可分析性；③多维性；④信息性；⑤共享性。正确的是（）。A、①②③B、②③④C、①②③④D、①②③④⑤【正确答案】：D解析：

OLAP具有快速性、可分析性、多维性、信息性、共享性等特性。14.一切皆可连，任何数据之间逻辑上都有可能存在联系，这体现了大数据思维维度中的（）。A、定量思维B、相关思维C、因果思维D、检验思维【正确答案】：B解析：

《我们的大数据时代》一书认为一切皆可连，任何数据之间逻辑上都有可能存在联系，这体现了大数据思维维度中的相关思维。15.下列不是目前机器学习所面临的问题是（)。A、测试集的规模B、维度灾难C、特征工程D、过拟合【正确答案】：A解析：

目前，机器学习领域所面临的主要挑战包括过拟合（Overfiting）、维度灾难（CurseofDimensionality）、特征工程（FeatureEngineering）、算法的可扩展性（Scalability）和模型集成。16.数据管理成熟度模型-DMM将一个机构的数据管理工作抽象成6个关键过程域，即数据战略、（）、数据质量、平台与架构、数据操作以及辅助性过程。A、数据管理B、数据治理C、数据策略D、数据安全【正确答案】：B解析：

DMM模型将一个机构的数据管理工作抽象成6个关键过程域，即数据战略、数据治理、数据质量、平台与架构、数据操作以及辅助性过程。17.下列关于数据相关性的说法错误的是（）。A、相关性体现了大数据的灵魂B、相关性思维实现了从“为什么”到“是什么”的思维转变C、相关性关注事物的因果关系D、相关性关注事物的相关关系【正确答案】：C解析：

相关性是指两个变量的关联程度，可以有正相关、负相关、不相关。18.下列关于数据产品开发关键环节的描述正确的是（）。A、数据收集B、数据预处理C、数据学习D、数据加工【正确答案】：D解析：

数据加工（DataWrangling或DataMunging）是数据产品开发的关键环节。19.下列关于大数据的分析理念的说法错误的是（）。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追求效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据【正确答案】：D解析：

在大数据的分析理念中，数据规模上强调绝对数据而不是相对数据。20.探索性分析与验证性分析的不同点是（）。A、探索性分析需要事先假设B、探索性分析比验证性分析复杂C、探索性分析在前D、验证性分析在前【正确答案】：C解析：

验证性分析需要事先假设，因数据不同复杂程度也不同，探索性分析一般在前，为验证性分析提供参考。21.第一数字定律中使用概率最大的数字是（）。A、0B、1C、2D、3【正确答案】：B解析：

第一数字定律表示，数字1使用最多，使用概率接近1／3；数字2为17.6％；数字3为12.5％；依次递减，数字9的使用概率是4.6％。22.大数据的“4V”特性不包括（）。A、VolumeB、VelocityC、VisualD、Variety【正确答案】：C解析：

通常，用“4V”来表示大数据的基本特征：Volume（数据量大）、Variety（类型多）、Value（价值高）、Velocity（速度快）。23.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的（不可恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A、暂时隔离B、暂时删除C、永久删除D、不做处理【正确答案】：C解析：

数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永删除、不可恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。24.数据集成的基本类型是（）。A、内容集成、结构集成B、内容集成、规约集成C、规约集成、结构集成D、模式集成、结构集成【正确答案】：A解析：

数据集成是指通过应用间的数据交换从而达到集成，主要解决数据的分布性和异构性的问题，其前提是被集成应用必须公开数据结构，即必须公开表间结构、表间关系、编码的含义等。25.下列属于NoSQL数据库中Key-Value缺点的是（）。A、不记录结构信息B、查询性能不高，缺乏统一查询语法C、功能相对有限D、功能相对有限，不易于做分布式集群【正确答案】：A解析：

Key-Value型数据通常Key与Value之间采用某种方法（如哈希表）建立KValue映射，其缺点是不记录结构信息，无法建立索引。26.大数据参考架构的水平轴和垂直轴分别为（）。A、信息（活动）价值链和信息技术价值链B、信息技术价值链和信息（活动）价值链C、信息交互价值链和信息技术价值链D、信息（活动）价值链和信息交互价值链【正确答案】：A解析：

大数据参考架构围绕代表大数据价值链的信息价值链（水平轴）和信息技术价值链（垂直轴）两个维度组织展开。27.一般将原始业务数据分为多个部分，用于构建模型的是（)。A、训练集B、测试集C、验证集D、全部数据【正确答案】：A解析：

训练集、测试集和验证集的功能分别为训练（构建）模型、测试模型以及模型选择与超级参数的调优。28.2003年，Tableau在斯坦福大学诞生，它起源于一种改变数据使用方式的新技术，即（）A、VizQL语言B、SQL语言C、XSQL语言D、NewSQL语言【正确答案】：A解析：

VizQL是一种可视化查询语言，可将拖放动作转化为数据查询，然后以可视化的形式表达数据，是Tableau的起源。29.（）是实现数据战略的重要保障。A、数据管理B、数据分析C、数据治理D、数据规划【正确答案】：C解析：

从DMM模型可以看出，数据治理是实现数据战略的重要保障。数据管理指通过管理数据实现组织机构的某种业务目的。然而，数据治理则指如何确保数据管理顺利、有效、科学地完成。30.大数据是指不用随机分析法这样的捷径，而采用（)。A、所有数据B、部分数据C、少量数据D、抽样数据【正确答案】：A解析：

大数据的一种表现形式为接近其总体的所有数据。31.（）的本质是将低层次数据转换为高层次数据的过程。A、数据处理B、数据计算C、数据加工D、整齐数据【正确答案】：C解析：

数据加工（DataWrangling或DataMunging）的本质是将低层次数据转换为高层次数据的过程。从加工程度看，数据可以分为零次、一次、二次、三次数据。32.下列不是开源工具特点的是（）。A、免费B、可以直接获取源代码C、用户可以修改源代码并不加说明用于自己的软件中D、开源工具一样具有版权【正确答案】：C解析：

延伸的代码中（修改和有源代码衍生的代码中）需要带有原来代码中的协议、商标、专利声明和其他原来作者规定需要包含的说明。如果再发布的产品中包含一个Notice文件，则在Notice文件中需要带有开源工具的Licence。你可以在Notice中增加自己的许可，但不可以表现为对开源工具Licence构成更改。33.新兴数据管理技术主要包括NoSQL技术、NewSQL技术和（）。A、数据仓库B、关系云C、数据库系统D、文件系统【正确答案】：B解析：

关系云是在云计算环境中部署和虚拟化的关系数据库，进而使传统关系数据库具备云计算的弹性计算、虚拟化、按需服务和高经济性等特征。关系云代表了数据管理的一个重要发展方向。34.下列关于数据仓库随时间变化的描述不正确的是（）。A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随时间变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合【正确答案】：C解析：

一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。35.下列关于数据交易市场的说法错误的是（）。A、数据交易市场是大数据产业发展到一定程度的产物B、商业化的数据交易活动催生了多方参与的第三方数据交易市场C、数据交易市场通过生产、研发和分析数据，为数据交易提供帮助D、数据交易市场是大数据资源化的必然产物【正确答案】：C解析：

数据交易市场不生产数据。36.下列不属于大数据重要意义的是（）。A、大数据成为推动经济转型发展的新动力B、大数据成为重塑国家竞争优势的新机遇C、大数据成为提升政府治理能力的新途径D、大数据会增加经济发展的成本【正确答案】：D解析：

大数据可以促进经济的发展，催生新的业态，在辅助商业决策、降低运营成本、精准市场的营销方面都能发挥作用，进一步提升企业竞争力。37.下列关于特征编码的叙述不正确的是（）。A、特征编码是将非数值型特征转换成数值型特征的方法B、数字编码与特征的排序无关C、One-Hot编码中，原始特征有n种取值，转换后就会产生n列新特征D、哑变量编码解决了One-Hot编码中存在线性关系的问题【正确答案】：B解析：

数字编码与特征的排序有关，先出现的优先排序。38.下列关于DMM（数据管理成熟度模型）中已管理级基本特点的描述正确的是（）。A、组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化B、组织机构已用定量化的方式管理其关键过程的执行过程C、组织机构只在项目管理过程中执行了D、M给出的关键过程，而缺乏机构层次的统筹与管理E、组织机构的数据管理工作超出了项目管理的范畴，由组织机构统一管理其数据管理关键过程【正确答案】：D解析：

DMM（数据管理成熟度模型）中“已管理级”的基本特点是组织机构的数据管埋工作超出了项目管理的范畴，由组织机构统一管理其数据管理关键过程。39.在数据科学项目的活动流程中，主要用于回答“我们用什么方式记录和展现数据结果”问题的是（）。A、数据的获得与管理B、模式／模型的验证和优化C、结果的可视化与文档化D、模式／模型的应用及维护【正确答案】：C解析：

结果的可视化与文档化阶段主要回答的问题是“我们用什么方式记录和展现数据结果”。结果的可视化和文档化分别代表的是数据项目结果的可视化表达和文档化记录（包括故事化描述）。可视化和文档化方式的选择对于数据科学项目的成败，尤其是项目干系人（Stakeholders）的正确理解具有重要意义。40.下列关于数据转换的说法正确的是（）。A、Json内的取值只能有统一格式B、PDF文件在不同平台上打开显示不同C、可以通过Python将CSV文件转换成Excel格式D、Excel存储数据的量无限制【正确答案】：C解析：

Json内的取值可以有多种格式，PDF文件在不同平台上打开显示相同，Excel存储数据的量在Excel2007及以后版本，一个工作表最多可有1048576行、16384列。41.因子分析把每个原始变量分解为（）两部分因素。A、公共因子和特殊因子B、特殊因子和相关因子C、相关因子和独立因子D、独立因子和公共因子【正确答案】：A解析：

因子分析把每个原始变量分解为公共因子和特殊因子两部分因素。42.利用到每个聚类中心和的远近判断离群值的方法，可以基于的算法为（）。A、K-meansB、KNNC、SVMD、LinearRegression【正确答案】：A解析：

K-means算法又名K均值算法。其算法思想大致为先从样本集中随机选取K个样本作为簇中心，并计算所有样本与这K个簇中心的距离，对于每一个样本，将其划分到与其距离最近的簇中心所在的簇中，对于新的簇计算各个簇的新的簇中心。43.下列不属于可视化视觉下的数据类型的是（）。A、定类数据B、定序数据C、定宽数据D、定比数据【正确答案】：C解析：

从可视化处理视角看，可以将数据分为定类数据、定序数据、定距数据和定比数据4个类型，并采用不同的视觉映射方法。在可视化领域，对数据进行分类分析是由于不同类型的数据可支持的操作类型不同。44.下列不属于数据科学项目主要角色的是（)。A、项目发起人B、项目经理C、操作员D、验收人员【正确答案】：D解析：

数据科学项目涉及的主要角色有项目发起人（ProjectSponsor）、项目经理（ProjecManager）、客户（Client）、数据科学家（DataScientist）、数据工程师（DataEngineer）、操作员（Operations）等。45.在比较模型的拟合效果时，甲、乙、丙三个模型的相关指数R2的值分别约为0.71、0.85、0.90，则拟合效果较好的模型是（）。A、甲B、乙C、丙D、效果一样【正确答案】：C解析：

R2的取值为0～1，越靠近1，拟合效果越好。46.PagcRank是一个函数，它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高，那么它就（）。A、相关性越高B、越不重要C、相关性越低D、越重要【正确答案】：D解析：

PageRank认为，如果A页面有一个链接指向B页面，那就可以看作是A页面对B页面的一种信任或推荐。所以，如果一个页面的反向链接越多，根据这些链接的价值加权越高，那搜索引擎就会判断这样的页面更为重要。47.数据科学是一门以（）为主要研究任务的独立学科。A、数据驱动、数据业务化、数据洞见、数据产品研发和（或）数据生态系统的建设B、数据研发C、数据处理D、数据洞见【正确答案】：A解析：

数据科学是一门以实现从数据到信息、从数据到知识和（或）从数据到智慧的转化为主要研究目的，以数据驱动、数据业务化、数据洞见、数据产品研发和（或）数据生态系统的建设为主要研究任务的独立学科。48.数据科学家可能会同时使用多个算法（模型）进行预测，并且把这些算法的结果集成起来进行最后的预测（集成学习），下列关于集成学习的说法正确的是（）。A、单个模型之间具有高相关性B、单个模型之间具有低相关性C、在集成学习中使用平均权重而不是投票会比较好D、单个模型都用同一个算法【正确答案】：B解析：

集成学习就是组合这里的多个弱监督模型以期得到一个更好、更全面的强监督模型，集成学习潜在的思想是即便某一个弱模型得到了错误的预测，其他的弱模型也可以将错误

纠正回来。某一个弱模型要有一定的准确性，即学习器不能太坏，并且要有多样性，即个体学习器间具有差异。集成中既可包含同种类型的弱模型，也可包含不同类型的弱模型。49.异常检测中，检测一元正态分布中的离群点基于的技术是（)。A、统计方法B、邻近度C、密度D、机器学习技术【正确答案】：A解析：

略。50.数据科学中，人们开始注意到传统数据处理方式中普遍存在的信息丢失现象，进而数据处理范式变为（）。A、从产品在先，数据在后范式转向数据在先，产品在后范式或无模式B、从模式在先，产品在后范式转向产品在先，模式在后范式或无模式C、从数据在先，模式在后范式或无模式转向模式在先，数据在后范式D、从模式在先，数据在后范式转向数据在先，模式在后范式或无模式【正确答案】：D解析：

传统关系数据库中，先定义模式，然后严格按照模式要求存储数据；当需要调整模式时，不仅需要数据结构，而且还需要修改上层应用程序。然而，NoSQL技术则采用了非常简单的Key-Value等模式在后（SchemaLater）和无模式（Schemaless）的方式提升了数据管理系统的自适应能力。当然，模式在后（SchemaLater）和无模式（Schemaless）也会带来新问题，如降低了数据管理系统的数据处理能力。51.下列描述中不属于数据预处理方法的是（）。A、数据清洗：去噪声和无关数据B、数据集成：将多个数据源中的数据结合起来存在一个一致的数据存储中C、数据变换：把原始数据转换成为适合数据挖掘的形式D、数据转化：把连续数据转换为离散数据【正确答案】：D解析：

数据转化多为将字符型数据转换为数值型数据。例如将性别［男，女］分别转换为［0,1］。52.决定事务对数据对象加锁后拥有何种控制权的是锁的（）。A、状态B、类型C、数量D、属性【正确答案】：B解析：

在2PL中，锁的类型分为排他锁和共享锁等。53.建立在相关关系分析法基础上的预测是大数据的（)。A、基础B、前提C、核心D、条件【正确答案】：C解析：

略。54.下列不属于大数据平台安全管理组件提供的功能的是（）。A、接口代理B、接口认证C、接口授权D、路由代理【正确答案】：D解析：

接口可以对用户的身份和请求的参数进行验证，以保证接口的安全。通过添加身份验证和数字签名的方法提高接口安全性，防止数据被篡改和信息泄露。55.在一些算法中，为了进行属性之间的比较或运算，需要把不同属性的不同变量取值范围变换成同一范围，以免使得结果发生扭曲，偏向取值范围大的变量。这一过程称为（）。A、合并B、数据聚合C、归一化D、数据处理【正确答案】：C解析：

归一化是一种无量纲处理手段，使物理系统数值的绝对值变成某种相对值关系，是简化计算、缩小量值的有效办法。56.DIKW金字塔模型中，顶层与底层的名称分别为（）。A、智慧与数据B、知识与数据C、智慧与数值D、知识与数值【正确答案】：A解析：

DIKW金字塔（DIKWPyramid）模型揭示了数据（Data）与信息（Information）、知识（Knowledge）、智慧（Wisdom）之间的区别与联系，自底向上分别为数据、信息、知识、智慧。57.大数据涌现现象的形式有多种，不属于大数据涌现形式的是（）。A、价值涌现B、隐私涌现C、物质涌现D、质量涌现【正确答案】：C解析：

大数据并不等同于小数据的集合。从小数据到大数据的过程中出现了涌现现象，涌现才是大数据的本质特征。涌现（Emergence）就是系统大于元素之和，或者系统在跨越层次时，出现了新的质。大数据涌现现象的具体表现形式有多种，如价值涌现、隐私涌现、质量涌现和安全涌现等。58.下列不属于视觉通道表现力评价指标的是（）。A、精确性B、可辨认性C、可分离性D、可转换性【正确答案】：D解析：

在数据来源和目标用户已定的情况下，不同视觉通道的表现力不同。视觉通道表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。59.数据变换的策略包括（）。A、平滑处理、特征构造、聚集、标准化、离散化B、平滑处理、特征构造、聚集、审计、离散化C、平滑处理、聚集、标准化、审计、离散化D、特征构造、聚集、标准化、审计、离散化【正确答案】：A解析：

数据变换的策略不包括审计。60.目前，多数NoSQL数据库是针对特定应用场景研发出来的，其设计遵循（）原则，更强调读写效率、数据容量以及系统可扩展性。A、EASYB、READC、BASED、BASIC【正确答案】：C解析：

BASE原则是BasicallyAvailable（基本可用）、SoftState（柔性状态）和EventuallyConsistent（最终一致）的缩写。BasicallyAvailable是指可以容忍系统的短期不可用，并不追求全天候服务；SoftState是指不要求一直保持强一致状态；EventuallyConsistent是指最终数据一致，而不是严格的实时一致，系统在某一个时刻后达到一致性要求即可。61.数据的故事化描述是指为了提升数据的（），将数据还原成关联至特定的情景的过程。A、可理解性、可记忆性、可体验性B、可接受性、可记忆性、可体验性C、可接受性、可记忆性、可呈现性D、可理解性、可记忆性、可呈线性【正确答案】：A解析：

数据的故事化描述（Storytelling）是指为了提升数据的可理解性、可记忆性及可体验性，将数据还原成关联至特定的情景的过程。62.下列关于缺失值的说法错误的是（）。A、可以利用统计量对缺失值进行填补B、可以利用K近邻值对缺失值进行填补C、只要有缺失值就必须把对应记录删除D、对于缺失值较多的属性可以考虑删除【正确答案】：C解析：

缺失值可以通过删除、填补等方法进行处理。63.下列关于数据创新的说法正确的是（）。A、多个数据集的总和价值等于单个数据集价值相加B、由于数据的再利用，数据应该永久保存下去C、相同数据多次用于相同或类似用途，其有效性会降低D、数据只有开放价值才可以得到真正释放【正确答案】：D解析：

略。64.下列关于文本分类的说法不正确的是（）。A、文本分类是指按照预先定义的主题类别，由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类系统大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建，该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤【正确答案】：C解析：

词袋模型没有考虑文本词语的原本行文顺序。65.下列关于OLAP和OLTP的区别描述不正确的是（）。A、OLAP主要是关于如何理解聚集的大量不同的数据，它与OTAP应用程序不同B、与OLAP应用程序不同，OLTP应用程序包含大量相对简单的事务C、OLAP的特点在于事务量大，但事务内容比较简单且重复率高D、OLAP是以数据仓库为基础的，但其最终数据来源与OLTP一样均来自底层的数据库系统，两者面对的用户是相同的【正确答案】：C解析：

OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，记录即时的增、删、改、查，比如在银行存取一笔款，就是一个事务交易。OLAP即联机分析处理，是数据仓库的核心，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。66.下列不属于现阶段的大数据技术体系主要类型的是（）。A、数据源与AppB、基础设施C、HadoopD、数据资源【正确答案】：C解析：

Speechpad的联合创始人DaveFeinleib于2012年发布大数据产业全景图（BigDataLandscape），首次较为全面地刻画了当时快速发展中的大数据技术体系。后来，该图及其画法成为大数据和数据科学的重要分析工具，得到广泛地应用和不断地更新。MattTurck等组织绘制了2017大数据产业全景图（BigDataLandscape2017）。从2017人数据产业全景图看，现阶段的大数据技术体系主要类型包括数据资源、数据源与App、开源工具、跨平台基础设施和分析工具、行业应用、企业应用、基础设施和分析工具。67.数据安全不只是技术问题，还涉及（）。A、人员问题B、管理问题C、行政问题D、领导问题【正确答案】：B解析：

数据安全不只是技术问题，还涉及管理问题。68.在著名管理学家Thomas·H．Davernport在《哈佛商业论坛》上发表的题为《第三代分析学（Analytics3.0）》的经典论文中，Analytics3.0时代是指（）。A、商务智能时代B、大数据时代C、数据富足供给时代D、数据智能时代【正确答案】：C解析：

Analytics3.0的名称为数据富足供给时代（Data-enrichedOfferings）。与Analytics2.0不同的是，Analytics3.0中数据分析更为专业化，从技术实现和常用工具角度看，Analytics3.0将采用更为专业的分析工具，而不再直接采用Hadoop、Spark、NoSQL等大数据分析技术。同时，数据分析工作也由专业从事数据分析的数据科学家-首席分析师完成，数据科学家的类型将得到进一步细化。69.数据探索是指针对目标可变、持续、多角度的搜索或分析任务，下列不是其搜索过程特点的是（）。A、有选择B、有策略C、有目标D、反复进行的【正确答案】：C解析：

数据探索是指针对目标可变、持续、多角度的搜索或分析任务，其搜索过程是有选择、有策略和反复进行的。70.将观测值分为相同数目的两部分，当统计结果为非对称分布时经常使用的是（)。A、众数B、标准差C、中位数D、均值【正确答案】：C解析：

中位数是指一组数据排序后处于中间位置的变量值。71.关系数据库中存储、计算和管理的数据是（）。A、结构化数据B、海量数据C、半结构化数据D、非结构化数据【正确答案】：A解析：

通常，结构化数据是指直接可以用传统关系数据库存储、计算和管理的数据。72.关系云的一个重要功能是提供（）。A、数据库即服务B、虚拟服务C、弹性计算D、按需服务【正确答案】：A解析：

关系云的一个重要功能是提供数据库即服务（DatabaseasaService），用户无须在本机安装数据库管理软件，也不需要搭建自己的数据管理集群，而只需要使用服务提供商提供的数据库服务。73.下列关于计算机存储容量单位的说法错误的是（）。A、1kBB、基本单位是字节（Byte）C、一个汉字需要一个字节的存储空间D、一个字节能够容纳一个英文字符【正确答案】：C解析：

通常，一个汉字需要两个字节的存储空间。74.数据的可用性取决于（）。A、数据分析B、数据集采C、数据质量D、数据需求【正确答案】：C解析：

略。75.下列描述中不属于规整数据（TidyData）三个基本原则的是（）。A、每一类观察单元构成一个关系（表）B、每个观察占且仅占一行C、每个变量占且仅占一列D、每个观察占且仅占一个关系（表）【正确答案】：D解析：

tidyData原则为每列代表一个单独变量、每行代表单个观察值、每种观察形成一个表格。76.下列不属于数据科学与统计学区别的是（A、数据科学中的数据不仅仅是数值B、数据科学关注的不仅仅是“单一学科”问题，超出了数学、统计学、计算机科学等单一学科的范畴C、数据科学不仅仅是理论研究，也不是纯领域实务知识，它关注和强调的是二者的结合D、数据科学和统计学中的计算一样，仅仅是加减乘除【正确答案】：D解析：

数据科学中的计算并不仅仅是加／减／乘／除等数学计算，而是包括数据的查询、挖掘、洞见、分析、可视化等更多类型的计算。77.下列关于缺失值填补的说法不正确的是（）。A、填补数据可以用中位数或者众数等B、Pandas.dropna可以用来填补缺失值C、用平均值填补会引入相关D、哑变量填补是将缺失值当做一类新特征处理【正确答案】：B解析：

Pandas.dropna可以用来删除缺失值。78.数据分析的第一步是（）。A、探索性分析B、描述性分析C、诊断性分析D、规范性分析【正确答案】：B解析：

数据分析的步骤：描述性分析、诊断性分析、预测性分析、规范性分析。79.离散程度的测度值愈大，则（）。A、反映变量值愈分散，算术平均数代表性愈差B、反映变量值愈集中，算术平均数代表性愈差C、反映变量值愈分散，算术平均数代表性愈好D、反映变量值愈集中，算术平均数代表性愈好【正确答案】：A解析：

离散程度的测度值愈大，则反映变量值愈分散，算术平均数代表性愈差。80.在空间维度上刻画数据连续性是数据的（）。A、可关联性B、可溯源性C、可理解性D、可复制性【正确答案】：A解析：

数据连续性理论是指由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据保护措施，其目的是保障数据的可用性、可信性和可控性，降低数据的失用、失信和失控的风险。刻画数据连续性的特点描述如下：①可关联性是在空间维度上刻画数据连续性，代表的是不同数据对象之间的连续性。它是保障数据可用性的重要前提，代表了数据是否具备支持开放关联和跨域存取的能力，进而避免数据资源的碎片化。因此，研究数据可关联性的意义在于降低数据的“失用”风险。②可溯源性是在时间维度上刻画数据连续性，代表的是同一个数据对象的历史版本之间的连续性。它是保障数据可信性的重要前提，代表了数据是否具备支持证据链管理、可信度评估以及预测分析的能力。因此，研究数据可溯源性的意义在于降低数据的“失信”风险。③可理解性是在内容维度上刻画数据连续性，代表的是数据与其产生、管理和维护的主体（包括人与计算机）之间的连续性。它是降低数据的可控性的重要前提，代表了数据是否具备自描述和自包含信息。因此，研究数据可理解性的意义在于降低数据的“失控”风险。81.美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（）。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据【正确答案】：B解析：

本次分析主要分析了大风和洋流可能发生的地与安全航路的相关性。82.下列关于数据产品的说法错误的是（）。A、数据产品的存在形式是数据集B、与传统物质产品不同的是，数据产品的消费者不仅限于人类用户，还可以是计算机以及其他软硬件系统C、数据产品不仅包括数据科学项目的最终产品，也包括其中间产品以及副产品D、数据产品开发涉及数据科学项目流程的全部活动【正确答案】：A解析：

数据产品的存在形式不仅限于数据集，还包括文档、知识库、应用系统、硬件系统、服务、洞见、决策或它们的组合。

83.将原始数据进行集成、变换、维度规约、数值规约是下列步骤中（）的任务。A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘【正确答案】：C解析：

数据预处理是对原始数据进行集成、变换、维度规约、数值规约的过程。频繁模式挖掘、分类和预测和数据流挖掘均属于数据挖掘范畴。84.下列不属于数据科学跨平台基础设施和分析工具的是（）。A、微软AzureB、Google云平台C、阿里云D、Adobephotoshop【正确答案】：D解析：

Adobephotoshop软件一般不作为数据分析工具。85.（）反映数据的精细化程度，越细化的数据，价值越高。A、规模B、灵活性C、关联度D、颗粒度【正确答案】：D解析：

颗粒度反映的是数据的精细化程度。86.下列不属于数据科学开源工具的是（）。A、MapReduceB、ERPC、HadoopD、Spark【正确答案】：B解析：

ERP系统是企业资源计划（EnterpriseResourcePlanning）的简称，是指建立在信息技术基础上，集信息技术与先进管理思想于一身，以系统化的管理思想，为企业员工及决策层提供决策手段的管理平台。87.下列不属于大数据在社会活动中的典型应用的是（)。A、美团实现了快速精准的送餐服务B、共享单车、滴滴打车方便了人们的日常出行C、快递实现了订单的实时跟踪D、供电公司提供电费账单查询【正确答案】：D解析：

电费账单查询属于简单报表查询，用电情况分析、窃电行为分析、基于交易大数据分析用户的购买习惯、基于传感器感知的海量数据分析自然灾害的危害程度、基于搜索引擎的搜索关键词分析社会热点等属于大数据应用。88.下列判断错误的是（）。A、XML数据属于半结构化数据B、JSON文件属于非结构化数据C、PPT文件属于非结构化数据D、音视频文件属于非结构化数据【正确答案】：B解析：

JSON文件属于半结构化数据。89.下列关于数据科学的描述错误的是（）。A、数据科学中的数据不仅仅是数值，也不等同于数值B、数据科学中的计算包括数据的查询、挖掘、洞见等C、数据科学强调的是跨学科视角D、数据科学不包括理论知识，只包括领域实务经验【正确答案】：D解析：

数据科学既包括理论知识，又包括领域实务经验。90.数据产品的定义是（）。A、数据产品是指能够供给市场，被人们使用和消费，并能满足人们某种需求的任何东西B、数据产品是可以发挥数据价值去辅助用户更优地做决策（甚至行动）的一种产品形式C、数据产品是指为了满足自身的需要，通过科技发明或经验总结而形成的技术D、数据产品是数据科学的结果，创造了新的实物形态和使用价值的产品【正确答案】：B解析：

数据产品是可以发挥数据价值去辅助用户更优地做决策（甚至行动）的一种产品形式。91.下列关于数据的描述错误的是（）。A、数据化与数字化是两个不同概念B、数据与数值是一个概念C、大数据与海量数据是两个不同的概念D、数据和信息是两个不同的概念【正确答案】：B解析：

除了数值，数据科学中的数据还包括文字、图形、图像、动画、文本、语音、视频、多媒体和富媒体等多种类型。92.下列不属于数据脱敏要求的是（）。A、双向性B、单向性C、无残留D、易于实现【正确答案】：A解析：

数据脱敏操作不能停留在简单地将敏感信息屏蔽掉或匿名处理。数据脱敏操作必须满足以下3个要求：单向性、无残留、易于实现。93.数据资产维护是指为保证数据质量，对数据进行（）等处理的过程。A、更正B、删除C、补充录入D、以上答案都正确【正确答案】：D解析：

数据资产维护是指为保证数据质量，对数据进行更正、删除、补充录入等处理的过程。94.在数据科学中，通常下载R的包的服务器是（）。A、PIPB、CRANC、RstudioD、PyP1【正确答案】：B解析：

CRAN的全称为TheComprehensiveRArchivcNetwork，在R编程中通常从该服务器下载所需包。95.从行为目的与思维方式看，下列属于描述性统计分析的是（)。A、线性回归B、参数估计C、相关分析D、主成分分析【正确答案】：C解析：

描述性统计是指运用制表和分类、图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述，主要包括数据的频数分析、集中趋势分析、离散程度分析、分布、相关分析以及一些基本的统计图形。96.有研究发现“页面的显示速度每延迟1s，网站访问量就会降低11％，从而导致营业额或者注册量减少7％，顾客满意度下降16％”。该项研究表明了在数据产品开发中更加重要的是（）。A、查全率B、用户体验C、数据可视化D、查准率【正确答案】：B解析：

在大数据时代，用户体验更加重要。97.不属于Mayer-SchönbergerV和CukierK．在其著名论著《BigData：ARevolutionThatWillTransformHowWeLive，Work，andThink》中提出了大数据时代统计的思维变革的是（）。A、不是随机样本，而是全体数据B、不是精确性，而是混杂性C、不是描述性分析，而是预测性分析D、不是因果关系，而是相关关系【正确答案】：C解析：

Mayer-SchönbergerV和CukierK.在其著名论著《BigData：ARevolutionThatWillTransformHowWeLive，Work，andThink》中提出了大数据时代统计的思维变革：①不是随机样本，而是全体数据：大数据时代应遵循“样本＝总体”的理念，需要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。②不是精确性，而是混杂性；大数据时代应承认数据的复杂性，数据分析目的不应追求精确性，数据分析的主要瓶颈是如何提升效率而不是保证分析结果的精确度。③不是因果关系，而是相关关系：大数据时代的思想方式应转变--不再探求难以捉摸的因果关系，转而关注事物的相关关系。98.平滑图像处理可以采用RGB彩色（）。A、直方图均衡化模型B、直方图均衡化模型C、加权均值滤波模型D、中值滤波模型【正确答案】：C解析：

平滑图像处理可以采用RGB彩色加权均值滤波模型。99.大数据应用需依托的新技术有（）。A、大规模并行处理B、数据分析处理C、智能化D、三个选项都是【正确答案】：D解析：

适用于大数据的技术包括大规模并行处理（MPP）数据库、数据挖掘、数据分析、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统、智能化相术等。100.下列关于混合模型聚类算法的优、缺点的说法正确的是（）。A、当簇只包含少量数据点或者数据点近似协线性时，混合模型也能很好地处理B、混合模型很难发现不同大小和椭球形状的簇C、混合模型比K均值或模糊C均值更一般，因为它可以使用各种类型的分布D、混合模型在有噪声和离群点时不会存在问题【正确答案】：C解析：

K均值与模糊C均值都是迭代求取最终值的聚类划分，即聚类中心与隶属度值。两者都不能保证找到问题的最优解，都有可能收敛到局部极值。模糊C均值是K均值方法的改进，算法的目标函数与K均值一致，区别在于目标函数中增加了模糊权重指数；GMM高斯混合模型聚类采用了新的判断依据-概率，即通过属于某一类的概率大小来判断最终的归属类别。1.大数据处理流程可以概括为（）。A、数据分析与挖掘B、数据采集C、数据储存D、结果展示【正确答案】：ABCD解析：

算法歧视是指算法设计、实现和投入使用过程中出现的各种“歧视”现象。

6．数据增值存在的过程有（）。

A.数据对象的封装

B.数据系统的研发

C.数据的集成应用

D.基于数据的创新

参考【正确答案】：ABCD

解析：数据对象的封装、数据系统的研发、数据的集成应用、基于数据的创新均需要进行数据增值。

7．大数据参考架构的三个层次包含（）。

A.角色

B.活动

C.逻辑构件

D.功能组件

参考【正确答案】：ABD

解析：GB／T35589-2017《信息技术大数据技术参考模型》描述了大数据的参考架构，包括角色、活动的功能组件以及它们之间的关系。

8．分布式列式存储的功能有（）。

A.支持在线快速读写

B.支持线性扩展

C.具备节点监控管理

D.数据同源不压缩

参考【正确答案】：ABC

解析：分布式列式存储的功能包括数据压缩。

9．下列关于现阶段大数据2.DGI定义的数据治理任务包括（)。A、数据质量的评估B、主动定义或序化规则C、为数据利益相关者提供持续跨职能的保护与服务D、应对并解决因不遵守规则而产生的问题【正确答案】：BCD解析：

DGI（TheDataGovemanceInstitute）认为数据治理是对数据相关的决策及数据使用权限控制的活动。它是一个信息处理过程中根据模型来执行的决策权和承担责任的系统，规定了谁可以在什么情况下对哪些信息做怎样的处理。3.NoSQL数据库常用的数据模型包括（）。A、Key-ValueB、Key-DocumentC、Key-ColumnD、图存储【正确答案】：ABCD解析：

NoSQL数据库常用的数据模型包括Key-Value、Key-Document、Key-Column、存储。4.ETL包含的过程有（)。A、数据抽取B、数据转换C、数据加载D、数据展现【正确答案】：ABC解析：

ETL是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取tract）、转换（transform）、加载（load）至目的端的过程。5.大数据参考架构的三个层次包含（）。A、角色B、活动C、逻辑构件D、功能组件【正确答案】：ABD解析：

GB／T35589-2017《信息技术大数据技术参考模型》描述了大数据的参考架构，包括角色、活动的功能组件以及它们之间的关系。6.可视分析学是一门以可视交互为基础，综合运用（）等技术等多个学科领域的知识，以实现人机协同完成可视化任务为主要目的的分析推理学科。A、物理学B、图形学C、数据挖掘D、人机交互【正确答案】：BCD解析：

可视分析学（VisualAnalytics）；科学可视化和信息可视化理论的进一步演变以及与其他学科相互交融发展之后的结果。在数据科学中，通常采用数据可视化的广义定义方法，并以可视分析学为主要理论基础。7.在假设检验中，当原假设为伪，但数据分析人员没有拒绝它时犯的错误叫（)。A、a错误B、β错误C、取伪错误D、弃真错误【正确答案】：BC解析：

a错误（弃真错误）：当原假设为真时，但我们错误地认为“原偶的”，进而导致拒绝这个正确假设；β错误（取伪错误）：当原假设为假时，但我们错误地认为“原假设是成立的”，进而导致接受此错误假设。8.常用的数据审计方法可以分为（）。A、预定义审计B、自定义审计C、可视化审计D、结构化审计【正确答案】：ABC解析：

常用的数据审计方法有预定义审计、自定义审计和可视化审计三种。9.分布式列式存储的功能有（）。A、支持在线快速读写B、支持线性扩展C、具备节点监控管理D、数据同源不压缩【正确答案】：ABC解析：

分布式列式存储的功能包括数据压缩。10.主要用来实现实时计算类应用的组件有（）。A、流计算组件B、内存计算组件C、MPP数据库D、Hadoop的后台定时分析计算任务【正确答案】：AB解析：

实时计算类应用主要通过流计算组件、内存计算组件来实现。11.下列关于中心极限定理的说法正确的有（）。A、中心极限定理说明，对于大量相互独立的随机变量，其均值的分布以正态分布为极限B、中心极限定理说明，对于大量相互独立的随机变量，其均值的分布以t分布为极限C、中心极限定理为Z检验提供了理论支持D、中心极限定理是数理统计学和误差分析的基础【正确答案】：ACD解析：

中心极限定理说明，对于大量相互独立的随机变量，其均值的分布以正态分布为极限。12.下列为RDBMS中事务遵循原则的有（）。A、原子性（Atomicity）B、一致性（Consistency）C、隔离性（Isolation）D、持久性（Durability）【正确答案】：ABCD解析：

关系数据库中的事务需要具备一定的规则-ACID特征。ACID是指数据库事务正确执行的4个基本要素的缩写：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）。13.下列属于数据统计分析工具的有（）。A、WekaB、SASC、SPSSD、Matlab【正确答案】：ABCD解析：

常用统计软件的种类包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。14.数据从产生到终结共包含的环节有（）。A、数据产生B、数据传输C、数据使用D、数据共享E、数据销毁【正确答案】：ABCDE解析：

数据的全寿命周期有获取（产生）、存储、共享、维护、应用（使用）、消亡（销毁），在以上这些过程都会有数据传输过程。15.在数据科学中，通常可以采用（）有效避免数据加工和数据备份的偏见。A／B测试B、训练集和测试集的划分C、测试集和验证集的划分D、图灵测试【正确答案】：A解析：

A／B测试是一种对比试验，准确说是一种分离式组间试验，在试验过程中，我们从总体中随机抽取一些样本进行数据统计，进而得出对总体参数的多个评估。A／B测试能有效避免数据加工和数据备份的偏见，对算法／模型选择偏见具有重要借鉴意义。16.下列关于降维说法正确的有（）。A、PA是根据方差这一属性降维的B、降维可以防止模型过拟合C、降维降低了数据集特征的维度D、降维方法有PLA等【正确答案】：ACD解析：

降维不能用于防止模型过拟合。17.数据管理包含的管理活动有（）。A、识别B、度量C、监拉D、预警【正确答案】：ABCD解析：

数据管理指对数据生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控以及预警等一系列管理活动，并通过改善和提高组织的管理水平是的数据质量获得进一步提高。18.已测量级（MeasuredLevel）的主要特点包括（）。A、已构建了关键过程矩阵B、已定义了变革管理的正式流程C、已实现用定量化方式计算关键过程的质量和效率D、关键过程的质量和效率的管理涉及整个生命周期【正确答案】：ABCD解析：

DMM的已测量级（McasuredLevel）；组织机构已用定量化的方式管理其关键过程的共行过程。主要特点如下：①已构建了关键过程矩阵；②已定义了变革管理的正式流程；③已实现用定量化方式计算关健过程的质量和效率；④关键过程的质量和效率的管理涉及其全生命周期。19.下列关于单样本：检验的说法错误的有（）。A、当单样本t检验的自由度越来越大时，正态分布越来越趋向于t分布B、单样本t检验适用于样本量比较多（n＞30）的情况C、t分布的不确定性比正态分布小，其原因是样本数量比较小D、单样本t检验通常也被叫作学生t检验【正确答案】：ABC解析：

t检验，也称studentt检验（Student＇sttest），主要用于样本含量较小（例如n＜30），总体标准差σ未知的正态分布。t检验是用1分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。20.EDA（探索性数据分析）方法与传统统计学的验证性分析方法的区别有（）。A、EDA需要事先提出假设，而验证性分析不需要B、EDA中采用的方法往往比验证性分析简单C、在一般数据科学项目中，探索性分析在先，验证性分析在后D、EDA更为简单、易学和易用【正确答案】：BCD解析：

在一般数据科学项目中，探索性分析在先，验证性分析在后，EDA中采用的方往往比验证性分析简单。21.可视分析学的特点包含（）。A、强调数据到知识的转换过程B、强调可视化分析与自动化建模之间的相互作用C、强调数据映射和数据挖掘的重要性D、强调数据加工（DataWrangling或DataMunging）工作的必要性E、强调人机交互的重要性【正确答案】：ABCDE解析：

从可视分析学模型可以看出，可视分析学的流程具有如下特点：①强调数据到知识的转换过程。可视化分析学中对数据可视化工作的理解发生了根本性变化-数据可视化的本质是将数据转换为知识，而不能仅仅停留在数据的可视化呈现层次之上。从数据到知识的转换途径有可视化分析和自动化建模两种。②强调可视化分析与自动化建模之间的相互作用。二者的相互作用主要体现在：一方面，可视化技术可用于数据建模中的参数改进的依据；另一方面，数据建模也可以支持数据可视化活动，为更好地实现用户交互提供参考。③强调数据映射和数据挖掘的重要性。从数据到知识转换的两种途径-可视化分析与自动化建模分别通过数据映射和数据挖掘两种不同方法实现。因此，数据映射和数据挖掘技术是数据可视化的两个重要支撑技术。用户可以通过两种方法的配合使用实现模型参数调整和可视化映射方式的改变，尽早发现中间步骤中的错误，进而提升可视化操作的信度与效度。④强调数据加工工作的必要性。数据可视化处理之前一般需要对数据进行预处理（转换）工作，且预处理活动的质量将影响数据可视化效果。⑤强调人机交互的重要性。可视化过程往往涉及人机交互操作，需要重视人与计算机在数据可视化工作中的互补性优势。因此，人机交互以及人机协同工作也将成为未来数据可视化研究与实践的重要手段。22.数据科学以数据尤其是大数据为研究对象，主要研究内容包括（）。A、数据加工B、数据管理C、数据计算D、数据产品开发【正确答案】：ABCD解析：

数据科学是一门以数据，尤其是大数据为研究对象，并以数据统计、机器学习、数据可视化等为理论基础，主要研究数据加工、数据管理、数据计算、数据产品开发等活动的交叉性学科。23.数据安全不仅包括数据保密性，还包括（)。A、完整性B、可用性C、不可否认性D、可审计性【正确答案】：ABCD解析：

数据安全不等同于数据保密。通常，除了数据保密--数据的机密也（Confidentiality）之外，数据安全还包括完整性（Integrity）、可用性（Availability）、不可否认性（Non-repudiation）、鉴别（Authentication）、可审计性（Accountability）和可靠姓（Reliability）等多个维度。24.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面能够（）。A、直观反映成对数据之间的空间关系B、直观反映多维数据之间的空间关系C、静态演化事物的变化及变化的规律D、动态演化事物的变化及变化的规律E、提供高性能并行计算技术的强力支撑【正确答案】：BD解析：

可视化高维展示技术在展示数据之间的关系以及数据分析结果方面能够直观反映多维数据之间的空间关系，以及能够动态演化事物的变化及变化的规律。25.列式数据库（如BigTable和HBase）以表的形式存储数据，表结构包含的元素有（）。A、关键字B、时间戳C、列簇D、数据类型【正确答案】：ABC解析：

BigTable和HBase的索引由行关键字、列簇和时间戳组成。26.使用极大似然估计的前提条件有（）。A、数据服从某种已知的特定数据分布型B、已经得到了一部分数据集C、提前已知某先验概率D、数据集各个属性相对独立【正确答案】：AB解析：

极大似然估计（MLE）要求样本独立同分布，否则无法用概率密度函数乘积的形式。假设的分布与真实的分布要一致，否则会南辕北辙。如果对总体分布一无所知是无法使用MLE的。27.在数据缺失严重时，会对分析结果造成较大的影响，因此对于剔除的异常值和缺失值，要采用合理的方法进行填补。常用的填补方法有（）。A、平均值填充B、K最近邻距离法C、回归法D、极大似然估计E、多重插补法【正确答案】：ABCDE解析：

在数据缺失严重时，会对分析结果造成较大的影响，因此对于剔除的异常值和缺失值，要采用合理的方法进行填补。常用的填补方法有平均值填充、K最近邻距离法、回归法、极大似然估计、多重插补法。28.下列关于总体和样本的说法正确的有（）。A、总体也就是研究对象的全体B、如果总体是某一条生产线上生产的全部产品，那么样本可以是每间隔10s抽取的产品C、样本是从总体的随机抽样D、如果总体是某一小学的1000名学生，那么样本可以是一年级的100名学生【正确答案】：ABC解析：

小学包括多个年级，样本没有代表性。29.在数据安全领域常用的P2DR模型中，P、D和R代表的是（）。A、策略B、防护C、检测D、响应【正确答案】：ABCD解析：

P2DR模型是美国ISS公司提出的一种动态网络安全体系，认为网络安全是一种动态的、有条件的相对安全。P2DR模型包括四个主要部分：Policy（策略）、Protection（防护）、Detection（检测）和Response（响应）。其中，安全策略处于核心地位，为其他三个组成部分提供支持和指导，而保护、检测和响应为网络安全的三个基本活动。30.下列关于CAP理论说法正确的有（）。A、一个分布式系统不能同时满足一致性、可用性和分区容错性等需求B、一致性主要指强一致性C、一致性、可用性和分区容错性中的任何两个特征的保证（争取）可能导致另一特征的损失（放弃）D、可用性指每个操作总是在给定时间之内得到返回所需要的结果【正确答案】：ABCD解析：

CAP理论认为，一个分布式系统不能同时满足一致性（Consistency）、可用（Availability）和分区容错性（PartitionTolerance）等需求，而最多只能同时满足其中的两个特征。CAP理论告诉我们，数据管理不一定是理想的-一致性、可用性和分区容错性中的任何两个特征的保证（争取）可能导致另一个特征的损失（放弃）。31.在网络爬虫的爬行策略中，应用最为常见的有（）。A、深度优先遇历策略B、广度优先遍历策略C、高度优先遍历策略D、反向链接策略E、大站优先策略【正确答案】：AB解析：

在网络爬虫的爬行策略中，应用最为常见的是深度优先遍历策略、广度优先遍历策略。32.噪声是指测量变量中的随机错误或偏差，噪声数据的主要表现形式有（）。A、错误数据B、假数据C、异常数据D、僵尸数据【正确答案】：ABC解析：

错误数据、假数据、异常数据在测量变量中多被定义为噪声。33.主要面向或关注过去的数据分析过程有（）。A、描述性分析B、诊断性分析C、预测性分析D、规范性分析【正确答案】：AB解析：

Gartner分析学价值扶梯模型认为，从复杂度及价值高低两个维度，可以将数据分析分为描述性分析、诊断性分析、预测性分析和规范性分析四种，其中描述性分析和诊断性分析关注和面向的是过去的时间点。34.区块链是（）等计算机技术的新型应用模式。A、分布式数据存储B、点对点传输C、共识机制D、加密算法【正确答案】：ABCD解析：

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。35.下列关于现阶段大数据技术体系的说法正确的有（）。A、基础设施提供数据计算、数据存储、数据加工（DataWrangling或DataMunging）等服务B、数据流处理、统计工具、日志分析都属于常用的开源工具C、数据资源代表的是生成数据的机构D、数据源与App为数据科学和大数据产业生态系统提供数据内容【正确答案】：ABCD解析：

Speechpad的联合创始人DaveFeinleib于2012年发布大数据产业全景图（BigDataLandscape），首次较为全面地刻画了当时快速发展中的大数据技术体系。后来，该图及其画法成为大数据和数据科学的重要分析工具，得到了广泛应用和不断更新。MattTurck等组织绘制了2017大数据产业全景图（BigDataLandscape2017）。从2017大数据产业全景图看，现阶段的大数据技术体系主要类型包括数据资源、数据源与App、开源工具、跨平台基础设施和分析工具、行业应用、企业应用、基础设施和分析工具。36.大数据偏见包括（）。A、数据源的选择偏见B、算法与模型偏见C、结果解读方法的偏见D、数据呈现方式的偏见【正确答案】：ABCD解析：

大数据偏见是数据科学项目中必须关注和加以避免的问题，上述四个活动中均可能出现偏见。37.数据科学基本原则中，“三世界”原则指的是（）。A、精神世界B、数据世界C、物理世界D、数字世界【正确答案】：ABC解析：

大数据时代的到来，在我们的精神世界和物理世界之间出现了一种新的世界-数据世界。因此，在数据科学中，通常需要研究如何运用数据世界中已存在的痕迹数据的方式解决物理世界中的具体问题，而不是直接到物理世界，采用问卷和访谈等方法亲自收集采访数据。相对于采访数据，痕迹数据更具有客观性。图灵奖获得者JimGray提出的科学研究第四范式-数据密集型科学发现（Data-intensiveScientificDiscovery）是“三世界”原则的代表性理论之一。38.下列描述中属于特征选择的优点有（）。A、解决模型自身的缺陷B、减少过拟合C、提升模型的性能D、增强模型的泛化能力【正确答案】：BCD解析：

特征选择无法克服模型自身的缺陷，二者是独立的。39.下列属于大数据的资产属性体现的方面有（）。A、具有劳动增值B、涉及法律权属C、具有财务价值D、涉及道德与伦理【正确答案】：ABCD解析：

大数据的资产属性体现在具有劳动增值、涉及法律权属、具有财务价值、涉及道德与伦理。40.完整性约束通常包括（）。．A、实体完整性B、域完整性C、参照完整性D、用户定义完整性【正确答案】：ABCD解析：

在关系数据库中，完整性约束通常包括：①实体完整性：规定表的每一行在关系表中是唯一的实体。②域完整性：指关系表中的列必须满足某种特定的数据类型约束，其中约束又包括取值范围、精度等规定。③参照完整性：指两个关系表的主关键字和外关键字的数据应一致，保证了表之间的数据的一致性，防止了数据丢失或无意义的数据在数据库中扩散。④用户定义的完整性：不同的关系数据库系统根据其应用环境的不同，往往还需要一些特殊的约束条件。用户定义的完整性即针对某个特定关系数据库的约束条件，它反映某一具体应用必须满足的语义要求。41.下列说法中正确的有（）。A、云计算的主要特点是非常昂贵B、大数据是多源、异构、动态的复杂数据，即具有4V特征的数据C、大数据是数据科学的研究对象之一D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件（或算法）【正确答案】：BCD解析：

云计算的一个重要优势在于其经济性。与其他计算模式不同的是，云计算的出发点是如何使用成本低的商用机（而不是成本很高的高性能服务器）实现强大的计算能力。42.假设一个随机变量服从正态分布，则与随机变量的概率分布有关的有（）。A、众数B、频数C、平均值D、方差【正确答案】：CD解析：

正态分布一般用均值和方差来刻画。43.传统关系数据库的优点包括（）。A、数据一致性高B、数据冗余度低C、简单处理的效率高D、产品成熟度高【正确答案】：ABD解析：

略。44.已定义级（DefinedLevel）的主要特点包括（）。A、组织机构已明确给出了关键过程的标准定义，并定期对其进行改进B、已提供了关键过程的测量与预测方法C、关键过程的执行过程并不是简单或死板地执行组织机构给出的标准定义，而是根据具体业务进行了一定的裁剪工作D、数据的重要性已成为组织机构层次的共识，将数据当作成功实现组织机构使命的关键因素之一【正确答案】：ABCD解析：

DMM的已定义级（DefinedLevel）：组织机构已经定义了自己的标准关键过程。其主要特点如下：①组织机构已明确给出了关键过程的标准定义，并定期对其进行改进；②已提供了关键过程的测量与预测方法；③关键过程的执行过程并不是简单或死板地执行组织机构给出的标准定义，而是根据具体业务进行了一定的裁剪工作；④数据的重要性已成为组织机构层次的共识，将数据当作成功实现组织机构使命的关键因素之一。45.以数据为中心是数据产品区别于其他类型产品的本质特征，表现方面有（）。A、数据驱动B、数据密集型C、数据范式D、数据可视化【正确答案】：ABC解析：

以数据为中心是数据产品区别于其他类型产品的本质特征。数据产品的以数据中心的特征不仅体现在以数据为核心生产要素，而且还主要表现在数据驱动、数据密集和数据范式。46.下列关于数据产品研发的说法错误的有（）。A、从加工程度看，可以将数据分为一次数据、二次数据和三次数据B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C、二次数据是对一次数据进行深度处理或分析后得到的增值数据D、三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的洞见数据【正确答案】：ABD解析：

二次数据是一种按照信息的生产过程和加工深度进行对信息进行分类的，是指根据特定的需求，对一次信息进行加工、分析、改编、重组、综合概括生成的信息。47.下列关于探索型数据分析常用图表的说法正确的有（）。A、绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B、探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C、在探索型数据分析时应该尽量避免使用饼图，然而在数据报告中可以使用饼图达到更加美观的效果D、直方图和箱型图都可以用来展示数据的分布情况【正确答案】：BCD解析：

数据之间的特征和对比使用条形图可更加直观地展示数据。48.下列描述中正确的有（）。A、统计学是数据科学的理论基础之一B、Python语言是统计学家发明的语言C、机器学习是数据科学的理论基础之一D、数据科学是统计学的一个分支领域（子学科）【正确答案】：AC解析：

Python发明者是GuidoVanRossum，并非为统计学家；数据科学是一门独立学科，已经超出了统计学一个学科的研究范畴，并非为统计学的一个分支。49.下列关于连续型随机变量以及连续型概率密度函数的说法正确的有（）。A、一个客服一天可能接听到多少个电话是一个连续型随机变量B、正态分布是一种连续型随机变量的概率分布C、可以使用概率密度函数来描述连续型随机变量的概率分布D、连续型概率密度函数曲线下方的面积之和为1【正确答案】：BCD解析：

一个客服一天可能接听到多少个电话是一个离散型随机变量。50.Analytics1.0的主要特点有（）。A、分析活动滞后于数据的生成B、重视结构化数据的分析C、以对历史数据的理解为主要目的D、注重描述性分析【正确答案】：ABCD解析：

著名管理学家Thomas·H·Davemport于2013年在《哈佛商业论坛（HarvaBusinessReview）》上发表一篇题为《第三代分析学（Analytics3.0）》的论文，将数据分析的法、技术和工具-分析学（Analytics）分为三个不同时代-商务智能时代、大数据时代数据富足供给时代，即Analytics1.0、Analytics2.0和Analytics3.0。其中，Analytics1.0是商智能时代（1950～2000年），Analytics1.0中常用的工具软件为数据仓库及商务智能类软件，般由数据分析师或商务智能分析师负责完成。Analytics1.0的主要特点有分析活动滞后于数据的生成、重视结构化数据的分析、以对历史数据的理解为主要目的、注重描述性分析。51.异常值的检测方法有（）。A、直接通过数据可视化进行观察B、通过统计分布进行判断C、通过相对距离进行度量D、通过相对密度进行度量【正确答案】：ABCD解析：

异常值的检测方法有直接通过数据可视化进行观察、通过统计分布进行判断、通过相对距离进行度量、通过相对密度进行度量。52.数据科学项目主要涉及的活动包括（）。A、模式／模型的应用及维护B、模式／模型的洞见C、结果的可视化与文档化D、模式／模型的验证和优化【正确答案】：ABCD解析：

数据科学项目是由从项目目标的定义到模式／模型的应用及维护的一系列双

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据题库-数据理论基础复习测试卷附答案

文档简介

温馨提示

最新文档

评论

大数据题库-数据理论基础复习测试卷附答案

文档简介

温馨提示

最新文档

评论

相关文档