版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页大数据复习测试有答案1.下列对Numpy和pandas的理解不正确的是()A、.numpy是基础数据类型,pandas是扩展数据类型B、numpy关注数据的结构表达,pandas关注数据的应用表达C、pandas基于numpy构建,性能不如numpy,应避免使用D、numpy中使用维度表达数据间的关系,pandas中关注于数据与索引之间的关系【正确答案】:C解析:
这道题考察的是对Numpy和pandas库的理解。Numpy是Python的一个开源的数值计算扩展,提供了大量的数学函数工具,是Python科学计算的基础包。Pandas是基于Numpy的一种工具,提供了快速、灵活和富有表达力的数据结构,旨在使“关系”或“标签”数据的处理工作变得既简单又直观。它旨在成为高级数据分析和操作的必备工具,其性能已经足够优化,不应简单避免使用。A选项,numpy提供的是多维数组对象及派生对象(如:掩码数组和矩阵)和用于数组快速操作的各种API,是基础数据类型;pandas提供了DataFrame等高级数据结构和数据分析工具,是扩展数据类型。A选项正确。B选项,numpy主要关注数据的结构表达,如数组的形状、维度等;而pandas则更关注数据的应用表达,如数据的清洗、转换、合并等操作。B选项正确。C选项,pandas确实是基于numpy构建的,但说其性能不如numpy并应避免使用是不准确的。pandas在数据处理方面提供了很多便利,且其性能在很多情况下已经足够优化。C选项错误。D选项,numpy使用维度来表达数据间的关系,如二维数组中的行和列;而pandas则更关注于数据与索引之间的关系,如DataFrame中的行索引和列索引。D选项正确。综上所述,不正确的理解是C选项。2.下列关于转换描述不正确的是()A、转换完成基本的数据转换B、转换主要由步骤和跳构成C、转换中的步骤基本同时启动D、转换中的步骤会等前一个步骤执行完成后才会执行【正确答案】:D解析:
这道题考察的是对数据转换(ETL过程中的一部分)的理解。在ETL(提取、转换、加载)过程中,转换是核心环节,它负责将数据从一种格式或结构转换为另一种。转换确实主要由步骤和跳构成,步骤定义了具体的转换操作,而跳则定义了步骤之间的执行顺序。转换中的步骤并不总是同时启动,而是根据跳的定义,可能顺序执行,也可能并行执行。因此,选项D中的描述“转换中的步骤会等前一个步骤执行完成后才会执行”是不准确的,因为步骤的执行顺序取决于跳的定义。3.设a=np.array([[1,2,3],[4,5,6]]),则a.ndim的值是()A、6B、2C、3D、1【正确答案】:B4.以下说法错误的是()A、主成分分析.属性子集选择为维归约方法.B、直方图.聚类.抽样和数据立方体聚集为数量归约方法。C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。D、数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。【正确答案】:C解析:
这道题考察的是对数据归约方法的理解。主成分分析、属性子集选择确实属于维归约方法,直方图、聚类、抽样和数据立方体聚集是数量归约方法,这些都是数据归约的常见手段,用于减少数据量同时尽量保持数据特性。数据归约的目的是为了获得一个精简但保持原有数据集完整性的数据集,以提高数据挖掘效率,同时保证挖掘结果的一致性。而C选项的说法,用于规约的时间通常不会超过或抵消在规约后的数据上挖掘节省的时间,这是不合逻辑的,因为数据归约的主要目的就是为了提高效率。5.在pandas中,下列哪个方法不能完成值转换()A、mapB、fillnaC、replaceD、reindex【正确答案】:D解析:
这道题考察的是对pandas库中数据转换方法的理解。在pandas中,`map`方法可以用于将一个函数应用于Series中的每一个元素,实现值的转换;`fillna`方法用于填充NA/NaN值,也可以看作是一种值转换;`replace`方法用于替换数据中的值,同样能实现值转换。而`reindex`方法主要用于改变DataFrame或Series的索引,与值转换无关。因此,不能完成值转换的方法是`reindex`,选项D正确。6.设a=np.array([[1,2,3],[4,5]]),则a.size的值是()A、6B、3C、2D、5【正确答案】:C7.处理噪声的方法一般有()A、分箱B、回归C、聚类D、以上都是【正确答案】:D8.影响数据质量问题的因素有哪些()A、准确性.完整性.一致性B、相关性.时效性C、可信性.可解释性D、以上都是【正确答案】:D解析:
这道题考察对数据质量问题的全面理解。数据质量涉及多个方面,包括数据的准确性(数据值是否正确)、完整性(数据是否完整无缺失)、一致性(数据在不同来源或时间点是否保持一致)。同时,数据的相关性(数据是否与目标问题相关)、时效性(数据是否及时更新)也是重要的考量因素。可信性(数据是否可靠)和可解释性(数据是否易于理解)同样对数据质量有重要影响。因此,所有这些因素共同构成了影响数据质量问题的全面考量,答案选D。9.下列关于转换描述不正确的是()A、转换由步骤.跳和注释组成B、转换里的步骤按照跳定义的顺序依次执行C、转换里的步骤几乎同时启动D、转换是完成针对数据的基础转换【正确答案】:B解析:
这道题考察的是对ETL(提取、转换、加载)过程中“转换”概念的理解。在ETL中,转换通常指的是对数据进行处理和修改的过程。转换确实可以包含步骤、跳(用于控制流程)和注释。转换的步骤并不一定是按照跳定义的顺序依次执行,而是可以根据跳的逻辑进行条件分支或循环等复杂控制,因此B选项的描述是不准确的。转换里的步骤通常是依次执行,而不是“几乎同时启动”,所以C选项描述也不准确,但题目要求选出不正确的描述,B选项的不准确性更为明显。转换确实是完成针对数据的基础转换,这是转换的基本定义。综上所述,B选项描述不正确。10.处理文本文件如果出现乱码现象,应该查看()A、文件编码B、打开模式C、是否指定了合适的分隔符D、是否指定了合适的字段长度【正确答案】:A解析:
这道题考察的是处理文本文件时遇到乱码现象的原因。乱码通常是由于文件编码与查看或编辑该文件的程序所使用的编码不匹配造成的。因此,遇到乱码时,首先应该检查的是文件的编码方式。选项A“文件编码”正是解决乱码问题的关键所在。其他选项如打开模式、分隔符、字段长度等,虽然也是处理文本文件时需要考虑的因素,但与乱码现象无直接关联。11.在2020年6月1日,学生张三提供了紧急联系人的相关信息随后学校的管理团队与2020年6月4日将其输入学生数据库从提交信息到录入数据库,中间延迟了3天,此案例体现了数据质量的哪一特性?A、准确性B、完整性C、唯一性D、及时性【正确答案】:D解析:
这道题考察的是对数据质量特性的理解。数据质量有多个维度,包括准确性、完整性、唯一性和及时性。根据题干描述,学生张三提供了紧急联系人的信息,但学校管理团队在3天后才将其录入数据库,这明显体现了数据处理的延迟,即数据没有及时被处理。因此,这个案例体现了数据质量的“及时性”特性。12.pandas的很多方法都会返回一个新的DataFrame,如果希望方法进行数据的原地修改,可以设置以下哪个参数()A、inplaceB、axisC、indexD、columns【正确答案】:A解析:
这道题考察的是pandas库中DataFrame对象方法的使用。在pandas中,很多方法默认返回一个新的DataFrame对象,而不是修改原始对象。如果想要在原地修改数据,即不创建新的DataFrame,而是直接修改原始DataFrame,需要设置参数`inplace=True`。因此,正确答案是A。13.pandas中用于去重的操作是()A、duplicatedB、get_dummiesC、drop_duplicatesD、pivot【正确答案】:C解析:
这道题考察的是对pandas库中数据去重操作的理解。在pandas中,`drop_duplicates`方法用于去除数据中的重复行,保留第一次出现的行。`duplicated`方法用于标记重复的行,返回布尔值。`get_dummies`用于将分类变量转换为哑变量/指标矩阵。`pivot`用于重塑、透视和创建派生数据,不是用于去重的。因此,正确答案是C。14.pandas中提供的计算哑变量的函数是()A、get_dummiesB、concatC、pivotD、is_na【正确答案】:A解析:
这道题考察的是对pandas库中函数功能的了解。在pandas中,`get_dummies`函数用于将分类变量转换为哑变量(或称为指示器变量),这是处理分类数据时常用的技术。而`concat`用于合并数据,`pivot`用于重塑数据,`is_na`用于检测数据中的缺失值。因此,正确答案是A。15.下列表达式正确表达一个非数字字符的是()A、\DB、\dC、[0-9]D、[0123456789]【正确答案】:A16.设df=pd.DataFrame(np.arange(12).reshape((3,4))),以下语句出错的是()A、df[1]=12B、df[:2]=12C、df[1]=[8,7,8]D、df[1]=[9,8,8,8]【正确答案】:D解析:
这道题考察的是对Pandas库中DataFrame对象操作的理解。首先,创建一个3行4列的DataFrame对象df。接着分析每个选项:A.`df[1]=12`:将第二列的所有值设置为12,这是正确的。B.`df[:2]=12`:将前两行的所有值设置为12,这也是正确的。C.`df[1]=[8,7,8]`:将第二列的值设置为[8,7,8],长度与DataFrame的行数相匹配,因此是正确的。D.`df[1]=[9,8,8,8]`:尝试将第二列的值设置为[9,8,8,8],但这里列表的长度是4,而DataFrame只有3行,因此会引发错误。因此,选项D是错误的。17.正则表达式[a-z].*3可以配置abc3abc3a3几次()A、0B、1C、2D、3【正确答案】:B18.以下不属于数据集成的方法是()A、联邦数据库B、中间件集成C、数据复制D、数据压缩【正确答案】:D解析:
这道题考察对数据集成方法的了解。数据集成是指将不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。联邦数据库、中间件集成和数据复制都是常见的数据集成方法,它们分别通过不同的技术手段实现数据的统一管理和访问。而数据压缩是一种减少数据存储空间或传输时间的技术,并不属于数据集成的方法。因此,选项D是不属于数据集成的方法。19.下列关于为什么要做数据清理描述错误的是()A、数据有重复B、数据有错误C、数据有缺失D、数据量太大【正确答案】:D20.在Kettle中,如果定义了变量hostname,则在程序中调用的形式为()A、%hostname%B、${hostname}C、hostnameD、"hostname"【正确答案】:B解析:
这道题考察的是对Kettle中变量调用方式的理解。在Kettle中,变量是通过特定的语法来调用的,这是为了区分变量名和普通的字符串。根据Kettle的官方文档和常规使用习惯,变量在程序中的调用形式为"${变量名}"。因此,对于题目中定义的变量hostname,正确的调用形式应为"${hostname}"。21.下列关于数据清理描述错误的是()A、数据清理能完全解决数据质量差的问题B、数据清理在数据分析过程中是不可或缺的一个环节C、数据清理的目的是提高数据质量D、可以借助Kettle来完成大量的数据清理工作【正确答案】:A22.在大部分数据项目中,下列哪个环节占用的时间最长()A、数据预处理B、数据分析C、数据可视化D、数据导入导出【正确答案】:A解析:
这道题考察的是对数据项目各环节时间占用的理解。在数据科学项目中,数据预处理包括清洗、转换、集成等多个步骤,通常是最耗时的一环,因为它涉及对原始数据的整理,使其适合后续分析。相比之下,数据分析和数据可视化虽然重要,但通常耗时较短。数据导入导出则是一个相对快速的过程。因此,数据预处理是这四个环节中占用时间最长的。23.设df=pd.DataFrame(np.arange(12).reshape((3,4))),以下语句出错的是()A、df[1]=12B、df[:2]=12C、df[1]=[8,8,8]D、df[1]=[8,8,8,8]【正确答案】:D解析:
这道题考察的是对Pandas库中DataFrame对象操作的理解。在Pandas中,DataFrame的行和列可以通过标签、位置或布尔索引来访问和修改。A选项:`df[1]=12`,这是正确的,它将第二列的所有值设置为12。B选项:`df[:2]=12`,这也是正确的,它将前两行的所有列的值设置为12。C选项:`df[1]=[8,8,8]`,这是正确的,它将第二列的值设置为列表[8,8,8],列表的长度与DataFrame的行数相匹配。D选项:`df[1]=[8,8,8,8]`,这是错误的,因为列表的长度(4)超过了DataFrame的行数(3),这会导致长度不匹配的错误。因此,答案是D。24.下列表达式能匹配到偶数的是()A、\d*[^13579]B、\b\d*[02468]\bC、\d*[02468]D、\d+[02468]【正确答案】:B25.数据仓库的数据是随着时间变化而变化的,以下说法不正确的是()A、数据仓库随着时间变化不断增加新的数据内容。B、数据库随着时间变化不断删去旧的数据内容。C、数据仓库中包含大量的汇总数据,这些数据中很多跟时间相关,因此这些数据要随着时间的变化不断地进行重新汇总。D、所着时间的更新,源数据里的数据可能会更新,这时需要更新数据仓库中的数据。【正确答案】:D解析:
这道题考察对数据仓库特性的理解。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。A选项正确,因为数据仓库是随时间不断积累数据的,新的数据内容会被不断增加进去。B选项错误,因为数据仓库的特点是数据的稳定性,它不会随时间删除旧的数据内容,而是保留历史数据以供分析。C选项正确,数据仓库中包含大量的汇总数据,这些数据往往与时间相关,并需要随时间变化进行重新汇总。D选项的表述虽然接近实际操作,但在此题的语境下被视为不正确,因为题目要求选出“不正确”的说法。实际上,在数据仓库的维护中,确实需要定期更新数据以反映源数据的变化,但这与B选项的错误性质不同,B选项的错误在于对数据仓库特性的误解。综上所述,B选项是不正确的说法,因为它违背了数据仓库数据稳定性的核心特性。26.pandas的很多方法都有指定轴向的参数,是()A、inplaceB、axisC、lablesD、sort【正确答案】:B解析:
这道题考察的是对pandas库中方法参数的理解。在pandas库中,很多方法都包含指定轴向的参数,这个参数通常用于指定操作是沿着行还是列进行。根据pandas的官方文档和常见用法,这个参数是`axis`,其中`axis=0`代表沿着行的方向(纵向),`axis=1`代表沿着列的方向(横向)。因此,正确答案是B。27.Kettle提供了轻量级的HTTP服务器,用于远程执行作业和转换或在集群中并行执行作业和转换,它是()A、PanB、SpoonC、KitchenD、Carte【正确答案】:D解析:
这道题考察的是对Kettle工具组件的理解。Kettle是一个开源的ETL工具,它提供了多个组件用于数据处理。其中,Carte是Kettle提供的一个轻量级的HTTP服务器,它允许用户远程执行作业和转换,或者在集群环境中并行执行作业和转换。根据这个知识点,我们可以确定答案是D。28.在pandas的merge函数中,下列哪个参数不是用来指定连接键的()A、onB、left_on.right_onC、left_index.right_indexD、suffixes【正确答案】:D解析:
这道题考查对pandas中merge函数参数的理解。在merge函数中,on、left_on/right_on、left_index/right_index都可用于指定连接键。而suffixes参数主要用于处理合并时列名冲突的后缀,并非用于指定连接键。所以这道题应选D选项。29.下列表达式中没有正确表达"以p开始,后跟至少一个y的字符串"的是()A、py+B、pyy*C、py{1,}D、py?【正确答案】:D解析:
这道题考察的是正则表达式的基本语法和含义。-A选项`py+`表示"p"后跟至少一个"y",符合题目要求。-B选项`pyy*`表示"p"后跟至少一个"y"(因为`y*`表示0个或多个"y",但前面已经有一个"y"了,所以至少有一个),也符合题目要求。-C选项`py{1,}`表示"p"后跟至少一个"y"(`{1,}`表示至少1个),同样符合题目要求。-D选项`py?`表示"p"后跟0个或1个"y",这与题目要求的"至少一个y"不符。因此,D选项没有正确表达题目要求的字符串模式。30.某公司入职申请表上记录了职工年龄记录,规定年龄需要在18到60之间。假设某条记录为61或N/A,将被视为数据失效。此案例体现了数据质量的哪一特性?A、准确性B、完整性C、唯一性D、及时性【正确答案】:A解析:
这道题考察的是对数据质量特性的理解。数据质量包括多个方面,其中“准确性”指的是数据值与其真实值之间的接近程度。在这个案例中,年龄记录超出规定范围(18到60岁)或被标记为“N/A”,都被视为数据失效,这直接指向了数据准确性的问题。因此,正确答案是A,即“准确性”。31.下列CDC方案不具有侵入性的是()A、基于源数据B、基于快照C、基于日志D、基于触发器【正确答案】:C解析:
这道题考察的是对数据变更捕获(CDC)方案的理解。CDC技术用于捕获数据库中的数据变更,并将这些变更数据提供给其他系统或应用。其中,“基于日志”的CDC方案是通过读取数据库的日志文件来获取数据变更信息,这种方式不需要对数据库进行侵入性操作,如修改数据库结构或增加额外的数据库负载。因此,选项C“基于日志”是不具有侵入性的CDC方案。32.下列关于转换和作业说法不正确的是()A、转换可以调用转换B、作业可以调用转换C、作业可以调用作业D、转换可以调用作业【正确答案】:D解析:
这道题考察的是对ETL(提取、转换、加载)过程中转换和作业之间调用关系的理解。在ETL工具中,通常转换是用来处理数据的,作业则是用来调度和管理任务的。转换可以调用其他转换,以实现复杂的数据处理逻辑,作业可以调用转换来执行数据处理任务,也可以调用其他作业来组织和管理任务流程。但是,转换通常不直接调用作业,因为作业是用来控制和管理整个ETL流程的,而不是被单个转换所调用。所以,选项D“转换可以调用作业”是不正确的。33.以下说法错误的是()A、雪花模型有多个相互依赖的维表,加载时要注意先后顺序B、雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同的多张表C、雪花模型的主维表和次维表之间是N对1的关系D、事实表和维表之间通过业务键关联【正确答案】:D解析:
这道题考察的是对数据仓库中雪花模型的理解。雪花模型是数据仓库设计中的一种模式,它扩展了星型模型,允许维度表进一步细分为更小的、更具体的表。A选项正确,雪花模型确实包含多个相互依赖的维表,加载时确实需要注意先后顺序。B选项也正确,雪花模型是在星型模型的基础上扩展而来的,允许每个维度进一步细分为更多的维度,形成颗粒度不同的多张表。C选项描述准确,雪花模型中的主维表和次维表之间确实是N对1的关系,即多个次维表可以与一个主维表相关联。D选项错误,事实表和维表之间通常是通过外键关联的,而不是业务键。业务键是业务系统中的唯一标识符,而外键是数据仓库中用于关联事实表和维表的键。因此,答案是D。34.下列哪个元字符标识了单词边界()A、^B、$C、\BD、\b【正确答案】:D解析:
这道题考察的是正则表达式中的元字符知识点。在正则表达式中,元字符有特殊的意义,用于定义搜索或匹配文本的规则。对于单词边界的标识,我们知道:-`^`表示行的开始。-`$`表示行的结束。-`\B`表示非单词边界。-`\b`正是表示单词边界。因此,根据题目要求,标识单词边界的元字符是`\b`,所以正确答案是D。35.以下说法不正确的是()A、查找维度时,要正确的查找代理键B、查找维度时,注意数据完整性问题C、数据延迟指的就是维度表数据延迟D、先加载维度表,接着加载事实表【正确答案】:C解析:
这道题考察的是对数据仓库中维度表相关操作的理解。在数据仓库设计中,维度表是用来存储维度的详细信息的,而事实表存储的是与维度相关的度量值。A选项提到“查找维度时,要正确的查找代理键”,这是正确的,因为代理键是维度表中用来唯一标识每一行的键。B选项说“查找维度时,注意数据完整性问题”,这也是正确的,因为数据完整性是数据仓库设计中的一个重要考虑因素。C选项表述“数据延迟指的就是维度表数据延迟”,这是不正确的。数据延迟可以存在于维度表,也可以存在于事实表,或者两者都存在。因此,不能将数据延迟仅仅归结为维度表的数据延迟。D选项“先加载维度表,接着加载事实表”是正确的,因为在数据仓库的加载过程中,通常需要先加载维度表,以便在加载事实表时能够正确地关联维度信息。综上所述,不正确的说法是C选项。36.数据归约的方法有()A、维归约B、数量归约C、数据压缩D、以上都是【正确答案】:D37.数据集成的过程中需要处理的问题有()A、实体识别B、冗余与相关性分析。C、数据冲突和检测D、以上都是【正确答案】:D38.转换创建并保存后的文件后缀名是()A、*.ktrB、*.kpjC、*.kjrD、*.kjb【正确答案】:A解析:
这道题考察的是对特定软件或工具操作后生成文件后缀名的了解。在多种软件和工具中,执行转换操作并保存后,生成的文件通常会有特定的后缀名。根据常见的文件后缀名知识,转换创建并保存后的文件后缀名往往是“.ktr”。这是因为在很多应用场景中,“.ktr”被用作表示转换后文件的标识。39.下列说法错误的是()A、数据仓库就是数据库。B、业务键通常来源于业务系统C、事实表加载前,先加载维表D、星型模型的各个维表之间没有依赖关系【正确答案】:A解析:
这道题考察的是对数据仓库相关概念的理解。数据仓库与数据库虽然都是存储数据的,但它们在结构、用途等方面存在显著差异。业务键确实通常来源于业务系统,用于标识业务实体。在数据仓库的加载过程中,通常先加载维表,再加载事实表,以确保数据的一致性。星型模型是一种常见的数据仓库模型,其中各个维表之间确实没有依赖关系,它们都是围绕事实表展开的。因此,选项A的说法是错误的。40.学校要求新生家长填一份表格,里面要填写学生的姓名.地址和出生日期。到新学期的第一周结束的时候,对表格中的“紧急联系电话”这个字段进行完整性度量。学校有300名学生,在300个潜在记录中有294个记录被填写。此案例体现了数据质量的哪一特性?()A、准确性B、完整性C、唯一性D、一致性【正确答案】:B解析:
这道题考察的是对数据质量特性的理解。数据质量包括多个方面,其中“完整性”指的是数据的全面性和无缺失。根据题目描述,学校要求填写的表格中“紧急联系电话”这一字段,在300个潜在记录中有294个被填写,这体现了数据的完整性度量。因此,正确答案是B,即“完整性”。41.下列表达式不能匹配字符串abc123的是()A、\w+B、\w{3,}C、\w{3,}\dD、\w{3,}+\d【正确答案】:D42.将两个DataFrame串接在一起使用下列哪个方法()A、mergeB、concatC、joinD、get_dummies【正确答案】:B解析:
这道题考察的是对Pandas库中DataFrame操作的理解。在Pandas中,`concat`函数用于沿着一条轴将多个对象堆叠到一起,这正是将两个DataFrame串接在一起的操作。而`merge`用于根据一个或多个键将不同DataFrame的行连接起来,`join`也是用于合并两个或多个DataFrame,但更多是基于索引的合并,`get_dummies`则是用于将分类变量转换为哑变量/指示器变量。因此,正确答案是B。43.设df=pd.DataFrame(np.arange(12).reshape(3,4),index=range(3,0,-1)),下列哪个语句返回的值不为空()A、df.iloc[3:1]B、df.loc[3:1]C、df.iloc[1:1]D、df.loc[3:1:-1]【正确答案】:B解析:
这道题考察的是对pandas库中DataFrame对象索引的理解。首先,我们创建一个DataFrame对象df,其索引为[3,2,1]。对于选项A,`df.iloc[3:1]`尝试访问不存在的索引3到1,返回空。对于选项B,`df.loc[3:1]`使用标签索引,返回索引3到1的所有行,即整个DataFrame,不为空。对于选项C,`df.iloc[1:1]`尝试访问索引1到1,但Python切片是左闭右开的,所以返回空。对于选项D,`df.loc[3:1:-1]`尝试逆序访问索引,但步长为-1时,起始索引应小于结束索引,所以返回空。因此,正确答案是B。44.下列关于作业描述不正确的是()A、作业由作业项.跳和注释组成B、作业里不能设计循环路径C、作业里必须包含一个且只能有一个START作业项D、作业项通常按定义的顺序依次执行【正确答案】:B解析:
这道题考察的是对作业(如计算机程序或生产流程中的作业)的基本组成和规则的理解。A选项描述的是作业的基本组成,作业确实由作业项、跳和注释组成,这是正确的。B选项说“作业里不能设计循环路径”,这是不正确的。在实际应用中,作业里是可以设计循环路径的,比如循环执行某个操作,直到满足特定条件。C选项指出“作业里必须包含一个且只能有一个START作业项”,这是正确的。START作业项表示作业的开始,每个作业都应该有一个明确的起点。D选项说“作业项通常按定义的顺序依次执行”,这也是正确的。作业项的执行顺序是根据作业的定义来确定的,通常按照定义的顺序依次执行。综上所述,不正确的描述是B选项。45.以下说法错误的是()A、时间.日期维属于生成维B、混合维较少用,实现比缓慢变化维中的类型1.类型2.类型3三种类型复杂。C、杂项维的属性通常可以分为特定的几个分类D、类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录【正确答案】:C解析:
这道题考察的是对数据仓库中维度类型的理解。生成维通常是基于事务或事件的时间、日期等自然属性构建的,所以A选项正确。混合维确实实现起来较为复杂,不如缓慢变化维中的类型1、类型2、类型3直观,因此B选项也是正确的。类型2缓慢变化维在更新时不会覆盖旧版本,而是保留历史记录,生成新的记录,D选项描述准确。而C选项提到的“杂项维的属性通常可以分为特定的几个分类”,这并不是一个普遍适用的规则,杂项维的属性分类取决于具体的业务需求和设计,因此C选项是错误的。46.下列哪个元字符表示非单词字符()A、\wB、\WC、\dD、\s【正确答案】:B解析:
这道题考察的是正则表达式中的元字符含义。在正则表达式中,元字符具有特定的含义,用于匹配字符串中的特定模式。其中,`\w`表示匹配任何单词字符,`\W`表示匹配任何非单词字符,`\d`表示匹配任何数字,`\s`表示匹配任何空白字符。根据题目要求,表示非单词字符的元字符是`\W`,因此正确答案是B。47.下列关于开始作业项描述不正确的是()A、一个作业中有且仅有一个开始作业项B、一个作业中至少有一个开始作业项C、开始作业项标识了作业的起点D、开始作业项可以做定时调度【正确答案】:B解析:
这道题考察的是对作业调度中“开始作业项”概念的理解。在作业调度中,开始作业项是一个重要的概念,它标识了作业的起点,并且在一个作业中,开始作业项是唯一的,意味着一个作业只能有一个起点。同时,开始作业项也可以进行定时调度,以满足特定的作业执行需求。根据这些知识点,我们可以分析每个选项:A.正确,一个作业中有且仅有一个开始作业项,这是作业调度的基本要求。B.错误,一个作业中只能有一个开始作业项,而不是“至少有一个”。C.正确,开始作业项确实标识了作业的起点,这是它的基本功能。D.正确,开始作业项可以进行定时调度,以满足特定的作业执行时间要求。综上所述,选项B描述不正确,因为它违反了作业调度中关于开始作业项的唯一性原则。48.对多级索引数据,Pandas的下列哪种方法将数据集的行旋转为列()。A、stackB、unstackC、pivotD、replace【正确答案】:B解析:
这道题考察的是Pandas库中处理多级索引数据的方法。在处理多级索引(也称为层次化索引)时,`unstack`方法可以将数据的行旋转为列,即将最内层索引“旋转”到列标签上,形成一个新的DataFrame。而`stack`方法则是将列旋转为行,`pivot`用于重塑数据,`replace`用于替换数据中的值。因此,正确答案是B。49.csv文件导入步骤不能处理以下什么哪种类型的文件()A、逗号分隔的文本文件B、两个冒号分隔的文本文件C、分隔符是正则表达式[,,:;]的文本文件D、每个字段固定宽度的文本文件【正确答案】:D解析:
这道题考察的是对csv文件导入步骤的理解。csv文件导入主要处理的是分隔符分隔的文本文件。选项A是逗号分隔的文本文件,显然csv可以处理。选项B是两个冒号分隔的文本文件,通过设置分隔符为冒号,csv导入也能处理。选项C的分隔符是正则表达式[,,:;]的文本文件,意味着文件可以用逗号、冒号或分号作为分隔符,csv导入同样可以处理。而选项D,每个字段固定宽度的文本文件,不是通过分隔符来分隔字段的,因此csv文件导入步骤不能处理这种类型的文件。50.在pandas的merge函数中,下列哪个参数用于设定重名列的后缀()A、onB、left_on.right_onC、left_index.right_indexD、suffixes【正确答案】:D解析:
这道题考察的是对pandas库中merge函数参数的理解。在pandas的merge函数中,用于设定重名列的后缀的参数是'suffixes'。这个参数允许用户为左右两个DataFrame中相同的列名添加后缀,以便在合并后的DataFrame中区分这些列。因此,正确答案是D。51.下列方法不是数据变换的有()A、光滑B、抽样C、规范化D、属性构造【正确答案】:B52.对多级索引数据,Pandas的下列哪种方法将数据集的列旋转为行()。A、stackB、unstackC、pivotD、replace【正确答案】:A解析:
这道题考察的是Pandas库中处理多级索引数据的方法。在处理多级索引(也称为层次化索引)时,`stack`方法可以将数据的列“压缩”到行索引中去,实现列到行的转换。而`unstack`方法则是将行索引“展开”到列中去,与题目要求相反。`pivot`方法用于重塑、透视或创建派生数据表,`replace`方法用于替换数据中的值。因此,根据题目要求,正确答案是A。53.下列关于pandas描述不正确的是()A、pandas是一个基于BSD开源协议的开源库,提供了用于python编程语言的高性能.易于使用的数据结构和数据分析工具。B、pandas是基于numpy构建的C、pandas最早是作为金融数据分析工具而开发出来。D、pandas最擅长处理字符串,在实际开发中经常用pandas来处理字符串【正确答案】:D解析:
这道题考察的是对pandas库的理解。pandas确实是一个基于BSD开源协议的开源库,提供了高性能、易于使用的数据结构和数据分析工具,所以A选项描述正确。pandas是基于numpy构建的,用于处理和分析数据,B选项也正确。pandas最初是作为金融数据分析工具而开发的,因此C选项描述也是准确的。至于D选项,pandas虽然可以处理字符串,但它最擅长的并不是处理字符串,而是数据处理和分析,因此D选项描述不正确。54.设df=pd.DataFrame(np.arange(12).reshape((3,4))),以下语句出错的是()A、df[5]=12B、df[0]=df[1]>3C、df[2]=df[5]+1D、df[5]=[8,8,8]【正确答案】:C解析:
这道题考察的是对Pandas库中DataFrame对象操作的理解。首先,我们创建一个3行4列的DataFrame对象df。接着分析每个选项:A.`df[5]=12`:此操作尝试给df添加一个新列,列名为5,所有值为12。这是合法的。B.`df[0]=df[1]>3`:此操作将df的第0列设置为df的第1列中大于3的元素对应为True,否则为False。这也是合法的。C.`df[2]=df[5]+1`:在执行此操作前,df中并不存在名为5的列,因此尝试访问`df[5]`会引发错误。所以,这个选项是错误的。D.`df[5]=[8,8,8]`:此操作尝试给df添加一个新列,列名为5,值为[8,8,8]。这是合法的。综上所述,选项C是错误的,因为在执行该操作前,df中并不存在名为5的列。55.下列CDC方案可以实时监测到源数据变化的是()A、基于源数据B、基于触发器C、基于日志D、基于快照【正确答案】:B解析:
这道题考察的是对数据变更捕获(CDC)方案的理解。在数据集成和同步领域,CDC技术用于捕获源数据库中的数据变化。基于触发器的CDC方案通过在源数据库上设置触发器来实时监测数据变化,每当数据发生变化时,触发器都会被激活并捕获这些变化。因此,选项B“基于触发器”是可以实时监测到源数据变化的CDC方案。56.Kettle在读取数据库时,如果出现中文乱码,可以设置以下哪个参数进行解决()A、hostB、characterEncodingC、serverTimeZoneD、user【正确答案】:B解析:
这道题考察的是对Kettle读取数据库时中文乱码问题的解决方法。在数据库操作中,如果出现中文乱码,通常是因为字符编码设置不正确。在Kettle中,可以通过设置`characterEncoding`参数来指定字符编码,从而解决中文乱码问题。因此,正确答案是B。57.下列CDC方案不能检测到物理删除的是()A、基于源数据B、基于快照C、基于日志D、基于触发器【正确答案】:A解析:
这道题考察的是对数据变更捕获(CDC)方案的理解。CDC技术用于捕获数据库中的数据变更,包括插入、更新和删除操作。-A选项“基于源数据”:直接访问源数据通常只能看到当前的数据状态,无法直接检测到历史变更,包括物理删除。-B选项“基于快照”:快照可以记录某一时刻的数据状态,通过比较不同时间点的快照,可以检测到物理删除。-C选项“基于日志”:数据库日志记录了所有的数据变更操作,包括物理删除,因此可以检测到。-D选项“基于触发器”:触发器可以在数据变更时执行特定的操作,包括记录物理删除事件,因此也能检测到物理删除。综上所述,A选项“基于源数据”是不能检测到物理删除的CDC方案。58.一家工厂现有1000名在职职工。但职工数据库显示了1001份不同的职工记录。其中两条记录除了名字王圆圆和王源源不同外,其他字段如住址.联系方式等全部相同,可能是将该职工使用了曾用名。此案例体现了数据质量的哪一特性?A、准确性B、完整性C、唯一性D、及时性【正确答案】:C解析:
这道题考察的是对数据质量特性的理解。数据质量的特性包括准确性、完整性、唯一性和及时性。在这个案例中,职工数据库出现了重复记录,即两条除了名字不同外其他都相同的记录,这明显违反了数据的唯一性要求。唯一性要求数据库中的每条记录都是独一无二的,不能有重复。因此,这个案例体现了数据质量的唯一性特性。59.转换里最基本的组成部分是(),它通过Hop(跳)进行连接。A、数据行B、步骤C、作业项D、注释【正确答案】:B解析:
这道题考察的是对转换(Transformation)概念的理解。在数据处理或工作流管理中,转换通常指的是一系列步骤或操作的集合,用于实现特定的数据处理或业务逻辑。在这些步骤之间,通常通过某种机制(如“跳”或“Hop”)进行连接和控制流程。因此,转换里最基本的组成部分是“步骤”,这些步骤通过“跳”进行连接,以定义和执行转换的逻辑。60.作业创建并保存后的文件后缀名是()A、*.ktrB、*.kpjC、*.kjrD、*.kjb【正确答案】:D解析:
这道题考察的是对特定软件或作业系统文件后缀名的了解。在多种作业创建和保存的场景中,文件后缀名用于标识文件的类型或格式。根据常见的作业管理系统或相关软件的文件命名规则,作业创建并保存后的文件通常使用“*.kjb”作为后缀名,这符合行业内的标准命名习惯。61.在使用kettle读取mysql数据库时,下列做法不正确的是()A、将mysql连接器下载到kettle的lib目录B、创建mysql数据库连接C、如果启动Kettle后,再mysql连接器已经下载到kettle的lib目录,可以不重启kettle,直接创建数据库连接D、创建mysql数据库连接时,一定要指定连接的名称【正确答案】:C解析:
这道题考察的是对Kettle读取MySQL数据库操作的理解。在使用Kettle时,确实需要将MySQL连接器下载到Kettle的lib目录下,以便Kettle能够识别并连接到MySQL数据库,这是选项A的内容,正确。接着,创建MySQL数据库连接是使用Kettle进行数据库操作的基本步骤,这是选项B的内容,也是正确的。在创建数据库连接时,指定连接的名称是一个好习惯,有助于在后续操作中快速识别和选择数据库连接,这是选项D的内容,同样正确。然而,如果MySQL连接器是在启动Kettle之后才下载到lib目录的,那么需要重启Kettle,以便它能够加载新的连接器,这是选项C的内容,是不正确的。因此,答案是C。62.对于使用固定分隔符分隔的文本文件,不能使用下列哪个步骤进行读取()A、CSVfileinputB、FixedfileinputC、TextfileinputD、JavaScript【正确答案】:B解析:
这道题考察的是对文本文件读取方法的理解。在处理使用固定分隔符分隔的文本文件时,通常会用到特定的读取方法。CSVfileinput(A选项)和Textfileinput(C选项)都是常见的读取固定分隔符文本文件的方法。而JavaScript(D选项)作为一种编程语言,也提供了读取和处理文本文件的能力。然而,Fixedfileinput(B选项)通常指的是读取固定长度字段的文件,而不是使用分隔符分隔的文件,因此不适用于本题描述的文本文件类型。所以正确答案是B。63.下列关于使用参照表清洗数据说法错误的是()A、有些数据无法从内部发现错误,需要结合外部的数据进行参照B、只要方法得当,数据内部是可以发现错误的,不需要借助参照表C、使用参数表可以校验数据的准确性D、使用参照表可以处理数据的一致性【正确答案】:B解析:
在数据清洗过程中,虽然通过适当的方法可以在数据内部发现一些错误,但参照表的使用仍然是非常重要的。参照表不仅可以用来校验数据的准确性,还可以帮助处理数据的一致性,特别是当数据内部检查无法识别出所有错误时,外部参照数据往往能够提供更多有价值的信息。因此,不能断言不需要借助参照表。64.下列哪种方法基于一个或多个键连接多个DataFrame中的行()。A、pivotB、concatC、mergeD、combine_first【正确答案】:C解析:
这道题考察的是对Pandas库中DataFrame操作的理解。在Pandas中,连接多个DataFrame的行通常使用几种不同的方法。其中,`merge`函数是基于一个或多个键来连接不同的DataFrame的行,它类似于SQL中的JOIN操作。而`pivot`是用于重塑数据的,`concat`是沿着一条轴将多个对象堆叠到一起,`combine_first`则是用于合并两个DataFrame,用第一个DataFrame中的非NA值填充第二个DataFrame中的NA值。因此,正确答案是C。65.下列哪个元字符表示非空白字符()A、\SB、\WC、\dD、\s【正确答案】:A解析:
这道题考察的是正则表达式中的元字符知识点。在正则表达式中,元字符有特定的含义,用于匹配特定的字符集合。其中,\S表示匹配任何非空白字符,包括字母、数字、标点符号等;\W表示匹配任何非单词字符,即除了字母、数字和下划线以外的字符;\d表示匹配任何数字;\s表示匹配任何空白字符,如空格、制表符、换行符等。因此,根据题目要求,表示非空白字符的元字符是\S,所以答案是A。66.以下说法错误的是()A、数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.B、数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。C、冗余数据的删除既是一种数据清理形式,也是一种数据归约。D、整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。【正确答案】:B解析:
这道题考察的是对数据预处理流程的理解。数据预处理确实包括数据清理、数据集成、数据变换与数据归约这些主要步骤。但这些步骤在实际操作中并不一定要严格按照顺序执行,可以根据具体的数据情况和需求灵活调整。因此,选项B的说法是错误的。其他选项A、C、D都是对数据预处理活动的正确描述。67.在一个转换里,步骤的名称要求具有唯一性,步骤与步骤之间的数据以()形式进行传递。A、数据行B、变量C、结果对象D、参数【正确答案】:A解析:
这道题考察的是对转换步骤间数据传递方式的理解。在数据处理或ETL(提取、转换、加载)流程中,步骤之间的数据传递是一个核心环节。通常,数据在这些步骤间以“数据行”的形式进行传递,确保数据的连续性和完整性。选项A“数据行”准确描述了这一传递方式,而其他选项如变量、结果对象或参数,虽然在数据处理中有所应用,但不是步骤间数据传递的主要形式。因此,正确答案是A。68.设a=np.array([[1,2,3],[4,5]]),则a.shape的值是()A、(2,)B、2C、(2,2)D、(2,3)【正确答案】:A69.正则表达式[a-z].*?3可以配置abc3abc3a3几次()A、0B、1C、2D、3【正确答案】:D解析:
这道题考察的是对正则表达式匹配规则的理解。正则表达式`[a-z].*?3`的含义是匹配以小写字母开头,后面跟着任意字符(包括0个),最后是一个数字3的字符串。在字符串"abc3abc3a3"中,这样的模式出现了三次,分别是"abc3"、"abc3"和"a3",所以答案是D。70.kettle中用来进行可视化编程的集成开发环境为()A、PanB、SpoonC、KitchenD、Carte【正确答案】:B解析:
这道题考察的是对Kettle工具中各个组件功能的了解。Kettle是一款开源的ETL工具,用于数据的抽取、转换和加载。其中,Spoon是Kettle提供的图形界面工具,用于进行可视化编程,它集成了开发环境,方便用户通过拖拽和配置的方式设计ETL流程。因此,正确答案是B。71.在pandas中,read_json方法读入json文本时,哪个参数指示了解释json字符串的格式()A、orientB、typC、path_or_bufD、dtype【正确答案】:A解析:
这道题考察的是对pandas库中read_json方法参数的理解。在pandas的read_json方法中,'orient'参数用于指示解释json字符串的格式,它决定了DataFrame的行和列如何从json数据中解析出来。其他选项,如'typ'、'path_or_buf'和'dtype',分别用于指定数据类型、文件路径或缓冲区以及列的数据类型,与题目要求的解释json字符串格式的功能不符。因此,正确答案是A。72.关于Dummy步骤说法错误的是()A、可以起一个临时汇总的作用B、可以做为以测试为目的的占位符C、Dummy在实际开发中不会用到D、在实际开发中可能需要Dummy步骤【正确答案】:C解析:
这道题考察的是对Dummy步骤的理解。Dummy步骤在软件开发中是一个常见的概念,它主要用于临时汇总或作为测试目的的占位符。在实际开发中,Dummy步骤是有其应用场景的,比如在进行模块测试或系统集成时,可能会使用Dummy步骤来模拟某些未完成的功能或数据。因此,选项C“Dummy在实际开发中不会用到”是错误的。73.在运行转换脚本时,如果发现最后的数据行数严重不足,可以借助下列哪个功能快速定位问题所在()A、查看步骤度量B、查看日志文件C、检查数据源D、检查字段类型【正确答案】:A解析:
这道题考察的是对数据处理过程中问题定位的理解。在运行转换脚本时,如果数据行数严重不足,通常意味着在某个处理步骤中出现了数据丢失。为了快速定位问题,需要查看每个步骤的处理度量,比如输入行数、输出行数等,从而确定是哪个步骤导致了数据丢失。因此,正确答案是A,查看步骤度量。1.在转换中,只能定义单向执行通道,不能设计成循环结构。()A、正确B、错误【正确答案】:A解析:
在数据转换或流程转换中,单向执行通道指的是信息或数据只能按照一个特定的方向流动,通常从起点到终点,中间没有循环或回溯的可能性。这种结构确保了转换过程的线性和一致性,有助于简化流程和提高效率。循环结构则允许数据或信息在达到某个点后重新返回并开始一个新的循环,这可能导致数据处理变得复杂,并可能引入不必要的重复或循环依赖。在某些转换场景中,为了避免数据重复处理或确保数据流的单向性,确实可能只设计单向执行通道,而不使用循环结构。然而,需要注意的是,这并不意味着在所有转换中都绝对不能使用循环结构。是否使用循环结构取决于具体的转换需求和场景。在某些情况下,循环结构可能是必要的或有益的。因此,题目中的叙述“在转换中,只能定义单向执行通道,不能设计成循环结构”是一个过于绝对的说法。实际上,是否使用单向执行通道或循环结构取决于具体的转换需求和应用场景。在某些转换中,确实可能只能定义单向执行通道,但这并不意味着在所有情况下都不能设计成循环结构。2.在转换或者作业中使用变量会增加脚本的复杂性,在开发过程中应该尽量避免使用。()A、正确B、错误【正确答案】:B解析:
在编程和脚本编写中,变量的使用是非常基础和重要的。变量能够存储和表示数据,使得代码更加灵活和可重用。通过使用变量,我们可以避免在代码中重复硬编码值,使得代码更易于维护和修改。尽管使用变量可能会在一定程度上增加脚本的复杂性,但这种复杂性是必要和有益的,因为它提高了代码的可读性和可维护性。在转换或作业中使用变量并不是应该避免的事情,相反,它是编程中的一个基本和重要的工具。3.事务事实表记录的是事务层面的事实,保存的是最原子的数据,也称“原子事实表”。()A、正确B、错误【正确答案】:A解析:
事务事实表在数据仓库中确实用于记录事务层面的细节数据,这些数据是最原子、最基础的数据记录,通常涵盖了业务过程中的每一次具体活动或交易。这种事实表因其详细和原子的特性,常被称为“原子事实表”。事务事实表的设计和使用是数据仓库构建中非常关键的部分,它有助于用户深入理解和分析业务活动的具体情况。4.在Kettle中,不存在单一的清洗步骤,清洗工作往往需要结合多个步骤才能组合完成。()A、正确B、错误【正确答案】:A解析:
在Kettle(也称为PentahoDataIntegration)中,数据清洗通常是一个复杂的过程,它确实不是通过单一的步骤就能完成的。这些步骤常常需要根据实际数据情况和需求进行组合和调整,以实现所需的数据清洗目标。在Kettle中,清洗工作确实需要结合多个步骤才能组合完成。5.在进行数据挖掘时,只要模型足够好,就算训练的数据质量不高,也能得到一个较好的模型()A、正确B、错误【正确答案】:B解析:
在进行数据挖掘时,模型的好坏并不仅仅取决于模型本身的复杂性或优化程度,更重要的是训练数据的质量。因此,高质量的训练数据是构建好模型的关键。仅仅依赖一个好的模型而不注重数据质量,往往会导致模型在真实环境中表现不佳,出现过拟合、欠拟合等问题。在进行数据挖掘时,除了需要选择合适的模型并进行优化外,还需要确保训练数据的质量和完整性,这样才能得到一个较好的模型。6.pivot在调用时,如果遇到index/cloumn对不一唯一时,会报错。()A、正确B、错误【正确答案】:A解析:
在数据处理和编程中,pivot操作通常用于将数据集从一种格式转换为另一种格式,例如从长格式转换为宽格式。在执行pivot操作时,通常需要指定index(行索引)和columns(列名),以定义新数据集的结构。如果指定的index/column对不是唯一的,也就是说,存在多个行具有相同的index和column组合,那么pivot操作通常会遇到问题,因为它无法确定如何将这些行合并成一个唯一的单元格。大多数数据处理库或工具在这种情况下会报错,因为它们无法处理这种不明确的情况。当执行pivot操作时,如果遇到index/column对不唯一的情况,通常会报错。7.pandas中,merge方法只能按列进行连接。()A、正确B、错误【正确答案】:B解析:
在pandas中,`merge`方法确实主要是用于按列进行连接,它可以根据两个DataFrame之间的共同列进行内连接、外连接、左连接或右连接。然而,这并不意味着`merge`方法只能按列进行连接。事实上,pandas提供了灵活的数据操作功能,虽然`merge`方法主要面向列的连接,但也可以结合其他方法,如`set_index`等,来实现基于行或其他条件的连接或匹配。`merge`方法主要用于按列进行连接,但并不意味着它只能按列进行连接。8.在kettle的设置界面,如果设置框的右边带有菱形的$符号,则可以在相应设置框中使用变量引用()A、正确B、错误【正确答案】:A解析:
在Kettle这个ETL工具中,其界面设计往往包含了许多用于配置和设置的功能选项。其中,设置框旁边的符号通常用来表示某种特定的功能或属性。当设置框的右边带有菱形的$符号时,这通常意味着该设置框支持变量引用。变量引用在ETL过程中是非常有用的功能,它允许用户定义一些可重复使用的值,并在需要的地方通过变量名来引用这些值。这样做的好处是可以提高配置的灵活性和可维护性。在Kettle的设置界面,如果设置框的右边带有菱形的$符号,确实可以在相应设置框中使用变量引用。9.星型模型汇中,事实表是模型的中心,外围是若干张维表,每张维表都和事实表直接连接。()A、正确B、错误【正确答案】:A解析:
在星型模型中,事实表确实位于模型的中心,它存储了关于业务过程的具体度量或事实。这些事实通常是通过聚合操作从底层详细数据计算得出的。外围的维表则提供了描述业务过程的上下文信息,如时间、地点、产品等。每张维表都与事实表直接连接,通过这种连接方式,可以方便地通过维表对事实表中的数据进行切片和切块操作,从而进行多角度、多层次的数据分析。星型模型的设计使得数据查询和分析变得高效且直观,是数据仓库中常用的一种数据模型。10.OLAP技术侧重于把数据库中的数据进行分析.转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。()A、正确B、错误【正确答案】:A解析:
无需修改。11.在使用read_csv读取文件时,如果sep指定为两个字符,则会采用Python方式进行数据解析。()A、正确B、错误【正确答案】:A解析:
在Python的pandas库中,`read_csv`函数用于读取CSV文件,其中`sep`参数是用来指定字段分隔符的。默认情况下,`sep`是`,`,表示字段之间是由逗号分隔的。然而,关于`sep`参数的使用,需要澄清一点:`sep`通常预期是一个单一的字符,作为字段之间的分隔符。在大多数CSV文件中,字段是由单一的字符(如逗号或制表符)分隔的。此外,`read_csv`函数在解析数据时采用的是C引擎或Python引擎,这通常是由函数的内部逻辑自动选择的,而不是由`sep`参数的两个字符来决定的。C引擎通常更快,但在某些复杂或不规则的数据结构下,可能会使用Python引擎作为备选方案。因此,题目中的叙述“在使用read_csv读取文件时,如果sep指定为两个字符,则会采用Python方式进行数据解析”是不准确的。`sep`参数不应设置为两个字符,且其值并不直接决定使用哪种引擎进行解析。12.脱字符^有两个作用,一个用于表示起始位置,另一个是用来对字符集取。()A、正确B、错误【正确答案】:A解析:
脱字符^在正则表达式中确实有两个主要作用。首先,它常被用作表示一个字符串或行的起始位置。其次,它也可以用来对字符集进行取反操作,即表示字符集中不包含该字符集内的某个或某些字符。13.设a=np.arange(4);b=a.astype(a.type),因为a的类型实际没发生变化,为了提高性能,不会发生数据的复制。()A、正确B、错误【正确答案】:B14.数据清理试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性。()A、正确B、错误【正确答案】:A解析:
数据清理是数据处理中的一个重要步骤,主要目的是为了提高数据质量。它包括一系列操作,如填充空缺的值、识别孤立点、消除噪声以及纠正数据中的不一致性。填充空缺的值是数据清理中的一个关键步骤,用于处理数据集中的缺失值,通常使用均值、中位数、众数或某种预测模型来填充这些缺失值。消除噪声也是数据清理的一个重要方面,噪声可能由于各种因素(如设备故障、环境因素等)引入数据集中,消除噪声可以减少数据的不确定性。纠正数据中的不一致性同样是数据清理的一个关键环节,不一致性可能由于多种原因产生,如不同的数据输入格式、单位不统一等,通过数据清理可以确保数据的一致性和准确性。15.作业和转换中的注释对数据处理本身不具有任何意义,在设计过程中可以忽略它。()A、正确B、错误【正确答案】:B解析:
注释在数据处理和程序设计过程中具有非常重要的意义,尽管它们不直接参与数据处理操作,但它们对于代码的理解、维护和调试至关重要。注释可以帮助开发人员和其他相关人员理解代码的功能、逻辑和意图,从而提高代码的可读性和可维护性。在作业和转换过程中,注释可以帮助记录数据的来源、处理方法和转换规则,这对于后续的数据分析和问题排查非常有帮助。如果忽略了注释,可能会导致后续人员难以理解和使用这些数据和程序,增加了出错的可能性。在设计过程中,注释不仅不能被忽略,反而应该被认真对待和编写。16.在“数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复。()A、正确B、错误【正确答案】:A解析:
在数据库管理和处理中,每一个连接通常都有一个唯一的标识,即连接名称。因此,在“数据库连接”窗口中,确保在一个作业或转换范围内连接名称的唯一性是非常重要的。这有助于保持数据库操作的准确性和可靠性。17.pandas中,concat和merge方法的功能是一样的,都是做数据集的合并。()A、正确B、错误【正确答案】:B解析:
在pandas库中,`concat`和`merge`方法虽然都是用于处理数据集的合并,但它们的功能并不完全相同。`concat`方法主要用于沿着一条特定的轴连接两个或多个pandas数据结构(如Series、DataFrame等)。它可以按照行或列的方向进行拼接,即将多个数据结构堆叠在一起。这种方法并不考虑数据结构之间的键(key)关系,只是简单的拼接。而`merge`方法则是基于数据之间的共同列(或键)来进行合并的。它类似于数据库中的连接操作,可以根据一个或多个键将两个数据集连接起来。在合并过程中,`merge`会考虑这些键的匹配情况,并据此生成新的数据集。因此,虽然`concat`和`merge`都可以用于数据集的合并,但它们的合并方式和应用场景是不同的。题目中的叙述将这两个方法的功能等同起来,这是不准确的。18.CSV文件输入步骤可以处理多个文件。()A、正确B、错误【正确答案】:B解析:
CSV文件输入步骤通常是指将数据从CSV(逗号分隔值)文件中导入到某个系统或程序中的过程。这个过程通常是针对单一文件进行操作的,即一次只能处理一个CSV文件。虽然技术上可以通过循环或批处理的方式连续处理多个CSV文件,但这通常涉及到多个步骤或多次操作,而不是单一的CSV文件输入步骤。因此,题目中的叙述“CSV文件输入步骤可以处理多个文件”是不准确的。19.pandas中,merge方法连接的两个表要求有相同的列名,或者不能连接。()A、正确B、错误【正确答案】:B解析:
在pandas中,merge方法用于连接两个DataFrame对象,并不要求两个表必须有完全相同的列名才能进行连接。实际上,merge方法主要通过指定的列(或索引)来对齐数据,这些列可以具有不同的列名,只需要在调用merge方法时明确指定哪些列用于连接即可。merge方法的关键参数包括'left_on'、'right_on'、'how'等,其中'left_on'和'right_on'参数分别用于指定左侧和右侧DataFrame中用于连接的列。如果两个DataFrame中用于连接的列具有相同的列名,则可以直接使用'on'参数来指定。如果列名不同,则需要分别使用'left_on'和'right_on'参数来指定。20.在作业设计中,作业项必须要求有唯一的名字。()A、正确B、错误【正确答案】:B解析:
在作业设计中,虽然为作业项提供一个清晰、明确的名称是有帮助的,以便于学生理解和识别,但并不是每个作业项都必须要有唯一的名字。作业设计更注重的是作业内容的质量、难度、与课程目标的契合度等方面,而作业项的名字并不是绝对必要的。有时候,同一类型的作业项可能会使用相同的名称,或者不同的作业项可能使用相似的名称来描述它们的主要特征或要求。作业设计中,作业项的名字并非必须要求唯一,重要的是作业的内容和质量。21.ndarray的size属性是看数组占有多少内存空间。()A、正确B、错误【正确答案】:B解析:
在NumPy库中,`ndarray`的`size`属性并不表示数组占用的内存空间大小。`size`属性返回的是数组中所有元素的个数,即`shape`属性中各个维度大小的乘积。如果要查看数组占用的内存空间大小,通常会使用`nbytes`属性,该属性返回的是数组元素在内存中占用的字节数。`nbytes`的计算基于数组元素的类型和数据量。`ndarray`的`size`属性并不表示数组占有的内存空间。22.对ndarray的切片是原始数组的视图,数据不会被复制。()A、正确B、错误【正确答案】:A解析:
这道题正确,因为对ndarray的切片操作确实是返回原始数组的视图,不会复制数据,修改切片内容会影响原始数组。23.Pandas在读取文件时,read_csv读取带分隔符的数据,read_table是读取数据库的表。()A、正确B、错误【正确答案】:B解析:
Pandas是一个强大的Python数据分析库,它提供了多种函数用于读取不同类型的数据文件。其中,`read_csv`函数主要用于读取以逗号(或其他指定分隔符)分隔的CSV文件。而`read_table`函数实际上也是用于读取文本文件,其默认的分隔符是制表符(tab),但也可以设置为其他分隔符。它并不是专门用来读取数据库的表。对于从数据库中读取数据,Pandas通常使用SQL查询语句结合数据库连接来实现。`read_table`并不是用来读取数据库的表,而是用来读取特定分隔符(默认为制表符)分隔的文本文件。24.Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理。()A、正确B、错误【正确答案】:B解析:
Kettle确实提供了大量的数据清洗步骤,这些步骤可以大大简化数据清洗的过程。然而,这并不意味着没有必要再使用脚本组件。在某些复杂的清洗任务或特定的业务逻辑下,脚本组件(如JavaScript、Python等)可能提供更大的灵活性和控制力。使用脚本组件,用户可以自定义清洗逻辑,处理复杂的数据结构或执行特定的数据转换。这些功能可能超出了Kettle内置步骤的能力范围。因此,虽然Kettle提供了丰富的数据清洗步骤,但在某些情况下,使用脚本组件进行数据清洗仍然是必要的。25.文本文件输入步骤可以处理多个文件。()A、正确B、错误【正确答案】:A解析:
文本文件输入步骤通常指的是在计算机程序中读取和处理文本文件的过程。这个过程可以针对单个文件进行,也可以针对多个文件进行。当需要处理多个文件时,可以通过循环或其他编程结构来依次读取和处理每个文件。26.在使用cut函数进行数据离散化时,只能指定边界值来划分面元。()A、正确B、错误【正确答案】:B解析:
在使用cut函数进行数据离散化时,不仅能指定边界值来划分面元,还能通过指定面元数量等方式来划分。27.Kettle中的步骤是顺序执行的。()A、正确B、错误【正确答案】:B解析:
Kettle中的步骤可以配置为顺序执行,也可以配置为并行执行。28.在获取数据时,我们一般会找一些权威机构获取数据,这主要体现了数据的相关性()A、正确B、错误【正确答案】:B解析:
在获取数据时,选择权威机构作为数据来源,这主要体现的是数据的可靠性和准确性,而非数据的相关性。数据的相关性是指两个或多个变量之间存在的关联性或相互依赖的程度。而权威机构提供的数据往往被认为是可信的,因为它们经过了专业的收集、分析和验证。在获取数据时找权威机构获取,这主要体现的是数据的可靠性和准确性,而不是数据的相关性。29.运行转换或者作业时,无论在什么时候都应该把日志级别设置到尽可能详细,这样方便程序的维护及查错。()A、正确B、错误【正确答案】:B解析:
虽然详细的日志级别可以提供更多的信息,有助于程序的维护和查错,但在运行转换或作业时,并不是在任何时候都应该把日志级别设置到尽可能详细。这是因为过于详细的日志记录可能会产生大量的日志数据,这既会占用大量的存储空间,又可能影响程序的性能。因此,通常的做法是,在开发或调试阶段将日志级别设置为较详细的级别,以便及时发现和解决问题。而在生产环境或正常运行时,应适当降低日志级别,以减少日志数据量,提高程序性能。30.在一个作业中,有且仅有一个START作业项,它标识了作业的执行起点。()A、正确B、错误【正确答案】:A解析:
在作业管理中,每个作业通常都会有一个明确的开始点,即START作业项。这个作业项标识了作业的执行起点,是作业执行流程的开始。一个作业中确实有且仅有一个START作业项,用以标识作业的执行起点。31.pivot方法可以指定不同的聚合方式。()A、正确B、错误【正确答案】:B解析:
在数据分析和处理中,`pivot`方法通常用于重新排列数据集的结构,而不是用于指定聚合方式。它通常用于将行转换为列或将列转换为行,以便更好地展示或分析数据。聚合方式(如求和、平均值、计数等)通常是通过其他方法或函数来指定的,比如`groupby`后的聚合函数。`pivot`方法本身并不提供指定不同聚合方式的功能。32.在作业项之间,数据以结果对象的方式进行传递。A、正确B、错误【正确答案】:A解析:
在编程和软件开发中,数据确实经常以对象的形式在作业项或模块之间进行传递。33.“去除重复记录(哈希)”步骤可以对没排序的数据集进行排重。()A、正确B、错误【正确答案】:A解析:
哈希技术是一种用于处理大量数据的方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵州大学《结构力学B》2023-2024学年第一学期期末试卷
- 贵州财经大学《小学教育教学叙事研究》2023-2024学年第一学期期末试卷
- 2025青海省建筑安全员《B证》考试题库及答案
- 贵阳信息科技学院《教育史专题研究》2023-2024学年第一学期期末试卷
- 硅湖职业技术学院《计算思维导论》2023-2024学年第一学期期末试卷
- 2025甘肃建筑安全员-A证考试题库及答案
- 广州新华学院《物流与电子商务实验》2023-2024学年第一学期期末试卷
- 2025辽宁省建筑安全员A证考试题库
- 2025年湖南建筑安全员-A证考试题库附答案
- 中华诗词大赛题
- 中考语文真题专题复习 小说阅读(第01期)(解析版)
- 《陆上风电场工程概算定额》NBT 31010-2019
- 商务礼仪培训职业礼仪员工培训PPT
- 2022-2023年河南省驾照考试《小车》科目一预测试题(含答案)
- GB/T 24573-2009金库和档案室门耐火性能试验方法
- ISO27001-2022信息安全管理体系管理手册
- 经济困难学生家庭走访情况登记表
- 《新中国独立自主的外交》 教学课件
- 简支箱梁桥毕业设计
- 监理安全安全通知书(春节假期)
- 启明星辰天镜网站安全监测系统用户手册
评论
0/150
提交评论