大数据分析及应用知到智慧树章节测试课后答案2024年秋云南大学_第1页
大数据分析及应用知到智慧树章节测试课后答案2024年秋云南大学_第2页
大数据分析及应用知到智慧树章节测试课后答案2024年秋云南大学_第3页
大数据分析及应用知到智慧树章节测试课后答案2024年秋云南大学_第4页
大数据分析及应用知到智慧树章节测试课后答案2024年秋云南大学_第5页
免费预览已结束,剩余7页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析及应用知到智慧树章节测试课后答案2024年秋云南大学第一章单元测试

大数据的英文描述是()

A:HeavydataB:LargedataC:GreatdataD:Bigdata

答案:Bigdata下面最大的储存单位是()

A:PBB:KBC:GBD:TB

答案:PB大数据之父是()

A:维克托·迈尔-舍恩伯格B:查尔斯·巴赫曼C:姚期智D:詹姆斯·高斯林

答案:维克托·迈尔-舍恩伯格大数据的特点包括()

A:VarietyB:ValueC:VolumeD:Velocity

答案:Variety;Value;Volume;Velocity第一次正式提出大数据概念和第一次用社会调查的方式分析大数据对人们生活影响的期刊是()和()

A:PNASB:ScienceC:NatureD:Cell

答案:Science;Nature大数据是只和互联网相关的计算机技术。

A:对B:错

答案:错企业中大部分的数据都是非结构化数据。

A:错B:对

答案:对大数据技术的基础是由阿里巴巴首先提出的。

A:对B:错

答案:错大数据人才需要数学、统计学、数学分析、商业分析和自然语言处理的多方面的学习。

A:对B:错

答案:对大数据对网络安全没有威胁。

A:对B:错

答案:错

第二章单元测试

目前,企业的数据架构存在的最大比例问题是()

A:资源利用率低B:高耗能C:运营成本高D:拓展性差

答案:拓展性差目前,企业数据分析处理面临的主要问题是缺少数据全方位分析方法。

A:错B:对

答案:对地图导航根据以往的行程记录,绘制了最优路程,标明了可能堵车的地点,这表现了大数据分析理念中的()

A:注重相关性而不是因果性B:注重相对性而不是绝对性C:注重全体而不是局部D:注重效率而不是准确

答案:注重相关性而不是因果性最早提出大数据研发计划的国家是()

A:法国B:中国C:日本D:美国

答案:美国大数据可能被运用的行业有()

A:教育B:金融C:农业D:医疗

答案:教育;金融;农业;医疗2015年9月18日云南省启动我国首个大数据综合试验区的建设工作。

A:对B:错

答案:错大数据的价值密度很高。

A:错B:对

答案:错日本政府将IT产业,尤其是大数据及云计算作为促进经济增长,解决内部矛盾一个关键。

A:对B:错

答案:对非结构化数据对企业也富有价值。

A:对B:错

答案:对企业的日数据生成量可达到1TB。

A:对B:错

答案:对

第三章单元测试

HDFS中文件存储的基本节点是()

A:DataNodeB:WholeNodeC:NameNodeD:BaseNode

答案:DataNode下面不属于ETL的功能是()

A:抽取B:转换C:翻译D:加载

答案:翻译自然语言处理的范畴包括()

A:关联分析B:离群值检测C:机器翻译D:中文自动分词

答案:机器翻译;中文自动分词ApacheHadoop所涉及的核心技术包括()

A:HDFSB:EMCC:MapReduceD:Hbase

答案:HDFS;MapReduce;HbaseHDFS的主要结构包括()

A:ClientB:ServerC:DataNodeD:NameNode

答案:Client;DataNode;NameNode下列算法中属于聚类算法的是()

A:AprioriB:K-meansC:DBSCAND:k-distance

答案:K-means;DBSCANHadoop可以运行在任何普通的PC机上。

A:对B:错

答案:对Client是获取分布式文件的应用程序

A:错B:对

答案:对Hadoop是一种集中式存储和计算技术。

A:错B:对

答案:错聚类之前的样本没有类别

A:对B:错

答案:对

第四章单元测试

Modeler在2009年被()收购后对产品的性能和功能进行了大幅度的改进和提升。

A:微软B:IBMC:谷歌D:苹果

答案:IBMModeler数据挖掘功能将复杂的统计方法和()技术结合到一起。

A:机器学习B:软件工程C:信息安全D:大数据

答案:机器学习Modeler可以将模型保存为()的通用格式,支持对其进行二次开发。

A:PMMLB:PKLC:CKPTD:PB

答案:PMML下面()是基本数据流的节点。

A:变量文件节点B:选择节点C:导出节点D:导入节点

答案:变量文件节点;选择节点;导出节点Modeler中的常用节点选项面板包括:()。

A:字段选项B:图形选项C:记录选项D:建模选项E:源

答案:字段选项;图形选项;记录选项;建模选项;源Modeler和Statistics是相互独立的两个数据分析软件。

A:错B:对

答案:错Modeler可以对可变长度记录进行数据的处理。

A:错B:对

答案:对Modeler能通过第三方提供开放的ODBC与其他数据库连接。

A:对B:错

答案:对Modeler不支持生成散点图、分布图等来反映数据的特征。

A:错B:对

答案:错Modeler支持数据挖掘CRISP-DM的标准流程。

A:对B:错

答案:对

第五章单元测试

协方差分析中,如果两个变量的变化趋势一致,那么这两个变量之间的协方差就是()。

A:正值B:负值C:不清楚D:0

答案:正值在抽样调查中,如果样本数量N为()时,就称为大样本。

A:N>=20B:N>=50C:N>=30D:N>=100

答案:N>=30在统计调查中,()误差是由观察、测量或计算等原因所造成的。

A:登记性误差B:随机性误差C:抽样误差D:系统误差

答案:登记性误差常见的数据变换操作包括()。

A:规范化B:平滑C:属性构造D:数据规约E:聚集

答案:规范化;平滑;属性构造;数据规约;聚集平滑处理在科学研究中广泛使用,常用方法有()。

A:单纯移动平均B:聚类法C:加权移动平均D:滤波法

答案:单纯移动平均;加权移动平均;滤波法维数归约的主要方法有()。

A:逐步向后删除B:逐步向前选择C:逐步向前删除D:逐步向后选择

答案:逐步向后删除;逐步向前选择抽样极限又称置信区间,是指一定概率下抽样误差的真实范围。

A:错B:对

答案:错数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简属性数量。

A:对B:错

答案:错聚集也称为数据汇总,用来构建数据立方体。

A:对B:错

答案:对在概率论和统计学中,协方差用于衡量两个变量的平均误差。

A:对B:错

答案:错

第六章单元测试

在计算机领域,()用来描述数据的起源或者出处。

A:缘由B:溯源C:来源D:源头

答案:溯源由于采集设备异常,造成接收的数据取值不合理,是属于()类型的数据质量问题。

A:缺少完整性约束B:噪声数据C:数据失效D:空值

答案:噪声数据数据质量的相关技术中,()被用来检查文件系统或者数据库中数据的过程。

A:数据剖析B:数据采集C:数据集成D:数据清洁

答案:数据剖析在四种数据集成技术中,()技术可以实现对各个数据源数据的抽取、清洗、转换和复制。

A:基于数据仓库的数据集成模型B:基于中间件的数据集成模型C:MPP数据库存储与处理架构D:联邦数据库系统结构

答案:基于数据仓库的数据集成模型数据剖析的分类是()。

A:非结构化数据B:多源数据C:单源数据D:结构化数据

答案:多源数据;单源数据针对“空值”的数据清洁方法有()。

A:全局变量填充B:均值填充C:概率统计值填充D:人工填写

答案:全局变量填充;均值填充;概率统计值填充;人工填写数据溯源追踪的主要方法有标注法和反向查询法。

A:错B:对

答案:对AHP质量评估方法一般是应用于质量指标权重值的确定。

A:对B:错

答案:对数据质量的定性评估主要依靠支持者的主观判断。

A:错B:对

答案:错综合评估方法结合了定性评估和定量评估的优点,适用范围更广泛。

A:对B:错

答案:对

第七章单元测试

使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的()任务?

A:预测建模B:建模描述C:寻找模式和规则D:探索性数据分析

答案:探索性数据分析英文单词缩写KDD表示()含义?

A:动态知识发现B:领域知识发现C:数据挖掘与知识发现D:文档知识发现

答案:数据挖掘与知识发现以下()操作会降低Apriori算法的挖掘效率。

A:支持度阈值增大B:事务数减少C:减小硬盘读写速率D:项数减少

答案:减小硬盘读写速率寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下()步骤?

A:选择一个算法过程使评分函数最优B:决定如何量化和比较不同表示拟合数据的好坏C:决定用什么样的数据管理原则以高效地实现算法D:决定要使用的表示的特征和结构

答案:选择一个算法过程使评分函数最优;决定如何量化和比较不同表示拟合数据的好坏;决定用什么样的数据管理原则以高效地实现算法;决定要使用的表示的特征和结构下面列出的条目中,(

)是数据仓库的基本特征。

A:数据仓库是面向主题的B:数据仓库是面向事务的C:数据仓库的数据是集成的D:数据仓库的数据是相对稳定的E:数据仓库的数据是反映历史变化的

答案:数据仓库是面向主题的;数据仓库的数据是集成的;数据仓库的数据是相对稳定的;数据仓库的数据是反映历史变化的关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

A:错B:对

答案:错给定关联规则AàB,意味着:若A发生,B也会发生。

A:对B:错

答案:错Apriori算法产生的关联规则总是确定的

A:对B:错

答案:对对于项集来说,置信度没有意义。

A:错B:对

答案:对数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

A:对B:错

答案:对

第八章单元测试

关于相关系数,下面不正确的描述是

A:当r=0时,表示两变量间无相关B:当0≤|r|≤1时,表示两变量不完全相关C:两变量之间的相关关系是单相关D:如果自变量增长引起因变量的相应增长,就形成正相关关系

答案:当r=0时,表示两变量间无相关当x按一定数额增加时,y也近似地按一定数额随之增加,那么可以说x与y之间存在()关系

A:直线负相关B:曲线正相关C:直线正相关D:曲线负相关

答案:直线正相关评价直线相关关系的密切程度,当r在0.5~0.8之间时,表示()。

A:中等相关B:低度相关C:高度相关D:无相关

答案:中等相关身高和体重之间的关系是()

A:共变关系B:严格的依存关系C:函数关系D:无关系

答案:共变关系下列关系中,属于正相关关系的是()

A:产品与单位成本B:正常商品的价格和需求量C:商品的零售额和流通费率D:身高与体重

答案:身高与体重当所有的观察值y都落在直线yc=a+bx上时,则x与y之间的相关系数为()

A:-1B:0C:r=1D:r=0

答案:r=1两变量X和Y的相关系数为0.8,则其回归直线的判定系数为()

A:0.64B:0.5C:0.8D:0.9

答案:0.64在完成了构造与评价一个回归模型后,我们可以()

A:估计未来所需样本的容量B:计算相关系数和判定系数C:以给定的因变量的值估计自变量的值D:以给定的自变量的值估计因变量的值

答案:以给定的自变量的值估计因变量的值在回归分析中,两个变量()

A:因变量是随机变量B:都不是随机变量C:自变量是随机变量D:都是随机变量

答案:因变量是随机变量以下指标恒为正的是()

A:相关系数rB:截距aC:斜率bD:复相关系数

答案:复相关系数

第九章单元测试

科学可视化主要关注的是()维现象的可视化。

A:二维B:一维C:N维D:三维

答案:三维不同用户对数据可视化的认知有所区别,设计人员认为可视化是()。

A:信息编码方式B:表述想法的工具C:漂亮的视觉表现D:用户情感的表示

答案:漂亮的视觉表现作为电商企业,以下()图可以有效地提供不同商品的销售和趋势情况。

A:条形图和线图的组合图B:热力图C:平行坐标图D:气泡图

答案:条形图和线图的组合图数据可视化分为()与()两个方向。

A:科学可视化B:信息可视化C:内容可视化D:图像可视化

答案:科学可视化;信息可视化下面属于数据类别的是()。

A:关系B:序列C:位置D:数量

答案:关系;序列;位置;数量数据可视化是借助于图形化手段,清晰有效地传达与沟通信息。

A:对B:错

答案:对气泡图只能够表示3个变量之间的关系。

A:对B:错

答案:错平行坐标图是利用色块大小,颜色来传达信息的。

A:错B:对

答案:对热力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论