大数据分析及应用智慧树知到期末考试答案章节答案2024年云南大学_第1页
大数据分析及应用智慧树知到期末考试答案章节答案2024年云南大学_第2页
大数据分析及应用智慧树知到期末考试答案章节答案2024年云南大学_第3页
大数据分析及应用智慧树知到期末考试答案章节答案2024年云南大学_第4页
大数据分析及应用智慧树知到期末考试答案章节答案2024年云南大学_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析及应用智慧树知到期末考试答案+章节答案2024年云南大学Namenode的作用是文件管理。

答案:对MapReduce的思想是分治法。

答案:对即使数据用于基本用途的价值会减少,但潜在价值却依然很大。

答案:对DataNode连续性发送报告给NameNode。

答案:错当前世界四大趋势指的是经济全球化、全球城市化、全球信息化和信息智慧化。

答案:对SPSS不同变量间各属性不可以直接进行复制粘贴操作。

答案:错Hadoop只能在特定的PC下才能运行。

答案:错将原始数据进行集成、变换、维度规约、数值规约是数据预处理步骤的任务。

答案:对在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题

答案:错多节点计算中涉及的负载均衡,任务调度和容错处理都需要编程人员一一实现。

答案:错用于分类的离散化方法之间的根本区别在于是否使用类信息。

答案:对利用数据融合、数据模型、仿真技术等,可以逼近事物的本质,可以揭示出原来没有想到或难以展现的关联,大大提升政府决策的科学性。

答案:对SPSS中的宗教信仰变量属于有序尺度。

答案:错下面关于脏数据说法正确的是()。

答案:有噪声;格式不统一;意义不明数据分析师的职责是()。

答案:对相关业务评估;对具体业务作出决策;对数据挖掘并呈现直观报告结果;建立合理的分析模型大量的数据源导致()爆炸式增长。

答案:半结构化数据;非结构化数据当前大数据产业发展的特点是()。

答案:增速很快;规模较大传统的数据样式通常是()。

答案:数据库表;xml数据可视化中的对高维数据进行数据分析的可能操作有()。

答案:降维;切块;切片;旋转下列关于大数据说法,错误的是()。

答案:大数据具有体量大,结构单一,时效性强的体征;大数据的应用注重因果分析,而不是相关分析聚类算法可能基于()划分。

答案:基于模型;基于层次下面()不属于数据预处理。

答案:数据分析关于OLAP的特性,下面正确的是:()(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性

答案:(1)(2)(3)(4)(5)支撑大数据业务的基础是()。

答案:数据应用某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的()问题。

答案:关联规则发现数据仓库的最终目的是()。

答案:为用户和业务部门提供决策支持可用作数据挖掘分析中的关联规则算法有()。

答案:Apriori算法、FP-Tree算法计算机溯源也称为世系(lineage)或者谱系(pedigree),用来描述()的起源或者出处。

答案:数据相关分析和回归分析相辅相成,又各有特点,下面正确的描述有()。

答案:在相关分析中,相关的两变量都是随机的Hadoop现在可以支持()级别以上的大数据。

答案:PB目前,企业主流的大数据解决方法基于Hadoop开源项目。

答案:对在噪声数据中,波动数据比离群点数据偏离整体水平更大。

答案:错数据质量的评估方法分为定性评估、定量评估和综合评估方法。

答案:对抽取得到的数据可以直接应用于数据仓库。

答案:错健康智慧手环体现了网络爬虫的数据采集技术的应用。

答案:错数据可视化可以便于人们对于数据的理解。

答案:对中国第一个农业大数据中心创新战略联盟在云南农业大学。

答案:错员工简历是半结构化数据。

答案:对减少频繁模式的规模是关联规则应用的关键。

答案:对大数据预测能够分析和挖掘人们不知道或者没有注意到的模式,确定判断的事件必然会发生。

答案:错当不知道数据所带的标签时,使用聚类技术可以促使带同类标签的数据与其他标签数据分离。

答案:对大数据技术和云计算技术是两门完全不相关的技术。

答案:错Hbase基于结构化存储层。

答案:对Hadoop是由HDFS和MapReduce组成的。

答案:对数据挖掘常用来()。

答案:聚类;分类决策树由()组成。

答案:结点;有向边大数据常见的挑战有()。

答案:处理效率低;标准不统一;数据剧增;无法共享数据资产的特性是()。

答案:价值不确定性;可复制性;业务附着性下列对于“脏数据”,说法正确的是()。

答案:格式不规范;编码不统一;意义不明确;数据不完整信息社会经历的发展阶段包括()。

答案:互联网时代;计算机时代;大数据时代大数据的科学价值和社会价值正是体现在()。

答案:大数据的价值已经不再是仅仅来源于它的基本用途,而更多的来源于它的二次运用;大数据的掌握程度可以转化为经济价值的来源SPSS中录入数据的基本步骤有()。

答案:录入数据;指定变量的属性;定义变量名数据挖掘的预测建模任务主要包括()问题。

答案:分类;回归有参数的特征值归约的方法有()。

答案:线性回归;多元回归SPSS中数据录入支持的形式有()。

答案:多选题的录入;开放题的录入;单选题的录入异常检验的主要方法()。

答案:k-近邻;基于聚类的异常挖掘影响聚类算法效果的主要因素有()

答案:模式相似性测度;特征选取;分类准则决策树的经典生成算法有()。

答案:ID3;C4.5;CRAT多节点计算涉及()。

答案:容错处理;任务调度;负载均衡根据涉及自变量数量的多少,可将回归分析分为()。

答案:一元回归分析;多元回归分析大数据的发展,使信息技术变革的重点从关注技术转向关注()。

答案:信息Apriori算法的加速过程依赖于以下()策略。

答案:剪枝有关数据仓库的开发特点,不正确的描述是()。

答案:数据仓库开发要从数据出发下列不属于4V特征的是()。

答案:Variability智慧城市的构建不包括()。

答案:大型的集中式数据中心建立在相关关系的分析法技术上的预测是大数据的()。

答案:核心两变量的线性相关系数为0,表明两变量之间()。

答案:不存在线性相关以下属于关联分析的是()。

答案:购物篮分析()是大数据最显著的特征。

答案:数据规模大收集湖水的PH值的来源数据是()。

答案:传感器在大数据时代,下列说法正确的是()。

答案:数据是最核心的部分产量X(千件)与单位成本Y(元)之间的回归方程为Y=77-3X,这表示产量每提高1000件,单位成本平均()。

答案:减少3元()用来反映数据的精细化程度。

答案:颗粒度大数据公司的多样性表明了()。

答案:数据价值的转移1PB≈()GB。

答案:1012下列关于网络用户行为中,错误的是()。

答案:数字轨迹用完会自动删除通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。而如果两变量间是相关的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。

答案:错贝叶斯网络是目前深度学习的基础。

答案:错医疗行业产生的数据主要是PACS影像、B超、病理分析等他们主要是结构化数据。

答案:错我们既要通过政府主导,又要发挥社会的力量,来共同推进医疗大数据的应用。

答案:对一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理的独立性、逻辑的一体性、性能上的可扩展性等特点。

答案:对在进行数据分析和挖掘之前,需要对数据质量进行评估,并采用数据清洗提高数据质量。

答案:对热力图中的亮色一般代表事件发生频率较高或事物分布密度较大,暗色则表示反之。

答案:对SPSS中的Case是表示组成数据文件的基本单位。

答案:对决策树方法通常用于关联规则挖掘。

答案:错数据交易平台通过生产数据、研发和分析数据,为数据交易提供帮助。

答案:错大数据=海量数据+复杂类型的数据。

答案:对k-means是基于密度的聚类算法。

答案:错大数据仅仅是指数据的体量大。

答案:错传统大数据质量清洗的特点是确定性、强类型性、协调式的。

答案:对视频是结构化数据。

答案:错科学可视化的重点在于对体,面及光源等进行逼真渲染。

答案:对Map的作用是结果的汇总。

答案:错非结构化数据正在指数化增长。

答案:对对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据搜集的信息必须精确。

答案:错消除信息孤岛的方法是统一化数据管理。

答案:对大数据的含义包括()。

答案:变化很快;构成复杂;数据很大下面大数据营销和传统营销的错误的是()。

答案:传统营销比大数据营销投入更少;传统营销模式比大数据营销实时性强下面哪些算法可以解决聚类问题()

答案:Kmeans;决策树数据预处理包括()。

答案:数据清洗;数据归约大数据处理流程包括()。

答案:导入和预处理;挖掘;统计和分析;采集下面符合舍恩伯格对于大数据特点看法的是()。

答案:数据处理速度快;数据规模大;数据类型多样HDFS的client拥有()方法。

答案:open;ackpacket;read原始数据通常存在的质量问题是()。

答案:不完整;有噪声;重复下列属于大数据分析理念的是()。

答案:在数据基础上,更倾向于总体数据,而不是抽样数据;在分析方法上,更注重相关分析,而不是因果分析;在分析效果上,更追求效率,而不是绝对精确大数据产生了新的()。

答案:社会发展方式;科学研究方法;管理决策方法;经济增长方式在医疗领域,是怎么应用大数据技术的。

答案:临床决策支持;用户行为分析;个性化医疗;社保资金安全数据再利用的意义在于()。

答案:利用数据可拓展性拓宽业务领域;挖掘数据的潜在价值;实现数据重组的创新价值下面属于结构化信息的有()。

答案:医疗数据库;企业ERP下列是分类算法的是()。

答案:决策树;贝叶斯SPSS中的可以包含()运算符。

答案:函数运算符;逻辑运算符;数学运算符在有监督学习中,我们如何使用聚类方法()?

答案:使用聚类“类别id”作为一个新的特征项,然后再用监督学习分别进行学习;先创建聚类类别,然后在每个类别上用监督学习分别进行学习关于ID3算法,描述正确的是()。

答案:不能处理缺失值;只能处理分类型变量;使用信息增益来选择最佳分裂()是大数据应用的步骤。

答案:建模分析;数据输入;使用决策支持工具输出结果下面()是数据清洗的方法。

答案:噪声数据清除;重复数据记录处理;一致性检查;缺失值处理关于K均值和DBSCAN的比较,以下说法正确的是()。

答案:前者可以发现不是明显分离的簇,但是后者会合并有重叠的簇;前者很难处理非球形的簇和不同大小的簇,而后者可以处理;前者使用基于原型的概念,而后者使用基于密度的概念分类变量使用()建立预测模型。

答案:分类树采样分析的精确性随着采样随机性的增加而(),但与样本数量的增加关系不大。

答案:提高国际货币基金组织提出()的数据质量评估框架。

答案:AIMQ数据仓库之父是()。

答案:BillInmon以下属于聚类算法的是()。

答案:K-MEANS关于KNN与K-means算法描述正确的是()。

答案:KNN是分类算法,K-Means是聚类算法NameNode的储存位置是()。

答案:内存下列省份中,()最先提出了大数据发展战略。

答案:广东省当变量X按一定数量变化时,变量Y也随之近似地以固定的数量发生变化,这说明X与Y之间存在()。

答案:直线相关关系SPSS是由()大学的三位学生创建的。

答案:Stanford有价值的信息往往是几()内的数据。

答案:秒钟SPSS的重点菜单项是()。

答案:分析下面()不是大数据可视化的工具。

答案:Photoshop()数据质量评估维度用来表示信息具有一个实体描述的所有必需的部分。

答案:Accuracy被称为ApacheHadoop之父的工程师是()。

答案:DougCutting当前社会中,最为突出的大数据环境是()。

答案:互联网属于信息时代的定律是()。

答案:贝叶斯定律交通行业所面临的大数据挑战不包括()。

答案:系统的I/O必须可横向扩展下列关于数据交易市场的说法中,错误的是()。

答案:数据交易市场通过产生数据、研发和分析数据,为数据交易提供帮助如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有()。

答案:分类准则智能交通系统(IntelligentTransportationSystem,简称ITS)是未来交通系统的发展方向,它是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立的一种在大范围内、全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。

答案:对气泡图只能够表示3个变量之间的关系。

答案:错下面属于数据类别的是()。

答案:数量;序列;关系;位置数据可视化是借助于图形化手段,清晰有效地传达与沟通信息。

答案:对数据可视化的挖掘阶段是指应用统计或数据挖掘方法来辨析数据格式,或者是把数据置于一个数据的环境中。

答案:对不同用户对数据可视化的认知有所区别,设计人员认为可视化是()。

答案:漂亮的视觉表现热力图实现了同类型下以及不同类型下子集大小的比较。

答案:错作为电商企业,以下()图可以有效地提供不同商品的销售和趋势情况。

答案:条形图和线图的组合图科学可视化主要关注的是()维现象的可视化。

答案:三维平行坐标图是利用色块大小,颜色来传达信息的。

答案:对数据可视化分为()与()两个方向。

答案:科学可视化;信息可视化以下指标恒为正的是()

答案:复相关系数当所有的观察值y都落在直线yc=a+bx上时,则x与y之间的相关系数为()

答案:r=1身高和体重之间的关系是()

答案:共变关系在完成了构造与评价一个回归模型后,我们可以()

答案:以给定的自变量的值估计因变量的值评价直线相关关系的密切程度,当r在0.5~0.8之间时,表示()。

答案:中等相关下列关系中,属于正相关关系的是()

答案:身高与体重关于相关系数,下面不正确的描述是

答案:当r=0时,表示两变量间无相关在回归分析中,两个变量()

答案:因变量是随机变量两变量X和Y的相关系数为0.8,则其回归直线的判定系数为()

答案:0.64当x按一定数额增加时,y也近似地按一定数额随之增加,那么可以说x与y之间存在()关系

答案:直线正相关Apriori算法产生的关联规则总是确定的

答案:对寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下()步骤?

答案:决定要使用的表示的特征和结构;选择一个算法过程使评分函数最优;决定用什么样的数据管理原则以高效地实现算法;决定如何量化和比较不同表示拟合数据的好坏对于项集来说,置信度没有意义。

答案:对下面列出的条目中,(

)是数据仓库的基本特征。

答案:数据仓库是面向主题的;数据仓库的数据是相对稳定的;数据仓库的数据是反映历史变化的;数据仓库的数据是集成的以下()操作会降低Apriori算法的挖掘效率。

答案:减小硬盘读写速率数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

答案:对使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的()任务?

答案:探索性数据分析给定关联规则AàB,意味着:若A发生,B也会发生。

答案:错关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

答案:错英文单词缩写KDD表示()含义?

答案:数据挖掘与知识发现数据质量的定性评估主要依靠支持者的主观判断。

答案:错在四种数据集成技术中,()技术可以实现对各个数据源数据的抽取、清洗、转换和复制。

答案:基于数据仓库的数据集成模型AHP质量评估方法一般是应用于质量指标权重值的确定。

答案:对由于采集设备异常,造成接收的数据取值不合理,是属于()类型的数据质量问题。

答案:噪声数据综合评估方法结合了定性评估和定量评估的优点,适用范围更广泛。

答案:对针对“空值”的数据清洁方法有()。

答案:人工填写;概率统计值填充;均值填充;全局变量填充数据剖析的分类是()。

答案:多源数据;单源数据数据质量的相关技术中,()被用来检查文件系统或者数据库中数据的过程。

答案:数据剖析数据溯源追踪的主要方法有标注法和反向查询法。

答案:对在计算机领域,()用来描述数据的起源或者出处。

答案:溯源聚集也称为数据汇总,用来构建数据立方体。

答案:对维数归约的主要方法有()。

答案:逐步向后删除;逐步向前选择数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简属性数量。

答案:错在统计调查中,()误差是由观察、测量或计算等原因所造成的。

答案:登记性误差常见的数据变换操作包括()。

答案:数据规约;属性构造;平滑;规范化;聚集抽样极限又称置信区间,是指一定概率下抽样误差的真实范围。

答案:错协方差分析中,如果两个变量的变化趋势一致,那么这两个变量之间的协方差就是()。

答案:正值平滑处理在科学研究中广泛使用,常用方法有()。

答案:加权移动平均;单纯移动平均;滤波法在概率论和统计学中,协方差用于衡量两个变量的平均误差。

答案:错在抽样调查中,如果样本数量N为()时,就称为大样本。

答案:N>=30Modeler可以对可变长度记录进行数据的处理。

答案:对Modeler能通过第三方提供开放的ODBC与其他数据库连接。

答案:对Modeler中的常用节点选项面板包括:()。

答案:图形选项;字段选项;建模选项;源;记录选项Modeler数据挖掘功能将复杂的统计方法和()技术结合到一起。

答案:机器学习Modeler在2009年被()收购后对产品的性能和功能进行了大幅度的改进和提升。

答案:IBMModeler和Statistics是相互独立的两个数据分析软件。

答案:错Modeler不支持生成散点图、分布图等来反映数据的特征。

答案:错下面()是基本数据流的节点。

答案:导出节点;变量文件节点;选择节点Modeler支持数据挖掘CRISP-DM的标准流程。

答案:对Modeler可以将模型保存为()的通用格式,支持对其进行二次开发。

答案:PMMLHadoop是一种集中式存储和计算技术。

答案:错ApacheHadoop所涉及的核心技术包括()

答案:MapReduce;HDFS;Hbase聚类之前的样本没

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论