大数据分析与管理学习通超星期末考试答案章节答案2024年

上传人：题*** IP属地：浙江上传时间：2024-10-29 格式：DOCX 页数：13 大小：19.84KB 积分：6 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析与管理学习通超星期末考试章节答案2024年借助IBMSPSSModeler，企业可以满足客户需求，构建正确的产品并调整业务需求，同时缩短从构思到实验再到生产所需的时间。

答案:对SPSSModeler通过分析非结构化文本数据捕获关键概念、主题、观点和趋势。

答案:对SPSSModeler提供多种机器学习技术，包括分类、分段和关联算法。

答案:对对于非对称得属性，只有非零值才是重要的。

答案:对属性的性质不必与用来度量他的值得性质相同。

答案:对SPSSModeler可帮助我们（）

答案:充分利用基于开源的创新，包括R或Python;支持拥有不同技能（编程和可视化）的数据研究员;开发混合方法—在本地、公共云或私有云中;从小规模开始，扩展至企业级监管方法SPSS支持哪些数据源（）

答案:Excel

;关系型数据库;Hadoop的数据;IBMPlanningAnalytics

非平衡样本的处理包括（）

答案:过抽样;欠抽样为了便于得到相对准确的模型误差估计，将全部样本随机划分成两个子集，即（）

答案:训练集;测试集数据精简包括（）

答案:从压缩样本入手;从压缩变量取值入手;从压缩变量个数入手数据的横向合并的联接方式包括（）

答案:内连接;全外连接;局部外连接;反连接CHAID建模节点生成模型。在建模节点的字段选项卡中，已选中使用预定义角色，这意味着（）

答案:将使用在类型节点中指定的目标字段和输入字段若想用图表显示评估模型时每个预测变量的相对重要性应该选择（）选项卡。

答案:模型以下不属于数据挖掘软件的是（）

答案:ApacheSparkBP网络学习过程的四个部分（）

答案:输入模式顺传播;输出误差逆传播;循环记忆训练;学习结果判别人工神经网络可以看做由哪三种基本元素组成（）

答案:一个连接;一个加法器;一个激励函数以下关于神经网络说法正确的有（）

答案:神经网络可以实现非线性分类;神经网络可以实现线性分类重要的人工神经网络算法包括（）

答案:感知器神经网络（PerceptronNeuralNetwork）;

反向传递（BackPropagation）;Hopfield网络;自组织映射（Self-OrganizingMap,SOM）下面属于BP的缺点的是（）

答案:BP神经网络算法的收敛速度慢;BP神经网络结果选择不一下面属于BP的优点的是（）

答案:非线性映射能力;自学习和自适应能力;泛化能力;容错能力根据链接的拓扑结构，神经网络模型可以分为哪两种？（）

答案:前向网络;反馈网络人工神经网络的基本特征有（）

答案:非线性;非局限性;非常定性

;非凸性

神经网络发展大致经历过（）个阶段

答案:4单个神经元的动作特征是（）

答案:以上都是常用的训练方式，除了监督学习和无监督学习，还有（）

答案:强化学习神经网络的三层感知器除了输入层、输出层，还有（）

答案:隐层神经网络基本结构（）

答案:神经元人工神经网络是模拟（）进行信息处理的一种数学模型。

答案:生物神经网络神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为（）

答案:激励函数学习过程由信号的正向传播与误差的反向传播两个过程组成，由于多层前馈网络的训练经常采用误差反向传播算法，因此人们将多层前馈网络称为（）

答案:BPK均值可以很好的处理不同密度的数据。

答案:错全链对噪声点和离群点很敏感。

答案:错组平均是一种界于（）之间的折中方法。

答案:单链;全链常见的距离度量方法包括（）

答案:欧氏距离;汉明距离;曼哈顿距离;切比雪夫距离以下属于聚类算法的有（）

答案:K-Means;DBSCAN（）这些数据特性都是对聚类分析具有很强影响的。

答案:高维性;规模;稀疏性;噪声和离群点BIRCH是一种（）

答案:聚类算法

在基本K均值算法里，当邻近度函数采用（）的时候，合适的质心是簇中各点的中位数。

答案:曼哈顿距离简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作（）

答案:划分聚类数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（）数据挖掘方法。

答案:关联规则分析相似度矩阵可以用相识度表示还可以用（）表示。

答案:距离（）是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。

答案:组平均下列（）是属于分裂层次聚类的方法。

答案:MST/star3/origin/2b70b24b9b7a0b43153a15a469c4ee5e.png

答案:0.4,0.67下列关于层次聚类存在的问题说法正确的是（）

答案:GroupAverage擅长处理球状的簇当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（）

答案:聚类当对一个事物认知是确定的，这时对应的熵值最大。

答案:错聚类目的是找到每个样本潜在的类别并将同类别的样本放在一起。

答案:对分类的目的是找到每个样本特征到类别的对应法则。

答案:对当给定新的训练数据时，这些算法重构从先前训练数据学习得到的决策树，或从头开始学习一棵新树。

答案:错树是否是严格的二叉树由属性选择度量确定。

答案:对决策树中，每个叶节点表示在一个属性上的测试。

答案:错常见的剪枝方法有（）

答案:先剪枝;后剪枝（）是预测问题的两种主要类型。

答案:分类;数值预测解决分类问题的方法包括（）

答案:决策树;贝叶斯;人工神经网络;支持向量机决策树容易转换成（）

答案:分类规则数据分类是一个两阶段过程，包括（）和分类阶段。

答案:学习阶段我们想在大数据集上训练决策树，为了使用较少时间，可以（）

答案:减少树的深度根据信息增益来构造决策树的算法是（）

答案:ID3决策树当预定义的阈值过高时，会导致（）

答案:树过分简化分类作为一个两步过程的一般方法。在第二步，我们确定该模型的（

）是否可以接受，如果可以，我们就使用该模型对新的数据进行分类

答案:准确率ID3算法在分类树构建中，使用哪个度量来进行分类节点（）

答案:信息增益以下不是分类问题的是（）

答案:身高和体重关系决策树中不包含一下哪种结点（）

答案:外部结点（externalnode）数据分析原则：“如无必要，勿增实体”，即“简单有效原理”。

答案:对回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。

答案:错回归分析法即将具有相关关系的两个变量之间的数量关系进行测定，通过建立一个数学表达式进行统计估计和预测的研究。

答案:对多元线性回归中，可决系数R^2是评价模型拟合优度好坏的最佳标准。

答案:错在多元线性回归中，t检验和F检验缺一不可。

答案:对线性模型的优点包括（）

答案:形式简单、易于建模;可解释性;引入层级结构或高维映射;线性模型中系数直观表达了各属性在预测中的重要性回归分析中按照自变量和因变量的关系类型可以分为（）

答案:线性回归分析;非线性回归分析关于经济计量模型进行预测出现误差的原因，正确的说法是（）

答案:既有随机因素，又有系统因素在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在（）

答案:多重共线性在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中，计算的多重决定系数为0.8500，则调整后的多重决定系数为（）

答案:0.8327变量之间的关系可以分为两大类（）

答案:函数关系与相关关系线性判别分析是一种（）的方法。

答案:降维对于回归分析，下列说法错误的是（）

答案:样本相关系数r在区间（-1，1）下列变量中，属于负相关的是（）

答案:价格下降，消费增加下列变量之间的关系是函数关系的是（）

答案:已知二次函数y=ax^2+bx+c，其中a，c是已知常数，取b为自变量，因变量是这个函数的判别式⊿=b^2-4ac/star3/origin/ac30eb2ae6e9bbc23c56001a7b441343.png

答案:1，3直线回归系数假设检验，其自由度为（）

答案:n-2execute方法负责接收一个元组作为输入，并且使用OutputCollector对象发送新的元组。

答案:对一个数据流指的是在分布式环境中并行创建、处理的一组元组（tuple）的无界序列。

答案:对Trident的核心数据模型是“流”（Stream），它与普通的拓扑相同。

答案:错Storm的拓扑是对实时计算应用逻辑的封装。

答案:对Streamgrouping除了随机分组和字段分组还有（）

答案:全部分组（Allgrouping）;全局分组（Globalgrouping）;无分组（Nonegrouping）;直接分组（Directgrouping）流数据是（）系列数据项。

答案:连续的;无边界的;快速的;随时间不断变化的Storm的JavaAPI支持的两种自定义组件配置信息的方式是（）

答案:内置型;外置型SparkStreaming是SparkCoreAPI的扩展，它支持（）实时数据流的处理。

答案:弹性的;高吞吐的;容错的流式大数据处理的三种框架（）

答案:Strom;Spark;Samza为了满足不同大数据处理场景需求，当前主流的大数据计算框架包括（）

答案:Spark实时计算框架;Strom流计算框架;Giraph图计算框架;Mapreduce离线计算框架大数据的主要特征表现为（）

答案:商业价值高;数据类型多;处理速度快;数据容量大下面哪个操作是窄依赖（）

答案:filterDataFrame和RDD最大的区别（）

答案:多了schema下面哪个端口不是spark自带服务的端口（）

答案:8090

下面哪个操作肯定是宽依赖（）

答案:reduceByKeySpark支持的分布式部署方式中哪个是错误的（）

答案:SparkonlocalSparkJob默认的调度模式（）

答案:FIFOSpark引入了一个称为（）的概念，它是不可变的、容错的、分布式对象集合。

答案:RDD鱼眼视图属于焦点+上下文技术可视化交互方法。

答案:对科学可视化最初被称为“科学计算之中的可视化”。

答案:对可视化技术对于分析的数据类型通常不是专用性的。

答案:错图挖掘技术在社会网络分析中扮演了重要的角色。

答案:对数据可视化的流程包括（）

答案:问题刻画层：概括现实生活中用户遇到的问题;抽象层：抽象相应数据类型的操作;编码层：设计编码和交互方法;实现层：实现算法和交互常用的高维数据可视化的数据变换的非线性方法有（）

答案:ISOMAP;局部线性嵌套(LLE)常用的高维数据可视化的数据变换的线性方法有（）

答案:主成分分析(PCA);多维尺度分析(MDS);非负矩阵分解(NMF)数据可视化的5个基本特征：易懂性、专业性和（）

答案:必然性;多维性;片面性数据可视化可分为哪三类（）

答案:科学可视化;信息可视化;可视分析学可视化技术支持计算机辅助数据认知的三个基本阶段（）

答案:数据记录和表达;数据操作;数据分析下列属于线性的降维方法有（）

答案:PCA;LDA下面哪些属于可视化高维数据技术（）

答案:矩阵;平行坐标系;星形坐标;Chernoff脸（）适用于多维数据，且每个维度必须可以排序。

答案:雷达图关于正态分布,下列说法错误的是（）

答案:正态分布的偏度为0，峰度为1

散点图矩阵通过（）坐标系中的一组点来展示变量之间的关系

答案:二维可视分析的运行过程可看做是(

)的循环过程

答案:数据–>知识–>数据下列一般不用于可视化时间空间数据技术的是（）

答案:饼图下面属于映射数据到新的空间的方法是（）

答案:傅立叶变换在统计分析中,描述变量的数据离散程度的基本统计量是（）

答案:标准差在SPSS中,当需要选取出满足某一个条件的所有个案,则使用下面的那一项（）

答案:个案选择在学生的一张数据表中,有平时分数、实验分数和卷面分数,如使用SPSS计算最终得分,则需要使用SPSS预处理中的（）

答案:变量计算对于SPSS来说,能够快捷找到变量数据的异常值的数据预处理方法是（）

答案:排序对于SPSS来说,下面那一项不包括在变量的频数分布内容中（）

答案:均值在SPSS的数据结构中,下面那一项不是“缺失数据”的定义（）

答案:数据不是科学计数法通常来说,发放了900份问卷,可直接得到的有效问卷有800份,则SPSS所建立的相关数据文件中的行数为（）

答案:800（）

就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构。

答案:主成分分析T检验的使用前提不包括（）

答案:离散变量在SPSS中,下面哪一个不是SPSSStatistics的主要窗口（）

答案:命令输入窗口（）是对某个变量不同取值的数量进行统计，以了解变量的取值情况，把握数据的分布特征。

答案:频率分析SPSS的数据文件后缀名是（）

答案:sav在数据中插入变量的操作要用到的菜单是（）

答案:InsertVariableSPSSStatistics进行数据分析的基本步骤顺序是（）1数据预处理2数据读入3选择合适的算法分析数据4查看并输出结果

答案:2134SPSSStatistics的主要功能（）

答案:以上全是一般来说，检验P值低于（），就认为差异效果是明显的，反之则认为差异效果不显著。

答案:5%在SPSS的基本分析模块中，其作为“以行列表的形式揭示数据之间的关系”的是（）

答案:交叉表离散属性总是具有有限个值。

答案:错如果要对数据进行分析和挖掘信息和知识，首先需要将描述的数据特征完整地表示出来。

答案:对数据预处理方法包括（）

答案:数据清理;数据变换;数据归约遗留数据库是将不同的数据库系统组合在一起，这些数据库可以是（）。

答案:关系的;面向对象的;层次的;网状的度量数据的离中趋势包括（）

答案:方差;极差;百分位数下列属于不同的有序数据的有（）

答案:时序数据;序列数据度量数据的中心趋势包括（）

答案:算术均值;加权均值;截断均值;中位数;众数;中列数以下对对象的定性描述的有（）

答案:标称属性;二元属性;序数属性五数概括用（）进行可视化

答案:盒图（）可以实现数据的共享和透明访问。

答案:异构数据库对于（）的分析往往需要将特殊的数据预处理方法与分析处理算法集成在一起进行考虑。

答案:多媒体数据库下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?（）

答案:数据清理数据归约的目的是（）

答案:得到数据集的压缩表示HBase可以有列，可以没有列族。

答案:错HBase对于空（NULL）的列，不需要占用存储空间。

答案:对Hadoop支持数据的随机读写。

答案:错HDFS框架中的两类节点是（）

答案:NameNode;DataNodeHBase的主要技术特点有（）

答案:列式存储;表数据是稀疏的多维映射表;读写的严格一致性;提供很高的数据读写速度Hadoop的三种运行模式是（）

答案:单机版;伪分布式;分布式下面对LSM结构描述正确的有（）

答案:顺序存储;需要将数据Flush到磁盘MapReduce与HBase的关系，描述正确的有（）

答案:两者不是强关联关系，没有MapReduce，HBase可以正常运行;MapReduce可以直接访问HBase下面对HBase的描述哪些是正确的？（）

答案:是面向列的;是分布式的;是一种NoSQL数据库LSM-Tree的含义是（）。

答案:日志结构合并树HBase依赖（）提供强大的计算能力。

答案:MapReduceHBase依靠_____存储底层数据。

答案:HDFS设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行（）。

答案:分桶HBase的Region组成中，必须要有（）。

答案:MemStore若不针对MapReduce编程模型中的key和value值进行特别设置，（）是MapReduce不适宜的运算。

答案:

AverageHadoop1.0默认的调度器策略是（）

答案:先进先出调度器下面程序负责HDFS数据存储的是（）

答案:Datanode数据取样时，除了要求抽样时严把质量关外，还要求抽样数据必须在足够范围内有代表性。

答案:对聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。

答案:对每个map槽就是一个线程。

答案:错数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

答案:对哪些是大数据分析处理评测方法关于效率方面的量度？

答案:时间复杂度;空间复杂度;吞吐率;加速比数据中的知识发现由以下步骤迭代序列组成是数据清理、数据集成、数据选择和（）。

答案:数据变换;数据挖掘;模式评估;知识表示大数据处理的5V特点分别是（）和Value。

答案:Volume;Velocity;Variety;VeracityHadoop

集群可以运行在（）3个模式。

答案:单机模式;伪分布式模式;完全分布式模式大数据分析处理在效果方面的评测方法为：（）

答案:准确率;召回率;F值数据挖掘的预测建模任务主要包括哪几大类问题？（）

答案:分类;回归通过数据挖掘过程所推导出的关系和摘要经常被称为（）

答案:模型;模式数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及（）等方面。

答案:挖掘频繁模式;分类和预测;聚类分析;偏差分析单机串行处理1G大小的URL数据需要10分钟，Hadoop平台并行处理只需

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析与管理学习通超星期末考试答案章节答案2024年

文档简介

温馨提示

最新文档

评论

大数据分析与管理学习通超星期末考试答案章节答案2024年

文档简介

温馨提示

最新文档

评论

相关文档