2020年秋冬智慧树知道网课《大数据分析与预测技术》课后章节测试答案_第1页
2020年秋冬智慧树知道网课《大数据分析与预测技术》课后章节测试答案_第2页
2020年秋冬智慧树知道网课《大数据分析与预测技术》课后章节测试答案_第3页
2020年秋冬智慧树知道网课《大数据分析与预测技术》课后章节测试答案_第4页
2020年秋冬智慧树知道网课《大数据分析与预测技术》课后章节测试答案_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章测试1【多选题】(10分)以下哪些情景可以使用大数据分析与预测建模技术?A.保险公司的骗保分析B.预测某移动运营商客户转移到竞争对手的可能性C.统计某零售超市一个月内哪类牛奶的销量最大D.预测电商网站某商品未来的销售量2【单选题】(10分)有关大数据分析与预测的过程认识正确的是?A.大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。B.大数据分析与预测一般需要人的参与,只要把数据输入合适的算法就可以得到有用的结果。C.A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。D.大数据分析与预测的问题一般都是用户给定的,因此不需要与用户交流和调研。3【单选题】(10分)有关数据质量的认识正确的是?A.各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。B.数据质量一般可以由机器自动完成,不需要数据分析人员参与。C.数据预处理就是删除有问题的数据。D.有些机器学习算法具有比较强的抗噪型,因此不需要预处理也能得到有用的规律。4【多选题】(10分)下面有关机器学习正确的说法是?A.在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。B.机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。C.每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。D.机器学习就是简单的统计分析。5【单选题】(10分)组织通过销售数据或洞察以创造新的收入来源,这属于大数据应用成熟度的哪一个阶段?A.业务转型B.业务监控C.业务优化D.数据货币化6【单选题】(10分)如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?这种分析属于A.诊断性分析B.预测性分析C.描述性分析D.规范性分析7【判断题】(10分)NoSQL数据库作为非关系型数据库,只能够用来存储非结构数据。A.对B.错8【单选题】(10分)根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法?A.诊断性分析B.统计分析C.监督学习D.无监督学习9【多选题】(10分)大数据分析的预测建模任务主要包括哪几大类问题?A.模式发现B.回归C.分类D.关联分析10【多选题】(10分)下列哪些分析需要机器学习?A.比较不同移动运营商用户对漫游业务的使用量B.预测移动运营商用户未来使用的网络流量C.寻找移动运营商用户对某类套餐使用的潜在客户D.统计移动运营商的用户在某段时间对短信的使用数量第二章测试1【单选题】(10分)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?A.数据流挖掘B.分类和预测C.数据预处理D.频繁模式挖掘2【单选题】(10分)下面哪个步骤不属于数据预处理的过程?A.数据归约B.数据转换C.分类和预测D.数据清洗3【单选题】(10分)下面哪种不属于数据预处理的方法?A.聚集B.估计遗漏值C.变量代换D.离散化4【单选题】(10分)以下哪种方法不属于特征选择的标准方法A.过滤B.抽样C.包装D.嵌入5【单选题】(10分)下面不属于创建新属性的相关方法的是A.特征构造B.特征修改C.特征提取D.映射数据到新的空间6【多选题】(10分)数据清洗包括以下哪几个方面?A.时间相关数据的处理B.缺失数据处理方法C.噪声数据平滑技术D.按标准差进行的标准化7【多选题】(10分)以下哪几个是数据归约的策略?A.数据立方体聚集B.离散化和概念分层产生C.数据压缩D.数值归约E.维度归约8【多选题】(10分)以下哪些是数据离散化技术?A.基于熵的离散化B.饼图分析C.ChiMerge技术D.分箱技术9【多选题】(10分)特征选择的目标有哪些?A.提供更快、性价比更高的学习过程B.更好地理解生成数据的基本过程C.提高数据挖掘模型的性能D.挖掘多个抽象层上的数据10【多选题】(10分)特征选择算法一般分为那几类?A.子集选择算法B.特征排列算法C.分箱技术D.基于熵的离散化第三章测试1【单选题】(5分)有关决策树的说法哪个是的?A.决策树的算法和神经网络的原理不一样B.对新样本起到分类预测的作用C.可以转化为决策规则D.决策树的深度越大越好2【单选题】(5分)有关决策树与特征工程的关系,以下说法的是?A.决策树获得的特征是区分不同类别的最优特征。B.决策树可以得到对分类重要的属性,因此可以作为分类特征获取的一种方法。C.决策树获得的特征可以作为其他算法(例如回归算法的自变量)输入的依据。D.如果要了解影响签署合同快慢的主要因素,可以使用决策树算法。3【单选题】(5分)下面有关支持向量机的说法是?A.对于小样本集,支持向量机的分类准确度可能优于其他对样本数量要求比较高的分类算法。B.支持向量机一般处理两分类的问题。C.支持向量机是把高维的数据投影到低维的空间进行分类。D.支持向量机既可以处理线性可分的问题,也可以处理非线性可分的问题。4【多选题】(5分)以下哪些不是贝叶斯网络的应用场景?A.根据客户消费行为对其进行分组B.招聘人才选拔规则C.机器故障诊断D.中文分词5【单选题】(5分)下面有关线性判别分析的说法是哪个?A.线性判别分析中线性变换可以使同类样本的方差变大。B.通过对原始的数据进行线性变换,使得不同类的样本尽量分开。C.提高不同类样本的可分性。D.线性变换可以使不同类别样本的距离加大。6【单选题】(5分)下面有关随机森林的说法哪个是的?A.随机森林是一种集成算法,可以使用CART等基学习器提高分类的性能。B.每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。C.类似装袋法的样本抽样方法,保证每棵树的学习样本集的多样性。D.随机森林训练后只需选择性能最好的树最为预测模型。7【多选题】(5分)如果发现决策树模型的检验结果达不到要求,可以执行下面哪些方法进行改进?A.补充或调整样本的选择,并加强样本的预处理。B.修改用户的需求。C.对算法的选择以及参数的调整进行优化。D.采用多种算法组合。8【单选题】(5分)以下哪个算法不是基于规则的分类器?A.C5.0B.ID3C.贝叶斯分类器D.C4.59【单选题】(5分)如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法?A.聚类分析B.决策树类算法C.线性回归分析D.关联分析10【单选题】(5分)以下哪个指标不能用于决策树的性能评价指标?A.决策树规则的数目B.召回率C.准确率D.ROC曲线下的面积AUC11【单选题】(5分)以下关于人工神经网络(ANN)的描述正确的说法是?A.只能用于分类B.神经网络对训练数据中的噪声不敏感,因此数据质量可以差一些也没关系C.不能确定输入属性的重要性D.训练ANN是一个很耗时的过程12【单选题】(5分)神经网络由许多神经元(Neuron)组成,下列关于神经元的陈述中哪一个是正确的?A.一个神经元可以有多个输入和一个输出B.一个神经元可以有一个输入和多个输出C.一个神经元可以有多个输入和多个输出D.其他选项都正确13【单选题】(5分)有关前馈神经网络的认识正确的是?A.神经网络可用于分类和聚类B.神经网络训练后很容易得到分类的规则C.神经网络模型的分类能力比决策树好D.神经网络训练过程是拟合训练数据模式的过程14【单选题】(5分)下面关于感知机的说法中正确的是?A.某一神经元可以连接下一层的多个神经元,表示该神经元有多个输出B.在感知机中引入激活函数可以解决与异或问题(XOR)C.其他都不对D.单个感知机是线性回归的训练过程15【单选题】(5分)在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么?A.搜索所有权重和偏差的组合,直到得到最佳值。B.其他选项都不正确C.赋予一个初始值,然后迭代更新权重,直至代价函数取得极小。D.根据人工经验随机赋值。16【多选题】(5分)有关神经网络训练时使用的学习率参数说法正确的是A.学习率过大更容易导致训练陷入局部极小值。B.网络训练时刚开始学习率可以大一些,以便提高学习速度,随后应减少学习率,以免引起学习震荡。C.学习率可以随着训练误差动态调整效果更好。D.学习率可以与其他网络参数一起训练,对降低代价函数是有利的。17【多选题】(5分)激活函数通过具有以下哪些性质?A.计算简单B.单调性C.可微性D.非线性18【多选题】(5分)在神经网络训练中,有关学习率调整说法的是?A.固定学习率设置太大可能会使神经网络训练震荡不收敛。B.学习率可以根据损失函数(代价函数)减少的快慢动态调整。C.学习率设置不当会引起神经网络过拟合。D.学习率太小会使神经网络的训练迅速达到极小值。19【判断题】(5分)减少神经网络过拟合可以通过增加网络的神经元个数或层数解决。A.对B.错20【判断题】(5分)BP神经网络在训练过程中,损失函数可能比较大,但随着训练的进行,损失函数基本不变化了,这种现象说明神经网络陷入全局最优解A.对B.错第四章测试1【多选题】(10分)以下哪些数据的特征会对聚类有影响?A.离群点B.高维性C.样本规模D.噪声2【单选题】(10分)有关聚类算法不正确的说法是?A.必须给出聚类的组数B.把分析的样本根据距离分组C.聚类是分类的基础D.聚类算法可以找出每组样本不同的特征3【多选题】(10分)聚类是一类重要的机器学习算法,以下哪些场景不属于聚类问题?A.某网商对客户的购物行为进行分析,从而分析不同组用户的偏好。B.根据学生的成绩,给出学生的名次。C.判断一个网络访问是否为入侵访问。D.对数据库的论文根据内容主题的不同做划分。4【多选题】(10分)对联通客户进行分组,以便根据各组的特点,策划不同的营销方案,需要客户哪些数据?A.客户长途市话以及漫游等通话数据B.收入数据C.客户人口数据D.家庭男女组成5【单选题】(10分)下列说法的是?A.聚类分析可以看作是一种非监督的样本分组过程B.k均值算法的计算耗时与初始假设聚类中心的位置有关C.k均值算法是一种常用的聚类算法,簇的个数算法不能自动确定D.在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好6【多选题】(10分)有关聚类的算法,正确的说法有以下哪些?A.自底向上的层次聚类算法对样本的输入顺序比较敏感。B.聚类的簇密度指样本的个数多少。C.聚类的结果要考虑业务的可解释性。D.类似Kmeans基于划分的聚类与基于层次的聚类都是样本的距离为划分基础。7【单选题】(10分)有关k-means下列说法正确的是?A.聚类的结果与初始选择的假设聚类中心有关B.可以确定样本属性的重要性C.可以处理凸型分布数据的聚类D.适合任意数据集的分组8【单选题】(10分)根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种挖掘方法比较合适?A.关联分析B.回归分析C.神经网络D.聚类9【判断题】(10分)对于Kmeans而言,不同的初始聚类中心选择可能导致不同的聚类结果。A.错B.对10【判断题】(10分)在kmeans的训练过程中,可以选择不同的k值,比较使绝对误差标准较小的k值,结合聚类业务的可解释性,从而选择合适的k值。A.对B.错第五章测试1【单选题】(10分)以下有关关联算法的说法是哪个?A.关联算法可用于分析新闻库中经常一起出现的人物。B.提升度是强关联规则的一个必要条件。C.关联算法是一种非监督学习算法。D.关联算法主要由2个步骤组成:首先是求频繁项目集,然后再筛选满足最小置信度的关联规则。2【单选题】(10分)以下哪种情景最不适合用关联分析?A.根据以前的股价预测未来的股价。B.在警务领域,发现有些罪犯会在一次犯罪的过程中实施多种罪行。C.在医疗诊断领域,对一种疾病确诊时提醒其他疾病的可能性。D.分析一个论文集中相关的研究主题。3【单选题】(10分)在频繁项目集的分析过程中,以下说法哪种是正确的?A.两个频繁项目集的并集也一定是频繁的。B.如果一个项目集是非频繁的,那么它的子集肯定不是频繁的。C.FP增长算法计算频繁项目集仅仅扫描1次样本集。D.频繁项目集的交集肯定是频繁的。4【多选题】(10分)以下有关关联分析的说法,正确的是哪些?A.关联分析的结果表明在同次事务中,有关联的项目存在因果关系。B.关联分析本身就是一种推荐方法,用于网商商品的推荐,理由是购买某种商品的人在同次购物也可能会买其他商品。C.提升度可以帮忙改进某些商品的推荐或营销效果。D.关联分析就是相关性分析。5【多选题】(10分)以下哪些领域可比较适合使用关联分析?A.从公司应聘的候选人中选择可能适合某岗位的候选人。B.从学生评教数据中,找到评分较好的课程相关重要因素。C.分析网上商品的评论和评分数据,讨论什么样的商品容易得到好的评分。D.预测贷款的人群中哪些人可能会产生坏账。6【多选题】(10分)有关Apriori算法和FP-增长算法,正确的说法有哪些?A.对于Apriori算法和FP增长算法,随着最小支持度的提高(最小置信度不变),得到的关联规则数会增加。B.Apriori算法发现的关联规则要比FP增长算法多,因为前者扫描的次数多。C.对于同样的样本集和算法参数(支持度和置信度等),Apriori算法的速度一般要慢于FP增长算法。D.对于同一个样本集,Apriori算法和FP增长算法的结果是相同的。7【多选题】(10分)假设{花生,啤酒,可乐,牛奶}项目集的支持度大于最小支持度,请问下面哪些项目集的支持度一定能达到最小值支持度要求?A.{花生,可乐,土豆}B.{啤酒,可乐}C.{花生,啤酒}D.{花生,啤酒,可乐}8【单选题】(10分)下面哪个通常不是关联算法的应用领域?A.分析文档集是否有一定数量的文档含有某2个主题B.分析某些用户一次访问网站购买的商品C.分析论坛用户是否在一次访问中浏览了不同版面的帖子D.分析信用卡欺诈9【判断题】(10分)关联规则中前向和后项存在因果关系才能投入使用。A.错B.对10【判断题】(10分)关联规则是有方向的,A->B与B->A的支持度相同,它们的置信度也相等。A.错B.对第六章测试1【多选题】(10分)常用的异常检测算法有哪些?A.基于聚类的方法B.高斯分布建模C.分类算法D.KNN(K-最近邻)2【多选题】(10分)下面这些场景中哪些用到异常检?A.系统入侵异于正常用户登录行为检测入侵异常B.利用公交车上手机位置数据,优化车辆调度和交通实时讯息C.从盗窃信用卡的人的购买行为不同于信用卡持有者分析信用卡欺诈D.使用传感器采集油气井的地球物理数据,构建预测模型预测油气井产量3【多选题】(10分)基于统计方法的异常检测有以下哪些局限性?A.大多数统计模型检验只是针对单个特征B.许多情况下数据对象的分布是未知的C.高维空间里,数据是稀疏的,邻近度变得没意义D.对于高维数据难以估算其真实分布4【多选题】(10分)基于邻近度的异常检测算法的局限性有哪些?A.对于高维数据难以估算其真实分布B.对参数k选择敏感,如k太小,少量的邻近点导致离群点得分较低,而k太大,则点数少于k的数据点都可能成为离群点C.参数k选择困难D.高维空间里,数据是稀疏的,邻近度变得没意义5【单选题】(10分)以下哪个场景用到基于统计方法的异常检测?A.正常数据出现在随机模型的高概率区域,异常数据则位于随机模型的低概率区域B.高维空间里,数据是稀疏的C.正常数据出现在高密度邻域,异常数据位于稀疏邻域D.正常数据出现在高密度邻域,异常数据则远离其最近邻6【单选题】(10分)下面哪个是基于密度的方法算法的局限性?A.许多情况下数据对象的分布是未知的B.对于高维数据难以估算其真实分布C.参数k选择困难D.不能处理不同密度区域的数据集7【单选题】(10分)高维空间里,数据是稀疏的,我们会用到以下哪种异常检测的方法A.基于统计方法B.基于邻近度的方法C.基于密度的方法D.支持向量机8【判断题】(10分)异常检测(Anomalydetection)是发现与大部分其他对象不同的对象,所以又成为离群点检测A.对B.错9【判断题】(10分)数据分析任务通常是去掉离群点,离群点是没有意义的点A.错B.对10【单选题】(10分)在基于邻近度的方法中,离群点的定义不包括以下哪个?A.到K个最近邻平均距离最大的前n个数据点为离群点B.到第K个最近邻的距离最大的前n个数据点为离群点C.在距离D内,最近邻点数少于P的数据点为离群点D.一个对象的离群点得分是该对象周围密度的逆第七章测试1【单选题】(10分)有关文本特征的理解,的说法是哪个?A.one-hot可以表示一个词的重要性。B.信息增益是文本特征提取的方法。C.TF-IDF和互信息都是文本特征提取的方法。D.文本不方便直接处理,需要提取表征内容的特征数值化。2【单选题】(10分)下面哪个选项不是文本分析的组成?A.词法分析B.句法分析C.文本翻译D.语义分析3【多选题】(10分)有关文本分析的说法,正确的是哪些?A.文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。B.处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。C.从一个文本集中查询包含某些主题的文本也属于文本分析。D.从一个word文档中查询是否包含某个词汇属于文本分析。4【单选题】(10分)以下有关文本分词的说法正确的是哪个?A.分词合适与否不会引起句子的歧义。B.英文文本不需要分词。C.基于统计的分词方法的性能与训练语料库的质量密切相关。D.分词算法都需要一个词典。5【单选题】(10分)下面有关向量空间模型(VSM)的描述中,的是哪个?A.文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息B.在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重C.以向量来表示文档后,两者的夹角余弦值越小说明相似度越高D.基于向量的文本相似度计算中,除了内积外,还可以用夹角余弦等方法6【多选题】(10分)下面哪种方法是文本特征获取的方法?A.互信息B.卡方统计量C.one-hot表示法D.信息增益7【多选题】(10分)面关于词法分析的描述中,正确的说法有哪些?A.基于词频统计的分词方法是一种无字典分词方法B.语义角色标注关注句子主要谓词的论元及谓词与论元之间的关系C.基于统计的命名实体识别方法目前还主要采用统计的方法D.语义依存分析主要用于分析词和词之间的依存关系,例如句⼦的主语、谓语、宾语等形式结构8【多选题】(10分)下面哪些算法不能用于文本的分词?A.反向最大匹配法B.词嵌入C.基于规则的分词D.TF-IDF算法9【多选题】(10分)下面有关文本分析正确的说法是哪些?A.文本分类可以通过贝叶斯分类器完成。B.句法分析可以表达组成句子的词语之间的搭配或修辞关系。C.时间和日期都是需要识别的命名实体。D.信息抽取不需要了解实体之间的语义关系。10【判断题】(10分)使用基于统计的方法进行特征选择、分词等分析都对语料库的要求比较高。A.错B.对第八章测试1【单选题】(10分)可视化分析的说法正确的是哪一个?A.可视化就是简单的画图,美观就行。B.目前的可视化工具可以自动展示数据中的规律。C.可视化是一种基本的数据分析方法,需要选择合适的图表,展示数据中隐藏的信息。D.可视化分析前不用对数据进行预处理,因为可视化反映了数据的趋势和大致规律。2【单选题】(10分)有关可视化分析的方法,下面的说法是哪种?A.可视化分析有多种图形可供选择,每种图形只适用某些场合。B.可视化只是表格数据的另一种简单呈现。C.可视化分析在分析前,对数据进行一定的变换,可能会提升分析结果的有用性。D.的数据如果不进行处理,可能会影响可视化分析的结果质量。3【单选题】(10分)有关可视化分析与其他机器学习方法的关系,的说法是哪一种?A.可视化分析可以作为决策树算法的预处理方法,从中找出或异常的数据。B.可视化分析可以对分类模型的正确率进行评估。C.可视化分析可以为神经网络等分类算法初选重要的变量。D.可视化分析可用于展示神经网络的训练过程,从中确定模型是否出现过拟合。4【单选题】(10分)下面哪种可视化方法比较适合聚类分析?A.直方图B.散点图C.箱图D.条状图5【单选题】(10分)在线教学学生行为的分析中,下面哪个选项不是可视化的作用?A.可视化可用于分析不同类别学生的学习轨迹(流程)。B.可视化可以帮助发现有问题的学生,从而可以提前做学情预警。C.可视化可动态展示不同时期学生群体的学习行为。D.可视化可以预测一个刚选课不久的学生学完一门课程所需要的时间。6【多选题】(10分)有关可视化分析的说法有哪些?A.对于同样数据、同样的问题,不同数据分析师给出的可视化分析结果是一样的。B.可视化分析的结果是否可用不需要人工检验。C.可视化分析可以与其他机器学习算法组合使用,可以应用于机器学习的各个阶段。D.可视化分析可以帮助决策者获得其以前没有意识到的规律。7【多选题】(10分)有关箱(线)图的说法,正确的是哪些?A.在箱图中,某个变量上四分位和下四分位的差(四分位矩)越大,说明此变量的方差可能越小。B.从箱图可以发现变量的异常或噪声。C.箱图可用于分析某个变量A对变量B的影响程度,主要看A的不同取值对应B变化的箱子的大小和位置变化。D.若某变量的中位数是10,说明这个变量有一半的取值平均值小于10。8【多选题】(10分)在可视化分析的应用过程中,最终用户抱怨没有看到有用的信息,可能的原因有以下哪些?A.图画的不好看,未能引起用户的兴趣。B.数据分析人员对业务理解不够,未能选好指标(变量),给出的可视化难以看到有用的信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论