版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实用文档大数据分析与应用知到章节测试答案智慧树2023年最新西安理工大学第一章测试
大数据泛指巨量的()。
参考答案:
数据集
数据分析指的是用适当的()对收集来的大量数据进行分析,提取有用信息并形成结论。
参考答案:
统计分析方法
浏览数据这一步骤可以通过对大数据进行()来实现。
参考答案:
可视化
Gartner将大数据定义为是需要新处理模式才能具有更强的()以及高增长率和多样化的信息资产。
参考答案:
流程优化能力
;决策力
;洞察发现力
我们通常用“4V”来反映大数据的特点,4V是指()。
参考答案:
Velocity
;Variety
大数据分析可以应用在那些领域()。
参考答案:
医疗卫生领域
;农业领域
;商业领域
;交通运输领域
大数据分析的过程包括()。
参考答案:
数据准备
;数据理解
数据只要有足够的规模就可以称为大数据。()
参考答案:
对
大数据分析是大数据到知识,再到信息的关键步骤。()
参考答案:
错
大数据分析模型用于描述数据之间的关系。如确定自变量、因变量,进而通过聚类、回归等方法确定其关系。()
参考答案:
对
第二章测试
数据仓库的定义于哪一年提出()。
参考答案:
1991
符合选择建立数据仓库平台的公认标准的是()。
参考答案:
数据库对大数据量的支持能力
建立数据仓库的首要步骤是()。
参考答案:
确认主题
数据仓库的数据模型进行逻辑建模的分析角度是()。
参考答案:
业务分析
建立数据仓库的选择平台是()。
参考答案:
建模工具
;分析工具
;数据库
建立数据仓库的步骤是()。
参考答案:
确认主题
;数据传输
;选择平台
;数据清洗
符合多维度数据模型构成的是()。
参考答案:
事实表
;维度表
属于衡量业务性能指标的是()。
参考答案:
销售额
;销售量
数据仓库的逻辑数据模型是一维结构的数据视图。()
参考答案:
错
元数据是对数据仓库中数据的描述信息。()
参考答案:
对
第三章测试
下列哪项属于随机抽样的缺点?()
参考答案:
样本中个体数量过多,效率低下
整群抽样中将总体各单位归并成若干个()的集合,成为群,然后以群为单位抽取样本。
参考答案:
互不交叉,互不重复
数据抽样和过滤的相似之处是它们的目的都是为了减少要处理的数据量。()
参考答案:
对
以下哪种方法适用于原始数据的取值范围已经确定的情况?()
参考答案:
0-1标准化
数据有那些性质?()
参考答案:
精确性
;时效性
;一致性
;完整性
数据缺陷有哪些类型?()
参考答案:
噪声数据
;非规范化数据
;缺失数据
先将总体的观察按某一顺序号分为n个部分,再从每一部分各抽取一定数量的观察组成样本,属于哪种抽样方式?()
参考答案:
系统抽样
数据清洗浪费时间,是没有意义的。()
参考答案:
错
数据标准化就是为了方便数据的下一步处理,而对数据进行的等比例缩放。()
参考答案:
对
下列属于逻辑错误清洗的是()
参考答案:
去重
;去除不合理值
;修正矛盾内容
第四章测试
关于经济计量模型进行预测出现误差的原因,正确的说法是()。
参考答案:
既有随机因素,又有系统因素
在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在()。
参考答案:
多重共线性
Logistic回归系数与优势比OR的关系为()。
参考答案:
其他三个选项均正确
Logistic回归可用于()。
参考答案:
其他三个选项均正确
Logistic回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用()。
参考答案:
应将几个哑变量作为一个因素,整体进出回归方程
在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重决定系数为0.8500,则调整后的多重决定系数为()。
参考答案:
0.8327
半对数模型中,参数1的含义是()。
参考答案:
X的相对变化,引起Y的期望值绝对量变化
回归变差,或回归平方和是指()。
参考答案:
被解释变量的总变差与剩余变差之差
;解释变量变动所引起的被解释变量的变差
;被解释变量的回归值与平均值的离差平方和
剩余变差是指()。
参考答案:
随机因素影响所引起的被解释变量的变差解释变量的实际值与平均值的离差平方和
;被解释变量的变差中,回归方程不能做出解释的部分
;被解释变量的总变差与回归平方和之差
;被解释变量的实际值与回归值的离差平方和
参数的估计量具备有效性是指()。
参考答案:
Var()为最小
第五章测试
以下不属于数据挖掘软件的是()
参考答案:
ApacheSpark;
购物篮分析中,数据是以()的形式呈现
参考答案:
不对称二元变量;
一个关联规则同时满足最小支持度和最小置信度,我们称之为()
参考答案:
强规则;
在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大)的现象叫做()
参考答案:
负相关;
给定关联规则A-B,意味着:若A发生,B也会发生。()
参考答案:
错
不满足给定评价度量的关联规则是无趣的()
参考答案:
错
频繁闭项集可用来无损压缩频繁项集。()
参考答案:
对
下面购物篮能够提取的最大项集和最小项集的数量是多少()。ID购买项:1.牛奶,啤酒、2.面包,黄油,牛奶、3.牛奶,尿布,饼干、4.面包,黄油,饼干、5.啤酒,饼干,尿布、6.牛奶,尿布,面包,黄油、7.面包,黄油,尿布、8.啤酒,尿布、9.牛奶,尿布,面包,黄油、10.啤酒,饼干
参考答案:
3;
;4;
关联规则的评价度量主要有()
参考答案:
置信度;
;支持度;
关联分析中表示关联关系的方法主要有()
参考答案:
关联规则;
;项集;
第六章测试
朴素贝叶斯算法是贝叶斯算法中最简单的一个算法,假设它里边的各个类条件是()。
参考答案:
独立的
关于朴素贝叶斯算法,下列说法正确的是()。
参考答案:
假设样本各属性之间是相互独立的
随机森林的训练过程分为?()。
参考答案:
投票过程
;生长过程
影响随机森林分类性能的主要因素()。
参考答案:
森林中决策树的相关度
;单颗决策树的分类强度
随机森林结合策略有哪些?()。
参考答案:
投票法
;加权平均法
;简单平均法
人工神经网络的结构包括?()。
参考答案:
输入层
;输出层
;隐含层
单层神经网络有几层?()。
参考答案:
2
神经网络的各层之间的初始参数是如何设定的?()。
参考答案:
随机产生
深度学习模型有哪些?()。
参考答案:
深度神经网络
;卷积神经网络
;循环神经网络
;生成-对抗神经网络
神经网络模型构思来源于对人脑的模拟。()
参考答案:
对
第七章测试
聚类分析是将样品或变量按照它们在性质上的什么进行分类的()。
参考答案:
亲疏程度
哪个方法不是类间距离的度量方法()。
参考答案:
欧式距离
闵可夫斯基距离λ可以取哪些值()。
参考答案:
其他三个选项均正确
关于聚类分析下列说法正确的是()。
参考答案:
系统几类并不适合数据量很大的情形
;K-means属于无监督分类
根据簇之间的关系,聚类分析可以分为()。
参考答案:
重叠聚类
;划分型聚类
;层次型聚类
哪些属性可以通过取值的差来衡量相异度()。
参考答案:
比率属性
;区间属性
聚类与分类一样,具有预测功能。()
参考答案:
错
K-Means算法需要用初始随机种子点来做,不同起点结果不同,可能导致算法陷入局部最优。()
参考答案:
对
DBSCAN是基于密度的噪声应用空间聚类。()
参考答案:
对
紧密度和分离度是聚类分析评价的两个原则。()
参考答案:
对
第八章测试
待定系数a称为灰色作用量()。
参考答案:
错
马尔科夫过程是具有马尔科夫性质的离散随机过程。()。
参考答案:
对
在马尔科夫过程中,在给定当前信息或知识时,过去对于预测未来是有关的。()。
参考答案:
错
马尔科夫分析法是研究随机事件变化趋势的一种方法。()。
参考答案:
对
预测分析的基本思路为:列出并分析现有数据-寻找计算手段-得出结论。()。
参考答案:
对
预测的方法可以分为定性预测方法和定量预测方法。()。
参考答案:
对
在诸多的灰色模型中,哪种模型最常用?()。
参考答案:
GM(1,1)
马尔科夫性中,n+1时刻的状态的条件概率只依存哪种时刻的状态()。
参考答案:
n
以下哪几点是预测分析的关键点()。
参考答案:
数据在时间上的持续性
;数据的数量
;数据的全面性
预测分析主要对以下哪些方面的作用()。
参考答案:
成本控制
;决策管理
;绩效管理
;自适应管理
第九章测试
基于聚类的离群点检测可以分为几类?()。
参考答案:
两类;
基于聚类的离群点检测有什么缺点?()。
参考答案:
产生的离群点集非常依赖所用的簇的个数;
基于密度的离群点检测优点是?()。
参考答案:
可以处理拥有不同密度区域的数据集;
在基于聚类的离群点检测中,对象是否被认为是离群点可能高度依赖于簇的个数。()
参考答案:
对
基于聚类的离群点分析方法,在已有聚类结果的基础上,计算量小,效率高,但是它的有效性也非常依赖聚类的结果。()
参考答案:
对
对于基于原型的聚类,评估对象属于簇的程度主要有两种方法:一是度量对象到簇原型的距离,二是考虑到簇具有不同的密度,可以度量簇到原型的相对距离。()
参考答案:
对
对于基于距离的离群点分析方法,其基本思想是一个对象如果远离大部分其它对象,那么它是离群的。()
参考答案:
对
基于距离的离群点分析可以处理多维数据。()
参考答案:
对
当数据集包含不同密度的区域时,基于距离的离群点检测方法不能很好地识别离群点。()
参考答案:
对
基于距离的离群点检测方案简单,不必知道数据的分布,计算量大。()
参考答案:
错
第十章测试
用于提取主题的文本分析方法包括()。
参考答案:
PLDA
;PLSA
;LDA
;LSA
可以通过词汇来判断文档之间的相似度。()
参考答案:
对
以下哪些属于文本分析模型?()
参考答案:
TF-IDF
;统计语言模型
;TextRank
;主题模型
中文分词的难点是什么?()
参考答案:
规范问题
;歧义问题
;未登录词问题
;计算问题
词的同义和多义现象是文本分析中存在的问题。()
参考答案:
对
词嵌入方法将词表示为数值向量。()
参考答案:
对
主题抽取使得文本的处理大大简化。()
参考答案:
对
某词的IDF值越高,说明该词越不常见。()
参考答案:
对
网络上的信息错综复杂,没有办法对文本进行分析。()
参考答案:
错
基于统计的方法使用句子出现的概率对句子的合理性进行评估。()
参考答案:
对
第十一章测试
基于物品的方法适用于用户数量大大超过物品数量,且物品数量相对稳定,不必频繁更新的场景。()。
参考答案:
对
基于用户的方法适用于物品数量巨大且频繁更新的场景。()。
参考答案:
对
基于产品的协同过滤算法的主要优点是计算量小,可以离线计算()。
参考答案:
对
收集用户信息的行为记录模块负责记录用户的喜好行为。()。
参考答案:
对
多样性描述推荐系统对物品长尾的发掘能力。(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年涂层检测仪项目投资申请报告代可行性研究报告
- 中国阴道炎药物行业市场现状分析及竞争格局与投资发展研究报告
- 2024至2030年中国汽车空调行业市场需求预测与投资战略咨询报告
- 2024至2030年中国含氮基化合物行业发展预测及投资策略报告
- 2024至2030年全球与中国连续碳氢化合物分析仪市场现状及未来发展趋势
- 2024至2030年互联网+秸秆颗粒行业运营模式及市场前景研究报告
- 2024至2030年中国汽车传感器市场前景及投资发展战略研究报告
- 体育运动训练中的技能迁移理论与实践考核试卷
- 公共建筑装饰施工图设计考核试卷
- 机器人智能识别与追踪技术考核试卷
- 投诉法官枉法裁判范本
- MOOC 研究生学术规范与学术诚信-南京大学 中国大学慕课答案
- JBT 11699-2013 高处作业吊篮安装、拆卸、使用技术规程
- 物业公司竞标发言稿3篇
- 技术图纸变更流程(参考模板)
- 钢筋混凝土基础施工方案(完整版)
- 高二物理校本课程:现代科技前沿(物理篇)
- 二次函数的应用 (抛物线型)
- 通风空调施工技术交底-刷油防腐
- 出租车公司安全工作总结
- 教科版五年级上册综合实践教案
评论
0/150
提交评论