大数据工程技术人员初级理论考核试题与答案_第1页
大数据工程技术人员初级理论考核试题与答案_第2页
大数据工程技术人员初级理论考核试题与答案_第3页
大数据工程技术人员初级理论考核试题与答案_第4页
大数据工程技术人员初级理论考核试题与答案_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据工程技术人员初级理论考核一、选择题1.下列哪个选项不属于数据可视化的范畴()。 单选题 *A.科学可视化B.图表可视化C.信息可视化D.可视化分析2.下列哪个选项不属于最为常见的六种图形()。 单选题 *A.饼图B.条形图C.树图D.柱状图3.下列()可视化图表通常用颜色深浅表示数值大小 单选题 *A.柱状图B.热力图C.散点图D.气泡图4.数据集合中出现次数最多的数值被称为() 单选题 *A.平均数B.众数C.中位数D.极差5.()指总体中的最大值与最小值的差,反映总体标志值的差异范围。 单选题 *A.极差B.方差C.标准差D.离散系数6.分析买家购买商品时产生流量和金额的各渠道情况需

2、要细分() 单选题 *A.终端B.时间C.地区D.品类7.统计时间内支付金额/支付买家数(或商品件数),衡量统计时间内每位买家的消费金额大小是()指标 单选题 *A.支付金额B.买家数C.单价D.客单价8.平均停留时长和跳失率都是()的分析内容 单选题 *A.交易分析B.流量分析C.访客分析D.商品分析9.商品分析中的重点商品选择可以借助( )方法 单选题 *A.回归分析B.相关分析C.漏斗分析D.ABC分类10.ABC分类中畅销的、库存周转率高的高价值商品为() 单选题 *A.B类B.C类C.A类D.都不属于11.流量质量评估采用()作为衡量流量有效性的宏观指标 单选题 *A.访客数B.转化

3、率C.浏览量D.浏览时长12.据Ward M O(2010)的研究,超过()的人脑功能用于视觉信息的处理,视觉信息处理是人脑的最主要功能之一。 单选题 *A.30%B.50%C.70%D.40%13.当前,市场上已经出现了众多的数据可视化软件和工具,下面工具不是大数据可视化工具的是( )。 单选题 *A.TableauB.DatawatchC.PlatforaD.Photoshop14.从宏观角度看,数据可视化的功能不包括()。 单选题 *A.信息记录B.信息的推理分析C.信息清洗D.信息传播15.目前有多种成熟的知识可视化工具,下面()不属于这类可视化工具。 单选题 *A.概念图B.思维导图

4、C.认知地图D.趋势图16.可视化模型有助于理解可视化的具体过程,常用的可视化模型不包括 单选题 *A.循环模型B.分析模型C.递进模型D.顺序模型17.人眼的视场是很宽的,垂直方向能超过80,水平方向能超过()。 单选题 *A.180B.170C.160D.15018.雷达图适用于()数据,且每个维度必须可以排序。 单选题 *A.一维B.二维C.三维D.多维19.下列四项中,不属于数据库特点的是()。 单选题 *A.数据共享B.数据完整性C.数据冗余很高D.数据独立性高20.()是位于用户与操作系统之间的一层数据管理软件,它属于系统软件,它为用户或应用程序提供访问数据库的方法。数据库在建立、

5、使用和维护时由其统一管理、统一控制。 单选题 *A.DBMSB.DBC.DBSD.DBA21.在SQL中,建立表用的命令是()。 单选题 *A.CREATESCHEMAB.CREATETABLEC.CREATEVIEWD.CREATEINDEX22.SQL的视图是从()中导出的。 单选题 *A.基本表B.视图C.基本表或视图D.数据库23.下列哪个不是sql数据库文件的后缀()。 单选题 *A.mdfB.ldfC.tifD.ndf24.数据定义语言的缩写词为()。 单选题 *A.DDLB.DCLC.DMLD.DBL25.目前()数据库系统已逐渐淘汰了网状数据库和层次数据库,成为当今最为流行的商

6、用数据库系统。 单选题 *A.关系B.面向对象C.分布D.逻辑26.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()。 单选题 *A.DELETEB.DROPC.CLEARD.REMORE27.在MSSQLServer中,关于数据库的说法正确的()。 单选题 *A.一个数据库可以不包含事务日志文件B.一个数据库可以只包含一个事务日志文件和一个数据库文件C.一个数据库可以包含多个数据库文件,但只能包含一个事务日志文件D.一个数据库可以包含多个事务日志文件,但只能包含一个数据库文件28.数据库管理系统的英文缩写是()。 单选题 *A.DBMSB.DBSC.DBAD.DB29.建立索引的

7、目的是()。 单选题 *A.降低SQLServer数据检索的速度B.与SQLServer数据检索的速度无关C.加快数据库的打开速度D.提高SQLServer数据检索的速度30.以下关于主键的描述正确的是()。 单选题 *A.标识表中唯一的实体B.创建唯一的索引,允许空值C.只允许以表中第一字段建立D.表中允许有多个主键31.有关数据冗余说法错误的是()。 单选题 *A.数据库中,数据存在副本的现象,就是数据冗余B.通过分类存储,可以有效减少数据冗余,但是会增加数据查找的复杂性C.在数据库设计阶段,一定要尽最大可能避免数据冗余,最好做到无数据冗余。D.数据冗余通常是由于数据库设计引起的。32.关

8、于标识列,以下说法正确的是()。 单选题 *A.使用sql语句插入数据时,可以为标识列指定要插入的值。B.设定标识时,必须同时指定标识种子和标识递增量。C.若设定标识时,未指定标识递增量,D.只能把主键设定为标识列。33.现有表user,字段:userid,username,salary,deptid,email;表department,字段:deptid,deptname;下面()应采用检查约束来实现。 单选题 *A.若department中不存在deptid为2的纪录,则不允许在user表中插入deptid为2的数据行。B.若user表中已经存在userid为10的记录,则不允许在user

9、表中再次插入userid为10的数据行。C.User表中的salary(薪水)值必须在1000元以上。D.若User表的email列允许为空,则向user表中插入数据时,可以不输入email值。34.以下不属于企业管理器功能的是()。 单选题 *A.创建并管理所有数据库、登陆、用户、权限等。B.管理和执行数据导入导出、数据库备份等多项辅助功能。C.定义sqlserver组。D.调试、执行sql语句,批处理和脚本。35.将原始数据进行集成、变换、维度规约、数值规约是在()步骤的任务。 单选题 *A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘36.某超市研究销售纪录数据后发现,买啤酒的

10、人很大概率也会购买尿布,这种属于数据挖掘的()问题。 单选题 *A.关联规则发现B.聚类C.分类D.自然语言处理37.当不知道数所带标签时,可以使用()技术位使带同类标签的数据与带其他标签的数据相分离。 单选题 *A.分类B.聚类C.关联分析D.隐马尔可夫链38.下面()属于映射数据到新的空间的方法。 单选题 *A.傅里叶变换B.特征加权C.渐进抽样D.维归约39.下列()不是专门用于可视化时间空间数据的技术。 单选题 *A.等高线图B.饼图C.曲面图D.矢量场图40.可用作数据挖掘分析中的关联规则算法有()。 单选题 *A.决策树、对数回归、关联模式B.K均值法、SOM神经网络C.Aprio

11、ri算法、FP-Tree算法D.RBF神经网络、K均值法、决策树41.下列()不是可视化交互方法。 单选题 *A.概览+细节技术B.焦点+上下文技术C.概览+缩放技术D.平移+缩放技术42.下列()属于可视化交互设备。 单选题 *A.平板电脑B.触摸屏C.立体眼镜D.以上都是43.可视分析的运行过程可看作是()的循环过程。 单选题 *A.“数据知识数据”B.“知识知识知识”C.“数据数据数据”D.“知识数据数据”44.与大数据密切相关的技术是()。 单选题 *A.蓝牙B.云计算C.博弈论D.Wifi45.极坐标图形是使用()来绘制的。 单选题 *A.原点和半径B.相角和距离C.横纵坐标D.原点

12、和相角46.文本可视化流程是() 单选题 *A.原始文本文本信息挖掘视图绘制人机交互。B.原始文本视图绘制人机交互。C.原始文本文本信息挖掘人机交互。D.原始文本文本信息挖掘视图绘制。47.下列属于反映比例关系的可视化图表的是()。 单选题 *A.旭日图B.散点图C.热力图D.气泡图48.下列属于数据收集内部渠道的是( )。客户调查 专家与客户访谈 专业调研机构 内部数据库单选题 *A.、B.、C.、D.、49.作为电商企业,以下()图可以有效地提供不同商品的销售和趋势情况。 单选题 *A.饼图B.分组直方图C.气泡图D.条形图和线图的组合图50.下列属于基本图表的是()。 单选题 *A.瀑布

13、图B.滑珠图C.漏斗图D.折线图51.对于一个右偏的频数分布,一般情况下()的值最大。 单选题 *A.中位数B.众数C.算术平均数D.无法判断52.散点图是对成组的()数值进行比较,气泡图是对( )数值进行比较。 单选题 *A.两个;两个B.两个;三个C.三个;两个D.四个;三个53.图表操作以下个操作选择数据源图表布局插入图表,他们的正确顺序是()。 单选题 *A.B.C.D.54.使用一下那种可视化工具不需要编程基础( )。 单选题 *A.D3.jsB.TableauC.VegaD.Processing55.现有两个数据(0,1,0,1,0)与(0,0,1,1,1),其中每个属性为二元属性

14、类型,则它们的Jaccard相似系数为()。 单选题 *A.0.75B.0.6C.0.5D.0.2556.下面哪个选项不是表达维度的展现方式()。 单选题 *A.次序B.径向C.螺旋形D.线性57.下面哪个维度表示事件组之间的关系()。 单选题 *A.布局维度B.表达维度C.比例维度D.随机58.要展示多个文档之间的主题相似性,以下哪类可视化技术较为合适()。 单选题 *A.图结构可视化,如节点连接图B.空间数据可视化,如体绘制C.时序数据可视化,如主题河流D.高维数据可视化,如降维投影59.若有-个数据集,每个数据点有5个属性,以下哪种可视化技术最适用于表示其属性两两之简的相关性()。 单选

15、题 *A.降维投影后使用二维散点图进行可视化B.像素图C.散点图矩阵D.平行坐标系60.可视化可以将难以理解的原始数据变换成用户可以理解的模式和特征,并显示出来。依据可视化流程概念图,在原始数据和可视化中间这一步骤是()。 单选题 *A.用户感知B.数据分析C.数据采集D.数据处理和变换61.在TamaraMunzner提出的可视分析模型中,可视设计的whatwhyhow三个维度中的what指代的是()。 单选题 *A.可视化任务的抽象B.对于要被可视化的数据的抽象C.视觉编码形式的设计D.可视化交互形式的设计62.可视化和其他数据分析处理方法最大的不同是用户起到了关键作用,可视化映射后的结果

16、只有通过()才能转换成知识和灵感。 单选题 *A.可视化映射B.数据处理与变换C.用户感知D.以上答案均不正确63.下列哪一个不属于可视化三部曲()。 单选题 *A.可视化编码映射B.视图与交互设计C.可视化代码实现D.可展示数据筛选64.颜色的视觉通道不包括()。 单选题 *A.饱和度B.色相/色调C.透明度D.美观度65.可视化的输入是()。 单选题 *A.数据B.代码C.视觉形式D.语言66.可视化的输出是()。 单选题 *A.数据B.代码C.视觉形式D.语言67.哪句话可以说明可视化的作用()。 单选题 *A.一图胜千言B.掷地有声C.力透纸背D.画龙点睛68.数据的维度指的是()。

17、单选题 *A.重要属性的数量B.属性值的大小C.属性的数量D.样本的数量69.以下关于统计的说法中,错误的是()。 单选题 *A.统计学是关于收集、整理、分析数据和从数据中得出结论的科学B.描述统计和推断统计的作用只能分开发挥C.参数估计是利用样本信息推断总体特征D.描述统计的内容包括如何用图表或数学方法对数据进行整理和展示70.用组中值代表各组内得一般水平得假定条件就是()。 单选题 *A.各组得次数均相等B.各组得组距均相等C.各组得变量值均相等D.各组次数在本组内呈均匀分布71.RFM模型的R代表什么?() 单选题 *A.客户最近一次交易时间的间隔B.客户在最近一段时间内交易的次数C.客

18、户在最近一段时间内交易的金额D.客户在最近一段时间内交易的频率72.多维数据模型中的钻取主要指()。 单选题 *A.从细粒度数据向高层的聚合B.将汇总数据拆分到更细节的数据C.选择维中特定的值进行分析D.选择维中特定的值进行聚合73.数据分析的具体步骤为分析业务含义、制定分析计划、拆分查询数据、提炼业务洞察和()。 单选题 *A.提交报告B.反馈汇总C.产出业务决策D.以上都对74.上卷是钻取的逆操作()。 单选题 *A.正确B.错误C.不确定D.不相关75.苹果手机的LOGO遵循了闭合性原则中的()。 单选题 *A.形状闭合B.负形闭合C.经验闭合D.截断闭合76.OLAP的目标是满足决策支

19、持或多维环境特定的查询和报表需求,它的技术核心是()。 单选题 *A.表B.维C.数据D.统计77.基于OLAP技术通过对数据进行多层次、多阶段的分析处理,获得高度归纳的信息是()。 单选题 *A.多维数据分析B.多维标度分析C.业务分析D.逻辑分析78.下述对维度成员的描述错误的是()。 单选题 *A.维的一个取值称为该维的一个维度成员(简称维成员)B.如果一个维是多级别的,那么该维的维度成员是在不同维级别的取值的组合。C.银行会给不同经济性质的企业贷款,比如国有、集体等,若通过企业性质的角度来分析贷款数据,那么经济性质就是维度成员D.考虑时间维具有日、月、年这3个级别,分别在日、月、年上各

20、取一个值组合起来,就得到了时间维的一个维成员,即“某年某月某日”。79.PV和UV分别指的是()。 单选题 *A.访客数和浏览量B.浏览量和访客数C.浏览量和买家数D.买家数和浏览量80.下列哪个不是数据库对象()。 单选题 *A.数据模型B.视图C.表D.用户1.运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。 判断题 *对错2.大数据往往可能蕴含着丰富的规律和知识,所以在大数据之上应用数据挖掘就成了理所当然的活动了。 判断题 *对错3. 1989年,术语“数据库中的知识发现”正式确立,即KDD。 判断题 *对错4.通过数据挖掘技术,可以发现许多深层的、

21、手工无法发现的规律,帮助企业在激烈的竞争环境中,占有更多的先机。 判断题 *对错5.一般而言,数据仓库应先行建立完成,数据发掘才能有效率的进行。 判断题 *对错6.Web数据挖掘是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。 判断题 *对错7.与分类不同的是,回归的输出是离散的类别值,而分类的输出是连续数值。 判断题 *对错8.近年来,随着人工智能机器学习模式识别和数据挖掘等领域中传统方法的不断发展以及各种新方法新技术的不断涌现,分类方法得到了长足的发展。 判断题 *对错9.“根据客户的消费行为,把客户分成三个类,第一个类的主要特征是”,实际上这是一个分类问题

22、。 判断题 *对错10.至今Apriori仍然作为聚类分析的经典算法被广泛讨论。 判断题 *对错11.神经网络在学习中,一般分为“有教师学习”和“无教师学习”两种。 判断题 *对错12.早期的数据挖掘工具采用命令行界面,而且文本格式的输出也不够直观。 判断题 *对错13.k-Means聚类算法以相对距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。 判断题 *对错14.从混淆矩阵中,可以衍生出各种评价的指标。错误发现率(False discoveryrate,FDR),表示在模型预测为正类的样本中,真正的负类的样本所占的比例。 判断题 *对错15.层次聚类方法的

23、基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。 填空题 *_(答案:请设置答案)15.层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。 判断题 *对错16.政府2.0、政府3.0,与政府以后的治理改革和服务型政府建设的目标是完全不一致的。 判断题 *对错17.深度学习就是指Tensorflow框架。 判断题 *对错18.大数据的价值重在挖掘,目的在于从数据中获取有用知识。 判断题 *对错19.简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取

24、样本时,总体中每个对象被抽中为调查样本的概率可能会有差19.简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。 判断题 *对错20.维是人们观察数据的特定角度,是考虑问题时的一类属性。 判断题 *对错1、在进行数据探索性分析时,经常使用各种可视化图形的方式。请说明探索性分析的目标,以下几种图形的核心指令,以及各图的主要功能。 填空题 *_答案解析:(1)条形图核心指令: plt.bar( x, y) (3分)作用:用来表现类别数据的频数分布 (3分)(2)箱线图核心指令: sns.boxplot(x , y, data) (4分)作用:用来表现数值型数据的数据分布情况,如中位数、上四分位数、下四分位数、四分位距等。(4分)(3)折线图核心指令:plt.plot(x, y) (3分)作用:一般用来表现数据随时间变化的趋势。 (3分)2、什么异常值分析?如何运用 原则进行异常值分析? 填空题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论