(优质)大数据技术知识考核试题与答案_第1页
(优质)大数据技术知识考核试题与答案_第2页
(优质)大数据技术知识考核试题与答案_第3页
(优质)大数据技术知识考核试题与答案_第4页
(优质)大数据技术知识考核试题与答案_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据技术知识考核试题一、选择题1. 大数据的本质是()。 单选题 *A. 洞察B. 搜集C. 联系D. 挖掘2. 网络安全与信息化领导小组成立的时间是:() 单选题 *A. 2015B. 2012C. 2013D. 20143. 智能健康手环的应用开发,体现了()的数据采集技术的应用。 单选题 *A. 统计报表B. 网络爬虫C. API接口D. 传感器4. 分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。 单选题 *A. 关联规则挖掘B. 分类与回归C. 聚类分析D. 时序预测5. 企业在面向客户制定运营策略和营销策略时,希望能针对不同客户推行不同策略,即希望对客户群体进

2、行细分,这个问题属于() 单选题 *A. 关联规则挖掘B. 回归问题C. 聚类分析D. 时序预测6. 对本月股票走势进行预测,属于() 单选题 *A. 关联规则挖掘B. 回归问题C. 聚类分析D. 时序预测7. 如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为()。 单选题 *A. 无序规则B. 穷举规则C. 互斥规则D. 有序规则8. 支撑大数据业务的基础是 ()。 单选题 *A. 数据科学B. 数据应用C. 数据硬件D. 数据人才9. 以下关于Python用于数据分析的包,说法错误的是() 单选题 *A. seaborn是用于作统计图的包B. sklearn是用于进行机

3、器学习的包C. Tensorflow是进行深度学习的包D. numpy是python环境自带的包,不需要用pip命令安装10. 以下关于数据分析平台,说法正确的是() 单选题 *A. Python常用的数据分析平台是Jupyter Notebook.B. Python环境下安装外来包的命令是installC. Jupyter Notebook是一个交互式的数据分析平台。D. Jupyter Notebook是一个基于解释器的运行环境。11. 以下不属于数据分析任务的是() 单选题 *A. 用网络爬虫爬取数据B. 用一个特定值将数据集中的缺失数据填充C. 清理电脑里的垃圾数据D. 作图探索和选择

4、合适的数据分析方法12. 下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是 ()。 单选题 *A. 美国B. 日本C. 中国D. 韩国13. 关于相关分析,以下说法错误的是() 单选题 *A. 相关系数的取值在-1到+1之间。B. 相关系数取值为负数,表示两列数据之间不相关。C. 相关系数取值为0,表示两列数据之间不相关。D. 可以用热图来表现数据集的相关系数矩阵。14. 一般情况下,()越高,说明有更多的正类样本被模型预测正确,模型的效果越好。 单选题 *A. 查准率B. 错误发现率C. 召回率True positive rate (TPR, Recall)D. 阴性预测值

5、15. 数据仓库的最终目的是()。 单选题 *A. 收集业务需求B. 建立数学模型的需要C. 改写各种算法的需要D. 为用户和业务部门提供决策支持16. 数据挖掘常见的工具或算法,不包括()。 单选题 *A. 聚类B. 分类C. 排序D. 预测17. 衡量某一关联规则有两个指标:关联规则的支持度(support)和()。 单选题 *A. 准确度B. 精密度C. 置信度D. 精确度18. ()是均方误差的算术平方根。 单选题 *A. 标准差(SD,Standard Deviation)B. 平均绝对误差(MAE,Mean Absolute Error)C. 均方根误差(RMSE, Root Me

6、an Square Error)D. 均方误差(MSE,Mean Squared Error)19. 在()关联规则中,只涉及数据的一个维度,即处理单个属性中的关系。 单选题 *A. 单维B. 多维C. 单因素D. 多因素20. 云计算是对()技术的发展与运用 单选题 *A. 并行计算B. 网络计算C. 分布式计算D. 三个选项都是21. 以下做法错误的是:() 单选题 *A. 涉密存储介质淘汰、报废时,可以当作废品出售B. 从互联网上下载资料应采用单向导入方式以确保安全C. 用于联接互联网的计算机,任何情况下不得处理涉密信息D. 严禁在联接互联网计算机与内部计算机之间混用优盘等移动存储介质2

7、2. 国务院办公厅是在()印发的关于促进和规范健康医疗大数据应用发展的指导意见? 单选题 *A. 2014年B. 2015年C. 2013年D. 2016年23. 数据清洗的方法不包括 ()。 单选题 *A. 缺失值处理B. 噪声数据清除C. 一致性检查D. 重复数据记录处理24.关于人工神经网络,以下说法错误的是() 单选题 *A. 人工神经元是人工神经网络处理信息的基本单元。B. Relu是一种激活函数C. 人工神经网络是解决聚类问题的算法。D. BP算法是一种典型的人工神经网络算法。25. 可以用来表示时间变化趋势的可视化手段是() 单选题 *A. 折线图B. 饼图C. 条形图D. 马赛

8、克图26. ()是在没有给定划分类的情况下,根据信息相似度进行操作的一种方法,因此又称为无指导的学习。 单选题 *A. 回归B. 聚类C. 分类D. 关联规则27. 下列关于计算机存储容量单位的说法中,错误的是()。 单选题 *A. 1KB1MB1GBB. 基本单位是字节(Byte)C. 一个汉字需要一个字节的存储空间D. 一个字节能够容纳一个英文字符28. 以下关于回归分析,说法正确的是() 单选题 *A. 线性回归也叫作Logistic回归。B. 回归和分类问题是同一类问题,预测的结果都是离散值。C. 回归诊断的作用是帮助评价回归模型的好坏。D. 回归属于无监督学习算法。29. 下列关于箱

9、线图的描述中,正确的是() 单选题 *A. 箱线图是用来表现离散数据分布的统计图。B. 箱线图中可以反映出一组数据的平均数。C. 箱线图中可以表现出缺失值。D. 箱线图中可以表现数据的分布状况。30. 根据资料显示,以下哪项不属于数据挖掘的内容()? 单选题 *A. 建立道路拥堵概率与拥堵趋势变化模型B. 多维分析统计用户出行规律C. 微软开发的Windows10操作系统D. 补充与完善路网属性31. 阿兰图灵在哪一年提出图灵测试的概念()。 单选题 *A. 1952年B. 1954年C. 1950年D. 1955年32. 假设属性income的最大最小值分别是12000元和98000元。利用

10、最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为 ()。 单选题 *A. 0.821B. 1.22C. 1.58D. 0.71633. 关于回归分析,以下说法错误的是() 单选题 *A. 逻辑回归是线性回归的加强版本,一定能够改进线性回归的性能。B. 回归诊断不是回归分析必须进行的工作。C. 回归分析可以用来进行预测新的数据。D. 逻辑回归的输出结果是一个连续数据。34. ARIMA(p,d,q)称为差分自回归移动平均模型,P是()。 单选题 *A. 自回归项B. 移动平均C. 时间序列成为平稳时所做的差分次数D. 移动平均项数35. 下列错误的是

11、 () 。 单选题 *A. 由于网络是虚拟世界, 所以在网上不需要保护个人的隐私B. 虽然网络世界不同于现实世界, 但也需要保护个人隐私C. 网络时代,隐私权的保护受到较大冲击D. 可以借助法律来保护网络隐私权36. 在保护个人隐私方面,吴军博士并没有提到以下哪种方法()? 单选题 *A. 法律的方法B. 技术的方法C. 文化的方法D. 双向监督的方法37. 下列关于舍恩伯格对大数据特点的说法中,错误的是 ()。 单选题 *A. 数据规模大B. 数据类型多样C. 数据处理速度快D. 数据价值密度高38. 假设12个销售价格记录组已经排序如下5, 10, 11, 13, 15, 35, 50,

12、55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内 ()。 单选题 *A. 第一个B. 第二个C. 第三个D. 第四个39. 2012年全国各城市支付宝人均支出排名中,位居第一位的是() 单选题 *A. 嘉兴市B. 杭州市C. 嘉义市D. 高雄市40. 以下大数据分析的实际问题,能够应用聚类方法建模的是() 单选题 *A. 财政收入影响因素分析B. 航空公司客户价值分析C. 商品零售购物篮分析D. 门禁的人脸识别系统41. 如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为()。 单选题 *A. 无序规则

13、B. 穷举规则C. 互斥规则D. 有序规则42. 关于大数据在社会综合治理中的作用,以下理解不正确的是()。 单选题 *A. 大数据的运用有利于走群众路线B. 大数据的运用能够维护社会治安C. 大数据的运用能够杜绝抗生素的滥用D. 大数据的运用能够加强交通管理43. 标准偏差(SD,Standard Deviation)越小,这些值偏离平均值就越少。所以,标准差能反映一个数据集的()。 单选题 *A. 平稳程度B. 变化程度C. 精密程度D. 离散程度44. 概念分层图是()图。 单选题 *A. 无向无环B. 有向无环C. 有向有环D. 无向有环45. 在基于图的簇评估度量表里面,如果簇度量为

14、proximity(Ci , C),簇权值为mi ,那么它的类型是()。 单选题 *A. 基于图的凝聚度B. 基于原型的凝聚度C. 基于原型的分离度D. 基于图的凝聚度和分离度46. 活字印刷术是由()发明的。 单选题 *A. 商鞅B. 鲁班C. 蔡伦D. 毕昇47. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务 ()? 单选题 *A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则48. ()年,部分计算机专家首次提出大数据概念。 单选题 *A. 2010B. 2011C. 2006D. 200849. 算法不属于聚类算法的是()。 单选题 *A. K-

15、Means算法B. K-中心算法C. Apriori算法D. CLIOUE算法50. 习近平总书记曾指出,没有()就没有国家安全,没有信息化就没有现代化。 单选题 *A. 网络安全B. 信息安全C. 基础网络D. 互联网51. “()大数据交易所”2015年4月14日正式运营,目前,交易所已有包括京东、华为、阿里巴巴等超过300家会员企业,交易总金额突破6000万元。 单选题 *A. 贵阳B. 遵义C. 毕节D. 安顺52. ABC分类中畅销的、库存周转率高的高价值商品为() 单选题 *A.B类B.C类C. A类D. 都不属于53. 下列关于网络用户行为的说法中,错误的是()。 单选题 *A.

16、 网络公司能够捕捉到用户在其网站上的所有行为B. 用户离散的交互痕迹能够为企业提升服务质量提供参考C. 数字轨迹用完即自动删除D. 用户的隐私安全很难得以规范保护54. 一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维中的()。 单选题 *A. 定量思维B. 相关思维C. 因果思维D. 实验思维55.以下指标和分类算法性能无关的是()。 单选题 *A. 平均绝对误差MAEB. 均方误差MSEC. 残差ResidualD. 均方根误差RMSE56. 可视化模型有助于理解可视化的具体过程,常用的可视化模型不包括()。 单选题 *A. 循环模型B. 分析模型C. 递进模型D. 顺序

17、模型57. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了()数据挖掘方法。 单选题 *A. 分类B. 预测C. 关联规则D. 聚类58. 下面关于JarvisPatrick(JP)聚类算法的说法不正确的是()。 单选题 *A. JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。B. JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。C. JP聚类是基于SNN相似度的概念。D. JP聚类的基本时间复杂度为O(m)。59. 数据挖掘是一个交叉学科,但是,下列哪一个领域的研究成果和学术思想,不是数据挖掘的主要学科来源()。 单选题 *A. 统计分析B. 人应工程C.

18、 机器学习D. 人工智能60. 商品分析中的重点商品选择可以借助()方法 单选题 *A. 回归分析B. 相关分析C. 漏斗分析D. ABC分类61. 大数据的价值是通过数据共享、()后获取最大的数据价值 单选题 *A. 算法共享B. 应用共享C. 平台共享D. 交叉复用62. 下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是 ()。 单选题 *A. 美国B. 日本C. 中国D. 韩国63. 根据数据专家所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析。 单选题 *A. 21B. 30C. 25D. 3864. 下面关于数据粒度的描述不正确的是 ()。 单选题 *A.

19、粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量65. 平均停留时长和跳失率都是()的分析内容 单选题 *A. 交易分析B. 流量分析C. 访客分析D. 商品分析66. 目前有多种成熟的知识可视化工具,下面()不属于这类可视化工具。 单选题 *A. 概念图B. 思维导图C. 认知地图D. 趋势图67. 雷达图适用于()数据,且每个维度必须可以排序。 单选题 *A. 一维B. 二维C. 三维D. 多维68. 下列四项中,不属于数据库特点的是()。 单选题

20、 *A. 数据共享B. 数据完整性C. 数据冗余很高D. 数据独立性高69.()是位于用户与操作系统之间的一层数据管理软件,它属于系统软件,它为用户或应用程序提供访问数据库的方法。数据库在建立、使用和维护时由其统一管理、统一控制。 单选题 *A. DBMSB. DBC. DBSD. DBA70. 在SQL中,建立表用的命令是()。 单选题 *A. CREATESCHEMAB. CREATETABLEC. CREATEVIEWD. CREATEINDEX71. SQL的视图是从()中导出的。 单选题 *A. 基本表B. 视图C. 基本表或视图D. 数据库72. 下列哪个不是sql数据库文件的后缀

21、()。 单选题 *A. .mdfB. .ldfC. .tifD. .ndf73. 数据定义语言的缩写词为()。 单选题 *A. DDLB. DCLC. DMLD. DBL74. 目前()数据库系统已逐渐淘汰了网状数据库和层次数据库,成为当今最为流行的商用数据库系统。 单选题 *A. 关系B. 面向对象C. 分布D. 面向应用75. 下列关于舍恩伯格对大数据特点的说法中,错误的是 ()。 单选题 *A. 数据规模大B. 数据类型多样C. 数据处理速度快D. 数据价值密度高76. 流量质量评估采用()作为衡量流量有效性的宏观指标 单选题 *A. 访客数B. 转化率C. 浏览量D. 浏览时长77.

22、据Ward M O(2010)的研究,超过() 的人脑功能用于视觉信息的处理,视觉信息处理是人脑的最主要功能之一。 单选题 *A. 30%B. 50%C. 70%D. 40%78. 当前,市场上已经出现了众多的数据可视化软件和工具,下面工具不是大数据可视化工具的是( )。 单选题 *A. TableauB. DatawatchC. PlatforaD. Photoshop79. 数据挖掘常见的工具或算法,不包括()。 单选题 *A. 聚类B. 分类C. 排序D. 预测80. 从宏观角度看,数据可视化的功能不包括()。 单选题 *A. 信息记录B. 信息的推理分析C. 信息清洗D. 信息传播1.

23、 切片是指维的位置互换。 判断题 *对错2. 旋转是指选择维中特定区间的数据或者某批特定值进行分析。 判断题 *对错3. RFM 模型的 F 值越大表示客户交易越频繁。 判断题 *对错4. 多维数据模型是从多角度多层次进行数据查询和分析的的数据库模型。 判断题 *对错5. RFM模型是根据客户活跃程度和交易金额的贡献,进行客户价值细分的方法。 判断题 *对错6. 数据可视化的本质就是借助于图形等各种手段,清晰有效地传达与沟通信息。 判断题 *对错7. 在可视化图形中,应该尽量使用3D图形,因为更加立体好看! 判断题 *对错8. 数据墨水比的比值越低,说明图表中越多的视觉编码被用于传递真正的信息

24、,而不是出现冗余,或者用于描述一些其他的东西 判断题 *对错9. 格式塔原则的核心是整体决定部分的性质,部分依从于整体? 判断题 *对错10. 本质上,可视化是一个抽象的过程,是把数据映射到了几何图形和颜色上。从技术角度看,这很容易做到。 难点在于,要知道什么形状和颜色是最合适的、画在哪里以及画多大。 判断题 *对错11. 数据可视化,是关于数据视觉表现形式的科学技术研究。 判断题 *对错12. MAP软件和Tableau软件,都属于无需编程语言的可视化工具。 判断题 *对错标题 判断题 *对错13. 散点图既可以展示数值分布又可以表示数据之间的关联。 判断题 *对错14. 箱线图中箱子的上下

25、限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了 50% 的数据。 判断题 *对错15. 饼图不足在于分类过多,则扇形越大,无法展现图表 判断题 *对错16. 热力图,也可以称为热图、热量表、密度表,主要用于展示数据的分布情况。 判断题 *对错17. 柱状图的局限在于它仅适用于中小规模的数据集,当数据较多时就不易分辨。 判断题 *对错18. 方差是总体各标志值与其算数平均数的离差的平方和的算数平均数。 判断题 *对错19. 方差和标准差在离散趋势中表达的内容完全相同。 判断题 *对错20. 分位数可以用来描述离散程度,最常用的是四分位数。 判断题 *对错1、根据大数据分析与挖掘课程数

26、据中的数据探索性分析,请使用合适工具,合适方法完成下述分析内容: 填空题 *_答案解析:(1)简述数据探索性分析的基本步骤。数据探索性分析,首先需要确定数据的类别,是数值型数据还是类别数据。对于类别数据,一般需要看类别数据各取值的频数分布,可以采用直方图或者饼图。对于数值型数据,如果需要看数据的分布,可以采用箱线图、直方图;如果需要看数据两两之间的相关性,可以采用相关函数corr(),用热图展现两两之间的相关系数,或者用散点图矩阵展现两两之间的相关性。对于时间序列数据,可以用折线图展现数据随时间而变化的趋势。(2)至少罗列三种常用可视化分析工具,并说明个工具使用场合。条形图:用于展现类别数据的

27、频数分布。饼图:用于展现类别数据的频数分布。直方图:用于展现数值数据的分布情况。散点图:用于展现两列数值数据的分布情况和关联情况。折线图:用于展现时间序列数据随时间变化的趋势。(3)对上述三种工具列出关键代码?条形图:plt.bar( x, y)饼图: plt.pie(x)直方图:plt.hist(x)散点图:plt.scatter(x,y)折线图:plt.plot(x,y)2、什么异常值分析?箱形图在识别异常值方面有什么优越性? 填空题 *_答案解析:1)异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点的分析。2)异常值分析是检验数据是否有异

28、常值。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。3)箱形图依据实际数据绘制,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据分布的本来面貌;另一方面,箱形图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱形图识别异常值的结果比较客观。由此可见,箱形图在识别异常值方面有一定的优越性。3、某公司采用信息化系统对经营活动

29、进行管理,建立如下数据表的语句如下:drop database if exists emps;create database emps;use emps;create table emp(EMPNO INT, - 员工号ENAME VARCHAR(10), - 员工姓名JOB VARCHAR(9), - 工作岗位MGR int, - 经理的员工号,外键HIREDATE date, - 入职时间SAL double, - 底薪COMM double, - 提成DEPTNO int, - 部门编号primary key(EMPNO) ;CREATE TABLE dept (DEPTNO int, - 部门编号DNAME varchar(13), - 部门名称LOC VARCHAR(13), -

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论