版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.数抿科学不仅可以推动数学、计算机科学.统计学、天体信息学等学科的发展.而且又能够大力助推( )的发展与进步。A基础科学B流体力学C星本理论D产业隐滅答案正确答案:D2x如果X的平均值和标准差分别为54000和16000.使用z分敌规范化方法.X的(ft89500被转换为( )。A1.56B1.25C2.219D1.19隐液答案正确答案:CCyber空间是指以计算机技术.现代通倍网络技术、( 〉竽信息技术的综合运用为基础.以知识和信息为内容的新型空间.A电子技术B虚拟现实技术C软件技术D人工智能隐彼答案正确答案:B4、 数抿约简主耍有待征约简.样木约简.< )和数值约简等。A维数约简B归一化C数据变换D—致性隐液答案正确答案:A5、 假定某属性X的最小值、最大值分别为42000和98000.将属性x=73600映射到[000.1]中的值为< )。A0.716B0.912C0.325D0.679隐穢答案正确答案:A增址数据抽取方式只抽収( )的数据'APB级数据B不变的数据C发生变化的数据D有价值的数据隐液答案正确答案:C7、每一次计算请求称为( )。A纨程B进程C任务D作业隐濒答案正确答案:D&批址计稣技术属F( )计算技术。A离线B在线C涼式D在线隐液答案正确答案:A9、数抿平滑法主要分为()、指数平滑法和分箱平滑法。A统计法B册短距离法C移动平均法D聚类方法隐穢答案正确答案:C10.10.离线计算模式中的己知数据存储于< )OA内存B唤盘C高速缓冲储器隐録答案D闪存隐録答案正确答案:B< 〉是结构化数据•网页是半结构化敌据。A关系数据库数据B视频C图像D声音隐濒答案正确答案:AMapReducefg型适于( )计算.A实时B在线C离线D涼式隐穢答案正确答案:C建立挖掘模型.选取或改进挖掘模型都需要验证.最常用的验证方法绘< >。A样本学习B统计分析C逻辑推理D数学期望隐録答案正确答案:A数据获取与存储符理是大数据处理周期的第< )步。A1B2C3隐激答案D5隐激答案正确答案:A大数据主要来口( 〉与互联网世界。A电子世界B物理世界C因特网D广域网隐液答案正确答案:B网页数据绘<A网站外部数据B日志数据C网站内部数据隐激答案D高速缓存数据隐激答案正确答案:A大数据的5个待性是数抿址.多样性.( ).速度.真实性。A稀绘性B关联性C实用性D价值隐濒答案正确答案:D( 〉是NoSQL敌据阵屮锻常用的存储方式。A键值存備方式B按地址存储方式C图存储方式D列表存储方式隐液答案正确答案:A数据挖掘绘从数据集(可能是不完全的.有噪声的.不确定性的、各种存储形式的)中挖堀出隐儈在其中的、人们爭先不知的、对抉策有用的( )的过程。A语义网B产生式C知识与信息D规則隐滅答案正确答案:C20、数据科学是关于( )的科学。A算法B数据C倍息隐徹答案D知识隐徹答案正确答案:B21x数据挖掘主耍注垂解决分类.聚类.关联和定量定性( 〉零问題・其垂点是寻找未知的模式与规律。A预测B检测C硏究D学习隐液答案正确答案:A22、数州淸洗算法的衡虽标准主耍包含< 八错谋返回率和箱确度。A冗余度B返回率C可用性D一致性隐激答案正确答案:B23、奈奎斯待采样定理指出采样频率脱该大「•信号中放高频率的( )倍时.采样Z后的数字倍号才能够完整地保留原始信号中的信息:A2B4C6D3隐濒答案正确答案:A1x(木題每个括号里裾要从ABCD四个选项屮选填一个字母•不可垂复)数据规范化的主要方法是( ).( )和( )等。A掀小•燉大规范化方法B模糊规范化方法CZ分数规范化方法D小数定标规范化方法隐藏答案正确答案:ACD2x(本题每个括号里雅翌从ABCD四个选项中选填一个字母.不可重复)不完整数据的淸洗绘指对缺失值的填补.主耍采用的方法是( )、( ).( )°Ak・NN近邻缺失数据填充B就近补齐C随机但填充D平均值填充隐液答案正确答案:ABD(本题毎个括号里需耍从ABCD四个选项中选填一个字母•不可垂复)( )是样本相对于均值的偏差平方和的平均.()是绝对指标.其值大小不仅取决于样本数据的分故程度.(〉是标准差与均值的比值。()是指一组测呈值内最大值与掖小值Z差.又称范闱误差或全距.A极差B变异系数C标准差
D样本方差D样本方差隐液答案正确答案:DCBA4、(本题每个括号里潘耍从ABCD四个选项中选填一个字母.不可垂复)脏数据主耍是指( )、( )和( )•A垂复数据B不完整数据C非结构化数据D异常数据隐液答案正确答案:ABD题每个括号里需耍从ABCD四个选项屮选填一个字母.不可垂复)OldSQL适用丁•(八NewSQL适用于( )•NoSQL适用于( )•A爭务处理应用B口志数据存储C数据分析腹用D互联网应用隐彼答案正确答案:ACD(本题每个括号里需要从ABCD四个选项中选填一个字母.不可垂复)聚类就是将数据集分组为多个类或簇.在同一个簇中的数据对象(记录)Z间具有较高的( )•而不冋簇屮的对象的( )就比较大。我们将故落在外.不能归并到任何一类中的数据称为()。A相似度B模制度C奇异点隐激答案D差别隐激答案正确答案:ADC(本题毎个括号里需耍从ABCD四个选项中选填一个字母•不可垂复)网络爬虫流程主要分为( )、( 〉和( )三部分。A存储数据B寻找网址
C解折网页C解折网页D获取网贝隐徹答案正确答案:ACD&(本题毎个桔号里需耍从ABCD四个选项中选填一个字母.不可鱼复)均值就址().将一组数据中出现;火数最多的数值叫(),(〉是指从小到大排列或从大到小挣列的一组数据中•处在中间位置上的一个数据•一组n个观测值按数值大小排列.处于p%位置的值称第p<)。A百分位数B众数C平均数隐録答案D中位数隐録答案正确答案:CBDA(本題每个括号星需要从ABCD四个选项中选填一个字母.不可垂复)移动平均法是按对过去卄干历史数据求算术平均数.并把该数据作为以后时期的预渕值。移动平均法分有( ).( )和多次移动平均法。A寥次平均法B一伙移动平均法C二次移动平均法隐液答案D多次移动平均法隐液答案正确答案:BC(本題每个括号里潘要从ABCD四个选项屮选填一个字母.不可垂复)从分析的结果來看.大数据分析主耍分为().():从分析的方式来看.大数据分析主要分为离线数据分析、()和()•A探索性数据分析B在线数据分析C交互式分析D定性数据分析隐彼答案正确答案:ADBC(本题每个括兮里需要从ABCD四个选项中选填一个字母.不可垂复〉由「•数据随若( )而变化.可以将( 〉变化可视化.然后解释&致数据变化的原因.隐激答案隐激答案A环境B时间C数据D知识正确答案:BC12、(本題每个括号里需要从ABCDRII个选项中选填一个字母.不可垂复)网站内部数据主耍有( 〉和( )。A日志数据B寄存器数据C数抿库数据D内存数据隐濒答案正确答案:AC13、(本题毎个括号里需耍从ABCDH个选项中选填一个字母•不可重芟〉由大及小的数据展现方式是先给出一个( )的iffitfil.可以引导读者具体深入到一个()的点,A一般B整体C聚焦D局部隐濒答案正确答案:BC(本题每个括号里需要从ABCD四个选项屮选填一个字母.不可垂复)在( 〉比较的可视化展现中.可以对数据樂中( )的不冋方面给出一个有力的叙述与说明.A数据B平滑处C不关心隐徹答案D突出隐徹答案正确答案:AD(本題每个括弓里需要从ABCD四个选项中选填一个字母.不可垂复》去垂绘指在不同的时间维度内.垂复一个行为产生的数据只计入一次v按()维度去莹主耍分为按小时去垂.按口去重.按<)去垂.按月去垂或按()去重.A自选时间段B删C时间D空间正确答案:CBA(本題每个括号里需要从ABCD四个选项屮选填一个字母.不可垂复)异常数据检测方法主要分为( 〉、星于邻近度的技术和( )•A基于模型的技术B基于平均数计篦C星于最大值计算隐液答案D廉干密度的技术隐液答案正确答案:BC(本題每个括巧里需耍从ABCD四个选项屮选填一个字母•不可巫复)数据集成潘要考虑的问題是( ).( )和( )•A数据容呈何题B数据冲突的检测与处理何题C实体识别问题隐徹答案D兀余问題隐徹答案正确答案:ABD18、(本题每个括号里需要从ABCD四个选项中选填一个字母.不可垂复》基于约简维数的大小分类•维数约简可以分为( )、( )和( )•A谀维数约简B可视化C统计维数约简D软维数约简隐藏答案正确答案:ABD(本題毎个括号里需耍从ABCD四个选项屮选填一个字母.不可重芟〉数州质址的四耍素绘数据的准确性、( )、数据的完整性和( )。A数据的随机性B数据的一致性C数据的可用性D数据的及时性正确答案:BD20、(本题每个括匕里需耍从ABCD四个选项中选填一个字却.不可重复〉在大数据抽取中.可以分为初始化转移阶段和增呈转移阶段,初始化转移阶段采用( )的方式•增呈转移阶段采用( )方式进行有选择的抽取,A何构异质数据抽取B虽数据抽取C冋构同质数据抽取隐液答案D全呈数据抽取隐液答案正确答案:DB2仁(木題每个括号里盂要从ABCD四个选项中选填」个字母•不可重幻样木约简主要包括系统抽样、( 〉和( )等.A随机抽样B垂点抽样C确定抽样隐徹答案D分层抽样隐徹答案正确答案:AD22、(本題每个扌舌号里需耍从ABCD四个选项屮选填一个字母.不可$AD大数据抽取过程酬是从( )中抽取数据并传送到()中的过程。A数据源B信息C数据库D目的数据系统隐藏答案正确答案:AD23、(木題每个括号里瞄耍从ABCD四个选项屮选填一个字母.不可重复)在NewSQL+NoSQL泯合模式中•NewSQL承担高价值密度( )的存储和分析处理工作.NoSQL承担存储和处理海址( )。隐激答案隐激答案正确答案:正确正确答案:正确A半结构化数据B站构化数据C非结构化数抿D分布式存储与计篦正确答案:BC24、(本題每 •电需要从ABCD四个选; :(个字母,不可在样本数据较 )的情况卜.随机协( )•效果越好.A大B小C高D低隐液答案正确答案:BC1x在数抿预处理过程屮.可以很据需耍.通过数据转换沟造出数据的新屈性.使Z更有助丁•处理数据。( )A正确B错谋隐液答案正确答案:正确Hadoop处理平台能够完成在线处理。( )A正确B错谋隐液答案正确答案:错谋字段Z间的相似度S是根据所有字段的内容而计算出的一个表示两字段相似程度的数值。< )A正确B错谋隐液答案正确答案:正确正确答案:正确4、回III分析绘研处现^Z(HJ是否存在某种依存关系.并对冇依存关系的现級.探讨其相关方向以及相沃程度。( )A正确隐液答案B错谋隐液答案正确答案:错谋数抿集成是指将不同來源.不同格式、不同特点与不同性质的数据在逻辑上或物理上有机地集中.存放在不一致的数据存储(如数据仓库)中。( )A正确B错谋隐液答案正确答案:错谋R-NN近邻缺失数据填充算法是一种简单快速的算法.它利用木身具冇完整记录的属性但实现对缺失屈性但的估计。()A正确隐徹答案B错谋隐徹答案正确答案:正确MapReduce计篦能够完成实时计算。( )A正确B错谋隐濒答案正确答案:错決&—•幅图漑燉伟大的价但英过F它能够使我们实际看到的内容比期垫看到的内容丰富得多。< )A正确B错谋隐液答案知识点:正确答案:正确正确答案:正确采用NoSQL+NewSQL混合模式构建数抿屮心.可以发挥NoSQL数据库的爭务处理能力和NewSQL在实时性、5朵分析.即席査询等方而的优势.以及面对海址数据时较强的扩展能力・( )A正确B错课隐藏答案正确答案:错谋大数据主耍来口物理世界与互联网世界。( 〉A正确B错谋隐滾答案正确答案:正确TOC\o"1-5"\h\z数据规范化可将原來的度虽值转换为无址纲的值.通过将屈性故州按比例缩放•将一个函数给定属性的整个但域映射到一个新的值域中.即每个旧的值都被一个新的值替代•( )A正确隐穢答案B错谋隐穢答案正确答案:正确大数据处理周期是拆从数据获取.挖掘和分析.进而快速茯得有价值信息的过程。( 〉A正确隐穢答案B错谋隐穢答案正确答案:正确OldSQL+NoSQL混介模式能够很好地解决互联网大数据应用对海址结构化和非结构化数据进行存储和快速处理的需求,( )A正确B错谋隐濒答案14.14.非结构化数据绘指在获得敌据之.前就可知共结沟的数据。( )正确答案:错決正确答案:错決A正确隐液答案B错谋隐液答案正确答案:错谋数据挖掘主翌注垂解决分类、聚类.关联和定址定性侦测零问題.其垂点不是寻找未知的模式与规律。< )A正确B错谋隐液答案正确答案:错谋网貉数据获取是指通过网络爬虫等方式从网站上获取数据信息的过程.这样可将作结构化数躲半结构化数抿从网页中提取出来.并以作结构化的方式将其存储为统一的本地数据文件,()A正确B错谋隐液答案正确答案:正确数据科学的组成耍索主要包括数学.统计学知识.以及荻域的专业知识。< )A正确B错谋隐液答案正确答案:正确18•分类就是自动将数据对盘分成多个类或簇.划分的原则是在同一个簇屮的数据对仪具冇较鬲的相似度.而不同簇中的数据对象相似度差别较大。()A正确B错谋隐液答案只有通过淸洗Z后.才能通过分析与挖掘得到可信的.可用于支捋决笫的信息。< >AA正确A正确B错课隐録答案正确答案:正确维数约简是便用編码机制来増大数据集的规模。< )A正确B错谋隐濒答案正确答案:错谋通过将抽仪的指标敌据转换成我们熟悉的容易感知的敌据时.用户便更不容易理解图形耍我达的恿义。< )A正确B错谋隐液答案正确答案:错谋22、噪声绘拆3!“遨抵屮的随机错谋和偏差.通过数据平滑技术可以识别噪術。< )A正确B错谋隐濒答案正确答案:错決23、虽然约简后的数抿集变小「而且不能保持原始数据的完整性.但在这样的数据集卜•挖掘.仍然能够获得与约简前相冋的分析结果.( )A正确B错谋隐藏答案正确答案:正确离线敌据分析是指将待分析的敌据先存储「•皱盘屮.然后进行数抿分析.离线数据分析用于较复朵和耗时的数据分析和批处理.( )B错谋隐液答案正确答案:正确25、探索性敌据分析是从某种假设出发.去探索其内在的数据规律性。< >A正确B错误隐液答案正确答案:错決26、计舁机科学是尊法与算法变换的科学•数抿科学是关「•数抿的科学•数据科学是为研处探索Cyber空间中数据界的理论、方法和技术.( )A正确B错谋隐液答案正确答案:正确数擱分析是从一个假设出发.需翌口行选择方程或模型來与假设匹配.而数据挖掘不需耍假设.可以自动建立模型,()A正确B错谋隐液答案正确答案:正确同构同质数据库是指冋一类型的数据模型.问一型号的数据库系统*同构异质数据库杲指同一类型的敌占出H八不问型号的数据库系统•( )A正确B错谋隐濒答案正确答案:正确29、分箱平滑法堆-种数据局部平滑方法.它是通过考察所冇的数据來平滑存储敌据。< >
B错谋B错谋隐液答案正确答案:错谋30、MapReducei+^将数据存储到内存屮.然后对存储在硬盘中的静态数据进行集屮计浓()A正确B错误隐液答案正确答案:错误在通常情况下.聚类算法不是计算两个样本间的相似度.而是用特征空间中的胆离作为度址标准来计算淅个样本间的相异度.()A正确隐激答案B错谋隐激答案正确答案:正确全虽抽取类似「•数据迁移或数抵复制.它将抽取数据源屮发生改变的故据,把这些改变的数据从数据库中抽取出來•并转换成抽取工具可以识别的格式•()A正确
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年环保技术与设备购销合同
- 2024年版餐厅后厨管理合同2篇
- 《走上辩论台》教案
- 2024年广告创意设计与执行合同模板3篇
- 小学生语文学习计划
- 存量房买卖合同(15篇)
- 中国转椅坐垫项目投资可行性研究报告
- 体育工作计划范文合集五篇
- 员工安全生产承诺书
- 网络大学生实习报告合集7篇
- 对外开放与国际合作概述
- 2024届四川省成都市高中数学高一下期末学业质量监测模拟试题含解析
- 2023年青协活动总结报告
- 提升供应链效率:年度运营计划
- 展览馆维修维护投标方案
- 陈赫贾玲小品《欢喜密探》台词剧本
- 2023招聘专员个人年终总结
- 机房搬迁服务投标方案(技术标)
- 脑出血入院病历
- 国际邮轮产业及未来邮轮
- 小学第四季度意识形态分析研判报告
评论
0/150
提交评论