南开21春学期《大数据导论》在线作业答案_第1页
南开21春学期《大数据导论》在线作业答案_第2页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、21春学期(1709、1803、1809、1903、1909、2003、2009、2103)大数据导论在线作业试卷总分:100 得分:100一、单选题 (共 15 道试题,共 30 分)1.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段答案:A2.第一个提出大数据概念的公司是( )。A.麦肯锡公司B.谷歌公司C.微软公司D.脸谱公司答案:A3.以下不是数据仓库基本特征的是()A.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的答案:B4.基础设施即服务的英文简称

2、是A.IaaSB.PaaSC.SaaS答案:A5.大数据的特点不包含A.数据体量大B.价值密度高C.处理速度快D.数据不统一答案:D6.SAN是一种()A.存储设备B.专为数据存储而设计构建的网络C.光纤交换机D.HBA答案:B7.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段答案:C8.医疗健康数据的基本情况不包括以下哪项?A.诊疗数据B.个人健康管理数据C.公共安全数据D.健康档案数据答案:C9.()是Microsoft Office的核心组件A.SQLB.WORDC.PPTD.EXCEL答案:D10.哪个选项不属于

3、大数据4V特点?A.VolumeB.ValidC.VarietyD.Value答案:B11.以下哪项不是数据可视化工具的特性()A.实时性B.简单操作C.更丰富的展现D.仅需一种数据支持方式即可答案:D12.大数据的最显著特征是() 。A.数据规模大B.数据类型多样C.数据处理速度快D.数据价值密度高答案:A13.MapReduce中的Map和Reduce函数使用()进行输入输出A.key/value对B.随机数值C.其他计算结果答案:A14.数据仓库是随着时间变化的,下列不正确的是()A.数据仓库随时间变化不断增加新内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据

4、内容D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合答案:C15.GFS中的文件切分成()的块进行存储A.32MBB.64MBC.128MBD.1G答案:B二、多选题 (共 15 道试题,共 30 分)16.开放云()A.价值呈现:大数据应用价值呈现和创新不足B.应用建设:周期长、门槛高、多冗余、体验差C.组织流程:应用跨部门,缺乏流程贯串和使能业务生产D.生态建设:无法有效构建和融入新的数字生态圈答案:ABCD17.#和#,它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换答案:AC18.下列属于传统统计学展示方法的是()A.

5、柱状图B.饼状图C.曲线图D.网络图答案:ABC19.数据工厂包括A.低能耗数据中心B.超大规模讲分布式架构C.新一代智能自动化运维D.超强云安全答案:ABCD20.数据变换的常用方法有#,#,#,#A.中心化变换B.极差规格化变换C.标准化变换D.对数变换答案:ABCD21.大数据在医疗中的应用有()A.流行性疾病预防B.慢性病健康管理C.临床决策支持D.医疗器械研发答案:ABCD22.可视化工具包括()A.ExcelB.Google ChartC.GephiD.ppt答案:ABC23.大数据时代预测人类移动行为的数据来源有A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于

6、通讯记录D.社会网络签到数据答案:ABCD24.大数据带来的挑战有哪些( )。A.会导致数据盲点B.危及个人隐私C.造成群体歧视D.产生庞大能耗答案:ABCD25.传感器工作模式类别包括()A.基于位置B.基于活动C.基于设备答案:ABC26.去除噪声使得数据光滑的技术主要有:A.分箱B.回归C.离群点分析答案:ABC27.可使用#,#,#进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值答案:BCD28.最常用的方式是企业自己搜集自己生产系统所产生的数据,除生产系统的数据外,企业的信息系统还充斥着大量的()等。A.用户行为数据B.日志式的活动数据C.事件信息答案:ABC29.大数据存储的特

7、点与挑战有()A.容量问题B.延迟问题C.安全问题D.成本问题答案:ABCD30.统计图表的可视化方法主要包括()A.散点图B.折线图C.条形图D.饼图答案:ABCD三、判断题 (共 20 道试题,共 40 分)31.Spark的亮点是充分利用内存承载工作集,而且能保证容错。答案:正确32.知识图谱的构建属于大数据在社交网络中的应用答案:正确33.道路速度视图显示每条道路的速度模式答案:正确34.越来越多的企业通过架设海量数据采集系统,多用于系统日志采集,这些工具均采用分布式架构,能满足每秒数百兆的日志数据采集和传输需求。答案:正确35.Apriori算法扫描数据库的次数等于最大频繁项集的项数

8、。答案:正确36.数据仓库中的元数据分为技术元数据和业务元数据答案:正确37.大数据数据量一定是PB,TB级的答案:错误38.21世纪时数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓宽了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。答案:正确39.数据获取方式分为主动式获取和被动式获取答案:正确40.数据存取和共享机制是大数据发展面临的挑战答案:正确41.发现满足最小支持度阈值的所有项集,这些项集被称为频繁项集。答案:正确42.利用大数据技术对电子病历中的数字化信息进行分析处理,既能够让医生的诊疗有迹可循,还可以发现最有效的临床路径,从而及时为医生提供最佳的诊疗建议。答案:正

9、确43.数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。答案:正确44.分类是在给定数据基础上构建分类函数或分类模型,将数据划分到预定义的目标类中的某一种类别。答案:正确45.大数据的挑战仅仅来自于数据的增长。答案:错误46.Excel采用插件的形式来实现数据挖掘功能,其数据挖掘插件主要包括Excel表分析工具和Excel数据挖掘客户端答案:正确47.不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态( )答案:正确48.Paas:软件即服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论