MOOC 走进数据科学-江西财经大学 中国大学慕课答案_第1页
MOOC 走进数据科学-江西财经大学 中国大学慕课答案_第2页
MOOC 走进数据科学-江西财经大学 中国大学慕课答案_第3页
MOOC 走进数据科学-江西财经大学 中国大学慕课答案_第4页
MOOC 走进数据科学-江西财经大学 中国大学慕课答案_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MOOC走进数据科学-江西财经大学中国大学慕课答案大数据溯源随堂测验1、问题:大数据就是大量数字的集合。选项:A、正确B、错误正确答案:【错误】2、问题:大数据价值的产生和实现,需要技术的持续积累,才能由量变到质变。选项:A、正确B、错误正确答案:【正确】3、问题:任何事物的属性和规律,只要通过适当编码,均可以通过统一的数字信号表达出来。选项:A、正确B、错误正确答案:【正确】4、问题:大数据对未来的发展有着至关重要的作用。选项:A、正确B、错误正确答案:【正确】5、问题:大数据技术是包括硬件、数据库、操作系统、Hadoop等一系列技术的综合应用。选项:A、正确B、错误正确答案:【正确】大数据特征随堂测验1、问题:大数据强调地是数据量,主要突出数据的海量性。选项:A、正确B、错误正确答案:【错误】2、问题:从技术上看,信息传感设备的出现、快速发展的物联网数据及存储技术的进步,推动了信息量几何增长。选项:A、正确B、错误正确答案:【正确】3、问题:从需求上看,数据类型没有改变,主要是由于数据搜集的基数逐渐变大导致信息量的增大。选项:A、正确B、错误正确答案:【错误】4、问题:大数据的数据类型多,早已经能不是单一的结构化数据占比大。选项:A、正确B、错误正确答案:【正确】5、问题:由于大数据的数据量大、数据类型多等特征,导致价值隐藏在海量的数据中,使得大数据往往表现为“数据价值高,价值密度低”的情况。选项:A、正确B、错误正确答案:【正确】大数据现象随堂测验1、问题:大数据在各行各业都有较为广泛的应用。选项:A、正确B、错误正确答案:【正确】2、问题:美国是大数据的策源地及创新引导者,大数据的发展一直走在全球前列。如今,大数据技术应成为了美国各个领域的变革力量。选项:A、正确B、错误正确答案:【正确】3、问题:企业发展也离不开大数据的支持,但每个独立的公司都会根据自身的成长基因对大数据给予不同的理解和运用。选项:A、正确B、错误正确答案:【正确】4、问题:由于大数据的广泛应用,国内出现了“数据科学”概念,数据处理技术将成为一个与计算科学并列的新的学科领域。选项:A、正确B、错误正确答案:【正确】5、问题:大数据计算的高度复杂性是由于数据覆盖面广。选项:A、正确B、错误正确答案:【错误】大数据产业随堂测验1、问题:大数据给人类带来前所未有的机遇,很多创业者开创了具有大数据标签的公司,形成大数据产业。选项:A、正确B、错误正确答案:【正确】2、问题:伴随着大数据时代的到来,大数据涉及的数据采集、数据分析、数据应用等环节都是大数据产业的一部分。选项:A、正确B、错误正确答案:【正确】3、问题:大数据产业中的基础支撑产业是指与政务、工业、农业、金融、交通和电信等行业紧密相关的应用软件和整体解决方案。选项:A、正确B、错误正确答案:【错误】4、问题:在大数据被多方面认同的情况下,不同期望、不同利益主体对于大数据所带来的机遇和挑战应对方式截然不同。因此,分析大数据产业的生存环境对于大数据产业的发展尤其重要。选项:A、正确B、错误正确答案:【正确】5、问题:云计算等存储手段的发展及推进为大数据应用的部署与运维提供了事实的基础设施保障。选项:A、正确B、错误正确答案:【正确】大数据挑战随堂测验1、问题:数据收集手段、数据收集碎片化、数据的可信性造成了大数据收集过程中的挑战。选项:A、正确B、错误正确答案:【正确】2、问题:现如今,很多企业业务部门不了解大数据,不了解大数据的应用场景和价值,制约了大数据的发展。选项:A、正确B、错误正确答案:【正确】3、问题:大数据处理和分析能力远远不及理想中水平,数据量的快速增长,对存储技术提出了挑战。选项:A、正确B、错误正确答案:【正确】4、问题:数据存储虽然技术还不能支撑大数据的发展,但是安全性已经达到标准,目前阶段不必在考虑。选项:A、正确B、错误正确答案:【错误】5、问题:大数据时代不仅对存储技术提出了挑战,它还需要高速信息传输能力的支持,以及低密度有价值数据的快速分析和处理能力。选项:A、正确B、错误正确答案:【正确】单元作业单元测验1、问题:海量数据从原始数据源到产生价值,期间会经过存储、()、挖掘、分析等多个环节。选项:A、清洗B、计算C、建模D、处理正确答案:【清洗】2、问题:由于大数据存在数据量大、数据类型多、数据处理快三个特点,导致数据价值隐藏在海量的数据中,使得大数据往往表现为()。选项:A、数据价值密度高B、数据价值密度低C、数据价值高D、数据价值低正确答案:【数据价值密度低】3、问题:2012年美国总统大选时,纳特西尔弗(NateSilver)利用大数据成功预测出投票结果,让众多企业看到大数据应用的()。选项:A、广泛性B、相关性C、真实性D、无用性正确答案:【真实性】4、问题:学界大数据中,对大数据感知与表示的研究目的是()。选项:A、如何高效的采集和整合不同的数据源的数据B、处理数据规模巨大性及数据内容复杂性导致计算高度复杂性C、应对大数据在数据规模上的巨大性及数据内容的复杂性特点D、应对大数据在数据覆盖面广的现实需求正确答案:【如何高效的采集和整合不同的数据源的数据】5、问题:随着大数据产业链的不断成熟和明晰,大数据生态越来越稳定,数据的产生及数据的应用都有一套完整的技术作为支撑,说明了()对大数据产业环境的影响。选项:A、技术预研及人才储备B、基础奢侈C、多边合作D、产业化分工正确答案:【产业化分工】6、问题:()的理念促进了大数据产业的发展,在大数据项目研发和试错中,通过跨界合作获得资源互补是大数据项目进展过程中的主旋律,进一步加强了多边的合作,促进了集体智慧的体现。选项:A、技术预研及人才储备B、基础奢侈C、多边合作D、产业化分工正确答案:【多边合作】7、问题:由于(),很多企业业务部门不了解大数据,也不了解大数据的应用场景和价值,导致很多数据没有应用场景,很多有价值历史数据被删除。选项:A、需求不清晰B、技术不完善C、数据不全面D、计算不精确正确答案:【需求不清晰】8、问题:大数据的特征主要有()方面特征。选项:A、数据量大B、数据类型多C、数据处理快D、数据价值密度低正确答案:【数据量大#数据类型多#数据处理快#数据价值密度低】9、问题:基于现有数据类型,可以对其划分为()。选项:A、结构化数据B、半结构化数据C、非结构化数据D、全结构化数据正确答案:【结构化数据#半结构化数据#非结构化数据】10、问题:大数据产业链中共有()三种典型公司。选项:A、基于数据(本身)的公司B、基于技术(研发)的公司C、基于思维(服务)的公司D、基于建模(分析)的公司正确答案:【基于数据(本身)的公司#基于技术(研发)的公司#基于思维(服务)的公司】11、问题:在学界大数据研究中,研究大数据的复杂性和计算模型包括()选项:A、处理数据规模的巨大性B、处理数据内容复杂性C、处理数据计算高度复杂性D、处理不同数据源的整合正确答案:【处理数据规模的巨大性#处理数据内容复杂性#处理数据计算高度复杂性】12、问题:大数据产业可以分为三种:选项:A、融合应用产业B、基础支撑产业C、高端技术产业D、数据服务产业正确答案:【融合应用产业#基础支撑产业】13、问题:机遇和挑战永远是并存的,在大数据时代到来的同时,大数据所面临的挑战也随之而来,大数据面临的技术层面的挑战可以分为()。选项:A、数据收集B、数据储存C、数据处理D、数据展示正确答案:【数据收集#数据储存#数据处理#数据展示】14、问题:由于大数据的四个特点,给现如今数据存储带来很多的挑战,主要为()。选项:A、数据库过小B、数据多样性C、反馈时间D、数据运维正确答案:【数据库过小#数据多样性#反馈时间#数据运维】15、问题:大数据可视化如今仍然没有达到人们的要求,尽管计算机智能化有了很大进步,但目前还只能针对小规模、有结构或类结构的数据进行分析。大数据可视化仍然面临着()等挑战。选项:A、视觉噪声B、信息丢失C、大型图像感知D、高速图像变换正确答案:【视觉噪声#信息丢失#大型图像感知#高速图像变换】16、问题:数据科研的研究大致可以分为五类:大数据的复杂性和计算模型、大数据的感知与表示、大数据的内容建模与语义理解、大数据的存储与架构体系、其他相关基础研究支撑。选项:A、正确B、错误正确答案:【正确】17、问题:学界对于大数据的存储与结构体系的研究目的是应对大数据在数据规模上的巨大性及数据内容的复杂性特点。选项:A、正确B、错误正确答案:【正确】18、问题:大数据产业是指伴随着大数据时代的到来,大数据涉及的数据采集、数据分析、数据应用等环节都是大数据产业的一部分。选项:A、正确B、错误正确答案:【正确】19、问题:大数据产业分类中的数据服务层是围绕各类应用和市场需求,提供辅助性的服务,包括数据交易、数据资产管理、数据采集加工分析、数据安全等。选项:A、正确B、错误正确答案:【正确】20、问题:大数据现在被广泛地认可与期待,但是认可与期待能否持续下去仍然取决于大数据能否真正地落实并且创造价值。选项:A、正确B、错误正确答案:【正确】21、问题:现如今大数据产业以及它所生存的环境已然较为健康,大数据产业有着较为稳定的发展,不会有什么较大的挑战。选项:A、正确B、错误正确答案:【错误】22、问题:大数据收集的最大挑战是数据收集的碎片化。在很多企业中尤其是大型的企业,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也有可能不一样,这导致企业内部自己的数据都无法打通整合。选项:A、正确B、错误正确答案:【正确】23、问题:数据存储的安全性在大数据时代下已经得到了稳妥的保护,个人一些知名网站密码等不会存在泄漏等问题。选项:A、正确B、错误正确答案:【错误】随堂测验1、问题:大数据基础支撑技术主要分为四个层次,分别是治理层、数据层、统计层、模型层。选项:A、正确B、错误正确答案:【正确】2、问题:数据层是大数据项目开展的第一部分,也是最基础的一个层次,只有严格把控数据的质量、数据的可访问性、数据的可用性等要求,才能进行有效的数据收集及处理分析。选项:A、正确B、错误正确答案:【错误】3、问题:数据层是大数据项目开展的第二部分,也是最重要的一个层次。分为三个部分:一是数据采集,二是数据预处理,三是数据存储与管理。选项:A、正确B、错误正确答案:【正确】4、问题:数据的存储与管理也是对数据进行处理过程中不可或缺的一部分,数据的存储与管理主要分为三种类型:离线存储、近线存储、实时存储。选项:A、正确B、错误正确答案:【正确】5、问题:数据层及统计层是大数据项目开展的核心,对数据进行有效地分析及建模,才能够实现“数据—价值”转变,挖掘出背后的知识与规律。选项:A、正确B、错误正确答案:【错误】随堂测验1、问题:在云计算的运用过程中,云计算可以划分为三个服务层。一是将软件作为服务(SaaS)、二是将平台作为服务(PaaS)、三是将基础设施作为服务(IaaS)。选项:A、正确B、错误正确答案:【正确】2、问题:云计算的本质是一种基于互联网的应用模式,有效地嫁接了计算资源提供者与计算资源消费者(需求者)的双边关系,各取所需。选项:A、正确B、错误正确答案:【正确】3、问题:在云计算的实现机制中,管理中间层(资源管理层)主要目的还是为了将资源最大化的共享,是将大量相同类型的资源构成同构或者接近同构的资源池。选项:A、正确B、错误正确答案:【错误】4、问题:管理中间件层和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。选项:A、正确B、错误正确答案:【正确】5、问题:云计算根据其服务对象和服务性质可分为公有云及私有云。选项:A、正确B、错误正确答案:【错误】随堂测验1、问题:在数据大爆炸的互联网时代,不仅数据量呈现几何级数的增长,数据的类型也变得更加的复杂多样,大数据采集技术则变得尤为重要,它是大数据挖掘的基础。选项:A、正确B、错误正确答案:【正确】2、问题:数据大概有两种来源:现实生活与网络。传感器和系统日志是从现实生活进行数据采集,Web爬虫是从网络进行数据采集。选项:A、正确B、错误正确答案:【错误】3、问题:Web爬虫是一种自动下载网页的计算机程序和自动化脚本,通常从一个成为种子集开始运行,按照一定序列或者条件爬取页面信息,最终遍历整个Web网页。选项:A、正确B、错误正确答案:【正确】4、问题:Web爬虫的流程—先发送请求,然后获得网页内容,然后对网页内容进行解析,得到一个比较方便查看的数据结果,最后爬取相关内容。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:数据的收集是大数据的开始,但刚刚收集的数据有各种各样的缺陷,是无法直接进行分析的,我们需要对这些数据进行处理,为分析打下基础。选项:A、正确B、错误正确答案:【正确】2、问题:数据处理大致分为三部分:导入数据、查看数据、数据清洗。其中,导入数据就是数据预处理部分。选项:A、正确B、错误正确答案:【错误】3、问题:数据预处理主要包括数据的导入与数据的查看。数据的查看主要是查看元数据,元数据又称中介数据,为描述数据的数据,主要是描述数据属性的信息,包括存储位置、历史数据、字段解释等。选项:A、正确B、错误正确答案:【正确】4、问题:在采集的数据中因为技术、现实等原因可能导致采集数据错误、不全,因此数据清洗是数据分析中不可或缺的环节。选项:A、正确B、错误正确答案:【正确】5、问题:数据清洗大致分为六个步骤:分析数据、去除不必要数据,改变数据类型,处理缺失数据,处理内容错误,处理逻辑错误。选项:A、正确B、错误正确答案:【错误】随堂测验1、问题:大数据时代,随着数据规模的急剧增长,数据类型的多样化,传统的关系型数据库无法满足半结构化和非结构化数据的存储需求。选项:A、正确B、错误正确答案:【正确】2、问题:针对不同的数据结构我们有不同的存储方式,大致分为两大类,一个是分布式文件系统,一个是NoSQL数据库。选项:A、正确B、错误正确答案:【正确】3、问题:Hadoop分布式文件系统特点之一就是可以有效防止硬件失效,对大数据存储而言,涉及到上百台的服务器,硬件异常时经常发生的事情,Hadoop分布式文件系统加入了有效的预防硬件异常措施,并且都能有自动恢复的能力。选项:A、正确B、错误正确答案:【正确】4、问题:NoSQL数据库适用于数据类型比较简单、对数据库性能要求较高且不需要高度的数据一致性等场景。主要分为三大种类:键值存储数据库、列存储数据库、文档型数据库。选项:A、正确B、错误正确答案:【错误】5、问题:键值存储数据库会使用一个特定的键和一个指针指向特定的数据的哈希表(根据关键码值(Keyvalue)而直接进行访问的数据结构)。特点是模型简单,易部署,但效率低。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:数据库系统阶段是传统数据中最新的阶段,数据库系统也是现在传统数据常用的处理方式。在这个阶段中,数据的共享性高、冗余度小,且数据整体结构化,但是缺乏数据安全性、完整性、并发控制和恢复能力。选项:A、正确B、错误正确答案:【错误】2、问题:传统数据库模型主要有关系数据模型、网状数据模型和层次模型。传统数据主要通过这三个模型进行表达和解释。选项:A、正确B、错误正确答案:【正确】3、问题:关系数据模型是目前运用最多的数据模型,结构简单,并且存取路径对用户而言是完全隐蔽的,是程序和数据具有高度的独立性,其数据语言的非过程化程度较高。选项:A、正确B、错误正确答案:【正确】4、问题:网状数据模型的结构简单、清晰、明朗,很容易看到各个实体之间的联系,但是修改数据时,具有较多严格的限制,例如删除父节点,那么其下的所有子节点都要同时删除。选项:A、正确B、错误正确答案:【错误】随堂测验1、问题:大数据具有与传统数据不一样的特征,因此要让大数据被正确表达的前提是:它首先必须是能够被记录进计算机并被识别。选项:A、正确B、错误正确答案:【正确】2、问题:采用合适的数据结构与算法能够高效快速地对海量数据进行表达和解释。选项:A、正确B、错误正确答案:【正确】3、问题:布隆过滤器与Merkle哈希树只能使用在允许发生一定误判的场景,而在要求百分之百精确判断集合成员的场景不能使用。选项:A、正确B、错误正确答案:【正确】4、问题:Merkle哈希树被广泛应用在分布式领域,主要用来在海量数据下快速定位少量变化的数据内容(变化原因可能是损毁、篡改或者正常变化等)。选项:A、正确B、错误正确答案:【正确】5、问题:Cuckoo哈希的优良性质,尤其是高效查找效率,使得其可以应用在大规模存储系统设计中。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:在分析的过程中你会发现所有分析其实是为了得到某种结论,没有结论的数字罗列并不是分析。选项:A、正确B、错误正确答案:【正确】2、问题:在分析的过程中,数据是客观的,而人是主观的。对于同样的数据来说,不同的人可能会得到不同的结论,甚至是完全相反的,因此需要有一些科学的分析方法作为桥梁,帮助数据信息得到更好、更全面、更快的传递。选项:A、正确B、错误正确答案:【正确】3、问题:数据分析的过程实际上就是从数据到信息再到知识的过程。而为了实现这一过程,通常需要基础理论、行业经验以及工具三者的结合。选项:A、正确B、错误正确答案:【正确】4、问题:由于学科的交叉性发展,数据分析的手段和方法更加丰富,包括了常规分析、数据挖掘、商务智能、大数据技术、数据可视化。选项:A、正确B、错误正确答案:【正确】5、问题:统计学领域,一般将数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析,在分析过程中,三者相互排斥,不能同时使用。选项:A、正确B、错误正确答案:【错误】随堂测验1、问题:机器学习是大数据分析技术中重要的一种技术,是通过数据进行建模的技术,即从给定的大数据中挖掘出合适的模型来解释、预测的技术。选项:A、正确B、错误正确答案:【正确】2、问题:大数据分析与传统数据分析技术有所差异,在数据基础、分析方法和分析工具三个方面均有所体现。选项:A、正确B、错误正确答案:【正确】3、问题:大数据和传统数据库最明显的差别在于数据规模上的不同,大数据的数据量至少是TB级别以上,而传统的数据仓库因为存储的是结构化的关系数据,数据量往往比较小。选项:A、正确B、错误正确答案:【正确】4、问题:在传统的小数据时代背景下,主要是推断和分析样本数据,而在大数据背景之下,主要是分析和研究总体数据,这样能够获取总体特征,并且全面探索出特征背后的规律以及发生概率等。选项:A、正确B、错误正确答案:【正确】5、问题:相对于单一的传统数据而言,大数据的数据类型种类繁多,形式多样,如结构化数据、半结构化数据和非结构化数据等。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。选项:A、正确B、错误正确答案:【正确】2、问题:在真实的机器学习中,一般的机器学习模型至少考虑两个变量:一个是因变量,也就是我们希望预测的结果。另一个是自变量,影响结果的变量。选项:A、正确B、错误正确答案:【正确】3、问题:机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。选项:A、正确B、错误正确答案:【正确】4、问题:方法层面来说,机器学习是计算机利用已有的数据(经验),训练出某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。选项:A、正确B、错误正确答案:【错误】5、问题:聚类算法是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。选项:A、正确B、错误正确答案:【错误】随堂测验1、问题:图像识别理解为是图像的模式识别,是模式识别技术在图像领域中的具体应用,是对输入的图像信息建立图像识别模型,分析并提取图像的特征,然后建立分类器,根据图像的特征进行分类识别的一种技术。选项:A、正确B、错误正确答案:【正确】2、问题:图像识别的基本原理包括三个方面:图像的组成、图像的识别、图像识别的要点。选项:A、正确B、错误正确答案:【错误】3、问题:随着计算机技术的迅速发展和科技的不断进步,图像识别技术已经在众多领域得到了应用,包括神经网络的图像识别技术和非线性降维的图像识别技术。选项:A、正确B、错误正确答案:【正确】4、问题:图像识别的应用主要可以分为三类:生物特征识别、物体与场景识别和视频识别。选项:A、正确B、错误正确答案:【正确】5、问题:在进行行视频识别与分析时,需要前端摄像机设备来传输数据,同时,需要通过大数据训练、具备云计算能力的深度学习图像分析系统来实时进行视频检测和数据分析。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:自然语言指的是汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。选项:A、正确B、错误正确答案:【正确】2、问题:自然语言有两种表现形式:文字和语音,它们能够承载整个信息。选项:A、正确B、错误正确答案:【错误】3、问题:自然语言处理在许多方面仍存在难点需要继续研究,例如,语义角度上,如何从一个语句中词的意义,以及这些词在该语句中句法结构的作用来推导出该语句的意义。选项:A、正确B、错误正确答案:【正确】4、问题:分词是自然语言处理技术的基础构成之一,并且是其它技术的基础。基于统计实现的词性标注、命名实体识别、句法分析等都需要依赖对句子进行正确的分词。选项:A、正确B、错误正确答案:【正确】5、问题:词性标注是语言识别、句法分析、信息抽取技术的基础技术之一,是指为句子中每个单词标注一个词性类别,这里的类别包括名词、动词、形容词、连词、副词、标点符号等。选项:A、正确B、错误正确答案:【正确】数据测度之六:文本数据分析1、问题:计算机时代的迅猛发展使网络数据呈现爆发性增长,全球多达80%的大数据都是非结构化的,主要是文本数据。因此,对文本的数据分析尤为重要。选项:A、正确B、错误正确答案:【正确】2、问题:文本分析的目的在于从根本上把所有的非结构化数据整合从而化为结构化数据,从之前被认为难以量化的海量文本中抽取出大量有价值的、有意义的数据或信息。选项:A、正确B、错误正确答案:【正确】3、问题:自动问答是从一份或者多份文本中提取出来部分的文字,这些文字中包含了原文本中的重要的信息,并且长度也会不超过或者远少于原文本的一半。选项:A、正确B、错误正确答案:【错误】4、问题:文本数据处理的基本步骤包括文本采集、文本预处理、特征提取与特征选择、建模分析等。选项:A、正确B、错误正确答案:【正确】5、问题:情感分析是基于大数据的文本分析的一种运用,指的是对文本中情感的倾向性和评价对象进行提取的过程。选项:A、正确B、错误正确答案:【正确】数据角度之一:可视化设计1、问题:对编码需要进行解释,对坐标轴也应当进行标注。没有标注或解释的坐标轴就只是个摆设而已。标注坐标轴可以显示它所描绘的尺度和内容,只要改动坐标轴的标记就会得到一个完全不同的故事。选项:A、正确B、错误正确答案:【正确】2、问题:在进行可视化数据时,必定会用到几何形状。柱形图中有矩形,它们的长度代表了数值的多少,在点状图中表现数值的则是位置,这和标准的时序图类似。饼图通过角度来表现数值,其总和通常不等于100%。选项:A、正确B、错误正确答案:【错误】3、问题:在可视化的设计过程最后,还应当注明数据来源。数据来源不仅能便于读者进行核验或者分析,而且还能为数据带来更多的上下文背景。选项:A、正确B、错误正确答案:【正确】4、问题:数据图形的设计流程都是相似的。拿到数据后,以圆形、柱形和颜色等形式对数据进行“编码”,进行标注,然后呈现给读者。选项:A、正确B、错误正确答案:【正确】数据角度之二:可视化元素1、问题:可视化元素具体可以分为两部分内容:可视化元素类型和可视化元素选择。选项:A、正确B、错误正确答案:【正确】2、问题:视觉元素与视觉标记均为可视化元素的类型。视觉元素意为视觉元素的表现形式,主要为点、线、面等;视觉标记表示人眼所能看到的各种元素的属性,例如大小,颜色,形状等。选项:A、正确B、错误正确答案:【正确】3、问题:如何选择并搭配可视化元素,是实现可视化重要的一个流程。各个元素组合的不同所带来的直观效果以及结果是不同的。选项:A、正确B、错误正确答案:【正确】4、问题:我们需要根据数据类型决定视觉元素的优先级:数值型数据适合用能够量化的视觉元素表示,如坐标、长度等,使用颜色表示的效果就大打折扣,且容易引起歧义;序列型数据适合用区分度明显的视觉元素表示;类别型数据适合用易于分组的视觉元素。选项:A、正确B、错误正确答案:【正确】5、问题:对数据进行可视化过程中,不仅要了解数据的类型,还要了解数据背景信息,从而才能设计出具有价值的可视化效果。离开背景信息,数据就毫无用处了,这就如同断章取义截取文中的片段作为主要论点引用一样。选项:A、正确B、错误正确答案:【正确】数据角度之三:非编程可视化工具(上)1、问题:Excel不仅仅是数据存储与处理的工具,也是最为基础的可视化软件。与大多数软件一样,Excel的可视化形式主要分为2D图表与3D图表。选项:A、正确B、错误正确答案:【正确】2、问题:和Excel相比,GoogleSpreadsheets拥有更多优势。可以在任何安装了浏览器的计算机上查看自己的数据,同时也能很方便地与其他人共享,还能做到实时协作。选项:A、正确B、错误正确答案:【正确】3、问题:ManyEyes涵盖了绝大多数传统的可视化类型,例如折线图和散点图(如图所示)。ManyEyes的优势在于其中的可视化数据图都是可交互的,而且有一些定制选项。选项:A、正确B、错误正确答案:【正确】4、问题:Gephi是一款网络及系统可视化的专业开源软件,支持交互式探索网络与层次结构,操作简便。选项:A、正确B、错误正确答案:【正确】5、问题:TileMill是一款开源的桌面软件,可以按喜好和需求设计地图,它支持多种地图数据、支持自定义样式、支持svg图标和文字样式等,而且地图输出格式也比较丰富。选项:A、正确B、错误正确答案:【正确】数据角度之四:可视化图形1、问题:指标值可视化一般用与指标含义相近的图标来表现,使用场景也比较多,将指标用通俗易懂的符号表示。选项:A、正确B、错误正确答案:【正确】2、问题:指标图形化最常见的可视化形式,一个指标值就是一个数据,将数据的大小以图形的方式表现。比如用柱形图的长度或高度表现数据大小。选项:A、正确B、错误正确答案:【正确】3、问题:当存在多个指标时,挖掘指标之间的关系,并将其图形化表达,可提升图表的可视化深度。关系图就展现了不同类别之间的数据关系。选项:A、正确B、错误正确答案:【正确】4、问题:时空可视化包括时间可视化与空间可视化,其中,空间可视化指的是用时间维度来查看指标值的变化情况。选项:A、正确B、错误正确答案:【错误】5、问题:数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。选项:A、正确B、错误正确答案:【正确】数据角度之五:可视化数据1、问题:当可视化时序时间时,目标是要能够清楚的看到什么已经成为过去,什么已经发生了变化,而又有什么保持不变,相差的程度又是多少。选项:A、正确B、错误正确答案:【正确】2、问题:空间数据包括时间与空间属性,存在自然的层次结构,可以并需要以不同的粒度进行探索研究。选项:A、正确B、错误正确答案:【错误】3、问题:针对于分类数据,条形图是显示分类数据最常用的方法。此外,饼图用于描述数据的结构化,堆叠条形图显示各类占比情况。选项:A、正确B、错误正确答案:【正确】4、问题:分类中的分类数据,常用的两种图形是树图和马赛克图。马赛克图是在紧凑的空间里显示层次结构,通常面积和颜色结合使用;树图则允许在一个视图中进行跨分类比较。选项:A、正确B、错误正确答案:【错误】5、问题:马赛克图能够明显看到数据的分类情况,还可以显示各个分类内部的组成以及分类的组合。选项:A、正确B、错误正确答案:【正确】单元作业单元测验1、问题:()是一种自动下载网页的计算机程序和自动化脚本,通常从一个成为种子集开始运行,按照一定序列或者条件爬取页面信息,最终遍历整个Web网页。选项:A、传感器B、系统日志C、Web爬虫D、数据库正确答案:【Web爬虫】2、问题:()是指对文本的表示及其特征项的选取,是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。选项:A、文本分析B、图像分析C、文本挖掘D、大数据分析正确答案:【文本分析】3、问题:()是模式识别技术在图像领域中的具体应用,是对输入的图像信息建立图像识别模型,分析并提取图像的特征,然后建立分类器,根据图像的特征进行分类识别的一种技术。选项:A、图像识别B、图像构建C、图像修改D、图像重现正确答案:【图像识别】4、问题:()是一种基于词典和人工规则的方法。是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功。选项:A、机械分词算法B、基于统计的分词算法C、非机械分析算法D、基于语法的分词算法正确答案:【机械分词算法】5、问题:()是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。选项:A、降维算法B、回归算法C、神经网络D、聚类算法正确答案:【降维算法】6、问题:大数据基础支撑技术涵盖了一下哪几个层次。选项:A、数据层B、统计层C、治理层D、模型层正确答案:【数据层#统计层#治理层#模型层】7、问题:治理层是大数据项目开展的第一部分,也是最基础的一个层次。我们通常需要几个方面来支持使得能够更好地实现数据治理。选项:A、标准B、策略流程C、技术平台D、基础架构正确答案:【标准#策略流程#技术平台】8、问题:潜在数据源主要存在于哪几处。选项:A、内部数据B、互联网数据C、外部数据D、独立数据正确答案:【内部数据#互联网数据#外部数据】9、问题:大数据采集方法主要分为哪几种。选项:A、传感器B、系统日志C、Web爬虫D、数据库正确答案:【传感器#系统日志#Web爬虫】10、问题:统计学领域,一般将数据分析划分为()。选项:A、描述性数据分析B、探索性数据分析C、验证性数据分析D、假设性数据分析正确答案:【描述性数据分析#探索性数据分析#验证性数据分析】11、问题:数据分析更多的是基于业务背景来解读数据,把隐藏在数据背后的信息提炼和总结出来,也即通过数据理解、数据准备、建立模型、模型评估,进而发现其中有价值的内容,最后将模型应用于业务实践。选项:A、正确B、错误正确答案:【正确】12、问题:大数据分析主要涉及六个方面,具体包括可视化分析、数据仓库、数据质量和数据管理、数据挖掘算法、预测分析能力、语义引擎。选项:A、正确B、错误正确答案:【正确】13、问题:一般来说我们把数据清洗大致分为这五个步骤,分别是:去除不必要数据,改变数据类型,处理缺失数据,处理内容错误,处理书写错误。具体实践中可以稍作调整。选项:A、正确B、错误正确答案:【错误】14、问题:分词是自然语言处理技术的基础构成之一,但仍存在难点进行处理,例如中文分词中交叉歧义、组合歧义、真歧义分词问题。选项:A、正确B、错误正确答案:【正确】15、问题:图像数据是大数据时代重要的一类数据类型,图像识别技术大致可以分为三个阶段:文字识别、数字图像处理与识别、物体识别。选项:A、正确B、错误正确答案:【正确】数据演绎之一:从统计数字到统计数据1、问题:从古至今,统计数据发生了翻天覆地的变化,从最初的数字,到文字,再到图像,音频等。数据存储的方式越来越多,统计数据的多样化突显了出来。直至今天,统计数据仍在随着科学技术的不断突破,继续向前发展中。选项:A、正确B、错误正确答案:【正确】2、问题:数字是作为最早出现的统计数据类型,一直被广泛地使用,并且对于数字的统计分析早已非常完善,不处于现统计学的研究核心。选项:A、正确B、错误正确答案:【错误】3、问题:随着时代的发展以及进步,文本信息目前已经成为了一种重要,并且有趣的数据类型。因为我们看到现在很多的文本数据分析被应用在对美食和电影的角色评价中。选项:A、正确B、错误正确答案:【正确】4、问题:如今,统计数据类型包括数字、文本、图像、音频、视频等形式。针对各种不同存储数据信息的形式,都有着较为广泛成熟地使用情况。选项:A、正确B、错误正确答案:【正确】5、问题:随着科技的发展,统计数据类型逐渐由简变繁,然而统计数据的变化却不会影响对于数据处理的效率。选项:A、正确B、错误正确答案:【错误】数据演绎之二:从统计数据到智能化1、问题:数据已发生了巨大的转变,不仅仅是在数据的量上有明显的增加,数据的种类也发生了翻天覆地的变化。数据的转变给我们在数据处理上带来了一定的挑战。选项:A、正确B、错误正确答案:【正确】2、问题:随着互联网等科技的飞速发展,智能化的出现很好的应对了统计数据类型的多样性及海量性,减少了大量的工作,高效地完成了对数据的分析。选项:A、正确B、错误正确答案:【正确】3、问题:从技术角度对其进行定义,智能化是指事物在网络、大数据、物联网和人工智能等技术的支持下,所具有的能动地满足人的各种需求的属性。选项:A、正确B、错误正确答案:【正确】4、问题:智能化具有学习能力和自适应能力,即具有能够感知外部世界、获取外部信息的能力。选项:A、正确B、错误正确答案:【错误】5、问题:智能化在统计过程中最基础的是数据搜集工作中起到的作用不是很大,仍需要对访问者进行调查,并对采集而来的数据进行归类整理。选项:A、正确B、错误正确答案:【错误】3.3数据演绎之三:从智能化到人工智能1、问题:数据已发生了巨大的转变,不仅仅是在数据的量上有明显的增加,数据的种类也发生了翻天覆地的变化。数据的转变给我们在数据处理上带来了一定的挑战。选项:A、正确B、错误正确答案:【正确】2、问题:随着互联网等科技的飞速发展,智能化的出现很好的应对了统计数据类型的多样性及海量性,减少了大量的工作,高效地完成了对数据的分析。选项:A、正确B、错误正确答案:【正确】3、问题:从技术角度对其进行定义,智能化是指事物在网络、大数据、物联网和人工智能等技术的支持下,所具有的能动地满足人的各种需求的属性。选项:A、正确B、错误正确答案:【正确】4、问题:智能化具有学习能力和自适应能力,即具有能够感知外部世界、获取外部信息的能力。选项:A、正确B、错误正确答案:【错误】5、问题:智能化在统计过程中最基础的是数据搜集工作中起到的作用不是很大,仍需要需要对访问者进行调查,并对采集而来的数据进行归类整理。选项:A、正确B、错误正确答案:【错误】3.4数据演绎之四:从人工智能到机器学习(一)1、问题:智能已经与我们的生活紧密结合起来,大家可以在生活中观察到许多智能化的产品及运用。随着互联网、计算机等科技的进一步发展,人类开始对人的智能进行模拟、研究、拓展,人工智能的概念出现了。选项:A、正确B、错误正确答案:【正确】2、问题:对于人工智能的理解上,存在两个学派的分歧,也就是强人工智能学派及弱人工智能学派。选项:A、正确B、错误正确答案:【正确】3、问题:弱人工智能学派认为对人的模拟能够达到很高的界限。人类有可能制造出能真正推理和解决问题的智能机器,并且这样的机器人是有知觉的和有自我意愿的。选项:A、正确B、错误正确答案:【错误】4、问题:人工智能的模拟对象是人,因此不论是强人工智能还是弱人工智能,人工智能都是针对于智能的研究,主要知识只涉及智能科学。选项:A、正确B、错误正确答案:【错误】5、问题:随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动了以深度神经网络为代表的人工智能技术地飞速发展,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术迎来爆发式增长的新高潮。选项:A、正确B、错误正确答案:【正确】3.4数据演绎之四:从人工智能到机器学习(二)1、问题:人工智能的根本在于为机器赋予人类的智能。而如何让机器变得更加智能,则需要机器学习。也就是说机器学习是部署支持人工智能的计算方法。选项:A、正确B、错误正确答案:【正确】2、问题:机器学习简而言之就是机器自我学习,学习的目的在于对某件事情进行预测或判定,学习的方法在于使用算法来进行解析,学习的对象在于数据。选项:A、正确B、错误正确答案:【正确】3、问题:机器学习算法主要包括二种:监督学习和非监督学习。选项:A、正确B、错误正确答案:【错误】4、问题:强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。选项:A、正确B、错误正确答案:【正确】5、问题:相比于监督学习,无监督学习的发展较缓慢,至今仍未取得大的突破。目前主要分为两类,也就是聚类算法和数据降维算法。选项:A、正确B、错误正确答案:【正确】从机器学习到数据挖掘随堂测验1、问题:数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。选项:A、正确B、错误正确答案:【正确】2、问题:数据挖掘是从数据中发掘知识的过程,而在这个过程中人工智能和数据库技术可以作为挖掘工具。选项:A、正确B、错误正确答案:【正确】3、问题:大数据挖掘与传统数据挖掘的差异主要存在三个方面的差异:技术背景的差异、处理对象差异与挖掘程度差异。选项:A、正确B、错误正确答案:【正确】4、问题:应用性是大数据挖掘的一个特性,是指数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。选项:A、正确B、错误正确答案:【错误】5、问题:数据挖掘的基本流程一般是根据基本目标所制定的。现如今,一般来说,数据挖掘的基本目标主要是帮助企业提取数据蕴含的商业价值,提高企业竞争力。选项:A、正确B、错误正确答案:【正确】从数据挖掘到深度学习随堂测验1、问题:深度学习是机器学习的一个子问题,其主要目的是从数据中自动学习有效的特征表示。更准确地说,在实际过程中为了学习一个好的表示,需要构建具有一定“深度”的模型,并通过学习算法来让模型自动学习出好的特征表示,从而最终提升预测模型的准确率。选项:A、正确B、错误正确答案:【正确】2、问题:深度学习的基本思想。也就是通过堆叠多个层,将上一层的输出作为下一层的输入,逐步实现对输入信息的分级表达,让程序从中自动学习深入、抽象的特征。选项:A、正确B、错误正确答案:【正确】3、问题:深度学习其实是人工神经网络的分支,其本质上就是一个深度神经网络。而神经网络又是来自于对生物神经元的模拟。选项:A、正确B、错误正确答案:【正确】4、问题:深度学习是将原始的数据特征通过多步的特征转换得到一种特征表示,并进一步输入到预测函数以得到最终结果。选项:A、正确B、错误正确答案:【正确】5、问题:目前,深度学习采用的模型主要是神经网络模型,其主要原因是神经网络模型可以使用误差反向传播算法,从而可以比较好地解决贡献度分配问题。选项:A、正确B、错误正确答案:【正确】从深度学习到数据科学随堂测验1、问题:2001年美国统计学教授威廉.s.克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础。选项:A、正确B、错误正确答案:【正确】2、问题:数据科学的研究对象、研究目的和研究方法等等都与已有的计算机科学、信息科学和知识科学有着本质的不同。数据科学的研究的对象是数据,而不是信息,也不是知识。它是通过研究数据来获取对自然、生命和行为的认识,进而获得信息和知识。选项:A、正确B、错误正确答案:【正确】3、问题:数据科学如果作为一门学科,目前所依赖的因素可以有两个:数据的广泛性和多样性,以及数据研究的共性。因此,如果把“数据科学”这个名词拆开来看,数据科学可以包括两个方面的内容:用数据的方法来研究科学及用科学的方法来研究数据。选项:A、正确B、错误正确答案:【正确】4、问题:数据科学家的角色定位是什么?其实数据科学涉及到如何从数据过渡到模型,再过渡到应用程序。因此,数据科学需要具备不同的技能,换句话说也就是数据科学家需要扮演不同的角色,或者说数据科学家是一个多角色的综合体。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:相比于人工智能、数据科学,机器学习的目标是认识和理解事物主要包括三方面的内容:描述性内容、解释性内容与表因果的内容。选项:A、正确B、错误正确答案:【错误】2、问题:数据科学需要有人类的参与,这与其它两个领域也是有所不同的,也就是说只有人类才能理解结论、观察数据并从结论中获益。选项:A、正确B、错误正确答案:【正确】3、问题:机器学习就是做预测,简单来说就是“给定X以及特定特征,预测Y”。这些预测可以是对未来的预测,也可以是对质量的预测。选项:A、正确B、错误正确答案:【正确】4、问题:机器学习和数据科学间是存在交集的。例如,逻辑回归可以用来研究关系,也可以用来做预测。我们可以将数据科学和机器学习想象成一个“谱”,较容易解释的模型更靠近数据科学一侧,“黑箱”模型则更靠近机器学习一侧。选项:A、正确B、错误正确答案:【正确】5、问题:人工智能和机器学习有很多交集。深度学习就是横跨ML和AI的一个典型例子。深度学习的典型应用是:用数据训练模型,然后让模型作出预测。选项:A、正确B、错误正确答案:【正确】单元作业单元测验1、问题:()的出现很好的应对了统计数据类型的多样性及容量性,减少了大量的工作,高效地完成了对数据的分析。选项:A、智能化B、统计化C、机器化D、人工化正确答案:【智能化】2、问题:()是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。选项:A、智能化B、人工智能C、机器学习D、语言学习正确答案:【人工智能】3、问题:人工智能分为强人工智能和弱人工智能,()认为对人的模拟能够达到很高的界限。人类有可能制造出能真正推理和解决问题的智能机器,并且这样的机器人是有知觉的和有自我意愿的。选项:A、强人工智能B、弱人工智能C、人工机器D、智能机器正确答案:【弱人工智能】4、问题:()是通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。选项:A、监督学习B、非监督学习C、强化学习D、非强化学习正确答案:【监督学习】5、问题:()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。选项:A、监督学习B、非监督学习C、强化学习D、非强化学习正确答案:【强化学习】6、问题:随着统计数据的不断演绎,如今,统计数据类型包括()等形式。选项:A、文本B、音频C、视频D、图像正确答案:【文本#音频#视频#图像】7、问题:智能化是指事物在网络、大数据、物联网和人工智能等技术的支持下,所具有的能动地满足人的各种需求的属性,其特点包括()。选项:A、感知能力B、记忆和思维能力C、学习能力和自适应能力D、行为决策能力正确答案:【感知能力#记忆和思维能力#学习能力和自适应能力#行为决策能力】8、问题:如今各个角度下的人工智能的研究成果都得到了广泛的应用,对于人工智能的研究主要集中于2个角度:()。选项:A、机器智能B、智能机器C、智能学习D、学习智能正确答案:【机器智能#智能机器】9、问题:()是现在主要的机器学习算法。选项:A、监督学习B、非监督学习C、强化学习D、非强化学习正确答案:【监督学习#非监督学习#强化学习】10、问题:数据挖掘的对象包括()。选项:A、关系型数据库B、空间数据C、工程数据D、文本和多媒体数据正确答案:【关系型数据库#空间数据#工程数据#文本和多媒体数据】11、问题:数据挖掘涉及众多领域,包括()。选项:A、数据库技术B、人工智能C、机器学习D、神经网络正确答案:【数据库技术#人工智能#机器学习#神经网络】12、问题:机器学习的目的在于对某件事情进行预测或判定,学习的方法在于使用算法来进行解析,学习的对象在于数据。选项:A、正确B、错误正确答案:【正确】13、问题:数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。选项:A、正确B、错误正确答案:【正确】14、问题:大数据挖掘与传统数据挖掘主要存在三个方面的差异:技术背景差异、处理对象差异、挖掘程度差异。选项:A、正确B、错误正确答案:【正确】15、问题:在大数据时代,数据的产生和收集是基础,数据挖掘是关键,即数据挖掘是大数据中最关键、最有价值的工作。大数据挖掘主要包括三个特性:应用性、工程性、分散性。选项:A、正确B、错误正确答案:【正确】16、问题:深度学习是机器学习的一个子问题,其主要目的是从数据中自动学习到有效的特征表示。选项:A、正确B、错误正确答案:【正确】17、问题:数据科学是系统的、跨学科的研究领域,用于从各种不同形式的数据中获取知识和洞察。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:随着统计的发展,大数据已与各行各业有着紧密联系。智慧城市是信息技术充分应用在城市中各行各业后,对城市信息化高级形态的一种称呼。选项:A、正确B、错误正确答案:【正确】2、问题:交通大数据是指在交通领域产生的数据,数据主要产生在各类交通的运行、监控、服务、各类型交通流量,公交出租车地理位置等。选项:A、正确B、错误正确答案:【正确】3、问题:交通大数据的处理框架,主要分为三个流程:收集管理层、软件应用层、实现应用层。选项:A、正确B、错误正确答案:【正确】4、问题:智能交通系统已经在许多城市中发挥作用,为城市的交通带来便利。智能交通系统大体分为两个部分——静态系统和动态系统。动态系统主要是对环境、道路的静态记录,例如道路通行能力(几车道)、交通信息标志、环境因素、车祸发生率。选项:A、正确B、错误正确答案:【错误】5、问题:环境大数据的一个重要特点是除了信息本身所包含的环境物理量的测量值之外,其信息本身的时间和空间特征,也就是其分布信息也是非常关键的。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:工业大数据是智能制造与工业互联网的核心,其本质是通过促进数据的自动流动去解决控制业务问题,减少决策过程所带来的不确定性,并尽量克服人工决策的缺点。(对)选项:A、正确B、错误正确答案:【正确】2、问题:一般将工业大数据分为四类,即企业信息化数据、工业物联网数据、内部数据以及外部跨界数据。选项:A、正确B、错误正确答案:【错误】3、问题:工业大数据首先符合大数据的4V特征,除了4V特征之外,相对于其他类型的大数据,工业大数据还具有反映工业逻辑的新特征,这些特征可以归纳为多模态、强关联、高通量等特征。选项:A、正确B、错误正确答案:【正确】4、问题:工业大数据的多模态特征是指工业数据之间的关联并不是数据字段的关联,其本质是物理对象之间和过程的语义关联。选项:A、正确B、错误正确答案:【错误】5、问题:工业大数据的高通量特征是指在嵌入了传感器的智能互联产品已经成为工业互联网时代的重要标志时代,用机器产生的数据来代替人所产生的数据,实现实时的感知,机器所产生的时序数据产生速度快、数据总吞吐量大,并且持续不断所呈现出的特征。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:教育大数据泛指所有来源于日常教育活动中人类的行为数据,包括教师大数据和学生大数据。学生大数据则包括学习行为大数据,例如,试卷、题目、练习册、教辅、微课。选项:A、正确B、错误正确答案:【正确】2、问题:教育中的大数据和传统数据存在明显的区别所在。传统数据是在阶段性的评估中获得,在学生知情的情况下获得的,通过考试或量表调查等形式会给学生带来很大的压力。大数据的产生则完全是过程性的,在学生不自知的情况下,一定的观测技术与设备辅助采集非常的自然、真实。选项:A、正确B、错误正确答案:【正确】3、问题:大数据可以使教育个性化。例如对于一位同学,如果他能够作对第4题,那么相关类型的题目就不用在继续做了,再做毫无意义。因此,在布置作业上体现出了个性化及高效率。选项:A、正确B、错误正确答案:【正确】4、问题:随着大数据时代的来临,教育大数据深刻改变着教育理念、教育思维方式。新的时代,教育领域充满了大数据,诸如学生、教师的一言一行,学生里的一切事物,都可以转化为数据。选项:A、正确B、错误正确答案:【正确】5、问题:在大数据的驱动下,教育研究将出现不同的态势,从依靠经验评价转向基于数据评价,通过挖掘、分析教育大数据,研究者可以量化学习过程,表征学习状态,发现影响因素,找到干预策略,从更深的层次揭示教育规律。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:通过长期研究发现,社会网络存在下面4个特点:小世界、无标度、正同配指数、抢的社团结构。选项:A、正确B、错误正确答案:【正确】2、问题:社会网络的出现,将人的行为、关系暴露在网络上,组成了规模巨大的社会网络,使得社会关系显化、可观测、可量化计算。选项:A、正确B、错误正确答案:【正确】3、问题:社会网络大致分为三个方面的分析:个体分析、群体分析和消息传播分析。群体分析主要应用在用户影响力评价上。通过度量用户直接或间接作用域其它用户的能力,对用户的影响力进行评价。选项:A、正确B、错误正确答案:【错误】4、问题:在社会网络中,兴趣爱好的共同点会导致个体自发的聚集形成团体。团体结构作为社会网络拓扑结构的重要方面,对其研究有十分重要的意义。选项:A、正确B、错误正确答案:【正确】5、问题:在群体分析中,有一个基于社会学特殊的概念——结构洞。结构洞就结构洞是两个关系人之间的非重复关系,即如果两个人需要第三方才能建立关系,则这个第三方在这里就是结构洞。选项:A、正确B、错误正确答案:【正确】单元作业单元测验1、问题:随着绿色发展提出和不断深化,环境以及成为城市发展不可忽略的一部分。()的运用有助于促进政府生态环境综合决策科学化、监管精准化、公共服务便民化。选项:A、环境大数据B、信息大数据C、工业大数据D、城市大数据正确答案:【环境大数据】2、问题:环境大数据的一个重要特点是除了信息本身所包含的环境物理量的测量值之外,其信息本身的()就是其分布信息也是非常关键的。选项:A、时间与空间特征B、历史特征C、实时特征D、预报特征正确答案:【时间与空间特征】3、问题:()是智能制造与工业互联网的核心,其本质是通过促进数据的自动流动去解决控制业务问题,减少决策过程所带来的不确定性,并尽量克服人工决策的缺点。选项:A、工业大数据B、城市大数据C、信息大数据D、教育大数据正确答案:【工业大数据】4、问题:()泛指所有来源于日常教育活动中人类的行为数据,包括教师大数据和学生大数据。选项:A、工业大数据B、城市大数据C、信息大数据D、教育大数据正确答案:【教育大数据】5、问题:()是基于社交网站的关系,是一群具有相同兴趣或者活动的人创建的互联网联系。选项:A、社会网络B、城市网络C、信息网络D、教育网络正确答案:【社会网络】6、问题:交通大数据的处理框架,主要有三个流程()。选项:A、收集管理层B、软件应用层C、实现应用层D、回馈分析层正确答案:【收集管理层#软件应用层#实现应用层】7、问题:智能交通系统已经在许多城市中发挥作,用为城市的交通带来便利。智能交通系统大体分为两个部分:()。选项:A、静态系统B、动态系统C、挖掘系统D、分析系统正确答案:【静态系统#动态系统】8、问题:一般将工业大数据分为三类:()。选项:A、企业信息化数据B、工业物联网数据C、外部跨界数据D、内部存储数据正确答案:【企业信息化数据#工业物联网数据#外部跨界数据】9、问题:工业大数据除了具备大数据的4V特征,相对于其他类型大数据,工业大数据集还具有反映工业逻辑的新特征。这些特征可以归纳为()等特征。选项:A、多模态B、强关联C、高通量D、复杂性正确答案:【多模态#强关联#高通量】10、问题:工业大数据的应用较为广泛,主要包括以下()方面的内容。选项:A、产品故障诊断与预测B、加速产业创新C、工业污染与环保检测D、工业供应链的分析与优化正确答案:【产品故障诊断与预测#加速产业创新#工业污染与环保检测#工业供应链的分析与优化】11、问题:大数据对教育的影响主要包括()。选项:A、使教师或研究者获取真实信息B、可以使教育个性化C、记录学生所有的考试成绩D、没有影响正确答案:【使教师或研究者获取真实信息#可以使教育个性化】12、问题:对现实社会研究的数据具体来说可以大致分为三个方面:个体分析、群体分析和消息传播分析。选项:A、正确B、错误正确答案:【正确】13、问题:在群体分析中,有一个基于社会学特殊的概念,两个关系人之间的非重复关系,即如果两个人需要第三方才能建立关系,则这个第三方在这里就是结构洞。选项:A、正确B、错误正确答案:【正确】14、问题:一般将工业大数据分为三类,即企业信息化数据、工业物联网数据以及外部跨界数据。选项:A、正确B、错误正确答案:【正确】15、问题:交通大数据的处理框架,主要分为三个流程:收集管理层、软件应用层、实现应用层。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:()是企业投资者对企业数据资源开发和利用的-种管控制度安排,它包括标准、政策和流程、组织结构、技术架构等制度和机制,确保数据资源的开发和利用符合组织的业务和IT战略。选项:A、大数据治理B、公司内部治理C、大数据项目治理理念D、公司外部治理正确答案:【大数据治理】2、问题:规范性用于度量()选项:A、哪些数据丢失了或者哪些数据不可用B、哪些数据未按统一格式存储C、哪些数据的值在信息含义上是冲突的D、哪些数据和信息是不正确的,或者数据是超期的正确答案:【哪些数据未按统一格式存储】3、问题:对数据的质量管理还应该是()的,它包括对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列的管理活动。选项:A、短期的B、阶段的C、全过程的D、长期的正确答案:【全过程的】4、问题:大数据的专家应该涉及什么领域()选项:A、具备数据科学家的知识B、对特定行业有深刻的了解C、以上皆是D、以上皆不是正确答案:【以上皆是】5、问题:大数据以什么为导向?选项:A、企业自身的业务需求B、国外的新技术C、国外的新平台D、国外的新硬件正确答案:【企业自身的业务需求】随堂测验1、问题:确定大数据项目主题必须收集的信息有()。选项:A、行业分类B、业务领域C、分析方法D、以上皆是正确答案:【以上皆是】2、问题:基本业务分析主要由大数据咨询公司承担。选项:A、正确B、错误正确答案:【正确】3、问题:大数据项目的实现方法、使用技术和分析方法基本一致。选项:A、正确B、错误正确答案:【错误】4、问题:不同企业对如何评估大数据项目主题是有所差异的,原因在于他们通过大数据项目获得的效果不同。选项:A、正确B、错误正确答案:【正确】5、问题:评估模型并不是越复杂越好,也绝非越简单越好。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:Hadoop技术是大数据技术的基石,为分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。选项:A、正确B、错误正确答案:【正确】2、问题:在数据类型方面,hadoop可以处理各种类型数据,无需区分结构化与非结构化数据,而传统数据库只能处理结构化数据。选项:A、正确B、错误正确答案:【正确】3、问题:Hive是Faccbook设计并开源出的构建在Hadoop之上的一个数据仓库工具。与传统的数据仓库相比,Hive能够处理超大规模的数据且有更好的容错性。它可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。选项:A、正确B、错误正确答案:【正确】4、问题:Hive会将存储在HDFS中的文件组织成类似于传统数据库的方式,并为无模式的数据增加模式信息。除了支持常见的基本数据类型,如整数、浮点数、双精度、字符串外,它还支持list,Map和Struct等复杂的嵌套数据类型。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:一般来说,大数据采集主要有4种来源,它包括管理信息系统、Web信息系统、物理信息系统、科学实验系统。选项:A、正确B、错误正确答案:【正确】2、问题:UCI机器学习库是一个最著名的数据存储库,存储着与机器学习存储库相关的数据集,像Iris和泰坦尼克这样的流行数据集到最近的贡献,比如空气质量和GPS轨迹。存储库包含超过350个与域名类似的数据集(分类/回归)。选项:A、正确B、错误正确答案:【正确】3、问题:Kaggle是运用数据进行预测建模与机器学习的平台,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。选项:A、正确B、错误正确答案:【正确】4、问题:图像分类数据集最早是手写字的数据集的使用。它是早期最流行的图像识别数据集,使用手写数字。它包括6万个示例和1万个示例的测试集。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:互金领域是大数据领项目的一个类型,指的是从该领域的数据里看到投资机会,或者从数据中找到新业务,或者运用数据来维护金融安全,又或是通过数据辅助征信风控。选项:A、正确B、错误正确答案:【正确】2、问题:Lighthouse是一个Google开源的自动化工具,主要用于改进网络应用(移动端)的质量。Lighthouse会对各个测试项的结果打分,并给出优化建议,这些打分标准和优化建议可以视为Google的网页最佳实践。选项:A、正确B、错误正确答案:【正确】3、问题:在电商平台中大数据项目的应用比较多的是埋点业务,也即进行用户细分画像、建立信用体系或进行线上各类活动定向推送。选项:A、正确B、错误正确答案:【正确】4、问题:一般来说,大数据项目的构建需要按照以下五个环节来实施,即数据规划、数据治理、数据应用、迭代实施、商业价值。选项:A、正确B、错误正确答案:【正确】5、问题:大数据项目构建的第三个环节是数据治理。数据采集的有效性是数据治理能否高效实现的重要一步,采集之后为了更好、更有效地储存有价值的数据,同时为了方便使用,我们需要对数据进行预处理。而要保证数据质量,我们还需要制定标准,并建立相对自动化的数据质量控制系统。选项:A、正确B、错误正确答案:【错误】随堂测验1、问题:BigQuery是Google推出的在云中分析大数据的服务。BigQuery有助于企业在没有硬件基础设施的情况下分析他们的数据,同时还可以建立应用程序和数据共享的所有服务。选项:A、正确B、错误正确答案:【正确】2、问题:BigQuery不允许用户上传他们的超大量数据,必须建立自己的数据中心才能进行交互式分析。选项:A、正确B、错误正确答案:【错误】3、问题:BigQuery可以降低企业成本。从产品角度来说,BigQuery可以使得企业用户,在不需要投资任何软硬件的情况下,获得实时处理海量数据的能力。选项:A、正确B、错误正确答案:【正确】4、问题:BigQuery数据处理速度快且反馈及时。其处理5个TB数据,15秒即可返回结果。选项:A、正确B、错误正确答案:【正确】5、问题:BigQuery主要有查询(Query),存储(Storage),加载(Load)与输出(Export)这四个功能。选项:A、正确B、错误正确答案:【正确】随堂测验1、问题:NETFLIX是一个较为成功大数据项目案例,它的Cinematchsystem采用协同过滤(Collaborativefiltering)算法,这种算法可以分为基于用户的协同过滤(User-basedCollaborativefiltering)和基于内容的协同过滤(Contentbasedfiltering)。选项:A、正确B、错误正确答案:【正确】2、问题:亚马逊的推荐系统是大数据项目的一个典型案例。通过对会员的消费模式进行分析后,为其推荐可能想购买的商品。据统计亚马逊有35%的销售额来自于其优秀的推荐系统。选项:A、正确B、错误正确答案:【正确】3、问题:亚马逊将自己的推荐系统称为A9,A9算法首先根据商品间的相互关系创建产品矩阵,然后以顾客最新输入的数据为基础,推导顾客的嗜好并推荐商品。选项:A、正确B、错误正确答案:【正确】4、问题:与原有顾客相比,新顾客的购物经历不多,很难获取其喜好,对其使用传统的推荐方式、聚类分析和搜索方式无法达到理想的效果。因此,亚马逊以现有数据为基础开发了商品到商品的协同过滤算法,该算法与顾客数量及商品数量无关。选项:A、正确B、错误正确答案:【正确】5、问题:谷歌的大数据项目最知名的应属它对流感趋势的预测。其预测的基础假定是一旦人们患上流感,就可能会在搜索引擎上输入特定的检索词条以获得与流感相关的信息。通过汇总和分析这些检索词条,就能预测流感将在何时何地爆发。选项:A、正确B、错误正确答案:【正确】单元测验1、问题:规范性用于度量()。选项:A、哪些数据丢失了或者哪些数据不可用B、哪些数据未按统一格式存储C、哪些数据的值在信息含义上是冲突的D、哪些数据和信息是不正确的,或者数据是超期的正确答案:【哪些数据未按统一格式存储】2、问题:1.确定大数据项目主题必须收集的信息有()。选项:A、行业分类B、业务领域C、分析方法D、以上皆是正确答案:【以上皆是】3、问题:()技术可以在成百上千台计算机上同时处理海量数据,它也是大数据技术的基石。选项:A、HadoopB、StataC、ExcelD、R正确答案:【Hadoop】4、问题:大数据项目构建时,必须以系统的方法作为指导,并且这种方法要与()相适应。选项:A、实际情况B、理论情况C、模型D、数据库结果正确答案:【实际情况】5、问题:做好数据规划这一阶段的各项工作具体包括()。选项:A、明确战略意图B、战略规划C、商业目标D、以上皆是正确答案:【以上皆是】6、问题:数据采集的有效性是数据治理能否高效实现的重要一步,采集之后为了更好、更有效地储存有价值的数据,同时为了方便使用,我们需要对数据进行()。选项:A、删减B、预处理C、扩充D、不变动正确答案:【预处理】7、问题:对数据的质量管理还应该是()的,它包括对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列的管理活动。选项:A、短期的B、阶段的C、全过程的D、长期的正确答案:【全过程的】8、问题:大数据的专家应该涉及什么领域()。选项:A、具备数据科学家的知识B、对特定行业有深刻的了解C、以上皆是D、以上皆不是正确答案:【以上皆是】9、问题:大数据以什么为导向?选项:A、企业自身的业务需求B、国外的新技术C、国外的新平台D、国外的新硬件正确答案:【企业自身的业务需求】10、问题:()诞生则是为了帮助Hadoop更加便捷地分析和处理海量数据地任务。选项:A、PythonB、MatlabC、HiveD、R正确答案:【Hive】11、问题:大数据治理是企业投资者对企业数据资源开发和利用的-种管控制度安排,它包括()等制度和机制,确保数据资源的开发和利用符合组织的业务和IT战略。选项:A、标准、政策B、流程C、组织结构D、技术架构正确答案:【标准、政策#流程#组织结构#技术架构】12、问题:一般来说,大数据采集主要有4种来源()。选项:A、管理信息系统B、Web信息系统C、物理信息系统D、科学实验系统正确答案:【管理信息系统#Web信息系统#物理信息系统#科学实验系统】13、问题:通过对已有成功的大数据应用项目或者是成功的大数据产品进行总结和思考,人们才发现这些成功的大数据项目的构建基本上都是按照以下环节来实施()。选项:A、数据规划B、数据治理C、数据应用D、迭代实施E、商业价值正确答案:【数据规划#数据治理#数据应用#迭代实施#商业价值】14、问题:BigQuery主要有()功能。选项:A、查询(Query)B、存储(Storage)C、加载(Load)D、输出(Export)正确答案:【查询(Query)#存储(Storage)#加载(Load)#输出(Export)】15、问题:在大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论