北外大数据分析入门网考复习答案1_第1页
北外大数据分析入门网考复习答案1_第2页
北外大数据分析入门网考复习答案1_第3页
北外大数据分析入门网考复习答案1_第4页
北外大数据分析入门网考复习答案1_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北外大数据分析入门网考复习答案1答案一、单选题(每题2分,共60分)12345678910DBBBBBBDCD11121314151617181920ADCCACABBA21222324252627282930BDBDCDDBCC二、是非题(每题0.5分,共10分)12345678910TFTFFFTTFF11121314151617181920TTFFTTTFTF三、问答题(每题10分,共30分)1.《数据分析报告》结论和建议部分编写的注意事项是什么?答案:《数据分析报告》结论和建议负责得出结论、提出建议、解决矛盾(得2分),结论编写应措辞严谨、准确、鲜明(每点得2分,计6分);其建议部分应画龙点睛(得2分):大部分决策者没有时间通读分析报告,但决策过程中报告的结论和建议等章节将会被重点阅读。2.请说明相关分析和回归分析的相同点和不同点都有什么?答案:相同点:相关分析和回归分析能分析出多个变量之间的关系,从而分析目标变量未来的发展变化趋势,是预测方法之一(得2分)。不同点一:相关分析研究的是随机变量,不分自变量、因变量;(得2分)而回归分析有自变量X和因变量Y之分,其中自变量X是普通变量,因变量Y是随机变量。(得2分)不同点二:相关分析主要描述两变量之间线性关系的紧密程度;(得2分)而回归分析不仅揭示变量X对因变量Y的影响大小,还由回归模型进行预测。(得2分)3.针对大数据如何进行相关分析?答案:相关分析步骤:1、根据预测目标,确定自变量和因变量;(得2分)2、收集整理数据形成相关表:收集整理两变量数据形成相关表,相关表中自变量可以是数据直接进行排序,也可以是个分组。(得2分)3、绘制散点图/折线图,确定相关模型类型;通过折线图查看自变量对因变量的影响。(得2分)4、设置分析对象,对相关模型进行检验。(得2分)5、相关系数来进行相关分析:函数计算r,分析两变量的相关系数利用相关系数r分析数据相关性。(得2分)大数据分析入门(知识要点)课程编号:BWCST3008学籍号:______________________学习中心:______________________姓名:______________________注意事项:1、本试卷满分100分,考试时间90分钟;2、请将答案一律写在答题纸上。一、单选题(每题2分,共60分)1.用户提取大数据分析结果,可以不使用或使用()等工具。A、ExcelB、TableauC、数据库SQLServerD、运行在亚马逊EC2弹性MapReduce计算云2.以下关于大数据说法中,不正确的是()。A、大数据和大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。B、大数据级别的容量可能是TB、PB、YB、BB、DBC、大数据通常是万亿或EB,可能收集自传感器、气候信息、公开信息(如杂志报纸文章)、或购买交易记录、网络日志、病历、军事监控、视频和图像档案、大型电子商务大数据……D、大数据中,价值密度通常较低,如果能够合理利用并正确、准确地分析,将会带来很高的价值回报。3.()能够展示单个数据变量的分布情况。A、二维饼图B、直方图型柱形图C、雷达图D、散点图4.RobertG.Brown提出指数平滑法,建立在一定的假设为前提下才能有效发挥预测作用。以下前提中,不适用于指数平滑的时间预测方法的是()。A、时间序列的态势具有稳定性,时间序列才能被合理地猜测。B、过去态势会持续到未来,所以将较大的关注放在时间序列中较远的数据上。C、最近的过去态势,某种程度上会持续到未来,所以将较大的关注放在最近数据上。D、时间序列的态势具有规则性,时间序列才能被合理地顺势推延。5.()是指两个有联系的指标对比计算而得到的数值,用于反映客观现象之间数量联系程度的综合指标。A、绝对数B、相对数C、众数D、均值6.大数据整理需要经过无数次对海量数据的()处理才能得到一个简洁结果。A、收集整理B、甄别真伪C、逻辑运算及其分析汇总D、论证检查7.数据的直方图分析属于数据分析法中的()种分析。A、推断统计分析工具B、描述性分析工具C、数据预测分析工具D、假设检验分析工具8.以下判断数据间关系的相关系数r的若干说法中,不正确的是()。A、相关系数r反映变量间线性相关强度,是相关性的度量指标B、相关系数r取值范围[-1,1]C、关系数r的正负号能反映相关方向,大于零代表正相关,小于零代表负相关。D、相关系数r大小可以反映相关程度,r越大则相关性越弱。9.线性相关中,一个数值变化时,另一现象会有若干数值与之对应变化,并遵循一定规律,围绕若干数值的上下波动,其原因是影响现象变化的因素的数目()。A、为零B、为一个C、不止一个D、上述答案都不对10.24小时内血压动态监测仪获得的血压监测数据属于以下数据分析类的()数据。A、纵向比较B、横向比较C、分类比较D、动态分析11.为了分析运动量A和燃脂速度C之间的关系,C会随A的提高而的增高,遵循明显规律,二者属于()关系。A、函数相关B、复相关C、强相关D、不相关12.时间序列预测,简单地说,是根据事件发展来预测未来发展。关于该方法的说法中,不正确的是它()。A、假设事物发展趋势会延伸到未来B、预测所依据的数据具有不规则性C、不考虑事物发展之间的因果关系D、不考虑社会因素和突发事件13.相关关系分析的相关程度不包括()。A、完全相关B、不完全相关C、函数相关D、不相关14.为了广告费A和产品利润B是否存在关系,但从数据表面上无法确定具体关系,并非严格遵循A升高多大比例,B也升高相应程度,二者属于()关系。A、比例B、复数C、相关D、函数15.一个数据分布的锋度系数为()时,该数据分布曲线更趋近于平均分布。A、-1.12B、-0.13C、0.02D、1.216.在数据分布的描述分析上,平均值和众数决定了数据分布是否遵循正态分布分析中,数值测度的()。A、分布形状B、离散程度C、集中趋势D、有效性17.在数据分布的描述分析上,偏度和峰度决定了数据分布是否遵循正态分布分析中,数值测度的()。A、分布形状B、相关系数C、集中趋势D、有效性18.大数据分析结果的表现形式中,直观描述3个变量间关系则应该选择()。A、散点图B、气泡图C、柱形图D、饼图19.()能有效预测房地产开发中存在的风险,及时提醒规避。A、相关分析B、回归分析C、描述统计分析D、对比分析20.2016年3月,特朗普在阿拉巴马、阿肯色、乔治亚、马萨诸塞、田纳西、佛蒙特和维吉尼亚这7个州得票领先,但在得克萨斯、科罗拉多和俄克拉荷马败给克鲁兹,在明尼苏达州落后于卢比奥,得票率在共和党内处于领先地位,这样的数据分析方法称为()。A、横向比较B、纵向比较C、分组分析D、结构分析21.为了调研商品毛重量A、运输距离B和运输成本C的关系,分析数据确定三者的具体关系,遵循一定变化规律,三者属于()关系。A、函数相关B、复相关C、线性相关D、非线性相关22.以下有关PowerPivot的说法中,不正确的是()。A、PowerPivot整合多数据源:能从Web服务、文本文件、关系型数据库等任何数据源导入数据;B、PowerPivot处理海量数据:支持大数据性能卓越,几百万行数据集就如处理几百行一样出色C、PowerPivot操作简洁,熟悉Excel就能用PPD、PP实现任意平台、任意系统的无边界信息共享,并不局限于PPforSharePoint共享和发布上网,还能兼容任何数据库平台的任何共享操作。23.2015年末中国大陆总人口137462万人,其中,男性人口70414万人,女性人口67048万人。男女性别比为1.28:1该“男女性别比”属于()数据。A、绝对数B、相对数C、众数D、均值24.国际连锁百货零售企业大数据挖掘中,使用()能找出如何通过交叉销售得到更大收入。A、回归分析B、描述性分析C、抽样调查D、关联分析25.数据的相关分析属于()类型的数据分析方法。A、客观描述分析B、直方图分析C、推断预测分析D、抽样分析26.指数平滑法中选择加权的阻尼系数需要根据一定经验做范围选择,因此,面对时间数据序列曲线波动较平稳,应选择阻尼系数区间()更合适。A、[0.05~0.2]B、[0.3~0.5]C、[0.6~0.8]D、[0.8~0.95]27.以下关于数据准备阶段的数据清洗工作的说法中,存在问题的选项是()。A、数据清洗是数据分析前必不可少阶段。B、数据清洗提供简洁、完整、正确的数据给后续数据加工。C、数据清洗原则是“多一分则肥,少一分则瘦”。D、数据清洗的目标是为数据分析提供准确的、数量足够的数据,因此删除不合格的数据、修改错误数据、填充缺失数据是十分必要的。任何数据经过清洗都适合进行数据分析。28.数据清洗过程中,去除数据脏点不包括以下选项中的()的操作。A、清除不必要的重复数据B、修改逻辑错误的数据C、填充缺失数据D、检测逻辑错误的数据29.以下关于回归分析的说法中,不正确的是()。A、回归分析基于观测数据,建立变量间适当的依赖关系,以分析数据内在规律,主要用于预报、控制等实际问题。B、归分析是确定两种及两种以上变量间相互依赖的定量关系的一种统计分析方法C、回归分析研究现象间是否存在依存关系,并探讨依存关系的相关方向和相关程度。D、回归分析能分析出多个变量之间的关系,从而分析目标变量未来的发展变化趋势。30.某新产品的推广费用和销售额的相关系数=0.213,则该商品的广告和销售的关系属于()。A、不相关B、强正相关C、低度相关D、中度相关二、是非题(每题0.5分,共10分)1.大数据分析中,若两个数据变量彼此数量变化相互独立,完全无关,则可以认为其关系为不相关。2.非线性相关意味着,当给定某现象一个数值时,另一现象会有若干数值与之对应变化,并遵循一定规律波动。3.如果统计一组大数据分布得到锋度系数属于[-1.2~0)区间,则称其分布曲线具有平阔峰,这类数据分布较为平坦,峰度系数越趋近于-1.2,则曲线更矮、更胖(平坦)。4.在数据分析方法中,横向比较是通过比较同一事物在不同的时间的状态,在不同时间条件下对事物总体指标的静态比较,对多种相关事物同层次的比较,了解其大小、多少和优劣,以便为决策提供参考。5.对大数据做相关分析时,相关系数r大小可以反映相关程度,r=0表示变量间存在函数相关关系。6.大数据是一个全新的技术领域,它不同于计算机技术,应用统计学、管理学等理论,可以为各种不同的应用领域的相关数据提供大数据及其分析技术支持。7.大数据经过清洗是否可以进行数据分析,需要统计脏点出现的概率,如果超过10%的数据都是脏点就失去分析价值了,过高的错误率使得分析结果有可能出现不可原谅的错误。8.数据中重复、错误、空白和遗失等问题需要在初期统一处理,使用自动化的方法进行数据准备不仅效率高,而且自动检索的处理保证的进入分析阶段的数据质量比较高。9.回归分析有自变量X和因变量Y之分,其中自变量X是随机变量,因变量Y是普通变量。10.一组数据的描述统计结果中,众数代表排序后居于所有数据的数值最中间位置的数值,它不能充分利用已知信息,但衡量时不受异常值影响,适合作为平均值的辅助参数之一,开共同衡量数据分布的集中趋势。11.当大数据分布统计曲线的集中程度越高,曲线两侧极端数据就相对更少,集中程度超过正态分布时峰态系数往往高于0。因此数据更集中分布在众数周围时尖削峰分布曲线更高、更瘦,越尖削则峰态系数越大。12.数据预测性分析通过分析现有数据间的相关性,探寻数据间存在的联系,并进一步通过建立相关回归模型的方式对未来进行合理的预测,因此,预测性分析属于展望未来的数据分析方式。13.曲面图是对所选变量之间相关关系的一种直观描述。14.现象之间存在的依存关系,对于某一变量的每一个数值,都有另一变量值与之对应,该关系能用一个数学表达式精确反映出来,这种关系称为相关关系。15.大数据的数据集来源可能包括:传感器、气候信息、公开信息(如杂志,报纸,文章)、购买交易记录、网络日志、病历、军事监控、视频和图像档案及大型电子商务,通常是万亿或EB的大小,庞大而复杂,需要专门设计的硬件和软件工具进行处理。16.回归分析就是要挖掘出函数关系的数学模型,可以根据回归模型的规律预测未来变化。17.调查问卷具体形式可以是纸质调查问卷,后期数字化后存储形成结构化数据表,也可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论