大数据B卷答案_第1页
大数据B卷答案_第2页
大数据B卷答案_第3页
大数据B卷答案_第4页
大数据B卷答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、单项选择题(每题2分 共20分)二、填空题(每空2分共20分)题号12345678910答案BBDDBDDDCC1、客户端、JobTracker、Ta客Tracker、分布式文件系统2、网络黑客和病毒攻击威胁、信息资源泄露威胁、网络漏 洞威胁3、Naive Bayes 算法,KNN 算法。4、检索信息生成阶段。三、判断题(每个2分,共20分)TTFFT TTFFF四、简答题(每题10分共40分)1、根据自己的理解画出HDFS文件系统中文件读取的流程, 并解释其中的各个步骤。如上图所示,HDFS客户端首先要访问NameNode,并告 诉它所要读取的文件,在这之前,HDFS会对客户的身份信息

2、进行验证。验证的方式有两种:一种是通过信任的客户端, 由其指定用户名;第二种方式是通过诸如Kerberos等强制 验证机制来完成。接下来还需要检查文件的所有者及其设置 的访问权限。当文件确实存在,且该用户对其有访问权限时, NameNode会告诉HDFS客户端这个文件的第一个数据块的标 号及保存有该数据块的DataNode列表。这个列表是DataNode 与HDFS客户端间的距离进行的排序。有了数据块标号和 DataNode的主机名,HDFS客户端便可以直接访问最合适的 DataNode,读取所需要的数据块。这个过程会一直重复直到 该文件的所有数据块读取完成或HDFS客户端主动关闭了文 件流。

3、2、简述搜索引擎索引系统的形成过程。答:1)提取关键词:通过结构化、消噪去除掉网页中 所有的格式代码,同时去除非正文关键词或停用词,网页的 主文字内容后应用自身的分词系统,将此文分成一个分词列 表,然后存储在数据库中,并与此文的URL进行一一对应2)倒排文件建立索引:在不同索引词组成的索引表中 记录索引词ID号,说明匹配该索引词的文档数量,并匹配 文档在记录文件内的偏移量,通过这偏移量就可以读取记录 文件对应区域的信息。3)对网页完成重要度分析并完成排名3、大数据分析中重要的五个方面分别指什么?它们各 自完成的任务有哪些?答:1)可视化分析:运用一些数据分析的工具将数据 转化为图的形式,到达“

4、看图说话”的效果。2)数据挖掘算法:运用挖掘算法处理海量的数据并更 加科学地呈现出数据本身具备的特点。3)预测性分析能力:作用是让数据分析员可以根据数 据可视化分析和数据挖掘计算所得结果对未来的相关事物 做出一些预测性的判断。4)语义引擎:借助语义引擎,可从用户的搜索关键词、 标签关键词或其他输入语义,分析、判断用户需求5)数据质量和数据管理:高质量的数据和有效的数据 管理,无论是在学术研究还是在商业应用领域,都能够保证 分析结果的真实和有价值。4大数据的安全机制可从哪些方面提高?答:大数据的安全机制可从网络安全、数据安全、应用 安全、终端安全等各个管理角度加强大数据的安全防范。(1)网络安全

5、网络是输送大数据资源的主要途径,通过强化网络基础 设施安全保障,可以提高大数据环境的安全。可从如下四个 方面加强网络安全的保障措施:一是通过访问控制,以用户 身份认证为前提,实施各种策略来控制和规范用户在系统中 的行为,从而到达维护系统安全和保护网络资源的目的;二 是通过链路加密,建立虚拟专用网络,隔离公用网络上的其 他数据,防止数据被截取;三是通过隔离技术,对数据中心 内、外网络区域之间的数据流量进行分析、检测、管理和控 制,从而保护目标数据源免受外部非法用户的侵入访问;四 是通过网络审计,监听捕获并分析网络数据包,准确记录网 络访问的关键信息,通过统一的策略设置的规那么,智能地判 断出网络

6、异常行为,并对异常行为进行记录、报警和阻断, 保护业务的正常运行。(2)虚拟化安全虚拟化技术是大数据概念的一个基础组成局部,它加强 了基础设施、软件平台、业务系统的扩展能力,同时也使得 传统物理安全边界逐渐缺失。加强虚拟环境中的安全机制与 传统物理环境中的安全措施,才能更好地保障在虚拟化基础 之上为大数据提供的各类应用和服务的安全。可从如下两个 方面加强虚拟化安全的保障措施:一是在虚拟化软件层面建 立必要的安全控制措施,限制对虚拟化软件的物理和逻辑访 问控制;二是在虚拟化硬件方面建立基于虚拟主机的专业的 防火墙系统、杀毒软件、日志系统和恢复系统,同时对于每 台虚拟化服务器设置独立的硬盘分区,用

7、以系统和日常数据 的备份。(3)数据安全基于数据层面的保护最直接的安全技术包括两方面的 内容:一是数据加密,深入数据层保护数据安全,针对不同 的数据采用不同的加密算法,实施不同等级的加密控制策 略,有效地杜绝机密信息泄漏和窃取事件;二是数据备份, 将系统中的数据进行复制,当数据存储系统由于系统崩溃、 黑客入侵以及管理员的误操作等导致数据丧失和损坏时,能 够方便且及时地恢复系统中的有效数据,以保证系统正常运 行。通过以上措施可以保障大数据在数据方面的安全性。(4)应用安全由于大数据环境的灵活性、开放性以及公众可用性等特 性,部署应用程序时应提高应用方面的安全意识,充分考虑 应用可能引发的各类安全风险。加强各类程序接口在功能设 计、开发、测试、上线等覆盖生命周期过程的安全实践,广 泛采用更加全面的安全测试用例,在处理敏感数据的应用程 序与服务器之间通信时采用加密技术,通过以上措施可以保 障大数据在应用方面的安全性。(5)终端安全随着云计算、移动互联网等技术的开展,用户终端种类 不断增加,很多应用程序被攻击者利用收集隐私和重要数 据。用户终端上应部署安全软件,包括反恶意软件、防病毒、 个人防火墙以及入侵防御系统(IPS: Intrusion Prev

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论