




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8章大数据釆集习题8.1选择题数据采集的数据对象类型包括(D)。A.结构化数据 B.半结构化数据 C.非结构化数据D,以上都是3、4、5、8、数据采集的主要性能要求不包括以下的(B)。A.全面性 B.安全性 C.多维性大数据釆集相对于传统数据釆集的优势不包括(C)。A.数据源广泛B.安全性 C.速度有限大数据采集和传统数据采集的区别可以从下面的(B)看出。①数据源 ②数据量 ③数据类型④数据产生速度A.①②③B.①②③Q)⑤D.高效性D.数据类型丰富⑤数据存储D.②③④⑤下面不属于Scrapy的组件的是(A)A.传感器 B.引擎C.下载器D.Spider下面选项属于典型的网络数据釆集工具的是(A)。A.Scrapy B.Fluentd目前传感器的主要组件不包括(D)A.敏感元件B.转换元件下面不属于典型日志系统的是(D)A.Fluentd B.LogstashNutch的主要特点不包括(C)。A.伸缩性强B,可靠性高C.LogstashD.FlumeC.信号调理转换电路D.二极管C.ScribeD.NutchC.安全性强D.速度快10、定向数据釆集特别重视(A)。A.页面与主题的相关度B,链接的安全性C.系统的运行时间D,数据量的大小8.2填空题1、数据采集的对象类型包括结构化数据、半结构化数据、(非结构化数据)。2、数据釆集三个基本的性能要求:全面性、多维性)、高效性。3、传感器一般由敏感元件、(转换原件 )、信号调理转换电路组成,有时还需外加辅助电源来提供转换能量。4、 分布式釆集系统的主要特点包括(伸缩性强)、可靠性高、速度快。5、 分布式数据釆集系统常常采用(主从式)和对等式这两种架构。8.3简答题1、 请简述网络爬虫的基本原理。答:网络爬虫又称为网纟各蜘蛛、网络机器人,是一种按照一定的规则自动地抓取Web数据的程序或者脚本。网络爬虫会从一个或若干初始页面的统一资源定位器开始,获得初始页面上的数据,并且在抓取页面数据的过程中,不断从当前页面中抽取新的URL并放入URL队列,直到满足设置的停止条件为止。2、 请简述系统日志的概念及作用。答:系统日志用于在时间上连续地记录由系统指定的对象的动作及动作结果。系统日志可以记录系统进程和设备驱动程序的活动,包括系统服务的开启、关闭、暂停等状态,以及设备驱动程序启动、自检、故障等情况。操作系统、数据库、网络系统等平台每天都会产生大量的系统日志,收集、存储、处理和管理这些系统日志需要特定的日志系统。3、 请描述分布式数据釆集系统的两种典型架构。答:对于主从式架构而言,由一台专门的主服务器来维护待抓取的URL队列,该服务器负责将URL分发到不同的工作服务器,而工作服务器则负责页面下载的工作。主服务器除了维护待抓取的URL队列以及分发URL,还要负责调节各个工作服务器的负载情况。基于主从式架构的分布式数据采集系统的优点是结构简单,容易管理和配置;其缺点是主服务器容易成为系统性能的瓶颈,特别是当工作服务器数量过于庞大时。•基于对等式架构的分布式数据釆集系统没有主服务器,所有的抓取服务器在分工上没有区别,分别负责不同部分的网络数据的抓取。每一台抓取服务器都可以从待抓取的URL队列中利用Hash等方式获取需要负责抓取的部分URL,然后并行抓取。8.4解答题1、在大数据时代,数据釆集的工具多种多样。网络爬虫是一种按照一定的规则自动地抓取Web数据的程序或者脚本。请描述网络爬虫的工作流程。答:选取一部分种子URL。将这些URL放入待抓取URL队列。从待抓取URL队列取出待抓取URL,通过域名解析,得到主机的IP地址,将URL对应的页面下载下来,并存储到巳下载的页面库中。将这些URL放入已抓取URL队列。分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列,进入下一轮循环。2、 Fluentd是Apache2.0协议许可的开源日志数据收集器,支持用户实时地从数千台机器收集数据,主要特色包括哪些?答:使用JSON格式统一日志记录。Fluentd将数据结构化为JSON格式,不仅可以更容易地统一处理日志数据的收集、过濾、缓冲和输出,还可以保留灵活的模式。可插拔架构。Fluentd拥有灵活的插件系统,用户可以通过插件更好地使用日志。可插拔架构,Fluentd的众多插件使其可以兼容数十种数据源和数据输出,插件也很容易编写和部署。节省资源开销。Fluentd是釆用C语言和Ruby语言编写的,需要较少系统资源,实例可以运行在数十MB的内存上,每个引擎每秒可以处理数以万计的事件。基于内存和文件的缓存。Fluentd支持基于内存和文件的缓存,可防止数据丢失。数据源与后端系统分离。Fluentd通过在数据源与后端系统之间提供统一的日志层来将二者分离。日志层允许开发人员和数据分析师使用多种类型的日志,可以更好地利用日志数据。3、 基于Hadoop平台的Nutch能够实现分布式数据的采集。请具体描述Nulch的运行流程。答:Nutch的工作主要可以分为两个环节:首先釆集相关的页面,然后将釆集的页面数据存放在本地,并建立索引。建立初始种子链接的URL集合,将URL集合存放在文本,然后上传至HDFSo执行Inject的操作,将种子URL集合注入URL队列。执行Generate的操作,通过URL队列生成采集所需的链接列表。•执行Fetch的操作,根据链接列表的种子链接釆集相关的页面内容。执行Parse的操作,解析釆集到的页面数据,然后生成parsedata和parsetex两个文件目录,分别存放页面文本内容和页面中的超链接等信息。执行Update的操作,将抽取的新链接更新到始种子链接队列。循环执行步骤3到步骤6,当满足设定的条件时,结束数据釆集工作。4、 请分析何谓通用数据釆集,何谓定向数据釆集;请描述定向数据釆集算法的典型步骤。答:通用数据采集的对象是从特定的种子链接开始的,采用广度搜索的方式,其目标是采集互联网上的全部页面。与通用数据釆集相对的是以聚焦网络爬虫为核心的定向数据釆集。定向数据采集服务于特定的专业群体,采集的数据只局限于某个主题或者与其相关的领域。定向数据釆集算法的步骤包括:将初始的种子URL全部放入链接队列,根据初始的种子URL进行页面数据的采集,提取锚文本的内容、页面的标题及正文。•对正文进行分词的操作,计算关键字的权重和文本的相关度。利用文本聚类算法将相关度高文本聚集在一起。根据聚类好的文本,利用朴素贝叶斯算法计算待抓取的页面属于该主题的概率。•通过归类完成的与主题相关的页面生成页面主题评价器,假设所采集页面的数量小于预先设定的最大页面数量,则循环执行以下步骤。从链接集合中选出得分最高的链接,采集该链接对应页面的数据,抽取对应页面中的链接并插入链接队列。计算页面的主题相关度,若大于阈值,则保存所对应的页面,否则进行父叉和变异操作。•及时调整当前页面得分,重新计算从当前页面抽取的链接对应页面的得分。根据最新的页面得分重排链接队列中的所有链接,把与主题相关的页面放入训练集合中,获取最新的页面主题评价器。比较计算出的相关度与阙值,大于阙值的链接则重新返回步骤1;小于阙值的链接则直接舍弃。按照上述的步骤,对页面进行定向数据采集,直到采集的页面数量大于或等于预先设定的最大页面数量为止。大数据安全分析05_数据采集技术大数据分析中的数据采集方式包括Logstash、Flume、Fluentd.Logtail等,本文对这几种数据采集技术进行简要介绍。LogstashLogstash是一个具备实时处理能力的开源的数据收集引擎。可以动态地从不同的来源收集数据,将数据处理(过滤、变形)过之后统一输出到某个特定地址,为将来更多样化的数据分析做准备。Logstash的作用包括:收集各类系统日志:如Apache日志、Iog4j(Java程序日志)、Windows系统事件日志。通过Filebeat能够实现安全、快速的的日志传输。能够与很多釆用UDP及TCP协议的工具对接,如JMX、NetFlow等等。Elasticsearch的数据采集的利器,可以配合Elasticsearch和Kibana使用;对input、filter及output部分可以使用多种插件灵活配合部署用以实现不同功能。在Web接口服务中,可以收集HTTP请求。能够与各类SQL或非SQL数据库对接,只要这个数据库支持JDBC接口。FlumeFlume是由Cloudera公司开源的,分布式可靠,高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动、最后存储到一个中心化数据存储系统中。由原来的Flume0G到现在的FlumeNG,进行了架构重构,并且现在NG版本完全不兼容原来的0G版本,经过架构重构后,FlumeNG更像是一个轻量级的小工具,适应各种方式的日志收集,并支持failover和负载均衡。FlumeNG的特点:NG只有一种角色的节点:代理节点(Agent)没有collector,master节点,这是核心组件最核心的变化去除了physicalnodesjocalnodes的概念和相关内容agent节点的组成也发生了变化,脱离了zookeeperFluentdFluentd是一个日志收集系统,通过丰富的插件,可以收集来自于各种系统或应用的日志,然后根据用户定义将日志做分类处理。通过Fluentd,你可以非常轻易的实现像追踪日志文件并将其过滤后转存到MongoDB这样的操作oFluentd可以彻底的将你从繁琐的日志处理中解放出来。本质上,Fluentd可以分为客户端和服务端两种模块。客户端为安装在被采集系统中的程序,用于读取log文件等信息,并发送到Fluentd的服务端。服务端则是一个收集器。在Fluentd服务端,我们可以进行相应的配置,使其可以对收集到的数据进行过滤和处理,并最终路由到下一跳。下一跳可以是用于存储的数据库,如MongoDB,AmazonS3,也可以是其他的数据处理平台,比如HadoopoFluentd有四个关键功能,使其适合构建清洁,可靠的日志管道:使用JSON进行统一日志记录:Fluentd尝试尽可能地将数据结构化为JSON:这允许Fluentd统一处理日志数据的所有方面:收集,过滤,缓冲和跨多个源和目标(统一日志层)输出日志。使用JSON可以更轻松地进行下游数据处理,因为它具有足够的结构,可以在保留灵活模式的同时进行访问。可插拔架构:Fluentd拥有灵活的插件系统,允许社区扩展其功能。我们的500多个社区贡献插件连接了数十个数据源和数据输岀。通过利用插件,您可以立即开始更好地使用日志。所需的资源较少:Fluentd是用C语言和Ruby组合编写的,只需要很少的系统资源。vanilla实例运行30-40MB内存,可处理13,000个事件/秒/核心。内置可靠性:Fluentd支持基于内存和文件的缓冲,以防止节点间数据丢失。Fluentd还支持强大的故障转移功能,可以设置为高可用性。LogtailLogtail是日志服务提供的一种便于日志接入的日志釆集客户端。通过在您的机器上安装Logtail来监听指定的日志文件并自动把新写入到文件的日志上传到您所指定的日志库。Logtail的功能优势主要包括以下几个方面:基于日志文件、无侵入式的收集日志。用户无需修改应用程序代码,且日志收集不会影响用户应用程序的运行逻辑。除支持文本日志采集外,还支持binlog、http、容器stdout等采集方式。对于容器支持友好,支持
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中英语教学与艺术展览文化语境探究论文
- 艺术生体重管理制度
- 茶坊专用杯管理制度
- 驻外维修工管理制度
- 一年级《夜色》课件
- 财务会计-处理会计信息
- 经典案例-鼠标移过放大
- 大学生恋爱问题调查报告
- 高等教学系列 管理学教学 第三章 计划 内有超多案例分析
- 计算机信息处理技术理论题
- 《跨文化传播教程》全套教学课件
- 第八届全国职工职业技能大赛(网约配送员赛项)必背考试题库500题(含答案)
- 中药材良种培育与品质提升
- 创新创业创造:职场竞争力密钥智慧树知到期末考试答案章节答案2024年上海对外经贸大学
- 国家开放大学本科《理工英语4》一平台机考第四大题阅读理解判断总题库
- 企业重大事故隐患专项检查表
- JTG-3830-2018公路工程建设项目概算预算编制办法
- 心理咨询室整改报告
- 临床脑卒中后吞咽障碍患者进食护理标准
- 湖北省武汉市东西湖区2023-2024学年八年级下学期期末考试语文试题
- 2024版建筑幕墙工程检测理论考试题库大全-下(判断题)
评论
0/150
提交评论