《大数据导论》课件-3数据采集介绍_第1页
《大数据导论》课件-3数据采集介绍_第2页
《大数据导论》课件-3数据采集介绍_第3页
《大数据导论》课件-3数据采集介绍_第4页
《大数据导论》课件-3数据采集介绍_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据导论数

集数据采集概述目录01采集技术概述

02采集的特点

03采集的数据类型

04采集的范围

05采集的流程

数据采集又称数据获取,是利用一种程序或装置从系统外部采集数据,经过数据清洗,最终输入到存储系统中的一种过程。c以大数据、物联网、人工智能、5G为核心特征的数字化浪潮正席卷全球,随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。面对如此海量的数据,与之相关的采集、存储、分析等等环节产生了一系列的问题。如何收集有效的数据并且进行转换分析存储以及有效率的分析成为巨大的挑战。数据采集概述数据采集技术FilebeatXPATH爬虫原理正则表达式HTTPFluentdSyslogFlumeBeautifulSoupLogstash相关技术和工具数据采集的特点以自动化手段为主,摆脱人工录入的方式自动化以全量采集和增量采集并存的方式,不对采集的数据进行采样采集方式采集方式多样化、内容丰富化丰富多样针对日志数据的采集,使用数据管道直达数据库实时性高传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。在依靠并行计算提升数据处理速度方面,传统的并行数据库技术追求的是高度一致性和容错性,从而难以保证其可用性和扩展性。数据采集的数据类型结构化数据半结构化数据非结构化数据具有固定格式或有限长度的数据

。例如:数据库,元数据等。非关系模型的、有基本固定结构模式的数据。例如:日志文件、XML文档、JSON文档、Email等。数据结构不规则或不完整,没有预定义的数据模型。例如:所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。采集的范围数据库数据互联网内容数据系统日志数据内部业务系统数据库企业内部的各个独立的业务系统,在各类数据库中存储了大量的数据互联网对外公开内容

凡是可以通过浏览器或者移动APP公开访问的互联网内容操作系统及业务系统日志自身操作系统或者自有业务系统的日常日志记录数据互联网内容数据系统日志数据网络设备日志网络设备记录的访问日志、流量日志、攻击日志等等设备状态数据分布式运算框架物联网感知设备数据

物联网的感知层设备采集的各类传感数据采集的流程不同的数据对象,其采集流程不尽相同,这里仅介绍网页内容采集流程及系统日志的采集流程。网页爬取的采集流程系统日志的采集流程网页爬取的采集流程分析采集对象构建采集请求获取响应内容针对一个网页,需要分析其网页结构,明确要采集的对象清单,采集清单相关法律法规评估,同时确定目标数据是否在同一个页面中。通过HTTP协议向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型过滤解析内容存储采集数据保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件,如果是海量数据,则可以存储到HDFS文件系统或者HIVE数据库中。得到的内容可能是HTML文本,可以用正则表达式、BeautifulSoup、XPath进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理系统日志的采集流程STEP1分析日志规模及实时性,选择适合的日志采集工具。STEP2确定数据采集的输入端、输出端。STEP3配置日志采集器文件,明确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论