(中职)数据采集技术(初级)项目1:数据采集技术教学课件_第1页
(中职)数据采集技术(初级)项目1:数据采集技术教学课件_第2页
(中职)数据采集技术(初级)项目1:数据采集技术教学课件_第3页
(中职)数据采集技术(初级)项目1:数据采集技术教学课件_第4页
(中职)数据采集技术(初级)项目1:数据采集技术教学课件_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、正版可修改PPT课件(中职)数据采集技术(初级)项目1:数据采集技术教学课件CONTENTS任务一:数据采集项目情景零数据采集是大数据产业的基石。不开采石油,就无法得到汽油等衍生品。当然,石油开采并不容易。各行各业包括政府部门的信息化建设都是封闭式进行,海量数据被封在不同软件系统,数据源多种多样,数据量大、更新快。数据采集的重点不在数据本身,而在于如何能够真正地解决数据运营中的实际商业问题。但是,要解决商业问题,就得让数据采集产生价值,就得做数据分析和数据挖掘。而在数据分析和数据挖掘之前,首先必须保证采集到高质量的数据。只有通过对所需数据的全面准确采集,形成数据流规模,然后再对数据流进行分析,

2、这样分析出的数据结果对决策行为才有指导性作用。学习目标零 理解定义 掌握特点 掌握过程知识储备任务一:数据采集壹 数据的应用价值知识储备任务一:数据采集壹 数据采集的意义No SQLDBBlobC#MapReduceTrusted dataBI & analyticsHivePigStored ProceduresVM知识储备任务一:数据采集壹结构化数据 具有固定格式或有限长度的数据,如数据库,元数据等。半结构化数据非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档等。非结构化数据数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、图像

3、和音频/视频信息等等。 数据的类型知识储备任务一:数据采集壹数据采集,又称数据获取,是利用一种程序或装置从系统外部采集数据,经过数据清洗,最终输入到存储系统中。以自动化手段为主,摆脱人工录入的方式涵盖了全量采集、增量采集,不对数据进行采样采集方式多样化、内容丰富化,摆脱以往只采集基本数据的方式 定义 特点知识储备任务一:数据采集壹123采集范围 能够从多个数据领域内采集、清洗、存储目标数据。业务系统日志数据数据库数据45互联网应用数据容器日志数据操作系统日志数据6网络设备日志数据 数据采集范围知识储备任务一:数据采集壹 采集流程数据采集数据清洗采集:多领域范围清洗:验证、拆分、过滤存储:灵活、

4、合理数据存储知识储备任务一:数据采集壹 采集流程网页爬取的采集流程采集:通过python编写代码,爬取网页。清洗:通过python完成网页数据的拆分等存储:通过python将最终的采集结果存入数据库,或者文件。数据场景被采集端采集层清洗层存储层PythonPython知识储备任务一:数据采集壹 采集流程日志数据类型的数据采集流程采集:通过采集工具(filebeat等)配置,完成采集。清洗:通过开源工具(logstash等)配置来接收原始的日志数据并进行拆分、验证。存储:通过开源工具(logstash)将采集结果存入数据库,或者文件中。被采集端采集层清洗层存储层知识储备任务一:数据采集壹 全面性

5、数据量具有分析价值、数据面足够支撑分析需求。 多维性数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。 高效性采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。 及时性 对于实时监控性质的系统来说,要实时采集数据并上报。 要求知识储备任务一:数据采集壹 数据采集的知识、能力体系基础知识数据采集理论网页基础数据网络爬虫移动端应用采集技术框架采集客户端开发互联网应用数据业务系统体系dotNet框架体系Java技术体系业务系统行为业务系统日志主流关系数据库非关系数据库数据存储数据采集行为日志数据数据库数据操作系统基础操作系统行为

6、Windows系统体系Linux系统体系操作系统数据场景实战数据验证数据拆分虚拟化关系数据库非关系数据库网络技术Python服务容器多媒体数据基础中间件容器基础Web容器中间件容器行为中间件容器网络工程网络设备设备流量协议设备模拟仿真网络设备工控设备工控协议数据多媒体终端多媒体数据硬件终端 分析各种数据的发生场景,掌握数据的产生方式和意义。场景分析综合能力数据筛选 运用合适的编程语言编写数据采集功能和系统。开发能力 根据采集流程各环节要求,对各种采集工具进行深度定制。工具定制 根据采集的数据规模,制定和编排不同集群规模的数据采集流程,高效完成数据采集、清洗。数据处理 熟悉领域内第三方系统和平台

7、,能够熟练使用、借鉴和学习。平台使用 根据不同数据特点,选择合适的数据存储系统,设计数据存储表结构。数据存储知识储备任务一:数据采集壹数据分析能力数据的种类千差万别,软件主体直接产生的数据,有数据库存储数据、数据库行为数据、互联网应用数据、业务系统行为/状态数据、操作系统行为数据、中间件容器行为/状态数据等;硬件主体直接产生的数据,有互联网设备数据、工控设备数据、多媒体设备数据等。随着计算机领域软硬件技术的快速发展,各种软件数据、硬件数据的种类规模都在快速增加,差异性也变得越来越大。不同种类的数据都有自己特定的格式、标准、含义、协议规范等,需要专业人员具备对各种数据场景进行分析的能力,用科学的

8、方法和手段对数据进行解读、分析、采集、清洗、存储。为后续的数据加工、挖掘提供充足、可靠的数据原料。 能力解读知识储备任务一:数据采集壹数据采集能力采集工具因数据而不同。根据不同数据的来源差别、特征差异性,需要采用编写软件工具、软件系统来完成整个数据采集全流程。对于一些特定的硬件设备,还需要使用相应的硬件型采集设备去收集硬件数据。数据采集工程师要具备开发软件、硬件等采集工具的定制能力。数据量的巨大规模,对数据采集的性能、效率、稳定、存储都提出了更高的要求。在技术深度上,要求数据采集工程师掌握高并发、集群化、虚拟化等更高端的技术。 能力解读知识储备任务一:数据采集壹数据采集方案的规划能力符合证书标

9、准要求的专业人才,将具备全面的能力,能够根据实际的现场数据采集环境,制定采集方案,开发和定制采集工具,综合利用采集系统、平台、框架,完成数据采集、预处理、存储的完成过程。 能力解读任务描述任务一:数据采集壹1、数据场景:1)考生机器上已部署一个apache服务,并在apache服务里设置好一个静态网站。2)apache httpd、filebeat、logstash等工具软件已提前在考生机器的指定目录中放好。2、采集要求1)根据apache配置信息能找到access_log日志文件使用采集工具(比如filebeat)收集apache的access_log日志数据通过filebeat输出到log

10、stash4)在logstash里引用已定义好的针对access_log的正则表达式5)通过logstash输出到指定文件中。任务步骤任务一:数据采集壹 被采集端-数据场景 (Apache httpd) 配置文件E:ServerApache24confhttpd.conf# ServerRootDefine SRVROOT E:/Server/Apache24ServerRoot $SRVROOT“# 设置端口Listen 8099# 日志数据信息# LogFormat %h %l %u %t %r %s %b %Refereri %User-Agenti combined LogFormat

11、 %h %l %u %t %r %s %b common LogFormat %h %l %u %t %r %s %b %Refereri %User-Agenti %I %O combinedio CustomLog logs/access.log common任务步骤任务一:数据采集壹 被采集端 (Apache httpd) 启动cd /d e:ServerApache24binhttpd.exe验证:8099/日志目录 E:ServerApache24logsaccess.log任务步骤任务一:数据采集壹 采集端 (Filebeat) 配置文件E:Serverfilebeatfilebe

12、at-6.8.0-windows-x86_64filebeat.ymlfilebeat.inputs: - type: log enabled: true paths: - E:ServerApache24logsaccess.logoutput.logstash: hosts: localhost:5044启动cd /d E:Serverfilebeatfilebeat-6.8.0-windows-x86_64filebeat -c filebeat.yml任务步骤任务一:数据采集壹 清洗层 logstash配置文件E:Serverelklogstash-6.8.7configlogstas

13、h-filebeat-csv.confinput beats port = 5044 filter grok match = message = %HTTPD_COMMONLOG output csv path = E:Serverelkoutputfile.csv fields = clientip ,verb, bytes csv_options = col_sep = stdout codec = rubydebug 启动cd /d E:Serverelklogstash-6.8.7binlogstash -f ./config/logstash-filebeat-csv.conf扩展任务任务一:数据采集壹02 加工040506采集端数据提炼数据去噪数据属性组合0103数据过滤数据拆分数据验证针对不断增加的数据类型和数据分解要求,在数据采集过程中的数据分析特点也不断的被强化。数据清洗和处理编程开发 使用编程语言完成数据采集的工具开发。 采集平台学习第三方采集平台,从而掌握一个完整系统的特点和功能结构。工具定制针对采集的各个环节涉及到的工具进行定制开发。扩展任务任务一:数据采集壹 采集手段采集编程采集工具采集系统采集框架扩展任务任务一:数据采集壹 采集方式智能手机平板服务器数字信号中间件容器检测设备监控设备POS终端互联网设备工控设备视频数据音频数据iOS终端设备操作系统业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论