大数据采集技术

上传人：胡*** IP属地：安徽上传时间：2023-05-15 格式：PPTX 页数：10 大小：3.81MB 积分：12 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据采集技术主讲：吴梦雪大大数据采集技术什么是大数据采集技术？大数据采集技术就是通过对数据进行ETL操作，最终挖掘出数据的潜在价值，然后提供给用户解决方案或者决策参考。ETL，是英文Extract-Transform-Load的缩写，数据从数据来源端经过提取(extract)、转换(transform)、加载(load)到目的端，然后进行处理分析的过程。大数据采集方法系统日志采集方法很多互联网企业都有自己的海量数据采集工具，多用于系统日志采集。这些系统均采用分布式架构，能满足每秒百MB的日志数据采集和传输需求。Facebook的ScribeHadoop的ChukwaCloudera的Flume大数据采集方法网络数据采集方法网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联。大数据采集方法网络数据采集方法

（一）四个主要模块及功能：网络爬虫从Internet抓取网页内容，并抽取出需要的属性内容URL队列为爬虫提供需要抓取数据网络的URL数据处理对爬虫抓取的内容进行处理数据SiteURL，需要抓取数据网站的URL信息；SpiderData，爬虫从网页中抽取出来的数据；DpData，经过dp处理之后的数据大数据采集方法网络数据采集方法

（二）数据采集和处理的基本步骤：将需要抓取数据网站的URL信息写入URL队列爬虫从URL队列中获取需要抓取数据网站的SiteURL信息爬虫从Internet抓取对应网页内容，并抽取其特征属性的内容值爬虫将从网页中抽取的数据写入数据库Dp读取SpiderData，并进行处理Dp将处理后的数据写入数据库大数据采集方法数据库采集方法传统企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据，以数据库一行记录形式被直接写入到数据库中。通过数据库采集系统直接与企业业务后台服务器结合，将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中，最后由特定的处理分析系统进行系统分析。大数据采集平台ApacheFlume

Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。Flume使用JRuby来构建，所以依赖Java运行环境。FluentdFluentd是另一个开源的数据采集框架。Fluentd使用C/Ruby开发，使用JSON文件来统一日志数据。它的可插拔架构，支持各种不同种类和格式的数据源和数据输出，同时它也提供了高可靠和很好的扩展性。TreasureData，Inc对该产品提供支持和维护。大数据采集平台LogstashLogstash是著名的开源数据栈ELK(ElasticSearch,Logstash,Kibana)中的那个L。Logstash能够动态地采集、转换和传输数据，不受格式或复杂度的影响。利用Grok从非结构化数据中派生出结构，从IP地址解码出地理坐标，匿名化或排除敏感字段，并简化整体处理过程。Logstash用JRuby开发，所有运行时依赖JVM。SplunkForwarder

Splunk是一个分布式的机器数据平台，主要有三个角色：SearchHead负责数据的

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据采集技术

文档简介

温馨提示

最新文档

评论

大数据采集技术

文档简介

温馨提示

最新文档

评论

相关文档