《数据采集与预处理》教学教案(全)_第1页
《数据采集与预处理》教学教案(全)_第2页
《数据采集与预处理》教学教案(全)_第3页
《数据采集与预处理》教学教案(全)_第4页
《数据采集与预处理》教学教案(全)_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据采集与预处理教 案NO. 1教师姓名授课班级授课形式理实一体化授课时间年 月 日第周授课时数6授课章节名称任务1认识数据采集技术,熟悉数据采集平台教学目的(1)学习数据采集等相关知识内容,熟悉大数据的定义、大数据 的基本特征及数据采集的相关技术、工具和产品等。(2)熟悉数据采集的来源和方法。(3)完成Scrapy平台的搭建。(4)完成Apache Flume平台的搭建教材分析教学重点Scrapy平台的塔延Apache Flume平台的搭建教学难点Scrapy平台的搭建Apache Flume平台的搭建更新、 补充、删节内容课外作业积极动手实践,熟练完成相关任务的实施操作图2-2节点树示意图

2、nexrsibfgpreouss_b5gvhtml的子节点 的时,彼此互为P1腔山stChild元素:图2-3节点树的一局部及节点之间的关系3. 爬虫的基本原理(本质是获取网页、提取和保存信息的自动化程 序)(1)获取网页 )提取信,包 )保存数据 基本库的使用 )urllib库的使用 发送请求 读取响应内容 传递URL参数 传递中文参数 定制请求头 传递POST请求 下载远程数据到本地 设立代理IP地址 异常处理 Cookie的使用 )BeautifulSoup 创延 BeautifulSoup 对象 四大对象种类 遍历文档树(2G4.(1(2a.遍历宜接子节点b.遍历所有子孙节点c. 遍历

3、节点内容d.遍历多个内容e.遍历父节点f.遍历全部父节点g.遍历兄弟节点h.遍历全部兄弟节点i.遍历前后节点j.遍历所力前后节点)搜索文档树name 参数传字符串&传正那么表达式传列表传 True怎传方法)attrs 参数recursive 参数text 参数limit 参数*kwargs 参数CSS选择器a.通过标签名查找b.通过类名查找c.通过id名查找d.组合查找e.克接子标签查找f.属性查找)4、任务实施.确定并分析目标网页架构(1)进入 : 网页(2)单击“以数字开头”中的各数字,可发现网页 URL变化规律为 :/ :页面,在右犍单 击页面弹出的快捷菜单中,选择“检查”命令,进入检杳

4、页面。(4)使用快捷键“Ctrl+Shift+C”,单击“以汉字/字母开头”下面的“ 1 路“超链接,以网页源码查询方式显示网页内容。(5)单击a标签中的href属性,进入详细信息贞面。2.编写代码(两种存储方式:文件存储方式和 MySQL关系数据库存储方 式)(1)构造一个URL,以便获取所有一级贞面的URL。httD:/bei_iin出 8684, cn/listlhttD:/bei iinw iinH. tD: , /bei iinw. 8684. cn/】ist4 httD:/bei httD:/bei iing, 8684, cn/1ist6 :bei iinu, 8684, cn/

5、list7 :bei iinw, 8684, cn/list8 . finished with exit code 0(2)创立一个get_pagc_url方法,并在for循环中调用代码。 s:, x 05db550f s:,7bRi iine. 8684. cn,x bf864ala s: /bui 968a4331 s: 4)ei iing. 8684. cn. x b】e20d0f iinR. 8684. cn/x 0c88d7dl s: 、ei x 94d65922 httDS:/bei iir)R 8684. cn x 1758ec7d httDS; /bei iin 8684. c

6、n x 7833ac5a s;/, bei x 832c590bProcess finished with exit code 0(3)在获得了详细页面的 URL后,即可开始进行详细页面解析。在详细信息页面右键单击所弹出的快捷菜单中,选择“检直”命令, 随后使用快捷键“Ctrl+Shift+C”选中要爬取的数据网络爬虫实践NO. 4教师姓名授课班级授课形式理实一体化授课时间年 月 日第周授课时数4授课章节名称任务2使用Selenium爬取淘宝网站信息教学目的(1)知道Selenium 基本库和PyQuery解析库的使用方法。(2)学会使用Selenium基本库和PyQuery解析库实现淘宝网站

7、信息的 爬取。教材分析教学重点使用Selenium基本库和PyQuery解析库实现淘宝网站信息的爬取教学难点使用Selenium 基本库和PyQuery解析库实现淘宝网站信息的爬取更新、补充、删节内容课外作业积极动手实践,熟练完成相关任务的实施操作教学过程教学提示任分二、使用Selenium收率泄宝网站信急1.任务描述(1)借助学习论坛、网络视频等网络资源和各种图书资源,学习网络 爬虫相关技术,熟悉爬虫基本库Selenium的使用。(2)使用Selenium基本库获取沟宝网站信息的HTML源代码。(3)使用PyQuery解析库实现沟宝网站信,电的获取。2、任务目标(1)知道Selenium基本

8、库和PyQuery解析库的使用 方法。(2)学会使用Selenium 基本库和 PyQuery解析库实现沟宝网站信息的 爬取。3、知识准备Selenium作用:用来做自动化测试,支挣多种浏览器,在爬虫中主要用来解决 JavaScript渲染问题。使用Selenium来爬取信息:(1)声明浏览器对象。(2)访问页面并获取网页HTML。(3)查找元素。(4)元素交互操作,即在搜索框中传入关键词并进行自动搜索。(5)交互动作,即驱动浏览器进行动作,模拟拖动动作,将动作附加 到动作使中并串行执行。(6)执行JavaScript(进度条下拉,其可以通过执行JavaScript来实现)。(7)获取元素信息

9、。Frame 操作。(9)等待。隧式考待显式等待(10)前进后退。Cookies 的设置(12)选项卡管理,增加浏览器窗口。(13)异常处理。PyQuery作用:用于解析HTML网页初始化4种进行初始化的方法:from pyquery import PyQuery as pq from Ixml import etreedoc = pq(n) #1专人字符串doc = pq(etree.fromstring(HH) #传入 Ixmldoc = pq(url= :/google /) #传入 URLdoc = pq(filename=path_to_html_file) #传入文件Py Quer

10、y获取元素的方法。 hlml()和.lexl():用于获取相应的HTML块或文本内容。(selector):用于通过选择器来获取目标内容。eq(index):根据索引号获取指定元素(index从0开始)。find():查找嵌套元素filler。:根据class、id晞选指定元素。attr():获取、修改属性值。其他操作addClass(value):添加 class。hasClass(name):判断是否包含指定的class,返回True或False。children():获取子元素。parents():获取父元素。next():获取下一个元素。nextAll():获取后面全部的元素块。not

11、jelector1):获取所有不匹配该选择器的元崇。for i in doc.items(li):print i.text():遍历 doc 中的 li 元素。4、任务实施(1)进入沟宝网页面。(2)获取商品列表。1.导入相关的Selenium模块2.构建一个 webdriver对象,使用的浏览器为 Chrome 构建 WebDriverWait对象,它指定了一个等待的最长时间。(3)保存到 MongoDBo1 .导入PyMongo模块。2.创立一个 MongoDB的连接对象,并指定数据库和集合的名称。3.创立save_to_mongo方法,调用insert。方法将数据插入 MongoDB。

12、(4)遍历每页。1.将实现页码的遍历。2.最后需要将browser关闭。(5)运行。正在爬以第1页(,iaage : */g-search!. 1 icdn. cob/m bo/up 1 oaded/i4/1tr/i3/13022581 /TB2. _5ckYZnWVjSZFKXXcC0VXa_! 70-saturn.solar. jpg_360 x360 price, :,19OT.00,. * del : 2S8人忖款. ti。:IS电助牙*【2年保修】Apple,覃累Ipd 9.7美4LAX中帔电ZOHir.sho/:冬1H location*:机州,)存储引WongoDB成功(* in

13、ace* * 1-search3. al icdn. cob 】” bao uploaded 14 13 1669409267 TBlCACiCLSTBuSj$spXXaDRVXa_! !0-ite_pic. jpscrapy stu*tproject beibuslew Scrapy project * beibus using tenplate directory c:usersmacappdatalocalprogranspythonpython36lib site-packagesscrapytenplatesproject, created in:C: Usersmac beibus

14、You can start your first spider with: cd beibus scrapy genspider exanple example, coo(2)切换到beibus目录,并使用genspider创立spiderC:Usersmaccd beibusC:Usersmacbeibusscrapy genspider beijus beijing. 8684. cnCreated spider * bei-bus,using tenplate basic in module:beibus. spiders, bei.bus(3)使用PyChaim翻开beibus工程夕

15、beibus C:Usersmacbeibus7 b beibus7 E spiders -n*_.py|.bd_bus.pyA items.py修 middlewares.pyA pipelines.pyA e*tings.py疸 $crpy.cfg lllli External Ubraries(4)进入 settings,将 ROBOTSTXT_OBEY 的参数改为 False(5) 4各DEFAULT_REQUEST_HEADERS方法的注释去J电,并在其中添加 User-Agent 属性。(6)进入bei_bus.py文件,对start_urls进行修改(7)新建一个slart_re

16、quests()方法(此方法名固定),获得并构廷一级网页URLO(8)在parse_indcx()方法中,使用Xpath寻找详细信息页面的URL,并 对网址进行拼接,之后对二级网页发起请求,并返回回调函数parse_detail()。(9)在parse_detail()方法中对详细信息页面进行操作。(10)对 wang_list_tag字段和fanist_tag字段进行格式化。(11)进入ilems.py文件,修改其中的class以格式化数据。(12)在bei_bus.py文件的parse_detail()方法的末尾添加如下语句,以格式 化数据。bus_item = BeibusItera()

17、for field in bus item, fields:bus_itemfield = eval(field)yield bus_i tern(13) 在 MySQL 的sludb 数据库中仓J提一个stu businfo表教学过程教学提示一.知识准在.数据采集的概念数据的采集有基于物联网传感器的采条,也有基于网络信息的采集。 2.数据采集的来源根据 MapReduce产生数据的应用系统分类,大数据的采集主要有 4 种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。 3.数据采集的方法(1)数据采集的新方法 系统日志采集方法网络数据采集方法:对非结构化数据的采集其他数据采臬

18、方法(2)网页数据采集的方法互联网网贞数据具有分布广等大数据的典型特点,需要有针对性地对 互联网网页数据进行采集、转换、加工和存储。互联网网页数据是大数据 领域的一个重要组成局部,为互联网和金融服务创新提供了丰富的数据基 础。网页数据采集的基本流程互联网网页数据采集就是获取互联网中相关网页内容的过程,并从中 抽取出用户所需要的属性内容。网络爬虫是一个 自 动提取网 页的程序,它为搜索引 擎从万维网上下载 网页,是搜索引擎的重要组成局部。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与 主题无关的饯接,保存有用的饯接并将其放入等待抓取的URL队列。另外,所有被爬虫抓取的网页将会被系统

19、存储起来,进行一定的分析、 过淀,并提立索引,以便之后的查询和检索;网页数据采某的工作过程数据采集的 目 的就是把 目 标网站上网页中的某块文字或者图片等资 源下载到指定位竞。这个过程需要做如下配立工作:下载网页配比,解析 网贞 配置, 修正结果配置,数据输出配置。整个数据采集过程的基本步哪如下。a.将需要抓取数据网站的URL (Site URL)信息写入URL队列。b.爬虫从URL队列中获取需要抓取数据网站的URL信息。C.获取某个具体网站的网页内容。d.从网页内容中抽取出该网站正文页内容的链接地址。e.从数据库中读取已经抓取过内容的网页地址。f.过波URL。对当前的URL和已经抓取过的UR

20、L进行比拟。g.如果该网页地址没有被抓取过,那么将该地址写入数据库。如果该 地址已经被抓取过,那么放弃对这个地址的抓取操作。h. 获取该地址的网页内容,并抽取出所需属性的内容值。i.将抽取的网页内容写入数据库。Web信怠数据自动采集Web数据自动采集涉及 Web数据挖掘(Web Data Mining).信息检察 (Information Retrieval)信息提取(Information Extraction)搜索引擎mysql CREATE TABLE stu_businfo( bus_name varcharTlOOO), bus_type varchar(1OOO), bus_tir

21、ae varchar(lOOO), ticket varchar(lOOO), gongsi varchar(lOOO), _ gengxin varchar(1000), licheng varchar(1000), wang_info varchar(1000), wang_buff varchar(1000), fan_info varchar(1000), fan_buff varchar(1000) DEFAULT CHARSET=utf-8;(14)在settings.py文件末尾添加如下参数。DB_HOST = I oca I hostDB.USER = stuDB_PWD =

22、stu123DB_CHARSET=UTF8(15)修改pipelines.py文件import pymysqlfrom beibus import settingscI ass MysqIPipeline(object):def _init_(self):self, host = settings. DB_HOSTself.user = settings. DB USERself, pwd = settings. DB_PWDself.db = settings. DBseIf. charset = sett ing. DB. CHARSETse I f. connect ()def conn

23、ect (self):self.conn = pymysqI. connect(host=seIf. host,user=self. user.password=self. pwd.db=self. db,charset=self. charset)self. cursor = self. conn, cursor ()(16)添加一个close_spider()方法,用于关闭MySQL数据库。(17)实现 processjtem()方法。(18)在settings.py中将ITEM_PIPELINES方法的注释去掉,并将其中的内容改为 “beibus.pipelines.MysqlPipel

24、ine:300”。ITEM PIPELINES =(beibus. pi pelines. MysqIPipeline* : 300启动糜虫工程:在PyCharm 软件在下角单击“Terminal”标签,进入命令行界面,在其中 执彳亍 “scrapy crawl bei_bus”命令。Microsoft Vindm【* 10. 0. l7l$4. 228 (e) 0018 Microsoft Corporation.仰HI所而(9融C: U*rsMc*crai7*9Htwiinbu*scrairr crmrlnxrwwtwtry:want-info response. xpth( /(id-b

25、M.lin,)/div(4/div/tront/tit O). extract.first* icpt:*W_info Nonetry:wi*_Hst_tag xptht () ). xtractOscept:vm-lttt.tai - Nonetry: rvpcw xpth(*ine-/div(6J/div/tronB/tMt(),), extract.first0icept: Xww try:faivBtt.tAt -in*)/div(7) /div/dlv/a/txt O ). xtractO数据采集与预处理NO. 6教师姓名授课班级授课形式理实一体化授

26、课时间年 月 日第周授课时数4授课章节名称任务1 Flume的安装和配置教学目的(1)熟悉Flume的相关基础知识。(2)学会Flume的安装和不同应用场景下的配置。教材分析教学重点Flume的安装和不同应用场景下的配置教学难点Flume的安装和不同应用场景下的配电更新、补充、删节内容课外作业积极动手实践,熟练完成相关任务的实施操作教学过程教学提示一.知识准备FlumeFlume是一个分布式、高可能和鬲可用的海珏日志采集、聚合及传输 服务。Flume的工作原理Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据 单位,它携带日志数据(字节数组形式)弁且携带有头信息,这些事

27、件由 Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,把 事件推入(单个或多个)Channelo可以把Channel看作一个线冲区,它将 保存事件直到 Sink处理完该事件。Sink负责拧久化日志或者把事件推向 另一个 Source。Flume 事件事件作为Flume内部数据传输的最基本单元,是由一个转载数据的字节数 组(该数组从数据源接入点传入,并传输给传输器,即 HDFS、HBase) 和一个可选头部构成的。Flume AgentFlume内部有一个或者多个 Agent,然而,对于每一Agent来说,Agent 就是一个独立的守护进程(JVM),它从客户端接收

28、数据,或者从其他的 Agent上接收数据,并迅速地将获取的数据传给下一个目的节点 Sink或 AgentoAgent 主要由 Source、Channel、Sink 3 个组件组成。Flume的可靠性当Flume节点出现故障时,日志能嬖被传送到其他节点上而不会丧失。Flume提供了 3种级别的可靠性保障,从强到弱依次如下:end-to-endStore on failureBest effortFlume插件Interceptors (拦截器)Channels Selectors (管遒选择器)a.默认管也选择器:每一个管道传递的都是相同的Event。b.多路复用管道选择器:根据每一个Even

29、t的头部地址选择管道。ink:用于激活被选择的Sinks群中特定的Sink,实现负载均衡控制。Flume组件常用配置分析SourceAvro SourceoAvro So.urce主要属性的说明如下:Channels:接收客户端数据源事件流的Channel。type:类型名称,这里应为Avro。bind:需要监听的主机名或IP地址。port:监听的端口。Avro: Flume通过 Avro方式在两台机器之间进行数据传输,Flume 可以监听和收集指定端口的日志,使用 Avro的Source需要说明被监听的主机的IP地址和堵口号,这里将 Agent名称均设巨为aloExec SourceoExe

30、c Source可以通过指定的操作对 日 志进行读取,使用Exec时需要指定 shell命令。Spooling-directory Source0Spooling-directory Source主要属性的说明如下:a.Channeis:接收客户端数据源事件流的Channel。b.typc:类型名称,这里为spooldir。c.spooldir:读取文件的路径,即指定的“目录 d PLETED:对处理完成的文件追加的后缀。Flume可以读取spooldir对应文件夹中的日志,使用时会指定一个文件夹 映射到spooldir, Flume可以读取该文件夹中的所有文件。Syslog SourceoC

31、hannelFlume的Channel种类弁不多,最常用的是 memory channeUSinkLogger SinkoAvro Sinko(3)File_roll Sinko二.Flume的安装.翻开已经安装好的Ubuntu系统(JDK需自行解压安装),执行“cd” 命令,进入保存Flume安装包的大数据根目录(这里的大数据根目录为 /data/bigdata),并执行“Is”命令,查看Flume安装包.执行 “tar”命令,解压 Flume 安装包 apache-flume-1.进入Flume根目录,查看Flume中的文件.bin目录中存放的是Flume的可执行文件,conf目录中存放的

32、是 Flume的配置文件,lib目录中存放的是Flume的依赖JAR包。.为了方便操作路径引用,需要在/elc/profile中配受相关环境变量, 代码如下。#配置JDK环境变量export JAVA H0ME=/usr/local/jdk1.8export CLASSPATH=$:CLASSPATH:JAVA_HOME/Iib/export PATH=$PATH:$JAVA_HOME/b i n#配置Hadoop环境变量export HAD00P_H0ME=/usr/1 oca I/Hadoopexport path=$PATH:$HADOOP HOME/bin:$HAD00P HOME/s

33、bin#配置Flume环境变量export FLUME_HOME=/data/bigdata/apache-fIume-1.8. 0-binexport PATH=. :$PATH:$FLUME_HOME/bin.进入conf目 录,通过执行4cp命令复制conf目 录中的flume-env.sh. template文件,创立的副本文件名称为flume-env.sh.编辑配置文件flume-env.sh,修改JAVA_HOME的值为 a/usr/Iocal/jdkl.8w.执行“flumc-ng version”命令,马金证Flume是否安装成功,如果进 入图3-12所示界面,表示Flume安

34、装成功。Source code repository: Revision: 99fS91994468633fc6f87eic5fcS3ee214b6da4fCompiled by denes on Frt Sep 15 14:S8:88 CEST 2017Fron source with checksum fbb44c8c8fb63a49be8a59e27316833d图3-12 Flume安装成功三,企业常用Flume配K(1)互联网公司采集日志时,往往需要将各个 Web服务器的日志汇 总到一台 日志分析服务器中,以使日志分析。可通过Flume监听指定自身 端口来采集其他设备客户端发送到指定

35、蝇口的数据,即使用Flume将 slave 1节点的文件采集到 master的指定目录中。在master节点下进行如下操作。进入Flume的conf目录,创立 Avro.conf配立文件。编辑Avro.conf配置文件。通过执彳亍命令flume-ng agent -c . -f /data/bigdata/apache-flume-1.8.0- bin/conf/avro.conf -n a 1 -DFlume.root.logger=INFO,consolew 启动 Flume Agent al,指定日志等级为INFO,并将日志指出到控制台。翻开一个新的控制台命令行窗口,在slavel节点下

36、进行如下操作。在Flume目录中创立一个自定义名称的文件夹,并创立一个要发送的 测试文件(由主机端采集)。使用echo向文件中榆出内容的基本方法是使用IO 重定向指令“”, 默认情况下echo输出到标油输出中,使用指令时可重定向输出到文 件中。启动Flume Avro-client,并指定主机的接收端口为4141,向主机master 发送日志信息数据,如图3-17所示。Flume-ng Avro-client -c . -H master -p 4141 -F图3-17 向主机 master发送日志信息数据查看 masler节点在命令行窗口中接收的数据。观察到 日志文件已经通过Flume发送到

37、了 master节点。按快捷键 “Ctrl+C” 退出。以上还原了企业中使用Flume Avro进行数据传输的过程,通过 Avro-clicnt发送数据到接收端的指定端口,实现了日志的传递。在企业信 息采集中可以将分散在各个机器上的 日志汇总到 日志处理分析服务器中, 从而完成整体数据的采集。(2)为了自动采集每日产生的 日志,互联网公司一般采用日志策略: 每日自动生成一个日志文件。为了实现自动采集日志功能,Flume提供了 Spooling Directory Source方式来对日志存储目录进行监控,收集新生成的 文件,即使用Flume监控本地目录,如有新增文件就采集文件中的数据。在Flu

38、me目录中创现一个自定义名称的文件夹,在该文件夹中创立 一个被监听的文件夹spooU进入Flume的conf目录,创注spooLconf配置文件。编辑spool.conf配电文件。过执行命令 “flumc-ng agent -c . -f /data/bigdata/apachc-Flume-1.8.0- bin/conf/spooLconf -n a2 -DFlurne.root.logger=INFO,consolew 启动 Flume Agent a2,指定日志等级为INFO,并将日志内容输出到控制台。翻开一个新的命令行窗口,用来观察 日志。在被监听的文件目录中 创 建一个包含内 容的测

39、试文件。随后可以观察第一个命令行窗口的变化,香看接收的数据。观察到日志文件已经被监听到了,按快捷键“Clrl+C”退出。需要注意,复制到spool目录中的文件不可以再翻开进行编辑,spool 目录中不可包含相应的子目录。此外,还要注怠路径的长度,路径过长有 可能导致 Flume无法正常运行。以上还原了企业中使用Flume Spooling Directory来监视目录中每天新 日志生成的场景,以及对新产生的 日志实现自动采集的过程。(3)互联网公司通的使用前两种方式就可以基本完成日志数据的采集 和汇总,但在实际工作中,对于不断变化的实时生成的日志,仅仅依余 Avro和Spooling Dire

40、ctory采集方式,无法实现对日志的实时采集和鬲可 靠采臬,因此Flume提供了一种Exec的方式来自定义日志采集,即通过 使用 Exec Source完成从本地 日 志文件中收集 日 志数据的任务。进入Flume的“自行创立”目录,创立一个空的数据源文件log.02。进入Flume的conf目录,创速cxcc_tail.conf配比文件。编辑exec_tail.conf配置文件。通过执彳亍命令 flume-ng agent -c . -f /data/bigdata/apache-Flume-1.8.0- bin/conf7spooLconf -n a2 -DFlume.root.logge

41、r=INFO,consolev 启动 Flume Agent a2,指定日志等级为INFO,并将日志内容输出到控制台。执行 “for i in 1.100;do echo exec tail$i /data/bigdata/apache- flume-1.8.0-bin/20yyxxxxABC/log.02 c;echo $i;slccp 0.01;doncw 命令,为 log.02文件循环追加大量数据,现察控制台输出端,发现追加的日志已被 获取且输出到屏幕上。查看被监听目录中的文件,发现文件中增加了 “COMPLETED” 标识。(4) Flume提供了 Syslog的方式,通过TCP/UD

42、P通信协议直接对某台 主机上的某个端口进行监听,实现了采集端主动采集端口日志的功能,提 高了可靠性。Syslog可以通过Syslog协议读取系统日志,协议分为TCP和UDP两 种,使用时需指定IP地址和端口,此任务中使用Flume监听本机的5140 端口。进入Flume的conf目录,创立名称为syslog_tcp.conf的配置文件编辑syslog_tcp.conf配置文件。过执彳亍命令 flume-ng agent -c . -fVdata/bigdata/apache-flume-1.8.0 - bin/conf/syslog_tcp.conf-n a4 -DFlume.root.log

43、gcr=lNFO,consolew 启动 Flume Agent a4,指定日志等级为INFO,并将日志内容输出到控制台。 重新翻开一个命令行窗口,使用“nc”命令发送“hello syslog”数据 到本机的514()端口,如图3-33所示。nc表示NetCat,是一个非常荷单的 Unix工具,可以读、写TCP或UDP网络连接。它被设计成一个可靠的后 端工具,能被其他程序或脚本直接驱动同时,它也是一个功能丰宫的网 络调试和开发工具。HHHB : $ sudo echo -hello syslogN | nc localhost 5140图3-33发送数据5.观察之前的本机控制台命令行窗口,可

44、以毛到追加的日志已被获 取。数据采集与预处理教 案NO. 7教学提示教师姓名授课班级授课形式理实一体化授课时间年 月 日第周授课时数4授课章节名称任务2 Flume采集数据上传到集群教学目的(1)熟悉Flume的相关基础知识。(2)学会将采集的日志数据转存到HDFS中的方法。(3)学会将采集的日志数据转存到HBase中的方法。教材分析教学重点将采臬的日志数据转存到HDFS中的方法将采集的日志数据转存到 HBase中的方法教学难点将采集的日志数据超存到HDFS中的方法将采集的日志数据转存到 HBase中的方法更新、补充、删节内容课外作业积极动手实践,熟练完成相关任务的实施教学过程(Search

45、Engine)等概念和技术。Web数据自动采集与挖掘所谓 Web数据自动采集与挖掘,是指从大*非结构化、异构的 Web 信息资源中发现有效的、新颖的、潜在可用的及最终可以理解的知识(包 括概念、模式、规那么、约束及可视化等形式)的过程。Web数据自动采集与搜索引擎它们都利用了信息检索的技术。但是两者的侧重点不同,搜索引擎主 要由网络爬虫(Web Crawler)、索引数据库和查询服务3局部组成。Web 数据自动采集主要针对某个具体行业,提供面向领域、个性化的信息挖掘 服务。Web数据自动采集与信息提取与传统搜索引擎(基于关键字查询)有所不同,信息提取基于关键字 交询操作,其不仅要匹配关键字,还

46、要匹配各个实体之间的关系。信息提 取是技术上的概念。Web数据自动采集很大程度上要依赖于信息提取的技 术,实现长期的、动态的追踪。Web数据自动采集与 Web信息检索Web数据自动采集不是将 Web文献集合的子某直接输出给用户,而是 还要进一步分析处理,如香重、去噪、整合数据等。Web数据自动采集是 Web数据挖掘的一个重要组成局部,它利用了 Web数据检索、信息提取 的技术,弥补了搜索引擎缺乏针对性和专业性,无法实现数据的动态跟踪 与监测的缺点,是一个非常有前景的领域。链接过流链接过波是数据采集的关讹技术,实质就是判断一个链接(当前链接) 是不是在一个链接集合(已经抓取过的链接)中。Web引

47、擎和通用搜索31擎的差异Web引擎和通用搜索引擎相比有较大的差异,Web引擎更多地关注 “结构化信息”的抽取。通用搜索引擎是指从互联网检索出满足搜索条件 的信息反应给用户。更多关注搜索条件,信息一般不进行结构化处理。 结构化信息抽取的方式Web结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽 取成结构化数据,属于垂直搜索a.模板方式特点:简单、精确、技术难度俅、方便快速部署。岐点:需要针对每一个信息源的网站模板进行单独设定,在信息源多样性 强的情况下维护量巨大,甚至是不可完成的维护量0b.网页库级方式特点:通用性较好,易于维护,只需设定参数、配优相应的特征就能 改进相应的抽取性能等。缺

48、点:技术难度高,前期研发本钱笳,周期长,适合网页库级别结构 化数据采集和搜索的高蝇应用。二.任务实施Scrapy系统环垸塔提(1)安装所需的环境(2)验证Scrapy框架安装处否成功一.知识准备1. HDFS SinksHDFS与File_roll有些类似,都是将收集到的日志写入到新创立的文 件中保存起来,其区别如下:File_roH的文件存储路径为系统的本地路径; 而HDFS的存储路径为分布式的文件系统HDFS的路径,且HDFS创立新 文件的周期可以是时间,也可以是文件的大小,还可以是采条日志的条数。 HDFS Sinks的配宣例如如表3-9所示。表3-9 HDFS Sinks的配J8L例如

49、配置例如例如说明al.channels = cl指定使用Channel的名称为cla1.Sinks = k1指定使用Sink的名称为k1al.Sinks.kl.npe = hdfs指定Sink的类型为hdfsal .Sinks.kl .channel = cl指定Sink使用的Channel为clal .Sinks.kl .hdfs.path = /flumc/cvcncs/ %y-%m- %d/%H %M/%S指定存储的HDFS路径,可使用%、 卜时间表达式等作为路径al .Sinks.k 1 .hdfs.filcPrcfix = events-指定输出文件的前缀a1 .Sinks.kl .

50、hdfs.round = true启用时间上的“舍弃”,即hdfs.path 解析时将根据roundValuc中设置.的 时间进行舍弃,时间单位根据 roundUnit中的设置来确定al.Sinks.kl.hdfs.roundValuc = 10设定时间值al .Sinks.kl .hdfs.roundUnit = minute设定时间单位2. HBaseSinksFlume 有两大类 HBaseSinks: HBaseSink 和 AsyncHBaseSinkoHBaseSink的参数配置如表3-1()所示。表3-10 HBaseSink的参数酉己置参数默认值描述channel为Agent的

51、Channel命名type设定类型的名称,如 org.apache.flume. Sink.hbase.HBas eSinktabic设置HBasc的表名columnFamil y设置 HBase 中的 cokimnFamilybatchSize100设定一个事务中处理事件的个 数serializerorg.apache.tlume.Sink.h base.SimplcH baseEven t Serializer;。咯 apache, flume. Sink, hbasc. Regex I ibasc Ev cntScrializcr设置serializer的处理类serializer.*要

52、传递给序列化程序的属性(如 设置 HBase 的 column)SimpleHbaseEvcntSerializer 的百己受例如如表 3-11 所示。表 3-11 SimplcHbascEvcntScrializcr 的配立例如配置例如例如说明agcnttcst.channcls = cl为Agent的Channel命名agcnttcst.Sinks = kl为Agent的Sink命名agenttestSinks.k 1 .type =org.apachc.flume. Sink. hbase.HBascSink设置type的值agenttest.Sinks.k 1 .table = tes

53、t_hbase_table设置HBase的table的名称agcnttcst.Sinks.kl.columnl-amily = fl设置 1 IBasc 的 columnlamilyme. Sink. hbase.SimpleHbaseEventSerializer设置,serializer的处理类agcnttcst.Sinks.kl.scrializcr.payloadColum n = columnname设置HBase表的 columnFamily中的某个列名 称agcnttcst.Sinks.kl .channels = cl指定Sink使用的ChannelRegexHbaseEven

54、tSerializer 的配受例如如表 3-12 所示。表 3-12 RegexHbaseEventSerializer 的酉己克例如配置例如例如说明agenttest.channels = c2为Agent的Channel命名agcnttcst.Sinks = k2为Agent的Sink命名)rpc =org.apache.flume.Sink. hbase.HBascSink设置type的值agenttest.Sinks.k2.table = test_hbase_table设置HBase的table的名称agcnttcst.Sinks.k2.columnFamily = f2设置,HBa

55、se 的 columnFamilyagcnttcst.Sinks.k2.scrializer =设置serializer的处理类org.apachc.flumc. Sink.hbasc.RcgcxFIbascE ventSerializeragenttest.Sinks.k2.serializer.regex = Reg ular Expression如:agenttest.Sinks.k2.scrializcr.regex 二(.*?) l(.*?) L(.*?)1(.*?)设置相应的正那么表达式二 column-1,column-2,colunm-3,column-4指定前面正那么表达式匹

56、配 到的数据对应的HBase的 familycolumn-2 列族中的 4 个column列名agcnttcst.Sinks.k2.channcls = c2指定Sink使用的Channel(2) AsyncHBaseSinkAsyncHBaseSink的参数配JBL如表3-13所示。表3-13 AsyncHBaseSink的参数配比参数默认值描述channel为Agent的Channel命名type设定type的名称,此处需要将 其设置为org.apache.flume.Sink.AsyncHB ase Sinktable设置HBase的表名column I-amily设置 HBase 中的

57、 columnFamilybatchSize100设定一个事务中处理事件的个 数timeout设置Sink等待来自HBase的 acks的超时时间(毫秒),如 果未设定超时时间,那么Sink将 永远等待serializerorg.apachc.flumc.Sink. hbase.SimplcAsyncHba seEventSerializer设置serializer的处理类serializer*要传递给序列化程序的属性 (如设置 HBase 的 column)SimpleAsyncHbaseEventSerializer 的配置例如如表 3-14 所示。表 3-14 SimpleAsyncHb

58、aseEvcntSerializer 的酉己比例如配置例如例如说明agenttest.channels = c3为 Agent 的 Channel 命 名agcnttcst.Sinks = k3为Agent的Sink命名)pe=设置type的值agenttest.Sinks.k2. table = test_hbase_table设置HBase的table的名 称agcnttcst.Sinks.k2.columnFamily 二 f3设置HBase的 columnFamilyagenttest.Sinks.k2.serializer = org.apache. flume.Si nk. hba

59、se.SimpleAsyncHbaseEventSerializer设置serializer的处理类agcnttcst.Sinks.kl.serializer.payloadColumn = columnname设置HBase表的 column Lamily 中的某个 列名称agcnttcst.Sinks.k3.channels = c3指定Sink使用的 ChannelHDFS的命令HDFS 命令的使用方式:“hadoop fs - w 或 hdfs dfs - w。HDFS的常用命令及其含义如下。help:查看加助Is:查看指定路径的目录结构。mv:移动或重命名。rm:删除文件/空白文件夹。put:上传文件。mkdir:创痛空白文件夹。二.任务实施Flume采集数据上传到HDFS进入Flume的conf目录,创立hdfs.conf配免文件,并编辑此配竞 文件。使用HDFS的命令在Hadoop条群根目录中创速/flume/events文件 夹。通过执行命令 flume-ng agent -c. -f /data/bigdata/apache-flume- 1.8.0- bin/conf/hdfs.conf -n hdfsAgent -DFlume.root.logger=INFO,consolev 启动 flume-ng监控指定目 录。翻开新的命令行窗口,模拟服务器生成的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论