大数据采集与预处理(微课版) 课件 项目6 动态网页数据预处理_第1页
大数据采集与预处理(微课版) 课件 项目6 动态网页数据预处理_第2页
大数据采集与预处理(微课版) 课件 项目6 动态网页数据预处理_第3页
大数据采集与预处理(微课版) 课件 项目6 动态网页数据预处理_第4页
大数据采集与预处理(微课版) 课件 项目6 动态网页数据预处理_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目6

动态网页数据预处理使用Pandas实现新闻动态网页数据预处理目录Content1使用Pig实现浪潮云说网页数据预处理2使用ELK实现某官网日志数据预处理3项目导言零数据预处理是指将数据的缺失值、脏数据、数据格式等进行调整处理,由于数据采集过程中会因为数据的来源不统一造成数据格式的混乱,当使用这些原始数据进行数据分析时无法为决策提供有效的帮助,对数据进行预处理能够有效解决这些问题,那么如何对数据进行预处理,数据预处理使用的工具和方法有哪些呢?学习目标零知识目标了解什么是数据预处理;熟悉数据预处理的方法;掌握Pandas、Pig以及ELK进行数据预处理的方法;精通Pig以及ELK环境搭建方法;技能目标具备了解Pandas和Pig数据预处理的能力;具备熟悉Pandas和Pig数据预处理机制的能力;素养目标具备掌握Pandas和Pig数据预处理方法的能力;具备掌握ELK数据预处理方法及流程的能力;具备精通数据预处理的能力。技能目标具备团队意识;具备良好的解决问题的能力;具备较强的学习能力;任务6-1使用Pandas实现新闻动态网页数据预处理壹Pandas简介及安装Pandas数据结构Pandas基本功能汇总和描述统计处理缺失数据0102030405任务6-1使用Pandas实现新闻动态网页数据预处理壹1Pandas简介及安装Pandas是Python的核心开源数据分析支持库。Pandas是基于NumPy开发用于完成数据分析开发的数据分析工具,并且纳入了大量的库和标准数据模型,为实现高效的大型数据集操作提供支持。任务6-1使用Pandas实现新闻动态网页数据预处理壹2Pandas数据结构一维数组的对象,可保存任何类型的数据。由一组数据(各种Numpy数据类型)和与之相关的数据标签(索引)两部分构成。1.SeriesList中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型任务6-1使用Pandas实现新闻动态网页数据预处理壹2Pandas数据结构DataFrame是一个表格类型的数据结构,有一组有序的列构成,并且每列的数据类型可以不同,DataFrame中同时包含了行索引和列索引,可看做是由Series组成的字典。2.DataFrame3.Panel三维数组,可以理解为DataFrame的容器。需要注意的是,Pandas是Python的一个库,所以,Python中所有的数据类型在这里依然适用,还可以自己定义数据类型。任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法用于从CSV文件中读取数据,其必要参数为数据文件的存储路径,同时还可在读取文件时设置分隔符、编码、进行空值定义等操作。1.数据表获取(1)读取数据文件①read_csv()pd.read_csv(filepath_or_buffer,sep=',',header='infer',names=None,index_col=None,prefix=None,dtype=None,encoding=None,converters=None,skipinitialspace=False,na_values=None,na_filter=True,true_values=None,false_values=None)任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能1.数据表获取(1)读取数据文件①read_csv()参数描述filepath_or_buffer文件路径sep分隔符设置,默认值为‘,’header数据文件中用于表示列名部分的行数(数据开始的行),默认为0names用于为结果添加列名index_col指定索引列prefix自动生成的列名编号的前缀dtype指定列的数据类型encoding指定编码converters设置指定列的处理函数,可以用"序号"、“列名”进行列的指定skipinitialspace忽略分割符后面的空格na_values空值定义na_filter检测空值,值为Falsek时可以提供大文件的读取性能true_values将指定文本转换为truefalse_values将制定文本转换为false任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法主要用于从Excel文件中加载数据并以二维数据表的格式输出。1.数据表获取(1)读取数据文件②read_excel()d.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,true_values=None,false_values=None,skiprows=None,nrows=None)任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能1.数据表获取(1)读取数据文件②read_excel()参数描述io文件路径sheet_name指定表单名称header设置数据中为表头的行,默认为0names自定义表头的名称,值为数组类型。index_col指定作为索引的列usecols设置要获取的列的范围,值为str,则表示Excel列字母和列范围的逗号分隔列表,为int,则表示解析到第几列。为int列表,则表示解析列表中指定的列。squeeze默认为False。设置squeeze=True时表示如果解析的数据只包含一列,则返回一个Series。dtype指定列的数据类型,默认为None不改变数据类型。true_values将指定的文本转换为True,默认为Nonefalse_values将指定的文本转换为False,默认为Noneskiprows省略指定行数的数据nrows指定需要读取前多少行,通常用于较大的数据文件中。任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法主要用于从SQL数据库表获取数据,该方法需要创建与数据库的链接,通过SQL语句从表中获取数据。1.数据表获取(1)读取数据文件③read_sql()pandas.read_sql(sql,con,index_col=None,coerce_float=True,parse_dates=None,columns=None,chunksize)参数描述sql用于查询数据的sql语句,类型为strcon连接数据所需的引擎,使用对应的数据库链接库创建,如:index_col选择某一列作为indexcoerce_float将数字形字符串转为float读入parse_dates将某一列日期型字符串转换为datetime型数据columns要选取的列chunksize指定输出的行数任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法用于加载JSON文件中的数据,与read_csv()和read_excel()使用方法一致,read_json()方法参数如下所示。1.数据表获取(1)读取数据文件④read_json()pd.read_json(path_or_buf=None,orient=None,typ='frame',dtype=Truekeep_default_dates=True,numpy=False,date_unit=None,encoding=None,lines=False)参数描述path_or_buf文件路径orient指示预期的JSON字符串格式typ要恢复的对象类型dtype指定数据类型,值为json、dictkeep_default_dates显示Scrapy版本numpy直接解码为numpy数组date_unit用于检测转换日期的时间戳单位encoding指定编码lines按行读取文件作为json对象任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能2.检查数据信息Pandas中提供了若干用于检查数据信息的方法,如维度、基本信息、空值、列名等相关信息。能够帮助我们快速了解数据的基本信息,主要应用在数据量较大无法快速获取有效信息的情况。属性和方法描述DataFrame.shape()查看数据的维度DataFrame.dtypes()每列数据的格式DataFrame.values()查看数据表的值DataFrame.columns()查看数据列名称DataF()查看数据表基本信息DataFrame.isnull()查看空值DataFrame.unique()查看某一列的唯一值DataFrame.head()查看前指定行数据,默认为10DataFrame.tail()查看后指定行数据,默认为10任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法用于将Pandas程序中的数据持久化保存到csv文件中。3.数据持久化(1)to_csv()DataFrame.to_csv(path_or_buf=None,sep=',',na_rep='',float_format=None,columns=None,header=True,index=True,index_label=None,mode='w',encoding=None)参数描述filepath_or_buffer字符串类型的文件路径对象sep输出文件的字段分隔符na_rep缺失数据填充float_format小数点保留几位,参数类型为字符串columns自定义列名,参数类型为序列或数组header写出列名,若给定字符串列表,则作为列名的别名Index写入索引,默认为trueModePython写入模式,默认为“w”w:覆盖写入a:追加写入r+:可读可写,必须存在,可在任意位置读写,读与写共用同一个指针w+:可读可写,可以不存在,必会擦掉原有内容从头写a+:可读可写,可以不存在,必不能修改原有内容,只能在结尾追加写,文件指针只对读有效(写操作会将文件指针移动到文件尾)Encoding表示输出文件中使用的编码的字符串,默认为“utf-8”任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法用于将DataFrame数据以Excel表格的形式保存到本地文件系统。3.数据持久化(2)to_excel()DataFrame.to_excel(excel_writer,sheet_name='Sheet1',na_rep='',float_format=None,columns=None,header=True,index=True,startrow=0,startcol=0)参数描述excel_writer保存到的文件路径sheet_name保存的sheet名na_rep缺失数据表示方式,默认为空float_format格式化浮点数的字符串,默认为Nonestartrow保存的数据在目标文件的开始行startcol保存的数据在目标文件开始的列header显示列名columns自定义列名index是否显示索引任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能在使用Pandas处理Json类型的数据时通常会将Json数据加载到程序中转换为DataFrame(可使用read_json),在处理完成后需要将处理后的数据保存回Json这时就需要用到to_json()方法。3.数据持久化(3)to_json()DataFrame.to_json(path_or_buf=None,orient=None,date_format=None,double_precision=10,force_ascii=True,date_unit='ms',default_handler=None,lines=False,compression=None,index=True)参数描述path_or_buf指定文件保存路径orient指定为将要输出的JSON格式。date_format日期转换类型double_precision对浮点值进行编码时使用的小数位数。默认为10位。force_ascii强制编码为ASCIIindex是否包含索引值任务6-1使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能to_sql()是Pandas中提供的用于将DataFrame数据保存到数据库的API。3.数据持久化(4)to_sql()DataFrame.to_sql(name,

con,

schema=None,

if_exists=’fail’,

index=True,

index_label=None,

chunksize=None)参数描述name表名称con连接sql数据库的engine,可以用pymysql之类的包建立schema相应数据库的引擎,不设置则使用数据库的默认引擎,如mysql中的innodb引擎index是否将表中索引保存到数据库index_label是否使用索引名称if_exists当数据库表存在时,设置数据的保存方式chunksize批量保存数据量大小任务6-1使用Pandas实现新闻动态网页数据预处理壹4汇总和描述统计Pandas提供了一组常用的汇总和描述统计方法,用于数据分析中完成汇总统计的功能。与对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的。函数描述df.sum()求和函数df.mean()求平均值df.min()df.max()求最小值和最大值,对于字符串类型的,最小值返回按字母升序,当不忽略null值时,最小值最大值都是NaNdf.var()求样本值的方差df.std()求样本值的标准差df.count()计算非null值的数量df.median()计算中位数任务6-1使用Pandas实现新闻动态网页数据预处理壹5处理缺失数据缺失值是指数据中由于某些信息的缺失,造成现有数据中某个或某些属性不完整。Pandas中提供了若干对缺失值处理的行数,可分为四类,缺失值判断、缺失值统计、缺失值填充、缺失值删除。缺失值统计df.isna().sum(axis=None)缺失值填充df.fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=None,**kwargs)缺失值判断df.isna()缺失值删除df.dropna(axis=None)加载数据Step1处理数据Step2读取数据Step3验证数据Step4动态网页数据预处理Pandas实现新闻动态网页数据预处理任务6-1使用Pandas实现新闻动态网页数据预处理壹任务6-2使用Pig实现浪潮云说网页数据预处理贰1Pig简介Pig是一款基于Hadoop的大规模数据分析平台,是Apache平台下的免费开源项目,是MapReduce的一个抽象。它是一个工具/平台,用于分析较大数据集,并表示为数据流。Pig通常与Hadoop一起使用。丰富的运算符集易于编程优化机会可扩展性用户定义函数处理各种数据任务6-2使用Pig实现浪潮云说网页数据预处理贰2Pig配置运行第一步:登录Pig官网第二步:找到相关镜像,进行下载第三步:进行解压下载第四步:配置环境变量[root@masterlocal]#vim~/.bashrcexportPIG_HOME=/usr/local/pigexportPATH=$PATH:$PIG_HOME/binexportPIG_CLASSPATH=$HADOOP_HOME/etc/hadoop[root@masterlocal]#source~/.bashrc[root@masterlocal]#pig-version任务6-2使用Pig实现浪潮云说网页数据预处理贰3PigLatin执行ApachePig提供了本地模式和MapReduce模式两种运行模式,其中在Local模式下,所有文件都从本地主机和文件系统中安装和运行,不需要使用Hadoop或HDFS,此模式多用于测试。MapReduce模式是使用ApachePig加载或处理Hadoop的分布式文件系统(HDFS)中存储的数据。交互模式(Gruntshell):使用Gruntshell以交互模式运行ApachePig。在此shell中,你可以输入PigLatin语句并获取输出。批处理模式(脚本):用于执行使用PigLatin语言编写的Pig程序脚本。嵌入式模式(UDF):用户可通过Java语言自定义函数,并在脚本中使用。任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符1.比较运算符比较运算符用于对符号两边的值进行比较,返回值有两种情况即True或False。运算符描述==等于,检查两个数的值是否相等;如果是,则条件为true!=不等于,检查两个数的值是否相等。如果值不相等,则条件为true>大于,检查左边数的值是否大于右边数的值。如果是,则条件变为true<小于,检查左边数的值是否小于右边数的值。如果是,则条件变为true>=大于或等于,检查左边数的值是否大于或等于右边数的值。如果是,则条件变为true<=小于或等于,检查左边数的值是否小于或等于右边数的值。如果是,则条件变为truematches模式匹配,检查左侧的字符串是否与右侧的常量匹配任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符2.类型结构运算符PigLatin的类型结构运算符主要有三个分别,元组构建运算符、包构造函数运算符和映射构造函数运算符。运算符描述示例()元组构造函数运算符-此运算符用于构建元组(Raju,30){}包构造函数运算符-此运算符用于构造包{(Raju,30),(Mohammad,45)}[]映射构造函数运算符-此运算符用于构造一个映射[name#Raja,age#30]任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(1)加载和存储lLOADLOAD运算符由两部分构成,使用等号(=)分割,等号左侧需要指定存储数据的关系的名称,右侧需要定义存储数据的方式,LOAD运算符语法如下。Relation_name=LOAD'Inputfilepath'USINGfunctionasschema;参数说明如下。relation_name:设置数据保存目标关系名称。Inputfilepath:数据文件在本地或HDFS的存储路径。

function:设置加载数据的文件类型函数Schema:数据模式,加载数据时必须制定数据模式(列名)任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(1)加载和存储l存储数据数据处理场景中,数据的体量通常会超过数十万条,仅靠程序的标准输出不能满足阅读条件,并且若要对处理后的数据进一步应用还要将其进行持久化存储。STORERelation_nameINTO'required_directory_path'[USINGfunction];参数说明如下。Relation_name:关系名。required_directory_path:关系目标存储路径。USINGfunction:加载函数任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(2)诊断运算DumpDumpstudent;用于运行PigLatin语句,并将结果打印到屏幕显示,此方法通常用于测试1explain用于显示关系的逻辑,物理和MapReduce执行计划explainstudent;3illustrate能够输出个语句逐步执行的结果illustratestudent;4Describe用于查看关系的模式describestudent;2任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(3)分组运算

分组操作在SQL中使用频率很高,PigLatin中同样提供了对数据进行分组方法,Group运算符能够对一个或多个关系中的数据进行分组。#对单个关系分组Group_data=GROUPRelation_nameBYGroup_key;#对多个关系分组Group_data=GROUPRelation_name1BYGroup_key,Relation_name2BYGroup_key;参数说明如下所示。①Relation_name:关系名。②Group_key:分组key。任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(4)连接运算连接运算操作类似SQL中的关联查询,在执行一个数据处理任务时,通常数据文件会保存在多个数据集中,这时就需要使用链接操作,或两个数据集中存在一定的联系,需要联合处理,PigLatin中的链接运算需要从每个关系中声明一个或一组元组作为key,当这些key匹配时,两个特定的元组匹配,否则记录将被丢弃。连接可以是以下类型:自连接、内部连接和外连接。任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(4)连接运算自连接Relation_name=JOINRelation1_nameBYkey,Relation2_nameBYkey;内部连接result=JOINrelation1BYcolumnname,relation2BYcolumnname;左外连接outer_right=JOINrelation1BYcolumnnameLEFT,relation1BYcolumnname;全外连接outer_full=JOINrelation1BYcolumnnameFULLOUTER,relation2BYcolumnname;右外连接outer_right=JOINrelation1BYcolumnnameRIGHT,relation2BYcolumnname;任务6-2使用Pig实现浪潮云说网页数据预处理贰4运算符3.关系运算符(5)过滤运算符FilterDistinctForeachFilter运算符能够根据过滤条件从关系中选择所需的元组Distinct运算符用于从关系中删除冗余(重复)元组Foreach运算符用于基于列数据生成指定的数据转换任务6-2使用Pig实现浪潮云说网页数据预处理贰5内置函数1.Eval函数Eval函数能够对数据进行简单的统计运算,如平均值、最大值、最小值求和等操作。函数描述AVG()计算平均值BagToString()将包的元素连接成字符串。在连接时,我们可以在这些值之间放置分隔符(可选)CONCAT()连接两个或多个相同类型的表达式COUNT()统计元素数量MAX()计算最大值MIN()计算最小值SIZE()基于任何Pig数据类型计算元素的数量SUM()要获取单列包中某列的数值总和任务6-2使用Pig实现浪潮云说网页数据预处理贰5内置函数2.字符串函数字符函数主要用于对数据中字符类型的数据进行处理,如大小写转换、截取字符、字符比较等。函数描述ENDSWITH(string,testAgainst)验证字符串是否已特定字符结尾STARTSWITH(string,substring)验证第一个字符串是否以第二个字符串开头。SUBSTRING(string,startIndex,stopIndex)返回来自给定字符串的子字符串EqualsIgnoreCase(string1,string2)比较两个字符串,忽略大小写INDEXOF(string,‘character’,startIndex)返回字符串中指定的第一个出现的字符LAST_INDEX_OF(expression)返回字符串中指定的最后一个出现的字符LCFIRST(expression)将字符串中的第一个字符转换为小写UCFIRST(expression)将字符串中的第一个字符转换为大写UPPER(expression)将字符串中的所有字符转换为大写LOWER(expression)将字符串中的所有字符转换为小写REPLACE(string,oldChar,newChar);使用新字符替换字符串中的现有字符STRSPLIT(string,regex,limit)通过给定分隔符拆分字符串TRIM(expression)去掉字符串头尾空格LTRIM(expression)去掉字符串开头空格RTRIM(expression)去掉字符串尾部空格任务6-2使用Pig实现浪潮云说网页数据预处理贰5内置函数3.日期时间函数日期函数用于对日期类型的数据进行处理,如获取时间中的年、月、日、时、分、秒等内容。重载方式描述ToDate(milliseconds)接收毫秒时间,转换为日期时间对象ToDate(iosstring)接收字符串类型的时间,并转换为日期时间对象ToDate(userstring,format)userstring代表用户输入的时间字符串,format用于指定用户输入的日期时间的格式,如:ToDate('1990/12/1903:11:44','yyyy/MM/ddHH:mm:ss'),结果返回1990-12-19T03:11:44.000+05:30ToDate(userstring,format,timezone)该方式较上一种可多设置一个时区任务6-2使用Pig实现浪潮云说网页数据预处理贰5内置函数3.日期时间函数常用的时间日期函数函数描述ToDate(datetime)根据给定的参数返回日期时间对象GetDay(datetime)返回时间对象中的某一天返回时间对象中的小时返回时间对象中的毫秒GetMinute(datetime)从日期时间对象返回一小时中的分钟。GetMonth(datetime)返回时间对象中的月份GetSecond(datetime)从返回时间对象中的秒GetWeek(datetime)从日期时间对象返回一年中的周GetYear(datetime)从日期时间对象返回年份DaysBetween(enddatetime,startdatetime)返回两个日期时间对象之间的天数HoursBetween(enddatetime,startdatetime)返回两个日期时间对象之间的小时数MilliSecondsBetween(datetime1,datetime2)返回两个日期时间对象之间的毫秒数MinutesBetween(datetime1,datetime2)返回两个日期时间对象之间的分钟数MonthsBetween(datetime1,datetime2)返回两个日期时间对象之间的月数SecondsBetween(datetime1,atetime2)返回两个日期时间对象之间的秒数WeeksBetween(datetime1,datetime2)返回两个日期时间对象之间的周数YearsBetween(datetime1,datetime2)返回两个日期时间对象之间的年数任务6-2使用Pig实现浪潮云说网页数据预处理贰5内置函数4.数学函数函数描述ABS(expression)获取表达式的绝对值ACOS(expression)获得表达式的反余弦值ASIN(expression)获取表达式的反正弦值ATAN(expression)此函数用于获取表达式的反正切值CBRT(expression)此函数用于获取表达式的立方根CEIL(expression)此函数用于获取向上舍入到最接近的整数的表达式的值(近1取整)COS(expression)此函数用于获取表达式的三角余弦值COSH(expression)此函数用于获取表达式的双曲余弦值EXP(expression)此函数用于获得欧拉数e乘以x的幂,即指数FLOOR(expression)要获得向下取整为最接近整数的表达式的值(四舍五入取整)LOG(expression)获得表达式的自然对数(基于e)LOG10(expression)得到表达式的基于10的对数RANDOM()获得大于或等于0.0且小于1.0的伪随机数(double类型)ROUND(expression)要将表达式的值四舍五入为整数(如果结果类型为float)或四舍五入为长整型(如果结果类型为double)SIN(expression)获得表达式的正弦值SINH(expression)获得表达式的双曲正弦值SQRT(expression)获得表达式的正平方根TAN(expression)获得角度的三角正切TANH(expression)获得表达式的双曲正切处理数据Step1数据加载Step2数据处理Step3数据查询Step4Pig实现浪潮云说网页数据预处理任务6-2使用Pig实现浪潮云说网页数据预处理贰任务6-3使用ELK实现某官网日志数据预处理叁1Elasticsearch1.什么是ElasticsearchElasticsearch是一个分布式可扩展的实时搜索和分析引擎,使用Java语言开发,由Elastic公司创建并开源维护的,并且作为Apache的开源项目,在云计算方面能够提供稳定、可靠、快速的实时搜索服务。Elasticsearch支持多种语言的编程接口比如Java、.NET(C#)、PHP、Python、ApacheGroovy等。任务6-3使用ELK实现某官网日志数据预处理叁1Elasticsearch2.Elasticsearch安装第一步:将安装包上传到Linux系统中的/usr/local目录下,为Elasticsearch创建安装用户名为“es”第二步:在root用户下解压elasticsearch安装包,为es用户设置对elasticsearch的权限第三步:进入elasticsearch-6.1.0目录修改elasticsearch.yml使任何主机都能够访问elasticsearch第四步:将用户的软硬限制进行调整,打开“

/etc/security/limits.conf”添加配置第五步:调整虚拟内容大小,将虚拟内存调整至262144第六步:切换到“es”用户,启动elasticsearch任务6-3使用ELK实现某官网日志数据预处理叁2LogstashLogstash是一款开源的数据收集引擎,其中内置了约200个插件,可接受各种类型的数据(日志、网络请求、关系型数据库、传感器或物联网等)。Logstash由输入、过滤器和输出三大类插件组成。输入组件(input):logstash的输入源,用于接收日志,支持从file(文件)、beats(beat组件)、syslog(第三方平台syslog)、stdin(控制台输入)输入数据。过滤组件(filter):logstash的过滤器,内置了大量的过滤插件,可以对收到的日志进行各种处理。输出组件(output),用于将收集到的数据输出到指定位置。任务6-3使用ELK实现某官网日志数据预处理叁2LogstashLogstash配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论