版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据集成工具:ApacheNifi:数据流与处理器理解1数据集成工具:ApacheNifi:数据流与处理器理解1.1介绍ApacheNifi1.1.1Nifi的历史与发展ApacheNifi是一个易于使用、功能强大且可靠的数据处理和分发系统。它由美国国家安全局(NSA)开发,并于2014年开源,随后被Apache软件基金会接纳为顶级项目。Nifi的设计初衷是为了自动化数据流的处理,提供一种灵活的方式来管理数据的收集、聚合和分发。它支持实时和批量数据处理,能够处理各种类型和格式的数据,包括结构化、半结构化和非结构化数据。1.1.2Nifi的核心概念与架构核心概念数据流:在Nifi中,数据流是指数据从源头到目的地的移动路径。数据流由处理器、连接、控制器服务和策略组成。处理器:处理器是Nifi中的核心组件,负责执行数据流中的操作,如读取、写入、转换、路由等。每个处理器都有特定的功能,可以被配置和连接以创建复杂的数据处理流程。连接:连接是处理器之间的数据传输通道。数据通过连接从一个处理器流向另一个处理器。控制器服务:控制器服务提供配置信息,如数据库连接、加密服务等,用于支持处理器的运行。策略:策略包括数据流的控制策略和数据的访问控制策略,确保数据流的正确执行和数据的安全。架构Nifi的架构设计为分布式、可扩展和容错的。它包括以下关键组件:NiFi集群:Nifi可以部署在单个节点上,也可以部署在集群中以提高性能和可靠性。集群中的节点通过共享数据流和状态信息来协同工作。NiFi节点:每个Nifi节点都是一个独立的运行实例,可以处理数据流的一部分。NiFiUI:Nifi提供了一个直观的用户界面,用于设计、监控和管理数据流。用户可以通过拖放操作来创建和配置处理器,以及查看数据流的实时状态。NiFiRESTAPI:除了UI,Nifi还提供了一个RESTAPI,允许用户通过编程方式来管理数据流和处理器。这为自动化和集成提供了便利。示例:使用Nifi处理器处理数据假设我们有一个数据流,需要从一个CSV文件中读取数据,然后将数据转换为JSON格式,并最终将数据写入到一个数据库中。以下是使用Nifi处理器实现这一数据流的步骤:GetFile处理器:配置GetFile处理器来读取CSV文件。设置输入目录为CSV文件所在的目录,输出目录为Nifi内部的临时目录。ConvertRecord处理器:使用ConvertRecord处理器将CSV格式的数据转换为JSON格式。配置转换规则,指定CSV到JSON的转换逻辑。PutDatabaseRecord处理器:配置PutDatabaseRecord处理器将JSON数据写入到数据库中。设置数据库连接信息,包括数据库类型、连接字符串、用户名和密码。代码示例:使用NifiRESTAPI创建处理器curl-XPOST\
'http://localhost:8080/nifi-api/process-groups/root/processors'\
-H'Content-Type:application/json'\
-d'{
"component":{
"name":"GetFile",
"type":"cessors.standard.GetFile",
"bundle":{
"groupId":"org.apache.nifi",
"artifactId":"nifi-standard-nar",
"version":"1.13.0"
},
"position":{
"x":100.0,
"y":200.0
},
"configurableProperties":{
"inputDirectory":"/path/to/csv/files",
"outputDirectory":"/path/to/nifi/temp"
}
}
}'这段代码使用curl命令通过Nifi的RESTAPI创建了一个GetFile处理器。处理器被命名为“GetFile”,并被配置为从指定的目录读取CSV文件,并将数据输出到Nifi的临时目录。通过理解Nifi的历史、核心概念和架构,以及实际操作中的示例,我们可以更好地利用Nifi来构建和管理复杂的数据集成流程。Nifi的灵活性和可扩展性使其成为处理大数据和实时数据流的理想工具。2理解数据流2.1数据流的基本原理数据流(DataFlow)是数据集成工具中的核心概念,它描述了数据如何在系统中从一个点移动到另一个点的过程。在ApacheNiFi中,数据流是由一系列的处理器(Processor)、连接(Connection)、输入/输出端口(Input/OutputPort)以及工作流(Workflow)组成的,它们共同协作来实现数据的采集、处理和分发。2.1.1处理器(Processor)处理器是数据流中的基本执行单元,负责执行特定的数据处理任务。例如,GetFile处理器用于从文件系统中读取数据,PutSQL处理器用于将数据写入数据库。每个处理器都有其特定的配置属性,这些属性决定了处理器如何执行其任务。2.1.2连接(Connection)连接是处理器之间的数据传输通道。数据从一个处理器输出后,通过连接传递给下一个处理器。连接可以配置为只传递满足特定条件的数据,例如,使用success、failure或自定义的关系来决定数据的流向。2.1.3输入/输出端口(Input/OutputPort)端口用于在NiFi实例之间传输数据。输入端口接收来自外部的数据,而输出端口将数据发送到外部系统。端口可以配置为安全的,以确保数据传输的安全性。2.1.4工作流(Workflow)工作流是处理器、连接和端口的组合,它定义了数据流的逻辑路径。通过设计不同的工作流,可以实现复杂的数据处理和分发策略。2.2创建和配置数据流在ApacheNiFi中创建和配置数据流涉及以下步骤:启动NiFi并访问NiFi界面:首先,确保ApacheNiFi服务正在运行,并通过浏览器访问NiFi的WebUI。创建处理器:在NiFi的画布上,通过右键点击并选择“创建处理器”来添加处理器。例如,添加GetFile处理器来读取文件系统中的数据。配置处理器:双击处理器图标,打开配置窗口。在这里,可以设置处理器的属性,如GetFile的输入目录属性,用于指定要读取文件的目录。创建连接:通过拖拽从一个处理器到另一个处理器的箭头来创建连接。例如,从GetFile处理器拖拽到PutSQL处理器,以将读取的文件数据写入数据库。配置连接:在连接上右键点击,选择“配置”,可以设置连接的属性,如数据传递的条件和优先级。添加输入/输出端口:如果需要在NiFi实例之间传输数据,可以添加输入和输出端口。例如,添加InputPort来接收来自外部的数据流。配置端口:端口的配置包括设置其监听的地址和端口,以及安全设置,如SSL证书的使用。启动数据流:配置完成后,确保所有处理器都处于“运行”状态,然后启动数据流,观察数据如何在系统中流动。2.2.1示例:使用GetFile和PutSQL处理器创建数据流####步骤1:添加`GetFile`处理器
-在NiFi画布上添加`GetFile`处理器。
-配置`GetFile`处理器的`输入目录`属性,指向包含数据文件的目录。
####步骤2:添加`PutSQL`处理器
-在NiFi画布上添加`PutSQL`处理器。
-配置`PutSQL`处理器的数据库连接信息,包括数据库类型、URL、用户名和密码。
####步骤3:创建连接
-从`GetFile`处理器拖拽到`PutSQL`处理器,创建连接。
####步骤4:配置连接
-确保连接的传递关系设置为`success`,以便`GetFile`处理器成功读取的数据能够传递给`PutSQL`处理器。
####步骤5:启动数据流
-将所有处理器设置为“运行”状态,启动数据流。通过以上步骤,可以创建一个从文件系统读取数据,并将其写入数据库的数据流。在实际操作中,还需要根据具体的数据格式和数据库结构来调整处理器的配置,以确保数据能够正确地被读取和写入。2.2.2注意事项在设计数据流时,应考虑数据的处理顺序和依赖关系,确保数据流的逻辑正确。配置处理器和连接时,应仔细检查属性设置,避免数据处理错误或数据丢失。定期监控数据流的运行状态,及时发现并解决问题,确保数据处理的连续性和稳定性。通过理解和掌握ApacheNiFi中的数据流和处理器,可以有效地设计和实现数据集成解决方案,满足各种数据处理和分发的需求。3数据集成工具:ApacheNifi:深入处理器3.1处理器的功能与分类在ApacheNifi中,处理器是数据流的核心组件,负责执行数据处理任务。它们可以被配置为执行各种操作,如读取、写入、转换、路由、过滤数据等。处理器的灵活性和可配置性使得Nifi能够适应广泛的数据集成需求。3.1.1功能读取数据:如GetFile处理器,用于从文件系统中读取数据。写入数据:如PutFile处理器,用于将数据写入文件系统。转换数据:如ConvertAttribute处理器,用于修改数据流中的属性。路由数据:如RouteOnAttribute处理器,根据数据属性将数据流路由到不同的下游处理器。过滤数据:如RemoveAttribute处理器,用于从数据流中移除特定属性。聚合数据:如Aggregate处理器,用于合并多个数据流到一个流中。3.1.2分类处理器根据其功能可以分为以下几类:输入处理器:用于接收数据。输出处理器:用于发送数据到外部系统。转换处理器:用于修改数据内容或属性。路由处理器:用于根据条件将数据流路由到不同的路径。控制处理器:用于管理Nifi的运行状态或配置。过滤处理器:用于筛选或移除数据流中的内容或属性。3.2常用处理器的使用详解3.2.1GetFile功能描述GetFile处理器用于从文件系统中读取文件,并将文件内容封装成FlowFile,以便后续处理。配置参数输入目录:指定处理器监控的目录,当目录中有新文件时,处理器会自动读取。输出目录:可选,用于指定读取文件后,文件的移动或删除位置。文件过滤器:用于指定处理器读取的文件类型或名称模式。示例假设我们有一个GetFile处理器,配置如下:-输入目录:/data/input-输出目录:/data/processed-文件过滤器:*.txt当有新的.txt文件放入/data/input目录时,GetFile处理器会读取文件内容,创建一个FlowFile,并将其移动到/data/processed目录。3.2.2PutFile功能描述PutFile处理器用于将FlowFile的内容写入到文件系统中。配置参数输出目录:指定处理器将数据写入的目录。文件名生成器:用于生成输出文件的名称,可以基于FlowFile的属性或内容。示例假设我们有一个PutFile处理器,配置如下:-输出目录:/data/output-文件名生成器:使用SimpleFileNameGenerator,将输出文件名设置为output-${uuid()}.txt当有FlowFile到达PutFile处理器时,处理器会将FlowFile的内容写入到/data/output目录下的一个新文件中,文件名格式为output-UUID.txt。3.2.3ConvertAttribute功能描述ConvertAttribute处理器用于将数据流中的属性从一种类型转换为另一种类型,例如从字符串转换为日期。配置参数属性键:指定要转换的属性名称。转换类型:指定转换的目标类型,如String、Date、Integer等。示例假设我们有一个ConvertAttribute处理器,配置如下:-属性键:timestamp-转换类型:Date如果FlowFile中有一个名为timestamp的属性,其值为字符串2023-03-15T12:00:00Z,ConvertAttribute处理器会将其转换为日期类型。3.2.4RouteOnAttribute功能描述RouteOnAttribute处理器根据FlowFile的属性值,将数据流路由到不同的下游处理器。配置参数属性键:用于路由的属性名称。路由策略:定义属性值与下游处理器之间的映射关系。示例假设我们有一个RouteOnAttribute处理器,配置如下:-属性键:priority-路由策略:如果priority属性值为high,则路由到HighPriorityQueue处理器;如果为low,则路由到LowPriorityQueue处理器。当一个FlowFile到达RouteOnAttribute处理器时,如果其priority属性值为high,则会被路由到HighPriorityQueue处理器;如果为low,则会被路由到LowPriorityQueue处理器。3.2.5RemoveAttribute功能描述RemoveAttribute处理器用于从FlowFile中移除指定的属性。配置参数属性键:指定要移除的属性名称。示例假设我们有一个RemoveAttribute处理器,配置如下:-属性键:unwantedAttribute当一个FlowFile到达RemoveAttribute处理器时,如果其包含unwantedAttribute属性,该属性将被移除。3.2.6Aggregate功能描述Aggregate处理器用于合并多个FlowFile到一个FlowFile中,通常用于数据聚合或批处理。配置参数聚合策略:定义如何选择要聚合的FlowFile。聚合触发器:定义何时触发聚合操作。示例假设我们有一个Aggregate处理器,配置如下:-聚合策略:使用TimeTriggeredAggregator,根据时间窗口聚合FlowFile。-聚合触发器:设置时间窗口为5minutes。当有多个FlowFile在5分钟内到达Aggregate处理器时,它们会被合并成一个FlowFile,然后发送到下游处理器进行进一步处理。通过上述处理器的使用,ApacheNifi能够构建复杂的数据流,实现数据的高效集成和处理。每个处理器的配置和使用都需要根据具体的数据处理需求进行调整,以达到最佳的处理效果。4数据流的控制与管理4.1流程控制器的设置在ApacheNiFi中,流程控制器是数据流的核心组件,负责管理NiFi实例的启动、停止、调度和配置。它提供了对NiFi流程的全局控制,确保数据流的稳定性和可靠性。流程控制器的设置主要包括以下几个方面:调度策略:决定NiFi处理器的执行频率和方式。例如,可以设置处理器每5分钟执行一次,或者在接收到数据时立即执行。线程数量:控制同时执行的处理器线程数,影响数据流的并行处理能力。数据流优先级:通过设置优先级,可以控制不同数据流的执行顺序,确保关键数据流的优先执行。故障恢复:配置数据流在遇到故障时的恢复策略,如自动重启、数据重试等。4.1.1示例:设置处理器的调度策略在NiFi的流程编辑器中,选择一个处理器,然后在右侧的属性面板中找到“调度”部分。这里可以设置处理器的调度策略,例如:调度策略:事件驱动
调度时间间隔:5分钟
运行时间:立即这意味着处理器将在接收到数据时立即执行,并且如果没有数据接收,它将每5分钟检查一次并执行。4.2数据流的监控与调试数据流的监控与调试是确保数据集成流程正确性和效率的关键。NiFi提供了丰富的工具和界面,帮助用户监控数据流的状态,以及在出现问题时进行调试。监控工具:NiFi的监控工具可以显示数据流的实时状态,包括处理器的执行情况、数据传输速率、系统资源使用情况等。日志记录:NiFi记录详细的日志,包括数据流的运行日志、系统日志和审计日志,帮助用户追踪数据流的执行历史和系统行为。调试模式:通过启用调试模式,用户可以查看数据流中每个组件的详细状态,包括输入和输出数据的内容,这对于调试复杂的数据流非常有帮助。4.2.1示例:使用NiFi的监控工具在NiFi的Web界面中,可以直观地看到数据流的运行状态。例如,点击一个处理器,可以看到其“状态”面板,显示了处理器的执行次数、成功次数、失败次数等信息。此外,还可以查看“数据包队列”和“数据包状态”,了解数据包在处理器中的处理情况。监控面板显示:
-处理器执行次数:1000
-成功次数:990
-失败次数:10这表明处理器已经执行了1000次,其中990次成功,10次失败,可能需要进一步检查失败的原因。4.2.2示例:启用NiFi的调试模式在NiFi中,可以通过设置处理器的“调试”属性来启用调试模式。例如,设置“调试记录级别”为“详细”,并选择“调试记录条件”为“总是记录”,这样处理器在执行时会记录详细的调试信息。调试记录级别:详细
调试记录条件:总是记录启用调试模式后,可以在“日志”面板中查看调试信息,帮助定位和解决问题。通过上述设置和工具,用户可以有效地控制和管理ApacheNiFi中的数据流,确保数据集成任务的顺利进行。监控和调试功能的使用,可以提高数据流的可见性和可控性,减少故障发生,提升数据处理的效率和质量。5数据集成实践5.1数据源与目标的连接在数据集成项目中,ApacheNiFi是一个强大的工具,用于管理数据流。数据源与目标的连接是数据集成流程中的关键步骤,涉及到数据的获取和传输至目标系统。NiFi通过其丰富的处理器集合,提供了灵活的方式来连接各种数据源和目标。5.1.1数据源处理器GetFile功能:从文件系统中读取文件。配置:指定文件目录、文件过滤器等。示例:假设我们需要从一个目录中读取CSV文件。<!--GetFile处理器配置-->
<processorclass="cessors.standard.GetFile">
<name>GetCSVFiles</name>
<inputPorts/>
<outputPorts/>
<scheduling>
<schedulingPeriod>1sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
</scheduling>
<properties>
<BulletinThreshold>0sec</BulletinThreshold>
<FileFilter>.*\.csv</FileFilter>
<InputDirectory>/path/to/csv/files</InputDirectory>
<KeepSourceFile>False</KeepSourceFile>
<MaxFilestoRead>1</MaxFilestoRead>
<MaxFileAge>0sec</MaxFileAge>
<MaxFileSize>10MB</MaxFileSize>
<MaxQueueSize>1000</MaxQueueSize>
<PollingInterval>1sec</PollingInterval>
<ReadBufferSize>1MB</ReadBufferSize>
<ReadLineCount>10000</ReadLineCount>
<ReadLineTimeout>10sec</ReadLineTimeout>
<ReadLineTimeoutYield>1sec</ReadLineTimeoutYield>
<ReadLineTimeoutYieldPeriod>1sec</ReadLineTimeoutYieldPeriod>
<ReadLineTimeoutYieldStrategy>Yield</ReadLineTimeoutYieldStrategy>
<ReadLineTimeoutYieldTime>1sec</ReadLineTimeoutYieldTime>
<ReadLineTimeoutYieldTimeUnit>SECONDS</ReadLineTimeoutYieldTimeUnit>
<ReadLineTimeoutYielding>False</ReadLineTimeoutYielding>
<ReadLineTimeoutYieldingStrategy>Yield</ReadLineTimeoutYieldingStrategy>
<ReadLineTimeoutYieldingTime>1sec</ReadLineTimeoutYieldingTime>
<ReadLineTimeoutYieldingTimeUnit>SECONDS</ReadLineTimeoutYieldingTimeUnit>
<ReadLineTimeoutYieldingYield>1sec</ReadLineTimeoutYieldingYield>
<ReadLineTimeoutYieldingYieldPeriod>1sec</ReadLineTimeoutYieldingYieldPeriod>
<ReadLineTimeoutYieldingYieldStrategy>Yield</ReadLineTimeoutYieldingYieldStrategy>
<ReadLineTimeoutYieldingYieldTime>1sec</ReadLineTimeoutYieldingYieldTime>
<ReadLineTimeoutYieldingYieldTimeUnit>SECONDS</ReadLineTimeoutYieldingYieldTimeUnit>
<ReadLineTimeoutYieldingYielding>False</ReadLineTimeoutYieldingYielding>
<ReadLineTimeoutYieldingYieldingStrategy>Yield</ReadLineTimeoutYieldingYieldingStrategy>
<ReadLineTimeoutYieldingYieldingTime>1sec</ReadLineTimeoutYieldingYieldingTime>
<ReadLineTimeoutYieldingYieldingTimeUnit>SECONDS</ReadLineTimeoutYieldingYieldingTimeUnit>
<ReadLineTimeoutYieldingYieldingYield>1sec</ReadLineTimeoutYieldingYieldingYield>
<ReadLineTimeoutYieldingYieldingYieldPeriod>1sec</ReadLineTimeoutYieldingYieldingYieldPeriod>
<ReadLineTimeoutYieldingYieldingYieldStrategy>Yield</ReadLineTimeoutYieldingYieldingYieldStrategy>
<ReadLineTimeoutYieldingYieldingYieldTime>1sec</ReadLineTimeoutYieldingYieldingYieldTime>
<ReadLineTimeoutYieldingYieldingYieldTimeUnit>SECONDS</ReadLineTimeoutYieldingYieldingYieldTimeUnit>
</properties>
</processor>JDBCDatabaseTableReader功能:从数据库读取数据。配置:数据库连接信息、查询语句等。示例:从MySQL数据库读取数据。<!--JDBCDatabaseTableReader处理器配置-->
<processorclass="cessors.jdbc.JDBCDatabaseTableReader">
<name>ReadfromMySQL</name>
<inputPorts/>
<outputPorts/>
<scheduling>
<schedulingPeriod>1min</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
</scheduling>
<properties>
<BulletinThreshold>0sec</BulletinThreshold>
<ConnectionPoolingService>MyDatabaseConnectionPool</ConnectionPoolingService>
<FetchSize>100</FetchSize>
<Query>SELECT*FROMmy_table</Query>
<ResultSetRowReader>StandardResultSetRowReader</ResultSetRowReader>
<RowReaderProperties>MyRowReaderProperties</RowReaderProperties>
<RowReaderService>MyRowReaderService</RowReaderService>
<StatementCacheService>MyStatementCacheService</StatementCacheService>
<TransactionSize>100</TransactionSize>
</properties>
</processor>5.1.2数据目标处理器PutFile功能:将数据写入文件系统。配置:目标目录、文件名生成策略等。示例:将处理后的数据写入另一个目录。<!--PutFile处理器配置-->
<processorclass="cessors.standard.PutFile">
<name>WritetoOutputDirectory</name>
<inputPorts/>
<outputPorts/>
<scheduling>
<schedulingPeriod>1sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
</scheduling>
<properties>
<BulletinThreshold>0sec</BulletinThreshold>
<FileFilter>.*</FileFilter>
<FileWriter>StandardFileWriter</FileWriter>
<FileWriterProperties>MyFileWriterProperties</FileWriterProperties>
<FileWriterService>MyFileWriterService</FileWriterService>
<OutputDirectory>/path/to/output/directory</OutputDirectory>
<FileNameGenerator>StandardFileNameGenerator</FileNameGenerator>
<FileNameGeneratorProperties>MyFileNameGeneratorProperties</FileNameGeneratorProperties>
<FileNameGeneratorService>MyFileNameGeneratorService</FileNameGeneratorService>
<MaxFileAge>0sec</MaxFileAge>
<MaxFileSize>10MB</MaxFileSize>
<MaxQueueSize>1000</MaxQueueSize>
<PollingInterval>1sec</PollingInterval>
<ReadBufferSize>1MB</ReadBufferSize>
<ReadLineCount>10000</ReadLineCount>
<ReadLineTimeout>10sec</ReadLineTimeout>
<ReadLineTimeoutYield>1sec</ReadLineTimeoutYield>
<ReadLineTimeoutYieldPeriod>1sec</ReadLineTimeoutYieldPeriod>
<ReadLineTimeoutYieldStrategy>Yield</ReadLineTimeoutYieldStrategy>
<ReadLineTimeoutYieldTime>1sec</ReadLineTimeoutYieldTime>
<ReadLineTimeoutYieldTimeUnit>SECONDS</ReadLineTimeoutYieldTimeUnit>
<ReadLineTimeoutYielding>False</ReadLineTimeoutYielding>
<ReadLineTimeoutYieldingStrategy>Yield</ReadLineTimeoutYieldingStrategy>
<ReadLineTimeoutYieldingTime>1sec</ReadLineTimeoutYieldingTime>
<ReadLineTimeoutYieldingTimeUnit>SECONDS</ReadLineTimeoutYieldingTimeUnit>
<ReadLineTimeoutYieldingYield>1sec</ReadLineTimeoutYieldingYield>
<ReadLineTimeoutYieldingYieldPeriod>1sec</ReadLineTimeoutYieldingYieldPeriod>
<ReadLineTimeoutYieldingYieldStrategy>Yield</ReadLineTimeoutYieldingYieldStrategy>
<ReadLineTimeoutYieldingYieldTime>1sec</ReadLineTimeoutYieldingYieldTime>
<ReadLineTimeoutYieldingYieldTimeUnit>SECONDS</ReadLineTimeoutYieldingYieldTimeUnit>
</properties>
</processor>JDBCDatabaseTableWriter功能:将数据写入数据库。配置:数据库连接信息、写入表名等。示例:将数据写入PostgreSQL数据库。<!--JDBCDatabaseTableWriter处理器配置-->
<processorclass="cessors.jdbc.JDBCDatabaseTableWriter">
<name>WritetoPostgreSQL</name>
<inputPorts/>
<outputPorts/>
<scheduling>
<schedulingPeriod>1sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
</scheduling>
<properties>
<BulletinThreshold>0sec</BulletinThreshold>
<ConnectionPoolingService>MyDatabaseConnectionPool</ConnectionPoolingService>
<TableWriter>StandardTableWriter</TableWriter>
<TableWriterProperties>MyTableWriterProperties</TableWriterProperties>
<TableWriterService>MyTableWriterService</TableWriterService>
<TargetTable>my_target_table</TargetTable>
<WriteStrategy>Batch</WriteStrategy>
<BatchSize>100</BatchSize>
<BatchTimeout>1min</BatchTimeout>
</properties>
</processor>5.2数据转换与路由策略数据转换与路由是数据集成中的核心环节,ApacheNiFi提供了多种处理器来实现数据的转换和基于条件的路由。5.2.1数据转换处理器UpdateAttribute功能:更新或添加流文件的属性。配置:属性更新规则。示例:更新文件名属性。<!--UpdateAttribute处理器配置-->
<processorclass="cessors.standard.UpdateAttribute">
<name>UpdateFileName</name>
<inputPorts/>
<outputPorts/>
<scheduling>
<schedulingPeriod>1sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
</scheduling>
<properties>
<BulletinThreshold>0sec</BulletinThreshold>
<AttributeExpressionLanguage>filename+"_processed"</AttributeExpressionLanguage>
<AttributetoUpdate>filename</AttributetoUpdate>
</properties>
</processor>ExecuteGroovyScript功能:使用Groovy脚本进行复杂的数据转换。配置:Groovy脚本、脚本引擎等。示例:使用Groovy脚本将JSON数据转换为XML。<!--ExecuteGroovyScript处理器配置-->
<processorclass="cessors.script.ExecuteGroovyScript">
<name>JSONtoXML</name>
<inputPorts/>
<outputPorts/>
<scheduling>
<schedulingPeriod>1sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
</scheduling>
<properties>
<BulletinThreshold>0sec</BulletinThreshold>
<ScriptEngine>groovy</ScriptEngine>
<ScriptBody>
importgroovy.json.JsonSlurper
importgroovy.xml.MarkupBuilder
defslurper=newJsonSlurper()
defjson=slurper.parseText(flowFile.content)
defxml=newMarkupBuilder().bind{
root{
json.each{k,v->
node(k){v}
}
}
}
flowFile.content=xml.toString()
</ScriptBody>
</properties>
</processor>5.2.2数据路由策略RouteOnAttribute功能:基于流文件属性的条件路由。配置:属性名称、路由条件等。示例:根据文件类型属性路由至不同处理器。<!--RouteOnAttribute处理器配置-->
<processorclass="cessors.standard.RouteOnAttribute">
<name>RoutebyFileType</name>
<inputPorts/>
<outputPorts>
<outputPortid="00000000-0000-0000-0000-000000000001">
<name>CSV</name>
<schedulingStrategy>EVENT_DRIVEN</schedulingStrategy>
<schedulingPeriod>0sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
<properties>
<AttributeExpressionLanguage>mime.type=="text/csv"</AttributeExpressionLanguage>
</properties>
</outputPort>
<outputPortid="00000000-0000-0000-0000-000000000002">
<name>JSON</name>
<schedulingStrategy>EVENT_DRIVEN</schedulingStrategy>
<schedulingPeriod>0sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
<properties>
<AttributeExpressionLanguage>mime.type=="application/json"</AttributeExpressionLanguage>
</properties>
</outputPort>
</outputPorts>
<scheduling>
<schedulingPeriod>1sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
</scheduling>
<properties>
<BulletinThreshold>0sec</BulletinThreshold>
<RoutingStrategy>Standard</RoutingStrategy>
</properties>
</processor>SplitText功能:根据指定规则将文本数据分割成多个流文件。配置:分割规则、分割数量等。示例:将大文件分割成多个小文件。<!--SplitText处理器配置-->
<processorclass="cessors.standard.SplitText">
<name>SplitLargeFile</name>
<inputPorts/>
<outputPorts/>
<scheduling>
<schedulingPeriod>1sec</schedulingPeriod>
<penalizationPeriod>30sec</penalizationPeriod>
<yieldPeriod>1sec</yieldPeriod>
</scheduling>
<properties>
<BulletinThreshold>0sec</BulletinThreshold>
<LineSplitCount>1000</LineSplitCount>
<MaxChunkSize>1MB</MaxChunkSize>
<MaxChunkAge>10min</MaxChunkAge>
<MaxChunkCount>100</MaxChunkCount>
<MaxQueueSize>1000</MaxQueueSize>
<ReadBufferSize>1MB</ReadBufferSize>
<ReadLineCount>10000</ReadLineCount>
<ReadLineTimeout>10sec</ReadLineTimeout>
<ReadLineTimeoutYield>1sec</ReadLineTimeoutYield>
<ReadLineTimeoutYieldPeriod>1sec</ReadLineTimeoutYieldPeriod>
<ReadLineTimeoutYieldStrategy>Yield</ReadLineTimeoutYieldStrategy>
<ReadLineTimeoutYieldTime>1sec</ReadLineTimeoutYieldTime>
<ReadLineTimeoutYieldTimeUnit>SECONDS</ReadLineTimeoutYieldTimeUnit>
<ReadLineTimeoutYielding>False</ReadLineTimeoutYielding>
<ReadLineTimeoutYieldingStrategy>Yield</ReadLineTimeoutYieldingStrategy>
<ReadLineTimeoutYieldingTime>1sec</ReadLineTimeoutYieldingTime>
<ReadLineTimeoutYieldingTimeUnit>SECONDS</ReadLineTimeoutYieldingTimeUnit>
<ReadLineTimeoutYieldingYield>1sec</ReadLineTimeoutYieldingYield>
<ReadLineTimeoutYieldingYieldPeriod>1sec</ReadLineTimeoutYieldingYieldPeriod>
<ReadLineTimeoutYieldingYieldStrategy>Yield</ReadLineTimeoutYieldingYieldStrategy>
<ReadLineTimeoutYieldingYieldTime>1sec</ReadLineTimeoutYieldingYieldTime>
<ReadLineTimeoutYieldingYieldTimeUnit>SECONDS</ReadLineTimeoutYieldingYieldTimeUnit>
</properties>
</processor>通过上述示例,我们可以看到ApacheNiFi如何通过不同的处理器实现数据源与目标的连接,以及数据的转换和路由。这些处理器的灵活配置和组合,使得NiFi能够适应各种复杂的数据集成场景。6高级数据流设计6.1数据流的优化技巧在ApacheNiFi中,数据流的优化是确保数据处理高效、可靠的关键。以下是一些优化技巧:6.1.1使用适当的处理器选择合适的处理器数据获取:使用GetFile或GetKafka等处理器,根据数据源选择。数据转换:如PutKafkaTopic或InvokeHTTP,确保数据格式符合下游系统需求。数据存储:PutFile或PutS3Object等,根据目标存储选择。示例:使用GetFile处理器<processorid="12345678-90ab-cdef-1234-567890abcdef">
<type>cessors.standard.GetFile</type>
<name>GetFileExample</name>
<properties>
<InputDirectory>/path/to/input/directory</InputDirectory>
<FileFilter>.*\.csv</FileFilter>
</properties>
</processor>此配置示例展示了如何使用GetFile处理器从指定目录读取CSV文件。6.1.2调整线程数线程池配置线程数:增加线程数可以提高并行处理能力,但过多会增加资源消耗。线程优先级:合理分配处理器的线程优先级,确保关键任务优先执行。示例:配置线程池<threadPoolid="12345678-90ab-cdef-1234-567890abcdef">
<name>CustomThreadPool</name>
<threads>4</threads>
<priority>5</priority>
</threadPool>此配置示例展示了如何创建一个自定义线程池,设置4个线程和中等优先级。6.1.3利用连接器和关系连接器使用成功和失败关系:确保数据流中处理器的输出关系正确配置,以处理成功和失败的数据流。动态关系:使用动态关系处理器,如RouteOnAttribute,根据属性动态路由数据。示例:使用RouteOnAttribute处理器<processorid="12345678-90ab-cdef-1234-567890abcdef">
<type>cessors.standard.RouteOnAttribute</type>
<name>RouteOnAttributeExample</name>
<properties>
<RoutingStrategy>Routetoasinglerelationshipbasedonanattributevalue</RoutingStrategy>
<AttributeandValuetoRouteOn>type=csv</AttributeandValuetoRouteOn>
</properties>
<relationships>
<relationshipid="12345678-90ab-cdef-1234-567890abcdef">
<name>csv</name>
<description>Routetothisrelationshipiftheattribute'type'equals'csv'</description>
</relationship>
<relationshipid="12345678-90ab-cdef-1234-567890abcdef">
<name>json</name>
<description>Routetothisrelationshipiftheattribute'type'equals'json'</description>
</relationship>
</relationships>
</processor>此配置示例展示了如何使用RouteOnAttribute处理器根据属性值type路由数据流。6.1.4数据缓存策略缓存配置缓存策略:选择合适的缓存策略,如Memory或Disk,以平衡性能和持久性。缓存大小:根据系统资源和数据量调整缓存大小。示例:配置缓存策略<controllerServiceid="12345678-90ab-cdef-1234-567890abcdef">
<type>org.apache.nifi.services.cache.StandardContentCacheControllerService</type>
<name>ContentCacheExample</name>
<properties>
<CacheStrategy>Memory</CacheStrategy>
<CacheSize>100MB</CacheSize>
</properties>
</controllerService>此配置示例展示了如何创建一个使用内存缓存策略的缓存服务,设置缓存大小为100MB。6.2故障排除与最佳实践6.2.1监控与日志日志配置日志级别:设置处理器的日志级别,以便在出现问题时进行详细诊断。日志聚合:使用LogAggregation等控制器服务,收集和分析日志数据。示例:配置日志级别<processorid="12345678-90ab-cdef-1234-567890abcdef">
<type>cessors.standard.GetFile</type>
<name>GetFileExample</name>
<properties>
<InputDirectory>/path/to/input/directory</InputDirectory>
<FileFilter>.*\.csv</FileFilter>
<LogLevel>DEBUG</LogLevel>
</properties>
</processor>此配置示例展示了如何将GetFile处理器的日志级别设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省晋中市祁县二中2025届高三第一次模拟考试数学试卷含解析
- 浅谈中职学生心理弹性现状及其影响因素
- 公司保险培训课件
- 安全培训教材
- 内装修施工消防培训
- 《先天性无阴道》课件
- 100以内加减法竖式计算同步考核例题带答案
- 选材的要求真实是公务文书的生命公务文书自身
- 北京市石景山区2022届高三化学下学期一模考试试题
- 实验工程质量培训
- 手部先天性疾患多指畸形课件
- 如何面对挫折-心理健康教育课件
- 常见临床研究分级
- 机械设备定期检查维修保养使用台账
- 丽声北极星分级绘本第四级上 Stop!Everyone Stop!教学设计
- 希尔顿酒店市场营销环境的swot分析 2
- 消化道穿孔课件
- 可编辑修改中国地图模板
- 最新电大市场调查与商情预测作业1-4参考答案小抄汇总
- CJJ-T 34-2022 城镇供热管网设计标准
- 人教版小学数学一年级上册20以内加减法口算题汇编
评论
0/150
提交评论