数据分析工具：Apache Druid：Druid集群部署与管理

上传人：陈*** IP属地：辽宁上传时间：2024-09-19 格式：DOCX 页数：34 大小：38.80KB 积分：6 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据分析工具：ApacheDruid：Druid集群部署与管理1数据分析工具：ApacheDruid：Druid集群部署与管理1.1ApacheDruid简介ApacheDruid是一个开源的数据存储和查询系统，专为实时分析大规模数据集而设计。它能够处理PB级别的数据，提供低延迟的数据查询和聚合功能，适用于实时监控、日志分析、商业智能等场景。Druid支持多种数据源，如CSV文件、数据库、Hadoop等，并能够实时摄取数据，无需批处理。1.1.1特点实时数据摄取：Druid能够实时处理数据流，无需等待批处理完成即可查询数据。高性能查询：通过预聚合和列式存储，Druid能够快速响应查询，即使在大规模数据集上也能实现亚秒级响应。可扩展性：Druid集群可以水平扩展，通过增加节点来处理更多数据和查询。高可用性：Druid集群设计为高可用，能够容忍节点故障，保证数据的完整性和查询的连续性。1.2Druid的架构与组件Druid的架构由多个组件组成，每个组件负责不同的功能，共同协作以实现高效的数据处理和查询。1.2.1组件Broker：负责接收查询请求，优化查询计划，并将查询分发到Historical和Realtime节点。Historical：存储历史数据，处理历史数据的查询。Realtime：摄取实时数据流，处理实时数据的查询。Coordinator：管理数据段的加载和卸载，确保数据在Historical和Realtime节点之间正确分布。MiddleManager：负责数据段的下载和存储，以及数据的预聚合。Overlord：管理实时数据摄取任务，分配任务给Realtime节点。Indexer：用于批量加载数据，可以是实时数据摄取的一部分，也可以独立运行。Segment：数据的最小存储单位，包含预聚合的数据和元数据。1.2.2架构图graphTD

A[Broker]-->|Query|B[Historical]

A-->|Query|C[Realtime]

D[Coordinator]-->|Manage|B

D-->|Manage|C

E[Overlord]-->|Task|C

F[Indexer]-->|Load|B

G[MiddleManager]-->|Store|B

G-->|Store|C1.3Druid集群的工作原理Druid集群通过分布式架构实现数据的存储和查询。数据被分割成多个段（Segment），每个段包含预聚合的数据，以提高查询性能。集群中的节点根据角色分工，共同处理数据和查询。1.3.1数据摄取流程数据摄取：数据通过Realtime节点或Indexer进入集群。预聚合：MiddleManager对数据进行预聚合，生成Segment。数据分发：Coordinator管理数据段的分发，确保数据在集群中均匀分布。数据存储：Historical和Realtime节点存储数据段，Historical存储历史数据，Realtime存储实时数据。1.3.2查询处理流程查询接收：Broker接收查询请求，优化查询计划。查询分发：Broker将查询分发到Historical和Realtime节点。数据查询：Historical和Realtime节点根据查询请求处理数据。结果聚合：Broker收集各节点的查询结果，进行聚合，然后返回给客户端。1.3.3示例：部署Druid集群以下是一个简单的示例，展示如何使用Docker部署一个Druid集群。#下载Druid的Docker镜像

dockerpulldruidio/druid:latest

#启动Coordinator节点

dockerrun-d--namedruid-coordinator-p8081:8081druidio/druid:latestcoordinator

#启动Historical节点

dockerrun-d--namedruid-historical-p8082:8082druidio/druid:latesthistorical

#启动Realtime节点

dockerrun-d--namedruid-realtime-p8083:8083druidio/druid:latestrealtime

#启动Broker节点

dockerrun-d--namedruid-broker-p8080:8080druidio/druid:latestbroker

#启动MiddleManager节点

dockerrun-d--namedruid-middlemanager-p8091:8091druidio/druid:latestmiddlemanager

#启动Overlord节点

dockerrun-d--namedruid-overlord-p8090:8090druidio/druid:latestoverlord

#启动Zookeeper（Druid集群需要Zookeeper进行协调）

dockerrun-d--namezookeeper-p2181:2181zookeeper:latest1.3.4示例：数据摄取假设我们有一个CSV文件，包含用户活动数据，我们可以使用Druid的Indexer来摄取这些数据。{

"type":"index",

"spec":{

"dataSchema":{

"dataSource":"user_activity",

"parser":{

"type":"string",

"parseSpec":{

"format":"csv",

"timestampSpec":{

"column":"timestamp",

"format":"yyyy-MM-dd'T'HH:mm:ss.SSSZ"

"dimensionsSpec":{

"dimensions":["user_id","activity_type"],

"dimensionExclusions":[]

"columns":["timestamp","user_id","activity_type","duration"],

"skipHeaderRecord":true

}

"metricsSpec":[

{

"type":"count",

"name":"count"

{

"type":"doubleSum",

"name":"total_duration",

"fieldName":"duration"

}

"granularitySpec":{

"type":"uniform",

"segmentGranularity":"HOUR",

"queryGranularity":"MINUTE",

"rollup":true

}

"ioConfig":{

"type":"index",

"firehose":{

"type":"local",

"baseDir":"/data",

"filter":"user_activity.csv"

"appendToExisting":false

"tuningConfig":{

"type":"index",

"maxRowsInMemory":100000,

"maxRowsPerSegment":5000000,

"maxRowsInRollup":1000000

}

}将上述JSON配置文件保存为user_activity_index.json，然后使用以下命令启动数据摄取任务：curl-XPOST-H'Content-Type:application/json'--data-binary@user_activity_index.jsonhttp://druid-overlord:8090/druid/indexer/v1/task1.3.5示例：查询数据查询数据时，我们可以通过Broker节点发送查询请求。以下是一个查询示例，展示如何查询用户活动数据的总时长。{

"queryType":"timeseries",

"dataSource":"user_activity",

"granularity":"MINUTE",

"intervals":["2023-01-01T00:00:00.000Z/2023-01-02T00:00:00.000Z"],

"aggregations":[

{

"type":"doubleSum",

"name":"total_duration",

"fieldName":"duration"

}

"postAggregations":[

{

"type":"arithmetic",

"name":"avg_duration",

"fn":"/",

"fields":[

{

"type":"fieldAccess",

"name":"total_duration"

{

"type":"fieldAccess",

"name":"count"

}

]

}

"context":{

"timeout":"10s"

}

}将上述JSON配置文件保存为user_activity_query.json，然后使用以下命令发送查询请求：curl-XPOST-H'Content-Type:application/json'--data-binary@user_activity_query.jsonhttp://druid-broker:8080/druid/v2通过上述示例，我们可以看到ApacheDruid如何通过其独特的架构和组件，实现大规模数据的实时摄取和高效查询。在实际应用中，Druid的配置和使用会更加复杂，但其核心原理和流程与上述示例相似。2部署ApacheDruid集群2.1环境准备与要求在开始部署ApacheDruid集群之前，确保满足以下环境要求：操作系统:Druid支持在Linux和MacOS上运行，推荐使用Linux系统以获得最佳性能。JDK版本:需要安装JDK1.8或更高版本。内存:每个节点至少需要8GB的内存，对于高性能查询，建议配置更多内存。磁盘空间:至少需要50GB的磁盘空间用于数据存储和日志文件。网络:所有节点之间需要有良好的网络连接，以确保数据同步和查询响应速度。2.2下载与安装Druid2.2.1下载Druid访问ApacheDruid的官方网站，下载最新版本的Druid。以druid-0.18.0为例，下载链接如下：wget/druid/0.18.0/apache-druid-0.18.0.tar.gz2.2.2解压与安装解压下载的tar包，并将解压后的目录移动到一个合适的位置，例如/opt目录下。tar-xzfapache-druid-0.18.0.tar.gz-C/opt/

cd/opt/

mvapache-druid-0.18.0druid2.2.3启动DruidDruid集群由多个角色组成，包括Overlord、Coordinator、Historical、MiddleManager、Broker和Realtime。每个角色都需要在不同的机器上启动，或者在单机环境下模拟集群。启动Coordinatorcd/opt/druid/

./bin/start-coordinator.sh启动Overlord./bin/start-overlord.sh启动Historical./bin/start-historical.sh启动MiddleManager./bin/start-middlemanager.sh启动Broker./bin/start-broker.sh启动Realtime./bin/start-realtime.sh2.3配置Druid集群Druid集群的配置主要涉及以下几个方面：集群配置:定义集群的拓扑结构，包括各个角色的机器列表和端口。数据源配置:定义数据源的属性，如数据格式、存储策略等。查询配置:定义查询的性能参数，如缓存大小、查询超时时间等。2.3.1配置集群编辑/opt/druid/conf/druid/_common/perties文件，添加集群配置信息。druid.zk.service.host=00

druid.zk.service.port=2181

druid.zk.service.path=/druid2.3.2配置数据源在/opt/druid/conf/druid/coordinator目录下，创建一个数据源的配置文件，例如exampleDataSperties。druid.indexer.task.timeout=PT1H

druid.indexer.task.maxVirtSize=100GB

druid.indexer.task.maxRunning=10

druid.indexer.task.maxPending=102.3.3配置查询在/opt/druid/conf/druid/broker目录下，编辑perties文件，配置查询参数。druid.broker.maxCacheSizeBytes=10GB

druid.broker.cache.size=10GB

druid.broker.cache.ttl=PT1H2.3.4启动服务重新启动所有Druid服务，以使配置生效。./bin/restart.sh2.3.5监控与管理Druid提供了Web界面进行监控和管理，访问http://<Coordinator_IP>:8080/druid/indexer/v1/task可以查看和管理任务状态。2.4示例：数据导入假设我们有一个CSV文件example_data.csv，内容如下：timestamp,metric,host

2022-01-01T00:00:00.000Z,10.5,server1

2022-01-01T00:01:00.000Z,11.3,server2

2022-01-01T00:02:00.000Z,12.1,server1我们可以使用Druid的index任务来导入数据。创建一个JSON格式的任务配置文件exampleTask.json：{

"type":"index",

"spec":{

"dataSchema":{

"dataSource":"exampleDataSource",

"parser":{

"type":"string",

"parseSpec":{

"format":"csv",

"timestampSpec":{

"column":"timestamp",

"format":"iso"

"dimensionsSpec":{

"dimensions":["host"],

"dimensionExclusions":[]

"columns":["timestamp","metric","host"],

"skipHeaderRecord":true

}

"metricsSpec":[

{

"type":"doubleSum",

"name":"metric",

"fieldName":"metric"

}

"granularitySpec":{

"type":"uniform",

"segmentGranularity":"HOUR",

"queryGranularity":"MINUTE",

"rollup":true

}

"ioConfig":{

"type":"index",

"firehose":{

"type":"local",

"baseDir":"/path/to/data",

"filter":"example_data.csv"

"appendToExisting":false

"tuningConfig":{

"type":"index",

"maxRowsInMemory":100000,

"indexSpec":{

"bitmap":{

"type":"roaring"

}

}使用curl命令提交任务：curl-XPOST-H'Content-Type:application/json'--data-binary@exampleTask.jsonhttp://<Coordinator_IP>:8081/druid/indexer/v1/task通过访问http://<Coordinator_IP>:8080/druid/indexer/v1/task可以查看任务执行状态。2.5结论通过上述步骤，您可以成功部署和配置一个ApacheDruid集群，用于高效的数据分析和查询。确保所有配置正确无误，并根据实际需求调整参数，以获得最佳性能。3Druid集群组件详解3.1Broker节点配置3.1.1原理Broker节点在ApacheDruid集群中主要负责处理客户端的查询请求。它不存储数据，而是从Historical节点获取数据并进行聚合计算，然后将结果返回给客户端。Broker节点的配置优化直接影响到查询性能和效率。3.1.2内容Broker节点的配置主要在druid-broker.conf文件中进行。以下是一个示例配置：druid.broker.http.port=8082

druid.broker.queryCache.percent=0.1

druid.broker.maxConcurrentQueries=10

druid.broker.maxPendingConcurrentQueries=20

druid.broker.maxCacheSizeBytes=1073741824

druid.broker.cache.sizeBytes=1073741824

druid.broker.cache.type=onheap

druid.broker.cache.ttl=PT1H

druid.broker.cache.query.enabled=true

druid.broker.cache.query.maxSizeBytes=1073741824