




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章数据集成与存储
5.1大数据来源
5.2数据采集
5.3数据集成
5.4数据存储引例思考面对海量的数据,要对数据进行有效利用,如何采集数据并存储数据,对企业来说是一种挑战。请思考:(1)如何完成海量数据的数据采集流程?(2)各种异构数据如何进行数据集成?(3)海量数据如何存储?数据集成与存储数据集成数据采集数据存储大数据来源5.1数据来源关系型数据库RMDB数据文件(日志)NoSQL数据库离线数据源消息队列MQ网络数据其他...实时数据源其他...大数据的数据来源非常广泛且多样,涵盖了交易数据、互联网数据、移动设备数据、传感器数据、视频和音频数据、开放数据以及人为数据等多个方面。这些数据的收集和分析对于推动社会经济发展、提升政府治理能力、改善人民生活水平等方面具有重要意义。
大数据按照数据结构可以分为结构化数据、半结构化数据和非结构化数据三大类。(1)结构化数据是指可以以固定格式存储、访问和处理的数据。它通常遵循严格的数据格式与长度规范,并通过关系型数据库进行存储和管理。(2)半结构化数据是介于结构化数据和非结构化数据之间的一种数据类型。它具有一定的结构性,但这种结构并不严格遵循关系型数据库的表结构,而是以一种更加灵活的方式组织数据。(3)非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。多种数据类型结构化数据半结构化数据非结构化数据二维数据表Excel文件JSON文件数据文件XML文件图片文件声音文件视频文件数据采集5.2数据采集概述
ApacheFlume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输系统,主要用于收集各种数据源(如服务器日志、网络流量等)的数据,并将这些数据传输到指定的目的地(如Hadoop、Hive等)。数据采集流程
ApacheFlume的数据采集流程是一个高效、灵活且可靠的过程,旨在从各种数据源中收集数据,并将其传输到指定的存储或处理系统中。数据采集配置数据采集阶段数据传输阶段异常处理与监控定义数据源配置采集流程数据源配置数据通道配置数据目的地配置采集服务启动数据源读取数据缓存写入数据缓存读取数据目的地输出故障转移监控与管理数据采集组件Flume主要由三大核心组件构成:Source(数据源)、Channel(数据通道)和Sink(数据目的地)
Source组件负责接收并收集数据,常见的支持数据源包括:文件系统目录(SpoolingDirectory、Taildir)消息队列(Kafka)协议类型(Thrift、Avro、Http)系统日志(syslog)Channel组件作为Source和Sink之间的缓冲区,暂存数据,常见的缓存通道包括:内存通道(MemoryChannel)文件系统通道(FileChannel)消息通道(KafkaChannel)等等Sink组件负责将Channel中的数据发送到目的地,常见的支持数据目的地包括:分布式文件系统系列(HDFS、Hive、HBase)消息队列(Kafka)协议类型(Thrift、Avro、Http)搜索引擎(ES)数据集成5.3数据集成概述
数据集成是指将来自不同数据源的数据整合到一起形成一个统一的数据集。这个过程包括从不同的数据源中收集数据,对数据进行清洗、转换、重构和整合,以便能够在一个统一的数据仓库或数据湖中进行存储和管理。
数据集成目的信息流动与共享:通过数据集成,不同系统之间的信息得以流动和共享,消除信息孤岛和数据孤岛,提高数据的可用性和流动性。系统协同:促进不同系统之间的协同工作,共同完成特定的业务流程,提升业务执行效率和质量。数据一致性与准确性:保证数据在不同系统之间的一致性和准确性,通过实时数据同步、数据验证和数据清洗等技术手段,减少数据冗余和数据不一致带来的问题。决策支持:为企业提供全面的数据视图和整体分析能力,通过数据仓库或数据湖的建设,进行全面的数据分析和洞察,为决策提供可靠的依据。数据集成应用
ApacheSeaTunnel是Apache软件基金会下的一个高性能开源大数据集成工具,同时也是新一代分布式超高性能云原生数据同步工具,为数据集成场景提供灵活易用、易扩展并支持千亿级数据集成的解决方案,已经在B站、腾讯云、字节等数百家公司使用。数据存储5.4数据存储类型
数据存储是信息技术中至关重要的一个环节,它涉及如何安全、高效地保存和访问数据。数据存储类型主要根据数据的物理存储方式、访问特性以及应用场景来划分。
常见的数据存储类型包括文件存储
文件存储也称为文件级存储或基于文件的存储,将大量数据集中存储在一起,当需要访问该数据时,需要知道相应的查找路径。存储在文件中的数据会根据数量有限的元数据来进行整理和检索。文件存储系统示例包括分布式文件系统(HDFS)、GFS(google的分布式文件系统)等。块存储
块存储会将数据拆分成块,并单独存储各个块。每个数据块都有一个唯一标识符,所以存储系统能将较小的数据存放在最方便的位置。块存储是一种高效可靠的数据存储方式,且易于使用和管理,块存储框架示例包括Ceph、MooseFS等框架。对象存储
对象存储,也称为基于对象的存储,是一种扁平结构,其中的文件被拆分成多个部分并散布在多个硬件间。对象存储框架示例如阿里云的OSS,华为云的OBS,腾讯云的COS、Swift框架等。数据存储格式
数据存储格式是指数据在存储介质中表示和组织的方式,以便于读取、写入和管理。
常见的数据存储格式包括行式存储
行式存储是按照行数据为基础逻辑存储单元进行存储的,一行中的数据在存储介质中以连续存储形式存。行式数据库把一行中的数据值串在一起存储起来,然后再存储下一行的数据,以此类推。行式数据以二维表格形式呈现并使用。常见的行式存储格式包括CSV、JSON、Text等。列是存储
列式存储数据是按照列为基础逻辑存储单元进行存储的,一列中的数据在存储介质中以连续存储形式存在。列式数据库把一列中的数据值串在一起存储起来,然后再存储下一列的数据,以此类推。常见的列式存储格式包括ORC、Parquet等。数据压缩格式及算法
大数据中常见的压缩方式有Deflate,Snappy,ZLib,Gzib、Bzip2、LZ4、LZO,不同的压缩方式效率不同。压缩方式的选择主要是由压缩比、压缩速度、是否支持分片
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 手工艺社团创意作品展示策划计划
- 净化车间装修工程合同样本
- 共同背债合同标准文本
- 加强财务管理的个人计划
- 中介与按揭合同标准文本
- 内部工程居间合同样本
- 农场鸡舍养殖合同样本
- 乐器代理合同范例
- 2025耕地流转合同范本AA
- 乡村诊所采购合同样本
- 战略管理教学ppt课件(完整版)
- EMPLOYMENT CONTRACT雇佣合约中英文版
- 防腐工程在杭州湾跨海大桥中的应用
- 人工挖孔桩施工监测监控措施
- 病原微生物实验室生物安全备案专家意见表
- 我国中学导师制的历程、现状及问题分析
- 逆流开式冷却塔计算(精品ZTQ版)
- 出厂检验报告B
- 六年级下册数学试题-半期学情检测西师大版含答案
- 某核电项目机械贯穿件安装施工管理技术研究
- JGJ_T231-2021建筑施工承插型盘扣式钢管脚手架安全技术标准(高清-最新版)
评论
0/150
提交评论