




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据技术体系图谱演讲人2021-08-08第1页,共96页。目录01.数据采集07.数据应用03.数据存储05.基础技术02.数据传输04.数据处理06.数据治理第2页,共96页。01数据采集第3页,共96页。日志采集埋点 PC 打点移动端打点服务端打点采集框架 LogstashFlume FluentdChukwa第4页,共96页。外部数据 网络数据采集 文本图片视频爬虫技术 NutchHeritrixScrapyWebCollector第5页,共96页。数据采集IoT设备传感器探针第6页,共96页。02数据传输第7页,共96页。数据传输消息队列数据同步数据订阅序列化第8页,共96页。数据
2、传输消息队列KafkaActiveMQRabbitMQRocketMQ ZeroMQ.1.第9页,共96页。数据传输数据同步DataXKettle Cannal SqoopSymmetricDS OGG(Oracle Golden Gate) 第10页,共96页。数据传输数据订阅Databus01Wormhole 03Otter 02阿里云 DTS04第11页,共96页。数据传输序列化JSON01Protobuf02Hessian03FST04MessagePack05Avro06第12页,共96页。序列化数据传输Kryo第13页,共96页。03数据存储第14页,共96页。数据存
3、储分布式文件/对象存储02物理存储01分布式关系型数据库 03分析型数据库 04搜索引擎05K-V存储06第15页,共96页。数据存储图数据库列存储数据库文档数据库时序数据库第16页,共96页。数据存储物理存储主流框架01存储类型02第17页,共96页。直连式存储(DAS:Direct-Attached Storage)网络化存储(FAS:Fabric-Attached Storage) 网络接入存储(NAS:Network-Attached Storage)存储区域网络(SAN:Storage Area Network)主流框架第18页,共96页。块存储磁盘阵列DASSAN文件存储FTPNF
4、SNAS对象存储 存储类型第19页,共96页。数据存储分布式文件/对象存储COS(腾讯云)02OSS(阿里云) 01OBS(华为云)03KODO(七牛云)04UFile(UCloud)05HDFS06第20页,共96页。数据存储分布式文件/对象存储Ceph02Open Stack Swift 01GlasterFS 03Facebook Hasystack 04Lustre05AFS 06第21页,共96页。OSS(阿里云) 0106UFile(UCloud)03KODO(七牛云)OBS(华为云)HDFS02COS(腾讯云)0405分布式文件/对象存储单击此处添加文本具体内容,简明扼要的阐述您
5、的观点。根据需要可酌情增减文字,以便观者准确的理解您传达的思想。单击此处添加标题第22页,共96页。分布式文件/对象存储Ceph02Open Stack Swift 01GlasterFS 03Facebook Hasystack 04Lustre05AFS 06第23页,共96页。数据存储分布式关系型数据库 DRDSTiDBCobarMycat Aurora .1.第24页,共96页。分布式关系型数据库 DRDSTiDBCobarMycat Aurora 第25页,共96页。数据存储分析型数据库 Druid 01Kylin 02Vertica03AanalyticDB 04Lu
6、cidDB 05InfiniDB 06第26页,共96页。分析型数据库 数据存储MonetDB 第27页,共96页。分析型数据库 Druid 01Kylin 02Vertica03AanalyticDB 04LucidDB 05InfiniDB 06第28页,共96页。MonetDB 分析型数据库 第29页,共96页。数据存储搜索引擎ElasticsearchSolrSplunk OpenSearch第30页,共96页。搜索引擎ElasticsearchSolrOpenSearchSplunk 第31页,共96页。数据存储K-V存储Redis01Memcached02Tair03第32页,共9
7、6页。K-V存储RedisMemcachedTair第33页,共96页。数据存储图数据库TitanNeo4jArangoDBOrientDBMapGraph .1.第34页,共96页。图数据库TitanNeo4jArangoDBOrientDBMapGraph 第35页,共96页。数据存储列存储数据库Cassandra 01Hbase 02Hypertable 04Kudu 03Apache Accumulo 05第36页,共96页。Cassandra Hbase Kudu Hypertable Apache Accumulo 列存储数据库第37页,共96页。数据存储文档数据库M
8、ongoDB01MarkLogic03CouchDB02OrientDB 04第38页,共96页。MongoDBCouchDBMarkLogicOrientDB 文档数据库第39页,共96页。数据存储时序数据库InfluxDB01Druid02TimescaleDB03OpenTSDB04Graphite05阿里云HiTSDB06第40页,共96页。时序数据库InfluxDB01Druid02TimescaleDB03OpenTSDB04Graphite05阿里云HiTSDB06第41页,共96页。04数据处理第42页,共96页。数据计算数据仓库数据挖掘数据测试数据湖数据处理第43页,共96页
9、。数据处理数据计算01流式计算(stream computing)02大规模批量计算(batch computing) 03即席查询分析(ad-hoc computing) 04全量计算;增量计算 05图计算06分布式协调系统第44页,共96页。数据处理数据计算集群资源管理与调度1工作流管理引擎2第45页,共96页。数据计算流式计算(stream computing)Storm01Flink02Spark Streaming03Kafka Stream04Twitter Heron 05Apacha Samza 06第46页,共96页。数据计算大规模批量计算(batch computing)
10、MapReduce 01Spark03Hive02Pig04第47页,共96页。数据计算即席查询分析(ad-hoc computing) Impala 01Hawq 02Dremel 03Drill 04Phoenix 05Tajo 06第48页,共96页。数据计算即席查询分析(ad-hoc computing) APresto Hortonworks Stinger B第49页,共96页。基础知识 Lamdba架构Kappa架构IOTA架构 常见框架 DruidGalaxyMicrosoft KineographGoogle Percolator全量计算;增量计算 第50页,共96页。基础知
11、识常见框架图计算第51页,共96页。基础知识GAS 编程模型BSP模型;SSP模型节点为中心编程模型 计算范型 图计算第52页,共96页。常见框架PregelGraphChiSpark GraphXPowerGrah Apache Giraph Apache Hama图计算第53页,共96页。数据计算分布式协调系统Eureka02Zookeeper01Consul03Chubby04阿里 Diamond05阿里 ConfigServer06第54页,共96页。集群资源管理与调度管理调度框架管理和监控工具第55页,共96页。管理调度框架OmegaBrogMesosCoronaYarnTorca集
12、群资源管理与调度第56页,共96页。管理和监控工具AmbariChukwaHue集群资源管理与调度第57页,共96页。数据计算工作流管理引擎Oozie01Luigi03Azkaban02Airflow04第58页,共96页。数据处理数据仓库基本概念;原理体系结构 设计;建模 第59页,共96页。数据仓库基本概念;原理体系结构 设计;建模 第60页,共96页。数据处理数据挖掘基本概念01功能分类02常用技术 03第61页,共96页。数据挖掘基本概念第62页,共96页。功能分类通用方法统计分析机器学习深度学习第63页,共96页。通用方法功能分类分类;聚类预测;回归时间序列分析关联规则;偏差检测第6
13、4页,共96页。统计分析主成分分析因子分析功能分类第65页,共96页。机器学习决策树贝叶斯遗传算法功能分类第66页,共96页。深度学习功能分类卷积神经网络RBNDBN第67页,共96页。数据挖掘常用技术 MahoutSpark MlibTensorflow第68页,共96页。数据处理数据测试A大数据产品测试基准BigtopB第69页,共96页。大数据产品测试基准Bigtop数据测试第70页,共96页。数据湖基本概念;原理数据处理第71页,共96页。数据湖基本概念;原理第72页,共96页。05基础技术第73页,共96页。基础技术数据分片路由1哈希分片(Hash Partition)2范围分片(R
14、ange Partition)第74页,共96页。数据一致性理论基础副本更新策略协议权重模型第75页,共96页。理论基础CAP理论BASE理论ACID数据一致性第76页,共96页。副本更新策略主从同步任意节点数据一致性第77页,共96页。协议两段式提交Paxos协议Raft协议向量时钟RWN协议数据一致性第78页,共96页。权重模型最终一致性强一致性单调读一致性单调写一致性会话一致性数据一致性第79页,共96页。基础技术常用算法与数据结构Merkle Tree01LSM-tree02Trie Tree03Bitmap04Bloom Filter05SkipList06第80页,共96页。基础技
15、术常用算法与数据结构cuckoo hashing1snappy与LZSS算法2第81页,共96页。06数据治理第82页,共96页。数据治理相关概念数据规范标准元数据管理主数据管理大数据架构管理数据质量第83页,共96页。数据治理数据安全应用治理常见框架;产品第84页,共96页。数据治理相关概念基础理论01治理框架02第85页,共96页。相关概念基础理论DAMA理论02ISO38500 IT治理框架01DGI理论03IBM数据治理理论04ISACA COBITS05第86页,共96页。原则范围实施;评估治理框架第87页,共96页。范围治理框架战略;组织数据质量数据生命周期数据架构数据安全服务创新第88页,共96页。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地铁竖井罩棚施工方案
- 景观树基础施工方案
- 海安工装拆除施工方案
- 水中微型桩施工方案
- 悬浮楼梯施工方案
- 寿光路牙石施工方案
- 工艺灯安装施工方案
- 二零二五年度劳动合同期限与绩效考核结果关联合同
- 二零二五年度合同解除后债务重组协议
- 二零二五年度咖啡连锁店加盟经营合同
- 《住院患者身体约束的护理》团体标准解读课件
- DZ∕T 0213-2020 矿产地质勘查规范 石灰岩、水泥配料类(正式版)
- 2024年黑龙江建筑职业技术学院单招职业适应性测试题库全面
- MOOC 跨文化交际通识通论-扬州大学 中国大学慕课答案
- GB/T 28799.2-2020冷热水用耐热聚乙烯(PE-RT)管道系统第2部分:管材
- 10000中国普通人名大全
- 公路工程竣工验收鉴定书
- 项目章程模板范文
- 耳尖放血疗法治疗高血压病技术
- 泰山产业领军人才工程系统
- 轮扣架支模体系材料量计算
评论
0/150
提交评论