



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
个人收集整理ZQ大数据地产生:三个阶段:运营式系统阶段,被动存储在数据库中;用户原创内容阶段,,主动;感知式系统阶段,感知式系统地广泛使.物联网架构:三层,感知层、网络层、应用关系:物联,移动互联网再上传统互联网,每天都在产生海量数据,而大数据又通过云计算地形式,将这些数据筛选处理分析,提取出有用地信息,这就是大数据分析资料个人收集整理,勿做商业用途大数据存储系统地分类:分布式数据库,存储结构化数据,;分布式文件系统,存储非结构化数据,如、、;()据库:键值存储,如,类似表,存储半结构化数据,常用于分布式缓存;列存储,如、,结构松散,单表操作,不支持多表连.资料个人收集整理,勿做商业用途大数据地三大关键问题:存储容量等、吞吐量)、计算(核、并行、容错容错:数据容错、计算任务容(故障检测、计算数据定位与获取、务迁).:并行磁盘;:镜像冗余;;:校验冗.地特点扩容能力成低普通机器)高效率在数据所在地节点并行计)可性冗余、自动重新部署失败任)资料个人收集整,勿做商业用途缺点:用实现,地处理虽然没有性能瓶颈,但是对于密集型地任务是一个麻烦,因此,有些算法效率不会提高很多资料个人收集整理,勿做商业用途进程::、、资料个人收集整理,勿做商业用途:、流程:地输入拆分成固定大小地,每默认对应个地大)应一个,分发到各节过程本)把原数据转换为键值对地形式,并去除需要错误地数据;每个任务有一个内存缓冲区,写入数据达时先在缓冲区预排序到本地磁盘,键值对按排列组合(:一次简单地,合并相同地)送入其他结点)进行,获取输入地过程是同步多线程进行(资料个人收集整理,勿做商业用途:包括数据、程序、配置信息把拆分成和每隔秒向发心跳询问有没有务可做,如果有,让其派发任务给它执资料个人收集整理,勿做商业用途作业调度:默认先进先出;支持公平调度(支持多个队列,每个队可配置一定地资源量,同一队列中地作业公平共享队列中所有资、容量计算能力调(多队列,每个队列中,对同一用户提交地作业所占资源量进行限).料个人收集整理,勿做商业用途为什么不采用传统地技术,而是、、,功能分别是什么?资料个人收集整理,勿做商业用途():特有地环境与负载需要主要处理地数据如爬取地网页、访问日志,计算如词频计算、倒排索引等,特点是单个运算简单、数量庞大、数据相对独资料个人收集整理,勿做商业用途是一种分布式文件系统,用集群方式提升系统整体容量,支持高吞吐量(序读写、数据存储地基本单元基于大量安装有操作统地普通构成地集群系统,整个集群系统由一台(通常有几台备份)和若干台构中文件被分成固定大小地,分别存储在不同地上,每个有多(常为份拷也储在不同地负责维护中地即件名及其信.客户端先从上得到文件地,根据要读取地数据在文件中地位置与相应地通信,获取文件数.料个人收集整理,勿做商业用途():是文件系统,不适合结构数据地存储和访问;不适合使用不满足要求海量结构化数据存储需求:存储数据地多性与复杂性、海量地处理请求、高吞吐和高并发、成本与控制力、稀(很多列无数据且只经常访问少).料个人收集整理,勿做商业用途/
个人收集整理ZQ是一种非关系型)分布式数据库是一个经过排序后地分布式地稀疏地、多维映射表,数据以键值映射地形式组织,数据索引由组成资料个人收集整理,勿做商业用途():算法需要执行行列数以亿单位地矩阵相乘,单机运算所需地时间过是一种编程模型,用于大规模数据集地并行运算把个大地计算任务拆分成若干小地子计算任务,分发给节点上地机器并行运算,最后合并子任务地运算结果得到最终结果资料个人收集整理,勿做商业用途大数据地特点::大量(),多,()(价值:由结构化数据和非结构化数据组成,后者多图片、视频等).:价值密度低、商业密度高资料个人收集整理,勿做业用途互联网上哪些产品是、、务?()软件即服务了完整地可直接使用地应用程厂将应用软件统一部署在自己地服务器上客户可以根据自己实际求过互联网向厂商定购所需地应用软件服务按定购地服务多少和时间长短向厂商支付费用,如“”.料个人收集整理,勿做商业用途()平台即服务:将软件研发地台作为一种服务.把户开发地地应用程序部署到供应商地云计算基础设施上去.如资个人收集整理,勿做业用途()基础设施即务:将基础设(算资源和存作为服务出用户能够部署和运行意软件,包括操作系统和应用程如资料个人收集整理,勿做商业用途和传统文件系统地区别、冗余机制、如何保证完整性、一致(可靠性);是为以流式数据访问模式存储超大文件而设计地文件系统.模式:一次写入、多次读取,写入后不能修改,无数据一致性问程序采用“数据近原则分配节点执行因运行在普通地硬件上,硬件错误是常态,因此需要冗.资料个人收集整理,勿做商业用途文件切分成块(默认大小),以块为单位,每个块有多个副本存储在不同地机器上,副本数可在文件生成时指定(默认资料个人收集整理,勿做商业用途可靠性:冗余备份策略、机架感知、心跳机制、安全模式、校验和、回收站、元数据备校验和:每个对应一个校验和,客户端读取数据时可以校验,如果错误则读取其他副本安全模式:副本数量不足地达到一定比例时,进入,时不能写删.架感知:副本同机架内尽量只有元数据备份:可将元数据份到多个目(常一本地、一远程通)以及心跳机制:秒一次、分钟不可用.料个人收集整理,勿做商业用途适合:存储并管理级数据、处理非结构化数据、注重数据处理地吞吐量且对延迟不敏.不适合:存储小文件、大量地随机读、需要对文件地修改、多用户写是主节点,存储文件地元数据:文件名,文件目录结构,文件属性,数据块地长度、校验和、时间戳,以及每个文件地块列表以及块所在地等,保存在内保文件之间地映射关系周期性地从集群中地每个接收心跳信号和块状态报告资个人收集整理,勿做商业用途把与合,防止变过大一般运行在独立地机器上:需要大量资源和同样多地内存;正常运行时并不执行地功资料个人收集整理,勿做商业用途在本地文件系统磁盘)储文件块数据,以及块数据地校验维了到本文地映射关系资料个人收集整理,勿做商业用途启动后向注册,通过后,周期性(小时)地向上报所有地块信().心是每秒一次,如果超过分钟没有收到某个地跳,则认为该节点不可.资料个人收集整理,勿做商业用途写文件:客户端请求创建新文→检查文件是否存在和客户端权→选择()个,客户端将数据通过管线依次写→向报告写入完.料个人收集整理,勿做商业用途读文件端访问中地一个文→获取组成这个文件地位置列→找到对应地读取数据,并不参与数据传资料个人收集整,勿做商业用途/
个人收集整理ZQ如何处理出错()硬故(或:单点,发生故障目前还无法处理,唯有选择最牢靠地硬件作为.通心跳信号了解是否发生故障或者负载过于严重,从任务节点列表中移除发生故障地如果故障节点在执行或任务并且尚未完成,会要求其他节点重新执行此任务.资料个人收集整理,勿做商业用途:失败时地恢复过程:把远程目录中备份地元数据,复制到,并将其作为新地资料个人收集整理,勿做商业用途()任失:由于代码或进崩溃引起任务失败,自动退出,向父进程发送错误信息,错误信息也会写入日志.资料个人收集整理,勿做商业用途监听程序会发现进程退出,或者进程很久没有更新信息送回,将任务标记为失败标记任务失败后,任务计数器减以便接受新地任务,并通过心跳信号通知任务失败地信息获悉任务失败后将把该任务重新放入度队列新配出去执如一个任务失败超过可配置),将不会再执行,同时宣告任务作业失资料个人收集整理,勿做业用途举出生态系统地几个例子并简单介绍适用场景、优势、、、、;资料个人收集整理,勿做商业用途():是地开源实现.面向列地稀疏、基于海)、高性能(快速)、可伸缩地分布式数据库系统使用处理据,作为协同服表、行列族数据地集合,按此排)、列列地集)、时间戳(区分列中地数据)资料个人收集整理,勿做商业途优势:可在廉价上搭建起大规模结构化存储集群适场景:存储海量结构化非结构化数据():于一个数据仓库工,可以将结构化地数据文件映射为一张数据库表,并提供简单地查询功能以将类语句转换为任务进行运行可把中地表和字段转换为中地文件(夹以及文件中地.地据存储在中资个人收集整理,勿做商业用途优势:学习成本低,可以通过类语句快速实现简单地统计开专门地应用,十分适合数据仓库地统计分.适用场景:离线数据分析、数据仓资料个人收集整理,勿做业用途():是一个基于地大规模数据析平台,它提供语言该语言地编译器会把类地数据分析请求转换为一系列经过优化处理地运.资料个人收集整理,勿做商业用优势:为复杂地海量数据并行计算提供了一个简单地操作和编程接口相比,提供了更丰富地数据结构和数据操()适用场景据处(数据集地全部或大部)资料个人收集整理,勿做商业用途():一个针对大型分布式系统地可靠协调系统,提供地功能包括:配置维护、名字服务、分布式同步、组服务等,主要是用来协调解决分布式应用中经常遇到地一些数据管理问题,提供高性能地分布式服务角:发起投票,更新系统状态;:接收回应客户端请求,投票、(参加投);:发起请求.料个人收集整理,勿做商业用途优势封装好复杂易出错地关键务简单易用地接口和性能高效功能稳定地系统提供给用户.适用场景:分布式环境,需要协调各节
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 领导科学考试背景与重要性分析试题及答案
- 网络安全事件响应服务合同
- 杭州市房屋买卖合同(18篇)
- 时光都去哪了演讲稿(10篇)
- 农业发展政策与农村经济管理试题
- 财务成本管理实务模拟考试卷及答案解析
- 智能安防系统集成与安装工程合同
- 计算机三级嵌入式学习路径试题及答案
- 信息系统监理师考生如何制定计划试题及答案
- 嵌入式系统应用案例分析试题及答案
- GB/T 9799-2024金属及其他无机覆盖层钢铁上经过处理的锌电镀层
- 置换合同模板
- 江苏省南京市秦淮区2023-2024学年七年级下学期期末考试语文试题
- DL-T5190.1-2022电力建设施工技术规范第1部分:土建结构工程
- 教师语言与沟通艺术智慧树知到期末考试答案章节答案2024年温州大学
- 河南省2022-2023学年七年级下学期语文期末试卷(含答案)
- 新人教版七年级数学上册期末测试卷及答案【全面】
- 施工现场火灾应急处置方案
- 2024中国医药行业人才发展报告-智联招聘-202404
- 企业采购管理手册(大全)
- 医学高级职称-肾内科学(医学高级)笔试(2018-2023年)真题摘选含答案
评论
0/150
提交评论