




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
空气质量监测云计算平台解决方案
修改记录日期版本修改要点修改者注释.05.061.0初始版本注:版本升级时,要注明因素,和重要更改内容。目录目录 3空气质量前端方案 41.概述 41.1背景 41.2意义 42.设计 52.1系统架构 52.1.1总体架构 52.1.2布置方式 62.2传感器 72.3计算 92.4采集某些 102.5通信某些 112.6电源某些 122.6.1锂电池供电 122.6.2太阳能供电 133.特点 13空气质量检测平台方案1.概述南京云创存储空气质量监测方案,是基于云计算大气质量监测平台,前端通过特性因子监测设备和空气质量两套监测设备可以监测大气污染中空气质量,pm10,SO2,NO2等大气中污染因子。通过海量数据科学数据分析对比得到重要反映局部区域有关参照值,从而和宏观上反映都市整体空气质量监测站点监测方式形成互补。1.1背景当前许多都市环境监测中心站点较少,分布分散,环境监测数据仅从宏观上反映都市整体空气质量,但是不能从微观上反映局部区域、特定区域空气质量好坏,这就需要建设更多环境监测站点,提供更多实时环境监测数据。国外一套空气质量环境监测仪器价格在10万美金,国产价格在10万人民币,价格昂贵。建设更多环境监测站点需要巨大资金投入,成本太高。而便宜空气质量环境监测系统价格大概在1万人民币,可以解决资金投入问题,同步满足一定测量精度,和既有空气环境自动监测系统形成互补,为环保部门服务。当前350米如下均有颗粒污染物,污染限度比较严重,加之信息化工作处在低端水平,以及公众对于空气质量关注度不断提高,使得空气质量监测重要性日益突出。便宜空气质量环境监测系统与当前老式监测站点监测方式形成互补,满足公众环境需求,提高政府形象。1.2意义布置空气质量环境监测系统,配合都市既有环境监测站点,精确、及时、全面地反映环境质量现状及发展趋势,为环境管理、污染源控制、环境规划等提供科学根据,并结合天气状况、都市交通、人口密度、工业产值等元素,进行系统研究,为保护环境,改进都市大气环境质量改进起到技术支撑作用。详细可归纳为:
(1)依照环境质量原则,评价环境质量。
(2)依照污染分布状况,\o"追踪"追踪寻找污染源,为实现监督管理、控制污染提供根据。
(3)构建云计算海量数据解决平台,存储本区域海量数据,积累长期监测资料,为研究环境容量、实行总量控制、目的管理、预测预报环境质量提供数据。
(4)为保护人类健康、保护环境、合理使用自然资源、制定环境法规、原则、规划等服务。1.3总体设计原则针对本次工程实际状况,充分考虑环保局环境监测云平台系统建设建设发展需求,以实现系统统一管理、高效应用、平滑扩展为目的,以“先进、安全、成熟、开放、经济”为总体设计原则。先进性原则在系统总体方案设计时采用业界先进方案和技术,以保证一定期间内不落后。选取实用性强产品,模块化构造设计,既可满足当前需要又可实现此后系统发展平滑扩展。安全性原则数据是业务系统核心应用最后保障,不但要保证整套系统可以7X24运营,并且存储系统必要有高可用性,以保证应用系统对数据随时存取。同步配备安全备份系统,相应用数据进行更加安全数据保护,减少人为操作失误或病毒袭击给系统导致数据丢失。在进行系统设计时,充分考虑数据高可靠存储,采用高度可靠软硬件容错设计,进行有效安全访问控制,实现故障屏蔽、自动冗余重建等智能化安全可靠办法,提供统一系统管理和监控平台,进行有效故障定位、预警。成熟性原则为保证整个系统可以稳定工作,软件平台将使用先进、完善、易于管理和稳定可靠云存储资源管理系统,对于与应用集成接口,提供统一通用稳定访问接口。开放性原则系统建设具备开放性原则体系,提供开放应用API编程接口,提供人性化应用和管理界面,以满足顾客需求。遵循规范通用接口原则,使全系统中硬件、通信、软件、操作平台之间互联共享。充分考虑系统升级和维护问题,维护采用在线式,即在系统不断止工作状况下,可以更换单元备件。系统维护和升级操作由系统管理员即可完毕。经济性原则既有业务系统存储数据量较大,且数据增长速度较快。因而在建设系统存储架构时,应从长远角度考虑,建设一种长期存储架构,除了可以应对存储硬件设备升级速度外,还必要考虑到对前期存储设备投资保护,在保证不断提供功能和性能提高同步,存储架构在较长时间内可以保持相对稳定。结合先进云平台技术架构优势,依照本次项目建设实际容量需求设计,同步充分考虑应用发展需求,实现系统可弹性在线平滑升级。通过软件实当前较便宜普通服务器上实现高度容错,同步可以在较低冗余度状况下实现高度可靠容错,大大节约和减少系统建设硬件成本。1.4系统特点1、价格低廉,大规模布置空气质量环境监测设备只有国际通用几分之一,即可满足空气质量监测、数据传播功能,无需国外昂贵监测设备,和既有环境监测点形成有利互补,对空气质量数据发布有参照意义。 2、云计算海量数据解决技术 架构云计算海量数据解决平台,采用先进云计算解决技术,对环境监测数据入库和关联查询迅速响应,支持自动容错和动态扩展,具备实时性、高可靠性、可伸缩性、高性价比等特点。3.扩容性 空气质量监测前端设备可以依照需求进行增长设备,扩展整个系统覆盖面积,但是不需要继续复杂操作,可以动态增长空气质量测试节点,并能自动组网,具备很强扩容性。4.实时性测定速度快,自动化限度高。测试办法决定了测试实时性,采集时间实现秒级响应,且采集时间可以任意设定,采集数据实时入库,可实时查询。5.采集数据精确性采集数据通过精准校准,且敏捷度很高,和环保某些发布空气质量数据及趋势接近,数据真实有效。2.系统设计2.1总体架构前端设备采集到有关信息,通过GPRS进行无线数据传播,在有公网IP服务器上进行数据接受和初步解决,然后数据存入数据立方进行存储和计算,并且通过WEB服务器进行数据最后解决和发布,通过web页面和移动终端可以实时查看pm25实时和历史数据。详细系统总体架构详见下图。图1空气质量云监控平台总体架构2.2系统重要功能空气质量监测云平台需要提供重要功能描述如下。(1)实时数据入库系统实时数据入库系统重要负责全市所有空气质量监测点产生各类空气因子数据实时存到空气质量监测平台数据存储中心。(2)空气质量监测平台数据存储系统原始空气质量数据,将所有存储在空气质量监测平台分布式文献系统,用于存储海量非构造化数据。为了满足和适应数据量、数据特性和查询解决不同需求,某些存存储于关系型数据库中。(3)空气质量监测平台数据查询分析应用系统空气质量数据查询分析应用提供涉及实时监控空气质量空气质量,查看历史记录和分析数据等功能。空气质量历史查询解决时,由于空气质量数据量巨大,需要调度使用多台服务器节点进行并行解决。(4)数据管理系统在实际使用中,也许顾客会对某一时间段或者类型数据特别关怀,就可以通过数据管理系统查询并导出这某些数据以供使用。2.3技术优势1.无线传感网络节点问间可进行长距离传播,国內最多50m,Corssbow为150m.而咱们在节点间无阻挡时理论距离为30000m,有阻挡为500~1000m,具备极高性价比.2. 能耗低,国外同类产品发射电流消耗为20mA,咱们可达仅为0.5mA;3. 节点数多,囯外普通150个,咱们可以256个,还可扩充至1000个以上.4. 系统精度高,比同类产品高一种数量級;5. 安全系数高,由于咱们提供了数据完整性检查和鉴权功能,加密算法采用了"AES-128”,即具备高度保密性。6. 系统可靠性高,由于咱们采用了碰撞避免机制,同步为需要固定带宽通讯业务与留了专业时隙,避免了发射数据时竞争和冲突,并且节点模块之间具备自动动态组网功能,信息在整个网络中通过自由路由方式进行传播,从而保证了信息可靠性;7.系统时延短,咱们针对时延敏感运用做了优化,通讯时延和从休眠状态激活时延非常短。2.4技术方案1. 监视和记录传感器测试数据系统记录下所有不同传感器测试数据并保存在系统服务器数据库中。服务器自带网站服务。可以以网页形式提供监视成果。2. 实时数据传达和报警单个传感器数据可用来设成触发点来触发手机短信发送,email发送。3. 随插随用传感器和结点每一种在网络中结点可以插入各种不同种类传感器,只要传感器接口是原则ESB(EnvironmentalSensorBus),无需任何改动,插入即可使用。4. 网络可扩张性只要加结点,网络就扩张。结点间结网是自动。结点间距在2公里内,就可以互相通讯。5. 太阳能电池应用和电源每个结点上都可以加上太阳能电池,配合内置长寿可充电镍氢电池。在无太阳能充电极端环境下,结点还能保持三个月以上正常工作周期。在环境容许下,每个结点另可外接电源。6. 系统软件高可靠性和大规模高速解决能力海量传感信号数据通过网络送到数据服务器数据库。解决系统,存储分析系统及显示服务系统软件做相应工作以满足顾客需求。3.前端采集设备3.1前端架构设计空气质量前端设备重要是由电源模块、采集模块和通信模块三大模块构成,前端采集设备内部架构详细详见图实际空气质量监测设备详见图2。图2前端设备架构3.2重要模块和功能3.2.1传感器咱们将按其节点向所传播距离,采用美国最新研制微解决器及采用Zigbee等技术做无线传播,并将最新系统集成技术,应用软件和网络传播,射频技术和底层软硬件控制技术相结和通过该特性因子传感器可以监测大气中环境监测特性因子:(1)硫化氢气体传感器检测范畴 0—100ppm最大测量限 150ppm敏捷度 0.50±0.10uA/ppm使用温度范畴 ﹣20℃~+50℃使用压力范畴 原则大气压±10﹪响应时间(T90) ≤30S湿度范畴 15﹪—90﹪RH无凝结零点漂移(﹣20℃~+40℃) ≤0.2ppm (2)氨气NH3传感器原则工作条件10ppm-100ppmNH3加热功耗不大于900毫瓦使用温度-20℃-50℃储存温度-20℃-70℃RH相对湿度不大于95%RH原则工作条件温度:20℃±2℃Vc:5V±0.1V相对湿度:65%±5%Vh:5V±0.1V(3)有机溶剂气体传感器适当于醇类、酮类、醛类、芳族化合物等有机溶剂探测。加热功耗不大于900毫瓦使用温度-20℃-50℃储存温度-20℃-70℃相对湿度不大于95%RH探测范畴:1ppm-100ppm苯10ppm-100ppm甲苯5ppm-100ppm甲醇30ppm-300ppm酒精10ppm-300ppm丙酮1ppm-10ppm甲醛注:此传感器只测混和气体浓度。不分别给出各组份含量。 (4)可燃气体传感器用于液化气,天然气,煤气监测。优良抗乙醇,烟雾干扰能力。加热功耗≤900mW使用温度-10℃-50℃储存温度-20℃-70℃相对湿度不大于95%Rh探测范畴:300-5000ppm液化气,天然气,煤气。原则工作温度:20℃±2℃Vc:5.0V±0.1V原则工作相对湿度:65%±5%Vh:5.0V±0.1V注:此传感器只测混和气体浓度。不分别给出各组份含量。3.2.2前端数据转换 通过传感器检测颗粒,输出有关PWM波,低电平波形width是10ms-90ms,运用这个PWM波形来进行获取有关参数,详见图8。通过获取低电平占空比,从而通过图9获取到相应数值。图8传感器采样图9传感器采样曲线图 通过如下计算,可以得到其中一种通道采样值。 通道LOWPluse占空比设定为L,测试采样值为P。则:如果获取到L<0.08,则: P=0.1*L*100*10(ug/m3);如果获取到0.08=<L<0.15,则: P=(((L*100–8)/6.5+0.8))*10(ug/m3); 通过有关采样,可以采样得到传感器两个通道值,一种通道是1um以上粒子值P1,此外一种通道是可以进行设立,这里设立为可以检测2.5以上粒子值P2。 空气质量是指大气中直径不大于或等于2.5微米颗粒物,也称为可入肺颗粒物(暂无原则中文名)。因此在这里要计算最后采样值PL,需要进行如下计算: PL=P1-P2; 这里就可以计算出大气中直径不大于或等于2.5微米颗粒物。3.2.3采集某些虽然肉眼看不见空气中颗粒物,但是颗粒物却能减少空气能见度,使蓝天消失,天空变成灰蒙蒙一片,这种天气就是灰霾天。依照《灰霾试点监测报告》,在灰霾天,空气质量浓度明显比平时高,空气质量浓度越高,能见度就越低。虽然空气中不同大小颗粒物均能减少能见度,但是相比于粗颗粒物,更为细小空气质量减少能见度能力更强。能见度减少其本质上是可见光传播受到阻碍。当颗粒物直径和可见光波长接近时候,颗粒对光散射消光能力最强。可见光波长在0.4-0.7微米之间,而粒径在这个尺寸附近颗粒物正是空气质量重要构成某些。理论计算数据也清晰地表白这一点:粗颗粒消光系数约为0.6平方米/克,而空气质量消光系数则要大得多,在1.25-10平方米/克之间,其中空气质量重要成分硫酸铵、硝酸铵和有机颗粒物消光系数都在3左右,是粗颗粒5倍。因此,空气质量是灰霾天能见度减少重要因素。当前国内外环保部门监测空气质量普遍采用滤膜称重、β射线吸取和微量振荡天平等办法。除了以上三种测试办法外,尚有运用光散射原理测定颗粒物浓度办法。该测定办法原理是:空气中颗粒物浓度越高,对光散射就越强。测定光散射后,就可以算出颗粒物浓度。该测试方式测定速度快,自动化限度高,操作简朴。本次设备使用是红外光散射法来进行测试有关数据。通过有关探头来进行采集有关数据。通过采集通道运用红外光散射来进行获取颗粒浓度。采集空气通道有固定加热源,通过加热源来进行空间动态采集。将有关颗粒浓度转换成有关数据通过无线通信进行数据传播。3.2.4通信某些前端设备通信重要是通过GPRS进行数据无线传播。详细数据传播网络示意图详见图10。图10GPRS数据传播数据在前端设备基于TCP/IP合同,通过GPRS数据传播,通过移动网络传播数据,运用公网服务器接受数据,然后将数据入库后,进行数据解决,最后通过WEB服务器将数据呈现出来。注意:每个前端设备有一种供应商SIM卡进行数据通信,该SIM卡需要有GPRS业务,同步使用地点必要有供应商信号。例如使用中华人民共和国移动SIM卡,该卡需要有GPRS业务,同步放置空气质量测试前端地点需要有中华人民共和国移动信号才可以正常通信。3.2.5电源某些供电方式有两种种,一种是锂电池和市电互补供电方式,另一种是太阳能供电供电方式。太阳能供电太阳能供电方式是基于太阳能进行可持续性充电,从而避免了提供充电或者接入市电状况。太阳能供电是运用蓄电池和太阳能互补方式进行供电,通过太阳能控制器来进行互补。在太阳能供电不能满足供电需求时候,运用蓄电池进行供电。运用20W太阳能板,在一定环境中,可以满足设备供电规定。蓄电池规格是12V电压,20Ah规格,在完全没有太阳能状况下,可以支持3*24h无间断供电。该供电方式同步提供电压监测功能。详细实物详见图12。图12太阳能供电方式前端设备实物图锂电池供电锂电池供电方式是基于市电可以提供状况下进行。如果布置空气质量设备附近有市电,这样可以以便进行充电。或者是市电和锂电池进行互补方式进行供电。同步进行对电池进行电压监测,检测供电电压与否正常,电源供电与否正常。锂电池是12V电压,50Ah规格,可以在没有充电或者没有市电互补状况下持续10*24h供电。详细实物见图11。图11锂电池供电方式前端设备实物图3.3布置安装方式在都市不同区域布局并有效使用空气质量监测系统,从而可以比较全面地掌握都市不同区域,在不同步间段、不同气候特点(涉及气温、风向、季节)下空气质量实时监测数据。空气质量环境监测系统环境数据采集设备采用先进传感器、低功耗单片机技术和网络通讯技术相结合,可提供以便数据查询方式,直接通过浏览器可以直接访问测试数据。当前环境监测站监测设备普通布置在离地面高度20m-25m之间,而云创存储空气质量环境监测系统环境监测设备依照实际状况来进行布置。设备小巧,布置方式灵活,可以布置在电线杆等公共设施上。详细见图4。图4布置在电线杆上前端设备4.后端云监测平台4.1项目需求针对本次环保局重要是监测大气中环境数据,要做到实时性强,数据量大,尚有总能做到海量历史数据挖掘可扩展性,监测数据重要存储构造化数据。建设适合存储容量数据平台,吞吐量需求为满足当前各种监测终端实时上传数据需要和应用整体吞吐带宽和高并发需要,保证数据访问流畅,系统需提供多顾客或应用高并发访问、高吞吐带宽设计,系统可以有效运用各机器物理资源,性能可通过规模增长实现平滑增长。扩展性需求将来依照空气质量监测平台业务应用变化和发展,需要迅速实行系统资源升级,可以在业务服务不间断状态下平滑扩展,不会导致架构发生主线性变化,为不断产生和变化业务需求提供持续支持,支持业务系统迅速整合和布置对核心系统基本架构特别规定。低成本需求规定系统可以以低硬件成本、低维护成本实现高可靠高性能应用规定,充分提高资源运用率,简化管理,并能灵活、可持续扩展。可维护性需求规定系统具备自适应管理能力,安装、维护、升级简易以便,提供统一易用WEB配备管理监控平台,实现智能化管理。接口需求规定可以提供通用原则sql和编程接口,以便顾客及应用系统访问,减少与应用集成或开发工作量,实现系统迅速布置与集成。4.2系统总体设计系统平台总体架构图如下图所示通过前端采集设备采集空气特性参数可以将4.3系统优势和特点优秀性能云存储采用控制流与数据流分离技术,数据存储或读取事实上是与各个存储节点上并行读写,这样随着存储节点数目增多,整个系统吞吐量和IO性能将呈线性增长。同步,云存储采用负载均衡技术,自动均衡各服务器负载,使得各存储节点性能调节到最高,实现资源优化配备。无限容量可以出来海量环境监测数据,可支撑容量接近无限,经推算,理论容量为1024×1024×1024PB(1G个PB容量)。在线伸缩云存储资源管理系统扩容非常以便,支持不断止服务状况下,动态加入新存储节点,无需任何操作,即实现扩容;同步,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不丢失数据,存储在此节点上数据将会重新备份到其她节点上。通用易用云存储系统提供专用API接口,供开发人员调用。智能管理提供基于WEB管理控制平台,所有管理工作均由数据立方一体机管理模块自动完毕,使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台,可以对数据立方中所有节点实行实时监控,顾客通过监控界面可以清晰地理解到每一种节点负载、存储和运营状况。4.4系统构成架构在本次云建设中,分布式文献系统属于基本平台支撑层,以用于数据集中存储和共享,实现对数据统一管理和高效应用;分布式数据立方属于分布式数据库层,用于构造化和非构造化数据高性能访问;分布式计算和Hive则基于云存储进行大规模高性能并发计算和数据挖掘。下面详细阐明各系统基本构成和重要功能。4.4.1存储层基本构成分布式文献系统分布式文献系统被设计为将海量文献存储在一种大集群多台计算机上。分布式文献系统将每一种文献以分块序列形式进行存储,一种文献所有分块除去最后一种分块外都是等大小。为了实现容错将文献分块进行自动复制。文献分块块大小和复制比例都是可以按照单个文献进行配备。分布式文献系统中所有文献都是“只写一次”并且严格限定在任何时候只有一种写文献操作者。 分布式文献系统是云计算框架分布式并行文献系统,是分布式计算存储基石。负责数据分布式存储及数据管理,并能提供高吞吐量数据访问。分布式文献系统基本特性如下:(l)对于整个集群有单一命名空间。(2)文献会被分割成各种文献块,每个文献块被分派存储到数据节点上,并且依照配备会有复制文献块来保证数据安全性。(3)数据一致性。适合一次写入多次读取模型,客户端在成功创立文献之后,才干看到文献存在。(4)云计算,涉及分布式文献系统,非常适合在便宜机器上分布式存储和分布式解决。它是容错、可伸缩、非常易于扩展。并且,以简朴性和合用性著称分布式计算是云计算不可缺少重要构成某些。(5)分布式文献系统默认配备适合于大多数安装应用。普通状况下,只有在一种非常大规模集群上才需要修改默认配备。(6)支持shell命令行风格分布式文献系统目录交互。(7)分布式文献系统是用java编写,可广泛运营在各种软硬件平台上。(8)分布式文献系统经常性地实现新特性和改进。(9)Namenode和DataNode都内建了Web服务器,可以以便地查看集群状态。分布式文献系统体系框架是Master/Slave构造,一种典型分布式文献系统普通由单个Namenode和各种DataNode构成。Namenode是一种中心服务器,负责文献系统名字空间操作,例如打开、关闭、重命名文献或目录,它负责维护文献途径到数据块映射,数据块到DataNode映射,以及监控DataNode心跳和维护数据块副本个数。集群中DataNode普通是一种节点一种,负责管理它所在节点上存储。分布式文献系统暴露了文献系统名字空间,顾客可以以文献形式在上面存储数据。从内部看,一种文献其实被提成一种或各种数据块,这些块存储在一组DataNode上。DataNode负责解决文献系统客户端读写祈求。在Namenode统一调度下进行数据块创立、删除和复制。所有对目录树更新和文献名和数据块关系修改,都必要可以持久化,文献在分布式文献系统中存储图如图: 分布式文献系统构造分布式文献系统涉及到Namenode、DataNode和客户端们之间交互。本质上,客户端与Namenode通讯是通过获取或者修改文献元数据,与DataNode进行实际I/O操作。如图13所示,在分布式文献系统中有三个重要角色:Namenode、DataNode和Client,其中Client就是需要获取分布式文献系统文献应用程序。这里通过三个操作来阐明她们之间交互关系:(l)文献写入。一方面Client向Namenode发起文献写入祈求,Namenode依照文献大小和文献块配备状况,返回给Client它所管理某些DataNode信息。Client将文献划分为各种Block,依照DataNode地址信息,按顺序写入到每一种DataNode块中。(2)文献读取。Client向Namenode发起文献读取祈求,Namenode返回文献存储DataNode信息。Client依照返回信息读取DataNode上文献信息。(3)文献Block复制。Namenode发现某些文献Block不符合最小复制数或者某些DataNode失效,告知DataNode互相复制Block。DataNode收到告知后开始直接互相复制。
分布式文献系统Namenode、DataNode和客户端们之间交互4.4.2Jobkeeper系统基本构成Jobkeeper系统架构如下图所示:上图中对Jobkeeper进行了分层,对每层进行详细阐述虚拟化资源层:将机器进行虚拟化,形成更大范畴服务集群。存储层:存储数据解决成果集或其她中间成果集单元。数据解决层:独立数据解决程序,是对不同需求数据统一解决方案,由JobKeeper调度平台进行统一配备管理。业务层:对于应用层有关功能业务化,数字化解决,用于将应用层需求任务进行规则化划分,形成统一解决化模式。应用层:一组用于管理和成果反馈显示组件。是整个系统面向顾客和开发人员基本承载。JobKeeper任务分发流程如下图所示:JobKeeper任务分发流程图当顾客在应用层下发任务给管理节点,管理节点调度机器采集机器节点信息,依照详细算法选用最优节点并分发任务,接下来详细解决节点接受到任务并解决同步将成果返回给管理节点,管理节点整顿汇总解决成果,而后返回给应用层。服务器节点组:负责对解决节点系统信息以及任务解决信息进行实时跟踪和保存,相应信息镜像存储在基于cStor或者NFS服务存储系统上。解决节点组:通过RPC远程调用获取各自节点任务解决目的,并实时和解决节点上任务解决目的进行对比,控制程序执行和结束。解决节点组会在一种设定心跳间隔内积极和管理节点组联系一次,报告节点存活状态。4.4.3分布式数据立方系统基本构成分布式数据立方,是一种高可靠性、高性能、面向列、可伸缩分布式存储系统,运用分布式数据立方技术可在便宜PCServer上搭建起大规模构造化存储集群。其目是解决庞大表,可以用普通计算机解决10亿行数据,并且有数百万列元素构成数据表这张表索引是行核心字。分布式数据立方可以直接使用本地文献系统和云计算作为数据存储方式,但是为了提高数据可靠性和系统健壮性,发挥分布式数据立方解决大数据量等功能,需要使用云计算作为文献系统。1、数据模式分布式数据立方类似Bigtable分布式数据库,是一种稀疏,长期存储,多维,排序映射表.这张表索引是行核心字,列核心字和时间戳。每个值是一种不解释字符数组,数据都是字符串,没类型。顾客在表格中存储数据,每一行都是一种可排序主键和任意多列。由于是稀疏存储,因此同一张表里面每一行数据都可以有截然不同列。列名字格式是"<family>:<lable>",都是由字符串构成,每一张表有一种family集合,这个集合是固定不变,相称于表构造,只能通过变化表构造来变化。但是lable值相对于每一行来说都是可以变化。分布式数据立方把同一种family里面数据存储在同一种目录底下,而分布式数据立方写操作时锁行,每一种都是一种原子元素都可以加锁。所有数据库更新都是一种时间戳标记,每个更新都是一种新版本,而分布式数据立方会保存一定数量版本,这个值是可以设定。客户端可以获取距离某个时间近来版本,或者一次获取所有版本。2、概念视图分布式数据立方以表形式存储数据。表有行和列构成。列划分为若干个列族(rowfamily)RowKeycolumn-family1column-family2column-family3column1column2column1column2column3column1key1t1:abct4:dfadst2:gdxdft3:hellot2:worldkey2t3:abct4:dfadst2:dfdsfat1:gdxdft3:hellot3:dfdfkey3t2:dfadfasdt2:dfxxdfasdt1:dfdasddsft1:RowKey与nosql数据库们同样,rowkey是用来检索记录主键。访问分布式数据立方table中行,只有三种方式:1通过单个rowkey访问2通过rowkeyrange3全表扫描Rowkey行键(Rowkey)可以是任意字符串(最大长度是64KB,实际应用中长度普通为10-100bytes),在分布式数据立方内部,rowkey保存为字节数组。列族分布式数据立方表中每个列,都归属与某个列族。列族是表chema一某些(而列不是),必要在使用表之前定义。列名都以列族作为前缀。例如courses:history,courses:math都属于courses这个列族。时间戳分布式数据立方中通过row和columns拟定为一种存贮单元称为cell。每个cell都保存着同一份数据各种版本。版本通过时间戳来索引。时间戳类型是64位整型。时间戳可以由分布式数据立方(在数据写入时自动)赋值,此时时间戳是精准到毫秒当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突,就必要自己生成具备唯一性时间戳。每个cell中,不同版本数据按照时间倒序排序,即最新数据排在最前面。Cell由{rowkey,column(=<family>+<label>),version}唯一拟定单元。cell中数据是没有类型,所有是字节码形式存贮。3、物理存储1Table中所有行都按照rowkey字典序排列。2Table在行方向上分割为各种Hregion。3region按大小分割,每个表一开始只有一种region,随着数据不断插入表,region不断增大,当增大到一种阀值时候,Hregion就会等分会两个新Hregion。当table中行不断增多,就会有越来越多Hregion。4Hregion是分布式数据立方中分布式存储和负载均衡最小单元。最小单元就表达不同Hregion可以分布在不同HRegionserver上。但一种Hregion是不会拆分到各种server上。5HRegion虽然是分布式存储最小单元,但并不是存储最小单元。事实上,HRegion由一种或者各种Store构成,每个store保存一种columnsfamily。每个Strore又由一种memStore和0至各种StoreFile构成。如图:StoreFile以HFile格式保存在分布式文献系统上。HFile格式为:Trailer某些格式:HFile分为六个某些:DataBlock段–保存表中数据,这某些可以被压缩MetaBlock段(可选)–保存顾客自定义kv对,可以被压缩。FileInfo段–Hfile元信息,不被压缩,顾客也可以在这一某些添加自己元信息。DataBlockIndex段–DataBlock索引。每条索引key是被索引block第一条记录key。MetaBlockIndex段(可选)–MetaBlock索引。Trailer–这一段是定长。保存了每一段偏移量,读取一种HFile时,会一方面读取Trailer,Trailer保存了每个段起始位置(段MagicNumber用来做安全check),然后,DataBlockIndex会被读取到内存中,这样,当检索某个key时,不需要扫描整个HFile,而只需从内存中找到key所在block,通过一次磁盘io将整个block读取到内存中,再找到需要key。DataBlockIndex采用LRU机制裁减。HFileDataBlock,MetaBlock普通采用压缩方式存储,压缩之后可以大大减少网络IO和磁盘IO,随之而来开销固然是需要耗费cpu进行压缩和解压缩。目的Hfile压缩支持两种方式:Gzip,Lzo。HLog(WALlog)WAL意为Writeaheadlog(),类似mysql中binlog,用来做劫难恢复只用,Hlog记录数据所有变更,一旦数据修改,就可以从log中进行恢复。每个RegionServer维护一种Hlog,而不是每个Region一种。这样不同region(来自不同table)日记会混在一起,这样做目是不断追加单个文献相对于同步写各种文献而言,可以减少磁盘寻址次数,因而可以提高对table写性能。带来麻烦是,如果一台regionserver下线,为了恢复其上region,需要将regionserver上log进行拆分,然后分发到其他regionserver上进行恢复。HLog文献就是一种普通云计算SequenceFile,SequenceFileKey是HLogKey对象,HLogKey中记录了写入数据归属信息,除了table和region名字外,同步还涉及sequencenumber和timestamp,timestamp是”写入时间”,sequencenumber起始值为0,或者是近来一次存入文献系统中sequencenumber。HLogSequeceFileValue是分布式数据立方KeyValue对象,即相应HFile中KeyValue,可参见上文描述。Client1包括访问分布式数据立方接口,client维护着某些cache来加快对分布式数据立方访问,例如regione位置信息。Zookeeper1保证任何时候,集群中只有一种master2存贮所有Region寻址入口3实时监控RegionServer状态,将Regionserver上线和下线信息实时告知给Master4存储分布式数据立方schema,涉及有哪些table,每个table有哪些columnfamilyMaster1为Regionserver分派region2负责regionserver负载均衡3发现失效regionserver并重新分派其上region4GFS上垃圾文献回收5解决schema更新祈求RegionServerRegionserver维护Master分派给它region,解决对这些regionIO祈求Regionserver负责切分在运营过程中变得过大region4.5核心技术4.5.1空气检测设备数据高速入库通过前端各种高性能空气因子采集设备采集数据通过空气质量监测平台将监测数据入库,查询构架如图:图表SEQ图表\*ARABIC6数据接入,查询架构4.5.2负载均衡解决机单点失效容错解决负载均衡机分布如图:图表SEQ图表\*ARABIC21负载均衡机分布图全量原始数据接入互换机,将数据发向指IP负载均衡机,负载均衡机向负载均衡Master节点祈求任务解决机,Master返回存任务解决机IP端口信息,负载均衡机依照任务解决机IP端口信息将数据发向任务解决机。单点容错如图:当某一台负载均衡机宕机后:图表SEQ图表\*ARABIC22负载均衡机宕机预案第一步Master节点能过链接心跳得知宕机负载均衡机。第二步Master节点从所有均衡机中选出负载小负载均衡机,启动虚拟IP及有关进程第三步启动虚拟IP接受原始数据,进行负载均衡当Master节点宕机后:图表SEQ图表\*ARABIC23Master节点宕机预案第一步Master节点宕机,负载均衡节点及存储计算节点能过链接心跳得知Master宕机第二步所有负载均衡节点,重选举出Master节点,并告知存储计算节点新Master节点 所有存储计算节点,依照负载均衡IP列表,祈求新Master节点,后向新Master节点上报负载状态。第三步新Master节点接管所有工作,对宕机Master节点容错。4.5.3查询解决机单点失效容错解决图表SEQ图表\*ARABIC24查询解决单点失效容错解决第一步:任务解决机宕机,负载均衡机得知任务解决机宕机,缓存数据.同步Master得知任务解决宕机后,将任务解决机信息删除待分派列表。第二步:负载均衡机向Master祈求任务解决机,Master重新分派任务解决机给负载均衡机。第三步:负载均衡机将原始数据发向新任务解决机,进行查询4.5.4计算与存储集群负载均衡解决 负载均衡,就是要让人们各尽其力齐心干活,发挥各自独特优势,不能忙得忙死闲得闲死,影响战斗力。并且,负载均衡也是一种复杂问题,什么是均衡,是一种很模糊概念。例如,在分布式文献系统中,总共三百个数据块,平均分派到十个数据服务器上,就算均衡了么?其实不一定,由于每一种数据块需要若干个备份,各个备份分布应当充分考虑到机架位置,同一种机架服务器间通信速度更快,而分布在不同机架则更具备安全性,不会在一棵树上吊死。在这里说负载均衡,是宽泛意义上均衡过程,重要涵盖两个阶段事务,一种是在任务初始分派时候尽量合理分派,另一种是在事后时刻监督及时调节。 分布式文献系统中,ReplicationTargetChooser类,是负责实现为新分派数据块寻找婆家。基本上来说,数据块分派工作和备份数量、申请客户端地址(也就是写入者)、已注册数据服务器位置,密切相关。其算法基本思路是只考量静态位置信息,优先照顾写入者速度,让多份备份分派到不同机架去。详细算法,自行参见源码。此外,分布式文献系统Balancer类,是为了实现动态负载调节而存在。Balancer类派生于Tool类,这阐明,它是以一种独立进程存在,可以独立运营和配备。它运营有NamenodeProtocol和ClientProtocol两个合同,与主控服务器进行通信,获取各个数据服务器负载状况,从而进行调节。重要调节其实就是一种操作,将一种数据块从一种服务器搬迁到另一种服务器上。Balancer会向有关目的数据服务器发出一种 DataTransferProtocol.OP_REPLACE_BLOCK消息,接受到这个消息数据服务器,会将数据块写入本地,成功后,告知主控服务器,删除早先那个数据服务器上同一块数据块。 分布式计算负载平衡用是公平调度算法,公平调度是一种多顾客赋予作业(job)资源方略,它目是让所有作业随着时间推移,都能获取与权值相应共享资源。当单独一种作业在运营时,它将使用整个集群。当有其他作业被提交上来时,系统会将任务(task)空闲计算槽(slot)赋给这些新作业,以使得每一种作业都大概获取到与权值相应计算时间。这个特性让短作业在合理时间内完毕同步又保证了长作业服务质量。公平调度器按资源池(pool)来组织作业,默认状况下,每一种顾客拥有一种独立资源池。在节点TaskTracker上设立有同步运营Map任务和Reduce任务个数上限,若未达到上限,则就产生了空闲计算槽,涉及Map和Reduce空闲计算槽。当集群上浮现空闲计算槽时,调度按两步进行,一方面空闲计算槽在作业池之间分派,另一方面在作业池内作业间分派。最小份额和公平份额最小份额保证作业池总能获取到足够资源,由顾客设定。作业池公平份额计算是依照作业权值将集群资源总量划分给各个运营作业池。在缺省状况下,作业池权值设定是基于优先级,即优先级每升高一级,那么相应权值就增长一倍即所分派计算槽是次一级两倍。例如:平台上有甲乙两个作业池,甲优先级为high,乙低一级为normal,则甲被分派计算槽总数,则乙被分派计算槽总数。普通状况下一种作业池最小份额不大于公平份额。池间公平分派算法描述如下: 1)若存在没有达到最小份额作业池,则设c为池内已分派到计算槽,m为作业池最小份额,值为最小作业池将被优先分派计算槽,2)若每个池都已得到最小份额,设w为计算槽权重,则值为最小作业池将被优先分派计算槽。3)公平调度算法中为每个作业池维护着两个变量,最小份额时限T和公平份额时限T,当作业池在T时间内没达到最小份额或T时间内没达
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 先进技术设备改造合同样本
- 保温板合同样本
- 农村果园流转合同标准文本
- 农业代耕合同标准文本
- 云仓发货合同样本
- 低应变合同样本
- 2025年租赁合同范本-房屋租赁合同书
- 出国留学中介合同样本
- 出售自制电车合同范例
- 产品借出合同标准文本
- 化工及相关行业废盐资源化用于氯碱行业技术规范
- 高中物理学法指导讲座
- 直播带货项目计划书
- 2024年中通服网盈科技有限公司招聘笔试参考题库含答案解析
- 胰岛素泵胰岛素笔结构设计与材料
- 2023年广州市小升初数学真题
- 环氧地坪漆施工工艺及质量控制要点
- 【剧本】钦差大臣〔俄国〕果戈理
- 2023既有建筑地下空间加固技术规程
- 初中英语语法-八大时态之一般过去时课件
- 安全质量观摩会策划报告
评论
0/150
提交评论