


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、提高气象数据查询速度的存储分析摘要:在气象现代化的发展进程中,将来各种各样的实时观测数据会越来越多,除了数据的 准确性以外,对数据的时效性要求也越来越高。数据的时效包括采集传输时效和查询应用时 效。采集传输时效有严格气象报文观测传输规范和制度,该文重点研究分析如何提高实时观 测数据的查询应用时效。关键词:结构化数据;数据库;数据库索引;列式存储;行式存储中图分类号:TP311文献标识码:A文章编号:1009-3044(2014)06-1170-03Analysis of Meteorological Data Storage to Improve Query SpeedFU Ya-yu, YU
2、AN Yan-fen LIANG Shen-qing,YE Qiu-ying(Guangdong Meteorological Information Centre, Guangzhou 510080, China)Abstract: In the process of the development of modern meteorology, a variety of real-time observation data in the future will be more and more, in addition to data accuracy, timeliness of data
3、 requirements are also increasing. Timeliness of data collection and transmission, including timeliness and query applications aging. There are strict time collection and transmission of meteorological observations packet transmission specifications and system, this paper focuses on the analysis of
4、how to improve the query application timeliness real-time observation data.Key words: structured data; database; database indexes; columns; storage; storage line为建设幸福广东,提高预报准确率,广东省要在2015年基本实现气象现代化。信息中 心要完成“三个一”工作。即一分钟资料到桌面、一套一体化的数据库、一个实时分析数据集, 满足“资料好用、用好资料”的要求。这“三个一,,的工作,其实要求信息中心将及时收到的实时观测资料进行处理、入库,
5、 然后提供给预报员和其他应用人员使用,而不是将原始资料直接送到预报员桌面。这就要求 我们需要对成千上万的原始数据进行快速的处理入库和提供高效的快速查询、统计、分析机 制。信息中心每天收到各种各样的气象资料,其中有结构化数据(如国家自动站和区域站 等)和非结构化数据(如雷达产品,云图等)。在自动站资料的应用中,预报员希望从自动 站观测数据中快速提取如温度、雨量、风向和风速等要素进行平均或累计等运算。众所周知,数据查询的速度和数据的存储方式都以索引密切相关。信息中心保证大量 的实时数据入库的同时,还需要想办法改善数据的存储方式来满足快速查询的要求。在现有 的存储技术架构中,是否还有更好的办法来提升
6、数据查询速度呢?我们先来了解计算机的数 据存储方式。1数据的存储方式目前,在计算机的数据处理过程中,计算机会将数据存储到存储介质(通常指硬盘) 里,存储的方式通常有行式存储和列式存储。行式存储是将每条记录数据以行的形式依次存储到存储介质中的过程。例如下面的表:这个简单表的每条记录包括观测站点的Name (名称),IIIII(站号),Temp (温度) 和Rain (雨量)。这个表要存储在计算机的内存(RAM)和存储(硬盘)中。数据库必须把这个简单的 二维表转换成一个个“字节”中,由操作系统按顺序写到内存或硬盘中。行式数据库把一行中的数据值串在一起存储起来,然后再存储下一行的数据,以此类 推。列
7、式存储是将每条记录数据以列的形式依次存储到存储介质中的过程。列式数据库把一列中的数据值串在一起存储起来,然后再存储下一列的数据,以此类 推。2两种存储方式的优缺点行式存储数据库因为同一条记录的行存储在一起,所以记录写入速度快,读取一条记 录和同一条记录的多个列快,更改和删除记录快,但聚合统计、查询慢,数据压缩比低,索 引开销大。列式存储数据库因为同一类型的列按顺序依次存储在一块,索引和数据列是统一,同 一列的数据相同或相似较多,所以列式存储查询速度快、数据压缩比高、装载快,但是插入 更新慢,不太适合数据频繁更新变化。行式存储的数据库擅长随机读操作,多用于联机事务处理(OLTP);列式存储的数据
8、 库则更擅长大批量数据量查询,多用于联机分析处理(OLAP)。3气象数据存储使用特点气象自动站观测的实时资料主要特点是时间点高度集中,时间间隔短,站点较多。也 就是说同一个时间点并发数较大。由于这些特点,对收集、处理、存储和管理要求很高,收 集耗费的时间也多。根据行式存储数据库写入快的特点,比较适合使用行式数据库。如商业 数据库Oracle等。要实现“三个一”的第一个目标,即一分钟资料到桌面,信息中心还需要完 善数据流程。资料一经入库之后,一般很少更改数据项内容。在资料的使用上,预报员更多 的是关心某个特殊时间区间(暴雨、台风、冰冻雨雪等天气过程)某个站点或某个区域站点 的温度、雨量、风速和风
9、向等要素值或平均值或累加值。从这点来看,气象资料的存储又非 常适合列式存储数据库的要求。现经常使用商用列式数据库有Sybase IQ、ParAccel、Sand/DNA Analytics 和 Vertica 等。4改进建议如果气象应用根据某几列来聚合数据,就应该按列的方式组织数据更有效。或者只需 要修改某一列值,按列的方式组织数据更有效。因为可以直接找到某列数据并修改,而与行 中的其他列无关。如果采用行式数据库,如现在的Oracle数据库,为满足业务需要,需要 建立大量的索引和混合索引,而大量的索引所带来的存储空间的浪费以及维护这些索引花费 的不少的时间。列式数据库就不会出现这种情形,因为列
10、式数据库的所有字段都是索引的, 甚至可以认为索引和数据是统一的。如果频繁增加行数据,频繁的修改和删除数据,每次要求读出整行数据,那么按行的 方式组织数据会更有效,因为只需要一次寻址就可以顺序写入或读出整行的全部数据。鉴于气象实时数据收集和查询的特点,收集大量并发的实时数据入库应该采用行式数 据库,而气象历史数据,无论是查询还是存储压缩,非常适合采用列式数据库。因为查询聚 合通常提取数据库中的气象要素列,如温度、雨量等,而相同区域的要素列的值在天气稳定 的情形下相同的可能性很大,这非常有利于数据压缩存储。如Oracle和MySQL等稳定可靠 的数据库产品。在数据库使用时增加列式索引来加快查询速度
11、,提高预报产品生成时间。在数据库存储可采用如Oracle 12C的列混合压缩方式压缩数据或者历史库采用高性能 列数据库,如SyBase IQ等,如此来提高压缩率和存储效率。在实际应用中,列式存储的数据库更适合于气象海量数据的分析和统计。5小结广东省要在2015年基本实现气象现代化,要让社会百姓感觉到气象真的像现代化,除 了提高气象预报和气候预测的准确性外,预报时效也非常重要。现在社会科技发展很快,移 动互联网和智能手机出现,改变人们以往的生活习惯,人们可以通过手持智能设备使用气象 应用客户端快速查询天气情况。这就要求我们对数据查询、统计分析提出很高的要求,根据 用户使用习惯,查询反应时间最好在3秒之内,越快越好。鉴于此,数据的底层组织存储架 构非常重要,设计好坏直接影响到用户体验,关系到气象现代化的进程。参考文献:Xuedong Chen,Stephen Revilak.The Star
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 提升农业科技创新能力促进乡村振兴的路径
- 现代科技手段在文物征集中的应用与挑战
- 青年教师自我提升与教育家精神的内在关系分析
- 教学评一体化在小学语文教育中的发展现状与挑战
- 基于产业需求的现代学徒制课程体系构建
- 风电场选址分析与评估
- 特色农产品冷链仓储物流中心项目建议书(范文模板)
- 2025版节水灌溉农业种植合作合同书样本
- 二零二五年度国际贸易货物运输代理合同第21版
- 湖北竹溪县2026届中考联考数学试卷含解析
- 五年级数学(小数乘除法)计算题专项练习及答案
- 中医诊断学中的血常规检查辨证方法研究
- 道路交通安全隐患排查治理投标方案(技术标 方案)
- 小学奥数:计算《分数的巧算》练习题
- PDCA降低护士针刺伤发生率
- 阴道炎培训演示课件
- 组建风险管理咨询公司方案
- 汽车项目管理工作总结
- 丹毒课件护理查房
- 浙江宁波慈溪市机关事业单位招聘编外工作人员24人笔试参考题库(共500题)答案详解版
- PMC-651T配电变压器保护测控装置使用说明书V1.2
评论
0/150
提交评论