海洋数据库建设规范_第1页
海洋数据库建设规范_第2页
海洋数据库建设规范_第3页
海洋数据库建设规范_第4页
海洋数据库建设规范_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、地球科学数据共享材料八海洋科学数据库建设规范(讨论稿)中科院青岛海洋科学研究所地球科学数据共享政策与规范研究组2004年5月目录1 .前言 12 .海洋科学数据库建设总体要求 22 . 1海洋科学数据库总体框架构建22. 2具体的数据库的建库规范22. 2. 1术语定义22. 2. 2具体数据库的建库流程22. 2. 3具体数据库建设目标32. 2. 4数据库文档3海洋数据库建设规范实例:中国近海和西北太平洋温盐声密数据库建设规范.31 .前言 .32 .中国近海和西北太平洋温盐声密数据库建设规范 .42 . 1适应范围42. 2引用标准42. 3技术术语定义/解释52. 4编码、属性表命名规

2、则 72. 5元数据标准82. 6文档格式82. 7数据库建设流程82 . 8数据质量控制92. 9数据库汇交(集成)(汇交至的方法和途径等)121.前言海洋科学是一门综合性的学科,涵盖物理海洋学、海洋地质学、海洋生物学、海洋化学 等多个学科,研究工作中所涉及、积累的数据也是多种多样各不相同,如物理海洋方面水文 数据是记录着某一经纬度、某一时间、某一航次、某一深度的海水温度、盐度和密度信息; 海洋地质方面基础地质数据记录着某一区域海底深度及海底地貌等信息;而海洋生物方面又 可能是某一物种或某一标本的属性等,因此各方面的数据库建设也各不相同,建设规范也就各不相同。根据这种情况作为海洋科学数据库的

3、建库单位,一方面我们对整体的数据库建设有建设 规范(总体要求);另一方面,要求每一个具体的数据库要通过建库的工作确定各自的规范 和标准,这个规范、标准是代表海洋所水平的,基本也就是代表科学院水平的,而且要求进 行必要的鉴定工作成为国家水平的。2.海洋科学数据库建设总体要求2 .1海洋科学数据库总体框架构建海洋科学数据库可以粗略地分成海洋水文子库、海洋地质子库和海洋生物子库三个部 分,每个部分又包含了自成系统的多个具体的数据库。确定海洋科学数据库的整体框架, (从总结中摘录),使海洋科学数据库建和服务设成为日常性的工作。2 . 2具体的数据库的建库规范2.2.1术语定义源数据集:具体数据库建库的

4、数据来源,不拘于数据格式的、不断增长的数据集合。标准数据集:产生于源数据集,经过数据格式的统一,经过数据排重和质量控制后产生 的数据集合,最直接的入库数据。排重:在数据集中排除重复数据的过程。质量控制:在经过排重的数据集中排除非法数据的过程。专业性检索方法:指专业科学研究所习惯的数据库的检索途径,包括检索关键字。专业性检索结果:指专业科学研究所习惯的数据库的检索结果,包括可视结果和标准的 数据文件(能够直接用于专业研究的标准数据文件)。2. 2. 2具体数据库的建库流程统.据排数A质后强检5集各式I:控制结果数据库具体数据库2. 2. 3具体数据库建设目标建成三个数据实体源数据集标准数据集数据

5、库形成五个数据处理标准(专家鉴定)数据格式标准数据排重方法数据质量控制方法专业性数据检索方法专业性数据检索结果数据库的元数据建设建立B/S结构的数据库检索手段2. 2. 4数据库文档海洋数据库建设规范实例:中国近海和西北太平洋温盐声密数据库建设规范1 .刖日海洋信息是海洋科研、教案、工程设计、规划管理、环境测报及评价、海洋经济可持续 发展和军事海洋环境条件保证等的主要依据,因此海洋科学数据的收集、处理和数据库建设 具有重大的社会科学意义和紧迫的国家需求。众所周知,物理海洋学是海洋科学研究和应用 的基础,以海水温度、盐度、密度等参数为核心的海洋水文数据则是气候和海洋环境生态研 究、环境预报和评价

6、、工程设计、减灾防灾及军事海洋环境条件保证等的主要背景信息。我 国渤、黄、东、南海是世界大洋的一部分,其变化相互联系,并深受世界大洋的影响。要研 究和预测中国近海和邻近大洋的海洋环境变化,必须进行大范围的长期、同步海洋观测。进 行这样的海洋调查需要巨大投资,任何一个单位、部门、甚至国家都不可能单靠自己的调查 力量或依据未经系统整理的数据去开展大规模海洋研究工作。因此,海洋水文数据库建设不 但有重要的使用价值,还具有昂贵的产出价值和显著的社会共有性,同时必须依据科学合理 的建设规范来进行。国际海洋水文信息是海洋水文数据库的主要数据源。国际海洋水文数据种类繁多,时间 序列长,空间分布广,信息量巨大

7、,且积累速度快。这些数据分别来自全球几十个国家和地 区;使用的观测仪器千差万别;资料的整理方法各不相同;导出参数的计算方法和公式各 异;由实测层数据内插标准层的方法也各有长短;甚至采用的数据处理标准和编码,以及记 录的资料的格式也仍在统一过程中。因此,规范化的建库方法和标准化的建设流程,以及先 进的排重技术和严谨的质控方法都是保证建设合理、适用的海洋信息管理系统的前提条件。本规范是在总结海洋数据库体系中有代表性的“中国近海和西北太平洋温盐声密数据 库”的多年建库经验的基础上逐步发展完善起来的。本规范的创新及特色之处包括:通用的 ODSF1数据输入/输出格式、统一的数据排重程序、标准的数据质控方

8、法、规范的数据库建 设流程和全套国内外通用代码。它不仅指导了该数据库的建设,同时对海洋科学其他数据库 的建设有借鉴作用。2.中国近海和西北太平洋温盐声密数据库建设规范本规范适用于海洋物理(含温、盐、密、声、流、浪、潮)、海洋气象和化学数据库建 设中的相关数据处理工作及相关数据库建设。2. 2引用标准国家标准:(1) GB12763.1-91(2) GB12763.7-91(3) GB12763.3-91(4) GB12763.4-91(5) GB12763.5-91(6) GB12763.2-91(7) GB12763.6-91(8) GB31003102-82(9) GB/T17839-19

9、99(10) GB/T 1.1 1993海洋调查规范海洋调查规范总则 海洋调查规范海洋调查资料处理 海洋调查规范海洋气象观测 海洋调查规范海洋化学要素观测 海洋调查规范海洋声、光要素调查 海洋调查规范海洋水文观测 海洋调查规范海洋生物调查 量和单位警戒潮位核定方法标准化工作导则(11) GB12327-1998海道测量规范(12) GB17501-1998海洋工程地形测量规范(13) GB/T14158-93区域水文地质工程、地质环境、地质综合勘察规范(比例尺1: 50000)(14) GB/T 177981999 地球空间数据交换格式GB/T12763.1-2007海 洋调查规范第1部 分:

10、总则GB/T12763.2-2007海洋调查规范第2部分:海洋水文观测GB/T12763.3-2007海洋调查规范第3部分:海洋气象观测GB/T12763.4-2007海洋调查规范第4部分:海水化学要素调查GB/T12763.5-2007海洋调查规范第5 部分:海洋声、光要素调查GB/T12763.6-2007海洋调查规范第6部分:海洋生物调查GB/T12763.7-2007海洋调查规范第7部分:海洋调查资料交换GB/T12763.8-2007海洋调查规范第8部分:海洋地质地球物理调查GB/T12763.9-2007海洋调查规范第9部分:海洋生态调查指南GB/T12763.10-2007海洋调

11、查:规范第10部分:海底地形地貌调查GB/T 12763.11-2007 海洋调查规范 第11部分:海洋工程地质调查(15) GB 12409-90(16) GB/T GB2808-81地理格网全数字式日期表示法2. 3技术术语定义/解释2.1.1 主子表结构和数据分组(1)主子表结构:通过关联字段使主、子表对应,以解决数据记录表头和观测层数据 存、取的速度问题;主子表结构是数据记录“一对多”关系的具体体现。(2)数据分组:根据数据的某些特征将数据存储在不同的数据库对象中;检索时,只 需要根据数据特征来定位数据,并快速得到查询结果。2.1.2 数据查询(1)网格数据查询:在显示网格数据信息时,

12、直接读取和调用数据统计信息的过程。 数据统计信息是在进行数据维护时生成的,并存储到单独的数据库对象中。(2)鼠标点击查询:鼠标点击事件发生时,系统先通过中间数据定位查找结果,然后 再将查询结果反馈给应用程序的全过程。中间数据是在数据维护过程中生成的,将基本数据 中的某些信息进行提炼,并存储到单独的数据库对象中。2.1.3 数据定位确定数据所在位置(测站)的技术和过程,包括:(1) “极值”定位:依照网格数据的统计结果、根据统计网格编号和经、纬度值,查 询检索到该网格中的极值存在于特定测站的技术和过程。(2) “站次ID”定位:通过给定的经、纬度和站次 ID,检索和查阅该测站全部信息的 过程。(

13、3) “航迹图”定位:使用航次信息绘制的航迹或断面图去诊断和定位“有疑问”资 料的技术和过程。(4) 模糊定位:由于鼠标点击定位时,“点击点”与“真实数据点”之间存在位置上的差异,“模糊定位”是帮助用户查找到距“点击点”处最近的数据点的技术。2.1.4 数据格式参数化把数据格式以“自定义参数的形式”设计在程序中,统计调用时,通过函数名称进行调 度的技术。2.1.5 相关参数“函数化”将数据类型、观测参数、航次信息等先以函数的形式存放在数据表中,然后在程序运行 中通过函数进行转换以便达到只改变列表,不改动程序,就能容易达到预期的变更目的之技 术。2.1.6 数据库对象命名将参数直接写在数据表中,

14、通过数据表的名称来判断和定位数据,并缩小检索范围,以 解决参数快速准确存取的技术。2.1.7 元数据(metadata)描述某类数据的属性、特征、时、空变化范围及其质量、精度等相关信息的集合。2.1.8 编码将信息分类的结果用一种易于被计算机和人识别的符号体系表示出来的过程,是人们统 一认识、统一观点、相互交换信息的一种技术手段。编码的直接产物是代码。2.1.9 空间数据结构指空间数据在计算机内的组织和编码形式;它是一种适合于计算机存储、管理和处理空 间数据的逻辑结构,是实体的空间排列和相互关系的抽象描述。2.1.10 图文资料扫描数字化通过扫描把以纸介质为载体的图文资料由模拟信息转变为数字信

15、息,并按一定的质量要 求对电子文件进行加工和制作,然后存储在磁带、磁盘或光盘等介质上的过程。2.1.11 源数据集本系统所使用的数据来源之集合。2.1.12 基础(存档)数据集指来自于源数据集的数据,经过格式转换、代码统一、重复排除和质量控制后形成的实 测层数据集合(相对“标准数据集”而言)。值得一提的是:对于在标准层上发现的资料质 量问题,必须到实测层存档数据集中寻找出错原因,再加以改正,然后重新计算标准层后入 库。2.1.13 标准数据集根据实测层数据计算出的准备入库之标准层数据集合。标准层定义见下表序号系统名称标准层的层次1营养盐数据子系统0, 5, 10, 15, 20, 25, 30

16、, 50, 75, 100,125, 150, 200, 250, 300, 400, 500, 600,2深层流数据子系统700, 800, 900, 1000, 1100, 1200, 1300,3海峡通道数据子系统1400 , 1500 , 1750 , 2000 , 2500 , 3000 ,3500 , 4000 , 4500 , 5000 , 5500 , 6000 ,4温盐密声数据子系统6500, 7000, 7500, 8000, 8500, 90005ARGO数据子系统6统计产品信息子系统2.3.14排重排除数据集中重复数据的过程和技术。2.3.15质量控制剔除数据集或数据库

17、中随机错误和“人为虚构”测站资料与数据的过程及技术之总称。2 . 4编码、属性表命名规则2.4.1 编码规则本数据库中使用了包括网格编号、国家编码、资料源代码、资料类型、参数编码等在内 的诸多编码,其编码规则均采用由美国国家海洋数据中心编制的世界海洋数据库(WOD编码规则。为了方便数据循环调用和统计,字段编码采用代码制,即根据数据参数的特点,事 先制订字段参数-代码表,然后依据参数-代码表进行数据库设计2.4.2 数据库命名规则数据库名称为9位编:如ODMS_4002XX'X . XX XX 子系统编码子系统版本 系统名称2.4.3 数据表命名规则X XXXX X XXXXX数据表参数

18、2 数据表参数 1数据表类型数据表名称为12位编:如T4.4 字段命名规则为了方便数据循环调用和统计,字段编码采用代码制,即根据数据参数的特点,事先制 订字段参数-代码表,然后依据参数-代码表进行数据库设计2. 5元数据标准采用的元数据标准为WDCD海洋学资料元数据标准(见附件 1)。2 . 6文档格式本系统吸收国际各种数据格式的优点,自行 研发和采用了 “海洋 资料共享格式 (ODSF) ”,并改进为ODSF1,作为输入、输出格式(见附录 2)。2. 7数据库建设流程温-盐-密-声库的建设流程如下图所示。在做好数据收集提取、格式转换、编码统一、质 量控制和排重工作的

19、基础上,根据需求分析的结果,并灵活运用建库理论,通过数据管理子 系统,将经过校验的数据导入库内,建成数据库实体。同步类比剖面分析航迹图诊断盐密模检验极值定位2 . 8数据质量控制2. 8. 1质量监控体系质量监控体系包括数据入库前的质量控制流程和排重流程,以及数据入库后的库内分析 诊断模块。2.8.2数据质量监控1、数据质量控制流程图合并第二次质控用第二代质控参数对 JMA资料进行质控,并配合梯度检验第二次如错对二次质控出的问题进行人 /机结合审核、筛选把关,再次判断引起实测层资料 出错的原因,并改正之第三次内插对修改后的实测层数据文件重新计算标及层,得到各分区不同季节、不同层次的第三代温、盐

20、和溶解氧质控参数注:WOD01资料由此开始质控! 第二次质用第三代质控参数对 WOD01 等来源的十类资料(OSD/CTD/MBT/XBT/MRB/DRB/PFL/UOR/APB/SURF )进行质控,并结合梯度检验第二次纠错在各分区实测层数据文件中,人/机结合,改正质控出的实测层上的质量问题第四次“由值I使用改正后的实测层数据文件,重新计算标准层,获得下一代质控参数开始新一轮质控过程利用上一轮质控参数,对新收集到Argo等其它来源的资料进行下一轮质控。不断循环往复,逐步改进完善各分区不同季节/月份,不同层次上的质控参数2、排重工作流程图(以OSD类型资料为例)年度V饮次排13解压、合并后的

21、OSD资料总文件用经纬度和时间的第一组参数分离出完全重复的资料月4'<假日子._遴#小湎 孰也 假排 除 部:eP调块用左D边程.各序程块序正劣模H*块河尤块隽;一 雷 M本程经分L度造O腼.假程做资序料块重纬L度A通.程#序人工是仁排重可能完型颌1数据文件F审核否重复从两个或多个站中优选出一个站合并一 M生成*.comb1文件*排重使用经、纬度和时间组合的第二组参数审核否可能不重复数据文件并 入 重 复贝对应重雪站至REP是拄贝至呷算站REP生成统一的重复数据文件REP ,供IOCAS和OCL检验口寸使用可能重复数据文件重复可能不重复数据文件从两个或多个站中优选出一个站生成*.

22、comb2文件使用经、纬度和时同组合的第三组参数可能重复文件重复人工审核 否从两个或多个站中优选出一个站肯定不重复文件生成*.comb3最终文件,供质控使用3、库内分析诊断模块(1)极值定位利用本系统”通过给定站位和站次ID,可以查阅、检索,并显示该站完整信息”的功能,并“根据网格数据的统计结果,可进行极值(极大或极小值)定位”的功能模块,能够确认从0.1 o*0.1 o到100*10正意方区内的极值是否合理,从而达到诊断资料真实性的的 目的;因为“错情”通常是与观测参数特定空间范围和特殊时段的“极值”(极大/小值)紧密相关。(2)同步观测资料类比将数据类型、观测参数、航次/断面信息先以函数的

23、形式存放在数据表中,然后在程序 中通过函数进行转换,使相关参数“函数化”;这样只改列表,而不动程序,就可容易地达 到预想的变更目的。有质量问题的资料(造假)入库后,通过相关参数“函数化”处理和系 统强大的统计检索功能,可以把与该资料(造假)同属一个航次/断面的有关资料和其它航次/断面的同步或准同步测量资料调度到同一平面上类比,从而确认该(造假)资料的真实 性。实践证明,相当数量人为制造的资料与真实资料在同一时空环境下类比就会暴露“伪” 的原形。(3)盐-密模定量分析表征水团特性的温一盐曲线在特定海区具有定常的形态(Svordrup等1942),因此使用温-盐或盐-密双变量频率分布所形成的模式,

24、可以检验现有观测资料的质量。美国国家海 洋资料中心Douglas Hamilton 博士于1976年率先研制了 5°乂 5。网格的盐-密模,并用于定 性质控(Environmental Models for Quality Control, 1976, Douglas Hamilton)。借鉴美国的经验,使用了数据子系统的温、盐资料计算出条件密度,再用盐度和密度值及其它相 关参数制成不同海区、季节/月份、以及不同层次上的盐-密模型;之后再用盐-密模型检验 入库资料的质量,剔除可能会严重影响统计结果的非真实资料。(4)力次/断面分析诊断如果某一航次/断面中的“一个或多个”测站出现“有疑

25、问”的资料,系统会根据具体 需要和该航次综合信息绘制出航次/断面图,以确诊“疑问”之所在,并帮助纠正元数据, 同时提供纠错办法与可能的“订正量”,即订正值的大小。2. 9数据库汇交(集成)(汇交至的方法和途径等)(1)由研发单位向中科院科学数据库中心汇交本数据管理系统;(2)所有的数据库建设成果及相关文档(工程设计书、总体方案、建库合同、协议 等)均按科学数据库有关要求存档保管;(3)汇交数据文件的存储介质为光盘;(4)提交成果之前,应进行全面查、杀毒,以确保数据的安全。附录1 WDCD海洋学资料元数据标准数据集名称:中国近海和西北太平洋温盐声密数据库 数据集编码:待定数据集内容关键词:海洋信

26、息、格式、质控、排重、管理系统、标准数据集内容:海洋学各分支学科的现场观测资料数据集开始时间:1876年6月数据集结束时间:2004年4月数据空间范围(最低经度,最高经度):100oE140oE数据空间范围(最低纬度,最高纬度):10oS50oN数据空间范围(最低高度,最高高度):海面 海底数据质量说明:数据质量可靠,误码率小于万分之六数据存储介质:CD-ROM、DVD、活动硬盘数据存储格式:入库数据均以数据表的形式存储数据量:12.6GB数据来源:全球海洋科学团体数据集使用的语种:中文、英文系统、数据集、数据库等作者信息:科学顾问:胡敦欣系统总设计:许崇金、王 凡、代亮、孙丰山、陈献辉、孙东

27、丽、陈永利等 管理子系统设计:代亮、许崇金、王凡、孙丰山、孙东丽、陈永利、陈献辉 温-盐数据库设计:王凡、许崇金、代亮、孙丰山、孙东丽、陈永利、陈献辉 数据集存放地点:中国科学院海洋研究所数据集索取方式:函索/面商皆可。数据更新周期:每半年至一年更新一次附录2 "海洋资料共享格式(ODSF) ”本数据库吸收国际各种数据格式的优点,自行研发和采用了 “海洋资料共享格式(ODSF) ”,并改进为ODSF1,作为输入、输出格式。格式例样1:123456123456789012345678901234567890123456789012345678901234567890CC cruise Latitde Longitde YYYY MM DD Time Station #*第一个记录:英文表头说明49 PR19 26.830 121.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论