版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、12. 2. 与数据质量相关的几个概念与数据质量相关的几个概念(1) 误差(Error)。误差反映了数据与真值或者大家公认的真值之间的差异, 它是一种常用的数据准确性的表达方式。误差研究包括 : 位置误差: 即点的位置的误差、线的位置的误差和多边形的位置的误差 ; 属性误差: 第1页/共45页2产生的误差产生的误差的环节的环节1.投影变换: 地图投影是将三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下, 地理恃征的位置、面积和方向的表现会有差异。2.地图数字化和扫描后的矢量化处理: 数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。3.数据格式转换: 在矢量格式和栅格格式之
2、间的数据格式转换中, 数据所表达的空间特征的位置具有差异性。4.数据抽象: 在数据发生比例尺度变换时, 对数据进行的聚类、归并、合并等操作时产生的误差第2页/共45页35. 建立拓扑关系: 拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。6. 与主控数据层的匹配: 一个数据库中, 常存储同一地区的多层数据面, 为保证各数据层之间空间位置的协调性, 一般建立一个主控数据层以控制其他数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移, 从而导致误差。7. 数据叠加操作和更新: 数据在进行叠加运算以及数据更新时, 会产生空间位置和属性值的差异。第3页/共45页48.数据集成处理:
3、 指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程, 其中位置误差、属性误差都会出现。9.数据的可视化表达: 数据在可视化过程中为适应视觉效果, 需对数据的空间特征位置、注记等进行调整, 由此产生数据表达上的误差。10.数据处理过程中误差的传递和扩散: 在数据处理的各个过程中, 误差是累计和扩散的, 前一过程的累计误差可能成为下一个阶段的误差起源, 从而导致新的误差的产生。第4页/共45页5(2) (2) 准确准确度度(Accuracy)(Accuracy) 数据的准确度: 被定义为结果、计算值或估计值
4、与真实值或者大家公认的真值的接近程度。 即一个记录值(测量或观察值)与它的真实值之间的接近程度。 它可用误差来衡量。第5页/共45页6(3) 精度(Precision) 数据的精密度:数据表示的精密程度, 用数据的有效位数来表示, 它表现了测量值本身的离散程度。 精确度:精密度的实质在于它对数据准确度的影响, 同时在很多情况下, 它可以通过准确度而得到体现, 故常把二者结合在一起称为精确度, 简称精度, 即对现象描述的详细程度。 精度低的数据并不一定准确度也低.第6页/共45页7(4) (4) 不确定性不确定性(Uncertainty)(Uncertainty) 不确定性是关于空间过程和特征不
5、能被准确确定的程度, 是自然界各种空间现象自身固有的属性。在内容上, 它是以真值为中心的一个范围, 这个范围越大, 数据的不确定性也就越大。 土地信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性和逻辑上的不一致性及数据的不完整性。 数据的不完整性指对于给定的目标, GIS没有尽可能完全地表达该物体。第7页/共45页8(5) (5) 空间分辨率空间分辨率( (Spatial ResolutionSpatial Resolution) ) 分辨率是空间目标可辨识的最小尺寸。如遥感影像上最小可分辨的地物目标。在一个图形扫描仪中最小的物理分辨率从理论上讲是由设施的像元大小来确定的。
6、在一个激光打印机上这是84.6710-3mm, 第8页/共45页9(6) (6) 比例尺比例尺(Scale)(Scale)比例尺是地图上一个记录的距离和它所表现的真实世界的距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如, 在一个1:10 000比例尺的地图上, 一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度, 那么就不可能表示小于5m的现象。第9页/共45页10二、空间数据质量的评价二、空间数据质量的评价 (一)、空间数据质量标准 空间数据质量标准是生产、使用和评价空间数据的依据。 目前, 世界上已建立了一些数据质量标准, 如美国FGDC的
7、质量标准等。 空间数据质量标准的建立必须考虑数据产生的全过程。第10页/共45页11空间数据质量空间数据质量标准的标准的要素及内容要素及内容(1) 数据情况说明:对地理数据的来源、内容及处理过程等做出准确、全面和详尽的说明。(2) 位置精度:为空间实体的坐标数据及实体真实位置的接近程度, 常表现为空间三维坐标数据精度。它包括数学基础精度、平面精度、高程精度、接边精度、形状再现精度(形状保真度)、像元定位精度(图像分辨率)等。(3) 属性精度:指空间实体的属性值与其真值相符的程度。通常取决于地理数据的类型, 且常常与位置精度有关, 包括要素分类与代码的正确性、要素属性值的准确性及其名称的正确性等
8、。第11页/共45页12(4) 时间精度: (5) 逻辑一致性:指地理数据关系上的可靠性,包括数据结构、数据内容(如毛面积、净面积和扣除面积的关系), 以及拓扑性质上的内在一致性。(6) 数据完整性。指地理数据在范围、内容及结构等方面满足所有要求的完整程度, 包括数据范围、空间实体类型、空间关系分类、属性特征分类(如土地利用分类编码能否涵盖所有现象)等方面的完整性。(7) 表达形式的合理性。主要指数据抽象、数据表达与真实地理世界的吻合性, 包括空间特征、专题特征和时间特征表达的合理性等。第12页/共45页13(二二)、空间数据质量的评价、空间数据质量的评价 数据质量评价矩阵 P45注意: 质量
9、评价对生产者和用户都十分重要 多尺度(多精度):不同用户,不同比例尺对数据质量有不同要求 时效性:不同数据有不同时效要求 数据精度的测试结果与测试报告第13页/共45页14数据质量的研究涉及数据问题的检查方法、评价方法和标准等内容。数据质量的研究涉及数据问题的检查方法、评价方法和标准等内容。一、一、GISGIS数据质量问题的检查方法数据质量问题的检查方法发现数据错误,探测数据精度和准确性,是研究数据质量的前提。发现数据错误,探测数据精度和准确性,是研究数据质量的前提。GIS GIS 中对数据中对数据质量检查的方法主要有直接评价、间接评价和非定量描述等。质量检查的方法主要有直接评价、间接评价和非
10、定量描述等。1 1、直接评价法、直接评价法(1 1)用计算机程序自动检测)用计算机程序自动检测 例如,检测文件格式是否符合规范、编码是否正确、数据是否超出范围等。例如,检测文件格式是否符合规范、编码是否正确、数据是否超出范围等。(2 2)随机抽样检测)随机抽样检测 在确定抽样方案时,应考虑数据的空间相关性。在确定抽样方案时,应考虑数据的空间相关性。2 2、间接评价法、间接评价法 所谓间接评价法是指通过外部知识或信息进行推理来确定空间数据的质量的方所谓间接评价法是指通过外部知识或信息进行推理来确定空间数据的质量的方法。法。3 3、非定量描述法、非定量描述法 非定量描述法是指通过对数据质量的各组成
11、部分的评价结果进行的综合分析来非定量描述法是指通过对数据质量的各组成部分的评价结果进行的综合分析来确定数据的总体质量的方法。确定数据的总体质量的方法。第14页/共45页15二、研究二、研究GIS GIS 数据质量的常用方法数据质量的常用方法1 1、敏感度分析法、敏感度分析法2 2、尺度不变空间分析法、尺度不变空间分析法3 3、Monte CarloMonte Carlo实验仿真实验仿真4 4、空间滤波、空间滤波第15页/共45页16三、数据采集中数据质量的评价内容三、数据采集中数据质量的评价内容 GIS中数据采集的方法通常可分为直接方法和间接方法两种。直接方法是指直中数据采集的方法通常可分为直
12、接方法和间接方法两种。直接方法是指直接从野外采集,以获取观测数据、图像等,间接方法是指从已有的图件上进行采接从野外采集,以获取观测数据、图像等,间接方法是指从已有的图件上进行采集。集。地图数字化是获取矢量数据的主要方法之一,也是地图数字化是获取矢量数据的主要方法之一,也是GIS中的重要误差源,是中的重要误差源,是GIS 数据质量研究的重点之一。下面对地图数字化的数据误差作一分析。数据质量研究的重点之一。下面对地图数字化的数据误差作一分析。1、地图固有误差的来源和类型、地图固有误差的来源和类型在地图的固有误差中,除了含有控制点和碎部点引入的误差外,至少存在下列误在地图的固有误差中,除了含有控制点
13、和碎部点引入的误差外,至少存在下列误差:差:(1)控制点展绘误差)控制点展绘误差 (2)编绘误差)编绘误差 (3)绘图误差)绘图误差 (4)综合误差)综合误差 (5)地图)地图复制误差和分版套合误差复制误差和分版套合误差 (6)绘图材料的变形误差)绘图材料的变形误差 (7)特征的定义)特征的定义2、数字化的误差、数字化的误差 (1)自动回归法)自动回归法 (2)Band法法(误差带方法误差带方法) (3)对比法)对比法第16页/共45页17(三三)、空间数据源误差及其分析、空间数据源误差及其分析 1. 空间数据源误差 地图、 遥感 测量第17页/共45页18(1) (1) 地图误差地图误差 地
14、图固有误差地图固有误差。指用于数字化的地图本身所带有的误差, 包括控制点误差、投影误差等。 材料变形产生的误差材料变形产生的误差。这类误差是由于图纸的大小受湿度和温度变化的影响而产生的。温度不变的情况下, 若湿度由0%增至25%,则纸的尺寸可能改变 1.6%; 纸的膨胀率和收缩率不相同, 即使温度又恢复到原先水平, 图纸也不能恢复原有的尺寸 数字化误差数字化误差:数字化仪;扫描矢量化第18页/共45页19( (2 2) ) 遥感数据误差遥感数据误差 遥感数据的误差来源: 观测过程:受空间分辨率、几何畸变和辐射误差等影响。 处理和解译过程:由图像处理中的影像或图像校正和匹配以及遥感解译判读和分类
15、引人的,其中包括混合像元的解译判读所带来的属性误差。第19页/共45页20( (3 3) ) 测量数据的误差测量数据的误差 标准椭球体代表地球真实表面空间时, 已经引人了一定的误差因素, 由于这种误差因素无法排除, 一般也不作为误差考虑。 测量方面的误差通常考虑的是系统误差、操作误差和偶然误差。 (a) 系统误差的发生与一个确定的系统有关 , 它受环境因素(如温度、湿度和气压等)、仪器结构与性能以及操作人员技能等方面的因素综合影响而产生。系统误差不能通过重复测量以检查或消除, 只能用数字模型模拟和估计。第20页/共45页21 (b) 操作误差是操作人员在使用设备、读数或记录观测值时, 因粗心或
16、操作不当而产生的。 (c) 偶然误差是一种随机性的误差, 由一些不可预料和不可控制的因素引人。这种误差具有一定的特性, 如正负误差出现频率相同、大误差少、小误差多等。偶然误差可采用随机模型进行估计和处理。第21页/共45页222. 2. 常见空间数据误差分析常见空间数据误差分析 LIS中的误差包括逻辑误差、几何误差、属性误差和时间误差,后两种误差和普通系统概念一样 (1) 逻辑误差:数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差, 有助于发现不完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量评价, 一般先从数据的逻辑性检查人手。如图3-3 所示第22页/共45页23
17、 (2) 几何误差。由于地图是以二维平面坐标表示位置 , 在二维平面上的几何误差主要反映在点和线上。 a. 点误差。 关于某点的点误差即为测量位置(x,y)与其真实位置 ( x0 ,y0)的差异。坐标误差定义为: x = x - x0 y = y - y0 为了衡量整个数据采集区域或制图区域内的点误差, 一般采用抽样测算(x,y)。抽样点应随机分布于数据采集区内, 并具有代表性。这样抽样点越多, 所测的误差分布就越接近于点误差的真实分布。第23页/共45页24 b. 线误差。线在系统数据库中既可表示线性现象, 又可以通过连成的多边形表示面状现象。 第一类:线在真实世界中是可以找到的, 如道路、
18、河流、行政界线等, 这类线性特征的误差主要产生于测量和对数据的后处理 ; 第二类:现实世界中找不到的, 如按数学投影定义的经 纬线、等高线、气候区划线和土壤类型界限等, 这类线性特征的线误差, 被称为解译误差。 解译误差与属性误差直接相关, 若没有属性误差, 则可以认为那些类型界线是准确的, 因而解译误差为零。第24页/共45页25四、空间数据质量控制四、空间数据质量控制常见的方法有 :1. 传统的手工方法主要是将数字化数据与数据源进行比较, 图形部分的检查包括目视方法、绘制到透明图上与原图叠加比较, 属性部分的检查采用与原属性逐个对比或其他比较方法。2. 元数据方法元数据中包含了大量的有关数
19、据质量的信息, 通过它可以检查数据质量, 同时元数据也记录了数据处理过程中质量的变化, 通过跟踪元数据可以了解数据质量的状况和变化。3. 地理相关法用空间数据的地理特征要素自身的相关性来分析数据的质量。例如, 从地表自然特征的空间分布着手分析, 山区河流应位于地形的最低点(最低等高线)第25页/共45页26实例:实例:“数字国土数字国土”数据质量控制指标数据质量控制指标第26页/共45页272 21 1 经过纠正的分幅原始扫描图数据经过纠正的分幅原始扫描图数据()扫描图数据清晰,能够区分图内各要素。(2)扫描影像数据经过角度纠正,纠正后的图幅下方两个内图廓点的连线与水平线的角度误差不超过0.2
20、度。. .矢量化后未校正的分幅图件数据矢量化后未校正的分幅图件数据 图内各要素的采集无错漏现象 图形定位误差(即图形控制点采集)不超过0.2mm(图面值)。 各要素的采集与扫描数据相吻合,线划(点位)整体或部分偏移的距离不超过0.3mm(图面值)。. .经过误差校正的分幅数据经过误差校正的分幅数据 与理论值相比,误差校正后的控制点(四个内图廓点)点位绝对误差不超过0.1mm(图面值)。第27页/共45页282 24 4 经过坐标系转换并经过接边的分幅数据经过坐标系转换并经过接边的分幅数据 数据内容齐全。 坐标系转换后的同名控制点点位绝对误差不超过1m(实地值)。 转换后的所有数据必须分层。 数
21、据具有严格的拓扑结构。 面状图形数据中无碎片多边形。 图形数据及属性数据的输入正确。 相邻图幅同名弧段和线的接边误差不超过1m(实地值)。 相邻图幅中同名图斑必须合并。第28页/共45页292 25 5 经过拼接和分层的整个辖区土地利用数据库文件经过拼接和分层的整个辖区土地利用数据库文件 数据库分层正确,内容齐全。 所有数据层的点、线(弧段)、面的属性结构与县(市)级土地利用数据库标准一致,图形数据的坐标系和坐标相互匹配,属性输入正确。 所有数据层具有拓扑结构。 数据库数据字典的数据项齐全,符合县(市)级土地利用数据库标准要求。 数据字典数据项的内容正确。 标准分幅索引图范围覆盖整个行政区。
22、图形坐标系符合3度分带的投影带类型。第29页/共45页302 26 6 数据库系统试运行测试数据库系统试运行测试 试运行无死机现象。 能对图斑、行政区、线状地物、零星地类和权属等数据层进行组合查询并且结果正确。 能按要求对数据进行汇总统计并输出标准表格。 能按要求输出标准分幅图和分乡图。2 27 7 电子数据电子数据 数据结构符合县(市)级土地利用数据库标准要求。 数据输入后逻辑检查正确。 分幅图斑面积与图幅理论面积的误差控制 在0.25%以内。 辖区总面积与原始详查汇总面积的误差控制在0.25%以内。第30页/共45页312 28 8 分幅数据采集、预处理和建库出现的问题及解决方法的说明文档
23、分幅数据采集、预处理和建库出现的问题及解决方法的说明文档 文档要求描述准确,逻辑清楚。2 29 9 面积数据汇总面积数据汇总(1) 原始详查辖区总面积与计算机量算面积误差控制在1%以内。(2) 计算机图幅量算面积与理论面积的误差控制在0.1%以内。(3) 要求提交图形数据与属性数据对应连接的比例值(包括项数比例、辖区面积比例、一级地类面积比例)和说明以便于后期数据分析。第31页/共45页32空间数据的元数据空间数据的元数据一、元数据的概念二、元数据的类型 三、空间数据元数据的标准四、空间数据元数据的获取与管理第32页/共45页33一、元数据的概念 Metadata 可译成元数据, 是描述数据的
24、数据。 在地理空间数据中, 元数据说明数据的内容、质量、状况和其他有关特征的背景信息。 它主要反映数据集自身的特征规律, 以便于用户对数据集的准确、高效与充分的开发与利用 不同领域的数据库, 其元数据的内容会有很大差异。第33页/共45页34元数据的目的元数据的目的 建立元数据的目的:促进数据集的高效利用, 并为计算机辅助软件工程服务。产生背景 空间数据的需求日益增大:网络、通迅 数据生产者:管理、维护大量空间数据 数据用户:快捷、有效、准确的使用大量空间数据 要求知道内容、质量、状况等 元数据可以解决这些问题第34页/共45页35元数据的主要内容元数据的主要内容(1) 对数据集的描述, 对数
25、据集中各数据项、数据来源、数据所有者及数据序代(数据生产历史)等的说明 ;(2) 对数据质量的描述, 如数据精度、数据的逻辑一致性、数据完整性、分辨率、元数据的比例尺等; (3) 对数据处理信息的说明, 如量纲的转换等;(4) 对数据转换方法的描述;(5) 对数据库的更新、集成等的说明。第35页/共45页36土地信息系统中元数据的作用土地信息系统中元数据的作用(1) 数据维护:帮助数据生产单位有效地管理和维护空间数据, 建立数据文档, 并保证即使其主要工作人员离开时, 也不会失去对数据情况的了解;(2) 数据有效使用:提供有关数据生产单位数据存储、数据分类、数据内容、数据质量、数据交换网络及数
26、据销售等方面的信息, 便于用户查询检索空间数据;(3) 对数据功能预判断:帮助用户了解数据, 以便就数据是否能满足其需求做出正确的判断;(4) 数据处理转换:提供有关信息, 以便于用户处理和转换有用的数据。第36页/共45页37二、元数据的类型二、元数据的类型 1. 1. 根据元数据描述对象分类根据元数据描述对象分类(1) 数据层元数据。指描述数据集中每个数据的元数据, 内容包括日期、位置、量纲、注释、误差标识、缩略标识、存在问题标识、数据处理过程等。(2) 属性元数据。是关于属性数据的元数据, 内容包括为表达数据及其含义所建的数据字典、数据处理规则 (协议), 如采样说明、数据传输线路及代数
27、编码等。(3) 实体元数据。是描述整个数据集的元数据, 内容包括数据集区域采样原则、数据库的有效期、数据时间跨度等。 第37页/共45页382. 2. 根据元数据在系统中的作用分类根据元数据在系统中的作用分类(1) 系统级别元数据。指用于实现文件系统特征或管理文件系统中数据的信息, 如访问数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量等。(2) 应用层元数据。指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息, 如文本文件内容的摘要信息、图形快照、描述与其他数据文件相关关系的信息。它往往用于高层次的数据管理, 用户通过它可以快速获取合适的数据。第38页/共45页393. 3. 根据元数据的作用分类根据元数据的作用分类 (1) 说明元数据。是为用户使用数据服务的元数据。它一般用自然语言表达, 如元数据覆盖的空间范围、元数据图的投影方式及比例尺的大小等, 这类元数据多为描述性信息, 侧重于数据库的说明。 (2) 控制元数据。是用于计算机操作流程控制的元数据, 这类元数据由一定的关键词和特定的句法来实现。其内容包括数据存储的检索文件、检索中与目标匹配的方法、目标的检索和显示等。这类元数据主要是与数据库操作有关的方法。第39页/共45页40三、空间数据元数据的标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度拆除工程安全教育培训拆房协议范本4篇
- 个人家居装潢服务协议(2024版)版B版
- 二零二五年度FXBIB房地产经纪网络平台合作协议3篇
- 2025年度产业园企业入驻产业园区安全与应急管理合作协议4篇
- 2025年度高科技园区产权转让合同模板及范文3篇
- 二零二五年度南京市房产赠与合同(亲情关怀版)3篇
- 事业单位固定期限劳动协议样式版A版
- 2025年度城市轨道交通建设合同协议4篇
- 2025年度老旧厂房拆迁评估及补偿执行标准合同3篇
- 2025年度户外活动柴油补给服务协议4篇
- NB/T 11434.5-2023煤矿膏体充填第5部分:胶凝材料技术要求
- 2020-2024年安徽省初中学业水平考试中考物理试卷(5年真题+答案解析)
- 手术器械与敷料的传递
- 提高护士手卫生执行率PDCA案例汇报课件(32张)
- 日本人的色彩意识与自然观
- 校园网络系统的设计规划任务书
- 部编版5年级语文下册第五单元学历案
- 建造师建设工程项目管理二局培训精简版课件
- 电工(三级)理论知识考核要素细目表
- 单位就业人员登记表
- 卫生监督协管-医疗机构监督
评论
0/150
提交评论