大数据的热点领域研究_第1页
大数据的热点领域研究_第2页
大数据的热点领域研究_第3页
大数据的热点领域研究_第4页
大数据的热点领域研究_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据的热点领域研究

航天遥感系统近年来,大数据已经成为推动云计算和物联网后比特应用的最受欢迎的领域。它出现在经济、社会、工程、科学等领域。引起了国内外学术界、科学界和政府的高度关注。Nature、Science、欧洲信息学与数学研究协会会刊ERCIMNews等国际知名学术杂志纷纷推出大数据专刊,从不同角度讨论大数据研究的关键技术146648。我国也多次组织关于大数据的学术讨论会,深入讨论大数据的理论、工程技术、应用方向、研究工作的组织方式和资源支持形式等重要问题648。2012年3月美国政府正式启动了“大数据发展计划”,这被业界视为美国政府继“信息高速公路计划”之后在信息科学领域的又一重大举措147107。根据该计划,美国国家航天局(NationalAeronauticsandSpaceAdministration,NASA)、美国大气海洋管理局(NationalOceanicandAtmosphericAdministration,NOAA)、美国地质勘探局(UnitedStatesGeologicalSurvey,USGS)等美国航天遥感科研机构陆续开展了大数据背景下获取、存储、处理、分析和共享海量遥感数据的研究工作107。遥感是一门利用非接触传感器获取远距离物体信息的综合应用学科,广泛应用于资源普查、环境保护、农业估产、林业调查、水利建设、城市管理、海洋保护、灾害防治等诸多行业领域,成为支撑经济社会发展决策的重要技术手段之一。根据数据获取方式的不同,遥感分为航天遥感、航空遥感和地面遥感三种。由于具有全天候、大范围、观测周期短、动态性强等优点,随着航天技术的快速发展,航天遥感成为遥感领域里研究和发展的重点。航天遥感系统是具有获取、处理、管理、分析和应用遥感数据等功能的有机整体,包括能量源、观测目标、数据获取系统、信息反演系统、信息应用系统、用户等六个方面。航天遥感系统的工作机理(图1)为:来自于能量源的电磁波与目标相互作用后向空间反射或辐射;系统通过天基传感器获取载有目标信息的电磁波信号,并将信号传输回地面,经过数据预处理后得到遥感数据;利用遥感信息模型,从遥感数据中反演(提取)出特征信息;分析遥感特征信息,形成知识,并提供给用户以支持其应用决策。控制系统负责监控航天器运行状态,并根据用户的观测需求制定系统任务指令,以获取新的遥感数据。目前,航天遥感系统在星地数据传输、数据存储管理、数据预处理、数据分析应用、结果展示可视化等关键环节上面临着数据规模庞大、类型复杂、增长快速三个典型的大数据难题。首先,全球目前已经形成一个多尺度、多角度、全方位和全天候的立体对地观测网。这意味着人类在有能力详尽获取地球信息的同时,也带来了海量的遥感数据。截止到2006年,NASA的9个数据存档中心累计存储遥感卫星数据和试验数据高达4.9PB,每天新增4.5TB数据,并向用户每日分发2.5TB数据687。我国的三大卫星中心,即国家卫星气象中心、中国资源卫星应用中心、国家卫星海洋应用中心,分别存储了1.1PB左右的气象卫星数据、3.5PB左右的陆地观测(资源)卫星数据、25TB左右的海洋卫星数据370234。其次,遥感数据全部为非结构化数据。从航天遥感系统的运行过程来看,可见光、红外、微波、激光、重力和电磁等各种类型传感器以主动和被动的方式获取地球目标信息,以成像和非成像两种方式记录为原始数据,再经过预处理、反演(提取)和分析应用等一系列处理后,得到图像或者信号形式的遥感数据。这些数据的语义关系都难以用传统关系数据库的二维逻辑来表示。此外,数据之间还包含了大量的冗余性,也完全不满足结构化数据的原子一致性要求。再次,随着遥感卫星数量的快速增加,以及空间、时间、光谱等观测分辨率的大幅提高,遥感数据量的增长速度非常快。如EOS(EarthObservationSystem)的Terra和Aqua两颗卫星每日获取的数据量就在TB级以上688。国家卫星气象中心负责存档国内外21颗气象卫星的801类数据,每日新增数据量约2TB370。中国资源卫星应用中心目前管理8颗国产陆地观测(资源)卫星,每日获取的数据量高达4TB233。本文从星地数据传输、数据存储管理、数据预处理、数据应用、可视化展示等五个航天遥感系统的关键环节出发,分析航天遥感系统的技术现状,结合信息通信、海量存储、高性能计算、空间数据挖掘、可视化等五个大数据研究热点领域的关键技术,探讨在大数据背景下如何解决航天遥感系统所面临的大数据难题,满足海量遥感数据的快速获取、高效管理、深入应用和直观展示等方面的需求。1星域数据1.1星上数据压缩技术遥感卫星的数据传输系统负责将传感器采集的目标信息发送回地面,是航天遥感系统的重要组成部分。随着航天技术的发展,遥感卫星的探测能力大幅提高,空间分辨率达到亚米级,光谱分辨率可达纳米级,辐射量化比特数可达16位。这使得数据传输系统的传输码速率不断提高,传输带宽已经逼近了国际电信联盟所规定的民用X波段无线电带宽。例如,法国SPOT-5卫星的传输码速率为150Mb/s,美国Landsat-7卫星的传输码速率为280Mb/s,我国“资源一号”卫星的传输码速率为113Mb/s,美国商业卫星IKONOS-2卫星和Quickbird卫星的传输码速率均为320Mb/s。目前大多数高分辨率卫星还采用双极化方式提高传输的数据量。例如,法国Pleidades卫星的累计传输码速率为600Mb/s,美国商业卫星WorldView-1和GeoEye-1卫星的累计传输码速率分别为800Mb/s和740Mb/s,日本ASNARO-1卫星的累计传输码速率为832Mb/s,我国“资源三号”卫星和“高分一号”卫星的累计传输码速率均为900Mb/s287。由于星地传输空间环境复杂和星上天线功率的限制,数据传输系统通常采用数据压缩、信道编码和调制等技术提高传输效率和降低传输误码率。在保证数据质量的前提下,数据压缩可以去除数据中的冗余度,降低传输的数据量。目前星上普遍采用差分脉冲编码调制(differentialpulsecodemodulation,DPCM)、离散余弦变换(DiscreteCosineTransform,DCT)和小波变换等三种方法进行数据压缩编码。DPCM属于预测编码方法,可以实现数据的无损压缩,但是压缩比不高,仅有2︰1或者稍高。DCT和小波变换属于变换编码方法,具有8︰1以上的高压缩比,但是会损失部分信息。信道编码使用纠错能力较强的差错控制方法降低数据传输过程的误码率,改善恶劣通信链路下的传输质量。NASA在1984年制定了标准的空间通信级联编码方案,将RS线性分组码作为外码,Viterbi卷积码作为内码,并加上一定深度的交织码。该方案具有很强的纠正突发的孤立错误、随机错误和连续错误的能力,还有很好的编码增益,被国际空间数据系统咨询委员会(ConsultativeCommitteeforSpaceDataSystems,CCSDS)正式采纳作为AOS(AdvancedOrbitingSystem)标准,在航天通信中广泛使用。调制技术将压缩、编码后的基带信号变换到适合在长距离复杂环境下传输的频带信号。目前,遥感卫星上普遍采用四相移相键控(quadraturephaseshiftkeying,QPSK)及一些派生的调制技术,可以实现2b/(s·Hz)的传输比特率。1.2信道编码与多进制正交幅度调制压缩感知(compressedsensing)理论突破了传统信号处理中奈奎斯特采样定理的限制,将对信号的频率采样转变成了对信号中信息稀疏性的采样,大幅降低了采样数据量和硬件成本。如果信号在某个变换域下可以稀疏表示,即可以通过满足非相干性或等距约束性准则的感知矩阵将信号投影到正交变换基上,得到稀疏或者近似稀疏的变换向量。通过求解非线性最优化问题可以重构出原始信号。压缩感知理论可以作为信源压缩方法大幅降低传输的数据量。此外,压缩感知理论能以远低于奈奎斯特频率进行采样,获取高质量的图像,为新的遥感成像方式提供理论支撑。Turbo码和低密度校验码(lowdensityparitycheckcodes,LDPC)是接近香农极限的信道编码技术。Turbo码吸取了传统级联码优点,先用递归系统卷积码作为构造级联的子码,再采用随机交织器将各个子码交织级联。依据级联结构的不同,Turbo码又分为并行级联、串行级联和混杂级联三种。Turbo码充分利用了不同子码间的附加信息,具有很好的编码增益。此外,Turbo码有很好的距离特性,可以在低信噪比的环境下保持很好的性能,成为3G移动通信的信道编码标准。LDPC是在一个稀疏矩阵上构造的线性分组码,根据构造矩阵中行列数是否固定,可以分为规则码和非规则码。LDPC的译码复杂度低,适合并行操作,并且时延小,非常适合遥感卫星数据传输的实时性要求。多进制正交幅度调制(multiplequadratureamplitudemodulation,M-QAM)是一种高效调制技术,可以将传输效率提高到8b/(s·Hz)甚至更高。正交频分复用(orthogonalfrequencydivisionmultiplexing,OFDM)技术则是一种新的无线多载波传输技术,先把有效带宽的信道分割成多个子信道,再将数据在各个子信道上调制后传输。当子信道数较大时,可以达到很高的频谱利用率。此外,格状编码调制(trelliscodedmodulation,TCM)和比特交织编码等技术将编码与调制相结合,改变了以往将编码和调制分别设计的思想,兼顾数据传输的有效性和可靠性,可以在不损失频带宽度的前提下提高误码性能。1.3apt技术用于大气传输的原理大气激光通信具有更高的载波频率,其信道容量超出短波几十万倍,可以改变目前频率资源紧张的局面,是信息通信领域中的研究热点之一。目前,星地激光通信研究热点包括光学系统、编码、调制、APT(acquisition,pointingandtracking)等关键技术。光学系统通常采用自适应变焦、增大发射功率、多天线备份等方式来解决大气的衰减和折射,以及雨雾雪等天气因素对激光传输稳定性的影响。此外,光学系统还需要具有超窄带宽和高透射率的滤波器,以减少背景辐射的干扰。大气激光通信是一种点对点式的通信,发射角非常小,要求发送端和接收端时刻对准,终端平台的状态有任何微小的变动都会造成通信链路的中断。APT技术根据干扰源的特性和跟踪精度要求,动态调整天线位置,使发送端的激光始终处于接收端的中心位置,保持链路畅通。小波变换、Turbo码、LDPC码、QPSK等短波通信中的编码和调制技术在大气激光通信中依然在研究使用。此外,研究人员还提出了Alamouti码、时空码等新的编码方式和偏振移相等新的调制技术。1.4“洋地图观测者”超光谱成像仪在星上安装高速数据处理系统,使卫星具备数据实时处理能力,只将处理后有价值的数据传回地面,也是一种提高星地传输效率的技术手段。美国研制的“海洋地图观测者”超光谱成像仪带有一个高速数据处理系统,可根据光谱图像特征识别地物目标,具有图像数据分析、图像特征提取与分类、数据压缩等处理能力。经处理后的有效数据通常只占原始数据的1/10,大大降低了传输数据量。德国航空航天中心于2001年发射的火情监测小卫星BIRD,采用了新型星载数据处理系统,集成了数据预处理、图像特征提取、图像数据的识别和分类等处理技术,可以实时生成仅包含关键信息的专题地图数据,显著降低了传输数据量。2数据存储管理2.1遥感存储的实现遥感数据存储管理系统主要包括两大功能:一是高效的数据索引管理,能够快速定位数据存储的物理位置;二是对数据进行稳定可靠的存储以及快速读写、移动和删除等操作。目前,我国的三大遥感数据中心,即国家卫星气象中心、中国资源卫星应用中心和国家卫星海洋应用中心,均使用成熟的商业关系数据库保存遥感数据的元数据信息,并用SQL语句对元数据进行插入、查询、更新和删除等操作。这种方案可以充分利用商业关系型数据库的稳定性,简化数据层的访问接口,便于系统的开发和维护;但在面对上百万条数据记录时,会带来数据操作上的性能损失。因此,NASA的数据存档中心采用基于Linux操作系统的目录分级方式来组织管理数据文件,进行数据查询时不需调用复杂的数据存储关系信息,大大加快了用户对数据的获取速度;此外,还具备较好的横向可扩展性,满足了快速增长数据的管理需求。在数据的存储方面,基于SAN的分布式并行存储系统和基于NAS的集群存储系统是最为常用的两种方式。前者是在基于SAN网络构成的磁盘阵列上部署分布式并行文件系统,客户端将数据文件以块的方式直接写入到磁盘阵列上,系统通过元数据对数据块实现文件管理。系统的性能主要依靠磁盘阵列控制器中的CPU、缓存、总线带宽等参数来决定。这种系统只能实现纵向扩展,随着磁盘数量的增加,性能将会降低;此外,无法支持在线扩容,以及扩容的硬件设备必须与原厂商兼容,扩容成本较高。后者是在传统NAS的架构下,由多个具有较小存储容量的存储节点共同组成完整的存储系统。集群存储中的每一个节点既是存储节点也是I/O节点,数据被分布存储在不同的存储节点中。这种系统具有横向扩展的特点,不会因为存储容量增加而降低I/O性能,同时存储节点可以采用通用的X86服务器架构,降低了扩容成本。按照遥感数据存储物理位置的不同,现有的存储系统又可以分为分布式存储和集中式存储。前者将存储系统分散建设在不同的物理地点,仅在逻辑上集中管理,可以解决不同业务、不同存储技术之间的统一管理问题。典型的系统有NASA的EOS系统和ESA(EuropeanSpaceAgency)的G-POD系统。后者则是将存储系统集中建设在一个物理地点,便于数据的统一管理和系统维护。我国的遥感数据中心大都采用集中式存储方案。由于遥感数据处理属于计算密集型,为了解决数据访问速度和存储容量之间的矛盾,大多数存储系统采用了在线、近线、离线的三级架构。在线存储采用高速存储系统,满足数据处理时快速读写的需求。近线存储则使用低速的磁带库,满足大容量数据长期存储的需求。离线的磁带负责数据的永久保存。2.2多副本管理和存储辅助技术从国内外航天遥感系统的发展趋势来看,地面系统将向着多颗卫星、多种传感器数据统一管理和分发共享的方向发展。如美国的EOS系统整合其国内各遥感机构的地面系统,不仅可以存储和分发所有Landsat卫星的数据,而且负责后续所有对地观测卫星数据的存储和分发服务764。我国也计划通过高分辨率重大科技专项整合国内的遥感卫星地面系统,实现数据的统一共享23。云存储技术可以整合不同单位、不同业务、不同地点之间的存储系统,提供统一的存储服务。目前,典型的云存储系统有谷歌的GFS(GoogleFileSystem)和Hadoop的HDFS(HadoopDistributedFileSystem),许多互联网公司的海量数据存储系统都是基于这两种系统进行的改进。多副本管理是提高云存储系统可靠性和访问效率的关键技术,包括了副本创建、副本选择、副本定位、副本删除和数据一致性等5个方面。最佳客户策略是流行的副本创建策略,既可以提高数据访问效率,又能减少网络带宽消耗。它需要在每个存储网格节点上详细记录用户访问数据的次数,当访问次数超过阈值后即在该节点上创建副本。副本选择技术负责根据用户的要求选择最佳的副本,可以利用存储网络的性能模型或者副本访问的历史记录来预测副本的响应时间。副本定位技术需要根据数据访问请求在云存储系统中快速找到数据的物理存储位置,基于分层的目录副本服务算法将所有数据的目录信息集中分层管理,具有实现简单和配置灵活的特点,得到了广泛的应用。副本删除技术动态删除低访问率的副本以优化存储空间,常用的策略有延迟删除、线下删除和根据副本的生命周期删除等。副本一致性技术保证多用户操作时数据副本在内容和逻辑上的一致性。最终一致性策略不会对用户操作的数据进行实时更新,只在一定条件下才对数据副本进行更新、传播,对硬件资源占用率低,在亚马逊等商业云存储系统中被广泛采用。存储虚拟化技术对异构存储设备进行统一映射,屏蔽设备的物理位置,是云存储系统对外提供统一存储服务的关键技术。存储虚拟化技术分为基于主机、基于存储阵列和基于网络三种。基于主机的存储虚拟化技术需要在主机安装专用的虚拟化软件,会增加主机端的负载,扩展性也较差。基于存储阵列的虚拟化技术是在存储设备的控制器上配有虚拟化控制程序,把逻辑存储单元映射到多个物理磁盘设备上。这种技术可以提供较好的存储性能,但受设备厂商的限制,扩展性较差。基于网络的存储虚拟化技术既不增加主机的负载,又易于兼容不同厂商的存储设备,扩展性强,是当前存储虚拟化的主流技术。常用的方法有带内虚拟化和带外虚拟化两种。前者需要使用专用的虚拟化设备完成所有虚拟化工作。当有频繁的数据访问请求时,大量数据流会造成虚拟化设备成为I/O性能的瓶颈。后者把数据访问请求中的控制流放到虚拟化设备上处理,数据流则通过存储网络传递,虚拟化开销比前者小。2.3数据库的致性及范式在大数据时代,85%以上的数据属于图像、视频之类的非结构化数据和文档之类的半结构化数据647。根据CAP(Consistency,Availability,PartitionTolerance)理论,任何分布式文件系统都无法同时满足数据的一致性、可用性和分区容错性。在云存储系统中,NoSQL数据库放弃了关系数据库强大的SQL语言和事务强一致性及范式的约束,针对海量非结构化数据的可用性和分区容错性进行设计,以满足高并发的数据访问请求和快速的数据增长需求。在一致性方面,许多主流的NoSQL数据库采用的是弱一致性原则,即不对多用户的操作进行严格、实时的一致性控制。最终一致性原则是弱一致性的特例,只保证用户操作结果最终是一致的。在分区容错性方面,一致性哈希算法被广泛采用。常见的NoSQL数据库分为键值存储、面向列存储、面向文档存储、面向图存储四种。基于键值存储的数据库是最简单的NoSQL系统,采用key-value映射结构,是一种非结构化的数据存储模式,在亚马逊的Dynamo中得到了很好的应用。有别于关系数据库以行为单位存储,在面向列的数据库系统中,将相同列的数据存储在一起,动态支持列的扩展,支持数据快速增长的存储需求;此外,还具有数据压缩、延期物化和块循环等特性。面向列存储的典型系统有谷歌的BigTable和Hadoop的Hbase。面向文档的存储模式将键映射到包含一定格式信息的文档中,文档中的格式是自由的,可以存储列表和递归嵌套。面向图的存储模式使用节点、属性、线条等图形概念,分别代表存储的数据对象、对象的描述信息、对象之间的关系,适合于存储空间矢量数据。3数据预处理3.1基于物理化的遥感数据处理遥感数据预处理的目的是最大真实度地还原地物目标信息。以光学成像式遥感系统为例,数据预处理系统一般生成标准二级产品,其处理流程包括:解格式/解压缩、分景编目、辐射校正、几何校正、产品生成等处理步骤。早期的预处理系统过多地从提高处理精度和程序并行化等方面考虑设计和实现,缺乏从系统顶层上考虑通用的任务调度和流程管理等问题。同时系统的硬件一般使用阵列处理机、向量处理机(supportvectormachine,SVM)、对称多处理机(symmetricalmulti-processing,SMP)等昂贵笨重的专用设备。这导致早期的系统通常使用特定的作业调度策略,处理功能和流程相对固定,无法处理多种卫星载荷的数据。目前遥感卫星的数量和种类在快速增长,这种只针对特定卫星的设计模式暴露出研制周期长、成本高和难以升级扩展等缺点。随着计算机技术发展,新一代预处理系统开始向多星、多任务、综合性、通用性系统的方向发展,使用基于可重构流程技术按需定制不同卫星数据的处理流程,实现多种数据处理功能模块的灵活组合。此外,新一代的预处理系统构建在普通PC服务器集群上,通过虚拟化的硬件资源管理和通用作业调度技术,具备硬件重构的能力,可以方便地按需升级和扩展系统中的硬件设备。遥感数据处理系统很早就采用高性能计算来并行处理规模巨大的遥感数据。常用的分布式并行策略有三种:基于数据划分、基于功能划分、基于任务划分。数据处理系统通常根据处理的需要选择某一种或者多种并行策略。基于数据划分策略是处理系统常用的策略之一,先将数据按某种方式切分为多块,每一块数据分别在不同的处理器上施加相同的处理操作,处理完成后将结果合并输出。这种策略需要在处理过程中进行大量的实时线程通信,所以系统通常使用万兆以太网、光纤网、Infiniband网等高速低时延网络。基于功能划分的策略是将一个完整的数据处理程序划分成多个具有不同功能的子算法,每个处理器执行一个子算法,而数据在它们之间共享,上一步子算法的输出结果是下一步子算法的输入数据。基于任务划分策略是利用任务调度技术,根据计算资源的负载情况,将大量相同的处理任务,并行调度到集群的各个计算节点上。3.2mapcdun模型传统的分布式并行处理系统通常使用以MPI(MessagePassingInterface)、PVM(ParallelVirtualMachine)等消息传递模型开发并行处理算法,程序员需要考虑数据与任务量的划分、任务之间的通信同步、死锁检测等问题,编程负担较重,编程效率较低。作为云计算的核心技术之一,MapReduce是谷歌公司提出的用于处理大数据集的分布式并行编程模型。它屏蔽了底层实现细节,降低了开发并行程序的难度,提高了编程效率,是目前使用最为广泛的并行编程模型之一。在MapReduce模型中,待处理的问题被分解为映射(Map)和合并(Reduce)两个阶段。待处理数据被分解为“<key,value>”键值对的形式,并先后进入到Map任务和Reduce任务中。Map函数负责对这些数据块分别进行计算处理,再按照已定义的规则映射为结果数据。多个Map任务完成后产生多个以键值对组织的结果数据块。对结果数据块按照键值key进行分组与排序,具有相同key值的键值对数据块被分配到一个Reduce任务中。根据定义的合并规则,Reduce函数负责合并结果集,输出最终的并行计算结果。付天新等将生态遥感参数的反演方法集成到MapReduce模型并行框架中,利用长时间序列MODIS数据对三江源区生态环境参数进行并行化反演,结果证明具有良好的并行加速比和并行化反演效率。刘义等利用MapReduce模型把不同区域、不同分辨率的大量遥感影像集成在一个统一框架下自动地进行瓦片金字塔的批量并行构建,处理效率比常规方法提高了39%,而且具有良好的可扩展性。3.3图像高级处理FPGA(fieldprogrammablegatearray)带有多个加法器和移位器,可以设置多个并行运算通道,适合图像增强、噪声去除、边缘检测等图像像素处理算法的并行化处理,成为高性能计算的一个重要研究方向。项涵宇等设计了基于FPGA的遥感影像并行处理原型系统,实现了对遥感影像的线性拉伸、二值化等算法的并行化处理,计算速度比普通PC上的串行处理提升了3~4倍,处理遥感影像数据的速度最高可达到160MB/s以上,并行效率接近20%。高昆等用FPGA实现了基于边缘提取的小波包自适应维纳滤波图像复原算法,并应用于卫星上的实时图像复原处理系统,验证了星载/机载的图像实时处理的可能性。对于特征提取、目标识别、特征信息的处理等图像高级处理环节,处理算法逻辑比较复杂,还具有一定的串行性,简单使用FPGA处理不仅要占用大量硬件资源,而且不易实现。在FPGA平台上嵌入CPU,构成异构的FPGA平台,将算法的控制流和数据流分开,利用FPGA的多流水线并行结构实现图像的像素级处理的加速,利用CPU实现复杂算法中的任务调度工作,是解决图像高级处理并行化问题的主流技术。徐金波在异构FPGA平台上构建了硬件加速原型系统,实现了基于主动形状模型的行人检测、识别与跟踪,对行人目标检测识别的性能有很大的提升作用。3.4gpu并行处理遥感数据GPU(graphicprocessingunit)可以在有限的面积上提供更多的计算单元,具有很强的并行计算能力,是一种新的并行处理大数据块的技术手段。2007年NVIDA公司推出的统一计算设备架构CUDA(ComputeUnifiedDeviceArchitecture)模型,首次使用类C语言对GPU进行编程开发,而且提供了丰富的函数库,使得开发人员无需了解过多的GPU体系结构细节,就能开发高性能的并行处理程序,降低了开发的难度,大大缩短开发时间,促进了GPU处理技术在高性能计算领域的发展。目前,基于GPU并行处理遥感数据的研究主要集中在一些需要大量重复计算的处理算法上,如FFT和矩阵计算。其主要思路是先对遥感数据进行分块和线程任务分配,让每个线程负责处理其中一个数据块,通过多线程分工协作的方式共同完成整个遥感图像数据的处理,如遥感图像去噪算法和数字影像正射纠正算法等。对于逻辑判断复杂度较高的遥感图像处理算法,如几何校正,则需要先对算法逻辑进行拆分,让GPU作为协处理器负责密集型数据的计算处理,其他任务调度工作则交给CPU进行,实现CPU-GPU的协同工作。喻文勇等将几何校正算法进行算法拆分,让CPU处理卫星姿态和轨道数据部分,而GPU负责建立网格点和重采样的并行处理,可达到40倍左右的处理性能加速。Liu等实现了基于GPU的实时调制传递函数(ModulationTransferFunction,MTF)补偿算法,CPU负责计算MTF曲线、构造点扩散函数、生成二维MTF矩阵等,GPU将图像复原处理并行化,使得MTF补偿算法速度提高了59.3倍。4数据分析的应用4.1在多尺度遥感图像中的应用应用是获取遥感数据的目的,是体现航天遥感系统价值的关键环节。遥感应用包括遥感信息反演和分析两大部分,处理的对象是预处理后的标准数据产品。处理流程是先从标准数据产品中解译或提取出空间特征、理化特征、视觉特征、信息特征等多种地物目标的特征信息,进行综合分析,并得到行业应用知识,最后提供给用户辅助其决策。分析处理方法包括了数据融合、匹配识别、变化检测、图像分类等。数据融合综合多源遥感数据具有增强目标特征、提高分类精度和图像解译能力等优点,是一种重要的遥感分析应用方法。数据融合分为像素级、特征级和决策级三个层次。像素级融合是指对多个遥感图像数据的像素点进行信息融合。特征级融合不是孤立地对数据像素进行处理,而是考虑了数据本身信息之间的相关性,先从每个遥感数据中提取特征信息,再对特征信息进行分析与融合,得到联合的特征矢量。其特点是针对性强,可以实现信息压缩,有利于数据的实时处理。决策级融合先使用某种决策规则对每个遥感数据进行分析,得到基于单个数据的初步判决结果,再对所有数据的初步判决结果进行全局最优化处理,得到最终决策。它的信息量最少,具有较强的抗干扰能力。此外,像素级融合只能针对图像类遥感数据,而特征级和决策级融合可以应用于所有类型的遥感数据。匹配识别将包含相同目标区域的多个不同传感器或者不同时相的遥感图像数据在空间位置上进行准确配准,用于目标识别和变化监测。目前,图像匹配主要包括基于图像灰度匹配和基于图像特征匹配两种方法。前者以遥感数据的灰度信息为度量基础,使用互相关、序贯相似和交互信息量等常用的度量准则。后者是先从遥感数据中提取特征,用相似性和约束条件确定几何变换,再将该变换作用于待匹配的数据。奇异像素点特征、边缘特征和区域特征是常用的三种空间特征。近些年来,一些非空间特征方法逐渐成为研究的热点,如光谱反射率、辐射率或辐亮度、吸收率、偏振光谱等理化特征,对比度、纹理、色调、饱和度等视觉特征,信息密度、熵等信息特征,植被指数、土地覆盖指数、河流浑浊指数等应用特征。变化检测对同一区域不同时期的遥感数据进行分析、处理与比较,获取目标动态变化的信息。处理流程一般包括影像预处理、变化信息发现、变化区域提取与变化类型确定等环节。传统的变化检测方法有影像代数法、主成分分析法、多波段合成法、光谱特征变异法、分类检测法等。陈忠辉等研究利用马尔科夫随机场模型对不同尺度下的遥感图像变化检测结果进行融合,考虑了相邻像素间的相关性和不同尺度检测结果的联系,使融合结果更细致和精确,具有很好的实用性和鲁棒性(robustness)。图像分类将遥感图像中每个像元根据其光谱特征信息、空间结构信息或者其他信息,按照某个规则或者算法将像元划分为不同的类别。该分类是一种根据样本进行机器学习的过程。因此数据挖掘中的贝叶斯、最大似然、神经网络、模糊分类、决策树、支持向量机等方法被广泛地用于遥感图像的分类。近些年来出现的面向对象分类方法分析和处理的最小单元不再是单个的像素,而是根据某种规则定义的对象。由于遥感图像中的一些像元通常混合了多种地物的信息,因此混合像元的分类是遥感图像分类中很重要的研究内容。线性波谱分离是一种根据材料的波谱特征判定多波谱图像中材料相对丰度的一种混合像元分类方法。地理信息系统(geographicinformationsystem,GIS)中管理和分析的多种类型的空间数据可以作为遥感特征提取和分类的辅助知识,有利于提高遥感应用的效率和精度。邓书斌等基于GIS平台构建了包含遥感影像、GIS信息的空间数据库,减少了同物异谱和异物同谱现象对林型遥感数据分类的影响,提高了分类精度。李雪等利用GIS辅助数据中的语义信息,将遥感数据与GIS数据集成分析,提高了变化检测结果的精度和可靠性。4.2空间组织算法遥感数据中含有丰富的光谱、纹理、形状、结构、拓扑、方位等特征信息及其组合特征信息。因此从某种程度上遥感应用可以认为是信息应用的一种。数据挖掘旨在实现从数据到信息、从信息到知识、从知识到智慧的转变,是信息应用的重要技术手段。近些年来,数据挖掘的许多算法,如决策树、支持向量机、神经网络等,已经开始与遥感应用研究结合,有助于从遥感数据中提取出更加准确的特征信息,并进行综合分析理解和深入应用。常用的数据挖掘算法包括关联规则法、分类法、聚类法等。关联规则法可以挖掘发现大量数据集之间存在的相关联系或规则。唐小萍应用经典的Apriori关联规则算法对日喀则地区的气象数据进行挖掘分析,发现了三类与沙尘天气有关的规则:和现有的气象理论相一致的规则;以前未被认识或未被重视的规则;目前未被发现的新规则。分类是根据数据集的特点构造一个分类器,把未知类别的数据样本映射到某一类中。传统的分类器有基于决策树、贝叶斯、K近邻、支持向量机等类型。近些年提出的神经网络、模糊集、粗糙集、云理论、遗传学等算法可以较好地处理语义模糊、动态变化、不完整等复杂巨量的数据,将成为空间数据挖掘的研究热点。哈斯巴干将神经网络与粗糙集、小波变换、模糊均值聚类等方法进行组合,显著提高了传统神经网络分类在遥感应用上的分类精度。聚类是一个无监督的学习过程,可以把数据聚集成不同特征的类,使类间的相似性尽可能小,类内相似性尽可能大。Asanobu对全球卫星数据进行台风预报的挖掘分析,先对数据进行主成分分析,降低数据纬度,再通过聚类分析得出台风云图模式和状态转移规则。4.3基于互联网的大数据研究方法目前虽然遥感数据已经初步应用在经济、社会、国防安全、科研等各个领域中,但仍然处于一种较低层次的数据分析应用。例如,农作物监测应用时,先对单一类型的可见光遥感数据进行分类,找出作物种植区域,再根据农作物反演模型,提取出反映作物的植被指数,最后估计农作物长势。这种应用方法主要建立在基于单一来源数据的确定性因果关系物理模型上,忽视了多种数据源之间内在的相互关联性,难以发挥多种数据源之间的相互补充验证作用。实际上,真实世界是一个开放的动态系统,绝大多数事物现象之间只具有一定程度的相互关联性,难以用一种或几种确定性的因果关系去准确描述。图灵奖获得者、著名数据库专家JimGray博士提出了第四范式,将大数据研究从第三范式(计算科学)中分离出来作为独立的一种科研范式,这也促使我们转变传统因果思维,去重新认识海量数据的重要作用,挖掘数据之间的相互关联性。目前,Google、Facebook、Amazon、百度与阿里巴巴等互联网企业是大数据应用的领先者。他们只需要从数据挖掘中发现某种措施与增加企业利润有较强的相关性,不必深究为什么能增加利润,更不必发现其背后的内在规律和模型,通过对互联网大数据的追踪、分析和挖掘,可以快速精确地为企业实现大数据营销,产生商业价值。例如,谷歌公司通过数据挖掘可精确计算出广告中的每一个关键字为公司带来的回报;eBay公司通过对广告投放的优化,2007年以来产品销售的广告费降低了99%,而顶级卖家占总销售额的比例却上升至32%。因此在分析海量遥感数据时,也无需在数学上先建立复杂的因果关系模型,只需依据来自不同数据源的大量重复的遥感信息,将海量数据丢进强大计算能力的计算集群中,就可以挖掘出传统遥感科学方法所发现不了的信息和知识。5视觉表现5.1地质体三维地震遥感成像技术遥感应用系统通常使用带有文字标记的地图展示应用分析的结果,但是用户难以直接、清晰、有效地获取数据结果的含义。三维可视化技术可以立体地展示观测地区的三维地貌特征,同时支持用户在三维场景下从不同角度进行旋转、漫游、视景变换等交互操作,可以给用户更好体验,增强结果的可理解性。地质领域是遥感三维可视化的典型应用领域之一。付碧宏等将ASTER多光谱遥感信息与数字高程模型(DigitalElevationModel,DEM)相结合,实现了地球表面活动构造、火山等地质体的三维立体可视化,不仅可以直观地展现地质体的三维空间地形和地貌特征,还可以进行与活动构造、火山等相关的定量分析。三维信息提取是实现三维可视化的前提。目前常用多角度的高分辨率星载遥感立体像对来自动提取观测目标的三维空间结构信息,先对像对中的目标物体进行匹配,再提取出目标物体的三维空间特征,通过这些特征的相互关系对三维实体进行描述和管理。多角度遥感影像对中目标同名点的匹配是提取三维信息的重点,其匹配精度严重影响提取的精度。郑碧娜等采用SIFT算法提取立体像对的特征点,通过特征点的相似性判定进行特征点选择,再对选取的特征点进行区域传播稠密匹配,再用对称极点距离法消除误匹配以得到精确匹配点。杨贵军等使用星历和姿态内插方法确定多中心投影的外方位元素初始值,利用前、后视共线方程及误差方程构建通用的立体测量数学模型,有助于从高分辨率星载遥感立体像对中提取三维DEM数据。此外,激光扫描数据也是一种获取目标物体三维信息的手段,但是目前多用于航空遥感中。纹理映射可以有效增强景物表面的细节特征,因此从遥感数据中提取地物纹理信息并映射到三维物体表面是遥感可视化技术中研究的重要内容。赵巍等利用图像数据之间的相关性,根据地物的波谱特性统计图像灰度协同变化的规律,并记录在灰度级差关联概率矩阵中,最后从该矩阵中提取立体纹理特征。除了展示遥感分析应用结果之外,航天遥感系统中还常用三维可视化技术模拟仿真遥感卫星的运行轨道、飞行方向、传感器在地球上扫描的区域和工作状态,并广泛应用在卫星研制、卫星任务评估和卫星运行监控等方面。5.2维体绘画算法科学计算可视化是可视化技术最早的研究方向,利用计算机图形图像处理技术,将科学计算过程中产生的数据及计算结果在屏幕上以图形或图像显示出来,并支持与用户的交互处理。科学计算可视化技术的核心就是三维空间数据场的可视化。主流的算法包括面绘制、体绘制和点绘制三种。其中,体绘制算法的使用最广泛,它包括间接绘制方法和直接绘制方法两大类。直接体绘制不仅可以绘制面,还可以展现物体内部结构,得到了广泛使用。但是直接体绘制需要计算的数据量很大,并且当视点改变时,必须进行重新计算。胡慧君根据GPU硬件加速的特性,提出了基于顶点编程的三维纹理体绘制法,提高了基于纹理映射的直接体绘制方法对大规模数据场的绘制能力。光线投射算法具有绘制质量高、绘制性能与体数据规模无关、视点改变不会引起绘制结果走样等优点,但计算复杂度、绘制时间较其他体绘制算法长。张怡等提出了基于GPU的光线投射算法,可以在单道绘制内完成沿视线的所有重采样操作,避免了多道绘制引起的CPU和GPU之间的频繁数据交换,通过提前光线截至和无效体素剔除可以高质量地实时绘制体数据。5.3基于gis的反应预测与科学计算可视

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论