版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、气象数据的“大数据应用”浅析2014-03-24 17:03:19作者:国家气象总局文海来源:CIO时代网摘要:气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。关键词:气象数据大数据1、引言据统计,2011年全球的数据规模为 1.8ZB,这些信息将填满 575亿个32GB的ipad,以这些ipad做砖石, 足可以垒建起两座中国的万里长城。而到2013年,仅中国当年产生的数据总量就已超过0.8ZB,2倍于2012 年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍
2、,超过8.5ZB.【1 而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹航空母舰。数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”.很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃 至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据"的应用式,以此研判着可能给本行业带来的变化和新的业务契机-气象部门也是如此。做为抛
3、砖引玉,笔者拟就如下问题提出自己的看法:(1) 气象数据是否具备"大数据"的核心特征?(2) 业界公认的“大数据应用”的主要形态是什么?(3) “大数据时代”背景下 气象数据 应用中新的价值领域在何处?需要首先具备哪些必要条件?(4) 气象信息技术领域当务之急需要解决的关键技术问题。2、大数据的现实以及气象数据的体量构成2.1 大数据的行业分布就数据量而言,中国的 大数据近期具有如下行业分布特征:(1) 互联网公司目前国的互联网公司,拥有总计约2EB的数据,而其中的互联网三巨头BAT(百度、阿里巴巴、腾讯)占有了其中的 3/4 (约1.5EB )。(2) 电信、金融、保险、
4、电力、石化系统这些行业及企业数据量分布较为平均,就每个企业(或运营商、部门)而言,大致都拥有10PB 以上的数据,且年增量都在 PB级以上。总和则有数百个EB的存储数据和数十 EB的年增量。(3)公共安全、医疗、交通、电子政务领域 城市:随着平安城市、智慧城市等工程的推进,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约 300PB.最保守估计(含定期循环清除),每年能够保存下来的数据在数百PB以上。交通:飞机航班往返一次产生的数据达TB级。列车、水陆路运输每年产生并保存下来的各种数据视频、文本类数据约达数十 PB.卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB.电子
5、政务:一个智慧城市的电子政务所产生的数据每季度约达200PB.而调查显示,未来12年中国政府部门的数据规模超过 100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是1050TB.( 4) 其他,商业销售、制造业、农业、物流和流通等领域 随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流 运输等等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百 TB甚至数十TB级别。【2】( 5) 气象数据气象部门需要永久保存的数据目前约45PB,年增量约1PB.由此可见,以数据量而言,在整
6、个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言, 气象数据 无论总量还是增量,较这些数据大户至少低 3 个数量级。2.2 大数据 的特征早在 2012 年,业界便已就 大数据 在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的 4V 特征:Volume (大体积):体积巨大是 大数据 的最根本的特征,体积不足够大,任何数据都不能称之为“大数据”.一般而言,大数据的起始计量单位至少是PB EB或ZB级别。Variety (多样性):类型和来源渠道繁多是 大数据 的第二个特征。 大数据 非但体积巨大,而且容繁杂, 数据种类繁多,包括网络
7、日志、音频、视频、图片、地理位置信息等等;这些种类繁杂的数据来源于多种不同的 渠道。多类型的数据对数据的处理能力提出了更高的甚至全新的要求。Velocity (高速度):生成速度快,处理时效要求高,这是 大数据 区分于传统数据采集、汇聚、处理乃 至数据挖掘等方面最显着的特征。Value (价值稀薄):数据价值密度相对较低,这是 大数据 的第四个特征。根据业界专家的看法, 大数据 里蕴藏着的信息无所不包,任何人所需要的任何信息,都可以从大数据 里寻找到。只是这些信息隐藏在 大数据 的汪洋大海之中, 寻之如同大海捞针, 人们需要研究出类似沙里淘金的办法, 才能在有效的时间将所需信息寻找到。 因此如
8、何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据 时代亟待解决的难题。当然,还有一些人将对 大数据 “ Value ”的理解确定在“价值丰富”的层面上;而最早提出“ 大数据 ”概念及特征的 Gartner 公司和麦肯锡公司,甚至至今仍坚持特征“3V”( Volume、Variety 、 Velocity )论,认为“ Value ”不能作为 大数据 的特征【 3】。限于篇幅,不予展开讨论。需要注意的是,在此“ 4V” (或“ 3V')特征中,“ Volume”(体量巨大)仅仅是成为 大数据的必要条 件,而非充分条件,如同30mm的日降水,在我国东南沿海地区十分平常,但在西北
9、地区却可算罕见大雨,所以体量大小是相对的。事实上, 大数据 概念的提出绝非仅因为数据量的暴增,而且是因为数据已多得用传统方法无 法应对或处理,导致人们必须采用新的方法、新的思路乃至新的理念予以应对。如果数据量虽大,但却能够处理 和掌控,便不能称其为“ 大数据”.因此,“ 4V”对于大数据而言,既是特征,也是考量的四个维度。2.3 气象数据 的体量种类分布气象资料种类较多,就体积而言,其中的地面观测、气象卫星遥感、天气雷达和数值预报产品四类资料占据总量的 90%以上,其中:地面观测资料:因二十一世纪以来观测方法从人工观测改进为自动观测,摆脱了人类居住条件限制的制 约,台站数由本世纪初的不到 3,
10、000 个,迅速扩展到目前的 40,000 多个,观测频度由最初的 3 小时/ 次调整到目 前的5分钟/次,因而导致资料量呈几何倍数增涨,月增量由最初的约240MB猛增到现在的约 2.4TB,增幅约4个数量级。根据防、减灾以及气象服务的需要,未来扩建计划有可能将台站数继续扩增至70,000 到 100,000 个,观测频度有可能继续加密到 1分钟/次;因此未来六年该类资料总量有可能在现有基础上再行扩增12个数量级,由现在的每天数百万条记录增至超过一亿条记录/天。天气雷达资料:按照天气雷达近期发展规划( 2005-2010 )以及气象发展规划( 2011-2015 )中 “新一代天气雷达建设增补
11、站点布局方案” , 目前在全国已布设约 200 部不同波长的多普勒天气雷达,并为达到 雷达资料全社会共享的目的,已基本实现7 X 24小时全天候不间断观测;日增总量约300GB.气象卫星资料:根据我国气象卫星及其应用发展规划(20112020 年),至 2020年,我国计划发射11 颗气象业务卫星,包括 3 颗风云二号 03 批卫星, 3 颗风云三号上午星、 2 颗风云三号下午星、 1 颗降水测量雷 达星以及 2颗风云四号光学星。此外还将在 2020年前发射 2颗气象试验卫星。【数据量待补充】目前的日增总 量约数百GB,未来有可能增加到数 TB/日。数值预报产品:与地面观测、气象卫星和天气雷达
12、等气象观探测资料不同,气象数值预报模式资料属于气象观探测资料的加工产品。以GRAPS T639为代表的天气预报模式,以及以BCC_CSM2 DERF2.0为代表的气候预测模式,每天都在实时运行,不断产生着数以万计的各类要素场,以供国家级、省级乃至区域级预报员参考使用,日增量接近 TB级。在上述四类数据之外,气象资料尚有高空探测、地面农气观测、沙尘暴观测、闪电定位观测、风廓线雷 达探测等等许多种,但就体积而言,较上述四类资料至少低一个数量级,难以将其称之为“ 大数据 ” .因此,如果就体积而言,气象资料可勉强算得上“ 大数据 ”, 也是因为地面观测、气象卫星、天气雷达和 数值模式这四大金刚将气象
13、资料的体积撑大而成的。3、“气象大数据”的特征分析气象数据 的体积虽大,却有其独特的特征:(1)体积虽大但总量可控这里对地面观测、气象卫星遥感、天气雷达和数值预报产品这四类体量最大的 气象数据 进行分析:地面观测资料数据量剧增的原因,是站点数的增加和观测频度的大幅加密。然而,这种台站规模的扩充 和观测频次的加密是基于预报和服务需求,经过严格科学论证,有计划有步骤逐步推进的;在观测台站达到一定 密度,观测频度足以满足气象业务需求后, 台站数不会无限制持续增加, 观测频度更不会无节制地永远加密下去, 因此总量既是可预测的,更是可控的。对天气雷达而言,布网工作已基本完成,雷达总量不会有成倍数的增加。
14、而且目前的天气雷达已基本实现7X 24小时全天候不间断观测。因此天气雷达的资料量(年增量),将稳定相当长一段时间,而不会有倍数的 增量变化。未来数年,我国还将发射数颗气象卫星,每颗卫星都会产生数百TB级的数据年增量。为满足气象卫星资料的应用时效,国家卫星气象中心针对每一颗气象卫星,都建有相应专属的地面接收处理系统,已完全实现所有 气象卫星遥测遥感资料的实时接收处理。因此气象卫星数据目前虽以每年数百TB的量级增长,而且规模有可能继续扩大,但却始终处于可控可管和完全可用状态。数值预报模式产品资料是各级预报员最重要的预报参考资料,这些产品甫一生成, 便即刻送达天气预报、气候预测专家的桌面,供其业务参
15、考使用;同时以满足业务需求的时效,分发至各省级乃至地市级气象部门,供 其本地化应用。因此与气象卫星资料相类似,数值预报产品资料体积虽大,却始终处于可控可管和可用的状态, 未来也将始终如此。因此,气象资料体积虽大,在量级上算得上“大数据 ”, 但却始终处于可控可管可用状态。( 2)种类虽多但部信息单纯,来源单一按照行业标准气象资料分类与编码,气象资料分为 14 大类,计有数百种之多【 4】。该标准基本涵盖了气象资料的所有容。所以就容而言,气象资料在目前及可预见的未来,超不出该行标所规定的围。数百种的 气象资料种类虽多,但每种资料所含信息却十分单纯:土壤持水量只记载某时某地某规定土壤深度中水份的持
16、有 程度,“云能天”只记录某时某地的云量云状、能见度以及天气现象等信息。这与互联网大数据 如电子、微信、微博中所包含的社会百态、生老病死、喜怒哀乐、柴米油盐酱醋茶等所有信息有很大差异。究其原因,海量气象 数据是由气象探测系统以及数值预报业务系统产生的,来源比较单一;而互联网 大数据 则由人来提供的,它来源 于人类社会的方方面面和各个角落,是人类活动的实况记录。(3)价值单一而明确气象观探测业务系统只采集那些能够客观反映自然界气象状态的要素,所以气象观探测数据里包含且只 包含丰富的气象信息,而以观探测数据为唯一数据和信息来源的气象数值模式,其生成的产品中所包含的信息也 只能是局限于未来天气或气候
17、状态的预测。因此所谓“气象大数据 ”, 其自身的直接用途只能是气象业务,即:天气预报、气候预测以及气象服务。麦肯锡公司和 Gartner 公司始终认为: “大数据 是用传统的架构、 传统的技术方法无法解决的数据问题” 【3 】;而由上分析可知, 气象数据 始终处于可管、控、用状态,虽然随着数据体积的不断膨胀,以及原有管理 和处理技术架构的旧,逐渐出现性能下降、时效减慢等现象,但并非没有解决的技术手段。因此应当说, 气象数 据是“ 大数据 ”的组成部分之一,但其自身并不完全具备“ 大数据 ”的所有特征。从这个观点考察,以体积硕大 为由称 气象数据 为“大数据 ”十分勉强,而且较易产生观念和认知上
18、的混乱;因为衡量体量大小的标准是在不断 变化的。 信息技术的发展突飞猛进, 处理及存储能力依摩尔定律, 每 18 个月增加一倍; 今天的大体量规模数据, 如果不具备超摩尔定律的膨胀能力,数年后便很有可能萎缩成中等甚至中等以下规模的数据;这样的事例在 IT 界俯拾皆是。4、应用分析展望4.1 大数据 带来大变革大数据 时代的作者就 大数据 带给人们思维方面的变革,提出了三个观点:(1 )当数据处理技术已发生翻天覆地变化时,在大数据 时代进行抽样分析已经过时。人们进行分析的对象已不是抽样数据,而是所有的数据,即:“样本 = 总体” .(2)执迷于精确性是信息缺乏时代和模拟时代的产物,只有接受不精确
19、性,我们才能打开一扇从未涉足 的世界的窗户。(3)知道“是什么”就够了,不必知道“为什么”. 在大数据 时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声” . 【 5】而对于 大数据 的价值,该书作者认为,“数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不 断给予” , 它目前展现在人们面前仅仅是其总价值的“冰山一角” . 对此,胡小明先生的理解是:虽然一些数据所 蕴含的其所属领域的部规律(即所谓“首要价值”)已被本领域专家充分发掘,但如果将这些数据与其它领域数 据相,却有可能发现出许多意想不到的相关关系,即所谓“丰富的未知价值在领域的外部”. 【6】因此,数据的价值由“部自
20、身”和“外部关联”两部分组成:部自身价值是指该数据自身所包含的所有 信息对其所属企业和部门业务工作的支撑、 以及开拓业务领域的作用; 而外部关联价值则是指该数据与外部企业、 领域和行业数据进行深度结合以及具有创意的分析思路和有效的处理方法,从而发掘出新的、超出所属企业和部 门原有业务围的、传统思维所意想不到的、具有开创意义的信息,众多企业和行业部门可由此了解并掌握用传统 思维和方法无法获得的事实,并因此可创造出新的经济和社会价值。无论是否处于“ 大数据 时代” , 数据的价值概莫能外。而所谓“ 大数据 应用” , 是由于近二十余年来,各行业信息化程度逐渐提高,互联网及其丰富的应用 逐渐渗透到人
21、类社会各个阶层的方方面面,在使得人们的工作和生活更加舒适、方便、快捷和安全的同时,也将 社会上各方面信息通过网络(尤其是互联网)采集并收集管理起来,从而导致社会上数据总量以令人瞠目结舌的 速度暴增,而这些暴增起来的数据也逐渐呈现出与此前数据所不同的性质和特征(即所谓“4V”特征)。由于此时的数据具有 Variety (多样性)的特性,所含信息种类较之此前大大增加,人们有可能通过分析这些信息,获 得以前不可能得到的新的知识、预测信息,激发出新的开拓性思维,乃至开创新的业务领域。4.2“ 大数据 应用”成功案例分析“大数据 时代”伴随着“ 大数据 应用” . 通过分析众多媒体、专着上所刊载的各个“
22、 大数据 应用”成功案 例,不难发现三个事实:( 1)所分析的数据都是企业自身所拥有的所有成功案例都是企业通过分析自身拥有的数据而产生的。这里既没有谷歌通过分析诸如沃尔玛等跨领 域跨行业部门的数据而得到有价值信息的成功案例,也没有阿里巴巴通过分析类似腾讯或百度等同为互联网运营应用的兄弟企业的数据而获益的案例。不是这些公司没有分析能力,而是对方的数据无法获取到。所有成功案例 都是该企业通过分析本企业所拥有的数据 -“大数据 ” - 所获得的。跨行业、跨部门甚至跨企业的数据联合分析应 用的成功案例难觅其踪。因此所有这些成功案例,都是数据部自身价值的被挖掘。( 2)所分析的数据对象中所需要的信息足够
23、丰富沃尔玛能够分析出婴儿纸尿布与啤酒销量之间的正相关关系,是因为其数据库中包含所有本系统连锁店 中所有商品的销售记录,包括啤酒和婴儿纸尿布。阿里巴巴企业能够提前半年预测出2008 年北美将爆发经济危机,是因为其数据库中详细记录了数年来世界各地与阿里集团的每一笔订单和询单,可从中统计并发现出其异常 变化以及变化的区域分布。美国中央情报局能够通过对电子的筛选探知出几十起针对美国的恐怖袭击计划,并提 前采取相应措施, 是因为恐怖分子使用电子进行通信联络, 留下了相关的痕迹。 相反, 我国金融行业数据量巨大, 但分析师们却绝不可能通过分析金融数据来预测天气和气候,因为金融数据中不包含任何与气象有关的信
24、息;反 之亦然。所以, 大数据 应用成功案例中最重要的一点,就是这些企业所分析的数据对象中包含了可能需要的所有 信息,只不过这些信息在整体数据的汪洋大海中十分稀少,需要采取非传统的、被称之为“大数据 ”技术的处理手段、在规定的时效挖掘出来。( 3)大多是新兴的或信息化时间不长的企业(行业)这些成功案例企业或是近十几年来方才崛起的新兴互联网企业(如:谷歌、亚马逊、阿里巴巴、 腾讯等) ;或是行业历史虽然悠久,但信息化建设历程并不久远(如:沃尔玛超市等),所拥有信息的在价值尚未真正有效 地挖掘出来。由此可知, 目前业界众口称道的 “大数据 应用” 成功案例, 基本上都属于数据部自身价值的挖掘和展现
25、, 而且数据部的信息种类十分丰富。相对而言,数据“外部关联价值”的挖掘和展现在业界和社会上尚未成为主流 形态。4.3 气象数据的“大数据应用”前景预期气象行业是信息化建设较早的行业,气象科学家分析研究气象数据已有近百年的历史。直到目前,气象数据的核心容并未发生根本性变化,近年来所增设的新的探测手段(如气象卫星、天气雷达等),其探测信息最 终都将反演成温、压、湿、风以及云能天等有限的几个气象要素,以供业务及科研使用。而这些要素之间的物理 关系,早已被动力气象学解释清楚。已有数十年历史的传统的统计气候业务,正是采用复杂的统计方法,对气象 要素进行时间、空间分布方面的详尽分析,发现其中的规律,进而完
26、成气候统计预测的。因此气象数据中常规探测部分(如:地面观测、高空探测等)对于气象行业而言,其常规的基本价值(对天气预报、气候预测以及其它 专业气象预报的贡献)已被充分认识并挖掘。而其中可能潜藏的反映本领域天气或气候规律的新的信号,正在由 数以千计的气象科学家们分析研究着。相对而言,非常规观测资料中的气象卫星和天气雷达资料,与“大数据应用”成功案例的特点较相吻合。以气象卫星数据为例:虽然气象卫星是用来获取与气象要素相关的各类信息的,然而在森林草场火灾、船舶航道 浮冰分布等方面,气象卫星却同样也能发挥出跨行业的实时监测服务价值。究其原因,气象卫星视野的广阔和搭 载探测设备种类的多样化,以及各类仪器
27、设备所获信息之间、卫星数据与其它种类气象资料(如地面观测数据) 之间综合应用的可能性,占据了绝大比重。气象卫星每批次(型号)所搭载的探测仪器设备都较前批次(或型号)有所调整和增加,因此每颗卫星都有可能产生新的遥感产品,除首先应用于气象行业的预定应用外,几乎都含有 行业外新的服务应用的可能,从而可使气象部门得以不断扩展新的业务领域。天气雷达数据与此类似,限于篇幅,不再展开讨论。所以,虽然海量 气象数据属于专业感知领域,所含信息量丰富而容单纯-只包含(且富含)与气象有关的信息,并且其部自身价值中的常规容已被充分挖掘并应用于气象业务,可能深度蕴藏的部自身价值正在艰难地 挖掘中(已属于科学问题),但这
28、并不意味着气象数据 的部自身价值已被挖掘殆尽。气象卫星、天气雷达等非常规遥感遥测数据中包含的信息十分丰富,有可能挖掘出新的应用价值,从而拓展气象行业新的业务领域和服务围。然而这一切,首先需要管理者具有敏锐捕捉行业外服务需求的能力,其次则需要一支召之即来、来之能战、战之 能胜的服务产品研发科技团队,而且需要积极进取和勇于担当的领导素养以及完善的机制配合。那种小心翼翼、 循规蹈矩的行为方式,难以适应服务市场瞬息万变的状态。与之相对应,气象数据“外部关联价值”的挖掘,则当出现在其与其它专业领域数据的跨领域跨部门综 合分析应用过程中;而这一切的必要条件,就是行业间数据的高度共享和深度分析应用。然而,虽
29、然需求十分迫 切,呼吁也强烈而持久,但数据的社会共享至今仍是一个世界性难题。美国政府多年来年以来一再发布政令,要 求政府部门在规定期限将与国家安全无关的数据实现社会共享。在我国,早在二十一世纪初便由科技部主导的科 学数据共享试点工作,十余年来进展并不顺利,行业间的数据并未真正实现共享,气象部门获得某些相关部门的 观测数据异常困难,有时不得不从其上抓取数据表格,经人工处理后获得表格中的观测数据。因此,气象数据 通过跨行业深度结合而挖掘其外部关联价值的必要环境并非已全部具备。而如果没有数据的充分社会共享,气象数据的“大数据应用”便将始终徘徊在“部自身价值”的挖掘之中。需要注意的是,“大数据应用”与
30、目前的气象公共服务有所不同:后者是既定业务数据加工产品的社会 推广应用,是气象数据已挖掘出的部自身价值(天气预报和气候预测产品)的充分展示、应用和发挥;前者则是 气象数据“部自身”和“外部关联”价值的挖掘。简言之,前者是价值产品的创新,后者是价值产品的应用。产 品应用需要的是积极灵活的客户经理和及时周到的服务支持,而价值创新,对部自身而言,需要本行业领导的高 素质、科学家的高度专业水准、研发团队的精干高效;对于外部关联价值而言,则须与其它相关领域原始数据的 深度结合,而由于其跨行业以及数据量的浩大,这种深度结合工作所需要的是天才的跨行业创意分析师和有效地 处理技术手段。因此,不宜将气象预报产品
31、的社会化推广应用简单地冠以“气象大数据广泛应用”的名称,因为产品应用与气象数据“大小”无关,而如此冠名将易导致概念的混乱和气象“大数据应用”的简单化。5信息技术领域需要突破的关键技术以及与“云”的关系气象数据的广泛应用需要突破的关键技术很多,其部分(如天气雷达数据拼图等)属于专业领域的科学问题,需要相应领域科学家们的深入研究。就信息技术领域而言,海量数据的高效应用是亟需突破的核心技术难 题。(1)关键技术:海量气象结构化数据的高效应用由“2.3 ”分析可知,目前 气象数据的产生量巨大,每时每刻如滔滔洪水般汹涌而至,传统的技术架构已无法应对海量气象数据的处理、管理和有效服务,以至于有关业务单位不
32、得不频繁更新设备,用更高档的服务器运行传统的关系型数据库和文件系统,用更高性能的磁盘阵列存储大小不一、数量惊人的数据文件,以及动辄数亿条记录的数据库列表,以期能够苟且满足当前日益严苛的数据处理、存储和检索等业务要求。这不仅造成了资 金方面的浪费,更换系统设备过程中无法避免的系统移植和切换,也给有关业务和用户造成不必要的负面影响。 分布式处理和存储等云计算 /大数据技术虽然提供了对非结构化数据的规管理和高效应用技术,但对于以地面观 测资料为代表的海量气象结构化数据及其复杂多变、难以预测的应用方式,却显得束手无策。地面观测资料是气象业务和科研中应用最为广泛和持久的一类结构化数据,被要求永久在线管理
33、以提供实时服务。而通过“ 2.3 ”中的介绍可知,目前全国四万多个地面观测站所产生的资料,月增量数亿条记录(约2.4TB ),未来更有可能膨胀到每日上亿条观测记录。因此,如何运用恰当的技术,有效管理海量地面观测资料,充分满足所有用户对地面观测资料的实时检索和分析应用,并使系统长期处于稳定状态,是目前必须解决的核心 技术问题。虽然该问题在世界IT界亦属难题,但如果不予解决,则海量 气象数据的应用便存在时效上的障碍,本部门业务需求尚且无法满足,遑论“大数据应用”了。自2013年初以来,国家气象信息中心下属的气象资料服务室和系统设计室的有关技术人员,与国有关高科技企业进行联合研发,在此领域已有突破性
34、进展。相信不久的将来,此项关键技术将被突破。(2)“大数据应用”与云的关系由于体量的巨大,统筹的集约化管理大数据显得尤为重要,因为如此方可以大幅提高数据的应用效益,降低系统的复杂度和运营成本。云计算概念的出现以及随之衍生出的“云存储”等应用架构,为大数据的有效管理提供了可行的方案。这在目前国家级和省级业务系统已十分复杂的我国气象部门,显得尤为重要和急迫。云存储在未来必将是 大数据的主要管理和应用形态,因为在未来大数据开放时代,无力管理 大数据者将占大数据应用者中的绝大多数; 没有云存储,大数据的广泛应用就不存在。 反之,如果没有大数据及大数据应用, 很多“云”(尤其是“存储云”) 的价值也难以
35、体现出来,二者是相辅相成的关系。有关的容及规划,已纳入全国气象信息网络系统总体设计之中,在不久的将来,将逐步予以实现。综上所述,可得出如下结论:(1) 目前社会上的“大数据应用”大多仍局限在数据部自身价值的深度挖掘方面,气象数据 也是如此。 相对而言,气象数据中的气象卫星和天气雷达数据因其信息量的较为丰富,有可能在与其它资料深度融合的过程中挖掘出新的应用价值,并由此开拓出新的业务领域。而气象数据 外部关联价值的挖掘,有待于科学数据社会共享良好环境的建立。(2) 目前气象数据体量虽大,但其增速缓于摩尔定律。在未来的数年或十余年后,其体量将渐趋于适中。因此“气象 大数据”的称谓将是暂时的。(3)气
36、象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。 这是气象数据能否参与“大数据应用”的技术基础和前提。(4) “云存储”将是未来海量气象数据最合理的存储管理形式。6、结语“气象大数据”是暂时的,它终将回归到自己应有的位置,做为全社会“大数据”的组成部分之一。气象数据是汇聚自然界与气象有关的信息聚合体,其核心价值是支撑气象业务;但其自身价值并未被穷尽。通过努 力,有可能在其中挖掘出新的价值,并因之开辟新的业务领域。气象数据对于全社会而言,是极其珍贵的数据和信息资源。我们期待着气象数据在跨行业综合应用这一“外部关联价值”挖掘过程中焕发出新的耀眼光芒。而在此之前,
37、气象预报服务产品的广泛社会应用,将是气象 部门履行职责,服务社会的工作重点;它与气象数据的价值挖掘一道,成为气象业务中不可或缺的组成部分。参考文献:【1】ZDNET:数据中心2013:硬件重构与软件定义,ZDNET企业解决方案中心年度技术报告。原文:【2】36大数据:大数据史记2013:盘点中国2013行业数据量 <.36dsj./archives/6285>,原文:<.36dsj./archives/6285>【3】瑾:大数据是用传统方法无法解决的数据问题,和讯科技:2012年11月30日10:59原文:<tech.hexun./2012-11-30/14855
38、3904.html>【4】QX/T 102-2009气象资料分类与编码行业标准【5】英维克托迈尔-舍恩伯格,肯尼思库克耶: 大数据时代,人民,2013年1月,第一版【6】胡小明:“大数据启发新思维”,第二届大数据应用论坛大会报告,原文:.ciotimes./bi/bzigd/82383 3.html气象与大数据? 时间:2014-03-24 08:47:12来源:未知 作者:宣传与科普中心 点击数:194世界发展的趋势之一就是信息化,不同数据之间相互交叉编织成立体的、密集的信息网,在其中的任何一个数据都可能有它的用途。那么,如何从气象角度看大数据呢? 特别的大数据气象历来同数据打交道在一
39、些人眼中,气象部门的主要职责是预报天气。然而,在世界各国的经济生活中,不少行业,如 农业、交通业、建筑业、旅游业、销售业、保险业等,无一例外与天气的变化息息相关,随着气象在社会 生产生活中越来越受重视,气象业务也在不断地拓宽领域,从最基础的天气预报到现有的气候预测、气候 可行性论证、公共气象服务、专业专项气象服务、气象防灾减灾等,气象业务仍将继续拓展,把气象产品 送到更多人手中,为社会创造财富、减轻损失。毫不夸地说,气象部门就是一个超大的“数据库”,里面存储了海量的数据。从业务角度对气象数据进行划分,包括气象观测数据和气象产品数据。计量和记录一起促成了数据的诞生,它们是数据化最早的根基,气象观
40、测数据是开展各项气象业务的基础。我们平时从电视、报纸或者获取的看似简单的天气预报信息,在其后都有非常庞杂的数据采集作 支撑,包括全国2000多个地面站、120多个高空探测站、6颗在轨卫星、5万多个自动监测站、600多个农 业监测站、300多个雷达站等,逐日逐小时甚至到逐分钟扫描着中国岀现的各种各样的大气数据。仅就来 说,每天有85个气象站、3000多个区域自动气象站、7部新一代多普勒天气雷达、2个探空雷达站实时监测各类气象要素。我们每日接收到的天气预报信息,就是由如此庞杂的数据,再加上欧亚甚至全球的所有 气象数据,通过筛选、运算、分析等一系列复杂的工序得到的。随着预报业务的不断发展,这些数据将
41、更 加精密,数量也将继续增加。随着各行各业对气象信息的需求越来越大,简单的晴雨气温预报早已无法满足社会的需要。针对不同领域、不同行业、不同群体,气象部门要制作相应的气象产品,例如提供给政府的决策气象服务,水利、 电力、交通、农业等部门对气象也各有需求,各类企业对气象信息的需求也不一样,有的关注降水,有的 关注气温,有的关注灾害,有的关注风速风向,而且在不同时间、不同地域,各行各业对气象的需求也不 一样。仅就一般公众来说,对天气预报的需求也不限于是否下雨、温度如何升降了,他们渴望更精细、更 准确、更长时效的预报,甚至需要气象部门直接指导他们的生活。气象产品越来越庞杂,容越来越丰富, 构成了气象大
42、数据中的一部分。引爆气象大数据挖掘大数据在气象上的运用量化一切,是数据化的核心。长期以来,无论是观测业务、预报预测业务还是科研工作,气象工作 者们都一直在做着量化的努力。就气象数据自身来说,我们可以由已知的数据模拟得到过去几千年、几万 年甚至更久以前的气象数据,也可以通过这些数据去预测多年后的气象环境,当然,在这其中还需要量化 其他非气象因子。大数据时代观点认为,对大数据进行相对简单的相关运算永远比对小数据进行复杂运算 得岀的结果准确,在一定程度上来说,气象部门一直在做这样的事,例如我们常用到的“遥相关”、“模 式耦合”等运算方法,正是在寻求气象要素之间,以及气象与其它事物之间的相关关系。当然
43、,一旦我们完成了对大数据的相关关系分析,我们将不仅仅满足于知道“是什么”,而会继续 更深层次地研究因果关系,找出背后的“为什么”,这就是气象科研工作者每日在忙碌的事情了。气象工作的最终目的是服务。 气象部门现有的服务包括面向政府的决策气象服务, 面向社会群体的 公众气象服务,面向水利、电力、交通、农业以及其它部门或企业的专业专项服务,以及针对干旱、暴雨 洪涝、森林火险、冰雹、雷电等灾害性天气的气象灾害预报预警服务。防灾减灾是气象部门最重要的职责之一,气象大数据在防灾减灾救灾有可为。 在大数据观点中, 预 测是核心,而“防灾”是应对灾害的重中之重,所以气象预警信息显得尤为重要。气象预警的确定,需
44、要 非常复杂的气象数据分析,再综合地形、地貌等数据,以及预报员自身的经验分析。然而,防灾减灾的发 展方向, 不仅仅是完善预警系统和提高预警准确率, 还要做老百姓看得懂的预警, 直接指导他们防灾避灾, 气象大数据必将发挥很大的作用。例如,我们可以通过某一个地方的历史灾害情况和历史气候数据,以及 该地的地理信息、森林覆盖情况、居住人口数据等,提前知晓在什么天气条件下该地会出现洪涝灾害,雨 要下到多大才会成灾,下那么大的雨会有多少人受灾,受灾人群要如何撤离等等,进而指导农作物种植、 房屋建造、建筑设施规划选址等等,从源头防灾减灾。气象部门应用气象大数据的实例很多,实际上我们每天都在做着这样的事情。例
45、如今年 2 月17 日 我省出现的大围雨雪天气, 17日夜间至 18日白天,我省普遍出现降雪天气,有 8个县出现暴雪, 12 个县 出现中雪, 52县出现小雪。全省共有 83 县 1341乡镇降水,市区也降下中雪。其实早在 2 月中旬初, 我们就已经根据大量的气象观测资料以及模式资料数据分析,对这次大围的降雪天气进行密切跟踪预报,期间多次向政府及各部门提供决策服务材料,通过各大媒体发布预报和预警 信息,并针对公路、铁路、民航、农业等不同领域制作相应的气象服务产品。正是通过对大量气象数据以 及气象数据与交通、 农业等其他领域的数据进行分析处理, 才让我们做到了准确的预报和及时到位的服务, 省领导
46、作出重要批示,充分肯定了各部门之间的通力协作和联动应对,将降雪对交通运输的影响降到了最 低。从大数据角度来看,这也是对各行各业之间的数据共享做出的肯定。云计算搭载气象大数据助力防灾减灾 气象数据的大量搜集、处理和分析,对硬、软件的要求更为苛刻,传统的处理设备难以满足大数据 处理的功能和性能要求。大数据与云计算是一个问题的两面,一个是问题,一个是解决问题的方法。云计算是大数据时代的基础。当越来越多的需求出现时,向虚拟的“云端”提出申请,“云端”为 该需求迅速组织计算资源,而在计算结束并将结果反馈后,“云端”又可将这些临时组织起来的资源快速 释放。这样既提高了资源利用率,也使得我们不必为了复杂的运
47、算一味追求昂贵的超级计算机。云计算使得大数据处理更方便、更快速、更省时省力,这在气象防灾减灾中意义重大。要提高预报 预警准确率、科学评估灾害,必须要纳入除气象数据以外的大量其他各行各业的数据,传统的设备无法快 速处理,这无疑是和生命财产安全抢夺时间,而云计算可以很好地规避这个问题。打破“数据壁垒”气象大数据将大有作为 总的说来,气象大数据也就是气象数据加上行业数据分析得出事情变化规律和对未来的一些预测, 也就是说, 要在不同数据之间确立一定的规则, 对未来进行预测。 气象数据能做这样的事情是由于其客观、 稳定、量大,而且气象数据和各行各业的相关性非常高。气象与经济发展和社会生活息息相关,因此,
48、发 展气象大数据大有作为,一定能为国家、为社会创造更多的财富。气象部门是高科技部门,积累了大量的数据,无疑这些数据都是宝贵的资源和财富,要充分挖掘这些资源的价值,利用好这些资源,与政府部门、企业、社会组织等紧密合作,才能提供更贴近民生、贴近 生产、贴近实际,并且更为准确、更个性化的气象服务产品。气象大数据对创造和增长社会财富有重要意 义,比如说能源,可以通过分析电力负荷历史,加上气象数据进行用电量估算;比如农业,可以通过某一 地的农耕历史加上气候信息就可以进行农作物结构调整指导;还有交通,航班准点率历史加上机场历史天 气特征,就可以得到航班延误预测;再有公共卫生,通过门诊量和药品销量加上气象历
49、史就可以推测发病 率趋势;在饮品方面,通过销量和气象要素关联就可以掌握销量变化。然而,在实现气象大数据的过程中,“数据壁垒”是一个实实在在的障碍。我们需要建立双方及多方的信息基础环境进行数据融合,对各个行业的数据都需要融合深度分析。所以,用好气象大数据,必须 打破各行业之间的“数据壁垒”,真正做到数据共享,才能更实现气象大数据的价值,从而更大程度减轻 灾害损失,为社会创造更多的财富。 (文:蕾/指导:汤筑强)大数据时代:气象应用与时俱进标签:大数据 2014-05-15 14:46当前,信息技术的创新正在改变着我们熟悉的生活和工作方式。在大数据时代,与气象事业发展密切相关的气象数据再次成为焦点
50、。气象的大数据时代真的到来了吗?近日, 记者就上述问题采访了国家气象信息中心副总工程师文海、中国科学院自动化研究所研究员文生。大数据到底有多 大”?IBM研究表明,在整个人类文明所获得的全部数据中,有90%是过去两年产生的。而到了 2020年,全世界所产生的数据规模将达到今天的44倍。根据国际数据公司IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番。数据量暴增的速度令人瞠目结舌,我们已进入大数据时代”。文生说: 事实上,智能终端的大量应用,如聊微信、刷微博、手机支付,让越来越多的用户贡献了越来越多的数据。记者了解到,就数据量而言,中国的大数据主要有以下几类:互联网,大约有2EB的
51、数据。电信、金融、保险、电力、石化系统每个系统大致都拥有10PB以上的数据;在公共安全、医疗、交通、电子政务领域,一个中等规模城市每年大约产生300PB。在商业销售、制造业、农业、物流和流通等领域,数据量尚处于积累期,体量不大,多的达到PB级别,基本约在数十TB到近百TB级别。对于气象数据来说,气象部门需要永久保存的数据目前约有4PB5PB,年增量约1PB。'文海介绍,相对而言,气象数据较上述数据大户至少低3个数量级。气象数据是大数据吗?”文生介绍。大数据就是全体数据,是混杂数据,不必追究数据的来源。目前,对大数据的特征, 科学界已达成了共识, 就是大体积、 多样性、 高速度和价值大。
52、 “体积巨大是大数据的最根本的特征。一般而言,大数据的起始计量单位至少是PB、 EB 或ZB 级别。 ”文海介绍。类型和来源的渠道繁多是大数据的第二个特征。此外,生成速度快、 处理时效高、价值巨大也是大数据的特征。“在体积上,气象数据刚刚达到大数据的准入门槛。 ”文海分析道:目前,在所有气象资 料中,地面观测、 气象卫星遥感、 天气雷达和数值预报产品四类数据占数据总量的90%以上,堪称 “四大金刚 ”。气象数据来源种类繁多, 仅气候工作特用资料就包括冰芯、 花粉、树木年轮、 洋流盐度、 地表植被等观测资料,已达数十种。文海说: “这些数据虽然种类多,但都是只用于气象领 域的科学数据,来源较为单
53、一。 ”众所周知,基本的气象数据直接用途是气象业务、天气预报、气候预测以及气象服务。 “大数据应用 ”与目前的气象服务有所不同,前者是气象数据的 “深度应用 ”和 “增值应用 ”,后 者是既定业务数据加工产品的社会推广应用。“不宜将气象预报产品的社会化推广应用简单地冠以 气象大数据广泛应用 '的名称,因为 产品应用与气象数据的 大小'无关,如此冠名将易导致概念的混乱和气象 大数据 '的简单化。” 文海表示。气象数据要如何发展?大数据时代已经到来, 气象数据如何发展是气象工作者关注的重点。 “目前,社会上的 大 数据应用 '大多局限在数据基本价值的深度应用挖掘方面
54、。 ”文生说。除了大家知道的天气预 报等, 现在,气象行业的公共服务职能越来越强, 面向政府提供决策服务, 面向公众提供气 象预报预警服务, 面向社会发展, 应对气候发展节能减排。 这些决策信息怎么来依赖于我们 对气象数据的处理。采用统计分析方法对海量数据进行分析处理, 发现其中某些特定要素之间的关系, 这是 到目前为止,所有 “大数据应用 ”成功案例的共同特征,即便 “大机器学习 ”等目前备受推崇的 大数据时代新事物也无例外。 “大数据的核心就是预测 ”,这是大数据时代的作者舍恩伯 格的名言。 “如果这一断言是准确的话, 那么气象数据的 大数据应用 '时代也许还没有到来。 ” 文海分
55、析道。天气和气候系统是典型的非线性系统, 无法通过运用简单的统计分析方法来对其进行准 确的预报和预测。 人们常说的南美丛林里一只蝴蝶扇动几下翅膀, 会在几周后引发北美的一 场暴风雪这一现象, 形象地描绘了气象科学的复杂性。 运用统计分析方法进行天气预报在数 十年前便已被气象科学界否决了 也就是说, 目前经典的大数据应用方法并不适用于天气 预报业务。 “既然预测是大数据的核心, 那么对于天气预报这一气象领域核心 预测 '业务而言, 其大数据应用 '除了统计分析方法外,还有什么别的方法吗? ”文海说道。气象数据是整个气象行业的基础资源, 它的价值在气象行业部已经和正在被深入挖掘着。
56、 对于全社会而言,气象数据也是极其珍贵的信息资源。 我们期待着气象数据在跨行业综合应 用这一增值应用”价值挖掘过程中焕发出的新的光芒。观察一下国外气象同行们的反应不无裨益 尤其 当你了解到这些国外(尤其是发达国家)气象同 你的头脑也许会冷静下来,并产生如下疑问一一面对社会上沸沸扬扬的大数据风潮, 是身处大数据风潮发源地的美国气象同行。 行对于大数据风潮近乎一致的冷漠反应时, 气象大数据时代真的到来了吗?来源:中国气象报权限:公开来自:labs声明:本文仅代表作者个人观点。其原创性及文中表达的意见、判断、数据、观点和述文 字等容均与中国移动研究院无关。移动Labs博客致力于为ICT领域的研究者及
57、从业者提供技术和业务交流的网络平台,对本文中全部或部分容的真实性、完整性不作任何保证或承诺, 仅供读者参考交流。大数据如何应对成长的 烦恼"下一篇>>大数据如何应对成长的“烦恼"?标签:大数据2014-05-23 11:25今天,已经几乎没有人会再怀疑大数据的价值,人们更加关心的是如何真正将大数据推向应用,真正发挥其价值。但是,尽管业界不乏探索,但客观来看大数据的整体发展目前尚 处于初级阶段。换句话说,对于大数据理念的认可并不代表就能利用好大数据。尤其是在中国,尽管大数据拥有良好的产业基础和发展前景,但数据资源的开放程度较低、数据资产的保护等现实问题都是当前面临的主要挑战。如何应对这些挑战,驱动大数据快速走向普遍应用?近日工信部电信研究院发布的大数据白皮书,针对上述问题给出了独到的解答。有效的应用模式还未找到当前,大数据还未形成普遍应用的局面。究其原因,在于大多数企业,特别是传统领域的企业,还未找到有效的应用模式。理念的应用快于数据的应用数据就是资产。这一轮大数据浪潮,使得大数据理念迅速普及。尽管很多数据尚没有找 到合适的用途,但很多公司已经将其作为资产,对其数据进行规划、存储,或自行开发,或 积极寻找买家,或寻找合作者。电信运营商最有可能成为典型的数据资产运营者
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 聊城大学东昌学院《中国古代文学专题(二)》2022-2023学年第一学期期末试卷
- 聊城大学《英语语言学》2023-2024学年第一学期期末试卷
- 侨联年工作总结及年工作计划
- 店长个人工作计划书怎么写
- 2024初中英语教师个人工作计划
- 年食堂工作总结和年工作计划
- 02024年保安工作计划范文
- 2024年1月小学教师工作计划
- 公司销售人员计划
- 七年级第一学期信息技术教学计划
- 2024年协议延期约定详细范本版
- 2023年北京市燕山初三二模英语试卷及答案
- 机场视频监控安全防范方案
- GB/T 44843-2024在用自动扶梯和自动人行道安全评估规范
- 2024年秋新人教PEP版3年级上册英语教学课件 Unit 5 Part B Start to read
- 新能源行业光伏发电与储能技术方案
- 影视剧组安全管理规定及应对措施
- 2024年执业药师继续教育专业答案
- 24秋国开《西方行政学说》形考任务1答案(第2套)
- 交通事故纠纷协议书模板
- 2024年新苏教版六年级上册科学全册知识点(超全)
评论
0/150
提交评论