气象数据的“大数据应用”浅析

  • 格式:docx
  • 大小:65.33 KB
  • 文档页数:24

下载文档原格式

  / 44
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

气象数据的“大数据应用”浅析

2014-03-24 17:03:19 作者:国家气象总局沈文海来源:CIO时代网

摘要:气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。

关键词:气象数据大数据

1、引言

据统计,2011年全球的数据规模为1.8ZB,这些信息将填满575亿个32GB的ipad,以这些ipad做砖石,足可以垒建起两座中国的万里长城。而到2013 年,仅中国当年产生的数据总量就已超过0.8ZB,2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB.【1】而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹航空母舰。

数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”.

很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据”的应用范式,以此研判着可能给本行业带来的变化和新的业务契机--气象部门也是如此。

做为抛砖引玉,笔者拟就如下问题提出自己的看法:

(1)气象数据是否具备“大数据”的核心特征?

(2)业界公认的“大数据应用”的主要形态是什么?

(3)“大数据时代”背景下气象数据应用中新的价值领域在何处?需要首先具备哪些必要条件?

(4)气象信息技术领域当务之急需要解决的关键技术问题。

2、大数据的现实以及气象数据的体量构成

2.1 大数据的行业分布

就数据量而言,中国的大数据近期具有如下行业分布特征:

(1)互联网公司

目前国内的互联网公司,拥有总计约2EB的数据,而其中的互联网三巨头BAT(百度、阿里巴巴、腾讯)占有了其中的3/4(约1.5EB)。

(2)电信、金融、保险、电力、石化系统

这些行业及企业数据量分布较为平均,就每个企业(或运营商、部门)而言,大致都拥有10PB以上的数据,且年增量都在PB级以上。总和则有数百个EB的存储数据和数十EB的年增量。

(3)公共安全、医疗、交通、电子政务领域

城市:随着平安城市、智慧城市等工程的推进,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约300PB.最保守估计(含定期循环清除),每年能够保存下来的数据在数百PB以上。

交通:飞机航班往返一次产生的数据达TB级。列车、水陆路运输每年产生并保存下来的各种数据视频、文本类数据约达数十PB.

卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB.

电子政务:一个智慧城市的电子政务所产生的数据每季度约达200PB.而调查显示,未来1~2年中国政府部门的数据规模超过100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是10~50TB.

(4)其他,商业销售、制造业、农业、物流和流通等领域

随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百TB甚至数十TB级别。【2】

(5)气象数据

气象部门需要永久保存的数据目前约4~5PB,年增量约1PB.

由此可见,以数据量而言,在整个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言,气象数据无论总量还是增量,较这些数据大户至少低3个数量级。

2.2 大数据的特征

早在2012年,业界便已就大数据在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的4V特征:

Volume(大体积):体积巨大是大数据的最根本的特征,体积不足够大,任何数据都不能称之为“大数据”.一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。

Variety(多样性):类型和来源渠道繁多是大数据的第二个特征。大数据非但体积巨大,而且内容繁杂,数据种类繁多,包括网络日志、音频、视频、图片、地理位置信息等等;这些种类繁杂的数据来源于多种不同的渠道。多类型的数据对数据的处理能力提出了更高的甚至全新的要求。

Velocity(高速度):生成速度快,处理时效要求高,这是大数据区分于传统数据采集、汇聚、处理乃至数据挖掘等方面最显着的特征。

Value(价值稀薄):数据价值密度相对较低,这是大数据的第四个特征。根据业界专家的看法,大数据里蕴藏着的信息无所不包,任何人所需要的任何信息,都可以从大数据里寻找到。只是这些信息隐藏在大数据的汪洋大海之中,寻之如同大海捞针,人们需要研究出类似沙里淘金的办法,才能在有效的时间内将所需信息寻找到。因此如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。当然,还有一些人将对大数据“Value”的理解确定在“价值丰富”的层面上;而最早提出“大数据”概念及特征的Gartner 公司和麦肯锡公司,甚至至今仍坚持特征“3V”(Volume、Variety、Velocity)论,认为“Value”不能作为大数据的特征【3】。限于篇幅,不予展开讨论。

需要注意的是,在此“4V”(或“3V”)特征中,“Volume”(体量巨大)仅仅是成为大数据的必要条件,而非充分条件,如同 30mm的日降水,在我国东南沿海地区十分平常,但在西北地区却可算罕见大雨,所以体量大小是相对的。事实上,大数据概念的提出绝非仅因为数据量的暴增,而且是因为数据已多得用传统方法无法应对或处理,导致人们必须采用新的方法、新的思路乃至新的理念予以应对。如果数据量虽大,但却能够处理和掌控,便不能称其为“大数据”.因此,“4V”对于大数据而言,既是特征,也是考量的四个维度。

2.3 气象数据的体量种类分布

气象资料种类较多,就体积而言,其中的地面观测、气象卫星遥感、天气雷达和数值预报产品四类资料占据总量的90%以上,其中:

地面观测资料:因二十一世纪以来观测方法从人工观测改进为自动观测,摆脱了人类居住条件限制的制约,台站数由本世纪初的不到3,000个,迅速扩展到目前的40,000多个,观测频度由最初的3小时/次调整到目前的5分钟/次,因而导致资料量呈几何倍数增涨,月增量由最初的约240MB猛增到现在的约2.4TB,增幅约4个数量级。根据防、减灾以及气象服务的需要,未来扩建计划有可能将台站数继续扩增至70,000到100,000个,观测频度有可能继续加密到1分钟/次;因此未来六年内该类资料总量有可能在现有基础上再行扩增1~2个数量级,由现在的每天数百万条记录增至超过一亿条记录/天。

天气雷达资料:按照《天气雷达近期发展规划(2005-2010)》以及《气象发展规划(2011-2015)》中“新一代天气雷达建设增补站点布局方案”,目前在全国已布设约200部不同波长的多普勒天气雷达,并为达到雷达资料全社会共享的目的,已基本实现7×24小时全天候不间断观测;日增总量约300GB.

气象卫星资料:根据《我国气象卫星及其应用发展规划(2011~2020年)》,至2020年,我国计划发射11颗气象业务卫星,包括3颗风云二号03批卫星,3颗风云三号上午星、2颗风云三号下午星、1颗降水测量雷达星以及2颗风云四号光学星。此外还将在2020年前发射2颗气象试验卫星。【数据量待补充】目前的日增总量约数百GB,未来有可能增加到数TB/日。

数值预报产品:与地面观测、气象卫星和天气雷达等气象观探测资料不同,气象数值预报模式资料属于气象观探测资料的加工产品。以GRAPS、T639为代表的天气预报模式,以及以BCC_CSM2、DERF2.0为代表的气候预测模式,每天都在实时运行,不断产生着数以万计的各类要素场,以供国家级、省级乃至区域级预报员参考使用,日增量接近TB级。