当前位置:文档之家› 基于云计算的政府统计数据网络直报技术研究

基于云计算的政府统计数据网络直报技术研究

基于云计算的政府统计数据网络直报技术研究

研究报告

目录

摘要 (3)

一、引言 (4)

二、云计算相关文献综述 (5)

(一)云计算的定义 (5)

(二)云计算的特点 (7)

(三)云计算服务模式 (8)

(四)云计算的部署模式 (11)

(五)云计算关键技术 (12)

三、基于云计算的政府统计数据网络直报技术探索 (16)

(一)实地访谈情况 (16)

(二)云计算在政府统计部门网络直报系统的应用探索 (18)

(1)需求分析 (18)

(2)可行性分析 (19)

(三)构建思路 (20)

(四)系统架构 (21)

四、研究结论及建议 (31)

参考文献 (35)

附录云计算平台简介 (37)

摘要

最近几年,随着经济和社会的发展, 特别是2004年9月国家统计局统计电子报表南海试点现场会以来,网上直报正在全国兴起,目前在很多地区已经实现了规模工业企业通过网上直报系统上报统计报表。由于网络直报涉及到量大、面宽的海量数据, 数据库服务器一方面要解决存储空间、访问速度及清除网络瓶颈等问题,另一方面还要完成所有数据的挖掘过程,这样的巨大压力是无法适应网络发展需求的。同时,随着每天实际应用中不得不继续增加的文本数据,这即使是针对已经完成预处理的文本资料的数据挖掘,也超出了现有小型处理机的承受范围。因此一种集智能化的、综合应用各种统计分析方法、数据库、智能语言来分析庞大数据资料的技术云计算就应运而生。目前云计算应用尚尚处于尝试性的萌芽阶段,规模地运用云计算技术尚不普遍,个别企业或统计部门只是零星地运用云计算技术。因此在统计数据网络直报中,如何充分利用云计算的各种技术,提高统计效率,具有重要的理论价值和实践指导意义。本课题基于云计算的理论和技术以及政府统计数据的特点,分析云计算在政府统计数据网络直报中的具体应用,探索政府统计部门云计算中心的系统架构和关键技术,提出基于云计算的政府统计数据网络直报技术的设计层次和应用模式。

一、引言

随着国家统计局未来信息化发展,推进统计系统“一网、一台、一库”建设将成为重中之重。其中,“一网”指从统计局计算中心到地级市县,建立统一网络,构建信息高速公路;“一台”是指构建统计网络系统核心业务处理平台,保证全国统计业务平台统一集中;“一库”则是统计数据大集中,建立统一集中的数据库。数据大集中使统计数据采用统一标准,统一管理,统一计算,从而使统计的数据结果更具有科学依据。统计数据网上直报系统,实现了统计数据采集模式由逐级上报、层层汇总的传统方式向网络环境下在线直接采集转变。比如,北京市的统计数据网上填报工作己经推广到年定报全部规模以上企业,约3.2万家,年定报的月网报率均在90%以上;哈尔滨市、杭州市统计局也实现了全市几乎所有专业的网上报送工作,企业上报率达到或接近100%。通过网上直报系统采集数据可以减少中间环节,实现真正意义上的超级汇总,从而增强统计数据的抗干扰能力;可以通过基层人员数据录入环节的审核,将数字差错消灭在基层,从而提高源头统计数据质量;可以减轻各级统计部门专业人员催报、录入、审核、查询等方面的工作压力,将更多精力放在对数据质量进行监控和对数据进行分析,提高统计信息服务的质量和水平。网上直报系统改变了统计工作流程,减轻了企业和基层统计部门的负担,可以提高统计数据的时效性、准确性和全面性,以及统计工作的效率和质量。

由于网络直报带来了网络资源迅速的不断膨胀,数据库服务器一方面要解决存储空间、访问速度及清除网络瓶颈等问题,另一方面还要完成所有数据的挖掘过程,这样的巨大压力是无法适应网络发展需求的。同时,随着每天实际应用中不得不继续增加的文本数据,这即使是针对已经完成预处理的文本资料的数据挖掘,也超出了现有小型处理机的承受范围。计算机和互联网的发展为处理海量数据提供了方法和手段。这其中一种智能化的、综合应用各种统计分析方法、数据库、智能语言来分析庞大数据资料的技术就应运而生,这就是目前国际上当前最热门的话题之一——云计算。

台湾辅仁大学谢邦昌提出,云计算是基于互联网的运算方式,它通过互联网

为个人或企业提供按需即取的服务。随着计算机技术的发展,数据的存储量成倍地增长,统计分析及数据挖掘技术在“数据海洋、知识荒漠”的背景下应运而生,并且一经出现就得到各个领域的重视。云计算可以实现使用端通过在线上传数据或购买数据,通过云数据仓库服务进行数据仓库建模和数据抽取,在线支付使用数据挖掘工具和商业智慧相关分析处理软件,这为网络直报提供了技术支撑。

统计数据被喻为国家“战略金矿”,其重要性不言而喻。统计数据背后需要面对的则是统计工作现代化。对于推进统计工作现代化,根本是实现工作的规范化和统计数据生产过程的信息化,积极推进联网直报工作和企业统计“一套表”改革,实现统计报表布置和统计数据采集、审核、处理、上报、存储、共享和发布的网络化和计算机化。国家统计局已经逐步建立了一个领先的“统计云”系统。国家统计局建立的“统计云”是基于基础架构云(Iaas)方面。基于一种云的思想构建的这一核心业务系统,最大的优势在于它是一个开放的系统,资源可以根据业务的需求实现横向纵向的进一步扩展。当系统的资源匮乏时,可以随时往里面加资源,实现对资源高效的使用。因此在统计数据网络直报中,如何充分利用云计算的各种技术,提高统计效率,具有重要的理论价值和实践指导意义。

二、云计算相关文献综述

(一)云计算的定义

云计算的概念首先是由美国谷歌公司提出,其在搜索引擎技术的成果奠定了它在云计算领域的绝对优势。谷歌公司希望通过其搜索引擎的数据库优势提供在线应用的统一平台。

目前云计算还没有统一的定义,常被引用的定义包括:

(1)维基百科:云计算将IT相关的能力以服务的方式提供给用户,允许用户在不了解提供服务的技术、没有相关知识以及设备操作能力的情况下,通过Internet获取需要的服务。

(2)中国云计算网:云计算是分布式计算(Distributed Computing)、并行

计算(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些科学概念的商业实现。

(3)VAQUERO LM:云是一个包含大量可用虚拟资源(例如硬件、开发平台以及I/O服务)的资源池,这些虚拟资源可以根据不同的负载动态地重新分配,以达到更优化的资源利用率。这种资源池通常由基础设施提供商按照服务等级协议(Service Level Agreement,SLA)采用用时付费(Pay-Per-Use PPU)的模式开发管理。

(4)中国网格计算、云计算专家刘鹏(2010)给出的定义:“云计算将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务”。

IBM 的技术白皮书中给出的定义是:“云计算描述一种系统平台或者一类的应用程序。云计算平台可以按需进行动态地部署、配置、重新配置以及撤销…”。

上述定义中,定义1和定义3中都提到了云计算提供服务,只是定义1从云计算用户的角度出发,而定义3是从云计算提供者的角度出发。定义2则主要从云计算的发展脉络来给出定义。结合上述定义,云计算的“云”就是存在于互联网上的服务器集群上的资源,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等),本地计算机只需要通过互联网发送一个需求信息,远端就会有成千上万的计算机为你提供需要的资源并将结果返回到本地计算机,这样,本地计算机几乎不需要做什么,所有的处理都在云。

虽然云计算的定义没有统一认识,但均能体现以下特点:①云计算为用户提供按需分配的计算、服务和应用服务能力,类似于自来水的供水模式,用户拧开水龙头即可取水;②方便用户,大大降低了软硬件的购置成本;③易于动态扩展;

④高可靠性和高安全性。

随着云计算应用领域的不断拓展,郑慧勇(2011)提出了关于统计数据中心云计算平台的设想。国家统计局数据管理中心主任许剑毅(2011)进一步提出了“统计云”的部署过程,最重要的是对需求的深刻理解和把握。目前统计局信息化面临两个问题:一是庞大的应用系统具有海量信息处理、时效性强、高并发量的业务特点;另外一个是国家、省、地、县、乡、村六级系统相互之间标准不统一,难以达成有效沟通。基于这样的业务需求,国家统计局和地方政府统计部门

需要建立一个国家统一的核心业务系统,即统计云。

(二)云计算的特点

(1)超大规模及虚拟化

Google、IBM等的“云”可以有数十万甚至上百万台服务器,“云”可以给用户提供前所未有的超强计算能力;“云”端采用虚拟化技术,支持用户在任何时间和地点、使用简单的终端设备登录并获取“云”端的数据和软件资源,而不必了解应用运行的具体位置。

(2)通用性与易扩展性

云计算不针对特定的应用,在“云”的支撑下根据用户的需求可以构造出多样化的应用,同一个“云”能够同时支撑多个不同的应用;“云”的规模也可以动态伸缩,满足应用环境和用户规模增长的需要;可以实时将服务器加入到现有的服务器集群中,增加“云”的计算能力。

(3)高可靠性和灵活性

“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,并支持任意点的恢复;“云”端在扩充资源的同时能够兼容不同硬件厂商的产品和早期的低配置主机来获得高性能的计算。

(4)数据与应用共享

在云计算的网络应用模式中,只有一份数据被保存在“云”端,用户接入到网络后能够同时访问和使用同一数据,避免了在不同设备之间进行手工同步的开销。

(5)极其廉价

借助“云”的特殊容错措施,可以采用极其廉价的节点来构成云。“云”的自动化集中式管理使大量单位无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势。

(三)云计算服务模式

云计算有三种服务模式:把云软件作为服务(SaaS)、把云平台作为服务(PaaS)、把云基础设施作为服务(IaaS)。图1给出了这三种云服务模式所对应的云提供商。

图1 云计算服务模式

1、软件作为服务(SaaS)

在这种交付模式下,提供商在云计算设施上运行程序,用户通过各种客户端设备的瘦客户界面(如网页浏览器、基于网页的电子邮件)使用这些应用程序。用户不需管理或控制底层的网络、服务器、操作系统、存储系统、应用程序等,但可能需要完成一些与用户相关的应用程序参数设置。“把软件作为服务”的特色是根据需要作为服务提供的一整套应用程序。该软件的单个实例运行于云上,并为多个最终用户或客户机构提供服务。相关的SasS 示例主要包括:(1)最著名的SasS 示例是https://www.doczj.com/doc/6911813320.html,。1999年,27岁的甲骨文(oracle)高级副总裁、俄罗斯裔美国人马克·贝尼奥夫创办了https://www.doczj.com/doc/6911813320.html,公司,并提出软件即服务(SaaS,Software-as-a-service)的思想,并运用于客户关系管理服务(CRM)软件。目前已有72,500 家公司采用了Salesforce的CRM。

(2)针对终端用户谷歌则推出了Google Apps,这是一套基于网络的文档、电子数据表和其他生产力应用软件。主要有Gmail,GoogleDOCS、Google MAP、calendar、chat等。

(3)Microsoft Online Services:包括Windows Live、Office Live、Exchange Online、SharePoint Online、Office Live Meeting、Office Communications Online、Exchange Hosted Services、Dynamics CRM Online。

(4)NetSuite:NetSuite提供的NetSuite Business Software Suite 是行业领域首家在线商业软件。在强大的单一应用软件中,NetSuite集成了前台面向最终用户的CRM和电子商务功能与后台面向企业内部及合作伙伴的ERP,以及自助服务门户功能。

(5)Yahoo:Yahoo Small Business服务提供了一个组合,其中包括:域名注册服务、网站托管服务、邮件服务,这个简单组合在一个服务包内让小企业拥有了所有必要的面向因特网的服务,并且比起其它非云的选择具有明显的价格优势。客户所需的只是接入服务,在不再需要时可以简单地取消服务。

2、平台作为服务(PaaS)

在这种交付模式下,用户采用提供商支持的编程语言和工具编写好应用程序,然后放到云计算平台上运行。用户不需管理或控制底层的网络、服务器、操作系统、存储系统等,但要控制应用程序,可能还需要设置应用程序的运行环境。从服务生产商或消费者的观点看,关于PaaS 的观点至少有两种。

(1)生产PaaS 的某个人可能通过集成OS、中间件、应用软件甚至是一个随后作为服务提供给客户的开发环境来生产一个平台。例如,开发PaaS 的人可能会使其以一组Sun xVM 管理程序虚拟机为基础,这组虚拟机包括一个NetBeans 集成化开发环境、一个Sun GlassFish Web 栈,并支持像Perl 或Ruby 这样的其它编程语言。

(2)使用PaaS 的人会看到一个封装式服务,该服务是通过API 提供给用户的。客户通过API 与该平台互动,而且该平台执行一切必要的操作来管理和扩展其本身,以提供规定的服务水平。虚拟设备可以归类为PaaS 的实例。例如,一个内容交换设备会将其所有组成软件对客户隐藏起来,而只向客户提供用来配置和部署服务的一个API 或GUI。

PaaS 的商业示例包括:

(1)Google App Engine。谷歌推出了谷歌应用软件引擎(Google AppEngine,简称GAE),这种服务让开发人员可以编译基于Python的应用程序,并可免费

使用谷歌的基础设施来进行托管(最高存储空间达500MB)。对于超过此上限的存储空间,谷歌按“每CPU内核每小时”10至12美分及1GB空间15至18美分的标准进行收费。最近,谷歌还公布了提供可由企业自定义的托管企业搜索服务计划。

(2)https://www.doczj.com/doc/6911813320.html,是https://www.doczj.com/doc/6911813320.html,的企业云计算平台。https://www.doczj.com/doc/6911813320.html,向企业提供在云端上快速创建和实施业务应用程序所需的一切,包括数据库、无限的实时定制、强大的分析、实时工作流程和审批、可编程云逻辑、集成、实时移动部署、可编程的用户界面和网站功能。客户和合作伙伴在https://www.doczj.com/doc/6911813320.html,上创建了超过120,000种定制应用程序来运营他们的业务,包括供应链管理、合规追踪、品牌管理、应收账款、索赔处理、休假应用程序以及其他更多的应用程序。

(3)Microsoft Windows Azure Platform。Windows Azure Platform是一套云端服务作业系统,作为Windows Azure平台的开发、服务代管及服务管理的环境。通过微软的Windows Azure系统可提供开发人员随选运算及存储,用来装载、延伸及管理网络上的Web应用程序、云端应用程序和网络服务。Windows Azure Platform与Visual Studio进行了整合,支持一致性的开发经验。Windows Azure Platform是个可同时支持微软及非微软程序语言及环境的开放性平台。微软欢迎Eclipse、Ruby、PHP与Python第三方工具和语言能够加入Windows Azure Platform 行列。

(4)NetSuite Suite云。NetSuite为其合作伙伴提供Suite云系统,在利润丰厚的云计算市场推出了自己的定制应用平台。据国外媒体报道,该平台提供的服务使其成为谷歌及甲骨文等公司的竞争对手,Suite云平台将包含一系列的新产品、开发工具和服务,包括新的Suite云开发网络(SDN),将专门面向独立软件开发商。独立软件开发商可以选择在NetSuite上或Suite云开发平台上利用NetSuite商业操作系统(NS-BOS)创建SuiteApp,或者干脆使用现有应用程序进行整合。

3、基础设施作为服务(IaaS)

在这种交付模式下,用户将部署处理器、存储系统、网络及其他基本的计算资源,并按自己的意志运行操作系统和应用程序等软件。用户不需管理或控制的底层的云计算基础设施,但要控制操作系统、储存系统和应用程序,可能还需要

选择网络组件(防火墙、负载均衡器等)。

亚马逊的云计算产品总称为Amazon Web Service(亚马逊网络服务),主要由4部分组成,包括S3(Simple Storage Service,简单的存储服务)、EC2(Elastic Compute Cloud,可伸缩计算云)、SQS(Simple Queuing Service,简单信息队列服务)以及SimpleDB。也就是说,亚马逊目前为开发者提供了存储、计算、中间件和数据库管理系统服务。作为Infrastructure as a Service (IaaS)在实际应用中的一个例子,The NewYorkTimes 使用成百上千台Amazon EC2 实例在36 小时内处理TB 级的文档数据。如果没有EC2,TheNewYork Times 处理这些数据将要花费数天或者数月的时间。

另一个示例是Joyent,其主要产品是一系列虚拟化服务器,这些服务器提供运行网站的高度可扩展的随需应变基础设施,包括用ruby on rails、PHP 、Python 和JA V A编写的丰富的web应用程序。

(四)云计算的部署模式

不管利用了哪种服务模型(SaaS、PaaS、或IaaS),存在四种云服务部署模型,以及用以解决某些特殊需求而在它们之上的演化变形。

(1)私有云。在这种模式下,云计算基础设施由单个组织经营,可由该组织或第三方管理。可以是场内服务(on-premises),也可以是场外服务(off-premises)。

(2)社区云。在这种模式下,云计算基础设施由数个组织共享,并为一个有共同关注点的团体提供支持,可由团体组织或第三方管理。云基础设施由若干个组织分享,以支持某个特定的社区。社区是指有共同诉求和追求的团体(例如使命、安全要求、政策或合规性考虑等)。可以是该组织或某个第三方负责管理,可以是场内服务(on-premises),也可以是场外服务(off-premises)。

(3)公共云。在这种模式下,云计算基础设施由一家销售云计算服务的组织所拥有,该组织将云计算服务销售给公众或大型工业团体。

(4)混合云。在这种模式下,云计算基础设施由两种或两种以上的云(私有、团体或公共)组成,每种模式的云都保持独立,但通过标准或专有技术被组合成一体,具有数据和应用程序的可移植性。如Amazon Web Server等既为企业内部

又为外部用户提供云计算服务。这些技术促成数据和应用的可移植性(例如用以云之间负载分担的cloud bursting技术)。

(五)云计算关键技术

在云计算技术架构中,由数据中心基础设施层与ICT 资源层组成的云计算“基础设施”和由资源控制层功能构成的云计算“操作系统”,是目前云计算相关技术的核心和发展重点。

云计算“基础设施”是承载在数据中心之上的,以高速网络(目前主要是以太网)连接各种物理资源(服务器、存储设备、网络设备等)和虚拟资源(虚拟机、虚拟存储空间等)。云计算基础设施的主要构成元素基本上都不是云计算所特有的,但云计算的特殊需求为这些传统的ICT设施、产品和技术带来了新的发展机遇。如数据中心的高密度、绿色化和模块化服务器的定制化、节能化和虚拟化等;而且一些新的ICT产品形式将得到长足的发展,并可能形成新的技术创新点和产业增长点,如定制服务器、模块化数据中心等。

云计算“操作系统”是对ICT 资源池中的资源进行调度和分配的软件系统。云计算“操作系统”的主要目标是对云计算“基础设施”中的资源(计算、存储和网络等)进行统一管理,构建具备高度可扩展性,并能够自由分割的ICT资源池;同时向云计算服务层提供各种粒度的计算、存储等能力。

总结来看,云计算在技术及实现方面有以下三个特点:一是用系统可靠性代替云元的可靠性,降低了对高性能硬件的依赖,如使用分布式的廉价X86服务器代替高性能的计算单元和昂贵的磁盘阵列,同时利用管理软件实现虚拟机、数据的热迁移解决X86服务器可靠性差的问题;二是用系统规模的扩展降低对单机能力升级的需求,当业务需求增长时通过向资源池中加入新计算、存储节点的方式来提高系统性能,而不是升级系统硬件,降低了硬件性能升级的需求;三是以资源的虚拟化提高系统的资源利用率,如使用主机虚拟化、存储虚拟化等技术,实现系统资源的高效复用。同时,云计算核心技术呈现开源化的趋势,以Hadoop、OpenStack、Xen等为代表的众多开源软件已经成为云计算平台的实现基础。

云计算“基础设施”关键技术包括服务器、网络和数据中心相关技术。

(1)服务器相关技术

服务器是云计算系统中的基础节点。为了实现云计算的低成本目标,云计算系统中多采用X86服务器,并通过虚拟化提高对服务器资源的利用率。目前X86服务器的虚拟化技术比较成熟。虚拟化主要有裸金属虚拟化和寄居虚拟化两种方式,其中裸金属虚拟化在性能、资源占用等方面具有综合优势,是目前应用最为广泛的一种虚拟化方式。威睿的ESX,微软的Hyper-V和思杰的XenServer 是目前比较主流的虚拟化软件,其中威睿的市场份额最大。虚拟化逐步成为服务器操作系统的一项“标准配置”,Linux标准内核包含KVM虚拟化模块,微软Windows2008也自带Hyper-V。同时,X86虚拟化技术的开源趋势越来越明显,开源Xen以及KVM等开源虚拟化技术得到了IBM等服务器厂商的支持,应用得越来越广。从2005年以来,以英特尔、AMD等为代表的主流处理器芯片厂商开始推出支持硬件辅助虚拟化(英特尔的VT-x,AMD的AMD-V)的CPU以及芯片组产品,在原有X86指令集的基础上增加了支持虚拟化的指令,提高了虚拟机软件的运行效率。但在CPU虚拟化问题得到较好解决的同时,大量的虚拟机将会给服务器的I/O性能(主要是网络I/O)带来很大压力,网卡I/O虚拟化已成为重要的发展趋势。目前主流的I/O虚拟化技术解决方案以SR-IOV为代表,但价格比较高。虽然X86架构的服务器是目前云计算解决方案中的主流,但出于对节能的强烈需求,采用ARM、MIPS等RISC架构的低功耗服务器可能在未来崭露头角。从服务器整体设计的角度来看,大型互联网企业等云计算服务商已经不满足于采购服务器厂商规格化的产品,转而进行服务器的大量定制,定制化趋势十分明显。如谷歌采用带有内置电池组的服务器,以取消低效的UPS系统;一些互联网公司在数据缓存服务器中采用SSD硬盘或PCI-e Flash卡以提高I/O性能等。

(2)云计算相关网络技术

云可以看作是一个庞大的网络系统。一个云内可以包含数千,甚至上万台服务器,虚拟化技术的普遍采用使实际网络节点的数量更加巨大,因此用于连接云内各个节点(云元)的网络就成为实现高效的计算和存储能力的关键环节之一。云计算相关网络技术需要解决以下三个主要问题:第一,虚拟机流量的接入与

控制。由于虚拟机的引入,虚拟机间流量的交换可能深入到网卡内部进行,使得原本服务器与网络设备之间在网络接入层比较清晰的界限被打破。目前的主流方式是采用虚拟机软件厂商所提供的软件交换机(如威睿的vSwitch),但这种做法不利于实现云内网络统一的策略控制,并且软件交换机将消耗大量CPU资源。目前出现了两种解决思路:一是服务器厂商提出把虚拟机之间的互访流量直接上送给接入交换机,不在服务器内部完成(IEEE 802.1qbg EVB,Edge Virtual Bridging,边界虚拟桥接);二是网络设备厂商提出将交换机的接口模块延伸至网卡之中,网卡的虚拟接口与物理的接入交换机一起由统一的控制平面来进行控制(802.1qbh BPE,Bridge Port Extension,桥接接口扩展)。第二,数据中心内部横向流量的承载。在云计算数据中心中,出于对虚拟机“热迁移”的需要,汇聚层仍然采用二层网络组网,这使得汇聚层二层网络规模大大增加,原有生成树协议的阻塞模式将造成链路的大量浪费。目前思科、瞻博(Juniper)等公司均提出了解决大规模二层网络组网问题的方案,IETF(提出TRILL,Transparent Interconnection of Lots of Links)和IEEE(提出SPB,Shortest Path Bridging)均在进行相关技术的标准化。这些解决方案的总体思路相近,都是通过对ISIS 协议的扩展,在二层转发中引入路由技术,实现对网络链路的有效利用。第三,数据、存储网络的融合。传统数据中心中存在两类网络:连接服务器的以太网,连接服务器和存储设备的光纤存储网(FC)。两张网络的并存提高了建设和运行管理成本,为了适应云计算低成本的需要,数据网络和存储网络的融合成为一种趋势。目前思科(提出DCE,Data Center Ethernet)和IBM (提出CEE,Convergence Enhanced Ethernet)均提出了基于以太网的融合网络方案,IEEE的802.1Q DCB(Data Center Bridging)系列标准已经对以太网队列控制,带宽管理等技术进行了规范,基于以太技术的存储网络(FCoE)从技术上已经成熟,但产品的成熟和大规模商用还需要3-5年时间。

(3)数据中心相关技术

云计算使数据中心向大型化发展,也带来节能的迫切需求。据统计,2010年数据中心能耗已经占全球总能耗的1.3%,绿色化刻不容缓。在数据中心的能耗中,IT 设备、制冷系统和供配电系统占主要部分,因此数据中心的节能技术主要围绕这三个方面。对于IT 设备而言,其节能技术发展重点是在相同负载下,

通过虚拟化、处理器降频、自动休眠和关闭内核等技术,使设备在获得更好性能的同时降低耗电量。对制冷系统来说,一方面可通过尽量采用自然冷却(Free Cooling)的方式降低能耗;另一方面,可通过热管理技术(冷热风道设计、送风和会风路径设计等)改善数据中心气流组织,实现制冷量的精确供给和按需分配,从而节省制冷系统的能耗。对供配电系统来说,主要节能技术包括选用高效率的、模块化的UPS电源;进行合理的IT设备与供电设备布局,减少供电线路损耗;采用高压直流提高供电可靠性和电源使用率、降低电量损耗并增强系统可维护性。

(4)云计算“操作系统”关键技术

虽然云计算“操作系统”的体系结构和表现形态与单机操作系统有很大区别,但从宏观上来看,云计算“操作系统”向下控制底层资源,向上提供计算、存储等资源接口,功能上与单机操作系统类似。云计算“操作系统”的主要关键技术包括实现底层资源池化管理的“资源池”管理技术和向用户提供大规模存储、计算能力的分布式任务和数据管理技术。

1)“资源池”管理技术

“资源池”管理技术主要实现对物理资源、虚拟资源的统一管理,并根据用户需求实现虚拟资源(虚拟机、虚拟存储空间等)的自动化生成、分配、回收和迁移,用以支持用户对资源的弹性需求。云计算“资源池”管理技术与传统IT 管理软件的主要区别是实现了虚拟资源的“热迁移”,即在物理主机发生故障或需要进行维护操作时,将运行在其上的虚拟机迁移至其他物理主机,同时保证用户业务不被中断。

“热迁移”的重要前提是物理服务器使用共享存储器,并且虚拟机的迁移与网络配置的迁移同时进行。目前威睿、思杰、微软的虚拟化解决方案均支持“热迁移”功能,但不同虚拟机格式之间的迁移还难以实现,这也导致了在搭建云计算系统时对虚拟化软件提供商的选择受限。一些国际标准组织正在对此进行努力,如DMTF定义了开放虚拟机格式(OVF,Open Virtualization Format),但目前威睿等公司产品对OVF的支持也只是实现了对虚拟机镜像的导出和导入,且需要在虚拟机处于关机状态时进行,尚无法实现不同格式虚拟机之间的“热迁移”。

2)分布式任务和数据管理技术

云计算对分布式任务和数据管理的需求主要来源于业界对“大数据”的处理需求。分布式任务管理技术要实现在底层大规模ICT资源上进行分布式的海量计算,并对大量结构化与非结构化的数据进行存储与管理。目前的分布式任务管理技术主要包括分布式计算、分布式文件系统和非结构化分布式数据库技术等。云计算中的分布式计算技术是对网格、集群计算技术的继承与发展,以谷歌MapReduce为典型代表,其基本思想是将一个大规模的处理任务分解为同质化的较小的处理任务,并分散在不同的计算节点中完成,之后对结果进行汇总,得到最终的处理结果。分布式文件系统以谷歌GFS为典型代表,其基本思想是将数据分为同样大小(GFS中为64M)的文件块,分散的存储在不同的服务器之中,由一个元数据服务器来进行统一管理,并为用户提供数据读写的块地址。与传统的磁盘阵列等存储方式相比,分布式文件系统的优点在于:一是支持用户对数据的并发读写,提高了I/O 的能力;二是可以利用高顽存技术,实现对数据的低成本容错保护;三是可以实现存储系统的弹性扩展。未来分布式文件系统技术的发展方向包括采用分布式元数据服务器,以及支持更小粒度的文件块等。

三、基于云计算的政府统计数据网络直报技术探索

(一)实地访谈情况

为了了解云计算与浙江省统计数据网络直报情况,2012年8月份,课题组成员通过电话访问了杭州市统计局、台州市统计局主管统计信息化职能部门的领导,2013年2月份还实地走访了浙江省统计局、华立仪表等单位,初步了解了云计算与网上直报的关系。访谈主要围绕当前云计算在政府统计部门和大型企业应用情况,云计算与浙江省统计数据网络直报关系等几个问题展开访谈。访谈结果总结如下:

1、浙江省统计部门开展联网直报的现状

浙江省统计部门在统计数据联网直报的实施方面起步早,最早从乐清市开始使用联网直报系统,由于浙江省沿海地区经济较为发达、设备相对先进和操作便捷等优势,实施效果相当突出,因此在全省推广。到目前为止,全国迄今已有三

十万余家,浙江省共有十二万余家企业参与联网直报。浙江省和杭州市统计局拥有自己的网络直报平台,使用效果相当不错。

2、关于联网直报与云计算置入的实际操作情况

如果浙江省统计局建立基于云计算的网络直报系统,各地市不用自己建立统计云,并在同一平台进行操作,实现各地市之间的数据连通,可以大大提高统计数据的传输速度和分析能力。

3、目前存在的主要问题

目前,大多数政府统计信息化部门的建设模式是一个服务器运行单个应用,大多数时候,这些服务器的负载在15%以下。随着各级政府对统计调查的频率提高,同时统计调查与分析的覆盖面的迅速扩大,带来以下问题:一是报送流程长;二是统计人员录入等问题上花费太多时间,难以在统计分析方面做出贡献;三是由于软件自身的问题,数据质量难以控制;四是指标体系不完善五是数据易丢失,且难以共享,难以适应统计业务发展的需要,需要不断购买新的应用系统及硬件设备。应用系统的增加伴随着服务器数量的增加,管理复杂度等问题日趋严重,尤其是在工作峰值时段更为明显。数据存储采用文件服务器的方式,从数据本身来说,还包括图像处理,比如人口普查,一张表就是一张图像,信息处理量巨大。日积月累的数据,加上对重要数据所做的备份,数据量不可小觑。文件服务器受其自身所提供的服务及自身操作系统的影响,数据的安全性存在隐患。

统计局采集、存储着大量的关乎民生的重要数据,这些数据的准确性和安全性为统计局的信息系统建设工作提出了很严格的要求。另外,统计数据的时效性很强,除了定时报表还有定期普查,数据往往要求在很短时期内计算出结果,因此带来了数据的高并发性特征,因而需要高并发处理能力强的硬件系统。

因此,有必要探索使用目前日臻成熟的云计算技术、虚拟化技术,对现有的设备资源和数据资源进行整合,通过集群的方式组成系统资源池,来满足海量数据、高并发处理的需求,有效解决IT基础设施资源无法共享和协同调度、资源利用率不高、管理和维护成本高等问题,建设网络化、开放化并具有高并发业务处理能力的综合统计信息化平台,实现更强的策略执行力度和更高的数据安全。政府统计部门非常有必要建设网络化、统一化、开放化的信息化平台。针对统计业务复杂而且多变的特点提出,软件必须向省、地市、区县统计局提供一种强大

的业务自定义平台服务,即PaaS云计算平台。

(二)云计算在政府统计部门网络直报系统的应用探索

1、需求及可行性分析

(1)需求分析

云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机和网络技术发展融合的产物。通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。云计算出现后,它是作为一门独立的边缘交叉学科,既是计算机科学的一部分,又是统计学的一部分。部分云计算技术来自统计学,但在实际工作中,充分利用云计算和统计学的优势,结合两者之长将有助于推动云计算和数据网络直报技术的发展。

网络直报系统是云计算的先行。网络直报系统在一定程度上实现统计数据通过传统的方法来向在线直接上报的转变。网络直报系统可以降低企业和基层统计部门的负担,提高统计数据的及时性、准确性和全面性。但有以下问题:一是提交过程很漫长,数据不能实时同步传输、影响统计分析报告的及时出台;第二,因为软件是报道是逐层上报,难免出现篡改数据的行为,数据质量难以保证;三是数据存储分散,数据库的备份维护都无法统一进行,数据易丢失,而且难以共享,影响领导决策。四是资源亟待整合。当前网络直报系统基本算是是一个“信息孤岛”,网络直报系统的优势得不到应有的发挥;五是随着大数据时代的到来,数据产生成本急速下降,各部门的数据量正在呈指数级增长,而大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,数据的结构正在日趋复杂。在当今社会,信息有两类:一种是能够使用数据或统一的结构来表示,称之为结构化的数据;另一种,如文本、图像、声音、web页面等,称之为非结构化数据。随着技术的发展,非结构化数据的数量正在增加。目前传统的经典数据库技术(SQL--结构化数据查询语言),在设计一开始是不考虑非结构化数据,这时,主

要用于管理结构化数据的关系数据库的限制暴露越来越明显。随着数据类别的变化,“大数据”已经包括半结构化和非结构化数据,这是超出当前传统数据的软件工具能够承受极限。

所以有必要建立统一的信息平台,以减少统计人员的维护难度,适应复杂多变的业务需求的变化。云计算技术可以很好的弥补网络直报系统所带来的一系列问题,基于云计算的软件即服务(SaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)这三个层次,核心都是基于网络技术的服务按需提供模式,可以为解决上述问题提供很好的参考。首先,虚拟化技术大大减少服务器数量,降低租用空间,进而降低能耗。其次,实施有效的监控手段和自动化管理系统,不需要系统管理员常驻机房,节省了大量的人力资源;再者,云计算先进的预警系统,可以将隐患消除在萌芽状态,管理员仅负责处理紧急事务,可以大大提高工作效率。

(2)可行性分析

从实践环境上来看, 目前国际上知名的IT公司都在积极地研究和部署云计算,都已经开始初具规模并获得了一定程度上的成功。Amazon使用弹性计算云(EC2)和简单存储服务(S3)为企业提供计算和存储服务。Google搜索引擎就建立在分布在200多个地点、超过100万台服务器的支撑之上,这些设施的数量正在迅猛增长。Google地球、地图、Gmail Docs等也同样使用了这些基础设施。目前,Google已经允许第三方在Google的云计算中通过Google App Engine运行大型并行应用程序。IBM推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。它包括一系列的自动化、自我管理和自我修复的虚拟化云计算软件,使来自全球的应用可以访问分布式的大型服务器池。使得数据中心在类似于互联网的环境下运行计算。微软也于2008年10月推出了Windows Azure操作系统Azure是通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“云”上微软拥有全世界数以亿计的Windows用户桌面和浏览器,现在它将它们连接到“云”上。Azure的底层是微软全球基础服务系统,由遍布全球的第四代数据中心构成。

从国内的实践环境来看,国家统计局已经逐步建立了一个领先的“统计云”系统。国家统计局建立的“统计云”是基于基础架构云(Iaas)方面。基于一种云

的思想构建的这一核心业务系统,最大的优势在于它是一个开放的系统,资源可以根据业务的需求实现横向纵向的进一步扩展。当系统的资源匮乏时,可以随时往里面加资源,实现对资源高效的使用。

2、平台的构建思路及基本架构

(1)构建思路

基于云计算的统计数据网络直报系统的设计思想是:在总结历年使用的统计软件、电子政务及办公自动化系统经验的基础上,利用先进的云计算技术模式,以规范的统计业务流程、统计信息标准为前提,开发集网上直报、数据管理统计查询业务自定义为一体的专业通用统计信息管理软件平台,从而构成一个面向统计调查对象统计工作者政府相关部门和社会公众的、统计专业数据库云计算平台,全面实现统计业务工作的自动化,提供国民经济社会发展的运行、决策支持等信息处理与服务功能。在统计工作中应用云技术的核心思想是:采用虚拟化的技术实现服务器整合,在满足现有应用横向扩展的同时,依托核心业务系统,打造适应未来信息化发展的“统计云”。

目前技术比较成熟的虚拟化软件有很多,技术手段也不尽相同,应用比较广泛的模式有两种:

1)单一资源的多个逻辑表示

这种模式是虚拟化最广泛使用的模式之一。它只包含一个物理资源,但是它向用户呈现的逻辑表示却仿佛它包含多个资源一样。用户与这个虚拟资源进行交互时仿佛自己是唯一的使用者,而不会考虑正在与其他用户一起共享此资源。即通过虚拟化技术,将现有的一些配置较高但是负载较低的服务器虚拟出适当数量的逻辑服务器,每个逻辑服务器上都可以运行一个应用,这样一台服务器就可以完成原来需要几台服务器才能完成的工作,这些高配置服务器的性能将得到充分发挥,避免了资源浪费。同时,也可以节约下来因服务器数量增长带来的机房建设费用、能源消耗及降低维护复杂度。目前,几家知名的软件公司都有比较成熟的服务器虚拟化软件。

2)多个资源的单一逻辑表示

这种模式包含了多个资源的组合,以便将这些资源表示为提供单一接口的

相关主题
文本预览
相关文档 最新文档