当前位置：文档之家› 高性能计算平台解决方案

高性能计算平台解决方案

1概述 (4)

1.1建设背景 (4)

1.2设计范围 (4)

1.3总体设计原则 (4)

2系统平台设计 (6)

2.1项目需求 (6)

2.2设计思想 (7)

2.3云存储系统方案 (7)

2.4系统优势和特点 (8)

2.5作业调度系统方案 (10)

3系统架构 (11)

3.1平台系统基本组成 (11)

3.2平台系统功能描述 (13)

3.3Jobkeeper系统基本组成 (20)

4系统安全性设计 (23)

4.1安全保障体系框架 (23)

4.2云计算平台的多级信任保护 (25)

4.3基于多级信任保护的访问控制 (30)

4.4云平台安全审计 (32)

5工作机制 (36)

5.1数据写入机制 (36)

5.2数据读出机制 (37)

6关键技术 (39)

6.1负载自动均衡技术 (39)

6.2高速并发访问技术 (39)

6.3高可靠性保证技术 (40)

6.4高可用技术 (40)

6.5故障恢复技术 (41)

7接口描述 (42)

7.1POSIX通用文件系统接口访问 (42)

7.2应用程序API接口调用 (42)

8本地容错与诊断技术 (43)

8.1 平台高可靠性 (43)

8.2平台数据完整性 (43)

8.3平台快照技术 (44)

8.4Jopkeeper故障处理技术 (44)

9异地容灾与恢复技术 (46)

9.1平台数据备份与恢复系统功能 (46)

9.2平台异地文件恢复 (47)

1概述

1.1建设背景

云存储平台与作业调度为本次高性能计算总体解决方案的一部分。主要针对海量的数据的集中存储、共享、计算与挖掘，建立一套具有高可靠、可在线弹性伸缩，满足高吞吐量并发访问需求的云存储与计算平台。为数据存储和高效计算提供便捷、统一管理和高效应用的基础平台支撑。

1.2设计范围

本技术解决方案针对海量数据集中存储、共享与计算，提供从系统软硬件技术架构、原理、硬件选型、网络接入以及软件与应用之间的接口等方面的全面设计阐述。

1.3总体设计原则

针对本次工程的实际情况,充分考虑系统建设的建设发展需求，以实现系统统一管理、高效应用、平滑扩展为目标，以“先进、安全、成熟、开放、经济”为总体设计原则。

1.3.1先进性原则

在系统总体方案设计时采用业界先进的方案和技术，以确保一定时间内不落后。选择实用性强产品，模块化结构设计，既可满足当前的需要又可实现今后系统发展平滑扩展。

1.3.2安全性原则

数据是业务系统核心应用的最终保障，不但要保证整套系统能够7X24运行，而且存储系统必须有高可用性，以保证应用系统对数据的随时存取。同时配置安全的备份系统，对应用数

据进行更加安全的数据保护，降低人为操作失误或病毒袭击给系统造成的数据丢失。

在进行系统设计时，充分考虑数据高可靠存储，采用高度可靠的软硬件容错设计，进行有效的安全访问控制，实现故障屏蔽、自动冗余重建等智能化安全可靠措施，提供统一的系统管理和监控平台，进行有效的故障定位、预警。

1.3.3成熟性原则

为确保整个系统能够稳定工作，软件平台将使用先进、完善、易于管理和稳定可靠的云存储资源管理系统，对于与应用的集成接口，提供统一的通用稳定访问接口。

1.3.4开放性原则

系统建设具有开放性的标准体系，提供符合POSIX标准的通用文件系统访问接口，开放的应用API编程接口，提供人性化的应用和管理界面，以满足用户需求。遵循规范的通用接口标准，使全系统中的硬件、通信、软件、操作平台之间的互联共享。充分考虑系统的升级和维护问题，维护采用在线式的，即在系统不停止工作的情况下，可以更换单元备件。系统的维护和升级操作由系统管理员即可完成。

1.3.5经济性原则

现有业务系统存储数据量较大，且数据的增长速度较快。因此在建设系统存储架构时，应从长远的角度考虑，建设一个长期的存储架构，除了可以应对存储硬件设备的升级速度外，还必须考虑到对前期存储设备的投资保护，在保证不断提供功能和性能提高的同时，存储架构在较长的时间内能够保持相对稳定。结合先进的云平台技术架构优势，根据本次项目建设的实际容量需求设计，同时充分考虑应用发展需求，实现系统可弹性在线平滑升级。通过软件实现在较廉价普通服务器上实现高度容错，同时能够在较低冗余度的情况下实现高度可靠容错，大大节约和降低系统建设的硬件成本。

2系统平台设计

2.1项目需求

2.1.1容量需求

针对本次建设实际数据容量，一期拟建设XXTB裸容量数据存储平台，主要存储数据。

2.1.2吞吐量需求

为满足多用户或应用整体吞吐带宽需要，确保数据访问流畅，系统需提供多用户或应用并发访问高吞吐带宽设计，系统能够有效利用网络带宽，性能可通过规模增加实现平滑增长。

2.1.3扩展性需求

未来根据业务应用的变化和发展，需要快速实施系统资源的升级，可以在业务服务不间断的状态下平滑扩展，不会导致架构发生根本性变化，为不断产生和变化的业务需求提供持续的支持，支持业务系统的快速整合和部署对核心系统基础架构的特别要求。

2.1.4低成本需求

要求系统能够以低硬件成本、低维护成本实现高可靠高性能应用要求，充分提高资源利用率，简化管理，并能灵活、可持续扩展。

2.1.5可维护性需求

要求系统具有自适应管理能力，安装、维护、升级简易方便，提供统一易用的WEB配置管理监控平台，实现智能化管理。

2.1.6接口需求

要求能够提供通用的文件系统接口，方便用户及应用系统访问，减少与应用集成或开发工

作量，实现系统快速部署与集成。

2.2设计思想

采用业界成熟先进的云平台架构思想，采用软件实现对大量普通商用服务器存储空间资源进行虚拟化整合，实现软硬件故障高度容错，将系统控制流与数据流分离，同时使得数据在逻辑上集中、物理上分散，每台服务器同时对外提供服务，以达到多并发高吞吐量的性能要求，采用自注册机制、故障自动屏蔽、自动冗余重建技术实现系统自我维护和平滑扩展，系统服务7×24小时不间断。系统采用先进的编解码容错技术，可根据数据可靠性要求设置适当的冗余编解码策略进行系统部署，可以以极小的磁盘和硬件冗余度，实现高度的可靠性数据容错。

2.3云存储系统方案

采用业界已经成熟的平台云存储资源管理系统，在多台普通商用服务器上构建高性能高可靠云存储系统，作为本次云媒资系统云数据中心存储平台，其应用部署示意图如下图所示。

平台云存储资源管理系统部署示意图

2.4系统优势和特点

平台云存储系统是一套软件与硬件相结合的系统，其中专有技术和软件是高附加值部分，可以广泛应用于需要存储大量数据的应用场合（如安防、广电、电信、互联网、银行等领域）。该系统相比传统存储系统有如下技术优势：

2.4.1高度可靠

存储系统采用云架构，数据被分块存储在不同的存储节点上，数据采用先进的1:1容错机制进行容错，可在任意损坏一个存储服务器节点的情况下实现数据完整可靠，系统对外存储访问服务不间断。

云存储的管理节点采用了主备双机镜像热备的高可用机制，在主管理节点出现故障时，备管理节点自动接替主管理节点的工作，成为新的主管理节点，待故障节点修复并重启服务后，它则成为新的备管理节点，保障系统的7×24小时不间断服务。

2.4.2优异性能

平台采用控制流与数据流分离的技术，数据的存储或读取实际上是与各个存储节点上并行读写，这样随着存储节点数目的增多，整个系统的吞吐量和IO性能将呈线性增长。

同时，平台采用负载均衡技术，自动均衡各服务器负载，使得各存储节点的性能调节到最高，实现资源优化配置。

2.4.3无限容量

系统容量仅受限于卷管理服务器内存，可支撑的容量接近无限，经推算，理论容量为1024×1024×1024 PB (1G个PB容量)。

2.4.4在线伸缩

平台云存储资源管理系统扩容非常方便，支持不停止服务的情况下，动态加入新的存储节点，无需任何操作，即实现扩容；同时，无需人为干预，也可以摘下任意节点，系统自动缩小规模而不丢失数据，存储在此节点上的数据将会重新备份到其他节点上。

2.4.5通用易用

平台云存储系统提供符合POSIX标准的通用文件系统接口，无论是哪种操作系统下的应用程序，都可以不经修改将云存储当成自己的海量磁盘来使用。同时，也提供专用的API接口，供开发人员调用。

2.4.6智能管理

提供基于WEB的管理控制平台，所有的管理工作均由平台管理模块自动完成，使用人员

无需任何专业知识便可以轻松管理整个系统。通过管理平台，可以对平台中的所有节点实行实时监控，用户通过监控界面可以清楚地了解到每一个节点和磁盘的运行情况；同时也可以实现对文件级别的系统监控，支持损坏文件的查找和修复功能。系统提供用户安全认证及对不同用户进行配额设置与权限管理功能，满足应用的日常维护和安全管理需求。

2.5作业调度系统方案

采用业界已经成熟的Jobkeeper多任务调度系统，在多台普通商用服务器上构建高性能高可靠的任务调度平台。

2.5.1高度可靠性

Jobkeeper采用“多主多备，负载均衡”的管理节点，从而保证无论管理节点还是处理节点都不存在任何单点故障问题。

2.5.2低依赖性

Jobkeeper采用模块化设计思想，通过统一化配置和API接口的方式向用户提供服务。

2.5.3低干预性

Jobkeeper采用基于事件化的统一管理模式。在系统无人值守的情况下自动完成故障处理等功能。

2.5.4高实时性

Jobkeeper在机器性能允许的范围内，所有任务的控制工作基本都在秒级完成，具有前所未有的高效性。

3系统架构

在本次高性能计算系统建设中，云存储系统属于基础平台支撑层，以用于数据集中存储和共享，实现对数据的统一管理和高效应用。将数据逻辑集中物理分散，以提供多并发高吞吐带宽，最大程度降低系统访问瓶颈，任务调度则基于云存储进行大规模的高性能的并发计算。

下面具体说明平台云存储资源管理系统和Jobkeeper任务调度系统的基本组成和主要功能。

3.1平台系统基本组成

平台云存储资源管理系统采用分布式的存储机制，将数据分散存储在多台独立的存储服务器上。它采用包括卷管理服务器、元数据管理服务器（Master Server）、数据存储节点服务器（Chunk Server）和挂接访问客户端以及管理监控中心服务器的结构构成虚拟统一的海量存储空间。在每个服务器节点上运行平台云存储资源管理系统的相应的软件服务程序模块。系统架构框图如下图所示。

平台云存储资源管理系统架构

其中，Master Server保存系统的元数据，负责对整个文件系统的管理，Master Server 在逻辑上只有一个，但采用主备双机镜像的方式，保证系统的不间断服务；Chunk Server负责具体的数据存储工作，数据以文件的形式存储在Chunk Server上，Chunk Server的个数可以有多个，它的数目直接决定了平台云存储系统的规模；挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口，通常情况下，客户端可以部署在Chunk Server上，每一个块数据服务器，既可以作为存储服务器同时也可以作为客户端服务器。

由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为一个卷空间，不同的卷空间由卷管理服务器虚拟化统一管理，对外可提供统一的海量存储空间。

管理监控中心提供统一易用的WEB配置管理监控平台，提供设备监控、空间监控、文件监控、服务监控、用户认证管理、配额管理、故障告警及预警等功能，实现智能化管理。

这种分布式系统最大的好处是有利于存储系统的扩展和实现，在小规模的数据扩展时，只需要添加具体的Chunk Server即可，而不需要添加整套设备。在实现大规模扩展时也可方便地添加整个卷设备。

3.2平台系统功能描述

平台云存储资源管理系统从功能上划份为三大部分：

1)平台分布式文件系统

分布式文件系统实现文件数据存储、可靠性容错、可伸缩性保证、高可用保证、负载均衡和流量分担等功能。

2)存储访问接口

平台提供符合POSIX规范的文件系统访问接口，通过平台访问挂接程序可将云存储空间挂接为本地目录或磁盘。同时可提供专用的API接口，支持业务应用层程序对云存储系统的直接访问。

3)管理监控中心

管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。

下面逐一详细介绍各部分系统功能。

3.2.1平台分布式文件系统

平台分布式文件系统包括卷管理、元数据管理、块数据管理服务。参考上面系统架构框图左侧部分。

元数据是指文件的名称、属性、数据块位置信息等，元数据管理通过元数据服务程序完成。

因元数据访问频繁，故系统将元数据加载缓存至内存中管理，提高访问效率。由于元数据的重要性，元数据损坏或丢失则相当于文件数据丢失，因此实现了元数据服务器主备双机高可用，确保７×２４小时不间断服务。

通过元数据远程多机冗余备份功能，实现在多台其它机器上备份元数据，当元数据服务器损坏，可以通过备份的元数据重新恢复服务，切保数据可以完整找回。

块数据是指文件数据被按照一定大小（默认64MB）分割而成的多个数据块，分布存储到不同的存储节点服务器上，并通过编解码容错算法产生相应的冗余块。

块数据服务是运行在每个存储节点服务器上的块数据管理程序，负责使用存储服务器上的磁盘空间存储文件数据块，并实现相应的编解码功能。

相比较传统业界的云存储采用块数据简单备份冗余容错机制，编解码容错方式大大降低了硬件资源冗余度，提高了磁盘利用率。

由一对主备元数据服务器及其所管理的块数据服务器管理节点设备及其所提供的存储空间称为一个卷。

卷管理服务器负责将多个卷虚拟化整合，对外提供统一的整体访问云存储空间。

文件系统采用中心服务器模式分布式存储架构，控制流与数据流分离，通过增加存储节点系统采用自动注册机制，实现系统高可伸缩性，增加或减少存储节点规模，不影响系统正常提供存储访问服务。

该系统架构实现了统一调度，负载均衡和流量自动分担功能，多个存储节点同时对外提供数据流服务，系统根据磁盘空间使用比例进行资源优化配置。同时在多个不同的存储节点之间实现根据空间比例进行优化配置，数据优先存储的空间利用比例相对较低的磁盘或存储服务器上。

平台分布式文件系统具有自动冗余重建功能，确保损坏的数据块能够被解码或编码后存储到在线的正常的存储服务器节点上。

3.2.2存储访问接口

平台分布式文件系统提供符合POSIX规范的文件系统访问接口。支持Linux、Windows、MaxOS X等操作系统平台。可将云存储系统提供的存储空间挂接为本地目录或本地盘符来使用。用户操作云存储空间和操作本地文件相同。

另外平台提供专用的高速存取访问API接口，供性能要求很高的高端应用程序对接使用。

3.2.3管理监控中心

管理监控中心为系统管理员配置和维护平台云存储资源管理系统的有效工具，充分体现了系统的可维护性。

管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。以下为部分系统管理界面。

设备管理

●系统监控

●告警信息

●告警配置

●告警日志

●故障处理

●卷管理

●帐户管理

●添加帐户

3.3Jobkeeper系统基本组成

Jobkeeper的系统架构如下图所示：

上图中对Jobkeeper进行了分层，对每层进行具体阐述

虚拟化资源层：将机器进行虚拟化，形成更大范围的服务集群。

存储层：存储数据的处理结果集或其他中间结果集的单元。

数据处理层：独立的数据处理程序，是对不同需求数据的统一处理方案，由JobKeeper 调度平台进行统一的配置管理。

业务层：对于应用层的相关功能的业务化，数字化处理，用于将应用层的需求任务进行规则化划分，形成统一的处理化模式。

应用层：一组用于管理和结果反馈的显示组件。是整个系统面向用户和开发人员的基础承载。

JobKeeper的任务分发流程如下图所示：

高性能计算集群(HPC CLUSTER)

高性能计算集群(HPC CLUSTER) 1.1什么是高性能计算集群? 简单的说，高性能计算(High-Performance Computing)是计算机科学的一个分支，它致力于开发超级计算机，研究并行算法和开发相关软件。高性能集群主要用于处理复杂的计算问题，应用在需要大规模科学计算的环境中，如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。高性能集群上运行的应用程序一般使用并行算法，把一个大的普通问题根据一定的规则分为许多小的子问题，在集群内的不同节点上进行计算，而这些小问题的处理结果，经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的，从而可以缩短问题的处理时间。高性能集群在计算过程中，各节点是协同工作的，它们分别处理大问题的一部分，并在处理中根据需要进行数据交换，各节点的处理结果都是最终结果的一部分。高性能集群的处理能力与集群的规模成正比，是集群内各节点处理能力之和，但这种集群一般没有高可用性。 1.2 高性能计算分类高性能计算的分类方法很多。这里从并行任务间的关系角度来对高性能计算分类。 1.2.1 高吞吐计算(High-throughput Computing) 有一类高性能计算，可以把它分成若干可以并行的子任务，而且各个子任务彼此间没有什么关联。因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式，所以把这类计算称为高吞吐计算。所谓的Internet计算都属于这一类。按照Flynn的分类，高吞吐计算属于SIMD（Single Instruction/Multiple Data,单指令流-多数据流）的范畴。 1.2.2 分布计算(Distributed Computing) 另一类计算刚好和高吞吐计算相反，它们虽然可以给分成若干并行的子任务，但是子任务间联系很紧密，需要大量的数据交换。按照Flynn的分类，分布式的高性能计算属于MIMD （Multiple Instruction/Multiple Data，多指令流-多数据流）的范畴。 1.3高性能计算集群系统的特点可以采用现成的通用硬件设备或特殊应用的硬件设备，研制周期短；可实现单一系统映像，即操作控制、IP登录点、文件结构、存储空间、I/O空间、作业管理系统等等的单一化；高性能（因为CPU处理能力与磁盘均衡分布，用高速网络连接后具有并行吞吐能力）；高可用性，本身互为冗余节点，能够为用户提供不间断的服务，由于系统中包括了多个结点，当一个结点出现故障的时候，整个系统仍然能够继续为用户提供服务；高可扩展性，在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器，从而能够最大限度地扩展系统以满足不断增长的应用的需要；安全性，天然的防火墙；资源可充分利用，集群系统的每个结点都是相对独立的机器，当这些机器不提供服务或者不需要使用的时候，仍然能够被充分利用。而大型主机上更新下来的配件就难以被重新利用了。具有极高的性能价格比，和传统的大型主机相比，具有很大的价格优势； 1.4 Linux高性能集群系统当论及Linux高性能集群时，许多人的第一反映就是Beowulf。起初，Beowulf只是一个著名的科学计算集群系统。以后的很多集群都采用Beowulf类似的架构，所以，实际上，现在Beowulf已经成为一类广为接受的高性能集群的类型。尽管名称各异，很多集群系统都是Beowulf集群的衍生物。当然也存在有别于Beowulf的集群系统，COW和Mosix就是另两类著名的集群系统。 1.4.1 Beowulf集群简单的说，Beowulf是一种能够将多台计算机用于并行计算的体系结构。通常Beowulf系统由通过以太网或其他网络连接的多个计算节点和管理节点构成。管理节点控制整个集群系统，同时为计算节点提供文件服务和对外的网络连接。它使用的是常见的硬件设备，象普通PC、以太网卡和集线器。它很少使用特别定制的硬件和特殊的设备。Beowulf集群的软件也是随处可见的，象Linux、PVM和MPI。 1.4.2 COW集群象Beowulf一样，COW（Cluster Of Workstation）也是由最常见的硬件设备和软件系统搭建而成。通常也是由一个控制节点和多个计算节点构成。

LSF高性能分布运算解决方案

LSF高性能分布运算解决方案一、系统组成速度系统主要由IBM X3850 X5集群计算机、IBM X3650 M3 虚拟化服务器、Dell R5100图形工作站、存储系统组成。 IBM X3850 X5集群计算机：每个节点 4 颗CPU，每个 CPU 8核，主频 2.26GHz，节点内存 128GB。 IBM X3650 M3虚拟化服务器：每个节点 2 个 CPU，每个 CPU4核，主频 2.66GHz，节点内存 48GB。 Dell R5100图形工作站：每个节点包括 1个NVIDIA Quadro 6000 显示卡，主机CPU 主频为3.06 GHz，内存为 8GB，硬盘为 4*146GB。存储系统：IBM DS5020 可用容量约为 12TB，由集群计算机、虚拟化服务器和图形工作站共享。 IBM X3850 X5计算集群运行用户的程序。 LSF高性能分布运算解决方案系统示意图二、主要软件

1.操作系统：IBM X3850 X5集群计算机安装 64 位Windows2008 系统，IBM X3650 M3 安装Vmware ESX4.1系统，图形工作站安装64 位Windows2008 系统。 2.作业调度系统：Platform 公司的LSF。 3.应用软件：如表 1 所示。名称厂家 LightTools ORA ZEMAX-EE Focus Software PADS ES Suite Ap SW Mentor Graphics Expedition PCB Pinnacle Mentor Graphics DxDesigner ExpPCB Bnd SW Mentor Graphics I/O Designer Ap SW Mentor Graphics Multi-FPGA Optimization Op S Mentor Graphics HyperLynx SI PI Bnd SW Mentor Graphics Questa Core VLOG Ap SW Mentor Graphics Precision RTL Plus Ap SW Mentor Graphics SystemVision 150 Ap SW Mentor Graphics FlowTHERM Parallel Ap SW Mentor Graphics Labview NI Code Composer Studio TI Quartus II Altera ISE Xilinx Vxworks Wind River Intel C++ Studio XE Intel MatLab及相关工具箱Mathworks Maple MapleSoft Oracle Oracle NX Mach 3 Product Design Siemens PLM Software ADAMS MSC

高性能计算集群项目采购需求

高性能计算集群项目采购需求以下所有指标均为本项目所需设备的最小要求指标，供应商提供的产品应至少大于或等于所提出的指标。系统整体为“交钥匙”工程，厂商需确保应标方案的完备性。投标商在投标方案中须明确项目总价和设备分项报价。数量大于“1”的同类设备，如刀片计算节点，须明确每节点单价。硬件集成度本项目是我校校级高算平台的组成部分，供应商提供的硬件及配件要求必须与现有相关硬件设备配套。相关系统集成工作由供应商负责完成。刀片机箱供应商根据系统结构和刀片节点数量配置，要求电源模块满配，并提供足够的冗余。配置管理模块，支持基于网络的远程管理。配置交换模块，对外提供4个千兆以太网接口，2个外部万兆上行端口，配置相应数量的56Gb InfiniBand接口刀片计算节点双路通用刀片计算节点60个，单节点配置2个CPU，Intel Xeon E5-2690v4（2.6GHz/14c）；不少于8个内存插槽，内存64GB，主频≥2400；硬盘裸容量不小于200GB，提供企业级SAS或SSD 硬盘；每节点配置≥2个千兆以太网接口，1个56Gb InfiniBand 接口；满配冗余电源及风扇。刀片计算节点（大内存）双路通用刀片计算节点5个，单节点配置2个CPU，Intel Xeon E5-2690v4；不少于8个内存插槽，内存128GB，主频≥2400；硬盘裸容量不小于200GB，提供企业级SAS或SSD硬盘；每节点配置≥2个千兆以太网接口，1个56Gb InfiniBand接口；满配冗余电源及风扇。 GPU节点2个双路机架GPU节点；每个节点2个Intel Xeon E5-2667 v4每节点2块NVIDIA Tesla K80GPU加速卡；采用DDR4 2400MHz ECC内存，每节点内存16GB*8=128GB；每节点SSD 或SAS硬盘≥300GB；每节点配置≥2个千兆以太网接口，1个56Gb/s InfiniBand接口；满配冗余电源及风扇。数据存储节点机架式服务器2台，单台配置2颗Intel Xeon E5-2600v4系列CPU；配置32GB内存，最大支持192GB；配置300GB 2.5" 10Krpm

高性能计算-国家科技管理信息系统公共服务平台

附件1 “高性能计算”重点专项2016年度项目申报指南依据《国家中长期科学和技术发展规划纲要（2006—2020年）》，科技部会同有关部门组织开展了《高性能计算重点专项实施方案》编制工作，在此基础上启动“高性能计算”重点专项2016年度项目，并发布本指南。本专项总体目标是：在E级计算机的体系结构，新型处理器结构、高速互连网络、整机基础架构、软件环境、面向应用的协同设计、大规模系统管控与容错等核心技术方面取得突破，依托自主可控技术，研制适应应用需求的E级（百亿亿次左右）高性能计算机系统，使我国高性能计算机的性能在“十三五”末期保持世界领先水平。研发一批重大关键领域/行业的高性能计算应用精品资料

软件，建立适应不同行业的2—3个高性能计算应用软件中心，构建可持续发展的高性能计算应用生态环境。配合E级计算机和应用软件研发，探索新型高性能计算服务的可持续发展机制，创新组织管理与运营模式，建立具有世界一流资源能力和服务水平的国家高性能计算环境，在我国科学研究和经济与社会发展中发挥重要作用，并通过国家高性能计算环境所取得的经验，促进我国计算服务业的产生和成长。本专项围绕E级高性能计算机系统研制、高性能计算应用软件研发、高性能计算环境研发等三个创新链（技术方向）部署20个重点研究任务，专项实施周期为5年，即2016年—2020年。按照分步实施、重点突出原则，2016年启动项目的主要研究内容包括：E级计算机总体技术及评测技术与系统，高性能应用软件研发与推广应用机制，重大行业高性能数值装置和应用软件，E级高性能应用软件编程框架及应用示范，国家高性能计算环境服务化机制与支撑体系，基于国家高性能计算环境的服务系统等 —2—

中国科学院国家天文台高性能计算集群使用及付费协议

中国科学院国家天文台高性能计算集群使用及付费协议甲方（项目/课题名称）：乙方：国家天文台信息与计算中心经友好协商，乙方向甲方提供高性能计算机计算服务，签订本协议。一．项目说明及所需计算资源情况项目/课题简介：（项目来源、名称、研究内容、手段，及计算方法）项目/课题类别科学研究（）数据处理（）应用软件自行开发( ) 名称：商业软件( ) 名称：计算资源需求使用时间 20 年月日至 20 年月日集群名称深腾6800 使用帐号 CPU数（颗）计算核心数（个）内存总量（G）单节点内存量（G）计算节点个数 8G内存节点（）个 16G内存节点（）个计算节点名机时总量 (CPU小时）技术支持需求情况操作系统（）远程环境（）并行开发（）应用软件使用（）

详细说明：甲方使用乙方提供的计算机资源，需要支付相应的机时费用，付款方式及协议金额如下：付费方式预付费（）后付费（）计费方式0.5元/CPU小时支付方式内部转账（）汇款（）付费金额 (元/CPU小时）付费约定可供选择的付费方式有：①预付费；②后付费；针对预付费：一次性购入或定期续费。针对后付费：机时用完后5个工作日内付清款额。注：国台内部课题组，收取费用？%以发展基金的形式返还课题。二．权利和义务 1.甲方权利和义务（1）甲方不得利用乙方提供的计算资源从事与其申请计算内容无关的计算活动，不得从事危害国家安全和其它违反中华人民共和国有关法律法规的活动。（2）甲方不得恶意耗费乙方计算资源与网络流量；否则乙方有权单独解除协议，不退回相关费用，由此造成的经济损失及法律责任一律由甲方承担。（3）甲方不得盗用计算主机超级用户、其他用户帐号、资料，否则应承担由此造成的一切经济损失及法律责任。（4）甲方保证不进行影响主机正常运行的操作，如果发生上述操作，乙方有权终止甲方操作。（5）甲方不得使用依据本协议租赁所获得的计算资源进行转租等不在本协议约定范围内的业务。否则，乙方有权随时收回为甲方提供的计算资源，由此造成的经济损失和法律责任均由甲方承担。

高性能计算集群(PC Cluster)用户指南

高性能计算集群（PC Cluster）用户指南大气科学系应越第二版2008-12 目录 -认识cluster -使用cluster -linux常用命令 -软件 -文件传输第一章：认识cluster 1.什么是cluster系统 cluster一般由一台主机（master）和多台节点机（node）构成，是一种松散耦合的计算节点集合。为用户提供网络服务或应用程序的单一客户视图，同时提供接近容错机的故障恢复能力。通常cluster的每台机器通过相应的硬件及软件互连，每个群集节点都是运行其自己进程的独立服务器。这些进程可以彼此通信，对网络客户机来说就像是形成了一个单一系统，协同起来向用户提供应用程序、系统资源和数据。cluster概念的提出在70年代主要是为了进行一些大运算量的科学计算。随着网络的发展，之后的cluster系统还被用作网络服务器，发挥其故障恢复和均衡负载的能力。使用PC机构建cluster的好处在于开发成本低，而且由于每台节点机都是普通的PC机，在某一台机器发生故障的时候，可以方便的进行维护，而不影响整个系统的运行。大气科学系的cluster系统，由16台64位的PC机组成。其中一台主机（master），15台节点机（node01～node15）。这16台机器每台有两个4核的CPU，也就是说每个节点上可以同时提供8个CPU。操作系统使用的是CentOS的Linux发行版。图1为大气科学系cluster目前的结构。其中console 和c0101～c0107是大气系早期的cluster系统，节点安装的是RedHat的Linux发行版，precluster曾经作为门户机，目前已经更新为CentOS的操作系统。登录master的IP地址为162.105.245.3，这个地址由于物理大楼的IP变动比较频繁，所以可能会时不时改变，而precluster的IP地址162.105.245.238则比较稳定。这两个地址目前都可以从校外访问。 cluster的应用主要集中在并行计算上。虽然单个节点的单CPU运算效率比普通的笔记本或是台式机都高很多，但是cluster当初被设计出来就是为了进行多CPU协同运算的，而不是仅仅为了提高单CPU的运算效率。所以我们鼓励用户在cluster上进行并行计算，而把一些单CPU也能解决的工作

高性能计算云平台解决方案

目录 1概述 (3) 1.1建设背景 (3) 1.2设计范围 (3) 1.3总体设计原则 (3) 2系统平台设计 (4) 2.1项目需求 (4) 2.2设计思想 (5) 2.3云存储系统方案 (6) 2.4系统优势和特点 (6) 2.5作业调度系统方案 (8) 3系统架构 (9) 3.1cStor系统基本组成 (9) 3.2cStor系统功能描述 (10) 3.3Jobkeeper系统基本组成 (17) 4系统安全性设计 (20) 4.1安全保障体系框架 (20) 4.2云计算平台的多级信任保护 (21) 4.3基于多级信任保护的访问控制 (25) 4.4云平台安全审计 (28) 5工作机制 (31) 5.1数据写入机制 (31) 5.2数据读出机制 (32) 6关键技术 (33) 6.1负载自动均衡技术 (33) 6.2高速并发访问技术 (33) 6.3高可靠性保证技术 (33) 6.4高可用技术 (34) 6.5故障恢复技术 (34) 7接口描述 (35) 7.1POSIX通用文件系统接口访问 (35) 7.2应用程序API接口调用 (35) 8本地容错与诊断技术 (36) 8.1 cStor高可靠性 (36) 8.2 cStor数据完整性 (36) 8.3 cStor快照技术 (37) 8.4 Jopkeeper故障处理技术 (37) 9异地容灾与恢复技术 (39) 9.1cStor数据备份与恢复系统功能 (39) 9.2cStor异地文件恢复 (40)

1概述 1.1建设背景云存储平台与作业调度为本次高性能计算总体解决方案的一部分。主要针对海量的数据的集中存储、共享、计算与挖掘，建立一套具有高可靠、可在线弹性伸缩，满足高吞吐量并发访问需求的云存储与计算平台。为数据存储和高效计算提供便捷、统一管理和高效应用的基础平台支撑。 1.2设计范围本技术解决方案针对海量数据集中存储、共享与计算，提供从系统软硬件技术架构、原理、硬件选型、网络接入以及软件与应用之间的接口等方面的全面设计阐述。 1.3总体设计原则针对本次工程的实际情况,充分考虑系统建设的建设发展需求，以实现系统统一管理、高效应用、平滑扩展为目标，以“先进、安全、成熟、开放、经济”为总体设计原则。 1.3.1先进性原则在系统总体方案设计时采用业界先进的方案和技术，以确保一定时间内不落后。选择实用性强产品，模块化结构设计，既可满足当前的需要又可实现今后系统发展平滑扩展。 1.3.2安全性原则数据是业务系统核心应用的最终保障，不但要保证整套系统能够7X24运行，而且存储系统必须有高可用性，以保证应用系统对数据的随时存取。同时配置安全的备份系统，对应用数据进行更加安全的数据保护，降低人为操作失误或病毒袭击给系统造成的数据丢失。在进行系统设计时，充分考虑数据高可靠存储，采用高度可靠的软硬件容错设计，进行有效的安全访问控制，实现故障屏蔽、自动冗余重建等智能化安全可靠措施，提供

AA大学高性能计算校级公共平台技术服务合同

AA大学高性能计算校级公共平台技术服务合同项目名称：委托方（甲方）：受托方（乙方）：签订时间：年月日签订地点：有效期限：年月日至年月日 AA大学高性能计算校级公共平台印制年月日

技术服务合同委托方（以下简称甲方）：所在地址：法定代表人或负责人：联系人：联系电话：通讯地址：邮编：受托方（以下简称乙方）：所在地址：法定代表人或负责人：联系人：联系电话：通讯地址：邮编：甲、乙双方就乙方向甲方提供高性能计算服务的各项事宜，依照中华人民共和国相关法律法规及工作规范，本着平等互利的原则，签订协议如下：第一条甲方委托乙方进行技术服务的内容如下：（1）技术服务的目标：乙方为甲方开展“”所需的大规模科学计算应用提供高性能计算服务和相应的系统软硬件服务。（2）技术服务的内容：在合同有效期内，乙方为甲方提供CPU核的计算资源，收费方式为节点共享包年/节点独享包年/标准机时费，同时乙方为甲方提供软硬件方面的支持技术服务，帮助甲方顺利开展相关的科研工作。

在合同有效期间，乙方为甲方提供T的存储资源，供甲方使用。（3）技术服务的方式：根据甲方测试计划和计算机资源要求，乙方在AA大学高性能计算校级公共平台上指定相应的资源，并安排相应技术人员提供计算机系统技术支持，配合甲方技术人员完成应用软件的安装调试运行，保障顺利开展大规模科学计算工作。第二条甲方在合同履行期间具有以下的义务和权利：（一）甲方的义务 1、甲方需根据AA大学高性能计算校级公共平台的相关管理条例使用乙方提供的计算资源； 2、甲方在平台使用过程中，需保存好自己的账号密码，确保账号不被他人使用； 3、计算平台自身具有不稳定性，甲方须自行备份重要的数据及其相关文件； 4、甲方在使用乙方提供的AA大学高性能计算校级公共平台的过程中，如遇到高性能计算平台软硬件方面的技术问题，甲方有义务向乙方报告，并书面记录发生问题、报错信息等说明，以帮助乙方改善系统； 5、甲方需根据使用乙方提供的计算资源情况，向乙方支付相关的服务（平台管理、计算资源、存储）费用； 6、甲方利用乙方的软硬件资源所取得成果，在研究成果发布时甲方要在论文中注明“本研究工作得到AA大学高性能计算校级公共平台支持”（Supported by High-performance Computing Platform of Peking University）。（二）甲方的权利 1、甲方根据项目需求利用乙方提供的计算资源完成相关计算工作； 2、甲方有权要求乙方及时提供相关技术支持服务和使用的相关咨询； 3、甲方就利用乙方高性能计算平台取得的科研成果具有决定权。第三条乙方在合同执行期间具有以下的权利与义务：（一）乙方的义务

云服务平台合作协议

“云服务平台”合作协议甲方：乙方： #########技术有限公司（以下简称“甲方”）与########科技有限公司（以下简称“乙方”）本着优势互补、平等互利、合作共赢的原则，签订本协议。一、合作背景 #######技术有限公司借助多年在高性能计算、服务器、存储、安全等方面的经验，在云服务器、云存储、云安全、云操作系统、云应用支撑平台、云中间件聚合平台等方面有深厚的积累技术积累和完整的解决方案，为用户提供计算平台服务。 ########科技有限公司作为国内领先的虚拟桌面厂商，拥有完全自主知识产权，为各行业提供云计算桌面虚拟化解决方案，满足各行业领域用户对虚拟化的多方位需求。伸得纬领先的虚拟化技术与成熟的桌面云办公解决方案，在同等服务器设备下，支持的并发虚拟桌面用户数量可达其他国际虚拟化大厂的十倍，是全球唯一能以低成本运营大规模全功能云平台的虚拟化厂商。二、合作宗旨 1、双方在合作中建立的互信、惯例与默契是商业合作战略伙伴关系的基础，提高效率与共同发展是双方合作的目标和根本利益。 2、本协议的基本原则是自愿、双赢、互惠互利、相互促进、共同发展、保守秘密、保护协作市场。 3、充分发挥双方优势，优势互补，提高竞争力，共同进行市场开拓。 4、本协议为框架协议，应是双方今后长期合作的指导性文件，也是双方签订相关合同的基础。三、合作内容与合作方式 1、甲乙双方结合各自优势展开合作，实现互惠互利目的。 2、乙方ShadoWin桌面云企业版产品和服务模式纳入到甲方“中小企业科技园区云服务平台”的总体方案中，利用甲方的渠道进行推广。 3、合作项目规模：个终端用户 4、合作项目规划：项目预计分期进行实施 2019年月日之前，甲方协助乙方完成个终端用户的部署和云桌面平台基础建设； 2019年月日之前，甲方协助乙方完成个终端用户的部署…… 5、2019年月日之前，甲方协助乙方完成个终端用户的部署……甲乙双方共同开

高性能集群计算解决方案

https://www.doczj.com/doc/8b18652832.html,/sige_online/blog/item/d6aa74a9106a10ff1f17a224.html 和卫星遥测,遥感等探矿技术的发展,促使油气勘探的数据量爆炸性地增长, 要求信息系统能够获取,存储和处理TB级的巨量数据; 使用更精确的模型:为了提高探矿水平,必须使用规模更大,更精确数值模型来模拟地下矿藏的分布.5年前,模型的节点数一般不超过10万个;现在,经常需要使用节点数超过百万的3维模型来进行数值模拟; 提供更强的计算和数据管理能力:模型规模的扩大要求使用处理能力指数增长的计算机系统和更复杂的算法快速和精确地求解,同时也要求更强的数据管理能力来建立历史数据库,并把当前数据与长期积累的历史数据相比较,得到精确的综合预测结果; 支持功能丰富的应用软件:现代的油气探测应用软件必须具有直观的3维图象显示和输出,人机交互功能, 以提高工作效率; 降低成本:经济效益和市场竞争压力还迫使油气行业的信息系统在严格控制开支,降低总拥有成本条件下满足上述要求当前,传统的巨型机已经很难全面满足上述要求.油气行业要求使用更经济实惠的新解决方案来全面满足应用需求.Schluberger信息系统公司(SIS)是油气勘探信息处理领域中领先的厂商,也是HP在高性能技术计算领域重要的合作伙伴.该公司在使用基于安腾2的HP Integrity 服务器为计算节点的Linux集群上开发的面向油气矿藏模拟的ECLIPSE Parallel解决方案,能够全面满足油气矿藏勘探信息系统在性能和成本两方面的需求,提供解决人类社会现代化进程中能源问题的利器. 目标市场 ECLIPSE Parallel解决方案使用数值模拟方法满足油气行业探测石油和天然气地下分布状况和预测储量的需要, 油气公司从低级经理到高级主管各种类型的人员都可以得益于这一解决方案,包括:负责提供优化的矿藏分布和产量预测评估人员和经济分析师,负责作出开采决策的经理,信息系统管理人员;需要得到直观和实时矿藏信息的首席信息官(CIO)和首席执行官(CEO),负责监管的政府机构等等. 这一解决方案特别适合于要求打破油气行业使用巨型机传统,采用性能更高,价格/性能最佳的新颖解决方案的油气公司. 解决方案概貌 SIS ECLIPSE Parallel是一个基于英特尔和HP工业标准技术的成套解决方案,便于实施和灵活配置,提供先进的油气矿藏模拟功能.这一解决方案由系统平台和模拟软件两大部分组成(见下图). HP Linux ClusterBlocks集群系统是第一个经过认证的系统平台.这一Linux集群包括如下的层次: 计算节点:采用基于安腾2的HP Integrity rx2600服务器,使用新一代安腾2提供强大的64位处理能力; 互联设备:采用工业标准的高速Myrinet把计算节点联成一体,以太网联接管理节点; 操作环境:采用应用最广泛的RedHat Linux Advanced Server操作系统建立集群运行的操作环境; 集群管理和作业调度:采用Scali, Scyld或ClusterWare 公司著名的Linux工具软件管理集群系统;采用业界领先的Platform Computing的LSF 5.0软件来实现负载平衡,提高集群的工作效率上层的ECLIPSE Parallel模拟软件负责完成矿藏模拟的数值计算,它把整个数值求解问题分解成一系列较小的子问题,送到各个计算节点上并行地求解,然后再合成完整的结果. ECLIPSE Parallel解决方案这一基于Linux集群并行计算的设计思想,在性能,性价比,可伸缩性和可用性等方面都超过基于巨型机的传统解决方案,具有广阔的发展前途. 组成部件 SIS ECLIPSE Parallel软件与HP ClusterBlocks 集群结合在一起形成了一个把最先进硬件和软件完美地结合在一起的油气储藏模拟解决方案,它的主要组成部件有: 基于安腾2处理器的HP Integrity rx2600服务器; 工厂组装的基于Myrinet高速互联网络的16-128节点 Linux集群系统; RedHat Linux Advanced Server 2.1操作系统; Platform Computing的负载调度软件(LSF) 5.0:用于平衡集群内各节点的工作负载,提供运行效率; 消息传递接口(MPICH/GM):用于支持基于集群架构系统内的并行计算; 集群管理软件:允许采用Scali, Scyld, ClusterWareLinux 等公司的软件管理集群系统运行和资源共享; SIS ECLIPSE Parallel 油气储藏模拟软件 SIS ECLIPSE Parallel解决方案的硬件系统使用HP Integrity rx2600服务器作为计算节点,高速的Myrinet作为互联设备组成Linux集群,为油气储藏模拟软件提供高性能运行平台. ECLIPSE Parallel软件把整个模拟模型分解成若干个子区域.

CAE对高性能计算平台的选择

CAE对高性能计算平台的选择高性能计算（HPC）正逐步进入制造行业，承担诸多关键的计算应用。该领域中用户主要分成两类，一类是实际制造企业，如汽车设计制造厂商、航空工业企业、电力企业及消费产品生产商等。这一类用户通过高性能计算技术来提高产品的性能，减低成本，同时缩短产品的设计、生产周期，以使企业在市场上更具竞争力，另一类是研发单位，如政府、国防和大学中涉及制造行业的部门或专业。这一类用户的目标是利用高性能计算技术改善设计方法，提高设计水平从而为实际生产服务。下图给出了制造行业中采用计算机进行产品开发的流程，包括建模、前处理（模型修改和网格生成）、计算分析、交叉学科综合及后处理几个部分。其中高性能计算主要应用于计算分析部分，统称为计算机辅助工程（CAE）。制造行业CAE应用程序的特点制造行业CAE的应用可以分为隐式有限元分析（IFEA）、显式有限元分析（EFEA）和计算流体动力学（CFD）三个子学科。几乎所有的制造企业的高性能计算都依赖于独立软件开发商（ISV）提供的商业软件，只有计算流体动力学中结构网格计算类型的部分软件是

用户自己开发的。因此制造行业中的用户在购买硬件平台的同时通常会购买相应的科学计算软件产品。而在某种程度上，往往是应用软件的特性决定了硬件平台的选择。下表中给出了CAE常用的应用软件，并列出这些软件的特点，包括并行方式和可扩展性。从上表中我们可以了解到CAE应用软件具有以下特点：特点1：IFEA类应用软件（如ABAQUS, ANSYS和MSC Nastran）的可扩展性不是很好。当使用超过8个CPU来处理一个任务时，通常不会再有性能上的提升；特点2：IFEA类应用软件通常使用共享内存方式（pthreads或OpenMP）进行并行处理，其中ABAQUS不支持消息传递方式（MPI）的并行；特点3：EFEA类应用软件（如LS-DYNA, PAM-CRASH和RADIOSS）和计算流体动力学软件（如FLUENT, STAR-CD和PowerFlow）的扩展性相对较好；特点4：EFEA类应用软件和CFD软件以采用消息传递并行方式（MPI）为主。高性能计算（HPC）服务器体系结构分类及特点目前市场上常用的高性能计算服务器大致可以分为以下3种体系结构，即：并行向量处理机（PVP）： PVP系统含有为数不多、功能强大的定制向量处理器（VP），定制的高带宽纵横交叉开关及高速的数据访问。由于这类系统对程序编制的要求较高，价格很昂贵且难于管理，因此，这种类型计算机主要集中在一些大型国家关键部门，在本文中不再赘述。对称多处理机（SMP）：

哈尔滨工业大学高性能计算服务收费方案(试行)

哈尔滨工业大学高性能计算服务收费方案（试行）一、收费标准哈尔滨工业大学高性能计算中心具备每秒万亿次以上的计算峰值，计算机集群系统投入大、运行和维护费用高，拟对使用高性能计算的校内外用户进行有偿服务，收费标准如下： ●帐号管理费：校内用户1000元/帐号；校外用户2000元/帐号； ●付费排队方式：校内用户0.5元/CPU核小时；校外用户1元/CPU核小时 ●付费独占方式：校内用户40元/节点/天；校外用户80元/节点/天。根据用户需要进行资源配置，无需排队。 *付费排队用户的程序运行时间按Walltime统计为标准，Walltime=（作业结束时间-作业开始时间） CPU核占用数量条款说明： 1.本平台严禁用于涉密科研项目使用； 2.受停电、设备故障等因素影响的作业机时不计费； 3.付费排队用户使用的最大核数不超过32个; 4.缴费方式：付费排队用户根据计算需求预存一定费用，以100小时为最小单位，若预缴费用不足时，须在计算完毕15天内补交；若预缴费用有剩余时，可保留至下次计算时使用，注销账号时可申请退还剩余费用； 5.用户项目完成后或因某些特殊原因需停止使用时，可以按实际使用的CPU 核小时数进行结算；

6.在帐号有效期内，为付费排队用户提供50G，付费独占方式用户提供100G 免费存储空间，超出部分按照具体情况收取费用； 7.用户计算结果最长保存时间为20天; 8.用户提交的作业，应服从系统管理员的调度、管理。二、经费用途机器运行所收费用主要用于补充维持机器正常运行所需经费的不足，如水电费、设备维护费、机房条件保障所需费用、引进新软件、以及软件升级等。三、激励政策 1.注重社会效益，优先保证对高性能计算需求迫切的用户使用，特别是冲击国际前沿水平的、涉及重大基础理论研究或涉及国民经济重大应用的国家级课题。 2.为了满足部分院系、研究所、研究中心及国家重大科研项目组和国际合作项目组对高性能计算资源的需求，经“哈工大高性能计算平台专家组”评议以及高性能计算中心审批，可申请专用计算资源，申请的计算资源一般不超过本系统总计算资源的20%。 3.免费提供必要的技术支持和相应服务。 4.对于有合作研发和编程需求的用户(包括程序移植、优化、并行工作)，将视成果预期和可能，酌情而定，并采取有偿服务方式。本《收取方案》的解释权属哈尔滨工业大学高性能计算中心，并将在实施过程中不断完善。

云计算平台技术服务合同

云计算平台技术服务合同甲方：乙方：上海交通大学网络信息中心签订地点：上海市闵行区签订日期：年月日

（以下简称“甲方”）上海交通大学网络信息中心（以下简称“乙方”）甲乙双方依据《中华人民共和国合同法》的相关规定，经双方协商达成一致，就云计算平台技术服务事宜，特授权双方代表签订本合同，以期共同遵照履行。一、合同内容 1.甲方因自身业务需求，同意租用乙方云计算平台软硬件资源及配套技术支持服务。 2.乙方将根据合同约定，为甲方提供云计算平台软硬件资源及配套技术支持服务。 3.甲方向乙方预付费用，获得乙方提供的云计算平台上等值云计算资源的使用权利。 4.签署本合同后将视为甲乙双方均同意本合同中的内容和约定,同时同意《上海交通大学云平台服务协议》。 5.甲方权利与义务 1)甲方可通过网络远程登录并使用乙方提供的云计算平台服务。 2)甲方需遵守《中华人民共和国计算机信息网络国际联网管理暂行规定》。 3)甲方需遵守《上海交通大学用户入网安全责任书》。 6.乙方权利与义务 1)乙方为甲方提供云计算平台服务。 2)乙方在收到甲方支付的费用后，为甲方开通云计算账号，并解决甲方在

使用云计算平台服务过程中遇到的基本问题。 3)当甲方违反约定义务，乙方有权关闭甲方账号以及相应软硬件资源使用权利。 4)当本合同中止后，乙方有权关闭甲方账号以及相应软硬件资源使用权利。 5)当甲方预付费用使用完且未再续费，乙方有权关闭甲方账号以及相应软硬件资源使用权利。 6)关闭账号90个工作日后，乙方有权删除甲方放在云计算平台上的所有资源和数据。 7.以下情况乙方将不对甲方的行为负有责任 1)由于甲方密码告知他人或未保管好自己的密码或与他人共享账户或任何其他非交大云的过错，导致甲方的个人资料泄露； 2)任何由于黑客攻击、计算机病毒侵入或发作、电信部门技术调整导致之影响、因政府管制而造成的暂时性关闭、由于第三方原因(包括不可抗力，例如国际出口的主干线路及国际出口电信提供商一方出现故障、火灾、水灾、雷击、地震、洪水、台风、龙卷风、火山爆发、瘟疫和传染病流行、罢工、战争或暴力行为或类似事件等)及其他非因交大云过错而造成的甲方认证信息泄露、丢失、被盗用或被篡改等； 3)如有第三方基于甲方侵犯版权、侵犯第三人之权益或违反中国法律法规或其他适用的法律等原因而向交大云提起索赔、诉讼或可能向其提起诉讼, 则甲方应赔偿交大云因此承担的费用或损失，并使交大云完全免责。二、租用价格及支付方式

高性能计算(HPC)数据中心解决方案

解决方案简介面临的挑战随着当前信息的爆炸式增长，以及在使用基于x86微芯片的通用硬件方面的不断创新，通常是由多台机器来提供计算以共同执行非常复杂的任务。这使得网络成为一个至关重要的HPC 组件。解决方案瞻博网络提供一种高速的HPC 数据中心网络解决方案。此HPC 基础架构非常适合于那些希望近距离互连多台10GbE 服务器，而且延迟时间不能超过亚微秒的客户。优势 ? 基于10GbE 接入的模块化网络设计? 支持极大规模的低延迟连接? 提供多种功能来满足端到端的应用需求高性能计算(HPC )数据中心解决方案瞻博网络HPC 解决方案能够帮助客户执行密集的计算任务，并提供最大的网络效率和可靠性面临的挑战随着高性能集群解决方案和超级计算的日渐增加，越来越多的行业开始转向多节点集群应用。采用HPC 技术背后的主要驱动因素是越来越多的用户可以访问不断增加的数据量，这就需要进行计算以处理这些数据。由于基于以太网的集群解决方案的普及，以及在高性能业务中进行密集型计算和建模所带来的价值，很多企业开始重新审视计算集群为他们带来的经济效益。下面是多个行业从HPC 技术获得明显收益的实例： ? 设计工作室依靠计算集群来进行动画和视觉效果的渲染和建模。? 工程和建筑公司使用HPC 进行建模和3D 成像。? 石油和能源公司使用HPC 进行建模和地震研究。? 生物技术公司利用HPC 进行建模和预测性模型分析。? 投资公司和银行利用HPC 进行算法交易建模和快速市场分析。? 零售公司利用HPC 获得市场情报和进行基于视频的业务分析。? 学术界始终在挑战可以实现的最大计算能力。一般说来，这些计算挑战对于网络提出了一系列极为苛刻的要求。局域网的最初设计目的是将相对较近的最终用户工作站连接在一起，并支持这些工作站与远程网络进行通信。HPC 网络对于网络的要求主要是服务器与服务器的连接性，局域网应用与现代数据中心在通信流量模式上有很大差距，与HPC 数据中心的差距就更大了。由于这些因素，我们看到以太网大约只服务于一半的HPC 市场，In? niband 还占有显著的市场份额。一直以来，Infiniband 都被视作服务于那些低延迟和极高性能的HPC 集群应用的传统技术。不单单是现有的局域网架构不能很好地支持HPC 基础架构（瞻博网络基于1GbE 的集群交换fabric 技术可以解决这一问题），而且，长期以来以太网技术（实际上是局域网的基础）也缺乏某些HPC 集群所需的高性能特征。随着10GbE 的商业化，基于以太网的HPC 解决方案开始具有技术可行性和出色的经济性。

云计算中的HPC高性能计算

1．背景：云计算的优势共享的计算设备多租户的使用模型可高度适配的资源分配按需定制的HPC环境开始流行 2.挑战虚拟化的开销 CPU, 内存, 驱动等通信网络的区别万兆以太网vs. Infiniband 并行IO的配置选项设备, 文件系统和IO库的选择 3．CCI: Amazon的HPC解决方案 4. 虚拟化对HPC的影响虚拟设备和物理设备有巨大的性能差别虚拟机并没有引入很大的开销对于直接分配给客户机的千兆网卡结论如此, 我们正在研究万兆网卡和IB 网卡的性能结果 5. 性能评价——结论本地集群在通信上有巨大优势对于CPU和内存密集型程序，CCI的性能和本地集群相似究竟使用云还是本地集群，需要研究二者的性价比 6. I/O系统的可配置性：背景 I/O是很多高性能应用程序的性能瓶颈应用程序的读写密集和并发度差别较大传统高性能平台只提供通用的、统一的I/O系统一些高性能程序开始考虑向云计算平台迁移云计算平台可以带来I/O系统的高可配性完全受控的虚拟机环境，自定义配置成为可能

弹性的资源申请和方便的部署方式可选多种存储资源进行搭配 I/O系统的可配置性在于可以在虚拟集群上选择不同的文件系统可以利用多种底层存储设备进行组合可以充分调节文件系统参数，专门为特定的某一个高性能应用程序进行配置 I/O系统可配置性的挑战最优配置需要根据不同应用程序进行选择需要平衡性能和总成本 7. I/O系统的可配置性：文件系统网络文件系统（NFS）使用简单，只有POSIX系统调用接口对I/O需求较低的应用程序已经足够存在单点瓶颈，扩展性差并行文件系统（如PVFS） MPI-IO接口，对并行读写支持良好可以使用更多的IO节点，扩展性好 8. I/O系统的可配置性：存储设备、单实例临时存储设备（Ephemeral）块设备，每节点2*800 GB, 非持久化存储弹性块设备(EBS) 每个实例可挂载任意多块，可跨实例挂载持久化，生命期与虚拟机实例无关云端数据库存储服务(S3) 键值存储，面向数据库和互联网应用 9. I/O系统的可配置性：文件系统参数 10. I/O系统的可配置性：结论针对不同的HPC应用配置I/O系统很有必要不同HPC应用对I/O的需求不一样性能和价格需要折中 I/O配置的挑战

文档之家