当前位置:文档之家› 基于Abaqus软件的并行计算集群平台构建与优化方法

基于Abaqus软件的并行计算集群平台构建与优化方法

第29卷第6期2009年12月

防灾减灾工程学报

JournalofDisasterPreventionandMitigationEngineering

V01.29No.6

Dec.2009

基于Abaqus软件的并行计算集群平台

构建与优化方法’

阚圣哲,陈国兴,陈磊

(南京工业大学岩土工程研究所.南京210009)

摘要:根据有限元显式算法和隐式算法的特点,研究了岩土工程动力分析并行计算集群系统的硬件要求、集群系统的构建方法,构建了基于EM64T硬件构架、双路IntelXeon处理器、Linux操作系统和64位Abaqus软件的32CPU并行计算集群平台,测试了存储子系统对集群性能的影响,比较了两种千兆以太网络作为集群子网络的性能优化方法。以地下结构的地震反应分析为例,测试了优化前后该集群系统的计算速度,发现两种以太网络性能优化方法都可以有效提高集群计算速度。列举了该集群系统在深水桥梁基础流固耦舍动力分析、地下结构地震反应分析和快速轨道交通环境振动分析中的应用,显示了该集群在显式算法、隐式算法及小规模、大规模数值计算问题中的并行计算效率,证明所构建的Abaqus数值模拟并行计算集群平台能够满足计算规模、计算精度和时效性的要求。

关键词:动力分析;并行计算;集群构建;网络附加存储;以太网络优化

中图分类号:TD853.34,P315.69文献标识码:A文章编号:1672.2132(2009)06—0644—08

0引言

在岩土工程领域中,数值模拟实验可以重现大多数力学现象和力学变化过程,一些无法用土工试验来反映或重复的现象或者无法用土工试验来采集试验数据的复杂问题,例如场地地震效应、流固耦合效应、建(构)筑物间的相互作用等,可以通过数值实验模拟揭示其变化过程、变化机理和规律。

由于工程建设的需要和科学研究的深化,目前岩土工程中数值模拟的规模越来越大。现代建(构)筑物体积越来越大、结构越来越复杂,在岩土工程领域,也由研究单体建(构)筑物的力学性质向研究建(构)筑物群与周围环境介质间相互作用的方向发展;同时,多介质、多物理场耦合作用对建(构)筑物的影响也是目前研究的一个重要发展方向。但是,岩土工程数值模拟实验的基本特点是计算量巨大,传统的串行计算已经无法同时满足该领域数值模拟实验对计算规模、计算精度和时效性三方面的要求[1]。

国内外并行有限元方法的研究和运用很多,如:T.J.RHughes提出了有限元EBE技术,并在并行机上实现了有限元EBE方法;刘耀儒、陈欣[2]采用EBE方法对二滩和锦屏拱坝进行有限元分析;丁海平等口1采用微机组建集群系统模拟三维地震动场。

场地地震效应、砂土液化、流固耦合等岩土工程动力问题的数值模拟是强非线性问题。Abaqus软件在模拟高度非线性问题中表现出色。构建基于Ahaqus软件的数值模拟并行计算集群平台,可以扩大岩土工程领域的研究广度和深度,具有重要的应用价值和广阔的发展前景。

1基于Abaqus软件的数值模拟并行计算集群平台的建立

1.1硬件与操作系统

集群是一种通过局域网络将多台计算机连接起来协同工作的并行计算系统,可以用个人电脑、工作站或者对称多处理机(SMP)来组建。与SMP相比,集群更具有可扩放性(文献[1]):增加集群中处理器

?收稿日期:2009—04—23;修回日期:2009—05.12

基金项目:国家自然科学基金项目(90715018)、国家公益性行业(地震)科研专项(200808022)、江苏省高校自然科学重大基础研究项目(08KJA560001)资助

作者简介:阚圣哲(1983一),男,硕士研究生。主要从事城市地震灾害预测、并行计算和GIS系统集成研究。

Email:kansz.cool@163.corn

万方数据

第6期阚圣哲等:基于Abaqus软件的并行计算集群平台构建与优化方法645

数量只需要增加集群的节点。集群技术适合建设100颗处理器以下级别的并行计算机。

在构建基于Abaqus软件的并行计算数值模拟集群平台时,首要问题是如何兼顾显式计算和隐式计算选择硬件。显式算法和隐式算法在并行计算性能特性方面有很大的差异。显式算法的并行性能好,但模型网格划分很细致时,计算时步需要取值很小;隐式计算的并行性能稍差,CPU间通信多,但模型所取的计算时步和网格尺寸都可以大一些,时间步长甚至是同类问题显式算法模型的1000倍。表1总结了隐式算法和显式算法的特点,以及对计算机硬件的要求¨]。

表1隐式算法与显式算法的特性比较

TablelImplicitalgorithm’Scharacteristiccomparedwithexplicitalgorithm’Scharacteristic

考虑到性价比,构建并行计算数值模拟集群平台时,首先确定采用SMP组建集群。由表1数据可以看出,若要兼顾隐式和显式算法。首先需要兼顾单颗处理器性能和集群系统中的处理器数量;若要兼顾小规模数值模拟实验和大规模数值模拟实验,需要兼顾单节点的性能和集群整体的性能。表2列举了本文研究所构建的集群系统硬件信息。该系统除计算和通信功能外,都由管理节点实现,是精简的功能齐全的集群系统。该集群共有32个计算用处理器核心,满足了Abaqus软件32CPU并行计算的需求。在该集群上,既可以提交多个小规模计算任务分别在单个节点上以Threads方式运行,也可以使用32个处理器以MPI方式并行计算大规模的模型,提高单个任务的计算速度。

采用网络存储(Fabric—AttachedStorage,简称FAS)扩展集群系统的存储容量,具有易扩展、易管理的特点。基于Abaqus软件的数值模拟并行计算集群,需要通过网络文件系统(NetworkFileSystem,简称NFS)为各节点提供文件共享服务。网络附加存储(Network—AttachedStorage,简称NAS)属于FAS,具有自己的文件系统,可以通过NFS为多台服务器提供文件共享服务,因此采用NAS设备作为集群的存储节点。

表2并行计算数值模拟集群平台的节点硬件参数

Table2Performanceparametersofnode’Shardwareintheparallelcomputingnumericalsimulationelus—

terplatform

4台DELLPEl950双路四核机架式服务器

计处理器两颗IntelXeonProE5450处理器

摹内存8GBDDRI667MHz全缓冲Ecc

点硬盘292GBRIAD0磁盘阵列

网卡板载双千兆网卡,绑定后形成虚拟网卡一

1台DELLPERCISION670双路双核工作站o~—-.-__-._-—-..._-.一..,..‘-。_.。_‘.-。_..-。,.-_.。-一面处理器两颗IntelXeon3.2G处理器

卞内存4GBDDRI400MHzECC

“”

显卡NVIDIAQuadroFX1400专业显卡

1台WallstorWIP5208网络附加存储器存处理器

萼内存

点硬盘

网卡

1颗IntelXeonProE5405处理器

2GBDDRI

8TBRIAD5磁盘阵列

双千兆网卡,支持链路聚合

一1台DELI。PowerConnect

2724千兆以太网络交换机菇交换能力最大48Gbps交换速度

琶链路聚合6个组的链路聚合,每组最多4个端El

””

巨型帧支持9K巨型帧

通信性能对集群整体的性能具有决定性的影响,某些情况下,集群网络的性能是整个集群系统性能的瓶颈。采用何种网络互连技术连接节点以及如何优化网络提高网络性能,是构建集群平台的重要工作内容。

目前,集群系统中常用的网络有以太网络(Gi—gabitEthernet,简称GigE)、Myrinet网络、lnfini—band网络。根据图1所示[5],对应于Abaqus软件的应用,各种网络互连技术在互连32个以下处理器(核心)时的性能差距不大,对于一个小型集群,使用Infiniband网络替换千兆以太网络带来的性能提升不大,因此本文搭建的集群平台采用千兆以太网络传输节点间的通信。

该集群采用64位的RedhatEnterpriseI.inuxAS4操作系统。Linux操作系统可以方便地定制系统服务,提高集群的工作效率。在无优化的条件下,Linux操作系统的运行效率比WindowsServer操作系统性能高1.12%。更重要的是,Linux操作系统稳

万方数据

646防灾减灾工程学报第29卷

图i不同网络技术下Abaqus/Explicit并行性能比较

Fig.1ComparingofAbaqus/Explicitsolver’sparallelcomputingperformanceusingdifferentnetwork

定性好,磁盘操作机制要优于WindowsServer操作系统。

该集群目前配置Abaqus有限元软件。根据Abaqus软件要求,子程序编译器采用IntelFortran9forLinux。有限元软件及编译器均具有并行功能,4个计算节点上安装的Abaqus软件及编译器路径相同。

1.2存储系统对集群性能的影响

Abaqus软件在计算中将产生临时文件和结果文件。本集群中,临时文件存储在各个计算节点的本地磁盘上。并行计算使用的计算节点数超过一个时,各个计算节点都需要读写结果文件,这些结果文件通过NFS实现文件共享。

为了测试存储系统对集群平台性能的影响,将一采用隐式算法计算的有限元算例作为测试算例,统计了4CPU并行计算在4种环境下的计算效率,分别为:

环境1:结果文件存储在计算节点的本地磁盘上;

环境2:通过NFS将结果文件存在NAS设备上;

环境3:通过NFS将结果文件存在另外一台计算节点上,即一台计算节点负责计算,另一台计算节点提供文件共享服务。

运行于集群系统上的Abaqus软件在并行计算时,所有参与计算的计算节点同时在读写结果文件,此时存储结果文件的存储设备任务繁重。为测试多个计算节点读写结果文件时的NAS性能,设计环境4:同时计算8个测试算例,每个计算任务使用4处理器核心,共4台计算节点、32个处理器核心参与计算,所有的计算结果文件存储在NAS设备上。

表3为4种环境下算例的WAI,I。CLOCKTlME,及其相对WALLCI。OCKTIME。环境4的数据为8个算例的平均耗时数据。

表34种环境下的耗时数据

Table3Time-consumingdatain4kindsofenvironment

环进程运行时间/s相对进程运行时间

境(WALLCLOCKTlME)(相对WALLCLOCKTIME)

环境1中,计算任务只读写本地磁盘,数据传输速度快;但在集群系统中,所有CPU均能读写的存储是FAS,FAS与CPU间通过网络传输数据,传输速度慢。环境2提供文件服务的设备是NAS设备,环境3提供文件服务的设备是服务器,NAS设备为文件服务做了大量的系统优化,因此其文件服务性能要优于服务器。环境4最符合实际应用环境,与环境2相比,环境4的耗时增幅为1.38%。比较4个环境中的计算耗时,得出:①采用NAS设备作为集群的存储节点,可以提高集群系统的计算速度;②在并行计算环境下,NAS设备的性能稳定。

1.3系统配置与网络子系统优化

Linux操作系统通过配置文件来配置系统,所有对系统的设置都可通过修改特定的文件来实现。要实现Abaqus软件的并行计算功能,应设置用户、设置网络、设置RSH服务以及设置应用软件。

应用软件设置包括设置Abaqus软件和设置In—telFortran编译器,在其Abaqus软件环境变量文件abaqus—v6.env中,可以设置与并行计算任务有关的环境变量:auto—convert、cpus、domains、max—cpus、mp—file—system、mp—host—list、mp—mode、mp—mpirun—options、mp—mpirun—path、mp—rsh—command、parallel、parallel—odb、standard—paral—lel,共13个参数。

衡量基于TCP/IP协议的集群网络性能,其重要因素是通信延迟时间,包括协议软件处理开销和网络硬件处理时间,主要涉及4个因素:网络带宽,操作系统的额外开销,TCP/IP协议对网络性能的影响和协议中复杂的缓冲管理。

GNU/I,inux提供了很多可调节的内核参数,可

万方数据

第6期阚圣哲等:基于Abaqus软件的并行计算集群平台构建与优化方法

以根据实际用途修改这些参数,对操作系统进行动态配置。文献E6IyII举了影响socket性能的一些重要的选项,它们可以帮助提高LinuxTCP/IP栈的性能。

TCP的性能取决于几个方面的因素,其中最重要的是链接带宽(1inkbandwidth)和往返时间(round—triptime,简称RTT)。这两个值确定了带宽时延乘积(BandwidthDelayProduct,简称BDP)的大小:

BDP=link—bandwidth*RTT(1)BDP给出了一种简单的方法来计算最优的TCPsocket缓冲区大小。如果缓冲区太小,TCP窗口(window)就不能完全打开,这会对网络通信性能造成限制;如果缓冲区太大,宝贵的内存资源就会造成浪费。实际中,可以修改接收窗口的大小等于BDP的某个百分比,文献i-7-1在考虑阻塞窗口存在的情况下,设置:

rmem—default—BDP/O.75。(2)在可靠的局域网络中,RTT值一般很低,该集群平台取RTT=1ms,带宽=2000Mbps一250MB/s。计算得到BDP一250*0.002—0.25MB=262144Bytes,rmem—default—BDP/O.75=349525。该集群平台取rmem—max一1.5*rmem—default=524288,wmem—default—rmem—default,wmem_max2rmem—max。

直接修改/proc目录中的参数文件,即自动修改了TCP/IP协议栈参数。由于/proc目录下的所有内容都是临时性的,该集群平台通过向/etc/rc.10—cal文件中添加修改内容,来实现系统重新引导时自动修改TCP/IP协议栈参数。添加内容如下:

echo349525>/proc/sys/net/core/rmem—defaultecho524288>/proe/sys/net/core/rmem—max

echo349525>/proe/sys/net/core/wmcm—defaultecho524288>/proc/sys/net/core/wmem—max

echo1>/proc/sys/net/ipv4/tcp——window——scaling使用TCP/IP协议传输的数据需封装在数据包中,通过以太网传输。传统的数据包可封装的数据最大不超过1.5kB,传输数据大于1.5kB时则需要将其分割成多个数据包传输,分割封装数据将引入帧头、帧尾以及中断等开销。巨型帧把以太网的最大帧长扩展到了9kB,可以大量减少网络上传播的帧数目,提高网络的通信性能。

巨型帧的配置需要修改节点操作系统参数和开启交换机对巨型帧的支持功能:系统是否支持巨型帧完全取决于系统的MTU值。该集群平台通过修改网卡配置文件来修改MTU值,网卡初始化时,将按照网卡配置文件确定MTU值。需要向该集群平台的/ctc/sysconfig/network—scripts/ifcfg—bondO,/ete/sysconfig/network-scripts/ifcfg-ethO,/ete/

sysconfig/network—scripts/ifcfg—ethl三个文件中添加如下语句:

MTU一9000

链路聚合技术能够将多个线路的传输容量融合成一个逻辑链接,通俗地讲,就是将两块具有相同IP地址的网卡并行链接,聚合成一个逻辑链路工作。一个数据包在链路中传输所消耗的时间,等于数据包大小除以链路带宽。理论上讲,这个虚拟逻辑链路的带宽是参与聚合的链路的带宽总和。在I.inux的2。4.X内核中,这种技术被称为Bonding。绑定后形成的网卡称为逻辑网卡,参与组成逻辑网卡的物理网卡成为Slave网卡。

该集群平台将两块板载网卡(eth0和ethl)虚拟为一块逻辑网卡(bond0),操作系统中的配置文件修改可以归纳为4个步骤:

(1)编辑逻辑网卡配置文件/etc/sysconfig/net—work—scripts/ifcfg—bond0,至少需要包含如下基本信息:

DEVICE—bond0

B()0TPROTO=none

IPADDR=[虚拟网卡IP]

NETMASK=[虚拟网卡的子网掩码]

GATEwAY=[交换机IP]

ONBOOT=yes

TYPE—Ethernet

USERCTI。=no

DHCP—HOSTNAME=[主机名或域名]

(2)编辑物理网卡配置文件(以eth0为例)/etc/sysconfig/network—scripts/ifcfg—eth0,只需要包含如下信息:

DEVICE—eth0

ONBOOT=yes

B00TPROTO=none

HWADDR一[该网卡的硬件地址(MACAd—dress)]

MASTER—bond0

SI。AVE—yes

(3)编辑/ete/modprobe.conf文件,以使系统在启动时加载bonding模块。添加如下语句:

万方数据

648防灾减灾工程学报第29卷

aliasbond0bonding

optionsbond0miimon=100mode一0.

配置bonding网卡,可以设置众多参数[8],该集群平台只设置miimon和mode参数,其它参数使用默认值。miimon参数定义了聚合链路的监听时间间隔,监听聚合链路可以确定slave网卡端口的健康状况,当某个slave网卡异常时,可以及时停止使用该slave网卡;当某个slave网卡恢复正常时,可以及时启用该slave网卡。mode参数确定逻辑网卡的运行模式,mode=0表示链路聚合模式。

(4)修改启动配置文件/etc/rc.d/rc.10cal,以使系统在启动时激活虚拟网卡。加入如下语句:ifenslavebond0eth0ethl

1.4优化前后集群平台计算性能的比较

为了测试两种优化方法对集群平台性能的影响,测试了使用双节点(16个处理器核心)和三节点(24个处理器核心)时的计算速度,共做6次测试并获得相应的DAT文件。各次测试条件见表4。

表4集群平台性能测试的条件

Table4Performancetestsconditionofclusterplatform

表5采用DAT文件中的数据格式,给出了这6次测试的用户态时间(USERTIME)、内核态时间(SYSTEMTIME)、CPU处理及中断时间(TO—TAI,CPUTIME)和进程运行时间(wAI。I。CLOCKTIME)数据,单位为S。

表56次测试的耗时数据

Table5Time—consumingdataofsixtests单位:S∥嚣(USER罄(SYSTEM。霉蔫

图2为根据表5数据制作的6个测试的计算耗时散点图。图2中,以测试2的耗时数据为基准,对6个测试的T()TAI。CPUTIME和WALLCI。OCKTIME进行归一化,共获得12个数据点,测试Ⅳ的相对耗时等于测试Ⅳ的耗时除以测试2的耗时。

TOTALCPUTIMEWALLCLoCKTIME

图26次测试的相对耗时散点图

Fig.2Scatterofthesixtests7relativetimeconsumption

图2显示,6次测试的相对ToTALCPUTIME离散性均较高,测试1的等于3.34,是最大值,测试3的等于0.42,是最小值;相对wALI。CLOCKTIME离散性较小,测试1的等于1.74,是最大值,测试3的等于0.51,是最小值。6个测试的相对TOTALCPUTIME排序不同于相对WAI,LCI。0CKTIME排序,但其中仅测试2的次序不同,不同测试条件下,T()TALCPUTIME和WAI。I。CLOCKTlME的变化趋势基本相同。故选取WAI。LCLOCKTIME作为衡量该集群平台计算时耗的标准。WALI。CLOCKTIME是综合了各种影响因素的Abaqus求解器进程实际运行时间,它是用户等待计算任务结束所花费的时间L9]。

图2中的相对WALI。CLOCKTIME间的差异表明,计算条件对计算速度影响很大。测试1、测试2、测试3的耗时逐渐减小,说明链路聚合和TCP/IP栈优化可以提高计算速度。测试1的WALLCI。OCKTIME是测试3的3.43倍,说明集群网络性能对Abaqus软件的计算速度影响大,链路聚合和TCP/IP栈优化对网络的优化效果好。图2中,测试1的耗时大于测试4,测试2的耗时小于测试5,但测试3的耗时小于测试6,说明集群网络性能越好,计算任务最适宜调用的处理器数越少,良好的集群网络可以减少消耗的软硬件资源并获得同样的计算速度。

万方数据

第6期阚圣哲等:基于Abaqus软件的并行计算集群平台构建与优化方法6492集群平台的实际应用

2.1深水桥梁基础流固耦合动力分析中的应用

采用该集群平台进行了流固耦合效应对深水桥

墩桩基础地震反应特性影响的数值模拟。对桥墩一群

桩一地基土体系,采用三维8节点实体单元离散土体

和桥墩,共97587个自由度;采用三维梁单元离散群

桩,共13680个自由度;计算域人工边界的弹簧和阻

尼各12810个[1引。采用弹塑性损伤本构模型描述混

凝土的动力损伤特性,采用aqua模块模拟流固耦合

效应。

图3显示了在单个计算节点上,使用不同数目

处理器时的计算加速效果。图3中的速度是以单个

处理器(核心)的计算速度为基准,归一化得到的相

对计算速度。假想的理想状态以该模型的单个处理

器计算速度为基准,多处理器并行计算时的理想相

对计算速度即等于并行计算中使用的处理器数目。

7越6删5蜮4本3

0~+实际速度,_8

-‘?~理想状态

,,/

,,,7

.,,。.,:。?’?q+‘:::::!::j::::!:‘::!:j:。::…:■:磊墨墨%f::肼Xi

处理器数目

图3Abaqus小型计算任务在SMP系统下的并行加速效果

Fig.3SMP’Sparallelcomputingspeedofasmalltask

从总体上看,实际的加速效果与理想状态的加速效果相差较大,但相较于串行计算,使用并行计算后,计算速度提高一倍,可以节约一半的计算时问。

2.2地下结构地震反应分析中的应用

采用该集群平台以Explicit模块计算了地铁地下车站结构的地震反应。地铁地下车站结构为三层双柱三跨结构,采用三维8节点实体单元离散地铁地下车站的结构和地基土,共97808个单元;采用弹塑性损伤本构模型描述混凝土的动力损伤特性;采用Davidenkov本构模型描述土体的动力特性。输入E1Ccntro地震波的持时为30S。

算例以8CPU并行计算实际耗时为基准,假定8CPU并行计算的理想计算耗时也等于该基准,则多处理器并行计算理想耗时与8CPU并行计算理想耗时的比例,等于两个并行计算中使用的处理器数目的反比例。该模型使用单节点8CPU(核心)、双节点16CPU和三节点24CPU计算的耗时比较,见图4。

×

耀

图4地铁车站结构一场地土体系的并行计算耗时Fig.4Timeconsuminggraphofparallelcomputingofsubwaystation—soilsystem

可以发现,该算例的并行计算出现了实际加速效果大于理想状态加速效果的情况。对于这种不同寻常的情况,本文认为是内存系统造成的。在单节点情况下,由于单节点可用内存为8GB,很可能计算中使用的刚度矩阵、各种中间变量、临时文件等需要使用硬盘存储,低速的硬盘I/o系统成为性能瓶颈,很多时间花费在硬盘数据读取上,造成计算速度缓慢;在多节点情况下,支持分布式内存的Abaqus软件,可以将计算中需要的所有数据都存储在各个节点的内存中,不需要涉及硬盘I/O操作,计算速度明显加快。

2.3快速轨道交通环境振动分析中的应用

采用该集群平台以Standard模块进行了高速列车荷载作用下,板式轨道路基和场地的三维有限元动力分析。单线线路模型共123098个单元,400045个自由度;双线线路模型共289323个单元,896529个自由度。采用欧拉梁单元模拟钢轨和路基的桩网结构,采用线弹性实体单元模拟板式轨道结构,采用实体单元模拟路基和场地;计算域边界采用粘弹性边界;采用Drucker—Prager本构模型描述土体的动力特性。模拟的列车振动持续时间为0.8509S,时间步长取0.00727S。

单线和双线线路模型在双节点16CPU、三节点24CPU并行计算的耗时见图5。可以发现,双线线路模型并行计算的加速效果要优于单线线路的情况,即:对于较大规模的任务,并行计算的计算加速比较大,集群系统并行计算加速比随着计算规模的增大而增大。

万方数据

650防灾减灾工程学报第29卷

.晴2×、鲁耀蜮七

a-149~069:~~…i耐甜-+单线线路模型

.一-~双线线路模型

32012

__3I202

16

处理器数目

图5高速铁路单线和双线线路模型的并行计算耗时

Fig.5Timeconsuminggraphofparallelcomputingofhigh-speeddouble-trackandsingle-trackrail—

waysmodel

3结语

根据岩土工程动力分析和并行算法特点及计算机软硬件特性,构建了一套兼顾显式和隐式算法、大规模和小规模数值计算的并行计算集群系统。

采用NAS设备作为集群的存储节点,其存储容量易扩展、存储设备易管理及性能稳定,能提高集群系统计算速度。

通过修改IAnux配置文件、Linux内核完成链路聚合配置和TCP/IP协议栈配置,可以提高该集群系统的计算速度。从初步测试结果看,优化设置的效果良好,优化后的集群平台计算速度可以提高一倍。

列举的三个实例,在岩土工程动力分析中具有一定的代表性。实例1通过aqua模块计算,实例2通过Explicit求解器计算,实例3通过Standard求解器计算,结果表明,在构建的集群平台上,显式和隐式并行算法计算效率高,该集群系统可以满足岩土工程动力分析对计算规模、计算精度和时效性的要求。

应当指出,在Standard模块的计算测试中发现,处理器并不是始终处于满负荷工作状态;CPU使用率波动较大;当内存足够大时,Abaqus软件将使用内存取代硬盘存储临时文件。因此,今后有必要测试内存容量对Abaqus隐式计算模块性能的影响。

参考文献:

E13陈国良.并行计算:结构、算法、编程[M].北京市:高等教育出版社,2003.

ChenGL.ParallelComputing:Architecture。Algo—rithms,Programming[M].Beijing:HigherEducationPress.2003.E23刘耀儒,陈欣.基于EBE方法的三维有限元并行计算[J]。岩土力学,2003,(24):69—72.

LiuYR,ChenX.Parallel3-Dfiniteelementanalysis

usingjacobi—conditionedconjugategradientbasedon

element—by—elementpolicy[J].RockandSoilMechan-

ics,2003,(24):69—72.

[3]丁海平,刘启方。黄勇,等.三维地震动场数值模拟并行

计算系统[J].地震工程与工程振动,2004,(24):19.22.

DingHP,LiuQF,HuangY,eta1.Parallelcomput—

ersystemfor3—-Dnumerical

simulationofgroundmo?-tion[J].EarthquakeEngineeringandEngineeringVi-

bration,2004,(24):19—22.

[43戴荣.曙光CAE高性能计算解决方案[EB/OL].http://smb.pconline.tom.cn/a—lfx/0707/1067164.

html,2007.

DaiR.Thehigh-performancecomputingsolutionfor

CAEfromDawningInformationIndustryLtd.[EB/

OL].http://smh.pconline.corn.cn/alfx/0707/

1067164.html,2007.

[53俞剑冬.ABAQUS高性能并行运算介绍ER].上海:ABAQUS软件公司上海代表处,2007.

YuJD.TheIntroductionofAbaqussoftware’Sparal.

1elcomputing[R].Shanghai:DassaultSyst6mes

SimuliaCorporation’sShanghaiRepresentativeOf-

rices,2007.

[63JonesMT.BoostsocketperformanceonLinux——

FourwaystOspeedup

yournetwork

applications[EB/OL].http://www.ibm.com/developerworks/linux/

library/1一hisock.html,2006.

[7]WadensteinM.TCPperformancetuning—howtotunelinux[EB/OL].http://www.ace.umu.se:80/

~maswan/linux-netperf.txt,2007.

[8]TheLinuxFoundation.Net:Bonding[EB/OL].http://www.1inuxfoundation.org/en/Net:Bonding,

2009.

[93赵克佳,沈志字,赵慧.UNIX程序设计教程[M].北京市:清华大学出版社,2001.

ZhaoKJ,ShenZY,ZhaoH.UNIXProgramming

Guide[M].Beijing:TsinghuaUniversityPress,

2001.

[103陈国兴,白德贵,王志华.考虑波流影响的深水群桩基础桥墩地震反应分析[J].地震工程与工程振动,2008,

(5):170-177.

ChenGX,BaiDG。WangZH.Seismicresponse

analysisofthelargescalebridgepiersupportedbypile

foundationconsideringtheeffectofwaveandcurrent

action[J].JournalofEarthquakeEngineeringandEn-

gineeringVibration。2008,(5):170—177.

O万方数据

第6期阚圣哲等:基于Abaqus软件的并行计算集群平台构建与优化方法

651————————————————————————————————————————————————————————————————————————————一——

ConstructionandOptimizationofParallelComputingCluster

PlatformBasedon

AbaqusSoftware

KANSheng—zhe,CHENGuo、xing,CHENLei

(InstituteofGeoteehnicalEngineering,NanjingUniversityofTechnology,Naniing210009,China)

Abstract:BasedonthecharacteristicofFEA

explicitalgorithmandimplicitalgorithm,itisstudiedwhatparallelcomputingclusterplatform7shardwareisrequiredandhowtheplatformisbuiltinthefieldof

geotechnicalengineeringdynamicalanalysis,andtheAbaqussoftware7snumericalsimulation

parallelcom。putlngclusterplatformisbuilt,whichisappliedtodynamicalanalysisinthefiledofgeotechnicalengineer—

ing.TheclusterplatformisbasedonEM64Thardwareframework,usesdual—pathIntelXeon

processor.

makesuseofGigabitEthernetsubsystem,and

configures64一bitapplicationsandLinuxoperatjngsystem.

32CPUparallelcomputingcanbeachieved

usingthisclusterplatform.ThestorageSUbsystemhasimpactonthecluster’sperformance.Theimpactistested.TwowaysofEthernetoptimizationarediscussed.Theplatform’scomputingspeedsbeforeandafteroptimizationaretested,usinganundergrOLlndstrueturedv—

namlcanalysisofearthquakeFEAmodel.Thetest’sresultshowsthattheEthernet

performancecanbe

optimizedeffectually,thetwooptimization’swayscanincreasethecluster

platform’scomputingsPeed.

Theapplicationexamplesinthefieldoffluid—solid

couplingdynamicalanalysis,rapidrailtransitambient

vibrationanalysisand

undergroundstructureseismicresponseanalysisareintroduced.Theplatform7scomputingspeedsofexplicitalgorithm,implicitalgorithm,small—scalecalculationandlarge—scalecalcula—

tlonareshowedthroughtheapplicationexamples.ItisprovedthatthenumericaIsimulationcluster

plat—formmeetstherequirementsofcalculationscale,calculation

accuracyandtimeliness.

Keywords:dynamicalanalysis;parallelcomputing;clusterplatformconstruction;NetworkAttachedStor—age(NAS);Ethernetoptimization

万方数据

基于Abaqus软件的并行计算集群平台构建与优化方法

作者:阚圣哲, 陈国兴, 陈磊, KAN Sheng-zhe, CHEN Guo-xing, CHEN Lei

作者单位:南京工业大学岩土工程研究所,南京,210009

刊名:

防灾减灾工程学报

英文刊名:JOURNAL OF DISASTER PREVENTION AND MITIGATION ENGINEERING

年,卷(期):2009,29(6)

被引用次数:0次

参考文献(10条)

1.陈国良并行计算:结构、算法、编程 2003

2.刘耀儒.陈欣基于EBE方法的三维有限元并行计算 2003(24)

3.丁海平.刘启方.黄勇三维地震动场数值模拟并行计算系统[期刊论文]-地震工程与工程振动 2004

4.戴荣曙光CAE高性能计算解决方案 2007

5.俞剑冬ABAQUS高性能并行运算介绍 2007

6.Jones M T Boost socket performance on Linux-Four ways to speed up your network applications 2006

7.Wadenstein M TCP performance tuning-how to tune linux 2007

8.The Linux https://www.doczj.com/doc/1e6202765.html,:Bonding 2009

9.赵克佳.沈志宇.赵慧UNIX程序设计教程 2001

10.陈国兴.白德贵.王志华考虑波流影响的深水群桩基础桥墩地震反应分析[期刊论文]-地震工程与工程振动2008(05)

相似文献(10条)

1.学位论文王顺绪特征值问题的并行计算2008

结构动力分析是振动理论及其应用中的基本问题,本文研究了结构动力分析中特征值问题的并行算法,给出了PVM和MPI环境下微机网络并行计算环境的构建方法。

首先研究了杆-板-壳组合结构刚度矩阵和质量矩阵的并行计算。每个节点机负责一部分单元对总刚度矩阵和总质量矩阵的贡献,得到了总刚度矩阵和总质量矩阵,为结构动力分析的并行计算作准备。

其次给出了广义特征值问题的并行子空间迭代算法。第一种方法是将广义特征值问题转化成标准特征值问题,利用标准特征值问题的子空间迭代算法求解广义特征值问题;第二种方法是直接将广义特征值问题投影到子空间的子空间迭代算法,给出这两种子空间迭代算法的并行实现,并分别利用这两种并行算法计算了J8-II机翼和导弹挂架的动力特性,在微机网络并行计算环境和分布式并行计算环境PAR2000上取得了较高的加速比和并行效率。

第三,给出了广义特征值问题的并行块Davidson方法、并行精化块Davidson方法和并行Jacobi-Davidson方法。使用Neumann级数展开对Davidson方法、精化块Davidson方法和Jacobi-Davidson方法的校正方程进行预处理,在并行计算机IBM-P650和微机网络并行环境下进行了数值试验,并利用这些方法并行计算了J8-II机翼和导弹挂架的动力特性。

第四,提出了二次特征值问题的并行Jacobi-Davidson方法,并行精化Jacobi-Davidson方法,并将这些方法应用到J8-II机翼的带有比例阻尼的二次特征值问题的并行计算。理论分析和数值试验表明,二次特征值问题的并行Jacobi-Davidson算法和并行精化Jacobi-Davidson算法具有良好的并行性

,而且精化Jacobi-Davidson算法比非精化方法在较少的迭代步内收敛,使用更少的计算时间,并拥有更高的加速比和并行效率。

最后,提出了求解陀螺系统二次特征值问题的并行子空间迭代算法和并行精化Jacobi-Davidson方法。利用稳定状态时陀螺特征值问题的特征值是纯虚数的特点,将该问题转化成对称矩阵的广义特征值问题,使用并行子空间迭代法求解,在实际计算过程中,将参与计算的矩阵阶数约化为问题本身的规模。

2.期刊论文王福军.程建钢.姚振汉结构非线性动力分析显式积分并行算法-清华大学学报(自然科学版)

2002,42(4)

对同时具有几何非线性、材料非线性和边界条件非线性的结构动力分析问题并行性进行了讨论.提出了能有效用于该问题并行计算的双重区域分解法,重新规划了各处理机与宿主机间的任务分配.采用了数据整体传送技术,不需要处理子域交界面上的"影响单元",减少了算法的复杂度,降低了通信开销.对323 045阶自由度、 62 500时间步的大规模冲击接触问题进行了并行计算,在网络机群环境下采用8个处理机并行计算时的并行效率为84.6%.结果表明,该并行算法对大规模非线性问题的并行计算非常有效.

3.学位论文付朝江集群MPI环境下有限元结构分析并行计算研究2006

网络并行计算是当前国内外并行计算领域中最引人注目的前沿课题之一,有限元法是当今用于结构分析问题的有效方法。将并行计算技术引入结构有限元分析,可以增大结构分析的规模,提高分析的速度,从而促进有限元在大型结构工程中的应用。本文结合上海市教委重点科研基金项目开展了网络机群并行计算环境下的结构有限元并行算法及其实现的研究,并应用于实际结构分析。

本文在基于MPI集群环境下,所做工作的主要内容如下:(1)利用工作站构建了网络机群并行计算环境,阐述了并行计算的基本概念,介绍了MPI编程方法。

(2)考虑在工作站机群上实现大型稀疏矩阵和向量乘的负载平衡。提出了一个快速负载平衡和有效的消息传递技术相结合的方法,来缓解计算和节点间通信,并且,通过I/O延迟隐藏和整体负载平衡使I/O开销能有效地分摊。预处理共轭梯度法(PCGM)是求解线性方程组的有效迭代方法。本文对预处理共轭梯度并行算法进行研究。对存储方式进行详细分析。编程中采用了稀疏矩阵向量相乘的优化技术。数值结果表明设计的并行算法具有良好的加速比和并行效率。

(3)提出了粗细网格与预处理共轭梯度法结合的并行有限元算法。从多重网格刚度矩阵推导出有效的预处理子。实现了对矩形网格的线弹性力学问题

的并行求解,对其并行性能进行详细讨论。计算结果表明该算法具有良好的并行加速比和效率,是一种有效的并行算法。

(4)将采用区域分解技术的并行有限元方法应用于工作站机群的分布式并行环境。提出了基于单元区域分解的共轭梯度并行算法,对坝体结构进行求解,对其并行性能进行分析。

(5)以子结构模态综合分析为基础,提出一种求解大型结构特征值问题的并行解法。采用子结构模态综合算法,结构特征模态采用子空间迭代方法并行求解。这种子空间迭代法的子结构并行计算的实施是利用子结构的刚度阵和质量阵而不必完全组集系统刚度阵和质量阵求解综合系统的特征值问题。数值结果表明这种求解大型结构特征值问题的并行算法是可行有效的。

(6)针对大规模结构非线性瞬态动力分析非常耗时,提出一种采用Newmark隐式时间积分的非线性动力分析的并行算法。该算法采用无条件稳定的Newmark-β方法(平均加速技术)进行时间积分,并结合区域分裂技术进行分析。它不同于已有的采用非重叠区域的并行算法,而是采用重叠区域的并行算法。对给定结构有限元分析的质量、阻尼、刚度矩阵进行分裂可推出重叠区域分裂算法的计算公式。为改善每一步的求解,采用预估和校正子方案。数值算例验证了算法的性能,计算结果表明该算法优于非重叠区域分裂算法。

(7)研究一种基于MPI集群环境下的弹塑性区域分解并行有限元算法。提出了相应的并行求解策略。提出了采用三阶和四阶的Runge-Kutta方法对应力-应变关系进行积分的算法。积分过程中自动调整子步大小来控制积分过程中的误差。研制了采用最小残余平滑法的子结构预处理共轭梯度并行求解算法。

(8)分析了平面钢闸门的工作特点,研究和建立了平面钢闸门空间组合的有限元计算模型。采用循环分解技术实现了并行计算。

4.期刊论文王顺绪.WANG Shun-xu微机网络并行环境下杆壳组合结构动力特性并行计算-计算力学学报

2005,22(1)

回顾了有限元并行计算发展的历史,阐述了微机网络并行计算环境的意义,给出了基于微机网络并行环境的杆壳组合结构动力分析并行算法,该算法包括杆壳组合结构总刚度矩阵和总质量矩阵的并行计算以及求解广义特征值问题的并行子空间迭代法的并行计算,在多台微机上安装PVM,使用Linux操作系统,构成分布式微机网络并行计算环境,将上述算法用于某型号飞机机翼及某型号挂架动力特性的并行计算,在该并行环境下的数值试验表明所给算法是非常有效的.

5.学位论文李渊印结构动力响应分析的并行算法研究及其应用2005

结构动力学问题(如抗震动力分析与控制)具有广泛的应用领域,动力响应问题是结构动力分析的主要内容之一。另一方面,诸如大型结构动力分析、大型柔性空间结构的动力学问题、汽车高速碰撞的计算机仿真、复合材料结构的动力学及细观力学问题和流固耦合问题等等这类非线性问题由于计算规模巨大、求解复杂,在传统的串行机上无法得到满意的解答。基于各种并行计算机,一个新的学科分支——并行计算结构力学应运而生,并且得到了迅速发展。为适应计算大型结构的需要,并行计算在国际上的呼声日高。算法是计算固体力学研究的重点,目前并行算法和技术仍是其发展趋势,非线性问题是算法研究的集中点。

本文对求解结构动力响应问题的时间积分法及其并行算法的国内外现状进行了详细的综述,其中精细积分法开辟了新的求解思路,能够获得优于传统差分类算法的数值结果,使得非线性结构动力方程的高精度求解成为可能。精细积分法在实现上主要是矩阵向量运算,很适合于并行计算。当前,精细积分法的研究成果适合于自由度数较少的简单结构,而对精细积分并行算法的研究则限于线性结构。由于精细积分法的优点,研究者纷纷将其推广至非线性结构动力方程的求解,已经获得了大量的成果,研究工作仍在广泛开展中。精细积分法存在研究空间。

本文对精细积分法及其并行算法展开了广泛深入的研究,主要包括以下几个方面的内容:

(1)研究了非线性结构动力方程的线性化方法。基于非线性部分分离方法,提出了精细积分隐式级数算法。该算法对时间步长不敏感,数值稳定性好,与相应的显式算法相比,相同条件下能采用较大的时间步长,从而加快时程积分,这对于大型结构的动力响应分析是很有意义的。算法的主要计算是矩阵向量运算,特别适合于并行计算。算例验证了算法的正确性和稳定性。

(2)将非线性结构动力方程求解的级数解格式引入到线性情况,在此基础上直接根据Taylor展开和矩阵指数函数的性质来计算指数矩阵,设计了结构动力响应分析的两种算法,时程积分公式仅包含一个稀疏矩阵,存储需求低。算法需要多次计算指数矩阵,但耗时可通过稀疏矩阵和并行计算获得补偿,而算法很适合于并行。算例验证了算法的正确性和有效性。

(3)针对精细积分粗粒度并行算法中处理器等待初值的问题,提出了时间步数不均衡分配的负载分配策略,以减少处理器的等待时间,算例表明能够节省总时间,获得更高的加速比。

(4)针对非线性结构动力方程不能采用粗粒度并行算法,提出了精细积分法的细粒度并行算法,该算法也适用于线性结构。对矩阵实施分布存储,存储需求进一步降低,能分析的结构规模更大。针对级数解格式的特点,进行适当的处理,能够缩短计算时间,文中对此也进行了研究,并给出了两种不同的算法。由于状态矩阵H的稀疏结构极不对称,在细粒度并行算法中按元素个数平均来分布矩阵H,实现了数据分配平衡,算例表明能够获得更高的加速比。对粗、细粒度并行算法的效率和适用范围等进行了深入探讨和对比,对影响其加速比的多种因素进行了详细分析和研究。给出的算例表明,粗、细粒度并行算法都具有很好的加速比和可扩展性。

(5)针对商业性有限元软件由于政治、技术上的原因无法在国产超级计算机上安装的问题,提出了基于系统集成思想的并行计算软件体系结构,即把占总时间绝对优势的系统方程组求解并行化,其余模块仍由串行有限元软件来完成,并实现并行计算程序和串行有限元软件的无缝集成;从而为超级计算机应用软件的开发探索了一条新的途径,拓宽了超级计算机的应用范围。基于MSC/Patran和Nastran实现了一个实例系统,并行计算程序实现了本文给出的并行算法和并行中心差分法,基于MPI,采用Fortran语言开发,给出了实现流程。该集成系统的实现,验证了基于系统集成思想的并行计算软件体系结构,也使算法应用更加方便。

(6)将精细积分并行程序应用于一个工程实例,应用开发出的软件对上海光源中心的建设场地进行微振动响应分析。为了方便验证,采用Nastran和中心差分法并行程序做同样的分析计算,并对三种计算结果进行了比较分析,对精细积分并行程序和中心差分法并行程序的求解时间做了比较,证明了精细积分并行程序的正确性、可靠性和有效性。

6.期刊论文翁楚良.陆鑫达网络并行计算在轨道结构动力分析中的应用-上海交通大学学报2004,38(4)

针对车辆-轨道结构动力分析问题,提出了一种基于网络并行计算环境的并行求解方法.考虑车辆和轨道结构特征,建立车辆-轨道结构动力分析模型,推求动力响应微分方程.针对推导的微分方程,改进串行求解算法,提出一种宏流水并行算法.针对算法的性质分析了该算法的适用范围,并从理论上分析了最佳节点机个数和最大加速比.考虑车辆通过轨道不平顺情况,实现了求解轨道结构动力响应的宏流水并行程序.分别在工作站和个人计算机组成的网络并行环境中,测试了提出的宏流水算法性能.实验结果表明,宏流水并行算法可以获得良好的加速比.

7.会议论文茹忠亮.叶亚齐.李艳.胡文亮PC机群环境下结构动力响应的并行算法研究2006

本文针对结构动力分析计算量大、耗时长的特点,在精细时程积分算法的基础上,设计了主-从结构动力响应的并行精细积分算法,采用C++语言开发了基于PC机群的并行计算程序,对4650个自由度,50个时间步的结构动力响应进行了并行计算,采用6台计算机计算并行加速比达到5.32,验证了程序的可靠性和高效性.

8.学位论文李慧面向服务的有限元并行计算网格系统设计2008

随着有限元结构分析的不断复杂,传统的有限元串行计算方法因运算速度的限制,己远远不能满足工程应用的需求。网格技术和并行计算方法的飞速发展,使得这一问题得到很好的解决。利用网格计算的原理,在有限元计算中采用并行处理技术,充分利用网络中每一台计算机进行协同计算,可以大大提高有限元的计算速度。面向服务的网格计算在有限元并行计算中的应用是一项新兴的理论和实践研究,在计算力学领域具有重要的应用价值。. 本文主要研究面向服务的有限元并行计算网格系统的原理与实现方法。该系统利用面向服务架构(Service Oriented Architecture,SOA)和Web Services技术,实现了有限元的并行计算。用户通过Web门户站点,进行计算任务的提交和有限元计算参数的配置。网格计算主节点接受计算任务后,并行地调用有限元程序进行计算,最后把运算结果返回给客户端或通过JDBC接口保存到后台数据库中。

本文首先对有限元并行计算和网格计算作了简要阐述,然后分别介绍了有限元静力分析中的EBE并行算法和动力分析中的Lanczos并行算法。接着介绍了实现有限元并行计算网格系统所需的运行环境和开发环境的配置方法,并根据系统所要实现的功能,提出了一种面向服务的网格计算系统的总体框架。本文选用Java多线程异步调用策略,使用J2EE平台和JBuilder开发工具对系统进行了详细设计,最后通过一个具体的有限元计算实例来说明系统功能的实现,包括详细的WebServices开发过程和部署方法,并对计算结果作了简要的分析和评价。结果表明,本系统可以较好地实现有限元的并行计算

,提高有限元计算的效率。

9.会议论文邹经湘.黄文虎结构动力分析的并行计算1994

10.学位论文黄海燕船体结构多目标与多学科优化设计研究2009

船体结构设计优化是一个涉及多学科且各学科高度关联、相互影响的复杂工程,然而目前的船体结构优化基本上是单学科优化设计模式。论文以船体艉部结构为研究对象,对设计变量选择、多目标优化、多学科优化和计算环境等关键技术进行了研究。主要研究工作如下:

(1)对多目标优化、多学科优化理论的研究进行了综合评述。

(2)建立了船体艉部结构有限元模型。探讨了主模态及动力响应值的提取等动力分析过程中的关键技术。并在满载和压载工况下,对模型进行了实特征值、有阻尼瞬态响应计算与分析。

(3)基于灵敏度分析,提出了多学科设计环境下设计变量的选择方法。研究了静、动力响应灵敏度的计算方法,并计算了质量、应力、位移、固有频率、速度和加速度对设计变量的灵敏度系数。

(4)基于工艺可行性分析,建立了船体结构动力学优化的通用模型,并提出了相应的设计流程。在多种工况下,对船体艉部结构进行了动力特性和动力响应优化分析。

(5)基于精英策略的非支配排序遗传算法,建立了用于求解工程结构多目标优化问题的计算模型,并提出了相应的设计流程。

(6)对协同优化算法进行了改进,建立了用于求解工程结构静、动态多目标优化问题的多目标协同优化算法,并提出模块组合式的多目标协同优化架构。

(7)使用多个算例对多目标优化算法和多目标协同优化算法进行了验证分析。然后在压载工况下,对船体艉部结构进行了多目标优化设计,并进行了满载工况下强度校核。

(8)阐述了并行计算的关键技术,搭建了一个简单的高性能网络计算机群,并给出了相应的硬件配置和软件环境。

(9)针对舰船结构设计特点,搭建了基于网络并行计算的舰船多学科协同设计优化系统,并详细描述了系统设计的要求、原则、网络结构、共享性、系统架构、模块功能和工作机制。

本文链接:https://www.doczj.com/doc/1e6202765.html,/Periodical_dzxk200906008.aspx

授权使用:中国传媒大学(中国传媒大学),授权号:95a15fc7-a9d7-48ec-82ce-9e7100e963e1

下载时间:2011年1月20日

相关主题
文本预览
相关文档 最新文档