GPFS通用并行文件系统浅析
- 格式:doc
- 大小:29.00 KB
- 文档页数:2
GPFS文件系统分析内容本文从GPFS的特点和应用层面分析其性能提要正文GPFS文件系统分析什么是GPFS文件系统?GPFS(General Parallel File System)是IBM公司开发的高性能集群文件系统,从1998年开始首先应用于AIX集群,2001年后应用于Linux集群。
在集群的环境中,GPFS文件系统允许集群中所有的节点访问同一文件的数据,并提供统一的文件存储空间。
应用可以使用标准的UNIX文件系统接口访问文件的内容。
GPFS支持32位和64位的应用,经过测试的文件系统的大小为100TB。
GPFS可以动态的增加或减少文件系统的容量。
GPFS提供了标准的POSIX应用开发接口,支持缓存方式的I/O(buffered I/O)、同步I/O操作(文件打开时使用O_SYNC或O_DSYNC标示符)、核心级的异步I/O(kernel asynchronous I/O,通过使用异步I/O系统调用实现)和直接I/O(Direct I/O,没有缓存的I/O)。
直接I/O可以在文件级,使用O_DIRECT标识打开文件,也可以在文件系统级使用dio参数挂接文件系统。
直接I/O 的特点是执行I/O操作时忽略文件系统的缓存,这样可以节省处理器的消耗,避免数据从文件系统的缓存拷贝到应用的缓存。
GPFS并行文件系统区别于其他的集群文件系统的特点是,在多个AIX、Linux节点中,为应用提供并发的、高速的文件访问,提供突出的性能,尤其是大数据量的顺序操作,尽管典型的GPFS应用适用于多个节点,但对单个节点也能提供有益的性能。
GPFS文件系统适用于AIX和Linux节点的异构集群从GPFS版本2.2开始,允许集群中同时存在AIX和Linux的节点。
GPFS的AIX版本和GPFS的Linux版本基于同样的源代码,只是适应于不同的硬件环境和不同的操作系统环境。
GPFS使用共享硬盘的模式(Shared Disk Model)GPFS使用共享硬盘的方式,可以通过多种方式实现硬盘的共享:1)基于硬件的SAN结构,集群中的所有节点物理的连接到所有的存储2)使用单独的软件驱动VSD(Virtual Shared Disk),对集群节点体统虚拟的共享硬盘,通过VSD 调度I/O操作3)使用NSD(Network Shared Disk),是由GPFS本身提供的,通过NSD调度I/O操作在VSD或NSD的环境中使用GPFS,为增强GPFS的性能,建议存储和节点之间通过高速的通道互连,增加数据的带宽。
IBM GPFS文件系统安装与配置目录1概述 (4)1.1IBM GPFS功能介绍 (4)1.2GPFS体系架构介绍 (2)1.3GPFS的优势 (5)2GPFS安装配置步骤 (6)2.1GPFS安装准备 (6)2.2GPFS的安装软件 (6)2.3配置GPFS集群 (6)1概述1.1IBM GPFS功能介绍GPFS (General Parallel File System) 是IBM 公司第一个共享文件系统,起源于IBM SP 系统上使用的虚拟共享磁盘技术( VSD )。
作为这项技术的核心,GPFS 是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统。
而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现。
GPFS 允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上。
它提供了许多标准的UNIX 文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。
GPFS 也支持UNIX 文件系统的工具,即:用户可以像使用普通文件系统一样使用基于GPFS 的文件系统,唯一不同的在于管理GPFS 文件系统的命令。
GPFS 提供的文件系统操作服务可以支持并行应用和串行应用,它允许任何节点(这些节点属于同一个节点组)上的并行应用同时访问同一个文件或者不同的文件。
1.2GPFS体系架构介绍GPFS 文件系统基本上由三层架构组成:磁盘,网络共享磁盘(NSD),GPFS 文件设备,如下图所示。
•磁盘GPFS 文件系统最底层的是物理磁盘设备。
原则上可以采用系统上任何块设备,包括磁盘,磁盘分区,逻辑卷。
从物理连接上来看,GPFS 支持使用所有方式连接的磁盘。
包括本地IDE 磁盘,本地SCSI 磁盘,光纤SAN 磁盘,iSCSI 磁盘,等等。
•网络共享磁盘(NSD: network share disk)NSD 是由磁盘映射出来的虚拟设备,NSD 与磁盘是一一对应的关系。
基于软件架构的双活数据中心建设方案分析目录基于软件架构的双活数据中心建设方案分析 (1)第一部分:GPFS (3)一、GPFS并行文件系统 (3)二、基于GPFS技术的应用跨中心双活架构与容灾 (5)第二部分:并行Oracle、并行DB2 (10)一、并行DB (10)二、Oracle RAC (11)三、DB2 PureScale (16)第三部分:整体架构 (23)第四部分:技术难点解决、实施建议 (28)本文来自社区专家分享文章及交流整理,是目前相对全面的基于软件架构的双活数据中心建设方案的比较及分析。
内容包括:GPFS并行文件系统、GPFS的跨中心容灾与双活架构、并行Oracle架构、跨中心并行Oracle架构、并行DB2 PureScale架构和GDPC等,以及常见的软件架构的双活数据中心建设架构之比较分析。
并附针对相关内容的具体难点问题解答及实施建议。
第一部分:GPFS一、GPFS并行文件系统说起GPFS,大家已经比较了解了,这里再次不厌其烦地再介绍一遍---GPFS (General Parallel File System)是 IBM 公司第一个共享文件系统,它是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统。
GPFS 提供的文件系统操作服务可以支持并行应用和串行应用,它允许任何节点上的并行应用同时访问同一个文件或者不同的文件,提供统一命名接口。
既然是并行文件系统,GPFS相对于单一节点和单一文件系统它有以下几个特点:1.文件系统的并发读写:多个节点的同一文件系统,同时受理I/O读写请求,提升文件系统读写的并发性,多个节点均为ACTIVE。
2.文件系统的高可靠性:文件系统的数据可通过日志或复制的方式存在多个副本,并且由于多个节点和多个磁盘的多活特性,可容忍故障节点数或磁盘数提升。
3.文件系统的高性能:通过将文件分布在多个节点和磁盘上,使得文件系统的读写操作分布到多个磁盘上和多个节点上,GPFS可以超越单一节点和单一文件系统的性能极限。
GPFS通用并行文件系统之CentOS上部署GPFS集群GPFS文件系统能够横跨在所有主机上,分布在所有磁盘上,条带化读写,高性能。
信令管理机制,并发性好。
可配置failgroup组,可用性高。
下面是GPFS集群的部署过程......1.环境准备:yum install -y compat-libstdc++-33 rpm-build kernel-headers kernel-devel imake gcc-c++ libstdc++ RedHat-lsb2.GPFS安装:多台服务器都要安装rpm -ivh gpfs.base-3.4.0-0.x86_64.rpmrpm -ivh gpfs.docs-3.4.0-0.noarch.rpmrpm -ivh gpfs.gpl-3.4.0-0.noarch.rpmrpm -ivh gpfs.msg.en_us-3.4.0-0.noarch.rpm[root@Web02_a base]# rpm -qa|grep gpfsgpfs.msg.en_US-3.4.0-0gpfs.gpl-3.4.0-0gpfs.base-3.4.0-0gpfs.docs-3.4.0-03.GPFS升级多台服务器都要安装rpm -Uvhgpfs.base-3.4.0-21.x86_64.update.rpmrpm -Uvh gpfs.docs-3.4.0-21.noarch.rpmrpm -Uvh gpfs.gpl-3.4.0-21.noarch.rpmrpm -Uvh gpfs.msg.en_US-3.4.0-21.noarch.rpm[root@Web02_a update]# rpm -qa|grep gpfsgpfs.gpl-3.4.0-21gpfs.msg.en_US-3.4.0-21gpfs.base-3.4.0-21gpfs.docs-3.4.0-214.编译GPFS源码多台服务器都要安装[root@Web02_a update]# cd/usr/lpp/mmfs/src/[root@Web02_a src]# makeLINUX_DISTRIBUTION=REDHAT_AS_LINUX Autoconfig[root@Web02_a src]# make World[root@Web02_a src]# make InstallImages[root@Web02_a src]# make rpm #生成rpm包,生成路径会有提示[root@Web02_a src]# rpm -ivh/usr/src/redhat/RPMS/x86_64/gpfs.gplbin-2.6.18-308.el5-3.4.0-21.x86_64.rpm [root@Web02_a src]# rpm -qa|grep gpfsgpfs.gpl-3.4.0-21gpfs.msg.en_US-3.4.0-21gpfs.gplbin-2.6.18-308.el5-3.4.0-21gpfs.base-3.4.0-21gpfs.docs-3.4.0-215.配置主机的时间同步如果服务器之间时间不同步,部署GPFS集群时会失败[root@Web02_a src]# crontab -l#time sync by yangrong at 2014-1-24*/10 * * * * /usr/sbin/ntpdate >/dev/null 2>&1[root@Nagios update]# crontab -l#time sync by yangrong at 2014-1-24*/10 * * * * /usr/sbin/ntpdate >/dev/null 2>&16.配置ssh免密钥登陆注:也可以配置rsh免密钥,且gpfs默认是使用rsh密钥登陆远端主机[root@Web02_a src]# cd /root/.ssh/[root@Web02_a .ssh]# ssh-keygen -t rsa[root@Web02_a .ssh]# cp id_rsa.pubauthorized_keys[root@Web02_a .ssh]# ssh Web02_a #登陆自己测试[root@Web02_a .ssh]# cat /etc/hosts10.0.0.243 Nagios10.0.0.236 Web02_a[root@Web02_a .ssh]# scp -r /root/.sshroot@Nagios:/root #把密钥拷贝到其它主机[root@Web02_a .ssh]# ssh NagiosLast login: Fri Jan 24 13:59:19 2014 from192.168.2.53[root@Nagios ~]# exit[root@Nagios src]# ssh Web02_aWarning: Permanently added the RSA host keyfor IP address '10.0.0.236' to the list of known hosts.Last login: Fri Jan 24 15:03:44 2014 fromlocalhost.localdomain[root@Web02_a ~]# exit7.配置GPFS环境变量[root@Web02_a .ssh]# echo 'exportPATH=$PATH:/usr/lpp/mmfs/bin' >>/etc/profile [root@Web02_a .ssh]# source /etc/profile[root@Web02_a .ssh]# mmfsmmfsadm mmfsd mmfsfuncs.Linuxmmfsck mmfsenv mmfsmnthelpmmfsctl mmfsfuncs mmfsmount#接下来的操作只需要在一台服务器上操作即可。
GPFS简介引自:/post/11835/460335前言GPFS(General Parallel File System)是IBM公司推出的行业领先的并行分布式通用并行集群文件系统,GPFS从1993开始研发,1995年投入商用(最早投入使用在多媒体处理行业,所以我们现在看到GPFS的很多目录和命令为什么都有MM[multimedia]两个字母,就是根据这个背景延续下来的),其中经过了多次版本的改进和修订,到目前(2008),GPFS的当前版本为3.1.GPFS是一个共享的磁盘文件系统,集群内的所有节点(NODE)可以并行的访问所有共享磁盘,并通过分布式的令牌管理机制和条带化技术来管理和优化各个节点的访问。
GPFS的应用范围非常广泛,从多节点的文件共享服务到大型的高性能计算机群,都可以看到GPFS的优秀表现。
GPFS也应用在众多的企业应用系统中,比如高可用的解决方案:HACMP,ORACLE RAC,SAP的共享文件系统等,GPFS在这些应用里面都表现出了出色的性能和高可用性什么是GPFSGPFS(General Parallel File System)是通用并行文件系统的缩写。
GPFS是一种高性能的、共享磁盘的、分布式文件系统高性能:GPFS可以支持1个到上千个独立的计算机节点可以从单个节点管理整个文件支持AIX,LINUX以及混合节点环境共享磁盘:所有的磁盘可以被所有的节点同等的访问数据和元数据对节点的访问是相同的任何直连节点都可以对任何磁盘进行读写分布式:数据和元数据可以被任何一个节点来处理所有节点都不需要经由其他节点就可以直接处理数据和元数据消除了单一节点故障:GPFS在内部采用了分布式的token的管理,通过token manger Server的功能来统一的对数据访问进行授权,对数据的授权可以做到数据块一级。
可以保证多个节点对同一个文件进行修改。
GPFS集群的常见配置方案方案一:部分节点直接连接到SAN存储,而另外一部分节点并不直接连接到SAN存储,而是通过LAN的方式连接到集群中。
gpfs和beegfs -回复GPFS(通用并行文件系统)和BeeGFS(并行网络文件系统)都是高性能分布式文件系统,被广泛应用于需要大规模数据管理和并行计算的环境中。
本文将以这两个文件系统为主题,逐步探讨它们的特点、优劣势以及应用领域。
第一步:介绍GPFS和BeeGFS首先,我们来介绍GPFS。
GPFS是IBM开发的一种分布式文件系统,最初用于高性能计算环境。
它采用了并行I/O和可扩展的架构,可以在大规模集群中处理大规模数据。
GPFS具有高可靠性、高可用性和高性能的特点,适用于大数据分析、科学计算等领域。
接下来,我们介绍BeeGFS。
BeeGFS是由德国的ThinkParQ公司开发的一种并行网络文件系统。
它专注于提供高性能和高可用性的并行文件访问。
BeeGFS采用了分散元数据管理、多种缓存技术和I/O优化策略,可以提供非常高的并行读写性能。
BeeGFS被广泛应用于HPC(高性能计算)、大数据分析和媒体处理等领域。
第二步:比较GPFS和BeeGFS的特点接下来,我们比较一下GPFS和BeeGFS的特点。
首先,GPFS支持大规模集群环境,可以容纳成千上万台服务器。
它的架构设计非常成熟,拥有很多成功的应用案例。
与之相比,BeeGFS在大规模集群方面也具备优势,它的设计目标是在PB级数据规模下提供高性能。
其次,GPFS的优点之一是高可靠性和高可用性。
GPFS可以提供数据冗余和故障切换机制,在节点故障时保证文件系统的持续可用。
BeeGFS也具备高可用性的能力,它支持多种备份和冗余策略,确保数据的安全性和可靠性。
此外,GPFS和BeeGFS都具备高性能的特点。
GPFS的并行I/O设计能够充分利用集群节点的计算和存储能力,实现高吞吐量的文件读写操作。
BeeGFS采用了多种I/O优化策略,例如缓存预读取、数据本地化等,以提供高并发和低延迟的文件访问。
这些特点使得GPFS和BeeGFS在大规模数据处理和并行计算中都表现出色。
GPFS
通用并行文件系统(General Parallel File System ?C GPFS)将所有的物理资源(包括服务器和磁盘阵列)都视为虚拟文件系统的对象,允许使用者共享分布在多个节点和多个磁盘上的文件。
它允许并行的应用程序同时从GPFS 节点组(nodeset)中的任何节点访问相同或不同的文件(节点组nodeset 被定义为一组运行相同版本GPFS的节点)。
一个GPFS通用并行文件系统可以横跨在群集内的所有主机上,分布在所有磁盘上。
GPFS文件系统在读写文件时采用条带化技术,将数据分成条带并行写入到该GPFS下的所有NSD中。
在有高速数据通道的GPFS配置下,读写文件时可以通过所有主机的光纤通道访问所有的磁盘。
GPFS通用并行文件系统的设计目标是使数据分布在一个集群中的所有节点上,允许应用程序通过标准的UNIX文件系统接口来访问数据。
大多数的UNIX文件系统被设计在单一服务器环境下使用,在这一环境下, 增加文件服务器也不会提高特定的文件存取的性能。
GPFS通过将I/O分布在多个硬盘提高性能,通过日志和复制的方式提高数据的可靠性,通过增加节点和在节点之间由SP Switch互联提高系统的可扩展性。
通过将文件分布在多个节点和磁盘上,GPFS可以超越单一节点和单一文件系统的性能极限。
文件系统能够跨越多个节点和多组磁盘,这些磁盘可以是使用SSA 技术在HACMP 群集里面直接地连接到每个节点上进行物理共享,也可以是由IBM的VSD(Virtual Shared Disk)和SP Switch技术使经过软件进行共享。
GPFS的系统资源可以动态调整,可以在文件系统挂载情况下添加或者删除硬盘。
当处于相对空闲时,用户可以在已配置的硬盘上重新均衡文件系统以提高吞吐量。
可以在不重新启动GPFS服务情况下添加新节点。
GPFS通用并行文件系统还通过用户端的数据缓存,大的文件页的支持(16 kB- 1024 kB),文件预读和延迟写的功能等技术提高性能,其性能超过网络性文件系统(NFS),分布式文件系统(DFS)和日志文件系统(JFS)。
与这些文件系统不同,GPFS文件系统可以通过在群集或SP系统中增加节点的方式提高性能。
GPFS通用并行文件系统是一种日志文件系统,为不同节点建立各自独立的日志。
日志种记录Metadata的分布,一旦节点发生故障后,可以保证快速恢复数据。
GPFS fail-over功能通过规划,将数据分布到不同failure group内达到高可用性,减少单点故障的影响。
为了保证数据可用性,GPFS在多个failure group内为每个数据实例做备份,即使创建文件系统时没有要求复制,GPFS也会自动在不同的failure group内复制恢复日志。
除了已有的AIX管理文件系统的命令,GPFS还提供简化多节点管理的功能。
一个GPFS多节点命令能作用于集群中所有的节点,并且可以从群集中的任何节点上操作。
这些命令以现有的AIX文件系统命令为基础, 并进行了扩充。
GPFS通用并行文件系统支持X/Open 4.0的文件系统标准,大多数的AIX和UNIX操作系统的应用程序不需要修改,就可以访问GPFS文件系统上的数据。
这些特性使得GPFS文件系统可以替代其他的UNIX文件系统。