AFS在高能物理计算系统中的应用
- 格式:pdf
- 大小:443.39 KB
- 文档页数:6
第30卷第3期
2010年3月 核电子学与探测技术 Nuclear Electronics&Detection Technology V0L 30 No.3
Mar. 2010
AFS在高能物理计算系统中的应用
许 冬h。,闫晓飞 ,程耀东 ,陈 刚 ,于传松
(1.中国科学院高能物理研究所,北京100049;2.中国科学院研究生院,北京100049)
摘要:高能物理的科学计算是典型的数据密集型计算,作业对数据的依赖程度较高,数据调用非常 频繁。因此,提供高可用的数据共享能力、保持数据文件的安全性和一致性、保证数据访问的效率是高 能物理计算环境中必须解决的问题。论文将AFS分布式文件系统应用于高能物理计算系统中,不仅能 够提供较高安全水平的用户管理功能,而且能够提供跨网络、跨平台的文件共享功能,并有效地控制用 户文件副本。同时,科学的配置AFS的复制卷也提高了整个计算环境数据调用的效率。 关键词:集群;AFS;用户管理;共享;复制卷 中图分类号:TP391 文献标识码:A 文章编号:0258-0934(2010)03—0440—06
随着高能物理研究的高速发展和相关探测
技术的巨大进步,高能物理研究产生的数据量 越来越大,以中国科学院高能物理研究所(以下
简称高能所)的BES实验为例,在未来5年内,
将有近5PB的数据产生。为了分析海量的原
始数据,在高能物理研究领域普遍采用了集群 技术作为数据处理和数据分析的手段。近些年
来,随着大规模集群系统,甚至超级集群系统的 不断出现,集群管理难度越来越高,特别是在用
户的统一管理、数据安全管理、文件共享管理、
以及文件一致性等方面,大规模集群系统都面 临着严重的挑战。 本文介绍了高能所将AFSE 分布式文件
收稿日期:2010-02—03 基金项目:本项目由国家863计划项目 2006AA01AI20和中国科学院知识创新工程重大项 目KJCX1一Yw一17课题资助。 作者简介:许冬(1977一),男,中国科学院高能物理 研究所工程师,中国科学院研究生院硕士研究生,主 要研究方向:分布式文件系统,大型集群技术及海量 存储技术。
440 系统应用于集群计算系统的方案。该方案通过
利用AFS统一管理用户并提供用户目录,实现
更安全的用户管理和跨平台、跨网域的文件共 享。
1需求分析
把AFS分布式文件系统应用于高能物理
计算系统中,主要是基于如下因素:
1.1集群用户数量较多,要求提供统一的帐户 管理系统 集群系统拥有强大的计算资源,往往被大
量用户共享使用。但是随着用户量的不断增 加,用户管理的难度也越来越高,集群系统需要
将大量的用户实行集中管理。在高能物理计算
系统中,传统的以NIS或I DAP管理用户的模 式在大规模并发数据访问情况下,出现了严重
的性能瓶颈,急需要一种能够支持大规模并发
数据访问的用户集中管理模式。 1.2集群系统要求用户管理具备更高的安全
性 由于集群系统被用户共享使用,一旦某一
个用户的帐号出现问题,就可能给其他用户的
数据安全带来严重的威胁。然而在传统的集群 系统中,无论是NIS服务,还是LDAP服务,其
安全性都不尽如人意,由用户带来的诸如弱口 令、弱加密方式等安全问题越来越突出,恶意攻
击或入侵行为越来越成为集群系统面临的严重
问题。因此,集群系统要求有一种安全性更高 的用户管理模式,以提升整个集群系统的安全
性能。
1.3集群系统要求提供较高的数据共享能力
随着高能物理数据规模的扩展,数据分析
工作的压力越来越大,高能物理研究领域普遍 采用了分工合作的方式开展研究。这种分工合
作必须以强大的数据共享能力为基础。特别是
在高能物理计算中经常使用的函数库和分析程 序,由于直接决定分析结果的正确与否,其共享
就显得更加重要。但目前传统的集群系统一般
采用NFS网络文件系统共享存储资源,其数据 共享局限于局域网内部,且没有提供统一的名
字空间,用户在开发数据分析程序时,对函数库 和程序的调用就无法指定固定的路径,程序的
通用性不强,所以,高能物理计算的需求必然要 求采用一种共享能力更好的文件系统来替代
NFS网络文件系统。 1.4集群系统要求更高的数据安全性 用户在集群系统中一般采用共享存储资源
的方式工作,不同的用户可以访问其他用户数
据所在的存储分区,但是传统的共享文件系统 (如NFS等)对文件访问的控制是基于Linux 本地文件系统的控制模式,只能够将全体用户、
某个组和文件属主三种身份与读、写、可执行三 种操作行为联合起来,实现较为简单的访问控
制,控制粒度粗糙,总体安全性能较差。因此,
集群系统需要一种更精确的访问控制,以提升
数据的安全性。 综合上述的需求分析,本文将AFS文件系 统用于集群系统,利用AFS管理用户,提供共
享目录,从而有效地提高用户管理的安全性和
效率,满足集群系统对于数据共享、数据安全和 文件一致性的要求。
2 AFS简介
AFS (Andrew File System)是美国卡耐 基梅隆大学开发的一种分布式文件系统。它以
Cell为基本单位,每个Cell都由若干台AFS数 据库服务器、AFS文件服务器和AFS客户端 组成,拥有AFS所有的服务和组件,能够实现
AFS的全部功能。AFS通过统一规则的全局 名字空间将不同Cell虚拟化成一个庞大的全
局文件系统,用户可以在全球任意地方通过唯
一的逻辑路径访问某一个AFS目录,具有非常
优越的共享能力。
AFS提供了基于Kerberos的用户身份认 证机制和基于ACL(Access Control List)的访 问控制模式,不但在通讯、身份认证和信息保存
等方面全面采用了数据加密技术,而且将身份
认证与文件访问控制结合起来,能够实现更加 细腻的访问控制粒度,提供比传统文件系统更
高的安全性能。
AFS以卷为单位管理存储资源,卷可以存 在于任意的文件服务器上,每个用户可以拥有
多个卷,并通过mount操作挂装到AFS的逻 辑目录下,不但可以实现存储容量的无限扩展,
而且可以提供单一的访问路径,提升数据共享 的能力。
在提升数据访问效率方面,AFS一方面采
用客户端缓存机制,将远程文件缓存到本地后
再进行操作,另一方面还引入了复制卷的概念, 通过为用户卷(也可称为读写卷)克隆一个或多
个只读的复制卷,实现将大量集中的读请求分
配到多个复制卷上,大大提高了读数据的效率。 针对于缓存机制和多个复制卷可能带来的文件
一致性问题,AFS还引入了“callback”机制,保
证了文件的一致性。
3应用方案
通过上文中的技术背景介绍可以看出,
AFS具有共享能力突出,易扩展,使用方便,安 全性高等优点。因此,在综合考虑本文需求分
析中提到的各种问题之后,高能所计算中心将 AFS分布式文件系统应用于高能物理计算系
统中,不但使用户管理和数据访问更安全,而且 提供了强大的数据共享能力。
3.1总体结构 图l是AFS在高能物理计算系统中的应 用示意图。由图可知,高能物理计算系统主要
由AFS数据库服务器、AFS文件服务器、 Quattor[2]服务器、PBS服务器和集群节点(包
括登录节点和计算节点)组成。其中:
AFS数据库服务器主要用于运行各种
441 AFS服务进程,保存AFS的各种数据库等重
要信息。在功能上,它们既是AFS文件系统的
控制中心,又是计算集群的用户管理中心,负责 对AFS系统的管理控制和对计算集群用户的
管理验证;
AFS文件服务器主要用于管理用户的
HOME目录和需要共享的数据目录。它的部 署充分考虑了计算节点所在网络的位置因素, 普遍采用了靠近计算节点的部署方式,这种布
局有利于利用AFS的复制卷技术实现数据读
操作的负载均衡,有利于提高数据访问的效率。
AFS客户端主要安装在计算集群所有节 点(包括登录节点和计算节点)上,它主要负责
AFS服务器与用户之间的通信与交互,具体执
行身份验证和访问AFS文件等操作。
图1 AFS在高能物理计算系统中的应用示意图 在方案中还部署有一台Quattor服务器。 1.安全性更高 Quattor是欧洲粒子物理中心(CERN)开发的 在传统的计算集群中通常采用NIS服务
一种系统管理的工具集,它主要用于为大型集 或LDAP服务管理用户,但这些用户管理模式
群系统提供自动化的安装、配置、升级、管理等 普遍存在安全隐患[3],用户的帐号和密码等重
服务。在高能物理计算系统中,Quattor服务 要信息容易被窃取或被非法篡改[ 。而AFS
器主要用于分发配置文件和广播用户信息。将 采用基于Kerberos的用户管理系统,其采用了
用户验证分摊到各节点,能够有效地降低单点 更安全的加密通讯协议,而且将用户信息加密
故障造成的服务中断风险。 后保存在专用数据库中,安全性更高。 综合上述对主要组件功能的分析可以看 2.共享能力更强
出,高能物理计算系统的AFS应用方案主要需 AFS将多个存储设备虚拟成一个统一的
要实现两个目标: 名字空间,能够提供给透明的全局逻辑路径,用
1.使用AFS统一管理集群用户,使用户能 户通过这些路径可以在任意地方访问远程存储
够使用AFS帐号和密码同时获得计算集群、 设备里的文件,共享能力更好,有利于用户开发
AFS文件系统和Linux操作系统的访问控制 通用程序。
权限; 3.AFS能够与Linux操作系统整合
2.利用AFS管理用户HOME目录和共
享数据目录,提供更好的共享能力。
为了实现这两个目标,高能物理计算系统
中安装部署了完整的AFS文件系统,并在部署
方式、环境配置等方面做了大量的研究和开发
工作。下面本文将详细的阐述这两方面的应
用。 3.2基于AFS的用户管理系统
在高能物理计算系统中,采用AFS来管理
用户有如下三方面的优势:
442 AFS文件系统提供了通用的身份认证共
享函数库,它允许操作系统和应用程序调用其
共享库,因此,能够更方便地与Linux操作系统
整合,形成统一认证的用户管理系统。 因此,在高能物理计算系统的AFS方案
中,AFS数据库服务器除了提供AFS服务外,
还被作为计算集群的用户管理服务器,完成集
群用户的管理和认证功能。
3.2.1工作流程
在高能物理计算系统中,当有用户被添加