高可用集群软件的技术简介
- 格式:ppt
- 大小:544.00 KB
- 文档页数:38
基于浪潮天梭K1系统的高可用解决方案浪潮集团2013.07目录1.方案背景 (1)1.1背景分析 (1)1.2基于浪潮天梭K1系统的高可用解决方案 (2)1.3解决方案拓扑图 (3)1.4推荐配置............................................................................... 错误!未定义书签。
2.方案功能特色 (5)2.1可靠性 (5)2.2可扩展性 (7)2.3易管理 (8)3.客户价值 (8)4.成功案例 (9)4.1中国建设银行 (9)4.3中国进出口银行 (11)5.浪潮天梭K1系统简介 (12)1.方案背景1.1背景分析全球经济一体化的今天,企业的管理和运营已经离不开信息系统的支撑,因此企业信息系统的业务连续也成为决定企业生死存亡的重要因素之一。
如果一些关键应用一旦发生服务器宕机或应用故障,将给企业带来巨大的经济损失,并且由于业务的不可用而影响到企业的信誉,致使客户对企业失去信任,所造成的危害是致命的。
可见,对那些需要保障信息安全和提供不间断的信息服务的企业而言,业务系统的容错性和不间断性显得尤为重要。
因此,在保障各种关键应用持续运营,甚至达到永续经营并实现业务的良性循环方面,高可用集群管理软件的巨大作用得到了广泛认可。
一个牢固稳定的数据库系统对业务的连续性显得尤为重要。
Ontrack(国际权威的数据恢复机构)的调查数据表明,造成数据库数据丢失的原因排在第一位的是硬件故障,其他依次为人为错误、软件损坏、计算机病毒和自然灾害。
图1数据表明,硬件故障是数据库最大的威胁,其次是人为错误和软件损坏。
这个比例占到90%,但这三方面的风险都可以通过前期的硬件选型,软件选型和人员培训来减小。
所以一个健壮的信息系统的必然条件:➢高可靠和高性能的硬件;➢易操作和高可用的软件。
1.2基于浪潮天梭K1系统的高可用解决方案浪潮在业务连续性方面已经积累了多年的销售经验和研发经验,具有很大的客户保有量和丰富的销售经验,同时在这个过程中不断创新、不断挑战积累了很多的研发心得,结合浪潮多年理解的客户需求,开发了“浪潮K-HA高可用集群软件”,在保障信息系统的业务连续性方面走在了前列。
中标麒麟高可用集群是基于中标麒麟服务器操作系统开发的智能高可用软件产品,通过应用中标麒麟高可用集群产品可以提升软硬件系统及应用运行的稳定性和可靠性,该产品经过多年的用户应用及市场验证,提供的抗错能力足以支持关键业务系统应用可靠性苛刻要求为政府、金融、电力、医疗、运输、制造业、等行业用户提供高效、至微的可靠服务。
中标麒麟高可用集群软件依托“系统可靠”——“数据可靠”——“应用可靠”三层可靠保护实现对业务系统的“智能、多层次可靠保护”:系统可靠:保护用户的操作系统及硬件设备,对故障操作系统及硬件设备进行智能、快速、便捷的恢复数据可靠:为用户共享数据提供一致性保护,当系统出现脑裂等极端故障的情况下,保证数据不被破坏。
应用可靠:为用户业务系统稳定、高效、持续的运行提供缜密可靠保护。
产品优势可视化一键式单点安装配置全图形化安装配置,方便用户完成高可用软件的部署。
易用的管理界面友好、直观、简易操作的图形管理界面,能够简单快速的完成通用资源保护配置。
智能的切换技术完善的保护机制及丰富的应用程序代理,能够使服务器的任意硬件或资源在出现故障时能及时自动完成切换操作。
高效的可用性任何一个节点出现故障,都可以在极短的时间内进行自动切换,当故障排除后,服务自动回迁,提供7 X 24小时永不停机的企业级应用可靠保障。
丰富的集群保护方式支持双机热备、双机互备、多机备份等多种运行保护方式,用以满足各种应用保护需求安全的数据可靠性监控共享数据资源,利用磁盘心跳技术和共享磁盘的锁机制,保证在极端情况下数据的一致性。
丰富的资源保护不仅可以对诸多国际知名应用软件进行高可用保护,还可以深入监控国产数据库、中间件软件,同时对各种硬件资源进行深入的故障检测。
极低的系统资源占用最低限度的系统资源占用,使得宝贵的软硬件资源可以充分投入到不断扩展的业务服务中多种硬件平台支持多种硬件平台的支持能够最大限度的满足用户对不同平台应用的需求,并且支持多种文件系统及主流存储设备,使其可以灵活的部署高可用系统。
软件开发知识:利用集群技术构建高可用性的系统随着互联网技术的不断发展,越来越多的企业和组织都在构建自己的高可用性系统,以保证业务的稳定性和数据的安全性。
其中的关键技术之一就是集群技术,通过多台服务器的联合工作,实现高可用性的系统构建。
本文将从以下四个方面深入阐述集群技术构建高可用性系统的要点和步骤。
首先,介绍集群技术的基本概念和原理。
其次,探讨如何利用集群实现系统的负载均衡和故障转移,同时介绍相关的软件和工具。
第三,详细解释如何选用适合的硬件设备和网络结构来搭建集群系统。
最后,对常见的集群系统故障进行分析,提出应对方法。
一、集群技术概述集群技术是一种将多台计算机联合起来构成一个高性能、高可用性、高扩展性的计算机系统的技术。
集群系统通常由多个相互独立的服务器节点组成,节点之间通过特定的网络通信协议进行数据的交换和共享。
在集群系统中,任何一个计算机节点都可以以工作节点的身份进入到整个集群体系中,从而实现任务的分配和执行。
而整个集群系统也可以通过编程、配置等方式实现负载均衡和故障转移,从而提高系统的可用性和稳定性。
二、集群技术实现高可用性系统的原理和步骤2.1负载均衡负载均衡是集群技术中最基本的概念之一。
在一个系统或服务中,用户的请求往往是随机分布的,不同请求的负载也会有所差异。
而通过负载均衡技术,可以将不同请求分配到不同计算机节点中进行处理,从而实现系统的负载均衡。
负载均衡可以分为硬件负载均衡和软件负载均衡两种类型。
硬件负载均衡一般采用专用网络交换机或路由器来实现,比如F5、NetScaler等;而软件负载均衡通常采用虚拟网络设备或软件来实现,比如Nginx、HAProxy等。
2.2故障转移故障转移指在集群系统中,如果某个节点出现了故障,如何及时将请求转发到其他节点,以保证系统的可用性和稳定性。
故障转移也可以分为硬件故障转移和软件故障转移两种类型。
硬件故障转移一般采用专用的硬件设备或热插拔设备来实现,比如磁盘阵列设备或高可用性存储系统。
⾼可⽤,多路冗余GFS2集群⽂件系统搭建详解⾼可⽤,多路冗余GFS2集群⽂件系统搭建详解2014.06标签:实验拓扑图:实验原理:实验⽬的:通过RHCS集群套件搭建GFS2集群⽂件系统,保证不同节点能够同时对GFS2集群⽂件系统进⾏读取和写⼊,其次通过multipath 实现node和FC,FC和Share Storage之间的多路冗余,最后实现存储的mirror复制达到⾼可⽤。
GFS2:全局⽂件系统第⼆版,GFS2是应⽤最⼴泛的集群⽂件系统。
它是由红帽公司开发出来的,允许所有集群节点并⾏访问。
元数据通常会保存在共享存储设备或复制存储设备的⼀个分区⾥或逻辑卷中。
实验环境:1 2 3 4 5 6 7 8[root@storage1 ~]# uname -r2.6.32-279.el6.x86_64[root@storage1 ~]# cat /etc/redhat-releaseRed Hat Enterprise Linux Server release 6.3 (Santiago) [root@storage1 ~]# /etc/rc.d/init.d/iptables status iptables: Firewall is not running.[root@storage1 ~]# getenforceDisabled实验步骤:1、前期准备⼯作0)、设置⼀台管理端()配置ssh 私钥、公钥,将公钥传递到所有节点上12 3 4 5 6 7 8 9 10 11 12 13 14[root@manager ~]# ssh-keygen \\⽣成公钥和私钥Generating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa):Enter passphrase (empty for no passphrase):……[root@manager ~]# for i in {1..6}; do ssh-copy-id -i 192.168.100.17$i; done \\将公钥传输到各节点/root/.ssh/⽬录下root@192.168.100.171's password:Now try logging into the machine, with "ssh '192.168.100.171'", and check in:.ssh/authorized_keysto make sure we haven't added extra keys that you weren't expecting..……[root@manager ~]# ssh node1 \\测试登录Last login: Sat Jun 8 17:58:51 2013 from 192.168.100.31[root@node1 ~]#1)、配置双⽹卡IP,所有节点参考拓扑图配置双⽹卡,并配置相应IP即可1 2 3 4 5[root@storage1 ~]# ifconfig eth0 | grep "inet addr" | awk -F[:" "]+ '{ print $4 }' 192.168.100.171[root@storage1 ~]# ifconfig eth1 | grep "inet addr" | awk -F[:" "]+ '{ print $4 }' 192.168.200.171……2)、配置hosts⽂件并同步到所有节点去(也可以配置DNS,不过DNS解析绝对不会有hosts解析快,其次DNS服务器出问题会直接导致节点和节点以及和存储直接不能够解析⽽崩溃)12 3 4 5 6 7 8 9[root@manager ~]# cat /etc/hosts127.0.0.1 localhost 192.168.100.102 manager 192.168.100.171 storage1 192.168.200.171 storage1 192.168.100.172 storage2 192.168.200.172 storage2 192.168.100.173 node1 192.168.200.173 node1 192.168.100.174 node2 9 10 11 12 13 14 15 16 17 18 19 20 21 22192.168.100.174 node2 192.168.200.174 node2 192.168.100.175 node3 192.168.200.175 node3 192.168.100.176 node4 192.168.200.176 node4 [root@manager ~]# for i in {1..6}; do scp /etc/hosts 192.168.100.17$i:/etc/ ; done hosts 100% 591 0.6KB/s00:00 hosts 100% 591 0.6KB/s00:00 hosts 100% 591 0.6KB/s00:00 hosts 100% 591 0.6KB/s00:00 hosts 100% 591 0.6KB/s00:00 hosts 100% 591 0.6KB/s00:003)、配置yum源(将所有节点光盘挂接到/media/cdrom,如果不⽅便,也可以做NFS,将镜像挂载到NFS⾥⾯,然后节点挂载到NFS共享⽬录中即可,注意:不同版本的系统,RHCS集群套件存放位置会有所不同,所以yum源的指向位置也会有所不同)1234 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38[root@manager ~]# cat /etc/yum.repos.d/rhel-gfs2.repo[rhel-cdrom]name=RHEL6U3-cdrombaseurl=file:///media/cdromenabled=1gpgcheck=0[rhel-cdrom-HighAvailability]name=RHEL6U3-HighAvailabilitybaseurl=file:///media/cdrom/HighAvailabilityenabled=1gpgcheck=0[rhel-cdrom-ResilientStorage]name=RHEL6U3-ResilientStoragebaseurl=file:///media/cdrom/ResilientStorageenabled=1gpgcheck=0[rhel-cdrom-LoadBalancer]name=RHEL6U3-LoadBalancerbaseurl=file:///media/cdrom/LoadBalancerenabled=1gpgcheck=0[rhel-cdrom-ScalableFileSystem]name=RHEL6U3-ScalableFileSystembaseurl=file:///media/cdrom/ScalableFileSystemenabled=1gpgcheck=0[root@manager ~]# for i in {1..6}; do scp /etc/yum.repos.d/rhel-gfs2.repo 192.168.100.17$i:/etc/yum.repos.d ; done rhel-gfs2.repo 100% 588 0.6KB/s00:00rhel-gfs2.repo 100% 588 0.6KB/s00:00rhel-gfs2.repo 100% 588 0.6KB/s00:00rhel-gfs2.repo 100% 588 0.6KB/s00:00rhel-gfs2.repo 100% 588 0.6KB/s00:00rhel-gfs2.repo 100% 588 0.6KB/s00:00[root@manager ~]# for i in {1..6}; do ssh 192.168.100.17$i "yum clean all && yum makecache"; doneLoaded plugins: product-id, security, subscription-managerUpdating certificate-based repositories.Unable to read consumer identity……4)、时间要同步,可以考虑配置NTP时间服务器,如果联⽹可以考虑同步互联⽹时间,当然也可以通过date命令设置相同时间。
Oracle三种高可用方案原理介绍--解决方案Oracle 三种高可用方案原理介绍一、概述Oracle因为是商用版本,所以高可用方案都已经非常成熟,主要有三种高可用方案,下边分别介绍一下。
1 RAC(Real Application Clusters)多个Oracle服务器组成一个共享的Cache,而这些oracle服务器共享一个基于网络的存储。
这个系统可以容忍单机/或是多机失败。
不过系统内部的多个节点需要高速网络互连,基本上也就是要全部东西放在在一个机房内,或者说一个数据中心内。
如果机房出故障,比如网络不通,那就坏了。
所以仅仅用RAC还是满足不了一般互联网公司的重要业务的需要,重要业务需要多机房来容忍单个机房的事故。
2 Data Guard.(最主要的功能是冗灾)Data Guard这个方案就适合多机房的。
某机房一个production 的数据库,另外其他机房部署standby的数据库。
Standby数据库分物理的和逻辑的。
物理的standby数据库主要用于production失败后做切换。
而逻辑的standby数据库则在平时可以分担production数据库的读负载。
3 MAAMAA(Maximum Availability Architecture)其实不是独立的第三种,而是前面两种的结合,来提供最高的可用性。
每个机房内部署RAC集群,多个机房间用Data Guard同步。
二、三种高可用方式工作原理1、Oracle 11G RACRAC环境与单实例最主要的区别是:.RAC的每个实例都有属于自己的SGA、后台进程。
由于数据文件、控制文件共享于所有实例,所以必须放在共享存储中。
..联机重做日志文件:只有一个实例可以写入,但是其他实例可以再回复和存档期间读取。
..归档日志:属于该实例,但在介质恢复期间,其他实例需要访问所需的归档日志。
..alter和trace日志:属于每个实例自己,其他实例不可读写。
HACMP工作原理介绍HACMP(High Availability Cluster Multiprocessing)是一种高可用性的集群解决方案,旨在提供在系统或硬件失败发生时,保证应用程序持续可用的能力。
它通过在多个计算节点上部署应用程序和数据,并实时监控系统健康状况,来实现高可用性。
1.集群:HACMP通过将多个计算节点连接在一起形成一个集群。
每个节点都是一台具备计算和存储能力的服务器,运行着相同的操作系统和应用程序。
集群中的节点通过专用网络互相通信,实现对整个集群的协调和控制。
2.资源:在HACMP中,应用程序和其相关的数据被称为资源。
资源可以是单个的进程、服务、文件系统等。
HACMP对资源的管理包括资源的分配、启动、停止和迁移等操作。
3.心跳检测:为了实时监控系统的健康状况,HACMP引入了心跳检测机制。
每个节点通过定期发送心跳信号来表示自己的正常运行,其他节点接收到心跳信号后确认,如果长时间未收到心跳信号则判断该节点可能出现故障。
4.预定义和自动化的故障切换:当一些节点出现故障时,HACMP会自动将该节点上的资源切换到其他节点上,以保证应用程序的持续可用性。
切换的过程中,HACMP会确保数据的一致性,并在尽可能短的时间内完成切换操作。
如果故障节点恢复正常,HACMP会自动将资源切换回原节点。
5.监控和故障恢复:HACMP提供了一套完善的监控和故障恢复机制。
它实时监控系统中的节点状态、资源状态和网络连接等信息,并根据预定义的策略执行相应的故障恢复动作。
当故障发生时,HACMP会立即做出响应,启动资源切换和恢复节点操作。
通过上述工作原理,HACMP能够实现高可用性的应用程序部署和运行。
它具有以下优点:1.高可用性:HACMP提供实时监控和故障恢复机制,能够及时检测和处理系统和软件故障,保证应用程序持续可用。
2.负载均衡:HACMP能够根据系统负载情况,将资源合理地分配到不同的节点上,实现负载均衡和性能优化。
高可用性(HA)集群通过一组计算机系统提供透明的冗余处理能力,从而实现不间断应用的目标。
高可用性(High Availability,简称HA)集群是共同为客户机提供网络资源的一组计算机系统。
其中每一台提供服务的计算机称为节点(Node)。
当一个节点不可用或者不能处理客户的请求时,该请求会及时转到另外的可用节点来处理,而这些对于客户端是透明的,客户不必关心要使用资源的具体位置,集群系统会自动完成。
HA集群系统硬件拓扑形式基于共享磁盘的HA集群系统通过共享盘柜实现集群中各节点的数据共享,包含主服务器、从服务器、存储阵列三种主要设备,以及设备间的心跳连接线。
而基于磁盘镜像的HA集群系统不包含存储阵列。
集群中两种服务器的本地硬盘通过数据镜像技术,实现集群中各节点之间的数据同步,从而实现集群的功能。
实际应用中,将节点1配置成“主服务器”,节点2配置成“从服务器”,主从服务器有各自的IP地址,通过HA集群软件控制,主从服务器有一个共同的虚拟IP地址,客户端仅需使用这个虚拟IP,而不需要分别使用主从IP地址。
这种措施是HA集群的首要技术保证,该技术确保集群服务的切换不会影响客户IP层的访问。
公网(Public Network)是应用系统实际提供服务的网络,私网(Private Network)是集群系统内部通过心跳线连接成的网络。
心跳线是HA集群系统中主从节点通信的物理通道,通过HA集群软件控制确保服务数据和状态同步。
不同HA集群软件对于心跳线的处理有各自的技巧,有的采用专用板卡和专用的连接线,有的采用串并口或USB口处理,有的采用TCP/IP网络处理,其可靠性和成本都有所不同。
近几年,基于TCP/IP 技术的心跳线因其成本低、性能优异而被广泛采用。
具体实现中主从服务器上至少各需配置两块网卡。
HA集群软件体系结构HA集群软件是架构在操作系统之上的程序,其主要由守护进程、应用程序代理、管理工具、开发脚本等四部分构成,应用服务系统是为客户服务的应用系统程序,比如MS SQL Server,Oracle,Sybase,DB2 UDB,Exchange,Lotus Notes等应用系统软件。
计算机集群技术概述摘要:集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。
本文就集群系统的定义、发展趋势、任务调度等问题进行了简要论述。
关键词:计算机;集群;任务调度;发展趋势1 集群的定义集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。
一个客户与集群相互作用时,集群像是一个独立的服务器。
集群配置是用于提高可用性和可缩放性。
2 采用集群的目的2.1 提高性能一些计算密集型应用,如:天气预报、核试验模拟等,需要计算机要有很强的运算处理能力,现有的技术,即使普通的大型机其计算也很难胜任。
这时,一般都使用计算机集群技术,集中几十台甚至上百台计算机的运算能力来满足要求。
提高处理性能一直是集群技术研究的一个重要目标之一。
2.2 降低成本通常一套较好的集群配置,其软硬件开销要超过100000美元。
但与价值上百万美元的专用超级计算机相比已属相当便宜。
在达到同样性能的条件下,采用计算机集群比采用同等运算能力的大型计算机具有更高的性价比。
2.3 提高可扩展性用户若想扩展系统能力,不得不购买更高性能的服务器,才能获得额外所需的CPU 和存储器。
如果采用集群技术,则只需要将新的服务器加入集群中即可,对于客户来看,服务无论从连续性还是性能上都几乎没有变化,好像系统在不知不觉中完成了升级。
2.4 增强可靠性集群技术使系统在故障发生时仍可以继续工作,将系统停运时间减到最小。
集群系统在提高系统的可靠性的同时,也大大减小了故障损失。
3 集群的分类3.1 科学集群科学集群是并行计算的基础。
通常,科学集群涉及为集群开发的并行应用程序,以解决复杂的科学问题。
科学集群对外就好像一个超级计算机,这种超级计算机内部由十至上万个独立处理器组成,并且在公共消息传递层上进行通信以运行并行应用程序。
如有帮助,欢迎支持。
ROSE HA高可用性软件介绍目录第一部分高可用性系统概述 (3)一、计算机系统的故障分类以及故障发生的概率分析 (3)二、高可用系统解决的问题 (3)三、高可用性的定义及与容错技术比较 (4)(一)高可用性与容错技术 (4)(二)高可用性系统的功能 (4)(三)故障恢复 (4)(四)服务延续性 (5)(五)实现高可用 (5)第二部分ROSE HA高可用性软件 (6)一、ROSE HA高可用性软件的工作模式 (6)(一)主从方式 (6)(二)双工方式 (6)二、ROSE HA高可用性软件的组成 (6)三、ROSE HA软件的运行过程 (7)第一部分高可用性系统概述一、计算机系统的故障分类以及故障发生的概率分析二、高可用系统解决的问题对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少的另一方面,计算机硬件与软件都不可避免地会发生故障,这些故障有可能给企业带来极大的损失,甚至整个服务的终止、网络的瘫痪。
对于那些任何停工都将产生严重的财产损失、名誉损失、甚至生命损失的关键性应用的企业或公司,系统的高可用性显得更为重要。
因此,必须有适当的措施来确保计算机系统提供不间断的服务,以维护系统的可用性。
信息系统的可用性通常在两种情况下会受到影响,一种是系统当机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级,需要安装新的硬件或软件而正常关机。
高可靠性软件必须为这两种情况提供不间断的系统服务。
三、高可用性的定义及与容错技术比较(一)高可用性与容错技术高可用性HA(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。
它与被认为是不间断操作的容错技术有所不同。
HA系统是目前企业防止核心计算机系统因故障停机的最有效手段。
容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测操作结果。