灾难恢复计划V1.0
- 格式:doc
- 大小:42.00 KB
- 文档页数:8
文件编号:文件版本:V1.0保密级别:□公司级■部门级□项目级□普通级全国社保理事会系统项目(灾备)-VMWARE实施方案北京市太极华青信息系统有限公司2015年6月目录第1章方案简介 (4)1.1灾备定义 (4)1.2国际标准 (4)1.3两项指标 (4)1.4灾备方案 (5)第2章项目实施规划 (6)2.1实施拓扑方案 (6)2.2 逻辑架构图 (6)2.3 IP地址以及主机名规划 (7)2.4 V S PHERE HA群集 (7)第3章项目实施阶段 (8)3.1 ESX I 硬件要求 (8)3.2 ESX I服务器安装 (9)3.3 M ICROSOFT SQL S ERVER 2008安装 (13)3.4 V C ENTER S INGLE S IGN O N软件安装 (20)3.5 V C ENTER W EB C LIENT (24)3.6 V C ENTER I NVENTORY S ERVICE安装 (28)3.7 V C ENTER S ERVER安装 (32)第4章软件设置 (44)4.1 创建数据中心 (44)4.2 添加ESX I主机到V C ERVER (46)4.3 创建V C ENTER HA并添加ESX I主机 (53)4.4 启动V M OTION (66)4.5 安装V C ENTER L ICENSE (69)4.6 设置网络 (73)4.7 VM WARE V S PHERE W EB C LIENT配置及使用 (80)4.8 识别存储并添加存储 (81)第1章方案简介1.1 灾备定义灾难备援,它是指利用科学的技术手段和方法,提前建立系统化的数据应急方式,以应对灾难的发生。
其内容包括数据备份和系统备份,业务连续规划、人员架构、通信保障、危机公关,灾难恢复规划、灾难恢复预案、业务恢复预案、紧急事件响应、第三方合作机构和供应链危机管理等等。
1.2 国际标准业务连续性管理体系(Business Continuity Management,简称:BCM)国际最新标准ISO 22301由国际标准化组织( ISO))于2012年5月15日全新发布。
灾难恢复计划灾难是指突发的、具有破坏性的自然或人为事件,如地震、洪水、火灾、恐怖袭击等,它们对人类的生命财产造成严重威胁。
在面对灾难时,一个有效的灾难恢复计划可以帮助组织或社区迅速恢复正常运转,减少损失,保障人民的生命安全和财产安全。
首先,建立一个完善的灾难恢复团队至关重要。
这个团队需要包括各个部门的专业人员,如应急管理、医疗救护、工程技术等。
他们需要定期进行演练,熟悉应对各种灾难的程序和流程,以便在灾难发生时能够迅速有效地展开行动。
其次,及时的灾难预警系统是不可或缺的。
通过现代科技手段,如气象雷达、地震监测仪等,可以提前预警灾难的来临,让人们有更多的时间做好准备。
同时,公众也需要接受相关的灾难知识教育,了解应对灾难的基本技能和知识,增强自救能力。
另外,备有充足的救援物资和设备也是灾难恢复计划的重要组成部分。
例如,储备足够的食品、饮用水、医疗用品等,以及应急灯具、通讯设备等,可以在灾难发生后迅速投入使用,帮助受灾群众渡过难关。
此外,建立健全的灾难信息管理系统也是必不可少的。
通过信息的收集、整合、分析和发布,可以及时准确地了解灾情,指导救援行动,避免信息滞后和混乱,提高救援效率。
最后,灾难恢复计划的实施需要得到政府、企业和社会各界的积极支持和参与。
政府需要加大对灾难防范和救援的投入,制定相关政策和法规,提高应急管理的能力和水平。
企业可以通过捐赠物资、提供技术支持等方式参与灾难救援工作。
而社会各界也可以通过志愿者服务、宣传教育等方式为灾难恢复做出贡献。
总之,一个完善的灾难恢复计划需要从多个方面进行考虑和准备,只有这样才能在灾难来临时做出迅速有效的应对,最大程度地减少损失,保障人民的生命安全和财产安全。
希望各个组织和社区都能认真制定和执行灾难恢复计划,为应对灾难做好充分的准备。
XXX系统运维服务项目服务连续性计划文件编号:当前版本:V1.0编制:审批:目录1. 目的 (1)2. 适用范围 (1)3. 连续性定义 (1)4. 职责 (1)5. 工作程序 (2)5.1计划的执行 (2)5.2应急设备的配备 (3)5.3人员后备计划 (3)5.4计划的培训 (3)服务连续性计划1.目的确保遭受灾难事故后能尽快恢复,以保障客户业务活动的持续性,保证服务可用性达到97%以上。
2.适用范围信息系统停止服务,服务器、网络中断等。
3.连续性定义明确的连续性要求:如恢复连续性的时间要求,设备网络中断时间不超过24小时。
4.职责为确保服务连续性,针对项目运维公司设立工程部,总经理担任总指挥,工程部负责人担任指挥组成员,工程部其他人员及项目现场人员担任实施小组成员。
技术支持人员及现场人员负责是连续性保障的主要人员,也是连续性测试的主要人员。
为连续性执行按照公司规范设立临时风险管理委员会。
基于DRP中己制定的灾难恢复组织(如上图所示),并根据本次演习定义的范围及场景,最终确定人员及职责。
5.工作程序5.1计划的执行5.1.1启动恢复计划5.1.2执行过程a)获得最新业务资料的备份,证实恢复操作的可行性和必要性;b)恢复业务资料c)系统部署传输与恢复;d)业务系统运行测试;e)投入使用。
5.1.3执行步骤f)由指挥组根据上报情况确定恢复的准备工作及所需时长;g)由运维经理根据业务需要确定灾难恢复的范围,报总指挥批准;h)通知人员按计划获得备份数据;i)现场工程师根据灾备恢复计划进行恢复。
5.1.4灾难恢复计划表5.2应急设备的配备5.2.1基本设备配备的要求:a)内网虚拟服务器多台。
b)备份一体机。
5.3人员后备计划在系统出现不能解决问题时,及时召开公司技术骨干进行商讨,或请求合作伙伴支援。
5.4计划的培训本计划必须对相关人员进行培训,计划重大修改、新进入部门的员工必须及时进行培训。
灾难恢复规划灾难恢复规划是指在灾害发生后,为了迅速恢复受灾地区的基础设施、社会经济和环境等方面的功能,制定一系列的恢复计划和措施。
灾难恢复规划的目标是最大限度地减少灾害对受灾地区造成的影响,促进受灾地区尽快恢复正常生活和经济活动。
本文将详细介绍灾难恢复规划的标准格式,包括灾害评估、恢复目标、恢复策略、行动计划等内容。
一、灾害评估灾害评估是灾难恢复规划的第一步,通过对灾害的类型、规模、影响范围、受灾程度等进行评估,为后续的恢复工作提供依据。
根据灾害评估的结果,可以确定恢复的优先顺序和重点领域。
在进行灾害评估时,需要收集相关的数据和信息,包括灾害发生的时间、地点、持续时间、受灾人口、经济损失等。
同时,还需评估灾害对基础设施、居民生活、环境等方面的影响程度,以及可能存在的风险和隐患。
二、恢复目标根据灾害评估的结果,制定灾难恢复的目标是十分重要的。
灾难恢复的目标应该具体、可行,并与受灾地区的实际情况相符。
恢复目标可以从以下几个方面考虑:1. 基础设施恢复:确保受灾地区的交通、供水、供电、通信等基础设施的正常运行,以便居民正常生活和经济活动的恢复。
2. 经济恢复:促进受灾地区的产业恢复和发展,提供就业机会,增加经济收入,提高居民的生活水平。
3. 社会恢复:重建社区设施,恢复社会服务,提供教育、医疗、安全等基本服务,帮助居民重建家园。
4. 环境恢复:采取措施修复受灾地区的生态环境,防止二次灾害的发生,保护自然资源和生态系统的可持续发展。
三、恢复策略制定恢复策略是实现灾难恢复目标的关键步骤。
恢复策略应该根据灾害评估的结果和恢复目标的要求来确定,同时考虑到受灾地区的实际情况和资源状况。
1. 风险管理:加强灾害防范和减灾措施,降低受灾风险,提高受灾地区的抗灾能力。
2. 重建规划:制定合理的重建规划,包括土地利用规划、建筑设计、基础设施规划等,确保重建的可持续发展。
3. 资金筹措:制定合理的资金筹措机制,包括政府资金、社会捐助、国际援助等,确保恢复工作的顺利进行。
IT系统灾难恢复计划及实施步骤;第1章灾难恢复计划概述 (4)1.1 灾难恢复计划的重要性 (4)1.2 灾难恢复计划的制定目标 (4)1.3 灾难恢复计划的适用范围 (5)第2章灾难类型与风险评估 (5)2.1 常见灾难类型 (5)2.1.1 自然灾害 (5)2.1.2 技术故障 (5)2.1.3 人为因素 (5)2.1.4 社会事件 (6)2.2 风险评估方法 (6)2.2.1 定性评估 (6)2.2.2 定量评估 (6)2.3 风险评估实施步骤 (6)2.3.1 确定评估目标 (6)2.3.2 收集资料 (6)2.3.3 识别风险因素 (6)2.3.4 分析风险 (6)2.3.5 评估风险 (6)2.3.6 制定风险应对措施 (6)2.3.7 形成风险评估报告 (6)第3章灾难恢复策略与原则 (7)3.1 灾难恢复策略选择 (7)3.1.1 完全备份策略:对整个IT系统进行定期备份,灾难发生时,恢复整个系统。
该策略适用于数据规模较小、业务恢复时间要求较低的企业。
(7)3.1.2 差分备份策略:在完全备份的基础上,仅备份自上次完全备份以来发生变化的数据。
该策略可以节省存储空间,缩短恢复时间,适用于数据量较大、业务恢复时间要求较高的企业。
(7)3.1.3 增量备份策略:仅备份自上次备份以来新增或修改的数据。
该策略在节省存储空间和备份时间方面具有优势,但恢复时间较长,适用于数据量较大、业务连续性要求较高的企业。
(7)3.1.4 混合备份策略:结合完全备份、差分备份和增量备份,根据数据的重要性和变化频率制定不同的备份策略。
该策略具有较高的灵活性和效率,适用于大型企业。
(7)3.2 灾难恢复原则 (7)3.2.1 最小化业务中断原则:在灾难发生时,尽可能减少业务中断时间,保证关键业务迅速恢复。
(7)3.2.2 数据一致性原则:在灾难恢复过程中,保证数据的完整性和一致性,避免数据丢失或错误。
灾难恢复计划
一、灾难的定义
灾难分为自然灾害和非自然灾害。
自然灾害是指由火灾、地震等引发的一系列灾害直接导致公司的业务中断、电力故障、网络故障等。
非自然灾害是指人为的造成的如服务器断电、软件错误、人为故意破坏、恶意代码、木马植入、恐怖袭击等。
二、灾难恢复项目小组的制定和职能
1.管理组:统筹规划,指挥各小组按照既定计划进行执行。
2.部门恢复组:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。
3.计算机恢复组:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。
4.损坏评估组:负责对公司损失的重要数据、财务进行总体评估。
并针对相应损失的财产进行汇总并结合拥有的保险进行申报。
5.安全组:负责灾难发生后的人员、数据、财务的安全进行保护。
并制定相应的安全策略。
6.设备支持组:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。
7、数据恢复组:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。
8、市场和客户关系组:负责对外进行信息发布、制定相应应急措施应对客户疑问等。
各小组共同职能:
a)负责计划的执行
b)与其它组之间进行信息交流,监督计划的测试和执行
c)所有或是某一个成员可能领导特定的组
d)协调恢复过程
e)评估灾难,执行恢复计划,联系组长
f)监控并记录恢复的过程
三、灾难恢复流程
(一)自然灾害引起的灾难恢复流程
由自然灾害引起的灾难往往影响较大,可能会直接导致一些基础设施的无法使用,甚至会对导致人员减少。
因此对于自然灾害引发的灾难恢复流程相对特殊且繁琐。
1.数据抢救
灾难发生时,需在保证人身安全的情况优先对公司的重要数据进行抢救,抢救的范围主要包括:记录公司重要信息的文件、资料,存储公司重要数据的磁带,存放重要数据的硬盘、服务器。
此过程需由安全组进行统筹指挥,按照既定的计划执行,各组成员、公司员工必须服从安全组的统一调度和指挥。
2.损坏评估及启动应预案
灾难发生后各小组需根据情况汇报损失情况给损坏评估组,
损坏评估组根据汇总信息进行消息告知披露。
披露损坏信息包括:
a)公司重要生产、监视测量、办公设备
b)拥有在可以执行计划之内的关键性功能的员工
c)保存公司重要数据的介质
d)网络、通讯设备
各小组人员根据披露的损坏信息情况进行应急预案启动,如选举临时领导、使用备份服务器、备份通讯设备进行替代等。
3.业务恢复计划
业务恢复计划需要多个小组支持与配合,总体可划分为以下几个阶段:
a)IT基础设施恢复阶段:
此阶段主要的目标是将对于保存数据的基础设施、业务系统所在的主机、公司网络架构进行恢复。
首先须根据损失评估小组给出的报告分析可继续利用的IT基础设施,如供电设施、交换机、服务器、防火墙等。
若有损坏不可用的设备,需及时同代理商进行沟通借用或新购相应设备。
此阶段由设备支持组执行。
b)系统恢复阶段:
系统恢复主要针对关键应用主机,如Rasd-server、IBM、Center-server、BJTCT。
为节约时间需同时针对各个服务器系统进行快速恢复。
此阶段由数据恢复组执行。
c)网络恢复阶段:
网络恢复阶段的主要针对以下几点进行:
●关键商业应用系统的内部局域网和网络设备的支持
●外部广域网和电信服务
●待恢复系统和终端用户(公司同事)间的通讯
此阶段由数据恢复组同设备支持组共同执行。
d)业务平台恢复阶段:
在此阶段的恢复工作主要围绕日常工作常用的业务平台进行,常用的业务平台主要为:Winmail、Change、Doors、Synergy、OA、ERP等。
平台恢复的工作分为两个部分:
●业务系统数据恢复
●业务系统重搭建
●业务系统数据导入
业务系统数据恢复:
数据恢复小组首先须对业务系统的数据进行恢复,需要寻找相应的恢复设备完成此操作,目前我们主要利用磁带机和可正常工作的主机进行数据恢复工作。
需要将抢救出的磁带和硬盘接连在对应设备上恢复出数据。
业务系统重搭建:
为提高业务恢复效率,数据恢复小组成员需分工协作,共同完成业务系统的重搭建工作,由于一些业务系统的特殊性,需尽快与相应平台的供应商接口人取得联系,并申请临时可用的加密狗、许可文件等。
各个平台负责人需对自己管理的平台在短时间
内进行重搭建。
业务系统数据导入:
数据恢复小组成员需根据导出的数据结合自己管理的业务平台进行数据导入,并测试可行性。
再导入成功并可使用后及时同个小组成员负责人进行通知。
(二)非自然灾害引起的灾难恢复流程
非自然灾害引起的灾难恢复通常破坏较小,但是风险程度仍不可忽视,如电力故障导致的关键业务系统无法运行同样会给我们的公司带来一定的影响。
但由于破坏程度的不同,我们将引入业务持续计划(BCP)这样一个概念。
业务持续计划是为了防止正常业务行为的中断而被建立的计划。
当面对由于人为造成的故障或灾难以及由此造成的财产损和正常业务不能正常使用时,BCP主要被设计用来保护关键业务步骤。
BCP是最小化对于业务的干扰效果和使业务能恢复正常运行的计划。
RTO (Recovery Time Object)恢复时间是指EIA部门同公司签订的故障响应恢复时间,如确保在1小时内排除故障,使业务系统重新恢复工作。
RPO (Recovery Point Objective)恢复点目标,该指标规定在灾难发生后,公司所能够容忍的数据丢失量,该指标由EIA部门同公司签订。
对于RTO和RPO目标的实现,需要人力、物力的支持,因此
对于高效,最小化的BCP指标,往往也会花费大量的财力资源。
在执行业务持续计划的同时,由于造成的灾难和破坏性并不严重,因此可直接进入业务平台恢复阶段。
一.日常备份检查
1.日常服务主机按时定期做备份,分为两类:
主机备份:主机备份应在每周,确认服务运行正常后,制定备份计划和类型,并指定备份时间应为网络最空闲时。
在自动执行计划后,应确认备份是否完整,是否有错误
数据备份:数据备份应做每日备份,确定需要备份的数据库,制定每日备份和备份类型。
每日,数据库管理人员应对前一日的备份,进行检查,确认备份是否成功完整。
2.日常备份检查
日常备份检查应由网络部主管人员不定期或定期指定检查,查看备份时间是否符合备份规定,备份文件是否完整,存放是否规整。
3.备份空间检查
日常由网络管理人员检查备份空间是否充足,如空间紧张,应提前把距离最远的备份文件,存放至指定存储介质中,网络部管理人员应对存储介质存放进行检查,查看存放空间是否达到防潮防磁,并对存储介质进行封存
灾难恢复制度:
1.灾难级别划分
A类:计算机软硬件故障
发生概率:对于企业,发生可能性最大。
由于设备长时间运行,升级硬件所造成。
状况有(服务停止,正常业务不能办理)B类:人为操作故障
发生概率:日常工作中员工对于本部门的资源进行更新或维护,由于不正当操纵或误操纵造成文件损坏或丢失。
状况有(个别部门文件丢失,使得部门正常办公受到阻碍)
C类:资源不足引起的计划性停机
发生概率:由于操纵系统软件或硬件资源不足所造成的系统;服务宕机,造成的数据丢失或损坏。
状况有(服务器无法正常提供服务,重启后无效,需要转移服务,升级维修服务器)
2.相对应级别的处臵方法
当发生时。
应先报告网络维护人员,由灾难鉴定小组进行灾难鉴定,确定灾难级别,上报灾难小组组长,并对灾难发生时间,解决方法,恢复时间进行记录。
2.1发生A类灾难时,灾难鉴定人员确定灾难级别后,上报灾难恢复组组长,确定恢复方案,排除硬件原因,在主机正常启动后,检查缺失的文件或不能正常启动的服务,上报灾难组组长,并准备备份文件,进行恢复。
进行恢复后,由恢复后检查人员检查主机是否恢复正常服务,文件是否完整且可以被正常访问,检查无误后。
上报灾难恢复小组组长,并对灾难恢复的过程进行记录。
2.2发生B类灾难时,灾难发现人应及时上报网络部及灾难恢复小组组长,明确丢失的文件,确定文件丢失原因,并对丢失原因和责任人进行记录。
由丢失文件部门提出书面“恢复文件申请”,由灾难鉴定确定丢失文件,在灾难恢复小组组长批准后,准备备份文件恢复。
恢复后,由丢失文件所在部门进行确认。
2.3当发生C类灾难,由灾难鉴定人员确定主机故障,并上报灾难恢复小组组长:
2.3.1确认为主机操纵系统故障或硬件资源不足所引起宕机时,先确认该主机是否为应用服务器(如是应用服务器,应先断开该主机的网络连接),如有需要,应及时转移服务,由其他服务器代为承接业务。
故障主机再进行维修。
2.3.2如确认系统不能正常运行,但通过短时间维护(不超过2小时)可以恢复正常,报请灾难恢复小组组长,并对原因进行说明。
在得到批准后,实行对主机的全面恢复(在断开主机网络连接后,回复到最近一次的正常备份状态)。
在恢复后由恢复检查人员对主机进行检查,确认主机确实恢复后,再接入网络,恢复后检查人员应在48小时内对恢复后的主机密切关注,确实恢复正常后,报告灾难恢复小组组长。
并对主机恢复情况留有详细记录,以备后续检查。