IBM磁带机备份故障
- 格式:doc
- 大小:11.00 KB
- 文档页数:1
技术文档模板版本说明目录版本说明 (2)1 背景描述 (4)2磁带机故障问题处理常见方法与操作步骤 (4)2.1二级标题 (4)2.2二级标题 (4)2.3二级标题 ........................................................................................................................ 错误!未定义书签。
1 背景描述黑龙江联通业务支撑部HP 小型机维保项目,因该项目之重要,而且业务都是计费等重要的核心业务,所以备份问题尤为重要了。
然而现场环境是很多磁带机备份根系统是报各式各样的错误,从而导致无法系统备份,这样就给系统的稳定带来隐患。
为此针对各种磁带机备份问题,进行实际解决与处理方法的总结,与大家一同分享。
2磁带机常见问题与解决方法2.1磁带机常见问题1、磁带机黄色告警灯亮2、磁带机自动吐带3、磁带机SCSI ID跳错4、磁带机驱动丢失或驱动不正确5、因出现僵死的备份进程,磁带机无法读带从而无法备份6、/var空间不足,引起磁带机无法备份7、 ignite –ux软件版本较旧,而导致备份的磁带信息不完整8、备份make命令因path环境变量丢失,而引起磁带机备份时报无此命令,无法备份2.2 磁带机常见问题检查步骤1、告警时或者无法备份时,首先检查线缆和终结器是否故障,磁带机是否告警灯亮2、磁带是否是DDS3或者磁带是否与磁带机兼容3、检查磁带机箱5300指示灯是否正常,请参考5300手册4、查看磁带机后面连接线缆的旁边的小按钮,上面显示的SCSI ID 是否是7。
如果是需要调整过来。
5登录系统,ioscan –fnCtape 是否是NO_HW状态;同时ioscan查看是否是HP型号的磁带机,如果不是,是外挂的,需查看是否是光纤连接的磁带机,如果是,那么光纤的磁带机是无法用make_tape_revovery备份的。
磁带库典型故障处理案例分析在STK L180磁带库上爬过的坑故事发生在几年前,在更换机房的一组光纤交换机的实施过程中,原光纤交换机因使用超限,决定将其更换为博科DS5100。
交换机下联设备有存储、小型机、磁带库。
光纤交换机使用端口zone,并反复确认了zone配置信息。
切换当天,按照计划顺利实施。
验证小型机和存储链路均正常。
但业务验证时发现,NBU备份软件中,手动执行备份任务,有部分失败。
故障现象:查看NBU备份软件中日志,关于执行备份任务的报错,发现在STK L180磁带库上执行的备份任务均失败。
检查过程:首先,查看光纤链路标签,确认实施前后一致。
接着,确认DS5100光纤交换机与L180磁带库的端口和ZONE划分也配置正确。
然后,详细分析了交换机log信息,发现连接磁带机光纤卡的两个端口,只有FX流,没有RX数据流。
根据,以上故障现象及检查方式,基本上先排除光纤交换机和光纤链路的问题。
问题聚焦在STK L180磁带库上。
因平时很少出现问题,面对这台老古董,确实无从下手。
L180磁带库有3块光纤卡,其中一块为机械臂的光纤卡,另两块为磁带机的光纤卡。
重新手动发起备份任务,观察老古董的工作,发现其机械臂可将磁带抓入磁带机,但两个磁带机均无法进行正常读写。
备份任务无法正常执行。
初步怀疑是两台磁带机的光纤卡有问题,可是磁带机上的光纤卡上连指示灯都没有,继续崩溃中。
硬着头皮在L180磁带机的面板中翻看信息,状态显示都正常无报错信息。
继续仔细检查,发现两个磁带机的光纤卡速率speed仅为1 GBIT。
显示信息:speed : 1GBIT1GBIT?会不会是跟新更换光纤交换机的端口速率不匹配呢?可是怎么修改磁带库的光纤卡速率呢?在面板上把所有选项翻个遍,根本没有更改端口速率的选项。
心想,先不在这台老古董上浪费时间吧,去光纤交换机上改下吧。
紧接着登录到DS5100光纤交换机上,查看磁带机连接的端口模式为自适应,会不会是无法自适应1GBIT呢?决定将光纤交换机的该端口速率强制为1GBIT,修改后,重新执行备份任务,老古董的机械臂将磁带抓入磁带机中,然后就没有声音了。
备份磁带库 故障排除手册Content Introduction (3)Platform Problems (3)Host Lock Out (3)Error Recovery (4)Error Recovery Procedures (5)Fault Symptom Codes (5)IntroductionThis manual describes the error messages and descriptions that may be displayed when there is a possible malfunction, including:Platform ProblemsHost Lock OutError RecoveryFault Symptom CodesPlatform ProblemsAn incorrect installation or configuration can cause platform problems. In this case, the library appears to be operating normally, but no data can be interchanged. You also might or might not get an error code on the touch screen Graphical User Interface (GUI). To identify an error caused by this type of problem, check your installation and configuration setup. See Chapter 2, “Installation and Setup,” for information on how to correctly install and configure the library.General drive errors usually result from a miscommunication between the library and the tape drive or a mechanical malfunction within the library. Both platform problems and general drive errors display an error message and a Fault Symptom Code (FSC) on the touchscreen GUI. Use an FSC to report errors to your service provider, or in some cases, to determine a recovery procedure.Host Lock OutAccess to the library’s media and magazines can be locked by the backup software running on the host (for example, Veritas’s Netbackup). The library provides no touch screen GUI override for this condition. Exiting the host software also locks media access.Tip: If you are unable to access the library’s magazine or media, check to see if the host backup software has blocked access to the NEO library.Error RecoveryFigure 9-1 outlines the recommended steps for error recovery. You should follow this chart in all cases.Error Recovery Procedures (ERPs) are listed in detail in Table 1-1.Fault symptom codes are listed in Table 1-2 along with their related ERPs.Troubleshooting and Error RecoveryFigure 1: Troubleshooting Flow ChartError Recovery ProceduresTable 1-1 lists ERPs for errors reported on the touch screen GUI of the library. This list includes only those procedures that can be safely performed by an end user.Table 1-1: Error Recovery ProceduresFault Symptom CodesFault symptom codes (FSCs) that appear on the touch screen GUI are described in the tables below. A descriptive message and instructions for clearing the fault accompany each FSC. If a fault persists, look up the FSC in Table 1-2 to determine the error recovery procedure or to report it to your service provider.Table 1-2: Fault Symptom Codes。
磁带机常见故障分析磁带机常见故障分析2010-08-01 22:29磁带机常见故障磁带故障最常见的原因答:正常的磨损可以导致磁带损坏,如磁带读写数据时与读/写磁头表面长时间地一遍一遍地摩擦。
备份管理员操作磁带时,磁带可能被丢来丢去,一层一层地码放在金属盒子里面,或者受到振动导致磁带盒里脆弱的部件损坏。
也有环境问题导致的磁带损坏。
高温或者低温,湿度,灰尘都可以导致磁带故障。
当然也有磁带机里磁带旋转时的转动传送的问题。
问:除了磁带故障外,关于磁带操作我们还需要注意哪些问题?答:使用备份监视软件监视磁带盒磁带机,这样你就可以知道磁带和磁带机的质量和性能是否已经开始变差。
这样你就可以进一步知道某一磁带上的数据是否需要迁移到新的磁带上去。
要记住两件最重要的事情:操作磁带要轻拿轻放;随时监视磁带。
这样你就可以明确地知道他们执行状态是否良好,是否出现了某些质量问题。
问:2-4GB的HP DDS数据磁带的使用寿命大约为多长?答:据惠普称,DDS系列数据磁带产品至少可承受2,000次读写或100次完全备份,也就是说,可以保证10年的存档寿命。
问:磁带应该有多长的使用寿命?答:如果你问的是磁带的记忆能力而不是存储介质的记忆能力,通常没法给出一个确切的答案(至少我个人意见如此)。
问题的答案依赖于你所处的环境。
首先,要看你究竟使用的是何种存储介质以及它们预定的总读写次数。
然后将这项数据和你一周内对它的读写次数进行比较。
记住,磁头每经过磁带一次,"读写次数"都要增加一次,包括倒带、快进等都要计算在内。
经常会有一些人会发现他们永远也不会使用到自己磁带的极限读写次数。
当然,如果你不均匀地使用你的磁带,而像擦皮鞋一样经常的读写某段磁带(很多人都是这样),那么事情就没法预料了。
这种做法会显著增加你的磁带中某一段的数据读写次数,从而大大降低磁带的寿命。
最简单的回答是:"把磁带一直用到它报废,然后将它扔到一边儿去!"如何防止磁带恢复失效曾经人们都开玩笑说:"备份永远不会出错,只有恢复才会失效。
IBM的存储备份解决方案在企业对信息的依赖性越来越强的今天,信息已经成为企业的生命源泉,有效地防范系统的突发事件,在尽可能低的运作成本和拥有成本的前提下,提高信息可靠性和可用性已经成为每个企业信息化工作急需要解决的内容和关键性问题。
企业内需要有统一的存储管理策略,建立安全、可靠、高效的备份和恢复管理体制,将日常数据的集中安全管理与灾难恢复系统的建设结合起来。
要实现以上的目标,有必要在数据管理上做到自动化备份,实现无忧化集中管理,并能实现高效、简单的灾难恢复功能。
IBM公司存储系统部成立于1956年(世界上第一块硬盘就是IBM公司生产的),IBM 公司的SSA磁盘系统和Magstar磁带系统更是业界领先的产品在国内外已经有非常成熟的应用和丰富的经验。
一、备份管理的模式当前由于历史和地理上的原因,数据通常是分布在不同的服务器之上。
随着服务器功能的越来越强大、数据量的急剧增加,越来越多的用户希望对企业内的数据进行集中管理。
这样的优势在于:便于用户分析、应用用户宝贵的数据资源;便于用户管理,可以减少存储管理的成本;便于数据的整合,为今后的服务器整合打下基础。
根据本期题目的需求,IBM公司建议用户采用服务器/客户端模式,在北京总公司建立一个备份服务器,而其他的所有设备都可以作为它的客户端。
二、备份存储的配置方案在北京总公司,配置一台Windows NT服务器,其上运行IBM的存储管理软件ADSM(ADSTAR分布式存储管理),连接一台IBM Magstar3570多用途高速磁带库(容量为140GB,非压缩),对本地用户通过LAN的方式直接访问,对上海、广州的用户通过专线来进行备份。
IBM的ADSM软件客户端支持各种流行平台,可以支持广泛的网络协议。
配置方案简图如图1所示。
图1三、主要存储设备简介IBM Magstar3570多用途磁带库,采用IBM先进的Magstar磁带技术,性能卓著、可靠性高。
其主要技术优势有:采用金属介质带,可靠性高;采用每秒7MB的传输速度的磁带驱动器,速度快;使用条码阅读器,配合每盘磁带上的条形码、自动管理软件,可以实现磁带库的自动化管理;独特的双轴卷带技术,性能较单轴磁带快一倍;独特的磁带不出磁带仓的设计(磁头伸入磁带去读数据),磁带寿命大提高(防灰尘、防机械磨损);伺服轨道的设计,大大地提高了数据访问的准确性;卷控制区(VCR)的设计,大大地提高了数据访问的速度;采用磁带RAID技术,大大地提高了可靠性;采用线性扫描技术,较螺旋扫描有更高的可靠性;采用磁阻磁头的先进技术。
IBM TSM 存储备份系统介质故障原因分析及解决办法存储备份系统报介质故障是TSM 运维过程中常见故障之一;这里不是指硬件设备故障(硬件故障必须报IBM 800 售后),这里的介质故障指的是TSM备份软件中定义的磁带库设备由于机房断电、SAN交换机ZONE信息更改等原因导致TSM配置信息与系统重新识别到的磁带库设备信息不一致,引起的故障。
一、案例:1、查看rman备份报错日志channel t2: starting piece 1 at 2015.08.24 01:00:19 RMAN-03009: failure of backup command on t1 channel at 0 8/24/2015 01:00:26ORA-19502: write error on file "oracle_full_DB_1537363504 _1279_1_759978018_20150824"", blockno 1 (blocksize=512)ORA-27030: skgfwrt: sbtwrite2 returned errorORA-19511: Error received from media manager layer, error text:ANS1312E (RC12) Server media mount not possible channel t1 disabled, job failed on it will be run on another ch annel released channel: t1 released channel: t2RMAN-00569: ========= ERROR MESSAGE STACK FOLLO WS ========RMAN-03009: failure of backup command on t2 channel at 0 8/24/2015 01:00:26ORA-19502: write error on file "oracle_full_SBDB_11373635 04_1280_1_759978018_20110824"", blockno 1 (blocksize=5 12)ORA-27030: skgfwrt: sbtwrite2 returned errorORA-19511: Error received from media manager layer, error text:ANS1312E (RC12) Server media mount not possible2、故障原因工程师描述:机房停电,重新启动磁带库和备份服务器后,备份不成功。
技术文档模板版本说明目录版本说明 (2)1 背景描述 (4)2磁带机故障问题处理常见方法与操作步骤 (4)2.1二级标题 (4)2.2二级标题 (4)2.3二级标题 ........................................................................................................................ 错误!未定义书签。
1 背景描述黑龙江联通业务支撑部HP 小型机维保项目,因该项目之重要,而且业务都是计费等重要的核心业务,所以备份问题尤为重要了。
然而现场环境是很多磁带机备份根系统是报各式各样的错误,从而导致无法系统备份,这样就给系统的稳定带来隐患。
为此针对各种磁带机备份问题,进行实际解决与处理方法的总结,与大家一同分享。
2磁带机常见问题与解决方法2.1磁带机常见问题1、磁带机黄色告警灯亮2、磁带机自动吐带3、磁带机SCSI ID跳错4、磁带机驱动丢失或驱动不正确5、因出现僵死的备份进程,磁带机无法读带从而无法备份6、/var空间不足,引起磁带机无法备份7、 ignite –ux软件版本较旧,而导致备份的磁带信息不完整8、备份make命令因path环境变量丢失,而引起磁带机备份时报无此命令,无法备份2.2 磁带机常见问题检查步骤1、告警时或者无法备份时,首先检查线缆和终结器是否故障,磁带机是否告警灯亮2、磁带是否是DDS3或者磁带是否与磁带机兼容3、检查磁带机箱5300指示灯是否正常,请参考5300手册4、查看磁带机后面连接线缆的旁边的小按钮,上面显示的SCSI ID 是否是7。
如果是需要调整过来。
5登录系统,ioscan –fnCtape 是否是NO_HW状态;同时ioscan查看是否是HP型号的磁带机,如果不是,是外挂的,需查看是否是光纤连接的磁带机,如果是,那么光纤的磁带机是无法用make_tape_revovery备份的。
IBM磁带机备份故障
前不久公司的LOTUS服务器突然备份不成功(连接磁带机为IBM ULT3580-TD1,备份软件为Symantec Backup Exec 10d),忙查看作业日志,在完成状态项中报错代码为:0xe00084ed-硬件出错;存储设备"IBM1"报告一个请求从介质中读取数据的错误.错误报告为:由于I/O设备错误,无法运行此请求.
看到这些就进行了简单的分析:磁带才用一年左右应该没问题,磁盘SCSI驱动没人动过也该没问题,那就只有是磁带机的问题了,因为这玩艺儿用了两年多并且天天都备份较长时间,于是动手更换另一台备份机过来(注:对于2003server可以关掉磁带机电源,直接拔出数据线并可以直接插入新的备份机但切勿将备份机电源打开插入,需数据线和电源线接好后再开开关,而2000server按同样方法拔出会蓝屏,接入后开磁带机开关也蓝屏,所以最好关机情况下插拔),测试备份成功于是那个高兴啊;可没过几天又一次备份失败,有点郁闷了,又一次的反复查看日志文件,最后发现屏幕右下角的一个SQL服务图标不见了(此图标不知道有什么用,虽然没用SQL),又重装BACKUP软件才算得以解决.对于文件服务器的备份最近也出了问题,情况和另一台差不多,屏幕右下角也没有备份的SQL服务图标,重装备份软件后出现了,备份一个文件试了试也正常,但一全选D盘中的文件就失败,报警提示快照其间出现故障,经过自习查看才发现把BACKUP软件本身的隐藏文件也打上勾了,怪不得说是其它程序占用了快照缓存文件,连装了open file也没用(至此两台处理完成(望能给遇到此问题的朋友提供一点帮助(。