AIX系统宕机分析教程PPT!

格式：pptx
大小：1.63 MB
文档页数：61

下载文档原格式

aix硬件故障分析和排除

RS/6000小型机故障的基本定位方法一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么？不能做什么？.故障什么时候发生的？.有没有做平时不同的操作？.故障有没有规律？定时还是不定时？发生的频率有多高？.是一台机器出现故障还是多台机器故障？故障现象是否相同？.最近有没有做改动？如安装了新的硬件、软件，改变了系统的一些设臵。

二故障信息的收集1)收集故障信息对于判断、诊断故障原因，修复系统非常重要。

2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog，可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年）T（类型）: P 永久; T 临时; U 未知（永久性的错误应引起重视）C（分类）: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例：LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003）控制面板上的LED 代码.8 位代码，通常系统故障灯会同时亮起。

《aix系统应用基础》10 processes-PPT文档资料18页

Unit 10 Processes
© Copyright IBM Corporation 2019
Course materials may not be reproduced in whole or in part without the prior written permission of IBM.
$ ps -u team01
© Copyright IBM Corporation 2019
Login Process Environment
login:
AIX System PID=202 -ksh
login: john John's Password: xxxxxx
$_
Environment
program uid gid files PID
$_
-ksh $ ksh hello
ksh
script comCorporation 2019
(1) (2) (3)
Subshell
(1) (2) (3)
Invoking Shell Scripts (2 of 3)
$ cat hello
echo "Hello, John. Today is: $(date)" pwd ls $ chmod +x hello
© Copyright IBM Corporation 2019
What Is a Shell Script?
A shell script is a collection of commands stored in a text file
$ vi hello
echo "Hello, John. Today is: $(date)" pwd ls

多么痛的领悟：十三起惨痛宕机案例

多么痛的领悟：十三起惨痛宕机案例01AIX 下NTP 设置不当导致的多个集群宕机事情发生在一段时间之前，接到朋友电话，用户有三套oracle rac 集群运行在 aix 小机上，本地两套，同城机房两套，做完设备搬迁后的一天晚上，其中本地和同城的两套rac 突然就整个重启了，而且发生在同一时间点。

网络、小机、存储、数据库分属不同的维保厂商，这就开始了扯皮。

各家就开始从自己的方向自证无过错。

我去之前内心也比较倾向于 oracle 的网络心跳出了问题，crs 抢 vote disk 的时候触发了重启。

但由于是小机方的代表，仅从aix 层面做了排查，未发现明显原因。

对各主机宕机的时间做了一个梳理，去和oracle 的事件日志去比对。

暂时没查到什么东西。

宕机产生的dump 发到了IBM 原厂，IBM 后来出了个报告，根据dump 内容定位触发宕机的进程为cssd。

oracle dba 重点看了那个进程的日志，发现宕机时间前后，时间突然变更，提前了40多秒。

dba 确认，时间变更过多，cssd 进程会导致系统重启，怀疑和时间同步有关。

经检查，3套 aix 的 rac 集群使用了同一个 ntp server，但有一套没发生问题。

对比检查差异，发现没问题的那套主机集群使用xntpd 方式配置了时间同步。

出问题的主机则直接使用了ntpdate 命令做时间更新，并写入了 crontab 定期执行。

检查 /var/adm/cron/log 日志，发现定时任务的执行时间和 cssd 故障时间一致。

检查时间服务器，发现搬迁后，时间服务器的时间产生了较大偏差，xntpd 方式的时间同步在时间偏差大时不会去强制同步，ntpdate 命令的方式没有这个限制，会直接进行同步。

最终导致了 cssd 进程检测到过大时间偏差后触发了宕机。

经验分享：配置时间同步时，建议使用xntpd 服务的方式，不用直接在定时任务里写 ntpdate，因为 ntpdate 比较粗暴，发生故障时较大的时间偏差会导致应用出现问题，触发无法预知的后果。

电脑故障排除课件PPT

程序兼容性问题
检查软件与操作系统版本是否兼容，尝试以兼容模式运行程序或更新软件版本。
系统更新问题
检查系统更新是否安装成功，若有问题可尝试手动下载并安装缺失的更新。
应用软件故障排除
应用程序崩溃
检查应用程序的日志文件，找出崩溃原因，或联系软件供应商寻求支持。
数据损坏
使用数据恢复软件尝试恢复受损的文件，或联系专业数据恢复服务。
总结词
命令提示符是一种文本界面工具，可以用于执行各种命令来诊断和解决电脑故障。
详细描述
通过命令提示符，可以执行各种命令来检查系统状态、查看日志文件、修复文件和注册表等。通过这些命令，可以诊断和解决各种电脑故障，如系统崩溃、蓝屏死机等。
注意事项
使用命令提示符需要一定的技术知识，且操作不当可能导致系统崩溃或数据丢失。因此，建议在熟悉命令提示符的情况下使用。
主机故障排除
主机无法启动
检查电源线是否插好，检查各硬件是否正常工作，如内存、显卡
等。
主机发出异常声音
根据声音类型判断故障原因，如硬盘读写错误、内存错误等。
主机过热
清理散热器灰尘，确保通风良好。
键盘与鼠标故障排除
键盘按键失灵
检查按键是否卡住或损坏，清理键盘灰尘。
鼠标不灵敏
检查鼠标垫是否干净，清理鼠标底部灰尘。
04 电脑故障预防与日常维护
定期清理与维护
1 2
定期清理灰尘
保持电脑散热良好，避免因过热而导致的故障。
更新驱动程序
确保电脑硬件驱动程序最新，以获得最佳性能和兼容性。
3
硬盘检查
定期运行硬盘检查工具，确保硬盘数据完整。
使用可靠的软件来源
仅从官方网站或可信的软件分发平台下载软件。

AIX高级系统管理培训教材PPT课件

第45页/共310页
管理引导列表(bootlist)
第46页/共310页
管理引导列表(SMS)
第47页/共310页
管理引导列表(SMS)-按键
第48页/共310页
系统管理服务(SMS)
第49页/共310页
Service Processor和报错
第50页/共310页
复习
1.(对/错):要使用SMS的程序,必须启动了AIX
可激活它们并动态地分配给相应的分区使用热备w/CuOD: 用未获得许可的好CPU自动和动态地替换坏的CPU
第7页/共310页
高级虚拟化(APV)
第8页/共310页
高级虚拟化(APV)概念1
Advanced Power Virtulization: 支持虚拟I/O; 支持P5系统;
Micro-Partition(微分区): 微分区功能: 继承主机(Mainframe)的技术; 对CPU和I/O设备进行虚拟化,使之能够由多个区共享;
o可以删除committed的软件 o不能恢复到以前版本
如果安装不成功：
a)
Installp –C
b)
Smit maintain_software
o清理失败 o删除软件并重新安装
第34页/共310页
预定义设备(PdDv)
第35页/共310页
预定义属性(PdAt)
第36页/共310页
客户化设备(CuDv)
第9页/共310页
高级虚拟化(APV)概念2
Virtual I/O Server(VIOS): 需要安装专门VIOS系统软件; 支持共享以太网:
物理网卡分配给VIOS
通过在工作分区上定义虚拟以太卡来共享物理网卡. 支持虚拟SCSI服务器:

AIX系统管理培训教材精品资料课件

Type the number for the Cultural Convention (such as data, time, and money), language and keyboared for this system and press Enter, or type 4 and press Enter to create your own combination.
installation and press Enter. To cancel a choice, type the
corresponding number and press Enter. At least one bootable
disk must be selected. The current choice is indicated by >>>.
4. Create your own combination of Cultural Convention, Language and
Keyboards.
88 Help ?
99 Previous Menu
Choice [1]:
13
开始安装
Installing Base Operating System
Overwrites EVERYTHING on the disk selected for installation.
Warning: Only use this method if the disk is totally empty or there is nothing
on the disk you want to preserve.
3
安装方法和介质
•磁带 •CD-ROM •预安装（新系统订单中的选项） •网络安装管理器（NIM）

计算机系统故障的分析与处理课件

03
硬件故障处理方法
课程大纲
01 02 03
软件故障处理方法数据备份和恢复技术第四部分：案例分析与实践
课程大纲
分析实际计算机系统故障案例
模拟故障处理实践操作
02
计算机系统故障概述
故障定义与分类
故障定义
计算机系统故障是指计算机硬件、软件或网络等出现异常情况，导致系统无法正常运行。
故障分类
软件维护与优化
定期更新操作系统和软件
及时安装操作系统和软件的补丁和更新，以修复潜在的安全漏洞和性能问题。
清理不必要的软件和文件
定期清理计算机中不必要的软件和文件，释放硬盘空间，提高系统运行速度。
优化启动项和服务
减少不必要的启动项和服务，以加快计算机启动速度靠的防病毒软件并定期更新病毒库，以检测和清除计算机中的病毒、木马等恶意程序。
定期备份重要数据
为防止数据丢失，应定期备份重要数据，如文档、图片、视频等。
限制不必要的网络连接
避免不必要的网络连接，特别是未经安全保护的Wi-Fi连接，以降低安全风险。
感谢您的观看
THANKS
总结词
主板是计算机的核心部件，负责连接和协调各个硬件设备的工作。主板故障可能导致计算机无法启动或运行不稳定。
详细描述
主板故障通常表现为开机无反应、频繁死机、蓝屏等。可能的原因包括主板元件损坏、接口接触不良、BIOS设置错误等。处理方法包括检查接口是否松动、重置BIOS设置、更换损坏元件等。
内存故障
处理方法包括重新安装应用程序、更新应用程序、恢复数据等
03 。
病毒与恶意软件
01
病毒与恶意软件是计算机软件故障的常见原因之一，它们会破坏计算机系统、窃取个人信息、传播恶意软件等。

《aix系统应用基础》02 using the system21页PPT

2. Order:
$ mail newmail -f
$ mail -f newmail
$ team01 mail
$ mail team01
$ -u who
$ who -u
3. Multiple Options:
3. Multiple Options:
$ who -m-u
$ who -m -u
$ who -m u
Checking the date:
$ date Wed Nov 14 10:15:00 GMT 2019 $
Looking at a month:
$ cal 1 2019
Sun Mon Tue
56
7
12 13 14
19 20 21
26 27 28
January 2019
Wed Thu Fri
1
© Copyright IBM Corporation 2019
Logging In and Out
To Log in:
login: team01 team01's Password: (the password does not appear) $
To Log out:
$ <Ctrl-d> $ exit $ logout login:
Unit Objectives
After completing this unit, you should be able to: ● Log in and out of the system ● State the structure of AIX commands ● Execute basic AIX commands ● Use AIX commands to communicate with other users

《电脑死机故障排查》PPT课件

安装某些硬件或软件后死机
▪ 问题原因：安装硬件或软件工作不正常
▪ 解决方法：
▪
2〕只添加了新软件的情况下
▪
[1]恰当的软件升级.仅当新软件跟某个程序一同运行时才出
现问题,检查新软件和该程序的更高版本,一般情况下升级能解决问题
▪
[2]勿非法卸载软件.不要把软件安装所在的目录直接删掉，
如果直接删掉的话，注册表以及Windows目录中会有很多垃圾存在，
久而久之，系统也会变不稳定而引起死机
▪
[3]防止使用盗版软件.因为这些软件可能隐藏着病毒，一旦
执行，会自动修改你的系统，使系统在运行中出现死机。需使用杀毒
软件查杀病毒后卸载该软件,严重时需重新安装系统
电源管理问题导致死机
▪ 问题原因：
▪
电源管理节约能量和资源的方案产物之一,节省用电不
仅能有效地节省电费,而且还能延长硬件的寿命,可惜的是当
常见死机现象
碰计算机〔包括
是
键盘〕就会死机
任何踫触都会死机
否
计算机工作或执行某任务一段时间后死机
否最近安装了新硬
件或新软件
否检查过电源管理
设置嘛
否电源管理问题导致死机是来自工作一段时间后死机
是
安装某些硬件或软件后死机
是
是
检查过资源嘛?
否
资源缺乏导致死机
检查过是电源嘛
否
电源管理导致死机
《电脑死机故障排查》 PPT课件
本课件PPT仅供大家学习使用学习完请自行删除，谢谢！本课件PPT仅供大家学习使用学习完请自行删除，谢谢！本课件PPT仅供大家学习使用学习完请自行删除，谢谢！本课件PPT仅供大家学习使用学习完请自行删除，谢谢！

AIX 小型机操作系统学习指南——01系统管理概述.ppt

IBM OpenPower 710
IBM ~ p5 550
IBM ~ p5 570L
IBM OpenPower720
IBM ~ p5 570H
IBM ~ p5 575
IBM SN 的命名方式
型号的命名方式: 4位的（model）和3位的type号码组成的，model是一个系列的号码，
而type是他这款机型的一个代码.
1.2.2 管理Aix系统
安装之前的系统规划安装和配置硬件与软件系统备份创建/管理用户帐号管理系统资源与服务存储管理性能与安全监视问题诊断和恢复
可做系统管理的用户
root超级用户 1. 建议不要用root登录直接做维护 2. 文件权限的约束对root不起作用 3. 安全管好root的密码 4. root的误操作是非常有破坏性的
代表故障时间为零 server z系列服务器。 Z表示Zero，意味着宕机时间为零的高可用性。产品例如，S/390等
IBM unix cpu 发展历史
Copper 代表铜芯片技术 SOI 代表绝缘硅技术 Low-K 代表Low-K绝缘介质技术
*IBM特有的SMP（对称多处理器技术）
RS6000系列产品
from power on standby.
1.1.3 工作站配置
1. RISC/6000的普通配置是作为单用户图形工作站，用于图象图形处理，如CAD等
2. 有许多种类支持不同速度分辨率和颜色的2D和3D的图形卡，可以匹配相应的显示器
多用户系统配置
有两种连接配置方式： 1. 多个ASCII终端通过异步适配卡连接到服务器 2. 多个ASCII终端通过Modem电话线连接到服务器
MHale Waihona Puke m1Mem2Memn

AIX操作系统培训(ppt129张)

/
bin lib lppsharesbin
/etc/filesystems
文件系统挂接（mount） ● 挂接：使文件系统与层次目录结构进行逻辑连接 ● 文件系统与/dev目录下的特殊文件（LV）关联 ● 文件系统挂接起来后，相关逻辑卷及其内容即连接到层次目录结构的一个目录上。
挂接文件系统到空目录
pasti e
report s
pgms
.profile .exrc
/
/
.profile .profile .exrc myscript data
data
doc
doc
.exrc myscript
显示文件系统
#lsfs
显示逻辑卷信息
● 依卷组显示逻辑卷
#lsvg -l rootvg
SMIT逻辑卷管理器菜单
―物理卷（PV：Physical Volume）：物理硬盘 ―卷组（VG：Volume Group）：物理卷的组合
―物理分区（PP：Physical Partition）：物理卷上的最
小分配单位
物理卷PV
物理卷（PV：Physical Volume）对应于一块硬盘
- 对应于一块硬盘
- 命名为hdisk0, hdisk1, ……(lspv) - 与采用的技术无关 SCSI SSA RAID… SAN
文件系统
文件系统是：
-是存储数据的一种方法 -具有层次目录结构 AIX文件系统有3种类型： -日志文件系统（jfs） -CD-ROM文件系统（cdrfs） -网络文件系统（nfs）不同的文件系统以目录结构连接起来
建立文件系统的目的
● 物理上可以放到硬盘的任何地方（性能好） ● 某些任务使用文件系统更为高效，例如备份、移动等等。 ● 可以限制用户对硬盘空间的使用 ● 保证整个目录文件树结构的一致性，一个文件系统被破坏不会影响其他文件系统

有关aio引起AIX宕机的core_dump分析

有关aio引起AIX宕机的core_dump分析2008.03.27前些日子,客户的S7A主机发生了几次宕机,产生了CORE_DUMP文件,下面是利用crash命令分析宕机原因的过程pwd/# hostnames7a01# cd /var/adm/ras# ls -l 查看core文件名称total 395133-rw-rw-r-- 1 root system 4226 Apr 02 2003 BosMenus.log-rw-r--r-- 1 root system 2 Jan 07 2000 SRCSemID-rw------- 1 root system 8192 May 20 13:35 bootlog-rw-r--r-- 1 root system 8388 Apr 02 2003 bosinst.data-rw-rw-r-- 1 root system 16384 Apr 02 2003 bosinstlog--w------- 1 root system 2 May 16 15:47 bounds-rw-r--r-- 1 bin bin 197206 Jan 01 1970 codepoint.cat-rw--w--w- 1 root system 16384 May 20 15:52 conslog--w------- 1 root system 21 May 16 15:47 copyfilename-rw-r--r-- 1 root system 57078 Apr 02 2003 devinst.log-rw-r--r-- 1 root system 83319 May 20 14:00 diag_log-rw------- 1 root system 8192 May 16 15:49 dumpsymplog-rw-r--r-- 1 root system 151552 May 20 15:52 errlog-rw-r--r-- 1 root system 151552 Apr 22 2004 errlog0422.log-r--r--r-- 1 bin bin 103968 Jan 07 2000 errtmplt-rw-r--r-- 1 root system 7949 Apr 02 2003 image.data-rw-r--r-- 1 root system 8192 May 20 13:21 nimlog-rw-rw-rw- 1 root system 1334264 Jan 20 2000 trcfile-rw------- 1 root system 200136704 May 16 15:47 vmcore.0# crash vmcore.0 开打vmcore.0文件Using /unix as the default namelist file.2 dump routines failed. The following were recorded:0x0141cbe8 failed with rc=140x01422764 failed with rc=14> stat 查看宕机时的状态sysname: AIXnodename: s7a01release: 3version: 4machine: 000AAD014C00time of crash: Tue May 16 15:05:18 TAIST 2006age of system: 22 hr., 51 min.xmalloc debug: disabledabend code: 300 查看错误代码,这个代码很关键csa: 0x2ff3b400exception struct:dar: 0x00000000dsisr: 0x00000000:srv: 0x00000000dar2: 0x00000000dsirr: 0x00000000: (errno) "Error 0"> trace -mSkipping first MSTMST STACK TRACE:0x2ff3b400 (excpt=00000004:0a000000:00000000:00000004:00000106) (intpri=11) IAR: .compare_and_swap+2c (0000a4ec): stw r9,0x0(r4)LR: .[aiopin:untie_knot]+a8 (0143d7a8)2ff3a2e0: .[aio.ext:qlioreq]+b0 (014376ec)2ff3a340: .[aio.ext:listio]+128 (01438f5c)2ff3b3c0: .sys_call_ret+0 (00003a6c)0001113a: lasttocentry+fead9 (00348001)0452-771: Cannot read return address at address 0x01892c0b.> le 0000a4ecNo loader entry found for module address 0x0000a4ecNo loader entry found for module named '0000a4ec'> le 0143d7a8LoadList entry at 0x04ea7980Module *start:0x00000000_0143bef0 Module filesize:0x00000000_0000228cModule *end:0x00000000_0143e17c*data:0x00000000_0143dbe8 data length:0x00000000_00000594Use-count:0x0001 load_count:0x0000 *file:0x00000000flags:0x00000262 TEXT DATAINTEXT DATA DATAEXISTS*exp:0x04ed8000 *lex:0x00000000 *deferred:0x00000000 expsize:0x6e6c732f Name: /usr/lib/drivers/aiopinndepend:0x0001 maxdepend:0x0001*depend[00]:0x05039280*le_next: 04ea7680> le 014376ecLoadList entry at 0x04ea7680Module *start:0x00000000_014348c0 Module filesize:0x00000000_00007624Module *end:0x00000000_0143bee4*data:0x00000000_0143a4c0 data length:0x00000000_00001a24Use-count:0x0003 load_count:0x0001 *file:0x00000000flags:0x00000272 TEXT KERNELEX DATAINTEXT DATA DATAEXISTS*exp:0x051e3000 *lex:0x00000000 *deferred:0x00000000 expsize:0x6c696263 Name: /etc/drivers/aio.extndepend:0x0002 maxdepend:0x0002*depend[00]:0x04ea7980*depend[01]:0x05039280*le_next: 04edb700> le 01438f5cLoadList entry at 0x04ea7680Module *start:0x00000000_014348c0 Module filesize:0x00000000_00007624 Module *end:0x00000000_0143bee4*data:0x00000000_0143a4c0 data length:0x00000000_00001a24Use-count:0x0003 load_count:0x0001 *file:0x00000000flags:0x00000272 TEXT KERNELEX DATAINTEXT DATA DATAEXISTS*exp:0x051e3000 *lex:0x00000000 *deferred:0x00000000 expsize:0x6c696263 Name: /etc/drivers/aio.extndepend:0x0002 maxdepend:0x0002*depend[00]:0x04ea7980*depend[01]:0x05039280*le_next: 04edb700经查,宕机跟Name: /usr/lib/drivers/aiopin有关,> errpt 查看宕机时产生的错误日志LAST ERRORS READ BY ERRDEMON (MOST RECENT LAST):Tue May 16 15:05:18 TAIST: DSI_PROC data storage interrupt : processor Resource Name: SYSVMM0a000000 00000000 00000004 00000086LAST 3 ERRORS READ BY ERRDEMON (MOST RECENT FIRST):> od vmmerrlog 9 rpco proc - 0SLT ST PID PPID PGRP UID EUID TCNT NAME0 a 0 0 0 0 0 1 swapperFLAGS: swapped_in no_swap fixed_pri kprocLinks: *child:0xe20030c0 *siblings:0x00000000 *uinfo:0x50004020(0x0038) *ganchor:0x00000000 *pgrpl:0x00000000 *ttyl:0x00000000Dispatch Fields: pevent:0x00000000 *synch:0xfffffffflock:0x00000000 lock_d:0x00000000Thread Fields: *threadlist:0xe6000000 threadcount:1active:1 suspended:0 local:0 terminating:0Scheduler Fields: fixed pri: 16 repage:0x00000000 scount:0 sched_pri:0 *sched_next:0x00000000 *sched_back:0x00000000 cpticks:3087msgcnt:0 majfltsec:0Misc: adspace:0x0003c00f kstackseg:0x00000000 xstat:0x0000*p_ipc:0x00000000 *p_dblist:0x00000000 *p_dbnext:0x00000000Signal Information:pending:hi 0x00000000,lo 0x00000000sigcatch:hi 0x00000000,lo 0x00000000 sigignore:hi 0xffffffff,lo 0xfff7ffff Statistics: size:0x00000000(pages) audit:0x00000000accounting page frames:0 page space blocks:0Number of virtual pages in use :0pctcpu:0 minflt:1987 majflt:7> thread - 0SLT ST TID PID CPUID POLICY PRI CPU EVENT PROCNAME0 s 3 0 unbound FIFO 10 78 swappert_flags: wakeonsig kthreadLinks: *procp:0xe2000000 *uthreadp:0x2ff3b400 *userp:0x2ff3b6e0 *prevthread:0xe6000000 *nextthread:0xe6000000, *stackp:0x00000000*wchan1(real):0x00000000 *wchan2(VMM):0x00000000 *swchan:0x00000000 wchan1sid:0x00000000 wchan1offset:0x00000000pevent:0x00000000 wevent:0x00000001 *slist:0x00000000Dispatch Fields: *prior:0xe6000000 *next:0xe6000000polevel:0x0000000a ticks:0x0c0f *synch:0xffffffff result:0x00000000*eventlst:0x00000000 *wchan(hashed):0x00000000 suspend:0x0001thread waiting for: event(s)Scheduler Fields: cpuid:0xffffffff scpuid:0xffffffff pri: 16 policy:FIFO affinity:0x0001 affinity_ts:0x3b6e31e cpu:0x0078 run_queue:34a900lpri: 0 wpri:127 time:0x00 sav_pri:0x10Misc: lockcount:0x00000000 ulock:0x00000000 *graphics:0x00000000 dispct:0x00031718 fpuct:0x00000001 boosted:0x0000userdata:0x00000000fsflags: 00000000 adsp_flags: 0000Signal Information: cursig:0x00 *scp:0x00000000pending:hi 0x00000000,lo 0x00000000 sigmask:hi 0x00000000,lo 0x00000000 > q#lslpp -w /usr/lib/drivers/aiopin 查看相关的文件集File Fileset Type----------------------------------------------------------------------------/usr/lib/drivers/aiopin bos.rte.aio File# lslpp -ah bos.rte.aio 查看这个文件集的版本为4.3.3.1Fileset Level Action Status Date Time----------------------------------------------------------------------------Path: /usr/lib/objreposbos.rte.aio4.3.3.0 COMMIT COMPLETE 01/01/70 08:29:524.3.3.1 COMMIT COMPLETE 01/07/00 09:57:114.3.3.1 APPLY COMPLETE 01/07/00 09:55:52Path: /etc/objreposbos.rte.aio4.3.3.0 COMMIT COMPLETE 01/01/70 08:29:524.3.3.1 COMMIT COMPLETE 01/07/00 09:57:114.3.3.1 APPLY COMPLETE 01/07/00 09:55:53经查,宕机跟bos.rte.aio有关,在IBM网站上查到如下内容IY05599: AIO CRASH IN COMPARE_AND_SWAP 00/01/14 PTF PECHANGE APAR statusClosed as program error.Error descriptionWhen the parameter passed to the compare_and_swap() expectedto be a pointer to an integer, but the code passed an integer.I/O on this address (small integer) caused the system crashedwith DSI.Local fixProblem summary*************************************************************** *USERS AFFECTED: ** All users with the following filesets at these levels ** bos.rte.aio 4.3.3.1.*************************************************************** *PROBLEM DESCRIPTION: ** When the parameter passed to the compare_and_swap()* expected to be a pointer to an integer, but the code* passed an integer. I/O on this address (small* integer) caused the system crashed with DSI.*************************************************************** *RECOMMENDATION: ** Apply apar IY05599*************************************************************** Problem conclusionCorrected the parameter passed to compare_and_swap calls.Temporary fixCommentsAPAR informationAPAR number IY05599Reported component name AIX 4.3.0Reported component ID 5765C3403Reported release 430Status CLOSED PERPE YesPEHIPER NoHIPERSubmitted date 1999-11-02Closed date 1999-11-08Last modified date 2000-10-17APAR is sysrouted FROM one or more of the following:APAR is sysrouted TO one or more of the following:Fix informationFixed component name AIX 4.3.0Fixed component ID 5765C3403Applicable component levelsR430 PSY U467596 UP99/12/21 I 1000现在确定,这台机器需要打相关补丁才能彻底解决宕机.。

电脑死机主要原因分析ppt课件

2、将CPU，内存条，显卡插上，看机器是否点亮。同时可以采用替换法，将好的CPU、内存条和显卡插上测试，以判断故障所在。这时对于一些有关CPU的跳线（硬跳线）要特别注意是否设置正确。
3、如果在最小系统下，机器仍然不亮，而又确定了CPU（跳线设置也正确）、显卡、内存条都完好的情况下，就应该怀疑主板的问题了。
坚持认真查杀病毒。对来历不明的光盘或软盘，不要轻易使用，对邮件中的附件，要先用杀毒软件检查后再打开。
预防电脑死机
按正确的操作顺序关机。在应用软件未正常结束运行前，别关闭电源，否则会造成系统文件损坏或丢失，引起在启动或运行中死机。
避免多任务同时进行。在执行磁盘整理或用杀毒软件机黑屏的一般解决方法
一、检查电力供电，电脑电源，电源接口
1、检查机箱电源的接口和电源线是否完好，如果借口和电源线有破损、断裂的应当及时更换。
2、检查主板电源线插口，如果没有破损就将插口拔出再插入，按下电源开关时，轻轻搬动电源线看是否有反应来判断是否是因为电源线接触不良或焊点松脱导致电源没有接通。
勿过分求新。各种硬件的驱动不一定要随时更新，因为才开发的驱动程序往往里面有bug，会对系统造成损害，引起系统死机，最新的不一定是最好的。
在卸载软件时，用自带的反安装程序或Windows里面的安装／卸载方式，不要直接删除程序文件夹，因为某些文件可能被其他程序共享，一旦删除这些共享文件，会造成应用软件无法使用而死机。
蓝屏故障－硬件
6、插拔不当引发蓝屏故障：许多人在使用 USB接口的移动硬盘时，总错误认为移动硬盘是一种热拔插设备，支持任意方式、任意时间的拔除，殊不知在移动硬盘正在读写数据的那一瞬间拔除USB移动硬盘的话，就能造成系统发生蓝屏故障，严重的话可能会损坏移动硬盘。在拔出移动硬盘之前，一定要先让移动硬盘停止读写操作，等到屏幕出现安全拔除的提示时，才能对移动硬盘执行拔出操作。

计算机常见故障分析与处理ppt课件

8
3、在开机启动时出现死机，无报警声
如果计算机没有任何反应，即无声也无显示。可能的原因及其解决方法：
电压过低，这时计算机无反应。解决的方法自然是等电网电压回升以后再开机。
RESET键没有复位。有些计算机的RESET键积了很多灰尘，也有时是一些其它的原因使RESET键按下后卡住而不能弹起，使RESET线一直短接，这时除了机箱面板上的电源指示灯亮，其它的都没有反应，比如显示器黑屏等。解决的方法是想办法让RESET键正常工作。主板短路或主板与机箱之间短路。
3
计算机常见故障分析与处理
附：主板报警音代码 • Award BIOS的报警音代码 o 1短：系统正常启动。恭喜，你的机器没有任何问题。 o 2短：常规错误，请进入CMOS Setup，重新设置不正确的选项。 o 1长1短：RAM或主板出错。换一条内存试试，若还是不行，只好更换主板。 o 1长2短：显示器或显示卡错误。 o 1长3短：键盘控制器错误。检查主板。 o 1长9短：主板Flash RAM或EPROM错误，BIOS损坏。换块Flash RAM试试。 o 不断地响（长声）：内存条未插紧或损坏。重插内存条，若还是不行，只有更换一条内存。 o 重复短响：电源有问题。 o 无声音无显示：电源有问题。
4
计算机常见故障分析与处理
附：主板报警音代码 • AMI BIOS的报警音代码： o 1短：内存刷新失败。更换内存条。 o 2短：内存ECC较验错误。在CMOS Setup中将内存关于ECC校验的选项设为Disabled就可以解决，不过最根本的解决办法还是更换一条内存。 o 3短：系统基本内存（第1个64kB）检查失败。换内存。 o 4短：系统时钟出错。 o 5短：中央处理器（CPU）错误。 o 6短：键盘控制器错误。 o 7短：系统实模式错误，不能切换到保护模式。 o 8短：显示内存错误。显示内存有问题，更换显卡试试。 o 9短：ROM BIOS检验错误。 o 1长3短：内存错误。内存损坏，更换即可。 o 1长8短：显示测试错误。显示器数据线没插好或显示卡没插牢。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

System Dump Process
Stage 1: The contents of memory is copied to a temporary disk Location. The default location is /dev/hd6 (paging space) Stage 2: AIX is booted and the memory images is moved (savecore) to permanent location. By default the location is the /var/adm/ras Directory. The dump will be copied into a file called vmcore.n, where n is the sequence number of the dump ( vmcore.1, vmcore.2, etc.)
Once the preserved image is written to disk, the system will be booted and returned to production. The dump is then typically submitted to IBM for analysis
Crash/Dump Causes
System-initiated: An exception in kernel mode that was unexpected or that we can‟t handle: Page faults while interrupts disabled References to invalid addresses Invalid op codes A trap instruction in kernel code
The Master Dump Table (MDT)
The system dump function captures data areas that are registered in the master dump table Kernel dump areas are pre-loaded in the master dump table by Kernel initialization Kernel extensions(such as device drivers) must specify data to be included in a system dump by adding an entry to the Master Dump Table with the dmp_add() and dmp_del() kernel services.
What a System Dump Used for?
An AIX system will generate a system dump when encountering a severe system error, such as unexpected or unrecoverable kernel mode exceptions.
Soft reset the partition(OS)
Shutdown partition in HMC (new version)
Shutdown partition, select dump option
AIX 5L V5.3 Changes
If dump device is configured as non-removable media: press reset button (or reset the partition) will cause a dump, even if „always allow dump‟=FALSE (this behavior also applies to 5.2 when running in a partition) If „always allow dump‟=FALSE and dump device is removable, pressing the reset button will cause system to reboot
Component Names in a Dump 1) dmp_minimal [5 entries] 2) proc [2468 entries] 3) thrd [3543 entries] 4) ldr [2 entries] 5) errlg [3 entries] 6) lfs [1 entries] …..
Create a Forced Dump
Estimate the dump size:
#ev -e
Command line:
#sysdumpstart –p #sysdumpstart –s
Smit menu
#smit dump
For systems with a 3-position key switch
Configuring for System Dumps
MemorySize
<4GB >=4GBand<12GB >=12GBand<24GB >=24GBand<48GB >48GB
Defaultdumpdevice
/dev/hd6 /dev/lg_dumplv /dev/lg_dumplv /dev/lg_dumplv /dev/lg_dumplv
What is in a system dump?
The dump routine is invoked when the system encounters a fatal error The dump image: Operating system (kernel) code and data Some data from the current running application Most of the kernel extensions code and data
It can also be manually initiated by the system administrator when the system is hung, or as required The system dump facility provides a mechanism to capture sufficient Information about the AIX kernel for later exert analysis.
Hit Reset button once Ctrl-Alt-NUMPAD 1 to primary dump device Ctrl-Alt-NUMPAD 2
Create a Forced Dump (Contd.)
Quit from KDB
(KDB)> q dump
Reset partition in HMC
AIX System Dump Analysis
Contents
AIX System Dump Dump Data Collection AIX Kernel Internals Basic AIX Kernel Analysis Tools The Kdb Process, Thread and Stack Case Study
System Dump
A system dump is a snapshot of the operation system state at the time of the system crash or manually initiated dump.
When a manually initiated or unexpected system halt occurs, the system dump facility automatically copies selected areas of kernel data from system memory to the primary dump device AIX dump device is a LV( the type is “sysdump”) #sysdumpdev –l or smitty dump primary /dev/dumplv secondary /dev/sysdumpnull copy directory /var/adm/ras forced copy flag TRUE always allow dump TRUE dump compression ON
User-initiated: sysdumpstart, soft reset
AIX Dump Facility Setting
#smitty dump System Dump Move cursor to desired item and press Enter. Show Current Dump Devices Show Information About the Previous System Dump Show Estimated Dump Size Change the Primary Dump Device Change the Secondary Dump Device Change the Directory to which Dump is Copied on Boot Start a Dump to the Primary Dump Device Start a Dump to the Secondary Dump Device Copy a System Dump from a Dump Device to a File Always Allow System Dump System Dump Compression Check Dump Resources Utility
System Dump Process (Contd.)