IBM小型机AIX深度巡检方案
- 格式:doc
- 大小:138.50 KB
- 文档页数:4
AIX系统的日常监控维护1、#df –k 如果占用率(%Iused)超过90%,则需要进行空间调整。
2、#errpt |more 命令分页查看系统出错日志(包括硬件与软件的出错信息)。
根据显示的信息判断系统硬件及软件的运行情况。
输入:errclear 0命令,清除现有的系统日志。
3、#last命令检查系统登陆情况#last,显示各个login用户(如:root等)登陆的信息。
如果发现有异常的登陆用户或者登陆IP,则进行相应安全性的检查及处理。
4、使用find / -name core –print命令检查是否有巨大的core文件生成在命令提示符“#”后输入:find / -name core –print,表示从系统根目录开始查找所有名为core的文件(巨大的core文件容易造成系统崩溃)。
如果存在,一般直接删除即可。
5、使用vmstat命令检查CPU及内存运行情况在命令提示符“#”后输入:vmstat 5,表示每隔5秒钟显示系统CPU及内存运行情况。
查看kthr(kernel运行队列中处于等待状态的进程数)字段的r(运行队列中的进程数)项的显示值,如果该数值是系统实际CPU数的4倍或4倍以上,则表示CPU占用率过高,需要考虑提高系统CPU工作频率;查看memory(虚拟和真实内存的使用信息)字段的fre(空闲页面的数量)项,如果数值低于120,则说明系统内存短缺。
有时候数值虽然高于120,也可以根据实际情况调整内存;查看page(页面活动的信息)字段的pi(从页面输入的页)、po(输出到页面的页)、fr(空闲的页面数)及sr(通过页面置换算法搜索到的页面数)项的值,这4个值一般都为0,有时候也有可能为1;最后查看cpu(cpu的使用率)字段的us(用户进程的时间)及sy(系统进程的时间)项的值,两项值的和应该不超过90%,否则说明CPU能力短缺。
6、使用lsps –a命令检查交换内存空间使用情况在命令提示符“#”后输入:lsps -a,查询交换内存空间使用情况。
1、主机型号与序列号检查:#uname –uM2、系统错误报告检查:#errpt #errpt –aj ID号3、Mail信息检查:#mail 看mail有没有error与warning信息。
4、检查smit.log,bootlog。
#cd /var/adm/ras 用vi编辑器查看相关日志看是否有error与warning信息。
5、检查hacmp.out:查看/tmp/hacmp.out文件看是否有error与warning信息6、文件系统检查:#df –k文件系统应该保持在90%以下,超过90%应注意清理。
7、逻辑卷:有否“stale”状态的逻辑卷:#lsvg –o |lsvg –i |grep STALE 看输出STALE是否全为0.全为0表示vg正常。
8、.内存使用情况:#svmon –G 内存使用率不应超过70%9、Swap使用情况:#lsps –a swap空间占用率不应超过70%10、系统性能检查:#topas#vmstat 主要看kthr 参数参数:若r 数值偏大,表明CPU太忙,若b 数值偏大,表明系统I/O出现瓶颈。
%user+sys%接近100%表cpu瓶颈。
如果pi(page-in )和po(page-out ) 参数将不是0,同时avm 和fre 数值的比值悬殊很大,fre 数值很小.#iostat 看% tm_act值, 其表示某个硬盘处于active状态的百分比11、网络状况检查:#netstat –in#netstat -rn12、数据安全检查#ls –l /image.data 检查系统备分日期。
#lsvg –l rootvg 检查rootvg是否镜像13、磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
14、Dump设置检查。
IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。
2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。
3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。
4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。
5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。
6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。
7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。
8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。
9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。
10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。
二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。
2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。
3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。
4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。
5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。
6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。
7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。
8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。
9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。
IBM AIX 小型机巡检常用命令及流程第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。
参考值:温度(摄氏℃)10 ℃-40℃湿度8% -80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。
参考值:零-地电压小于1V火-地电压200-240V (补充:当然59系列的机器相间380V,相地240V)第三:关于报错。
主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg还有系统又没又报警灯第三:机器的序列号:#uname -Mu第四:操作系统版本:#oslevel -r 注:有时候不能使用是因为系统版本低的原因第五:其他检测执行sysdumpdev –l (检查dump是否设置为always allow sysdump)执行sysdumpdev –e (检查当前dump大小应该为主dump设备的大小的80%以下)执行lsvg -l rootvg (检查有否"stale"状态的逻辑卷)执行lsps -s (检查内存交换区占用情况)执行df –k (检查文件系统的分配状况,一般不要超过80%)执行lsdev –Cc disk (检查硬盘状态为available)执行lsdev –Cc adapter (检查PCI卡状态为available)执行lsdev –Cc tape (检查磁带机状态为available)执行lsdev – Cc processor (检查CPU状态为available)执行lsattr –El sys0|grep autorestart (检查系统crash后是否自动重新启动)执行lsattr –El sys0|grep cpuguard (检查CPU GUARD是否开启)执行lsattr –El mem0 (检查内存状态正常size=goodsize)执行vmstat 2iostat,topas观察us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)执行netstat –in和netstat –rn (观察网络状态)执行entstat –d enX (检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M 半工改为自适应时,缺省网关会丢失。
ibm小型机巡检命令hostname主机名oslevel -s现实系统当前版本lsdev -Cc disk显示系统中的硬盘lscfg -vpl hdiskX显示硬盘X的配置信息lsvg -l rootvg显示根卷组逻辑信息lsvg -p rootvg显示根卷组的物理信息errpt显示错误信息errpt -a|more显示错误详细信息并分页errpt -aj ec0bccd4(错误标示符)显示单个错误的详细信息mail显示是否有maildf -g显示文件系统空间使用率(90%引起注意)lsps -a分页空间利用率(70%引起注意)sar 1 5实时cpu内存使用情况topas系统实时显示ifconfig -a显示网卡状态和ip地址netstat -in显示网络信息lsvg rootvg显示根卷组的详细信息10/100/1000 Base-TX PCI-X(网卡兼容的速率)1. 查看逻辑CPU个数#pmcycles -mCPU 0 runs at 4204 MHzCPU 1 runs at 4204 MHzCPU 2 runs at 4204 MHzCPU 3 runs at 4204 MHzCPU 4 runs at 4204 MHzCPU 5 runs at 4204 MHzCPU 6 runs at 4204 MHzCPU 7 runs at 4204 MHz上面描述有8个CPU,CPU的主频为4.2G赫兹2. 查看物理CPU个数#prtconf|grep ProcessorsNumber Of Processors: 43. 确定CPU是几核用逻辑CPU除以物理CPU就是核数。
4. 查看单个CPU的详细信息#lsattr -E -l proc0frequency 4204000000 Processor Speed False smt_enabled true Processor SMT enabled False smt_threads 2 Processor SMT threads False state enable Processor state Falsetype PowerPC_POWER6 Processor type Falsecd /usr/lpp/diag*/bin./usysfault查看面板故障灯是否出现故障、。
AIX日常巡检命令巡检命令2016年12月1日17:02AIX日常巡检命令巡检命令:1.oslevel -s查看系统版本号2.hostname 查看主机名称3.nmon 查看序列号,系统内核位数4.lscfg -vp |grep -p PLATFORM 查看系统微码lscfg -vp |grep -p Systemlscfg -vp 查看所有硬件设备微码5.alog -o -t boot 查看系统上次启动的日志6.uptime 时间运行时间与系统的负载st reboot 查看系统上次重启的时间8.diag检查系统硬件运行情况9.lspv 查看卷组镜像10.df -g 查看文件系统使用信息,-g以GBytes为单位,-m以MBytes为单位,-k以KBytes为单位11.lsfs 列出所有文件系统12.mount 列出挂载的文件系统13.bootinfo -y 查看机器硬件位数,bootinfo -K 查看AIX系统内核位数,bootinfo -r 查看物理内存大小14.prtconf 查看系统的所有信息15.errpt 查看系统错误日志16.mail发送给root用户的错误报告17.more /tmp/hacmp.out and smit.log and alog –o –t boot 检查hacmp.out,smit.log,bootlog等lssrc -g cluster检查HA18.lsvg -l rootvg或lsvg rootvg查看逻辑卷的状态,是否有“stale”状态19.lsps -a或lsps -s查看paging space的使用信息stat -in显示IP地址,netstat -rn显示路由表信息,netstat -i网卡21.sysdumpdev -l 查看DUMP设置22.ps -ef |grep err 和ps -ef |grep src 检查errdemon,srcstr运行状态23.instfix -i|grep ML 查看补丁级别及是否完整分区 脚本 的第1 页。
AIX服务器巡检指导(一)操作系统检查(二)性能检查* Vmstat 命令检查cpu ,我们主要关注报告中的 4个cpu 列和2个kthr (内核线程)列。
System configuration: lcpu=8 mem=15680MB显示的是有CPU4个,内存15680MB 对上面的命令解释如下:Kthr 段显示内容r 列表示可运行的内核线程平均数目, 包括正在运行的线程和等待 CPU 的线程。
如果这个数字大于 CPU 的数目,则表明有线程需要等待 CPU 。
b 列表示处在非中断睡眠状态的进程数。
包括正在等待文件系统 而被挂起的线程。
Memory 段显示内容avm 列表示活动虚拟内存的页面数 fre 空闲的页面数 Page 段显示内容根据页面替换算法每秒所检查的页数。
sr 值比 fr 值高的越多,说明替换算法要查找可以替换的页面就越困难cy 每秒页面替换代码扫描了 PFT 多少次Faults 段显示内容 ( 其实这段内容不需太多关注 ) in 在该时间间隔中观测到的每秒设备中断数。
sy 在该时间间隔中观测到的每秒系统调用次数。
cs 在该时间间隔中观测到的每秒钟上下文切换次数。
Cpu 段显示内容列详细显示了 CPU 在系统模式所消耗的 CPU 时间。
列详细显示了有未决本地磁盘 I/O 时 CPU 空闲的时间百分比。
wa 的值如果超过 25%, 就表明磁 盘子系统可能没有被正确平衡,或者这也可能是磁盘工作负荷很重的结果。
如果在一个单用户系统中, us + sy 时间不超过90%,我们就不认为系统的 CPU 是受限制的。
如果在一个多用户系统中,us + sy 时间超过80%,我们就认为系统的 CPU 是受限的。
其中的进程将要花时间在运行队列中等待。
响应时间和吞吐量会受损害。
I/O 的线程,或由于内存装入控制re -该列无效pi 从磁盘交换到内存的交换页 ( 调页空间 )数量 po 从内存交换到磁盘的交换页数量 fr 根据页面替换算法每秒释放的页数sr us 列显示了用户模式所消耗的 CPU 时间。