中信登Linux服务器巡检报告(207)
- 格式:docx
- 大小:296.14 KB
- 文档页数:10
“众信同行”Linux服务器巡检指导(论证稿)2008年4月辽宁众信同行软件开发有限公司文档控制1. 更改记录Date Author Version Change Reference2008/4 刘振宇 1.0 无以前版本2. 传阅Name Position3. 分发Copy Location阅读目录文档控制 (1)1. 更改记录 (1)2. 传阅 (1)3. 分发 (1)阅读目录 (1)一、服务器巡检的重要性 (1)二、巡检项目 (1)(一)服务器硬件检查 (1)(二)操作系统检查 (1)(三)性能检查 (1)(四)安全检查 (1)三、Linux常用命令 (2)(一)Linux虚拟控制台 (2)(二)帮助命令 (2)(三)系统信息 (2)1.pwd (2)2.hostname (2)3.whoami (2)4.id username (3)5.date (3)6.who (3)7.w (3)8.last (3)9.uptime (4)10.ps (4)11.top (4)12.uname –a (5)13.free (5)14.df -h (5)15.du /-bh | more (5)16.cat /proc/cpuinfo (5)(四)基本操作 (6)1.ls (6)2.cd 目录 (6)3.shutdown -h now (6)(五)文件管理 (7)1.cp source destination (7)2.mv source destination (7)3.rename 字符串更新字符串文件名 (7)4.rm files (7)5.mkdir directory (8)6.rmdir directory (8)7.rm -r files (8)8.rm -rf files (8)(六)查看和编辑文件 (8)1. (8)2.head filename (9)3.tail filename (9)4.kwrite (9)5.查找文件 (9)(七)用户管理命令 (9)(八)网络管理命令 (10)1.netconf (10)2.ping machine_name (10)3.route –n (10)4.traceroute host_to_trace (10)5.ifconfig (10)一、服务器巡检的重要性Linux服务器是系统重要的业务运行平台,对服务器进行巡检能够及时发现服务器的隐患,以便于改善和优化服务器的性能;观察服务器的运行状况,及时对设备进行调整,保证服务器的24小时不间断的工作;以及采集网内服务器信息。
服务器硬件运维巡检报告
XX服务器硬件运维服务年月巡检报告
XXXX工程师:XXXX
一、物理环境检查
二、服务器检查
(1)每日上下午进行机房巡检,确认硬件没有故障,仔细聆听有无杂音和报警音。
查
看服务器前后指示灯有无异常,线缆链接情况。
(2)对异常服务器进行故障诊断,通过告警灯,诊断版和诊断码进行故障的确认,有
些复杂的故障则由远程ssh进行cpu,磁盘和内存占用的情况查看。
有条件的进行IPMI的管理接口链接查看日志,分析故障。
(3)在确认故障后对保内机器提交厂家维护,过保机器则由XX维保。
与用户协调迅
速有效的解决故障。
(4)对故障原因进行分析,故障类别进行整理,以方便建立常用操作及运行故障应急
处理资料库
(5)整理备件库,针对故障情况的分析调整备件库,以形成高效的备件库应对多发故
障。
三、故障服务器
四、巡检结果以及总结
五、服务器位置更新
于3月26下班后对以下两台服务器进行移机操作
客户:巡检工程师:。
服务器硬件运维巡检报告XX服务器硬件运维服务年月巡检报告工程师:XXXX一、物理环境检查检查内容:环境温度环境湿度清洁状况通风状况线缆状况检查结果:环境温度正常环境湿度正常清洁状况:清洁通风状况:良好线缆状况:良好二、服务器检查1.每日上下午进行机房巡检,确认硬件没有故障,仔细聆听有无杂音和报警音。
查看服务器前后指示灯有无异常,线缆链接情况。
2.对异常服务器进行故障诊断,通过告警灯、诊断版和诊断码进行故障的确认。
有些复杂的故障则由远程ssh进行CPU、磁盘和内存占用的情况查看。
有条件的进行IPMI的管理接口链接查看日志,分析故障。
3.在确认故障后对保内机器提交厂家维护,过保机器则由XX维保。
与用户协调迅速有效的解决故障。
4.对故障原因进行分析,故障类别进行整理,以方便建立常用操作及运行故障应急处理资料库。
5.整理备件库,针对故障情况的分析调整备件库,以形成高效的备件库应对多发故障。
三、故障服务器服务器【001】安装地址:XX机房XX机柜XX-XXU发现故障解决故障硬件指示灯检查检查项目:前面板指示灯电源指示灯磁盘指示灯检查结果:前面板指示灯正常电源指示灯正常磁盘指示灯异常序列号:异常问题记录:主机硬件检查检查项目:系统风扇运转CPU使用情况内存使用情况磁盘使用情况网络连接检查结果:系统风扇运转正常CPU使用情况异常内存使用情况异常磁盘使用情况异常网络连接正常异常问题记录:系统日志检查:系统日志检查异常故障处理:解决方案:更换备件处理流程:更换CPU和内存故障分析:CPU和内存故障备注:服务器【002】安装地址:XX机房XX机柜XX-XXU 发现故障解决故障硬件指示灯检查检查项目:前面板指示灯电源指示灯磁盘指示灯检查结果:前面板指示灯正常电源指示灯正常磁盘指示灯异常序列号:异常问题记录:主机硬件检查检查项目:系统风扇运转CPU使用情况内存使用情况磁盘使用情况网络连接检查结果:系统风扇运转正常CPU使用情况异常内存使用情况异常磁盘使用情况正常网络连接正常异常问题记录:系统日志检查:系统日志检查异常故障处理:解决方案:更换备件处理流程:更换CPU和内存故障分析:CPU和内存故障备注:服务器【003】安装地址:XX机房XX机柜XX-XXU巡检结果及总结:在2018年3月5日至2018年3月31日的巡检中,共检查了XX机房和XX灾备机房的所有x86服务器,每天上午和下午各进行一次巡检,主要负责发现和解决硬件故障。
网站-服务器巡检报告网站服务器巡检报告一、引言为了确保网站的稳定运行和服务器的正常工作,我们定期对网站服务器进行了全面的巡检。
本次巡检旨在发现潜在问题、评估系统性能,并采取相应的措施进行优化和修复,以保障网站能够为用户提供持续、高效、可靠的服务。
二、巡检时间与人员巡检时间:具体时间巡检人员:巡检人员姓名三、服务器基本信息服务器型号:服务器型号服务器配置:1、 CPU:型号及核心数量2、内存:容量及类型3、硬盘:类型、容量及分区情况4、操作系统:操作系统名称及版本四、服务器运行环境检查1、机房温度与湿度机房温度保持在温度范围,符合服务器正常运行的要求。
机房湿度维持在湿度范围,处于适宜的范围之内。
2、电源供应服务器电源连接稳定,无松动现象。
市电输入正常,UPS(不间断电源)工作状态良好,电池电量充足,能够在市电中断时提供足够的备份时间。
3、网络连接服务器网络连接正常,网络带宽使用情况稳定,未出现拥塞现象。
网线接口牢固,无松动、损坏等情况。
五、服务器硬件检查1、 CPU 状态CPU 使用率在正常范围内,平均使用率为使用率数值%。
未出现 CPU 过热或异常告警。
2、内存状态内存使用率为使用率数值%,尚有足够的可用内存满足系统和应用的需求。
未发现内存错误或异常。
3、硬盘状态硬盘空间使用率为使用率数值%,各分区空间分配合理。
硬盘读写速度正常,未检测到坏道或其他磁盘故障。
4、风扇与散热系统服务器风扇运转正常,风速稳定,散热良好。
机箱内部无明显积尘,散热通道畅通。
六、服务器操作系统检查1、系统日志检查系统日志,未发现严重错误或警告信息。
对常见的系统日志事件进行了分析,未发现异常模式或重复出现的问题。
2、系统更新操作系统已安装最新的安全补丁和更新,确保系统安全性。
3、服务与进程检查了系统中运行的服务和进程,确认其运行状态正常。
重点关注了与网站相关的服务,如Web 服务器、数据库服务器等,未发现异常停止或错误。
4、文件系统文件系统完整,无损坏或丢失的文件。
网站-服务器巡检报告网站-服务器巡检报告【1、巡检日期】巡检人员:(姓名)巡检日期:(日期)【2、网站概述】2.1 网站基本信息- 网站名称- 网址- 网站所属部门/公司- 网站主要功能- 用户群体2.2 服务器信息- 服务器IP地质- 服务器操作系统及版本- 服务器硬件配置- 服务器所在位置【3、硬件状况检查】3.1 服务器硬件状态- 服务器电源- CPU温度- 内存使用情况- 磁盘空间使用情况- 网络连接情况3.2 硬件故障排查- 是否存在硬件故障- 如果存在硬件故障,已采取的修复措施和效果【4、软件状况检查】4.1 操作系统更新- 操作系统是否为最新版本- 已安装的补丁和更新4.2 Web服务器配置- Web服务器版本及配置- 是否启用HTTPS- 是否启用HTTP/2- 是否配置了性能优化选项(如压缩、缓存等)4.3 数据库配置- 数据库类型及版本- 数据库配置是否合理- 数据库备份策略【5、网站性能检查】5.1 网站访问速度- 页面加载时间- 并发访问测试- 网站响应速度5.2 网站可用性测试- 网站是否正常运行- 是否存在访问异常- 是否存在页面错误【6、网站安全检查】6.1 网站漏洞扫描- 使用的漏洞扫描工具及结果- 已修复的漏洞6.2 网站日志分析- 是否存在异常请求- 是否存在恶意访问记录- 是否存在未授权访问【7、网站备份检查】7.1 网站日常备份- 网站数据备份策略- 备份频率及存储位置- 最近一次备份时间7.2 网站灾难恢复测试- 是否进行过灾难恢复测试- 测试结果以及改进计划【8、操作记录】8.1 巡检过程记录- 巡检过程中的所有操作记录8.2 问题解决记录- 巡检过程中发现的问题及解决方案【附件】- 附件1:服务器配置信息(硬件、操作系统、网络等)- 附件2:操作系统更新记录- 附件3:网站备份记录【法律名词及注释】1、法律名词1:注释12、法律名词2:注释23、法律名词3:注释3。
机房服务器状况巡检报告引言概述:机房服务器状况巡检报告随着信息技术的迅速发展,服务器在现代社会中发挥着至关重要的作用。
服务器作为系统的核心组件,需要定期巡检以保证其正常运行和高效性能。
本报告旨在针对机房服务器的状况进行巡检,并提供详细的信息和改进建议。
正文:1. 电源系统巡检1.1 检查UPS设备的运行状况,确保其正常工作1.2 检查电源线路和插座的连接状态,避免松动或损坏1.3 测试切换时间和备用电源的有效性,以应对断电情况1.4 检查电源配电盘的负载情况,避免过载或不均衡1.5 建议在需要时备份电源系统,以保证服务器的连续供电2. 温度和湿度监测2.1 定期检查服务器机房的温度和湿度2.2 确保温度和湿度在适宜范围内,以避免过热和潮湿的环境2.3 检查冷却系统的运行状况,确保散热效果良好2.4 建议增加监测设备,及时发现并解决潜在的温度或湿度问题2.5 注意在维护期间采取适当的措施,以防止进一步的损坏3. 硬件设备检查3.1 定期检查服务器的外观和机箱,确保无明显损坏3.2 检查硬盘和内存的健康状态,以确保数据的安全性3.3 检查网络接口和插槽的连接情况,确保正常通信3.4 清理服务器内部的灰尘和杂物,以防止过热3.5 建议根据需要进行硬件升级或替换,以提高性能和可靠性4. 软件系统评估4.1 定期更新操作系统和安全补丁4.2 检查服务器上的应用程序和服务的可用性4.3 分析服务器的性能指标,如CPU利用率和内存利用率4.4 定期备份数据并测试恢复流程4.5 建议优化服务器配置和资源分配,以提高系统的效率和稳定性5. 安全性审查5.1 检查服务器的防火墙和安全设置5.2 定期进行安全性扫描和漏洞修复5.3 检查权限和访问控制,确保只有授权用户可以访问5.4 监控并记录服务器的安全事件和日志5.5 建议定期进行安全培训,提高员工的安全意识和行为规范总结:本报告对机房服务器的状况进行了详细的巡检,包括电源系统、温度和湿度监测、硬件设备检查、软件系统评估和安全性审查。
服务器硬件运维巡检报告一、前言随着信息技术的不断发展,服务器在企业的运营中扮演着至关重要的角色。
为了确保服务器的稳定运行,提高其性能和可靠性,定期进行硬件运维巡检是必不可少的。
本次巡检旨在对服务器硬件的运行状况进行全面检查,及时发现潜在问题并采取相应的措施,以保障服务器的正常运行。
二、巡检对象本次巡检的服务器包括但不限于以下型号和配置:1、型号:_____,配置:_____2、型号:_____,配置:_____三、巡检时间本次巡检于_____年_____月_____日开始,至_____年_____月_____日结束。
四、巡检人员本次巡检由以下人员组成:1、硬件工程师:_____2、网络工程师:_____五、巡检内容(一)服务器外观检查1、检查服务器外壳是否有明显的划痕、变形或损坏。
2、检查服务器指示灯是否正常显示,包括电源指示灯、硬盘指示灯、网络指示灯等。
(二)服务器内部清洁1、打开服务器机箱,使用专业工具清理内部灰尘,包括风扇、散热片、主板等部件。
2、检查服务器内部线缆是否整齐,有无松动或破损现象。
(三)电源系统检查1、检查服务器电源模块是否正常工作,有无过热、异味等异常情况。
2、测量电源输出电压是否在正常范围内。
(四)CPU 及内存检查1、检查 CPU 散热器是否安装牢固,风扇是否正常运转。
2、查看 CPU 使用率、温度等参数,判断其工作状态是否正常。
3、检查内存插槽是否插满,内存颗粒是否有损坏或氧化现象。
(五)硬盘检查1、检查硬盘是否有坏道、错误等情况,通过相关工具进行检测。
2、查看硬盘的读写速度、使用率等性能指标。
(六)网络接口检查1、检查服务器网络接口是否正常工作,插拔网线测试连接稳定性。
2、检查网络带宽使用情况,确保网络通信正常。
(七)RAID 卡及阵列检查1、检查 RAID 卡是否正常识别硬盘阵列,阵列状态是否为正常。
2、查看 RAID 卡的电池是否正常,确保在停电时能够保护缓存数据。
服务器硬件运维巡检报告服务器硬件运维巡检报告1·概述本次巡检的服务器硬件是X品牌,安装在公司数据中心的服务器机房。
巡检目的是确保服务器硬件正常运行,识别和解决潜在的问题。
2·机房环境巡检2·1 温度和湿度检查检查服务器机房的温度和湿度是否在正常范围内,确保硬件运行环境符合要求。
2·2 电源供应检查检查服务器机房的电源供应是否稳定,不存在异常情况。
2·3 空调和通风系统检查服务器机房的空调和通风系统是否正常工作,确保硬件的散热和冷却得到有效保障。
3·服务器硬件巡检3·1 服务器开机检查检查服务器的开机过程是否正常,包括硬件自检、系统启动等。
3·2 硬盘状态检查检查服务器硬盘的状态,包括容量、IO读写速度、SMART信息等。
3·3 内存状态检查检查服务器内存的状态,包括容量、使用率、错误校验等。
3·4 CPU状态检查检查服务器CPU的状态,包括负载、温度、速度等。
3·5 网卡状态检查检查服务器网卡的状态,包括流量、速度、连接状态等。
3·6 RD卡状态检查检查服务器RD卡的状态,包括磁盘阵列健康状态、磁盘故障等。
3·7 控制芯片、温度传感器等硬件状态检查检查服务器控制芯片、温度传感器等其他硬件的状态,确保硬件正常运行。
4·巡检结果总结与建议根据以上硬件巡检结果,总结出服务器硬件的整体状态和存在的问题,并提出相应的解决建议。
5·附件本文档涉及的附件包括:●巡检过程中所采集的服务器硬件信息报告●巡检过程中所采集的服务器环境参数数据6·法律名词及注释●服务器硬件:指用于存储和处理数据的物理设备,如硬盘、内存、CPU等。
●数据中心:专门用于存储和管理大量服务器的场所,提供可靠的电力供应和网络连接。
●SMART信息:硬盘的自监测、分析和报告技术,用于检测硬盘故障和预测硬盘寿命。
中国信托登记有限责任公司
linux系统
常
规
巡
检
报
告
恒生电子股份有限公司
2017年11月
服务介绍
➢系统健康检查服务是系统预防性维护服务的重要组成部分,是现场预防维护服务的升级服务。
➢通过系统健康检查服务,帮助客户检查系统目前的状态并分析其潜在的问题,最大限度地减少由于系统维护不当所带来的危害,并对将来日常维护系统提出建议,避免产生新的系统问题。
➢组织系统维护工程师,通过现场对客户系统进行全面检查,及早发现潜在问题,提交检查报告及问题的针对性建议,提高用户业务的可用性。
➢(说明:由于此次巡检服务器数量较多,不一一罗列所有巡检截图,异常或者需要说明的,特此进行说明。
)
系统健康检查概要
客户名称中国信托登记有限责任公司
客户工程师联系电话电子邮件
巡检工程师联系电话电子邮件
开始日期/时间2017年11月21日 10:30
完成日期/时间2017年11月21日 17:30
系统健康检查结果概要及建议
1、本次巡检发现一些服务器(IP:10.10.10.23、10.10.10.57、10.10.50.40、10.10.50.41、10.10.50.39、10.10.10.2
2、
10.10.10.24、10.10.50.31、10.10.50.200、10.10.50.19)内存负载过高的情况,建议升级内存或关闭不必要
的服务或迁移相关应用,以保证系统稳定运行。
2、本次巡检发现系统无异常进程。
3、本次巡检发现本地磁盘未出现使用率达到80%以上。
说明:检测过程以某一台服务器为案例进行如下巡检操作,其他服务器不再一一罗列截图。
巡检详情见巡检汇总表。
客户工程师签字:巡检工程师签字:
签字日期:2017年11月日签字日期:2017年11月日
服务器巡检方法及主要内容说明
检查项检查操作参考标准检查结果
机柜或者机器上的防尘网观察机柜以及机器
上的防尘网上的灰
尘
是否在防尘上堵塞导致
气流不畅。
■正常□异常说明:
系统风扇运转检查观察并用手感觉进
风和出风是否正常
主机和磁盘柜的所有风
扇运转正常。
■正常□异常说明:
系统运装噪音检查仔细听系统运转声
音
噪音是否过大,有无异
常声音
■正常□异常说明:
系统电源指示灯检查观察液晶面板、电源
指示灯、硬盘报警灯
等显示
液晶面板、电源指示灯、
硬盘报警灯等显示情况
正常
■正常□异常说明:
服务器硬盘工作状态硬盘指示灯指示是
否正常,一般绿色为
正常
绿色闪烁■正常□异常说明:
检查网线是否连接正常检查网线与交换机
之间的连线是否正
常,以及双机心跳网
线连接是否正常
交换机连接主机的所有
端口指示灯为长亮,双
机系统的公网与交换机
之间的连接应为交叉连
接。
■正常□异常说明:
服务器网卡工作状态服务器插上网线后,
若有数据传输,则网
卡指示灯呈现规律
性闪烁;若闪烁不正
常或指示灯指示颜
色不正常,则说明系
统数据传输将不正
常
网卡指示灯正常闪烁■正常□异常说明:
服务器散热检测靠近服务器检查是
否有热风吹出
■正常□异常说明:
服务器电源连接检查电源连接线是否有
松动、接触不良等情
况
■正常□异常说明:
服务器外壳整体检查服务器整体是否有
移动或损害痕迹
■正常□异常说明:
服务器机房温度机房的温度是否异
常变动,温度数值多
少
参考值温度:20℃-26℃□正常
□异常说明:租
用机房不适用
服务器机房湿度机房的湿度是否异
常变动,湿度计数值
多少
参考值温度:45%-60%□正常
□异常说明:租
用机房不适用
服务器机房静电防护防静电地板是否损
坏,防静电设备是否
正常
□正常
□异常说明:租
用机房不适用
服务器标签检查标签是否松动、脱
落,字体是否模糊不
清
■正常□异常说明:
操作系统检查
检查项检查操作参考标准检查结果
操作系统版本检
查
执行命令uname –a red hat 6.5 ■正常□异常说明:系统账户检查利用root身份、口令登陆能够正常登陆到系统■正常□异常说明:
系统运行状态#uptime 系统UP时间应该为
上次重启导目前的时
间
■正常□异常说明:
附图
性能检查
检查项检查操作参考标准检查结果
检查各进程资源CPU占用率#top -c CPU使用率小于80% ■正常范围□异常说明:检查各进程资源内存占用率#top –c 内存使用率小于80%■正常范围□异常说明:检查各进程资源内存交换区
使用率
#top –c 内存交换区使用率小于80%■正常范围□异常说明:
Top命令相关说明
➢统计信息区说明
第一行是任务队列信息,同 uptime 命令的执行结果。
其内容如下:
00:06:05 当前时间
up 34 day 13:06 系统运行时间,格式为时:分
1 user 当前登录用户数
load average: 0.11, 0.09, 0.09 系统负载,即任务队列的平均长度,三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。
Tasks: 718 total 进程总数
1 running 正在运行的进程数
717 sleeping 睡眠的进程数
0 stopped 停止的进程数
0 zombie 僵尸进程数
Cpu(s): 0.1% us 用户空间占用CPU百分比
**% sy 内核空间占用CPU百分比
**% ni 用户进程空间内改变过优先级的进程占用CPU百分比
**% id 空闲CPU百分比
**% wa 等待输入输出的CPU时间百分比
**% hi 硬中断(Hardware IRQ)占用CPU的百分比
**% si 软中断(Software Interrupts)占用CPU的百分比
Mem: 32688784k total 物理内存总量
3468924k used 使用的物理内存总量
29219860k free 空闲内存总量
358008k buffers 用作内核缓存的内存量
Swap: 16776184k total 交换区总量
0k used 使用的交换区总量
16776184k free 空闲交换区总量
2089240k cached 缓冲的交换区总量。
内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖,该数值即为这些内容已存在于内存中的交换区的大小。
相应的内存再次被换出时可不必再对交换区写入。
安全检查
检查项检查操作参考标准检查结果
检查当前登陆用户#who
除了管理员外没有其他用户登
录
■正常范围□异常说明:
文件系统占用率#df –ah 没有文件系统超过80%的现
象
■正常范围□异常说明:
系统账户安全检查#more /etc/passwd
没有异常账户信息存在
■正常范围□异常说明:#more /etc/shadow ■正常范围□异常说明:
文件系统日志#dmesg 无错误日志或错误日志不会影
响系统的正常运行
■正常□异常说明:
系统开放端口检查#netstat
指显示出提供对于服务的端
口,无关的端口一律关闭
■正常□异常说明:
系统登陆情况检
查
#lastlog 无异常账户或异常时间登陆■正常□异常说明:
显示登录在系统里的用户,检查他们正在做什么以及他们的处理器
使用状况。
属于常
用的安全方面的
命令。
#w ■正常□异常说明:
查看硬件配置:本
地硬盘
df -h ■正常范围□异常说明:文件系统占用率#df -k
表示的是文件系统名称使用
空间、空闲空间、使用率、文
件所在位置。
■正常□异常说明:附图
网络管理命令
检查项
检查操作参考标准检查结果
显示内核路由表#route –n ■正常□异常说明:主机连接系统网络情况ping命令
观察5分钟是否有丢
包情况
■正常范围□异常说明:
主机网络配置情况
执行命令ifconfig
–a 端口应该UP,IP地址、
子网掩码正确
■正常□异常说明:。