运维服务管理的5大难点及对策
- 格式:doc
- 大小:40.00 KB
- 文档页数:4
运维常见问题和解决方案
《运维常见问题和解决方案》
运维(运维技术)是指运营和维护的缩写,主要是指企业的
IT基础设施和应用服务的管理。
在进行运维工作的过程中,
经常会遇到一些常见问题,这些问题需要及时解决,以保证系统的正常运行。
以下是一些运维常见问题和解决方案:
1. 网络故障
网络故障是最常见的问题之一。
当出现网络故障时,首先需要检查网络设备和连接是否正常。
如果网络设备无故障,可能是网络配置问题,可以尝试重新配置网络设置或重启设备。
2. 硬件故障
硬件故障包括服务器、存储设备、交换机等硬件设备的故障。
当出现硬件故障时,需要及时更换故障设备,并重新配置系统,以保证系统的正常运行。
3. 软件升级问题
在进行软件升级时,可能会出现兼容性问题或安装失败的情况。
为了避免这些问题,需要提前备份系统数据并进行充分的测试,确保升级过程顺利。
4. 安全漏洞
安全漏洞可能导致系统遭受黑客攻击或数据泄露。
为了避免安全漏洞,需要及时更新系统补丁,并加强系统安全配置,定期进行安全检查,保证系统的安全性。
5. 性能问题
系统性能问题可能导致应用服务的延迟或崩溃。
为了解决性能问题,可以通过优化系统配置、增加硬件资源或使用性能监控工具定位问题,并进行相应的调整和优化。
综上所述,运维工作中常见的问题有很多,解决这些问题需要运维人员具备丰富的经验和技能。
通过及时的故障排除和系统优化,可以确保企业的IT基础设施和应用服务的正常运行。
运维工作存在的问题
运维工作存在的一些常见问题包括:
1. 人工操作繁琐:传统的运维工作通常需要人工手动操作,包括系统部署、配置管理、日志分析等,工作繁琐且容易出错。
2. 高维护成本:随着业务规模的增长,运维所需的服务器、网络、存储等设备数量也会增加,增加了硬件维护和成本。
3. 部署问题:运维工作中常常出现的问题之一是部署的复杂性。
手动部署容易出错而且耗时长,并且需要保证在不同环境中的一致性。
4. 异常监测与故障处理:运维人员需要及时发现和解决系统故障,包括服务器宕机、网络中断、应用程序故障等。
这对运维人员来说是一个重要的挑战。
5. 扩展能力有限:当业务需要扩展时,运维团队往往需要加大投入,增加服务器和设备数量,增加人力投入来应对高负载和高并发请求。
6. 文档和知识管理:运维工作涉及到系统配置、变更记录、问题解决方案等大量的文档和知识,需要进行有效的管理和维护。
7. 自动化程度低:传统的运维工作往往依赖手动操作,缺乏自动化的工具和流程。
这使得运维工作效率低下,难以应对大规模和复杂的系统。
8. 安全性问题:运维工作需要保证系统的安全性,包括数据的保护、漏洞修复和身份认证等。
安全性问题需要得到高度关注和处理。
9. 应急响应不及时:当系统出现问题时,运维团队需要及时响应和解决。
但在某些情况下,应急响应不及时,导致系统停机时间过长,影响业务的正常进行。
以上是一些常见的运维工作问题,解决这些问题的关键在于引入自动化工具和流程,提高运维效率和质量。
运维服务管理的5大难点及对策以下基于我们公司的情况讨论运维服务管理,可能不是非常具有代表性,只是希望找出运维服务管理中经常碰到的难点,以及对应的解决方法。
前段时间,一位朋友说了一个观点,运维服务是自动化程度最低的一个行业,很有意思,那运维服务会不会也是管理最薄弱的一个行业呢?我接触运维服务的时间不长,但个人总觉得我们把运维服务搞得复杂化了,没有看透业务本质。
在运维服务行业,真正意义上的管理者非常缺乏,我说的“管理者”,是用对象的方式看待业务与流程的。
有时我们过于强调行业经验的重要性,事实上在管理领域,行业的特性对管理者提出的特殊要求没有我们想象的多。
运维服务尚未真正形成行业,多数的领导者不以管理见长,多是从底层或技术部门提升而来,视野与管理理念缺乏,妨碍了运维服务管理的成熟与发展。
以下我将对运维服务管理的一些难点展开说明。
一.项目型管理方式的挑战当一个组织以项目的形式运作管理时,在管理上积淀是比较困难的。
项目本身就是一个独立的权力结构,公司的组织机构是按部门、科室式划分,管理体系也多以部门职能划分流程,这时权力的矛盾就会在业务运作时产生,发生资源的略夺行为。
要么部门难以管理,要么项目难以管理。
而项目是一个临时的组织,这种人力的汇聚与释放都比较麻烦,起用一名人力需要相当长的磨合期。
而公司的任务往往是周期性的(最小时间单位很大),这时人力释放并不意味可以马上投入利用,这种痛苦没有经历过很难体会到,这比你在ERP中排生产计划还要难。
运维服务普通是以项目的形式管理的,项目内的作业与部门或公司的管理往往存在误差。
如果部门或公司处于强势地位,项目内的作业往往会被冲击,或者被动敷衍配合公司的管理。
比如培训,站在部门或公司的角度希望搞员工能力提升的培训,这种计划安排,往往与项目内希望做的培训有非常大的出入。
项目的一线主管,往往认为公司或部门不是帮助他们,而是一个麻烦制造者。
一旦项目数量大时,这种情况越普遍。
因为项目越多,上层对规范、标准化的愿望就越发强烈,当一线主管花费越来越多的管理资源,配合公司的规范与标准时,对项目的控制力就会下降。
工程管理中的运维阶段重难点及改善思路在工程管理中,运维阶段常常是一个被忽视或者被低估重要性的环节。
然而,良好的运维工作对于项目的稳定性和可维护性至关重要。
本文将从深度和广度的角度来探讨工程管理中运维阶段的重难点,并提出改善思路。
1. 运维阶段的重难点1.1 系统稳定性在运维阶段,系统稳定性是一个至关重要的指标。
然而,由于系统的复杂性和多样性,很多时候系统稳定性很难得到保障。
特别是在大规模的分布式系统中,系统稳定性往往成为一个头疼的问题。
各种未知的风险、硬件故障、软件bug等都可能对系统的稳定性产生影响,给运维工作增加了难度。
1.2 故障排查与处理一旦系统出现故障,对于运维团队来说,排查与处理故障是一项极具挑战性的任务。
很多时候,故障的原因并不是显而易见的,需要深入的技术知识和丰富的经验来进行排查。
而且,在处理故障的过程中,需要保证对系统的影响最小化,这就需要高效的应急响应和快速的恢复能力。
1.3 资源管理运维阶段需要对资源进行合理的调配和管理,包括硬件资源、网络资源、人力资源等。
如何更加高效地利用资源,提高系统的利用率,降低成本,是一个需要考虑的重要问题。
2. 改善思路2.1 自动化运维自动化运维是提高运维效率和稳定性的重要手段。
通过自动化工具和流程,能够减少运维人员的重复劳动,提高工作效率,同时减少人为错误的发生。
在系统部署、配置管理、监控告警等方面都可以借助自动化来提高运维效率。
2.2 弹性架构设计在系统设计阶段就考虑到运维的需求,设计具有较强弹性的架构。
当系统出现负载异常、服务不可用等情况时,系统能够自动进行伸缩,从而确保系统的稳定性和可用性。
需要在架构设计中考虑到故障的隔离和容错性,以减小故障对整个系统的影响。
2.3 数据驱动的运维通过数据分析和挖掘,能够更好地了解系统的运行状况和性能问题。
基于数据驱动的运维,能够及时发现潜在问题,并提前做出预防和调整。
通过数据的支持,能够优化资源的调配和利用,提高运维的效率和成本控制。
网络运维管理的挑战与解决方案随着互联网的迅猛发展,网络运维管理已经成为企业日常运营中的重要环节。
然而,网络运维管理也面临着一系列的挑战。
本文将探讨网络运维管理的挑战,并提出一些解决方案,以帮助企业提升网络运维管理的效率和质量。
一、网络运维管理的挑战1. 复杂性:现代网络环境中存在着各种各样的设备、协议和技术,如路由器、交换机、防火墙、负载均衡等。
不同设备之间的兼容性和交互性造成了网络运维管理的复杂性。
2. 安全性:网络威胁和黑客攻击继续增长,企业面临着日益严峻的网络安全挑战。
网络运维管理需要及时发现和应对各种安全威胁,以确保网络环境的安全性。
3. 故障排除:网络故障是网络运维中常见的问题。
故障排除需要精确定位问题所在,并快速采取措施进行修复,以减少业务中断时间。
4. 性能管理:随着网络负载不断增加,网络性能的管理和监控变得尤为重要。
网络运维管理需要通过实时监控和分析,及时发现并解决性能问题,以提供用户满意的网络体验。
5. 规模化管理:随着企业规模的扩大,网络设备的数量也在不断增加。
规模化网络运维管理需要自动化工具和流程的支持,以便高效地管理和操作大量设备。
二、网络运维管理的解决方案1. 自动化运维工具:采用自动化运维工具可以提高管理效率。
例如,网络配置管理工具可以帮助管理人员集中管理和配置网络设备,减少手动操作的工作量。
2. 安全威胁监测:实施安全威胁监测系统,通过对网络流量进行实时监控和分析,及时发现并应对潜在的安全威胁。
3. 故障管理系统:建立完善的故障管理系统,可以帮助运维团队快速定位和解决网络故障。
此外,还可以采用自动化的故障排除工具,快速识别并解决常见的故障问题。
4. 性能监控与优化:利用性能监控工具实时监测网络性能,对网络瓶颈进行识别和优化。
定期进行性能测试和评估,确保网络的高效运行。
5. 规模化管理平台:借助网络运维管理平台,可以集中管理和监控企业所有网络设备。
管理平台包括设备自动发现功能,以及集中化的设备配置管理、事件管理和性能管理等功能,提高管理效率。
运维工作中的常见挑战及应对策略在当今数字化的时代,运维工作对于企业的正常运营和发展起着至关重要的作用。
运维人员需要确保系统的稳定性、安全性和高效性,以支持企业的业务持续运行。
然而,在实际的运维工作中,往往会面临各种各样的挑战。
一、运维工作中的常见挑战1、复杂的系统架构随着企业业务的不断发展和技术的不断更新,系统架构变得越来越复杂。
可能涉及到多个服务器、数据库、网络设备、应用程序等,它们之间的相互关系错综复杂。
这使得运维人员在进行故障排查、性能优化和系统升级时面临巨大的困难。
2、频繁的变更管理业务需求的不断变化导致系统需要频繁进行变更,如软件的更新、配置的修改、新功能的上线等。
如果变更管理不当,很容易引发系统故障,影响业务的正常运行。
3、资源紧张包括硬件资源(如服务器内存、存储)和人力资源。
硬件资源不足可能导致系统性能下降,而人力资源紧张则会使运维人员面临巨大的工作压力,难以应对突发情况和进行深入的系统优化。
4、安全威胁网络攻击、数据泄露等安全威胁日益严峻。
运维人员需要不断加强系统的安全防护,及时发现和处理安全漏洞,确保企业数据的安全。
5、监控与预警的难题有效的监控是及时发现问题的关键,但建立全面、准确的监控体系并非易事。
同时,如何从大量的监控数据中快速准确地识别出关键的预警信息也是一个挑战。
6、跨部门协作的障碍运维工作往往需要与开发、测试、业务等多个部门紧密协作。
但由于部门之间的目标、工作方式和优先级不同,可能会导致沟通不畅、协作困难,影响问题的解决效率。
7、高可用性的要求许多企业的业务对系统的可用性要求极高,需要实现 24/7 不间断运行。
这对运维人员的技术水平和应急处理能力提出了很高的要求。
二、应对策略1、优化系统架构对复杂的系统架构进行梳理和优化,简化系统之间的关系,采用模块化、分布式的架构设计,提高系统的可维护性和可扩展性。
同时,建立完善的系统文档,记录系统的架构、配置和运行逻辑,方便运维人员快速了解系统。
服务器运维中常见问题及解决方案在进行服务器运维工作时,经常会遇到各种各样的问题,这些问题可能会影响服务器的正常运行,甚至导致系统崩溃。
为了保障服务器的稳定性和安全性,及时解决这些问题至关重要。
本文将介绍一些服务器运维中常见的问题,并提供相应的解决方案,希望能帮助大家更好地应对这些挑战。
一、服务器性能问题1. 问题描述:服务器性能下降,响应速度变慢,甚至出现卡顿现象。
解决方案:首先可以通过监控工具查看服务器的负载情况,找出是否有某个进程占用了过多的资源。
可以尝试优化代码、增加硬件资源(如CPU、内存)或升级服务器配置来提升性能。
另外,定期清理服务器日志和临时文件也是提升性能的有效方法。
2. 问题描述:服务器频繁宕机或重启。
解决方案:首先检查服务器硬件是否正常,如电源、内存、硬盘等是否存在故障。
其次,查看系统日志,找出导致服务器宕机的原因,可能是由于软件bug、系统配置错误等引起的。
及时更新系统补丁、升级软件版本可以解决一些潜在的问题。
二、网络问题1. 问题描述:服务器无法访问外网或内网,网络连接异常。
解决方案:首先检查服务器的网络配置,确保IP地址、子网掩码、网关等设置正确。
可以通过ping命令测试网络连通性,找出网络故障的具体原因。
如果是防火墙导致的网络问题,需要检查防火墙规则是否设置正确,是否阻止了服务器的网络访问。
2. 问题描述:服务器遭受DDoS攻击,网络带宽被占用。
解决方案:可以通过配置防火墙规则、使用DDoS防护服务等方式来应对DDoS攻击。
另外,及时更新系统补丁、加强服务器安全配置也是防范DDoS攻击的重要手段。
三、安全问题1. 问题描述:服务器存在安全漏洞,可能被黑客攻击。
解决方案:定期对服务器进行安全漏洞扫描,及时修补漏洞是防范黑客攻击的有效方法。
另外,加强服务器的访问控制、配置防火墙、使用安全加固工具等措施也可以提升服务器的安全性。
2. 问题描述:服务器遭受恶意软件感染,系统数据被篡改或删除。
服务器运维的常见问题及解决方法随着信息技术的不断发展,服务器在企业和个人生活中扮演着越来越重要的角色。
然而,服务器在长时间运行过程中难免会遇到各种各样的问题,这些问题如果不能及时有效地解决,就会给工作和生活带来不必要的困扰。
因此,了解服务器运维中常见的问题及其解决方法显得尤为重要。
本文将就服务器运维中常见的问题进行分析,并提供相应的解决方法。
一、服务器性能问题1. 问题描述:服务器性能下降,运行速度变慢,响应时间延长。
解决方法:首先,可以通过监控工具查看服务器的负载情况,找出负载高的原因。
其次,可以优化服务器的配置,增加内存、CPU等硬件资源。
另外,及时清理服务器上的无用文件和日志,释放磁盘空间。
最后,可以考虑对服务器进行定期维护和优化,提高服务器的性能。
二、网络连接问题2. 问题描述:服务器无法连接到网络,无法访问外部网站。
解决方法:首先,检查服务器的网络配置,确保IP地址、子网掩码、网关等配置正确无误。
其次,检查网络设备,如路由器、交换机等是否正常工作。
再次,检查防火墙设置,确保防火墙没有阻止服务器的网络连接。
最后,可以尝试重启服务器和网络设备,看是否能够解决问题。
三、安全漏洞问题3. 问题描述:服务器存在安全漏洞,容易受到黑客攻击。
解决方法:首先,及时更新服务器的操作系统和应用程序,安装最新的补丁和安全更新。
其次,加强服务器的安全设置,设置复杂的密码,限制远程登录权限,关闭不必要的服务端口。
另外,可以安装防火墙和安全软件,加强对服务器的监控和防护。
最后,定期对服务器进行安全检查和漏洞扫描,及时发现并修复安全问题。
四、数据备份问题4. 问题描述:服务器重要数据丢失或损坏,无法恢复。
解决方法:首先,建立定期备份机制,将重要数据定期备份到外部存储设备或云存储中。
其次,备份数据时要注意数据的完整性和一致性,确保备份数据是可用的。
另外,可以使用备份软件来自动备份数据,提高备份效率。
最后,定期测试备份数据的恢复能力,确保在数据丢失时能够及时恢复数据。
IT运维管理常见问题及解决办法【新版】IT运维管理常见问题及解决办法IT部门在项目管理上的失误大多是由计划不当或沟通不畅所引起的。
这些错误严重降低了项目的成功几率,公司在众多项目的实施管理中或多或少存在着问题,在下文中将罗列出几类IT运维管理常见问题及解决办法,帮助你加以比照、测量与改善。
一、用人不当1. 缺乏适当的人员与技能影响:用人不当与资源分配失调是项目管理失误中最常见的一种现象。
一个项目能否圆满完成,人员与技能的配备占了主导因素。
用人不当的结果往往会导致项目无法继续执行,这样就算计划再好,也是纸上谈兵。
建议:IT与项目经理应全面了解及掌控技能与资源情况,包括对项目顾问、合约承包商和外包商的详细评估。
使用项目管理软件可以帮助项目经理充分掌握所有团队成员的技能与工作量分配。
在了解分工与职责后,IT与项目经理就可以决定如何在日常工作和项目中合理分配资源。
指派专门的资源经理来负责解决人员与资源的分配问题也是一个不错的主意。
如果你在项目人员分配上依然有困难,或许可以考虑先查看整个公司的项目组合,然后暂缓那些与商业战略关系不大,或非任务关键的项目,从而释放部分可用资源。
2. 缺乏富有经验的项目经理影响:如果没有一名经验丰富的项目经理掌舵,项目很可能会随着发展而失去控制。
建议:聘用一名符合项目要求,并拥有出色人际关系处理技巧的项目经理。
他应当有号召力,能够管理风险,并在团队成员和外部参与者之间起到协调作用。
此外,一名优秀的项目经理也应该具备相关技术的知识与技能。
二、流程问题3. 没有遵循标准的项目管理流程影响:这是项目管理中的第二大常见失误。
缺乏合理的流程会抬高项目风险,加大项目失败的可能性,最终导致无法在限定的时间与预算内完成项目。
建议:制定良好的项目管理流程能助你提高项目效率,并及时捕捉到项目执行过程中的各种问题,控制风险。
IT与项目经理应事先建立可重复的流程来进行项目规划、资源分配与成员沟通。
这样才能保障项目所能产生的回报与成效。
运维服务管理的5大难点及对策以下基于我们公司的情况讨论运维服务管理,可能不是非常具有代表性,只是希望找出运维服务管理中经常碰到的难点,以及对应的解决方法。
前段时间,一位朋友说了一个观点,运维服务是自动化程度最低的一个行业,很有意思,那运维服务会不会也是管理最薄弱的一个行业呢?我接触运维服务的时间不长,但个人总觉得我们把运维服务搞得复杂化了,没有看透业务本质。
在运维服务行业,真正意义上的管理者非常缺乏,我说的“管理者”,是用对象的方式看待业务与流程的。
有时我们过于强调行业经验的重要性,事实上在管理领域,行业的特性对管理者提出的特殊要求没有我们想象的多。
运维服务尚未真正形成行业,多数的领导者不以管理见长,多是从底层或技术部门提升而来,视野与管理理念缺乏,妨碍了运维服务管理的成熟与发展。
以下我将对运维服务管理的一些难点展开说明。
一.项目型管理方式的挑战当一个组织以项目的形式运作管理时,在管理上积淀是比较困难的。
项目本身就是一个独立的权力结构,公司的组织机构是按部门、科室式划分,管理体系也多以部门职能划分流程,这时权力的矛盾就会在业务运作时产生,发生资源的略夺行为。
要么部门难以管理,要么项目难以管理。
而项目是一个临时的组织,这种人力的汇聚与释放都比较麻烦,起用一名人力需要相当长的磨合期。
而公司的任务往往是周期性的(最小时间单位很大),这时人力释放并不意味可以马上投入利用,这种痛苦没有经历过很难体会到,这比你在ERP中排生产计划还要难。
运维服务一般是以项目的形式管理的,项目内的作业与部门或公司的管理往往存在偏差。
如果部门或公司处于强势地位,项目内的作业往往会被冲击,或者被动敷衍配合公司的管理。
比如培训,站在部门或公司的角度希望搞员工能力提升的培训,这种计划安排,往往与项目内希望做的培训有非常大的出入。
项目的一线主管,往往认为公司或部门不是帮助他们,而是一个麻烦制造者。
一旦项目数量大时,这种情况越普遍。
因为项目越多,上层对规范、标准化的愿望就越发强烈,当一线主管花费越来越多的管理资源,配合公司的规范与标准时,对项目的控制力就会下降。
一旦发生问题,上层领导就会认为是缺乏规范与标准化所致,形成一个恶性循环。
我经常看到一种现象,当某个项目发生个严重运维事件时,马上会短时间把管理资源堆积起来,对事件进行深入到可怕的分析,然后制订出一个非常完备的制度,要求每个项目进行落实。
这种做法会起良性作用吗?我怀疑,因为反应过度了,也有些缺乏理性。
资源永远是有限的,你把多数的资源花在防止概率很低的问题上,而让那些概率较高的问题没有相应的管理资源去控制,你采用的措施会妨碍你达到目的。
对运维服务而言,你让客户用一个最重要的词说出他的要求,他们往往会说“稳定”。
同样,运维服务管理也是最需要稳定的,救火堵漏的做法不可取。
先稳定你的管理,再去谈改善。
永远处于制度的发布与调整中,会让运维服务管理成为最大的运维风险。
我觉得此时领导者的作用非常重要。
作为高层领导,由于缺乏细节信息,对自已的运维服务管理缺乏信心,一旦发生问题,就会过度反应,这种现象是非常可怕的。
作为运维服务的管理部门,一定要想清楚自已应该做什么,你的管理边界在什么地方。
你是一个政策制订者,不应该越过项目的边界去干涉项目的内部事务。
管理部门负责服务体系的维护与执行监督,及所有服务资源的调配,这才是最重要的。
更细节层面,管理部门应该只扮演辅助角色。
二.运维资源的充分利用问题有时我会想一个问题:做运维的人员,是应该忙还是闲呢?这是个很矛盾的问题。
如果忙,那证明你的运维问题比较多;闲吧,证明你运维问题比较少,但你的资源可能没有充分利用。
那有没有一种可能,把每一个运维人员的工作安排得都不是那么忙,也不是那么闲呢?运维最大的成本是人力成本,想办法提高工时利用率,本无可厚非。
但分析下来,做到这一点有时不现实,或者是很困难的。
在多数运维服务中,你的运维对象不是标准化的,尤其是在软件领域。
这决定了你的人员复用是困难的,因为一个人员的脑子只能装进几个系统,而每个系统的升级与处理故障的知识是每隔一段时间就更新的。
举这样一个例子:A系统每天的问题处理需要3小时,B系统需要3小时,现在由两个不同的人员负责,那是不是可以由一个人负责运维这两个系统呢?现实肯定是行不通的。
即便一个人可以掌握两个系统运维的知识,两个系统发生故障的时间完全有可能重叠,还有其它临时事务排挤在一起,造成服务问题。
这种情况下,人力的闲置不可避免。
虽然即便一名服务人员的资源没有充分利用,客户也会购买你整个的人力。
但当这样的闲置情况很多时,作为一个商业公司,就要想办法去提高资源利用率。
这方面好像除了提高人员的运维能力外,没有更好的办法对应解决。
三.服务台管理问题服务台设立也是一个比较复杂的课题。
怎样的服务台才最有效、最节省资源?如果仅仅为了满足参观者的感官,让一帮戴着耳机的热线MM坐成一片,忙碌着,用甜美的声音问着好,确也显得气派。
但现实情况中,这样的服务台很可能没起到作用,是在浪费运维资源。
项目多时,服务台的人员恐怕听不懂客户在说些什么,尤其当你的运维服务不是标准化的产品服务时(比如桌面)。
比如,一个客户打电话过来,说“我的售车申报做不了”,服务台人员如果没有深入的项目知识,估计连是哪个系统都搞不清楚,甚至连问题描述与等级都不知道如何定(注意服务台人员要在ITSM系统中派单)。
这时,服务台可能直接转电话或者草草记录下来,其作用跟一个4万元的语音菜单没有区别。
更有意思的是,语音菜单会在客户电话时提示:A系统请按1,这时电话是接入到服务台,还是接入到这个系统的一线工程师呢?如果服务台可以处理这个电话,事实上服务台就是一线。
多数情况下,服务台人员无法处理这类电话,除非你把所有一线工程师纳入服务台。
在运维服务中,当你的服务台无法做一线支持时,不设立专门的热线MM会合适些,或者把你一线支持人员全部纳入服务台中,把服务台做成一个虚拟或混合型的。
我们的情况跟上述有些类似,服务台人员不了解具体的项目知识,需要把电话转到一线人员处;或者告诉一线人员,由一线人员跟客户联系,最后客户都不打电话到服务台了。
我个人倾向于把一线人员纳入服务台,取消单纯接电话性质的服务台人员,这会节约运维资源,但这也会产生一些问题,比如谁来监督事件的服务质量。
四.运维服务分析问题运维服务中,我们一直强调改善,改善就意味着一要清楚你的现状,二要清楚你的目标。
这两点是要基于大量数据分析的,我们说的改善不是针对项目这么微观的层面,而是基于整体的层面,这意味着你的数据有一个度量标准。
这个标准适于不同类型的项目,不然你根本无从知道你的整体状况。
这里ITIL中的SLM有一个指引作用,但这还不够,我认为要做到深入的运维分析,需要以下几个要素:①需要有一个精确的CMDB:CMDB提供信息让你方便把每一次事件定位,以便知道什么地方什么组件出了多少问题,在项目层面可以提供精确的数据做改进(哪一个模块是问题最多的);在管理层面,CMDB的附带信息会告诉你,哪一类设备是我们运维的薄弱环节(如果硬盘的故障比重较大,我们可能换供应商,或者提升运维人员的硬盘维修能力)。
②需要有一个横向业务分类基准:要基于组织层面,规划出一个分类数据,以供每一个项目统一调用。
比如事件的类型,我们可以分为:故障、请求、咨询、新需求、投诉,这样可以跨项目统计,每个周期内每一个事件类型有多少。
比如事件的分类:我们可以分为软件、硬件、网络、数据库、接口、业务。
③需要时间资源的记录:这一部份的数据采集最为困难,也最有价值。
它与上面的信息交互分析,可以知道哪一类设备花去我们最多的时间资源(CMDB),可以知道我们硬件故障的平均处理时长是多少(事件分类),还可以知道新需求会花去我们多少时间资源(事件类型)。
除此之外,基于员工的绩效分析以及运维结算的数据统计都需要基于此部份信息。
运维服务分析,个人的意见是:没有ITSM软件,是难以展开的。
五.软件化管理问题运维服务作业采用ITSM软件管理,这本没有什么值得争议,说来我也在设计与推行这种工具,但应用时的确两难。
有人问我,用ITSM系统对一线工程师到底有什么好处?换位思考,如果我是一名一线工程师,我是不愿意使用这种工具的,我快速把事件搞定,不去填任何信息,来得多快。
说什么知识库与CMDB,我没有这些时,故障一样可以处理。
我不是否认我设计的东西,只是它真正的价值在于平台与运维服务管理,而不在于具体的业务支持。
ITSM系统的上线,会降低运维服务成本吗?会提高运维服务的效率吗?我的回答是不会,起码短期不会。
同样是修一台电脑,怎么可能会因为上一个ITSM工具,以前需要30分钟,现在就只要20分钟呢?人们一直没有理解管理软件的真正价值。
管理软件首先要满足管理的需求,而不是具体业务操作的需求。
你想提高桌面的运维效率么?SMS是解决这一方面问题的。
上ITSM工具,是为了固化你的体制与流程,让你的服务体制更规范、标准化,形成一面镜子,把你真实的运维现状反映出来,让你的运维服务管理起来。
如果说某段时间增加了你的成本,那么这个成本是你必须付的,这是你以前欠下的债。
用一个不恰当的例子,学内功不能让你很快打倒一个人,学一个招式可以。
但学十年的内功跟学十年的招式相比,前者更具成效,而且当你学了招式一两年后,你会发现你无法进步,因为缺乏根基。
要想清楚你上ITSM工具是为什么,你要解决什么问题,如果你不是为了解决管理上的问题,而是为了提高工程师效率,那么不是你的目的错了就是选择错了。
只有当你的运维服务管理稳定成熟后,才能为你后续一切提升提供源源不断的动力、方向、决策支持数据,而软件就是帮助你前行的有力工具。
ITSM工具,由于SLA的计算,对事件处理信息录入有较苛刻的要求,这对需要在厂区跑来跑去的工程师来讲是比较麻烦的。
比如象桌面项目的服务工程师,他们不可能随身带着电脑,外面服务时,都是电话派单过去。
事件单关闭不及时,会引起SLA的计算失真问题。
这都是些负面影响,在软件功能上很难有什么解决办法,需要有其它的对应方式。
选取了ITSM工具,如果领导者不坚定,最后应用可能得不偿失。
如果没有强力实施到底,到时数据采集不到,管理分析无法有效进行,反而会让工程师怨声一片,两头不讨好。
退一万步说,最坏的结果是,不能有效支持业务活动,工程师比以前填写更多的信息,但对公司来说,有负面影响吗?我们不会因为上一个ITSM工具而多请几个人,也不会因为上一个ITSM工具多发一些加班费,所以成本是不会因此上升的。
长期来说,收益一定是有的。