(完整word版)VMware故障总结,推荐文档
- 格式:doc
- 大小:20.71 KB
- 文档页数:10
解决VMware虚拟机快照故障的方法虚拟化管理员能在VMware ESX上使用快照回到以前的状态及找出虚拟机哪里出错。
在这一系列文章的第一次部分中,我们讨论了怎么使用VMware快照。
在第二部分中,解释了在不浪费磁盘空间的情况下如何删除快照。
不过,当快照出现故障时该如何解决呢?定位有快照的虚拟机尝试找出哪台虚拟机有快照是个挑战。
在VMware Infrastructure Client或VirtualCenter里没有一个集中的办法找到快照,因此,你应该定期地检查ESX服务器,找到那些需要删除的旧快照。
下面有一些方法:方法1——使用服务器控制台的Find命令1.登录服务器控制台。
2.更改/vmfs/volumes/目录。
3.键入find -iname "*-delta.vmdk" -mtime +7 -ls找到在7天之内未被修改的快照文件或键入find -iname"*-delta.vmdk"找到所有的快照文件。
方法2——使用Dominic Rivera的叫做Snapalert的免费脚本。
这个脚本使用VI Perl工具包直接与VirtualCenter对话,并确保不需要在每台主机上安装任何组件(也适用于ESXi)。
也可以选择让脚本产生一个Email报告。
方法3——使用来自Xtravirt的叫做Snaphunter的免费工具,它能从多个ESX Servers报告虚拟机的快照状态,也能发送Email报告。
方法4——查询V irtualCenter SQL数据库。
VirtualCenter一直在它的VPX_SNAPSHOT表中追踪每台主机上的所有快照。
我曾经写了一个需要这个表的VBS脚本以显示运行快照的虚拟机列表。
这个方法不错。
不过它依赖数据库表,这可能在未来的VirtualCenter版本里有改变。
处理未正确删除的快照偶尔,一个快照未被正确删除,在虚拟机里仍然是活动的快照。
VMware vSphere常见问题汇总(十七)170. Vmdk 的重做日志已损坏解题思路[vmware-]环境:esxi5.0,vc5.0故障问题:执行storage vmotion之后,虚拟机出现了报错。
报错信息:xssj-000003.vmdk is corrupted.power off the virtual machine. If the problem still persists, discard the redo log.解提思路:【故障原因】由于快照之间的关系出现异常,导致vm启动失败:Vmware-34.log:2013-01-14t08:36:53.885z| vmx| disklib-chain :"/vmfs/volumes/50f13506-075ed29b-86b5-5ef3fd359eab/???è???3????184/xssj-000005.vmdk" : failed to open (the parent virtual disk has been modified 34.log:2013-01-14t08:36:53.886z| vmx| disklib-lib : failed to open'/vmfs/volumes/50f13506-075ed29b-86b5-5ef3fd359eab/???è???3????184/xssj-000006.vmdk' with flags 0xa the parent virtual disk has been modified since the child was created. The content id of the parent virtual disk does not match the corresponding parent content id in the child (18).Vmware-34.log:2013-01-14t08:36:53.886z| vmx| disk: cannot open disk"/vmfs/volumes/50f13506-075ed29b-86b5-5ef3fd359eab/???è???3????184/xssj-000006.vmdk": the parent virtual disk has been modified since the child was created. The content id of the parent virtual disk does not match the corresponding parent content id in the child (18).Vmware-34.log:2013-01-14t08:36:53.886z| vmx| msg_post: errorVmware-34.log:2013-01-14t08:36:53.886z| vmx| [msg.disk.nobackend] cannot open the disk '/vmfs/volumes/50f13506-075ed29b-86b5-5ef3fd359eab/???è???3????184/xssj-000006.vmdk' or one of the snapshot disks it depends on.Vmware-34.log:2013-01-14t08:36:53.886z| vmx| [msg.disk.configurediskerror] reason: the parent virtual disk has been modified since the child was created. The content id of the parent virtual disk does not match the corresponding parent content id in the child.Vmware-34.log:2013-01-14t08:36:53.900z| vmx| module diskearly power on failed.【快照之间的联系】正常情况下,原始磁盘与快照是通过parent content id来关联,父快照与子快照之间也是通过parent content id,但是现在我们查看原始磁盘与快照磁盘之间的关系,发现它们的cid和parentcid是混乱的,信息如下:Xssj.vmdk:cid=ba60eb23Xssj.vmdk:parentcid=ffffffffXssj-000001.vmdk:cid=27f8a456Xssj-000001.vmdk:parentcid=ba60eb23Xssj-000002.vmdk:cid=11ed1dacXssj-000002.vmdk:parentcid=27f8a456Xssj-000003.vmdk:cid=2583a010Xssj-000003.vmdk:parentcid=2583a010Xssj-000004.vmdk:cid=2583a010Xssj-000004.vmdk:parentcid=11ed1dacXssj-000005.vmdk:cid=4d38fabfXssj-000005.vmdk:parentcid=2583a010Xssj-000006.vmdk:cid=9402bf1aXssj-000006.vmdk:parentcid=a30d0e91可以看到这个磁盘关系从xssj.vmdk磁盘到xssj-000002.vmdk之间的关系都是没有问题的。
Vmware View常见问题汇总(一)2013-1-6 13:32:00文章摘要: 1、启连接服务器提示无法验证服务器故障内容:在对VMwareView5.0进行安装后,进行VMwareView连接时总会提示我们如下信息:VMwareView无法验证您连接的服务器额身份。
您的凭据可能不安全。
请询问管理员此服务器是否可信。
虽然我们可以通过继续来进行连接...1、启连接服务器提示无法验证服务器故障内容:在对VMware View 5.0进行安装后,进行VMware View连接时总会提示我们如下信息:VMware View 无法验证您连接的服务器额身份。
您的凭据可能不安全。
请询问管理员此服务器是否可信。
虽然我们可以通过继续来进行连接,但是这一提示看的我们不爽。
解决方法:通过如下简单的方法可以去除这一提示,在进行连接时,点击选项后会跳出一个窗口,点击“配置SSL”,勾选“连接可能不安全是发出警告”的选项框,确定后即可去除提示;2、部署linked clone虚拟桌面失败,提示如下错误提示:“View Composer agent initialization state error (18): Failed to join the domain”故障状态:1、部署linked clone虚拟桌面失败,提示如下错误提示:View Composer agent initialization state error (18): Failed to join the domain2、在composer日志里,能看到类是如下错误信息:2010-08-24 14:14:02,509 [3280] FATAL CSvmGaService - [svmGaService.cpp, 116] Domain joi n failedError 5 (0x5): Access is denied.2010-08-24 14:15:19,835 [328] FATAL CSvmGaService - [svmGaService.cpp, 116] Domain join failedError 5 (0x5): Access is denied.2010-08-24 14:16:37,317 [2432] FATAL CSvmGaService - [svmGaService.cpp, 116] Domain joi n failedError 5 (0x5): Access is denied.2010-08-24 14:27:10,213 [1900] FATAL ExceptionTranslator - [SvmStateMachine.h, 219] Doma in Join failed even with maximum number of retriesError 0 (0x0): The operation completed3、在Connection Server日志文件里,有类似如下信息:2010-08-24 14:11:01,004 DEBUG [VirtualCenterDriver] Initial configuration on VM /Training/v m/test2/WSGLTV1 succeed. machine.id: eSvi=1;vdi.broker.brokerPublicKey=MIH wMIGoBgcqhkjOOAQBMIGcAkEA/KaCzo4Syrom78z3EQ5SbbB4sF7ey80etKII864WF64B81uRpH5t9jQTxeEu0ImbzRMqzVDZkVG9xD7nN1kuFwIVAJYu3cw2nLqOuyY O5rahJtk0bjjFAkBnhHGyepz0TukaScUUfbGpqDTWSGkx0tFCcbnjUDC3H9c9oXkGmzLik1Yw4cIGI1TQ2iCmxBblC+eUykBBYCFANl5tlAb bdew2tywpHVz8bhYkLY;vdi.broker.disconnecttimeout=-1;vdi.broker.singleuse=0;e Sysprep=0;vdi.broker.poolDn=cn=test2,ou=server groups,dc=vdi,dc=vmware,dc=int2010-08-24 14:27:17,016 ERROR [VmInformation] The VM: /Training/vm/test2/WSGLTV1 - en countered an error: 8/24/10 2:27:17 PM EDT: View Composer agent initialization state error (18): Failed to join the domain (waited 810 seconds) 2010-08-24 14:27:17,021 DEBUG [EventLogger] Info_Event:[BROKER_PROVISIONING_SVI_ERROR_COMPOSER_AGENT_INIT_FAILED ] "Provisioning error occurred for Machine WSGLTV1: View Composer agent initialization failed ": Source=com.vmware.vdi.desktoptracker.VmInformation, Time=Tue Aug 24 14:27:17 EDT 201 0, Severity=ERROR, Node=GL-VDIVIEW-01.fletc.dmz, MachineName=WSGLTV1, Module=B roker, Acknowledged=true 2010-08-24 14:27:17,048 DEBUG [VmInformation] ::Updating VM st ate /Training/vm/test2/WSGLTV1 ERRORERROR: 8/24/10 2:27:17 PM EDT: View Composer agent initialization state error (18): Failed to join the domain (waited 810 seconds)故障分析这个问题就是由于模板虚拟机需要打上相应的补丁才行;解决方案在创建Windows 2008的OU时如果勾选了Protect container from accidental deletion选项,这回有这个情况,Everyone用户组没有权限,所以,需要打上相关的补丁即可,参考:944043。
VMwarevSphere常见问题汇总——ESXi主机、vCenterServer 1. 查看ESXi主机的管理服务的运⾏状态⽅式 (1)打开DUCI的Local ESXi Shell,然后Alt+F1进⼊到命令界⾯; (2)执⾏如下命令查看hostd服务是否正常运⾏: /etc/init.d/hostd status 输出类似如下结果: hostd is running (3)如果ESXi主机有连接到vCenter Server则还可以查看vCenter Server位于ESXi主机上的Agent是否正常: /etc/init.d/vpxa status 输出类似如下结果: vpxa is running 2、 vCenter Server 5.0 Update1的Service Status页标签显⽰License Services警报 故障状态 (1)vCenter Service Status页标签显⽰License Services警报; (2)系统提⽰如下错误警报: Threshold Usage Tracking service Alert Cannot obtain user-defined license thresholds Asset properties History service Alert Cannot store hosts' MAC addresses in thevCenter Server database Assignments Feeding service Alert Cannot obtain license assignments for VRAMusage License Usage History service Alert Cannot store license usage in vCenter Serverdatabase故障分析 故障分析 这个问题⼀般都是由于当升级vCenter Server到U1时VirtualCenter ManagementWebservices运⾏在AD账户下,这就可能导致Update之后的账户匹配关联丢失,进⽽导致服务⽆法启动; 解决⽅案 解决⽅案 (1)进⼊到Windows的服务管理器,然后打开VMware VirtualCenter ManagementWebservices的Properties选项; (2)点击Log On的页标签,更改账户关联,然后重启服务即可。
VMware vSphere HA主机状态故障排除方法VmwarevCenter Server 和 ESXi 主机在运行时难免遇到这样那样或潜在的故障,那么如何提前知晓这些故障或处理这些故障呢,在此小编支支招VMware vSphere HA主机状态故障的排除方法。
1、VMware vSphere HA主机状态故障排除方法一般情况下,vCenter Server 会报告 vSphere HA 主机状况,指示主机上的错误情况,这类错误会阻止 vSphere HA 充分保护主机上的虚拟机,并阻碍 vSphere HA 在故障出现后重新启动虚拟机的功能,当在主机上配置或取消配置 vSphere HA 时,或很少数情况下在正常运行期间可能出现错误,当出现错误时,应确定如何解决错误才能使 vSphere HA 全面运行。
2、vSphere HA 代理处于代理无法访问状况主机上的 vSphere HA 代理已处于代理无法访问状况一分钟或更长时间。
可能需要用户干预来解决这种情况。
问题:当首选主机或 vCenter Server 无法访问主机的代理时,vSphere HA 会报告代理处于代理无法访问状况。
因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。
原因:vSphere HA 代理可能因多个原因而处于代理无法访问状况。
这种情况通常表示网络连接问题正在阻止 vCenter Server 访问首选主机和主机上的代理,或表示群集中的所有主机都失败。
这种情况还可能表示一种不太可能的情况:vSphere HA 已被禁用并已在群集中重新启用但 vCenter Server 无法与主机上的 vSphere HA 代理通信,或主机上的代理已失败且监视程序进程无法将其重新启动。
解决方案:确定 vCenter Server 是否报告主机无响应。
如果是,则说明存在网络问题或整体性群集故障。
VMware vSphere HA主机状态故障排除方法Vmware vCenter Server 和 ESXi 主机在运行时难免遇到这样那样或潜在的故障,那么如何提前知晓这些故障或处理这些故障呢,在此小编支支招VMware vSphere HA主机状态故障的排除方法。
1、VMware vSphere HA主机状态故障排除方法一般情况下,vCenter Server 会报告 vSphere HA 主机状况,指示主机上的错误情况,这类错误会阻止 vSphere HA 充分保护主机上的虚拟机,并阻碍 vSphere HA 在故障出现后重新启动虚拟机的功能,当在主机上配置或取消配置 vSphere HA 时,或很少数情况下在正常运行期间可能出现错误,当出现错误时,应确定如何解决错误才能使 vSphere HA 全面运行。
2、vSphere HA 代理处于代理无法访问状况主机上的 vSphere HA 代理已处于代理无法访问状况一分钟或更长时间。
可能需要用户干预来解决这种情况。
问题:当首选主机或 vCenter Server 无法访问主机的代理时,vSphere HA 会报告代理处于代理无法访问状况。
因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。
原因:vSphere HA 代理可能因多个原因而处于代理无法访问状况。
这种情况通常表示网络连接问题正在阻止 vCenter Server 访问首选主机和主机上的代理,或表示群集中的所有主机都失败。
这种情况还可能表示一种不太可能的情况:vSphere HA 已被禁用并已在群集中重新启用但 vCenter Server 无法与主机上的 vSphere HA 代理通信,或主机上的代理已失败且监视程序进程无法将其重新启动。
解决方案:确定 vCenter Server 是否报告主机无响应。
如果是,则说明存在网络问题或整体性群集故障。
VmwarevSphere常见问题及解决办法1. 虚拟机文件被锁,无法正常 power on故障状态:启动虚拟机时95%,停顿并且进程中断,提示:ubable to access files since it is locked。
祸根:HA解决方法:(1)首先将cluster中的HA功能关闭。
如果该功能不关闭,容易造成死锁,,VM不断跳动,,不断再不同的ESX内循环被锁,徒劳而无功。
(2)磁盘文件被锁,要解决,必须要知道到底是哪台ESX把他给锁住了,这是关键。
方法:看/var/log/vmkernel但是,在做这些前, 再准备些别的工作。
(3)在VC中,把被锁的VM从Inventory中remove掉。
原因很简单,这是一个 unregister的过程。
(4)根据/var/log/vmkernel,搜索owner,可以找到类似以下的语句: Oct 19 04:23:33 esx-hostname vmkernel: 3:06:29:47.992 cpu6:1656)FS3:1975: Checking if lock holders are live for lock [type 10c00001 offse t 52008960 v 380, hb offset 3554304 Oct 19 04:23:33 esx-hostname vmk ernel: gen 17, mode 1, owner 48f5f637-462688bc-fd28-0e1a6434b6f8 mti me 38112]OK,owner后面的48f5f637-462688bc-fd28-0e1a6434b6f8就是你的target 了。
因为他就是锁住VM 的宿主.。
(5)根据以下命令,,找出到底哪台ESX的UUID是 48f5f637-462688bc-fd28-0e1a6434b6f8[root@esxhostname root]# esxcfg-info |grep -i 'system uuid'(6)找到目标主机后,当然是杀死他锁住VM的进程。
Knowledge Base故障排查 VMware Fusion 网络和 Internet 连接问题 (2030460)Symptoms免责声明:本文为 Troubleshooting networking and internet connection issues in VMware Fusion (1016466) (/selfservice/search.do?cmd=displayKC&docType=kc&docTypeID=DT_KB_1_1&externalId=1016466) 的翻译版本。
尽管我们会不断努力为本文提供最佳翻译版本,但本地化的内容可能会过时。
有关最新内容,请参见英文版本。
虚拟机没有网络连接。
从客户操作系统不能连接到 Internet。
虚拟机无法获得 IP 地址。
bridged、host-only(主机模式)或 NAT(网络地址转换模式)网络连接失败。
从之前的 VMware Fusion 版本升级后,没有Internet连接。
系统工具栏的网络连接图标显示一个红色的 X。
Ethernet(以太网)适配器驱动没有安装。
当你打开 Internet Explorer,看到如下信息:Internet Explorer cannot display the webpage当你将鼠标放置到系统工具栏的网络图标上,看到如下信息:Not connectedNo connections are availableResolution有许多的原因会导致 VMware Fusion 中网络停止工作。
请验证如下各个故障排除的步骤,以确保它们是否适合您的环境。
每个步骤都提供了说明或文档链接,来排除可能的故障原因并采取必要的纠正措施。
这些步骤是以最合适的顺序排列来隔离问题和确定适当的解决方案,不要跳过任何一步。
每个步骤完成后,请检查虚拟机是否已有 Internet 连接。
出现这些问题之间,不通;见证流数据流vSAN见证节点主主要是vSAN172.18.93.用SSH主机(使用list量的网卡。
3.ip interface令查看当前主机置,得知当前主机有两个地址,(管理分区故障检查vSAN网络要检查vSAN分区问题,需要先了解vSAN群集节点主机数量,知道每个节点的管理IP地址、vSAN流量IP地址,最好是根据拓扑图检查。
例如图1所示为某4节点vSAN群集的拓扑,本文以该拓扑为例进行介绍。
根据拓扑图,记住vSAN群集中每个主机的管理地图1 某4节点vSAN群集拓扑图地址,例如ping 96.42ping 96.43ping令,依次流量地ping 172.18.93.142ping 172.18.93.143ping 172.18.93.144(5)两步常,表示络问需要检查其他原因。
如果到某台主机的管理管理VMkernel网络适配器配置为支持见证流量,该命令要求在图形界面中为VMkernel网络启用vSAN流量服务,该命令将vSAN流量设置为见证流量。
esxcli vsan networkip set -i vmk0 -T=witness如果未在图形界面中将VMkernel网络启用vSAN流量服务,可以直接为VMkernel增加vSAN见证流该的两址分10.66.64.29流量地址是172.31.255.29管理vSAN10.66.64.34。
1.盘管理”图2 某2节点延伸群集主机情况Ping见流量地址Ping通。
分区不是W e b在“监→运行状况”中,“软件版本兼提示升级机、见证发现见是用户升级了证虚群集出现集”中单击“更改见证主机”,将见证主机改为新部署的见证设备即可。
通常情况下更改了见证虚拟机之后,即可解决vSAN群集分区问题。
但更改见证主机之后,经过检查发现仍然存在分区现象。
在vSphere Web Client控制台中,左侧单击vCenterServer的名称,在“配置→存储提供程序”中,发现新添加的10.66.64.24的见证虚拟机为 “脱机”状态。
VMware vSphere HA主机状态故障排除方法Vmware vCenter Server 和 ESXi 主机在运行时难免遇到这样那样或潜在的故障,那么如何提前知晓这些故障或处理这些故障呢,在此小编支支招VMware vSphere HA主机状态故障的排除方法。
1、VMware vSphere HA主机状态故障排除方法一般情况下,vCenter Server 会报告 vSphere HA 主机状况,指示主机上的错误情况,这类错误会阻止 vSphere HA 充分保护主机上的虚拟机,并阻碍 vSphere HA 在故障出现后重新启动虚拟机的功能,当在主机上配置或取消配置 vSphere HA 时,或很少数情况下在正常运行期间可能出现错误,当出现错误时,应确定如何解决错误才能使 vSphere HA 全面运行。
2、vSphere HA 代理处于代理无法访问状况主机上的 vSphere HA 代理已处于代理无法访问状况一分钟或更长时间。
可能需要用户干预来解决这种情况。
问题:当首选主机或 vCenter Server 无法访问主机的代理时,vSphere HA 会报告代理处于代理无法访问状况。
因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。
原因:vSphere HA 代理可能因多个原因而处于代理无法访问状况。
这种情况通常表示网络连接问题正在阻止 vCenter Server 访问首选主机和主机上的代理,或表示群集中的所有主机都失败。
这种情况还可能表示一种不太可能的情况:vSphere HA 已被禁用并已在群集中重新启用但 vCenter Server 无法与主机上的 vSphere HA 代理通信,或主机上的代理已失败且监视程序进程无法将其重新启动。
解决方案:确定 vCenter Server 是否报告主机无响应。
如果是,则说明存在网络问题或整体性群集故障。
vmware故障排查知识VMware是一种虚拟化软件,用于在物理计算机上创建和管理虚拟机。
尽管VMware被广泛使用,并且在大多数情况下运行良好,但偶尔也会出现故障。
本文将介绍一些常见的VMware故障,并提供相应的排查方法。
一、无法启动虚拟机1. 检查虚拟机配置:确保虚拟机的配置文件正确,包括硬件要求、网络设置等。
2. 检查主机资源:确保主机上有足够的资源来运行虚拟机,如CPU、内存和磁盘空间。
3. 检查虚拟机状态:查看虚拟机的电源状态,如果虚拟机处于关机状态,尝试启动虚拟机。
二、虚拟机无法连接到网络1. 检查网络适配器设置:确保虚拟机的网络适配器设置正确,并与主机的网络连接方式一致。
2. 检查网络配置:检查虚拟机的IP地址、子网掩码、网关等网络配置是否正确。
3. 检查网络连接:尝试通过虚拟机的命令行工具或图形界面工具来测试虚拟机是否能够与其他设备进行网络通信。
三、虚拟机性能下降1. 检查主机资源:检查主机的CPU、内存和磁盘使用情况,确保主机上没有资源瓶颈。
2. 检查虚拟机配置:调整虚拟机的配置,如增加内存、调整CPU分配等,以提高虚拟机的性能。
3. 检查虚拟机内部问题:检查虚拟机内部的进程和服务,确保没有占用过多资源的进程或服务。
四、主机无法连接到存储设备1. 检查存储设备连接:确保存储设备与主机之间的连接正常,如光纤通道、iSCSI连接等。
2. 检查存储设备状态:检查存储设备的状态,如磁盘是否正常工作、存储设备是否已满等。
3. 检查主机配置:检查主机的存储适配器设置,确保适配器与存储设备兼容并正确配置。
五、虚拟机无法迁移1. 检查网络连接:检查源主机和目标主机之间的网络连接,确保网络通畅。
2. 检查存储连接:检查源主机和目标主机之间的存储连接,确保存储设备可用。
3. 检查迁移设置:检查迁移设置,如是否启用了vMotion功能、网络配置是否正确等。
六、VMware服务无法启动1. 检查服务状态:检查VMware相关服务的状态,确保服务已启动并正常运行。
虚拟机故障诊断与修复报告1. 报告概述本报告旨在详细阐述虚拟机故障的诊断过程以及相应的修复措施。
通过本次报告,我们希望能够找出导致虚拟机故障的原因,并给出解决方案,以确保虚拟机的正常运行。
2. 故障现象在本次调查中,我们发现虚拟机出现了以下故障现象:- 虚拟机无法启动- 虚拟机运行速度缓慢- 虚拟机出现频繁死机现象3. 故障诊断为了找出虚拟机故障的原因,我们对虚拟机进行了详细的诊断。
诊断过程如下:3.1 检查虚拟机配置我们首先检查了虚拟机的配置文件,确认配置是否正确。
检查内容包括:- 虚拟机的硬件配置是否满足需求- 虚拟机的操作系统配置是否正确- 虚拟机的网络配置是否正常3.2 检查虚拟机硬件接着,我们对虚拟机的硬件进行了检查。
检查内容包括:- 虚拟机的CPU使用率是否过高- 虚拟机的内存使用情况是否正常- 虚拟机的硬盘空间是否充足- 虚拟机的显卡使用情况是否正常3.3 检查虚拟机软件我们还对虚拟机的软件进行了检查。
检查内容包括:- 虚拟机中安装的软件是否正常运行- 虚拟机的系统日志是否存在异常信息- 虚拟机的安全软件是否正常工作4. 故障原因分析通过以上的诊断,我们分析出虚拟机故障的原因可能有以下几点:- 虚拟机的硬件配置不足,导致运行缓慢甚至无法启动- 虚拟机的操作系统存在问题,导致无法正常运行- 虚拟机的网络配置错误,导致网络连接失败- 虚拟机中安装的软件存在问题,导致虚拟机故障5. 修复措施为了修复虚拟机故障,我们将采取以下措施:5.1 优化虚拟机硬件配置我们将根据虚拟机的运行需求,适当增加硬件资源,如增加内存、更换高性能CPU等,以提高虚拟机的运行速度。
5.2 修复操作系统问题我们将重新安装虚拟机操作系统,确保操作系统的稳定性和兼容性。
5.3 调整网络配置我们将重新配置虚拟机的网络设置,确保虚拟机可以正常连接网络。
5.4 清理虚拟机软件问题我们将卸载虚拟机中存在问题的软件,并在虚拟机中安装经过验证的软件,以确保虚拟机的正常运行。
诊断 VMware系统问题VMware ESX 服务器允许在一台服务器上以虚拟机的形式运行多个类似的或完全不同的操作系统实例,因此合并应用程式的工作负荷就简单而迅速。
不过即使采用了最佳的、最综合的方案,系统还是可能崩溃。
为了帮助进行故障排除,在VMware ESX 服务器崩溃时,你能以多种方法,根据崩溃的现象对问题进行分类。
最常见的方法是分类归入到四维矩阵中,矩阵的一个轴上是服务器和虚拟机,另外一个轴上是网络和存储。
此外,更有一个经常出现问题的地方是管理用户界面(Management User Interface,MUI),他不时地会遇见问题。
当崩溃发生时,诊断的第一步是搜集诊断数据?? 收集完诊断数据之后,你就能分析数据来找出崩溃的原因了。
接下来的几节向你展示了怎么搜集数据,到哪里查找信息,及怎么解释信息。
搜集诊断数据要搜集的第一部分关键数据是由/usr/bin/vm-support 脚本产生的输出文件。
这个文件放在当前目录中,并被命名为esx-XXXX-XX-XX.XXXX.tgz(其中X是日期/进程标识符信息,例如esx-2005-01-04.27059.tgz)。
VMware 会定期更新/usr/bin/vm-support 脚本。
为了搜集最精确的信息,请下载并安装最新版本。
此外,如果你正遇见VirtualCenter 的问题,那么还需要搜集VirtualCenter 日志(对这个问题的诊断不在本文的范围内)。
所有的最新版本请参阅参考资料。
搜集完这些信息之后,你就能将vm-support 输出文件(为二进制模式)传输给适当的支持人员来诊断。
要在一个基于Linux 的系统上提取这个文件,请执行下面的命令:tar zxvf esx-XXXX-XX-XX.XXXX.tgz。
诊断系统概述让我们从系统的高度来看一下系统中的硬件是怎么设置和分配的。
你能使用命令行工具来查看,或查看/usr/bin/vm-support 文件的输出。
VmwarevSphere 常见问题及解决方法日期:2021-6-29 来源:51ctoVmwarevSphere11虚拟机文件被锁,无法正常poweron故障状态:启动虚拟机时95%,停顿并且进程中断,提示:ubable to accessfiles sinceitislocked。
祸根:HA解决方法:〔1〕首先将cluster中的HA功能关闭。
如果该功能不关闭,容易造成死锁,,VM不断跳动,,不断再不同的ESX内循环被锁,徒劳而无功。
〔2〕磁盘文件被锁,要解决,必须要知道到底是哪台 ESX把他给锁住了,这是关键。
方法:看/var/log/vmkernel 但是,在做这些前,再准备些别的工作。
〔3〕在VC中,把被锁的VM从Inventory 中remove 掉。
原因很简单,这是一个unregister 的过程。
〔4〕根据/var/log/vmkernel ,搜索owner,可以找到类似以下的语句:Oct 19 cpu6:1656)FS3:1975: Checking iflock holders arelive for lock [type 10c00001offset 52021960 v380,hb offset 3554304 Oct 1904:23:33 esx-hostname vmkernel: gen 17,mode 1,owner 48f5f637-462688bc-fd28-0e1a6434b6f8 mtime 38112]OK,owner后面的48f5f637-462688bc-fd28-0e1a6434b6f8 就是你的target了。
因为他就是锁住VM 的宿主.。
〔5〕根据以下命令,,找出到底哪台ESX的UUID是48f5f637-462688bc-fd28-0e1a6434b6f8[root@esxhostname root]# esxcfg-info |grep -i'system uuid'〔6〕找到目标主机后,当然是杀死他锁住VM的进程。
诊断和故障排除指南– Virtual SAN VMware® Virtual SAN诊断和故障排除参考手册目录1. 简介 (12)运行状况服务 (12)2.VMWARE VIRTUAL SAN (VSAN) 是什么? (13)V IRTUAL SAN 的常见故障排除方案 (14)本文结极 (15)3.VIRTUAL SAN 的故障排除工具 (16)V S PHERE W EB C LIENT (16)ESXCLI (16)R UBY V S PHERE 控制台- RVC (17)VSAN O BSERVER (17)第三方工具 (17)故障排除工具摘要 (18)4.《VMWARE 兼容性指南》和VIRTUAL SAN (19)检查V S PHERE 软件版本 (19)关于V IRTUAL SAN R EADY N ODE 的说明 (20)关于VM WARE EVO:RAIL 的说明 (20)检查主机/服务器兼容性 (21)esxcli hardware platform get (21)通过VCG 验证服务器支持 (22)检查主机内存要求 (23)主机内存不足的症状 (23)许可证检查 (24)同类主机配置 (25)关于多个控制器和SAS 扩展器的说明 (25)第1 部分- 收集控制器/闪存设备信息 (26)使用vSphere Web Client UI 捕获设备信息 (26)使用ESXCLI 捕获设备信息 (27)esxcli storage core device list (27)直通或RAID-0 (28)esxcli core storage adapter list (29)esxcfg-scsidevs –a (29)处理多个控制器 (30)esxcli storage core path list (30)esxcfg-scsidevs –A (31)关于SCSI 标识符的说明 (31)显示磁盘驱动器信息 (31)esxcfg-scsidevs –c (32)使用ESXCLI 捕获存储控制器信息 (32)esxcli hardware pci list (32)vmkload_mod –s (34)esxcli system module get -m (34)esxcli software vib list (35)使用fio-status(Fusion-IO 命令)检查设置 (36)第2 部分- 根据《VM WARE 兼容性指南》验证硬件支持 (37)收集的信息 (37)检查存储控制器/适配器的可支持性 (38)了解RAID-0 与直通 (39)检查存储控制器/适配器驱动程序和固件 (40)关于OEM ESXi ISO 映像的说明 (41)检查Fusion-IO 闪存设备:型号 (42)检查Fusion-IO 闪存设备:固件 (44)检查Fusion-IO 闪存设备:驱动程序 (45)演示结果 (46)版本5.5 中的闪存注意事项 (47)版本6.0 中的闪存注意事项 (48)全闪存设备的注意事项 (48)磁盘注意事项 (49)外部存储机箱的注意事项 (49)处理器电源管理的注意事项 (49)VCG 查阅总结 (50)5.VIRTUAL SAN 软件组件 (51)本地日志的结极化对象管理- LSOM (51)分布式对象管理器- DOM (51)群集级别对象管理器- CLOM (51)群集监控、成员资格和目录服务- CMMDS (52)可靠数据报传输- RDT (52)6.了解可用性和可访问性 (53)对象和组件 (53)什么是副本? (54)什么是证明? (54)故障:“不存在”与“已降级” (55)对象合规性状态:合规与不合规 (58)对象操作状况:正常与不正常 (59)虚拟机可访问性:不可访问与孤立 (60)故障处理– V IRTUAL SAN 故障安全机制 (60)遇到多次故障时的虚拟机行为 (60)虚拟机已打开电源且虚拟机主页命名空间对象不可访问 (61)虚拟机已打开电源且磁盘对象不可访问 (61)7.了解预期的故障行为 (62)磁盘仍ESX I 主机中意外拔出 (62)预期行为: (62)预期行为– UI 视图和日志条目: (63)闪存缓存SSD 仍ESX I 主机中意外拔出 (64)预期行为: (64)当磁盘出现故障时会发生什么情况? (65)预期行为: (65)当缓存层SSD 出现故障时会发生什么情况? (66)预期行为: (66)将新磁盘放在ESX I 主机中 (67)预期行为: (67)将新缓存层SSD 放在ESX I 主机中 (67)预期行为: (67)当服务器出现故障或重新引导时会发生什么情况? (69)断开网络链路时会发生什么情况? (70)整个群集网络出现故障时会发生什么情况? (71)存储I/O 控制器出现故障时会发生什么情况? (71)处理多个故障 (72)8.RVC 入门 (73)RVC 和V SAN O BSERVER 简介 (73)RVC 部署建议 (73)仍V C ENTER S ERVER A PPLIANCE 启动RVC (73)仍W INDOWS V C ENTER S ERVER 启动RVC (77)9.导航RVC (79)导航RVC 的示例 (79)使用RVC 显示适配器信息 (81)vsan.disks_info –show-adapters (81)使用RVC 验证V IRTUAL SAN 功能 (81)vsan.cluster_info (82)关于故障域的说明 (83)vsan.check_state (84)vsan.check_limits (86)关于RDT 关联/插槽/客户端/所有者的简要说明 (89)关于重新访问的磁盘组件的简要说明 (89)了解组件和组件计数 (91)通过vSphere Web Client 检查组件 (91)vsan.vm_object_info (92)vsan.object_info (93)vsan.whatif_host_failures (95)10.对VIRTUAL SAN 网络进行故障排除 (96)V IRTUAL SAN 网络简介 (97)V IRTUAL SAN 网络要求 (98)物理网卡(NIC) 要求 (98)Virtual SAN 流量– vmknic 要求 (98)虚拟交换机要求 (98)MTU 与巨帧 (98)多播流量要求 (99)多播流量的IGMP 侦听和IGMP 查询器 (100)使用NIOC 和VDS 在Virtual SAN 流量上设置服务质量 (101)V IRTUAL SAN 和V S PHERE HA 的网络依赖关系 (102)更改vSphere HA 网络 (102)检查V IRTUAL SAN 网络是否正常运行 (103)esxcli vsan 网络列表 (103)esxcli network ip interface list (104)esxcli network ip interface ipv4 get –i vmk2 (104)vmkping (105)vsan.cluster_info (105)esxcli network ip neighbor list (106)esxcli network diag ping (106)检查多播设置 (107)tcpdump-uw –i vmk2 udp port 23451 –v (107)tcpdump-uw –i vmk2 igmp (108)存在多个V IRTUAL SAN 群集时更改多播设置 (108)esxcli vsan 网络列表 (109)esxcli vsan network ipv4 set (109)网络端口和ESX I 防火墙 (110)检查V IRTUAL SAN 网络的性能 (111)iperf(对于Virtual SAN 5.5) (111)iperf(对于Virtual SAN 6.0) (111)检查V IRTUAL SAN 网络限制 (112)vsan.check_limits (112)网络状态:检测到配置错误 (114)识别已分区的群集 (114)esxcli vsan 群集获取 (115)vsan.cluster_info (116)对多播配置问题进行排除故障 (117)多播配置错误问题的症状 (117)对MTU/巨帧不匹配进行故障排除 (118)esxcli network ip interface list (118)esxcli network vswitch standard list (118)MTU 配置错误的症状:无法完成文件创建 (120)验证子网/VLAN 设置 (121)esxcli network ip interface ipv4 get –i vmk2 (121)刷新网络配置 (122)vsan.reapply_vsan_vmknic_config (122)使用LACP FOR VSAN 网络的注意事项 (122)通过第3 层网络路由V IRTUAL SAN 流量 (122)物理网络交换机的配置和流控制 (123)ethtool (123)物理网络交换机的功能互操作性 (123)V IRTUAL SAN 网络的检查表摘要 (123)11.对VIRTUAL SAN 存储进行故障排除 (125)重新访问的V IRTUAL SAN 对象和组件 (125)对象布局和RAID 树 (126)V IRTUAL SAN 存储要求 (128)直通模式与RAID-0 模式 (128)检查存储I/O 控制器队列深度 (129)用于检查控制器队列深度的esxtop (129)esxcfg-info –s | grep “==+SCSI Interface”–A 18 (130)配置V IRTUAL SAN 存储 (132)存储I/O 控制器缓存 (132)关于HP SSD 智能路径观察结果的说明 (132)关于全闪存容量层的说明 (133)标识属于RAID-0 卷的SSD (134)V IRTUAL SAN 存储限制 (135)vsan.check_limits (135)验证V IRTUAL SAN 存储操作– ESX CLI (137)esxcli core storage device list (137)Is SSD 和Is Local (138)esxcli vsan storage list (139)vdq (139)vdq - IsCapacityFlash (140)esxcli storage core device stats get (141)验证V IRTUAL SAN 存储操作– RVC (142)vsan.check_state (142)vsan.disks_stats (142)V IRTUAL SAN 数据存储空间管理 (143)维护模式 (143)SSD、磁盘或主机故障 (144)小型磁盘驱动器容量的注意事项 (144)超大型VMDK 的注意事项 (144)动态更改虚拟机存储策略 (145)使用无法实现的策略置备 (145)达到阈值时会发生什么情况? (146)V IRTUAL SAN 上的组件分布 (146)使用RVC 检查磁盘使用情况分布– vsan.disks_stats (146)使用RVC 检查组件分布– vsan.disks_limits (147)使用RVC 主动平衡组件分布 (147)vsan.proactive_rebalance (147)V IRTUAL SAN 故障修复–重新极建组件 (150)vsan.resync_dashboard (151)vsan.vm_object_info (151)vsan.resync_dashboard (152)测试V IRTUAL SAN 功能- 部署虚拟机 (153)diagnostics.vm_create (153)diagnostics.vm_create failure – clomd not running (153)常见存储问题和解决方案 (154)Virtual SAN 正在声明磁盘,但容量不正确 (154)Virtual SAN 不声明磁盘- 现有分区信息 (154)esxcli vsan storage remove (155)partedUtil (155)Virtual SAN 不声明磁盘- Is Local:false (155)V IRTUAL SAN 存储设备故障观察结果 (157)磁盘出现故障/以可控方式移除时的观察结果 (157)esxcli vsan storage list - unknown (159)vdq –qH:IsPDL (160)闪存设备出现故障时的观察结果 (161)存储控制器出现故障时的观察结果 (162)存储控制器更换 (163)驱动器报告错误时的预期行为 (163)驱动器上闪烁的LED (164)预测报告- SMARTD (165)esxcli storage core device smart get (165)在V IRTUAL SAN 上克隆时的注意事项 (166)关于VSAN S PARSE 虚拟磁盘格式的说明 (166)V IRTUAL SAN 存储的摘要检查表 (167)12.对VIRTUAL SAN 升级进行故障排除 (168)V IRTUAL SAN 升级- 磁盘格式V2 (168)开始升级磁盘格式之前 (168)磁盘格式升级前检查:vsan.disks_stats (169)磁盘格式升级:vsan.v2_ondisk_upgrade (170)vsan.v2_ondisk_upgrade pre-checks (172)升级后磁盘格式检查:vsan.disks_limits (174)升级后磁盘格式检查:vsan.disks_stats (175)磁盘升级问题–交换对象不可访问 (176)仍Virtual SAN 数据存储中移除孤立的vswp 对象 (177)vsan.purge_inaccessible_vswp_objects (177)磁盘升级–资源不足,无法完成操作 (178)群集中没有足够资源时的升级途径 (179)13.对VASA 提供程序进行故障排除 (180)VASA 提供程序简介 (180)VASA 提供程序操作分析 (182)V IRTUAL SAN 提供程序的网络端口要求 (183)测试是否已打开V C ENTER 和ESX I 之间的端口8080 (184)版本5.5 中VASA 提供程序的已知问题 (185)14.VCENTER SERVER 和群集注意事项 (186)警报和事件 (186)根据Virtual SAN VOB 触发警报 (186)Virtual SAN 的VOB ID (186)为Virtual SAN 事件创建vCenter Server 警报 (187)维护模式和3 节点群集 (189)多个磁盘组和3 节点群集 (190)支持纯计算节点 (190)已知问题:CLOM 遇到意外错误。
Vmware vSphere常见问题及解决办法日期:2012-6-29来源:51ctoVmware vSphere111. 虚拟机文件被锁,无法正常power on故障状态:启动虚拟机时95%,停顿并且进程中断,提示:ubable to access files sinc e it is locked。
祸根:HA解决方法:(1)首先将cluster中的HA功能关闭。
如果该功能不关闭,容易造成死锁,,VM不断跳动,,不断再不同的ESX内循环被锁,徒劳而无功。
(2)磁盘文件被锁,要解决,必须要知道到底是哪台ESX把他给锁住了,这是关键。
方法:看/var/log/vmkernel但是,在做这些前, 再准备些别的工作。
(3)在VC中,把被锁的VM从Inventory中remove掉。
原因很简单,这是一个unregister的过程。
(4)根据/var/log/vmkernel,搜索owner,可以找到类似以下的语句: Oct 19 04:23:33 esx-hostname vmkernel: 3:06:29:47.992 cpu6:165 6)FS3: 1975: Checking if lock holders are live for lock [type 10c0000 1 offset 52008960 v 380, hb offset 3554304 Oct 19 04:23:33 esx-hostname vmkernel: gen 17, mode 1, owner 48f5f637-462688bc-fd28-0 e1a6434b6f8 mtime 38112]OK,owner后面的48f5f637-462688bc-fd28-0e1a6434b6f8就是你的t arget了。
因为他就是锁住VM 的宿主.。
(5)根据以下命令,,找出到底哪台ESX的UUID是48f5f637-462688b c-fd28-0e1a6434b6f8[root@esxhostname root]# esxcfg-info |grep -i 'system uuid'(6)找到目标主机后,当然是杀死他锁住VM的进程。
之所以会被锁,原因就是HA 把VM从别的HOST迁移过来,但是又没有unregister和register 的过程,所以在第3步的时候,你查看VM的Summary的时候,host ip还是属于出问题的host。
但是VM又被新的host霸王硬上功的power on,注册都没注册, 又怎么启动呢。
找到PID 用下面的命令:ps -efwww|grep virtualmachine.vmx找到PID 后, kill -9 PID(7)这时候,还要确定一件事情, .vswp文件的事情。
这个是给台客处理问题时吸取的经验。
就因为忽略了这个,所以在杀掉迚程后,重新注册VM,还说没有SWAP文件,启动还是失败。
在VM 启动时会自动生成SWAP,没有SWAP文件,其实就是因为SWA P 存在了, 因为重名而导致无法正常生成。
进入到/vmfs/volumes/lunid/vm_path/下,vmkfs -d virtual_machine. vswp 或者进入Datastore Browser,在里面把SWAP文件删除也可。
(8)完全之策,你还可以进入到VM的SETTINGS--OPTIONS--SWAPFI LE LOCATION,对该保存的位置做下设置。
(9)重新注册VM。
进入Datastore Browser,找到VM.vmx,add to inventory。
(10)启动VM. Good Luck。
2. 忽视掉ESXi/vCenter Server提示SSH事件的方法(1)vSphere Client连接到VC或者ESXi服务器;(2)在Home -> Inventory -> Hosts and Clusters里展开选中你的ESX服务器;(3)右边选择Configuration,然后点击Software栏目里的Advanced Settings;(4)在Advanced Settings里选择左边列表中的UserVars;(5)选中左边列表中的UserVars后,在右边拖到最下面,将UserVars. SuppressShellWarning的值改为1即可,不需要重启。
3. 尝试迁移一台带USB设备的VM失败故障状态:在执行虚拟机迁移向导时,如果系统检测到不兼容的USB设备存在,则系统会提示如下错误信息:Currently connecteddevice 'USB 1' uses backing 'path:1/7/1',whic h is not accessible.故障分析:这种问题通常发生在为主机开启了VMDirectPath I/O支持下的USB Pas sthrough Devices功能,然后为特定的VMs分配了USB设备,比如:加密狗;解决方案:(1)确认USB设备能够被虚拟机识别和支持,并确保在添加USB设备到VMs时,勾选了with vMotion选项;(2)在执行vMotion动作之前,重新尝试将USB设备添加到VMs;(3)确认ESXi主机没被重启过,因为,ESXi主机重启之后,原本支持的vMotion WithvMotion功能将会失效。
4. Convert Linux系统的Troublshooting过程(1)确认源转换Linux机器的OS在官方的支持列表中;(2)拥有root权限;(3)确认DNS的设定有没有问题,注意:应该同时在Linux和Windows 都加上;(4)确认源Linux能够ping同ESX或vCenter的IP。
如果在2%时失败,最大的可能就是权限问题或防火墙阻隔问题;(5)确认Linux允许SSH登陆进去。
这个,可以帮助我们在converting 的时候登录到Linux系统;(6)确认是给helper virtual machine设定的静待IP,而不是DHCP获取的(如果网内没有DHCP服务器);(7)确认源和目标都在同一子网。
如果通过路由链接的不同子网可能会出错;(8)注意,converter不支持做了软阵列的Linux系统。
可以用冷克隆光盘来做,它会把软阵列的设定为/dev/md0。
(9)VMware Converter Standalone的日志目录:C:\Documents an d Settings\All Users\Application Data\VMware\VMware vCenter Conv erter Standalone,用于排错时用。
5. vCenter Service Status页面故障:Unable to retrieve health st atus故障状态:vCenter Server Status页面提示如下错误信息:Unable to retrieve health status for vCenter inventory serviceUnable to retrieve health status for VMware vSphere Profile-Driv en storage service执行vCenter Server的搜索动作时,提示如下错误提示:Unable to connect to webservices to perform query.Verify that the "VMware VirtualCenter Management WebServices " service running onhttps://<vcenter-host-name>:10443故障分析:这个问题一般都由于当vCenter Server服务发生了变更或全新安装了一台vCenter Server,但是数据库依然是原来的数据库导致;解决方案:替换掉vws.jar、jointool.jar和ds.jar文件即可,步骤如下:下载本文附件中的vws.zip文件然后解压缩vws.jar、jointool.jar和ds.jar 文件;停止掉VirtualCenter Server服务以及VirtualCenter Management We bservices服务;拷贝vws.jar和jointool.jar到C:\ProgramFiles\VMware\Inf rastructure\tomcat\webapps\WEB-INF\lib覆盖掉原来的文件;拷贝ds.jar 文件到C:\Program Files\VMware\Infrastructure\Inventory Service\lib覆盖掉原来的文件;重新启动相关服务或vCenter Server服务器即可。
6. VMRC 控制台的连接已断开…正在尝试重新连接故障状态:用vSphere Client连接到ESXi 5.0的主机,启动其中的虚拟机后,无法连接控制台,打开控制台之后,窗口上方提示一行“VMRC 控制台的连接已断开...正在尝试重新连接。
”故障分析:从情况看,类似于Windows系统的DEP策略处于开启状态导致的问题一样。
但这个情况是所有虚拟机都提示这个错误,排错DEP的问题,用本地vSp here Client登录一个VC平台,问题仍旧一样。
为了排除问题,换了一台笔记本登录VC,突然发现问题不见了。
原来是本地的vSphere Client出了问题,再三思索,发现出现问题前我对本地WIN7用360安全卫士升级了补丁,是否是补丁破坏了vSphere Client某个文件呢解决方案:重现安装vSphere Client,问题解决。
7. 端口80 的vCenter Server 和IIS 之间的冲突故障状态:vCenter Server 和Microsoft Internet Information Service (IIS) 都将端口80 用作直接HTTP 连接的默认端口。
该冲突会导致安装vSphere Au thentication Proxy 后vCenter Server 无法重新启动。
在vSphere Authe ntication Proxy 安装完成后,vCenter Server 无法重新启动。
故障分析:如果安装vSphere Authentication Proxy 时未安装IIS ,则安装程序会提示您安装IIS 。
因为IIS 使用端口80 ,这是用于vCenter Server 直接HTTP 连接的默认端口,所以vCenter Server 在vSphere Authentication Proxy。