当前位置：文档之家› weblogic故障诊断与日常维护总结

weblogic故障诊断与日常维护总结

中间件故障诊断总结

一、步骤：

1、准确描述现象：客户说的和自己查看到的：平台、版本、操作、信息等。特别是，故障前是否有做过什么操作：网络调整、设备调整、主机参数调整、配置文件修改……反正将这一切都列入排查的对象。

2、使用工具收集数据，收集配置文件、日志、dump文件等等。

3、使用分析数据，根据问题或收集的数据，使用适当的工具分析数据，当然包括了在网上和在官方支持站点搜索类似的问题的解决办法。

4、尝试解决问题，根据找到的问题点，尝试解决。如修改错的，复原正确的；运行有问题的，适当调整运行的环境和运行的参数等等。

5、给出最佳解决方案，一般就是继续观察了。

6、总结经验并加以重用，知识积累。

二、通过前台收集基本的信息：

1、重点是故障前做过的操作

2、比对运行平台是否在官方的兼容性列表中，一般就是关注各个版本，特别是一些比较怪异的问题

3、检查环境和参数，如能打开控制台，就在控制台中初步观察，一般进入控制台的格式是http://ip地址：端口/console如：http://192.168.0.89:7001/console/。常用的留意点如下：

A、域运行状态（域-监视-健康状况）；一般为running状态，如果不是

running，那这些界面就没有了。

B、服务器运行状态（域-环境-服务器），正常的为running。

进入，监视-健康状况）;留意JVM 堆中当前可用的内存量。

不同的JVM，所显示的内容可能不一样，以下为sun的：

D、各个server线程状态（域-环境-服务器，点击具体的serve后进入，监

视-线程）；一般来说，空闲线程要多；健康状况为ok

如下图health状态为：Warning，这个是有线程阻塞的。

阻塞线程的内容为：

####<2011-8-13 上午02时42分35秒 GMT+08:00> <[ACTIVE] ExecuteThread: '15' for queue:

'weblogic.kernel.Default (self-tuning)'> <> <> <>

<1313174555613> <[STUCK] ExecuteThread: '19' for queue: 'weblogic.kernel.Default (self-tuning)' has been busy for "2,492" seconds working on the request

"weblogic.work.SelfTuningWorkManagerImpl$WorkAdapterImpl@12035ed", which is more than the configured time (StuckThreadMaxTime) of "2,400" seconds. Stack trace:

https://www.doczj.com/doc/0818799059.html,.SocketOutputStream.socketWrite0(Native Method) https://www.doczj.com/doc/0818799059.html,.SocketOutputStream.socketWrite(SocketOutputStream.java:97)

https://www.doczj.com/doc/0818799059.html,.SocketOutputStream.write(SocketOutputStream.java:141)

https://www.doczj.com/doc/0818799059.html,.ns.DataPacket.send(Unknown Source)

E、JDBC（域-环境-服务器，点击具体的serve后进入，监视-JDBC）；活动

连接数合理。

F、程序EJB/Web Module（域-部署）；状态为活动，健康状况为ok。

其目标关联正确

G、JMS（域-服务-消息传送-JMS服务器）；健康状态为ok。

键字符，即可快速定位问题代码。

5、如果控制台打不开或无法进入，就要先看进程有没有在跑，如果进程有，但控制台或程序无法进入，一般就是有故障了，此时，可以通过相关日志进行后台分析分析。

三、后台日志分析：

一般来说，新建立的环境，配置的问题多一点；已经运行的生成系统错误或bug 的可能性大点。当出现故障时，就可以调取系统日志、中间件的日志，根据相关关键字（BEA-）网上搜索，或到官方网站对相关问题的描述进行查找。WebLogic在启动及运行过程中会记录各种LOG信息，以帮助系统治理员对整个应用系统进行治理及维护。

1、log默认位置

..\user_projects\domains\your_domain\servers\AdminServer\logs下面的AdminServer.log;access.log;domain_name.log

新版的如：

C:\Oracle\Middleware\user_projects\domains\base_domain\servers\Adm

inServer\logs

如果是重定向输出的，就看重定向输出的文件。

2、日志文件说明

WebLogic SERVER运行日志

假如WebLogic SERVER在启动或运行过程中有错误发生，错误信息会显示在屏幕上，并且会记录在一个LOG文件中，该文件默认名为AdminServer.log。该文件也记录WebLogic的启动及关闭等其他运行信息。可在Gernal属性页中设置该文件的路径及名字，错误的输出的等级等。

HTTP访问日志

在WebLogic中可以对用HTTP，HTTPS协议访问的服务器上的文件都做记录，该LOG文件默认的名字为Access.log,内容如下，该文件具体记录在某个时间，某个IP地址的客户端访问了服务器上的那个文件。

127.0.0.1 - - [25/Feb/2002:11:35:58 +0800] "GET /weather HTTP/1.1" 302 0

127.0.0.1 - - [25/Feb/2002:11:35:58 +0800] "GET /weather/index.Html HTTP/1.1" 200 176

HTTP访问日志的属性可在HTTP属性页中进行设置。

DOMAIN运行日志

记录一个DOMIAN的运行情况，一个DOMAIN中的各个WebLogic SERVER可以把它们的一些运行信息（比如：很严重的错误）发送给一个DOMAIN的ADMINISTRATOR SERVER上，ADMINISTRATOR SERVER把这些信息些到DOMAIN 日志中。默认名为：domain_name.log 。一般就看这个最多。

3、通过控制台查看或修改系统日志路径

登录weblogic后台

左侧菜单：Environment->Servers

右侧菜单：AdminServer(admin)->logging

只找到examplesServer.log、access.log

配置如图:

4、其他

如果日志太少，里面没有记载相关信息，可参照日志文件的回滚设置。在“滚动类型:”属性页中可以设置这些日志文件的回滚方式，当日志文件到一定得大小或过了设定的时间后，把日志信息保存到一个新的文件中。WebLogic提供按文件大小和时间两种方式。如下面的设置种，选择Rotation Type 为BY SIZE。

也就是当日志文件的大小达到500K时，重新写一个新的文件。假如Rotation Type 为BY TIME，那么是每隔一段时间重新写一个新的文件。并且对这些文件编号设置日志文件名如：_%yyyy%_%MM%_%dd%_%hh%_%mm%

5、日志的处理：查看日志中输出的具体内容，再进行处理。如：BEA-

下面是一个线程阻塞的一个信息

####<2011-8-13 上午03时51分46秒 GMT+08:00> <[ACTIVE] ExecuteThread: '11' for queue:

'weblogic.kernel.Default (self-tuning)'> <> <> <>

<1313178706712> <[STUCK] ExecuteThread: '1' for queue: 'weblogic.kernel.Default (self-tuning)' has been busy for "2,503" seconds working on the request

"weblogic.work.SelfTuningWorkManagerImpl$WorkAdapterImpl@deab5f", which is more than the configured time (StuckThreadMaxTime) of "2,400" seconds. Stack trace:

四、产生hread Dump来分析问题

hread Dump是非常有用的诊断Java应用问题的工具，每一个Java虚拟机都有及时生成显示所有线程在某一点状态的thread-dump的能力。虽然各个Java虚拟机thread dump打印输出格式上略微有一些不同，但是Thread dumps出来的信息包含线程；线程的运行状态、标识和调用的堆栈；调用的堆栈包含完整的类名，所执行的方法，如果可能的话还有源代码的行数。

Thread Dump特点：

?能在各种操作系统下使用

?能在各种Java应用服务器下使用

?可以在生产环境下使用而不影响系统的性能

?可以将问题直接定位到应用程序的代码行上

Thread Dump能诊断的问题包括：

?查找内存泄露，常见的是程序里load大量的数据到缓存

?发现死锁线程

?收集 Thread Dump

进行 Thread Dump 的方法取决于安装挂起服务器实例的操作系统。有关

在不同的操作系统上进行 Thread Dump 的信息，

Solaris OS

-’\’ (Control-Backslash)

kill -QUIT

Linux

Linux 操作系统查看线程的方式不同于其它操作系统。该操作系统将每个线程视

为一个进程。若要在 Linux 上进行 Thread Dump，查找通过其启动所有其它进程的进程 ID。使用命令：

若要获得根 PID，使用：

ps -efHl | grep 'java' **. **

使用一个作为字符串的 grep 参数（可在与服务器启动命令匹配的进程堆栈中找到该字符串）。如果 ps 命令还没有管道传送到另一个例程，则报告的第一个 PID 将是根进程。

IBM AIX

在AIX上用IBM的JVM，内存溢出时默认地会产生javacore文件（关于cpu的）和heapdump文件(关于内存的)。执行kill -3 命令可以生成javacore文件和heapdump文件（pid为was java进程的id号，可以用ps -ef|grep java 查到），可以多执行几次。

有些Java应用服务器是在控制台上运行，如Weblogic，为了方便获取threaddump 信息，在 weblogic启动的时候，最好将其标准输出重定向到一个文件，用"nohup sh startWebLogic.sh > start.log &"命令，执行"kill -3 "，Stack trace 就会输出到start.log里。为了反映线程状态的动态变化，需要接连多次做thread dump，每次间隔10-20s。

Windows、XP、NT

?设置DOS 窗口的属性：Layout -> Screen Buffer Size-> Height 9999。

?同时按下CTRL-BREAK

?找到Thread Dump的最开始的位置："Full thread dump. "

每个服务器需要 - 来创建诊断问题所需的 Thread Dump。确保在每个服务器上执行几次，每次间隔大约 5 到 10 秒，以帮助诊断死锁问题。在 NT 上，在命令 shell 中输入 CTRL-Break。

获取失败时刻的获取失败时刻的Thread Dump

?启动JVM 时，加入参数：

? Sun JVM: -XX:+ShowMessageBoxOnE

? JRockit JVM: -Djrockit.waitone

五、常见的问题

1、Out of Memory

?当JVM没有足够的内存执行任务时，会触发

https://www.doczj.com/doc/0818799059.html,ng.OutOfMemoryError

?当没有更多内存可以分配时

?或空闲的内存有太多碎片，无法利用时

?可能不足的内存类型有可能不足的内存类型有：：

? Native （物理内存）

? Heap （堆内存）

?特定Java 内存代（例如，permanet）

对Out of Memory的响应的响应

? JVM会发送error到标准输出流和错误输出流

? WLS会将应用程序没有处理的Java异常和错误都输出

到服务器日志

? Out-of-Memory和类似的系统错误不应该由应用程序直

接处理接处理

?如果应用程序发生错误，会给客户端返回错误信息（

例如HTTP 500）

?如果WLS子系统发生错误，则服务器处于不稳定状态，需要重启

内存泄漏内存泄漏

?内存泄漏：

?最常见的引发Out-of-Memory错误的原因

?在Java中，内存泄漏并不常发生（相对传统语言）

?内存泄漏的原因是当对象不再被需要时，没有显式声明，进而没有被垃圾回收处理

?常见的场景有：

?太大的缓存造成内存泄漏

?太多使用HTTP会话，导致内存泄漏

?对数据库操作结束时，没有正常关闭数据集及数据连接

?动态类加载问题

错误日志错误日志

?该日志文件通常包括如下类型的信息：

?操作系统错误消息

? JVM版本

?硬件和操作系统参数

?系统环境变量

?堆和垃圾回收汇总

?线程汇总

Runtime data area 主要包括五个部分：Heap (堆), Method Area(方法区域), Java Stack(java的栈), Program Counter(程序计数器), Native method stack(本地方法栈)。Heap 和Method Area是被所有线程的共享使用的；而Java stack, Program counter 和Native method stack是以线程为粒度的，每个线程独自拥有。

Heap

Java程序在运行时创建的所有类实或数组都放在同一个堆中。而一个Java虚拟实例中只存在一个堆空间，因此所有线程都将共享这个堆。每一个java程序独占一个JVM实例，因而每个java程序都有它自己的堆空间，它们不会彼此干扰。但是同一java程序的多个线程都共享着同一个堆空间，就得考虑多线程访问对象（堆数据）的同步问题。（这里可能出现的异常https://www.doczj.com/doc/0818799059.html,ng.OutOfMemoryError: Java heap space）

Method area

在Java虚拟机中，被装载的class的信息存储在Method area的内存中。当虚拟机装载某个类型时，它使用类装载器定位相应的class文件，然后读入这个class文件内容并把它传输到虚拟机中。紧接着虚拟机提取其中的类型信息，并将这些信息存储到方法区。该类型中的类（静态）变量同样也存储在方法区中。与Heap 一样，method area是多线程共享的，因此要考虑多线程访问的同步问题。比如，假设同时两个线程都企图访问一个名为Lava的类，而这个类还没有内装载入虚拟机，那么，这时应该只有一个线程去装载它，而另一个线程则只能等待。（这里可能出现的异常https://www.doczj.com/doc/0818799059.html,ng.OutOfMemoryError: PermGen full）

Java stack

Java stack以帧为单位保存线程的运行状态。虚拟机只会直接对Java stack执行两种操作：以帧为单位的压栈或出栈。每当线程调用一个方法的时候，就对当前状态作为一个帧保存到java stack中(压栈)；当一个方法调用返回时，从java stack弹出一个帧(出栈)。栈的大小是有一定的限制，这个可能出现StackOverFlow问题。下面的程序可以说明这个问题。

public class TestStackOverFlow {

public static void main(String[] args) {

Recursive r = new Recursive();

r.doit(10000);

// Exception in thread "main"

https://www.doczj.com/doc/0818799059.html,ng.StackOverflowError

}

class Recursive {

public int doit(int t) {

if (t <= 1) {

return 1;

}

return t + doit(t - 1);

}

Program counter

每个运行中的Java程序，每一个线程都有它自己的PC寄存器，也是该线程启动时创建的。PC寄存器的内容总是指向下一条将被执行指令的饿“地址”，这里的“地址”可以是一个本地指针，也可以是在方法区中相对应于该方法起始指令的偏移量。

Native method stack

对于一个运行中的Java程序而言，它还能会用到一些跟本地方法相关的数据区。当某个线程调用一个本地方法时，它就进入了一个全新的并且不再受虚拟机限制的世界。本地方法可以通过本地方法接口来访问虚拟机的运行时数据区，不止与此，它还可以做任何它想做的事情。比如，可以调用寄存器，或在操作系统中分配内存等。总之，本地方法具有和JVM相同的能力和权限。 (这里出现JVM无法控制的内存溢出问题native heap OutOfMemory )

旧系统

2、服务器挂起

问题描述

在出现以下情况时怀疑服务器挂起：

?服务器不响应新的请求。

?请求超时。

?请求处理的时间越来越长（其最终结果可能是挂起）。

?通常，服务器挂起不会表现为服务器崩溃，但服务器挂起之后可能会崩溃。?资源濒临枯竭：内存、工作线程、数据库连接池…

故障排除

请注意，并非下面所有任务都需要完成。有些问题仅通过执行几项任务就可以解

决。

快速链接：

为什么发生此问题？

服务器挂起的可能原因

基本步骤

已知的 WebLogic Server 问题

收集 Thread Dump

Thread Dump 分析

为什么发生此问题？

服务器挂起有多种原因。一般而言，服务器挂起是因为缺少某种资源。缺少资源会阻止服务器响应服务请求。例如，由于故障（死锁）或者大量请求的缘故，可能没有任何可用的执行线程来完成工作，所有执行线程都被占用或忙于处理以前的请求。

引起引起Server Hang的原因的原因

?工作线程太少

?垃圾回收占用时间太多

? JVM代码优化问题

?应用程序死锁

? JDBC 死锁

? Remote JNDI lookups

? JSP 编译

? JSP 不正确的设置：PageCheckSeconds

? JVM bug

服务器挂起的可能原因

主题模式名称链接

RMI、RJVM 响应－所有绑定线程等待 RJVM、RMI 响应。EJB_RMI 服务器挂起EJB_RMI 服务器挂起

应用程序死锁－线程锁定资源 1，然后等待锁定资源 2。另一个线程锁定资源2，然后等待锁定资源 1。应用程序死锁导致服务器挂起待定

线程全部被占用，没有线程可用于新工作。线程占用导致服务器挂起待定垃圾回收花费太多时间。垃圾回收导致服务器挂起待定

servlet 时间的 JSP 错误设置，比如 PageCheckSeconds。JSP 导致服务器挂起待定

死锁造成 JDBC 挂起。 JDBC 中的服务器挂起待定

（代码优化）过程中的 JVM 挂起类似于服务器挂起。代码优化中服务器挂起待定

在大量负载情况下 JSP 编译造成服务器挂起。 JSP 编译导致服务器挂起待定

SUN JVM 错误，比如轻量型线程库。Sun JVM 错误导致服务器挂起待定返回页首

基本步骤

当服务器挂起时，首先使用 java weblogic.Admin t3://server:port PING 来

ping 该服务器。如果服务器能够响应此 ping，则可能是应用程序正在挂起而不是服务器自身。

确保服务器确实正在挂起，而不是在做垃圾回收。若要验证挂起，启用-verbosegc 重新启动服务器，然后将 stdout 和 stderr 重定向到一个文件中。当服务器停止响应时，可以判断它是正在收集无用信息还是确实挂起。WebLogic Server 使用“Default”线程队列响应客户端服务请求。这些是在发生服务器挂起时应当检查的线程。下面是其中一个线程在 Thread Dump 中的形式示例。Execute Thread 14 正在等待任务。该线程调用的最后方法是Object.wait()。

"ExecuteThread: '14' for queue: 'default'" daemon prio=5 tid=0x8b0ab30 nid=0x1f4 waiting on monitor [0x96af000..0x96afdc4]

https://www.doczj.com/doc/0818799059.html,ng.Object.wait(Native Method)

https://www.doczj.com/doc/0818799059.html,ng.Object.wait(Object.java:420)

weblogic.kernel.ExecuteThread.waitForRequest(ExecuteThread.java:94)

weblogic.kernel.ExecuteThread.run(ExecuteThread.java:118)

确定“Default”ExecuteThread 队列是否超载。利用控制台确定“Default”队列中的所有 ExecuteThreads 是否空闲。如果没有一个空闲，则应用程序可能需要一个更大的 ExecuteThread 数来配置。可以通过控制台更改该值，并将其保存在 config.xml 文件中。

如果执行队列有空闲线程，则可能没有分配足够的 Socket Reader 线程。缺省情况下，WebLogic Server 实例在启动时创建三个 Socket Reader 线程。如果群集系统在高峰期使用的 Socket Reader 线程超过三个，则增加 Socket Reader 线程的数量。

通常，Socket Reader 线程的数量应当较小。但是，如果 Weblogic Serve 充当正在挂起的服务器实例的客户端，则应当为每个 Weblogic Serve 配置一个线程。

如果使用 JDBC 连接池，确保池中已经配置的 JDBC 连接数量与同时请求（即执行线程）的数量相等。

已知的 WebLogic 问题

JDBC 产生死锁问题的可能性存在。检查在 weblogic.log 开头找到的服务器的版本和 Service Pack 级别。然后对已经应用于服务器类路径的所有临时修补程序检查以上版本和 Service Pack 行。修补程序将指明已经解决了什么问题。

Thread Dump 分析

分析服务器挂起的最有用的工具是一系列 Thread Dump。Thread Dump 提供关于每个线程在特定时刻正在执行什么操作的信息。一系列 Thread Dump（一般每隔5 到 10 秒进行三个或更多 Thread Dump）可以帮助分析每个线程从一个Thread Dump 到另一个 Thread Dump 过程中的状态变化或所缺少的变化。挂起

服务器 Thread Dump 一般显示线程状态从第一个 Thread Dump 到最后一个Thread Dump 中变化很小。

在 Thread Dump 中查看的内容

所有请求都通过 ListenThread 进入 WebLogic Server。如果 ListenThread 丢失，就无法接收任何工作，因此也无法完成任何工作。确认在 Thread Dump 中存在 ListenThread。ListenThread 应当在 socketAccept 方法中。下面示例说明监听线程 (Listen Thread) 的形式。

"ListenThread.Default" prio=10 tid=0x00037888 nid=93 lwp_id=6888343 runnable [0x 1a81b000..0x1a81b530]at https://www.doczj.com/doc/0818799059.html,.PlainSocketImpl.socketAccept(Native Method)

https://www.doczj.com/doc/0818799059.html,.PlainSocketImpl.accept(PlainSocketImpl.java:353)

- locked <0x26d9d490> (a https://www.doczj.com/doc/0818799059.html,.PlainSocketImpl)

https://www.doczj.com/doc/0818799059.html,.ServerSocket.implAccept(ServerSocket.java:439)

https://www.doczj.com/doc/0818799059.html,.ServerSocket.accept(ServerSocket.java:410)

weblogic.socket.WeblogicServerSocket.accept(WeblogicServerSocket.java :24)

weblogic.t3.srvr.ListenThread.accept(ListenThread.java:713)

weblogic.t3.srvr.ListenThread.run(ListenThread.java:290)

Socket Reader 线程接受来自监听线程队列的传入请求，并将该请求放入执行线程队列。如果 Thread Dump 中没有 Socket Reader 线程，则在某个地方存在导致 Socket Reader 线程消失的错误。应当始终保持至少有三个 Socket Reader 线程。一个 Socket Reader 线程一般用于轮询功能，另外两个用于处理请求。下面是一个 Thread Dump 示例中的 Socket Reader 线程。

"ExecuteThread: '2' for queue: 'weblogic.socket.Muxer'" daemon prio=10 tid=0x00036128 nid=75 lwp_id=6888070 waiting for monitor entry [0x1b12f000..0x1b12f530]

weblogic.socket.PosixSocketMuxer.processSockets(PosixSocketMuxer.java :92)

- waiting to lock <0x25c01198> (a https://www.doczj.com/doc/0818799059.html,ng.String)

weblogic.socket.SocketReaderRequest.execute(SocketReaderRequest.java: 32)

weblogic.kernel.ExecuteThread.execute(ExecuteThread.java:178)

weblogic.kernel.ExecuteThread.run(ExecuteThread.java:151) "ExecuteThread: '1' for queue: 'weblogic.socket.Muxer'" daemon prio=10 tid=0x00035fc8 nid=74 lwp_id=6888067 runnable [0x1b1b0000..0x1b1b0530]at

weblogic.socket.PosixSocketMuxer.poll(Native Method)

weblogic.socket.PosixSocketMuxer.processSockets(PosixSocketMuxer.java :99)

- locked <0x25c01198> (a https://www.doczj.com/doc/0818799059.html,ng.String)

weblogic.socket.SocketReaderRequest.execute(SocketReaderRequest.java: 32)

weblogic.kernel.ExecuteThread.execute(ExecuteThread.java:178)

weblogic.kernel.ExecuteThread.run(ExecuteThread.java:151) "ExecuteThread: '0' for queue: 'weblogic.socket.Muxer'" daemon prio=10 tid=0x00035e68 nid=73 lwp_id=6888066 waiting for monitor entry [0x1b231000..0x1b231530]

weblogic.socket.PosixSocketMuxer.processSockets(PosixSocketMuxer.java :92)

- waiting to lock <0x25c01198> (a https://www.doczj.com/doc/0818799059.html,ng.String)

weblogic.socket.SocketReaderRequest.execute(SocketReaderRequest.java: 32)

weblogic.kernel.ExecuteThread.execute(ExecuteThread.java:178)

weblogic.kernel.ExecuteThread.run(ExecuteThread.java:151)

ThreadPoolPercentSocketReaders 属性设定要用于从 java Socket 中读取消息的执行线程的最大百分比。此属性的最佳值是针对应用程序设定的。缺省值为33，有效范围是 1 到 99。

分配执行线程充当 Socket Reader 线程可提高服务器接受客户端请求的速度和能力。必须平衡专门用于从 Socket 读取消息的执行线程和那些在服务器中执行实际运行任务的线程的数量。

后续步骤

后续步骤要求进一步分析 Thread Dump。检查 Thread Dump，了解每个线程在服务器挂起时正在执行的操作。这有助于分析下一个探查阶段。例如，如果 JSP 编译中涉及许多线程，参考服务器挂起的可能原因一节可了解进一步的诊断和测试操作。

? Ping Serve

java weblogic.Admin -url t3://localhost:7001

-username -password PING

如果服务器有响应，说明是应用本身挂起了，服务器并没有挂起。

?检查垃圾回收：–verbosegc

检查挂起时，是否正在进行频繁的垃圾回收。

?查看工作线程：Listener、Socket Reader、Execute

是否Listener/ Socket Reader 线程存在，并正常工作？

是否Execute线程都处在忙碌状态？

?查看Thread Core Dump 每个线程都在忙些啥？

进一步观察分析

1.挂起时仍有空闲的挂起时仍有空闲的Execute 线程线程

挂起时仍有空闲的挂起时仍有空闲的线程线程

?确定Socket Reade线程都在正常工作。

?适当提高 Socket Reader 线程数。

?集群环境下需要更多的Socket Reader 线程。

2.挂起时没有空闲的挂起时没有空闲的Execute 线程线程

挂起时没有空闲的挂起时没有空闲的线程线程

?确定所有线程都在正常工作，没有死锁等现象。

?为耗时较长的请求创建单独的请求队列。

?增加资源：内存、工作线程、数据库连接池…

?应用检查

? EJB RMI calls

? JSP calls

?其它检查

?垃圾回收

?代码优化

? JVM bugs

? JSP 编译问题

dump 分析工具heapAnalyzer

sap日常维护管理手册

SAP系统日常管理 1 系统监视 1.1 进程监视 §SM66/SM50 进程查看管理员需全天监看系统的进程。长时间运行的后台工作，有缺陷的报表程序，若不进行控制都将消耗掉大量的系统资源。管理员用这个事务码检查他们的环境。当然，在杀掉这些进程前，需要与最终用户协商。 1.2 服务器监视 §SM51 R/3服务器的列表可用SM51显示，管理员用它来监视不同服务器之间的工作进程。想要显示某一服务器的进程，鼠标指针点中服务器的名称，然后选Processes。 §RZ20 CCMS监控双击要查看的菜单项，检查系统收集的监控信息，遇到报警和错误信息要查清原因，找出解决办法。 1.3 用户监视 §SM04 用户监视管理员应该考虑全天监视用户仅他们的活动。是否有非法用户？是否有用户试图或正在用他们不该用的事务码，等等。 1.4 性能监视 §ST03 工作量分析世上没有经验的替代品。当需要调R/3系统的性能的时候是很痛苦的事情。管理员应该保留尽可能多的工作量分析数据，特别是系统没用性能问题时候的数据。拥有一副系统工作正常时的清晰的系统图，将使你具有对你的系统的不可估量的感觉，这种感觉将使你能预见到将要发生的问题，并且很多时候可以避免问题的发生。 §ST02 缓存分析 R/3的缓存存储经常用到的数据，以使本地应用服务器的实例能取得这些数据。这样就可以减少数据库的访问，数据库的负载，网络的流量，从而提高系统的性能。数据缓存中包括了ABAP/4程序，屏幕，ABAP/4字典数据和公司的数据，这些数据在系统操作过程中是不会改变的。我们应该经常的监视缓存、点击率、剩余空间、交换区。此进程可以帮助管理员作性能调整。 §SP12 TemSe管理管理员要检查文件系统和数据库空间的增长，尤其是批量打印大量数据时。TemSe的一致性检查(RSPO0043)需要计划每天在打印池重新整理(RSPO0041)之前执行。 1.5 更新记录 §SM13更新记录此事务码显示失败的更新动作。失败的更新动作在生产系统中是决不允许发生的，一旦发生，开发人员应马上修改。 1.6 锁定对象 §SM12 锁定对象用户总是会时不时的因为某种原因（如断线，程序出错等等）而锁定一个对象。所有被锁定的老的对象均要被分析，更正。 1.7 出错分析 §ST22出错分析

故障诊断分析方法-结课论文

故障诊断分析方法比较摘要：小波变换作为信号处理的手段，逐渐被越来越多领域的理论工作者和工程技术人员重视和应用。在机械系统和电气系统中，故障时常发生，为了诊断系统是否故障，小波分析是很好的方法。小波分析的方法很多，小波的选择也很多类，为了研究哪种小波分析方法更加适合于故障检测。论文将通过一个例子来分别采用功率谱、多分辨小波分析和小波包三种方法进行突发性故障诊断，来研究各自的分析特点。并总结在故障发生时，一个更加好的分析方法。关键词：故障功率谱多分辨分析小波包分析正文：在对机械设备进行故障检测时，通常采用对振动信号进行频谱分析找出奇异点的方法来实现设备监测。傅里叶变换是频谱分析的主要工具，其方法是研究函数在傅里叶变换后的衰减以推断函数是否具有奇异性及奇异性的大小，但傅里叶分析只能确定一个函数奇异性的整体性质而难以确定奇异点空间的位置分布情况，这一局限性导致了频谱分析不能精确的确定信号的奇异性特点，给进一步分析信号的规律带来了一定的障碍。而在傅里叶基础上发展而来的功率谱可以识别不同信号的故障信号。将正常信号的功率谱与运行过程中不断连续收集的信号功率谱进行对比，功率谱异常就表示机械系统有故障，不同类型的故障会有不同类型的频谱特征，从故障信号的功率谱中可以识别故障的类型。然而利用传统的频谱分析方法只能从频谱图上了解故障信号的所包含的频率成分，而无法确定具体的频率成分的震动形式。无法对具体的频率成分进行分析，难以直接描述机械的状态。小波分析是近十年发展起来的一门适用于时变信号分析的新兴工具，它可以把时域信号变换到时间—尺度域中，在不同尺度下观察不同的局部化特性。在信号突变时，其小波变换后的系数具有模量极大值，可通过对模的极大值点的检测来确定故障发生的时间点。在从小波基础上发展的小波包，对各个子小波空间做出更加细致的分解，其对应的频带被进一步分解，这使得时—频分析能聚焦于任意的细节，在故障诊断时，可从细节上分析故障。很多工作系统正常工作时，工作输出点的采样信号是蠕变信号，当由于多种原因系统系统故障时，输出信号将产生一突变信号（主要表现在幅度和频率的变化），信号的突变时刻被称为信号的奇异点。这些奇异点数值包含有重要的故障信息，因此，对突变信号进行检测和处理，是故障诊断的关键。因此，本文从功率谱、多分辨分析分析和小波包三种方法进行蠕变信号突发性故障诊断，并比较总结它们的特点。实例：由于日常机械中很多振动信号都是由不通频率的正弦余弦波组成的，于是这里选择的原始信号采用的是单一频率正弦波的形式。为了研究上述三种分析方法，并且由于还未在先研究阶段中未得到研究机械的信号，为了简化分析

Weblogic12c-集群-代理安装配置手册-初级V1.0

软件室 Weblogic12 C安装配置手册-初级版本 <1.0>

修订历史记录

目录 1.简介 (4) 1.1目的 (4) 1.2范围 (4) 1.3定义、首字母缩写词和缩略语 (4) 1.4参考资料 (4) 1.5概述 (4) 2.部署前准备工作 (4) 2.1JDK环境安装(使用ROOT用户) (4) 2.2H OSTS文件配置和多台WEBLOGIC集群说明(使用ROOT用户) (5) 2.3创建WEBLOGIC用户和用户组(使用ROOT用户) (6) 3.WEBLOGIC12C的安装（在桌面模式下进行安装，非命令行模式） (6) 3.1运行安装程序 (6) 3.2安装步骤图片展示 (7) 4.创建WEBLOGIC域(DOMAIN) (15) 4.1运行配置向导 (15) 4.2选择D OMAIN S OURCE (19) 4.3输入管理员用户名称和密码 (21) 4.4选择WEBLOGIC启动模式和JDK (21) 4.5选择定制配置和集群服务器配置选择说明 (23) 4.6配置管理节点 (23) 4.7W EB容器服务配置 (25) 4.8集群配置 (26) 4.9其他配置图解 (29) 5.WEBLOGIC 启动和JVM内存设置 (33) 5.1节点配置 (33) 5.2W EBLOGIC手动启动(使用WEBLOGIC用户) (33) 5.2.1启动管理服务（使用weblogic用户） (33) 5.2.2启动web容器节点（使用weblogic用户） (34) 5.2.3访问地址 (34) 5.3生产模式免密码和后台启动（使用WEBLOGIC用户操作命令） (34) 5.4开机自启动服务配置和设置（使用ROOT用户） (35) 5.5关闭WEBLOGIC (39) 5.6调整WEBLGOC的运行JVM内存 (39)

汽车检测与诊断技术知识点总结复习过程

1.汽车检测与诊断技术是汽车检测技术与汽车故障诊断技术的统称。汽车检测是指为了确定汽车技术状况或工作能力所进行的检查与测量。汽车诊断是指在不解体（或仅拆下个别小件）的情况下，确定汽车的技术状况，查明故障部位及故障原因 2.汽车检测分类 1.安全性能检测 2.综合性能检测 3.汽车故障检测 4.汽车维修检测汽车维修检测包括汽车维护检测和汽车修理检测，汽车维护检测主要是指汽车二级维护检测，它分为二级维护前检测和二级维护竣工检测。汽车修理检测主要是指汽车大修检测，它分为修理前，修理中及修理后检测 3.随机误差是指误差的大小和符号都发生变化而且没有规律可循的测量误差，不可避免 4.粗大误差是指由于操作者的过失而造成的测量误差 ,可以避免 5.汽车检测系统通常由电源，传感器，变换及测量装置，记录及显示装置，数据处理装置的组成传感器是一种能够把被测量的某种信息拾取出来，并将其转换成有对应关系的，便于测量的电信号装置变换及测量装置是一种将传感器送来的电信号变换成易于测量的电压或电流信号的装置 6.检测系统的基本要求：1.具有适当的灵敏度和足够的分辨力 2.具有足够的检测精度另外，检测系统还应具备良好的动态特性灵敏度是指输出信号变化量与输入信号变化量的比值分辨力是指检测系统能测量到最小输入量变化的能力，即能引起输出量发生变化的最小输入变化量 7.智能化检测系统的特点：1自动零位校准和自动精度校准 2自动量程切换 3功能自动选择 4自动数据处理和误差修正 5自动定时控制 6.自动故障诊断 7功能越来越强大 8使用越来越方便 8.诊断参数分类诊断参数可分为三大类：工作过程参数，伴随过程参数，几何尺寸参数 (1)工作过程参数:指汽车工作时输出的一些可供测量的物理量、化学量，或指体现汽车功能的参数，如汽车发动机功率、燃油消耗率、最高车速和制动距离等。从工作参数本身就能表诊断对象总的技术状况，适合于总体诊断 (2)伴随过程参数:伴随过程参数一般并不直接体现汽车或总成的功能，但却能通过其在汽车工作过程中的变化，间接反映诊断对象的技术状况，如工作过程中出现的振动、噪声、发热和异响等。伴随过程参数常用于复杂系统的深入诊断。 (3)几何尺寸参数:几何尺寸参数能够反映诊断对象的具体结构要素是否满足要求，可提供总成、机构中配合零件之间或独立零件的技术状况，如配合间隙、自由行程、圆度和圆柱度等。 9.诊断参数选用原则: (1)单值性 (2)灵敏性 (3)稳定性 (4)信息性 10.诊断参数标准的组成：(1)初始标准值 (2)极限标准值 (3)许用标准值 11.诊断周期汽车诊断周期是汽车诊断的间隔期，以行使里程或使用时间表示，诊断周期的确定，应满足技术和经济两方面的条件，获得最佳诊断周期。最佳诊断周期，是能保证车辆的完好率最高而消耗的费用最少的诊断周期。

ORACLE数据库日常维护与管理手册

全球眼?（MEGAEYES）网络图像管理系统2.0 ORACLE日常维护与管理手册北京互信互通信息技术有限公司 2004-08-08

目录全球眼?（MEGAEYES）网络图像管理系统2.0 (1) 1引言 (3) 1.1 目的 (3) 1.2 范围 (3) 1.3 参考资料 (3) 2日常维护与管理说明 (3) 2.1 运行环境 (3) 2.1.1硬件环境 (3) 2.1.2软件环境 (3) 2.2 数据库日常维护 (4) 2.2.1数据库初始设置 (4) 2.2.2每日工作内容 (5) 2.2.3每周工作内容 (6) 2.2.4每月工作内容 (7)

1引言 1.1目的对于重要的商业系统来说，数据库系统的正常运行是保证商业应用平稳运行的关键。但是数据库在运行过程中可能会因为种种原因发生问题。这时，数据库的管理与日常维护工作将变得尤为重要。为了指导数据库管理员做好日常维护工作，保证数据库系统的正常运行，特制定本文档。当然，数据库的日常维护是复杂和繁琐的，本文仅涉及一些常见的数据库日常维护的内容，在实际工作中，数据库管理员还需要做更多的工作。 1.2范围本文档使用的人员：数据库维护管理人员和相关人员。本文档涉及内容：oracle数据库的日常维护与管理解决方案。 1.3参考资料中国电信网络视频监控技术（暂行）规范 2日常维护与管理说明 2.1运行环境程序的运行环境包括硬件运行环境和软件运行环境。 2.1.1硬件环境 ◆CPU类型：Intel及其兼容系列CPU ◆内存容量：剩余内存要达2G以上 ◆硬盘容量：剩余硬盘容量要达1G以上 ◆网卡类型：100M网卡 2.1.2软件环境 ◆操作系统：RedHat Linux AS 3.0 ◆数据库：Oracle9i Database Release 2 (9.2.0.4.0) for Linux x86

weblogic故障诊断与日常维护总结

中间件故障诊断总结一、步骤： 1、准确描述现象：客户说的和自己查看到的：平台、版本、操作、信息等。特别是，故障前是否有做过什么操作：网络调整、设备调整、主机参数调整、配置文件修改……反正将这一切都列入排查的对象。 2、使用工具收集数据，收集配置文件、日志、dump文件等等。 3、使用分析数据，根据问题或收集的数据，使用适当的工具分析数据，当然包括了在网上和在官方支持站点搜索类似的问题的解决办法。 4、尝试解决问题，根据找到的问题点，尝试解决。如修改错的，复原正确的；运行有问题的，适当调整运行的环境和运行的参数等等。 5、给出最佳解决方案，一般就是继续观察了。 6、总结经验并加以重用，知识积累。二、通过前台收集基本的信息： 1、重点是故障前做过的操作 2、比对运行平台是否在官方的兼容性列表中，一般就是关注各个版本，特别是一些比较怪异的问题 3、检查环境和参数，如能打开控制台，就在控制台中初步观察，一般进入控制台的格式是http://ip地址：端口/console如：http://192.168.0.89:7001/console/。常用的留意点如下： A、域运行状态（域-监视-健康状况）；一般为running状态，如果不是 running，那这些界面就没有了。 B、服务器运行状态（域-环境-服务器），正常的为running。

进入，监视-健康状况）;留意JVM 堆中当前可用的内存量。不同的JVM，所显示的内容可能不一样，以下为sun的：

D、各个server线程状态（域-环境-服务器，点击具体的serve后进入，监视-线程）；一般来说，空闲线程要多；健康状况为ok 如下图health状态为：Warning，这个是有线程阻塞的。

智能故障诊断技术知识总结

智能故障诊断技术知识总结一、绪论 □ 智能： ■ 智能的概念智能是指能随内、外部条件的变化，具有运用知识解决问题和确定正确行为的能力。 ■ 低级智能和高级智能的概念低级智能——感知环境、做出决策和控制行为高级智能——不仅具有感知能力，更重要的是具有学习、分析、比较和推理能力，能根据复杂环境变化做出正确决策和适应环境变化 ■ 智能的三要素及其含义三个基本要素：推理、学习、联想推理——从一个或几个已知的判断（前提），逻辑地推断出一个新判断（结论）的思维形式学习——根据环境变化，动态地改变知识结构联想——通过与其它知识的联系，能正确地认识客观事物和解决实际问题 □ 故障： ■ 故障的概念故障是指设备在规定条件下不能完成其规定功能的一种状态。可分为以下几种情况： 1.设备在规定的条件下丧失功能； 2.设备的某些性能参数达不到设计要求，超出允许范围； 3.设备的某些零部件发生磨损、断裂、损坏等，致使设备不能正常工作； 4.设备工作失灵，或发生结构性破坏，导致严重事故甚至灾难性事故。 ■ 故障的性质及其理解 1层次性——系统是有层次的，故障的产生对应于系统的不同层次表现出层次性。一般可分为系统级、子系统级、部件级、元件级等多个层次；高层故障可由低层故障引起，而低层故障必定引起高层故障。诊断时可采用层次诊断模型和诊断策略。 2相关性——故障一般不会孤立存在，它们之间通常相互依存和相互影响，如系统故障常常由相关联的子系统传播所致。表现为，一种故障可能对应多种征兆，而一种征兆可能对应多种故障。这种故障与征兆间的复杂关系导致了故障诊断的困难。 3随机性——故障的发生常常是一个与时间相关的随机过程，突发性故障的出现通常都没有规律性，再加上某些信息的模糊性和不确定性，就构成了故障的随机性。 4可预测性——设备大部分故障在出现之前通常有一定先兆，只要及时捕捉这些征兆信息，就可以对故障进行预测和防范。 □ 故障诊断： ■ 故障诊断的概念故障诊断就是对设备运行状态和异常情况做出判断。具体说来，就是在设备没有发生故障之前，要对设备的运行状态进行预测和预报；在设备发生故障之后，要对故障的原因、部位、类型、程度等做出判断；并进行维修决策。 ■ 故障诊断的实质及其理解故障诊断的实质——模式识别（分类）问题 ■故障诊断的任务及其含义故障检测：采用合适的观测方式、在合适部位测取特征信号，即信号测取；采用合适的方法，从特征信号中提取状态征兆，即征兆提取故障识别：采用合适的状态识别方法与装置，依据征兆而推理识别出设备的有关状

实用电机故障诊断方法总结

交流异步电动机常见故障的分析、诊断及处理一、异步电动机的故障分析、诊断与处理电动机的故障大体归纳为电磁的原因和机械的原因两个方面。常见故障分析、诊断与处理如下： 1.异步电动机不能起动： 1.1电动机不能起动，有被拖动机械卡住、起动设备故障和电动机本体故障及其它方面原因：处理方法：当电动机不能起动的故障时，可使用万用表测量三相电压，若电压太低，应设法提高电压，原因可能有：⑴电源线太细，起动压降太大，应更换粗导线。⑵三角形接线错接成星形接线，又是重载起动，应按三角形接法起动。⑶送电电压太低，应增高电压，达到要求的电压等级。若三相电压不平衡或缺相，说明故障发生在起动设备上。若三相电压平衡，但电动机转速较慢并有异常声响，这可能是负荷太重，拖动机械卡住。此时应断开电源，盘动电动机转轴，若转轴能灵活均衡地转动，说明是负荷过重；若转轴不能灵活均衡地转动，说明是机械卡阻。若三相电压正常而电机不转，则可能是电机本体故障或卡阻严重，此时应使电动机与拖动机械脱开，分别盘动电动机和拖动机械的转轴，并单独起动电动机，即可知道故障所在，作相应的处理。 1.1.1当确定为起动设备故障时，要检查开关，接触器各触头及接线柱的接触情况；检查热继电器过载保护触头的开闭情况和工作电流的调整值是否合理；检查熔断器熔体的通断情况，对熔断的熔体在分析原因后应根据电动机起动状态的要求重新选择；若起动设备内部接线有错，则应按照正确接线改正。 1.1.2 当确定为电动机本体故障时，则应检查定，转子绕组是否接地或轴承是否损坏。绕组接地或局部匝间短路时，电动机虽能起动但会引起熔体熔断而停转，短路严重时电动机绕组很快就会冒烟。检查绕组接地常采用的方法:用兆殴表检查绕组的对地绝缘电阻，若存在接地故障，兆殴表指示值为零。绕组短路:通常用双臂电桥测直阻的平衡情况，对于绕组接地、匝间短路的处理通常都是重新绕制绕组。 1.1.3其它原因由于轴承损坏而造成电动机转轴窜位、下沉、转子与定子磨擦乃至卡死时，应更换轴承。若在严冬无保温，环境较差场所的电动机，应检查润滑脂。 2、鼠笼式电动机起动后转速低于额定值 2.1电动机运行时的转速降低： 2.1.1电源电压；如端电压降低，则电机起动转矩减小，转速降低。若检查是电压太低，则应提高电源电压。电动机接线错误，绕组应是三角形接线而错接成星形的也会使相电压降低。 2.1.2转子电阻；若鼠笼转子导条断裂或开焊，表现为转速和起动转矩下降。导条断裂和开焊，首先可进行直观检查，也可借助于仪表检查。直观检查:就是查看鼠笼导条有没有电弧灼痕，有无断裂和细小裂纹，端环连接是否良好。借助于仪表检查:一种方法是在电动机运行时，看指示电动机定子电流的电流表。在鼠笼转子导条断裂或开焊故障时，电流表指针将来回摆动。对于未装设电流表的电动机，可将电动机的定子绕组串联电流表后接到15-20%Ue（Ue为额定电压）的三相交流电源上，（用三相自耦调压器调压），盘动电动机转轴，随着转子位置不同，定子电流会发生变化，指针突然下降处即导条断裂或开焊处。 2.2若检查是被拖动机械轻微卡住，使转轴转不灵活，也会使电动机勉强拖动负载

软件项目维护方案(参考示例)

软件项目维护方案

1.项目背景及目标 1.1.项目背景在国家政策的指导和帮助下，信息化也越来越发挥出十分重要的作用。XXXX 不断加大信息化管理工作力度，积极实施“上网工程”，大力推进全市局域网建设，加快办公自动化系统进程，信息技术在改革中发挥了重要的支撑作用，为充分发挥政府公共职能，促进依法理财、科学理财，提供了重要的信息技术保障。近年来建设各系统随着数据量的逐年增加，陆续出现了性能问题，有必要进行数据库系统的升级及性能优化，以确保应用系统的正常运行，为单位员工提供更好的信息服务。 1.2.项目目标 ●对各系统数据库进行补丁升级服务，安装补丁前制定详细的升级计划和应急回退计划。 ●完成各系统数据库的性能调优工作。 ●各业务持续性得到有效的保证。 2.需求分析 XXXXXXX项目，我公司有多年的行业经验。具有对运维服务对象进行适时监测、指标分析、和及时修复的能力。 Oracle 产品日常运行维护项目主要从如下几个方面进行： (1). 每天对ORACLE数据库的运行状态,日志文件,备份情况,数据库的空间使用情况,系统资源的使用情况进行查看,发现并解决问题。

(2). 每周对数据库对象的空间扩展情况,数据的增长情况进行监控,对数据库做健康查看,对数据库对象的状态做查看。 (3). 查看表空间碎片,提出下一步空间管理计划。对ORACLE数据库状态进行一次全面查看。（4）由于这些数据库系统承载着XXXX非常重要的业务系统数据，所以在日常维护中需要非常仔细，每周、每月、每季都需要有相应的巡检记录，需要详细记载以下一些内容：监控数据库对象的空间扩展情况监控数据量的增长情况系统健康查看，查看以下内容: 数据库对象有效性查看查看是否有危害到安全策略的问题。查看 alert、Sqlnet 等日志并归档报错日志分析表和索引查看对数据库会产生危害的增长速度查看表空间碎片数据库性能调整预测数据库将来的性能调整和维护工作后续空间

关于柴油机故障诊断的总结

关于柴油机故障诊断的总结关于柴油机故障诊断的总结关于柴油机故障诊断的总结柴油发动机应用广泛，处在所属产业链的相对核心的位置。其运行状态的好坏直接关系到成套设备的工作状态。因此，对柴油机运行状态进行实时监测和故障诊断，确保其处于安全、可靠、高效率的工作状态，对提高整套设备的劳动效率，提高产品质量，降低生产成本和能耗具有重大的意义。柴油机故障诊断和其它类型的机械故障诊断一样，首先必须对故障机理进行研究，以故障信号的检测技术及信号处理技术为基本技术，以故障信号处理和特征提取理论为基本理论，以基于信号处理和特征提取的故障类型识别方法为基本方法。近年来，随着科学技术的发展，柴油机故障诊断技术也经历着从最初的事后维修到定时检测，再到现代故障诊断技术的视情维修。传统的诊断方法虽然简单易行，但是由于其信息量小，精确度不高，成本较高且容易发生误判，故难以满足现代的需求。20世纪80年代，邓聚龙教授提出了灰色系统理论，为研究少数据、贫信息不确定性问题提供了新方法，很好地解决了传统方法的不足之处。进入90年代后，随着人工智能技术的发展，柴油机故障诊断技术进入了智能化的阶段。检测项目增强，软件功能增强，诊断的准确性大为提高。基于专家系统和神经网络的智能化诊断方法为柴油机故障诊断技术的发展提供了新的方向。一、传统的故障诊断技术传统的柴油机故障诊断技术主要包括热力参数分析法、声振监测、磨粒监测分析法。热力参数分析法中又可以分为通过测定柴油机工作过程的示功图对柴油机

工作过程做综合性的监测的示功图法和利用瞬时转速波动信号对柴油机进行监测和故障诊断的方法。1、热力参数分析法热力参数分析法是利用柴油机工作时热力参数的变化来判断其工作状态的。这些参数包括气缸压力示功图、排气温度、转速、滑油温度、冷却水进出口温度及排放等。由于这些参数能够很好的反应柴油机的工作情况以及故障特征，具有关联性强、直观且便于分析等优点，因此此种方法得到了广泛的应用。1.1示功图法示功图是在活塞式柴油机的一个循环中，气缸内气体压力随活塞位移（或气缸内容积）而变化的循环曲线。示功图除了表示作功或耗功的大小以外，还能综合反映了柴油机作出机械功的热力装换过程，故常常用来分析研究以及改善气缸内的工作过程。获取示功图的方法有直接测量法和间接测量法。直接测量法就是直接用压力传感器压力随曲轴转角的变化，然后经过整理表示为曲线形式。间接测量法则通过测量柴油机运行过程中与气缸压力相关的其它量来求的压力而获得示功图的方法。由于间接测量法对柴油机的工作无影响，故目前国内外多采用此方法。虽然这种方法在确定柴油机各类故障时比较全面，但是在现场使用中还存在一些技术问题。如上止点的确定问题、压力传感器的安装及通道效应问题等。 1.2瞬时转速法柴油机曲轴的瞬时转速波动信号能较理想的反映机器的工作状态和工作质量。通过对瞬时转速波动信号的分析可以得到机器运行状态和相关故障的丰富信息。这种方法的原理是基于柴油机正常工作状态下各缸动力性能的一致性。一旦某一气缸发生故障，这种一致性就会遭到破坏，柴油机的运转平稳性就会变差，转速波动信号将产生严重变形。根据此变形的程度，就能判断出缸内工作过程的好坏。

小型机日常维护手册

IBM P750小型机日常维护手册一、服务器硬件运行状态检查 1.当服务器处于启动和正常工作状态时，其前面板上的状态灯（与电源灯并排）和各硬盘的状态灯（一排小灯，与各硬盘位置一一对应）应显示为绿色。 2.当服务器的状态灯出现橙黄色时，说明有硬件告警，此时要检查服务器的电源、接线、硬盘等。如果有硬件故障则需要立即进行更换和更正，如果查不出具体问题，则需要联系相关专家进一步诊断。 3.当硬盘工作正常时，与各硬盘对应的硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操作，则绿灯会不规则闪烁，当硬盘损坏时，则硬盘状态灯将熄灭，或者呈闪烁状态：以1～3秒的频率有规律地、不停地闪烁。如果发现有服务器硬件状态灯不正常的情况，请及时联系我公司工程师，以便及时进行诊断并解决故障。二、HMC（硬件管理平台）管理与操作 HMC的两种访问途径： 1、在机房直接通过显示器和键盘进行管理维护等相关操作 2、通过web远程访问，登录HMC web管理界面，访问地址为： 1、登录HMC 浏览器访问连接HMC后，首页界面如下图所示。点击下图所示链接，进入HMC验证登录界面。输入用户名与口令，登录HMC。用户名：hscroot 口令：成功登录到HMC管理界面如下图所示。 2、注销HMC 在HMC console右上角有（hscroot | help | log off）链接，单击log off，会出现如下图所示注销界面：选择Log off，系统返回到HMC初始登录界面状态。

3、重启HMC 左边导航栏中选择HMC Management shut down or Restart，如下图所示，对HMC进行正常重启及关机操作。请谨慎对HMC进行关机和重启操作！ 4、状态栏功能状态栏位于HMC左下角位置，如下图所示，负责监控并反映管理系统资源状态和HMC状态。单击每个图标状态可以列出详细状态，你可以查到更详细的帮助信息：：非法操作，如果任何被管理的主机执行了非法操作，这个图标将会变亮。：黄灯警告, 如果任何被管理的主机有错误并有黄灯被点亮，这个图标也将会变亮：报错日志：日志中有报错信息，这个图标将会变亮，此项与：摘要，摘要中会将有用信息做统计并显示在工作栏中。 5、Service Management 导航栏中Service Management强大的管理功能给用户日常维护提供了更简单直观的界面，如下图所示，但日平时最常用的子项是Manage Serviceable Events，如下图步骤可以对HMC所管理的设备进行日常错误及时直观的观察，以确保IBM小型机能正常工作，下图就是基本的操作方法图示： Service ManagementManage Serviceable Events 6、Service Plans-分区管理与操作如何查看小型机资源配置：如上图红色标注所示，选中所需查看主机（备注：请不要同时选中多台主机及多个分区）,在下拉菜单中选中“Properties”，打开参数窗口，通过“Properties”可以查看主机运行状态，CPU,内存，I/0等重要硬件系统参数，如下图所示。同理，在分区区域中先中每分区后的Properties选项，便可以直观方便的掌握分区状态和资源配置信息。如何开关机及激活分区：关机。开机。

服务器维修故障诊断思路大全

前言：相对PC机而言服务器出故障的机率是小多了，但是它的故障给企业也带来了一些影响。作为服务器工程师除要有服务器基础知识以外，还需要具备服务器故障的诊断思路，这样才能最快速的解决问题也可以减少故障停机时间。本文并不是针对某个厂家服务器故障完全手册，而是根据个人经验总结出来的一些经验思路还有一些总结案例。按照下面思路和方法基本上能够解决目前服务器更换式维修的大多数问题。而且里面的一些操作风险性也不是很大，因为服务器本身就是坏的，最坏的情况下就是它一点都不能工作了呗，（主要确认是否有数据，数据无价啊）而且现在很多厂商都有自己的客服电话关于产品问题打个电话也很方便，所以安心做啦当然如果服务器在保修期内就打电话让售后工程师上门服务，毕竟顾客就是上帝嘛，但是如果上帝比较着急使用，一般小故障自己解决一下就好了，因为一般报修最快都是第二天（大客户如银行等除外，一般当天还得是晚上才能停机解决）目录：一、服务器常见故障分类二、服务器常见故障现象及其对应排错方法三、服务器排错基本原则四、服务器故障需要收集哪些信息五、服务器硬件故障排错实例六、服务器软件故障排错实例七、服务器常见内存故障现象一、服务器常见故障类型分类： A. 开机无显示 B. 加电BIOS自检阶段故障 C. 系统和软件安装阶段故障和现象 D. 操作系统启动失败 E. 系统运行阶段故障二、服务器常见故障现象及其对应的排除方法

A．服务器开机无显示（加电无显示和不加电无显示） 1. 检查供电环境 2. 检查电源和故障指示灯（故障指示灯状态，目前很多厂商的服务器都有故障指示灯，或故障诊断卡等。） 3. 按下电源开关时，键盘指示灯是否亮、风扇是否全部转动 4. 是否更换过显示器，尝试更换另外一台显示器 5. 插拔内存，用橡皮擦擦拭一下金手指，如果在故障之前有增加内存，去掉增加的内存尝试 6. 是否添加了CPU，如果有增加CPU尝试去掉 7. 去掉增加的第三方I/O卡包括Raid卡等 8. ClearCMOS (记得使用跳线来清除，尽量不要直接拔电池，每款服务器清除跳线位置不一致，具体找不到电话联系一下厂商客服) 9. 尝试更换主板、内存等主要部件 10．清除静电，将电源线等外插在服务器上的线缆全部拔掉，然后轻按开机键几下 B．加电BIOS自检报错 1. 根据BIOS自检报错信息提示 2. 查看是否外插了第三方的卡或者添加部件，如果有还原基本配置重启 3. 做最小化测试 4. 尝试清除CMOS 5. 看能否正常进入BIOS C. 系统安装阶段故障和现象 1.查看服务器支持操作系统的兼容版本（从厂商能查到兼容性列表） 2.系统安装蓝屏（对蓝屏故障代码诊断） 3.安装在分区格式化的时候找不到硬盘（阵列驱动没有安装或者没有配置阵列，可以尝试适应引导光盘安装） 4.大于2T的硬盘式应该如何分区（必须使用阵列卡才能实现或者有外插识别卡）（使用阵列卡配置阵列分成一个小于2T的空间，一个大于2T的空间，然后将系统安装在小于2T的上面，安装好系统后在使用GPT方式分区即可） 5.安装过程是死机 (检查兼容性列表---查看硬盘接口选择是否正确---阵列驱动安装是否正确---尝试最小化配置安装检查是否为内存和CPU等问题) 6.引导光盘安装失败

硬件设备运维方案

概述 XXX第二次土地调查数据库及国土资源视频会议系统运维项目内容主要分为土地调查数据库软硬件运维工作和视频会议系统运维工作，服务内容涵盖了网络交换机机设备、网络安全防护设备、服务器设备、存储设备、操作系统以及数据库等内容，存在技术多样化、管理复杂化等问题，从而对运维公司的技术力量以及管理团队都有着一定的要求。 XXX公司根据多年的项目实施和服务，积累了丰富人力资源和管理经验，根据本次项目特点，特制定如下运行维护解决方案。服务内容服务目标 XXX公司可提供的运行维护服务包括，信息系统相关的网络设备、服务器设备、存储设备、操作系统、数据库以及视频会议系统的运行维护服务，保证用户现有的信息系统的正常运行，降低整体管理成本，提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录，提供用户信息系统的整体建设规划和建议，更好的为用户的信息化发展提供有力的保障。用户信息系统的组成主要可分为两类：硬件设备和软件系统。硬件设备包括网络设备、安全设备、服务器设备、存储设备和视频会议系统设备等；软件系统主要为操作系统、数据库软件、集群软件等和业务应用软件等。 XXX公司通过运行维护服务的有效管理来提升用户信息系统的服务效率，协调各业务应用系统的内部运作，改善网络信息系统部门与业务部门的沟通，提高服务质量。结合用户现有的环境、组织结构、IT资源和管理流程的特点，从流程、人员和技术三方面来规划用户的网络信息系统的结构。将用户的运行目标、业务需求与IT服务的相协调一致。 XXX公司提供的信息系统服务的目标是，对用户现有的信息系统基础资源进行监控和管理，及时掌握网络信息系统资源现状和配置信息，反映信息系统资源的可用性情况和健康状况，创建一个可知可控的IT环境，从而保证用户信息系统的各类业务应用系统的可靠、高效、持续、安全运行。服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指标：运行状态、故障情况配置信息可用性情况及健康状况性能指标信息资产统计服务此项服务为基本服务，包含在运行维护服务中，帮助我们对用户现有的信息资产情况进行了解，更好的提供系统的运行维护服务。服务内容包括：硬件设备型号、数量、版本等信息统计记录软件产品型号、版本和补丁等信息统计记录网络结构、网络路由、网络IP地址统计记录综合布线系统结构图的绘制其它附属设备的统计记录网络、安全系统运维服务

智能故障诊断技术知识总结复习课程

智能故障诊断技术知识总结

1.设备在规定的条件下丧失功能； 2.设备的某些性能参数达不到设计要求，超出允许范围； 3.设备的某些零部件发生磨损、断裂、损坏等，致使设备不能正常工作； 4.设备工作失灵，或发生结构性破坏，导致严重事故甚至灾难性事故。 ■故障的性质及其理解 1层次性——系统是有层次的，故障的产生对应于系统的不同层次表现出层次性。一般可分为系统级、子系统级、部件级、元件级等多个层次；高层故障可由低层故障引起，而低层故障必定引起高层故障。诊断时可采用层次诊断模型和诊断策略。 2相关性——故障一般不会孤立存在，它们之间通常相互依存和相互影响，如系统故障常常由相关联的子系统传播所致。表现为，一种故障可能对应多种征兆，而一种征兆可能对应多种故障。这种故障与征兆间的复杂关系导致了故障诊断的困难。 3随机性——故障的发生常常是一个与时间相关的随机过程，突发性故障的出现通常都没有规律性，再加上某些信息的模糊性和不确定性，就构成了故障的随机性。

系统管理员日常维护操作手册

系统管理员日常维护操作手册一、日常维护

一、服务器日常开关机器规定（一）、开机步骤 1、开启服务器电源，系统将自动启动server2008操作系统，注意操作系统启动过程中的系统提示信息，如果有异常的提示必须作好数据库操作启动的日志记录,并联系硬件维护人员。 2、待服务器操作系统正常启动后，使用administrator身份登陆到服务器，启动自动过费程序。 3、服务器的任何异常提示，请及时联系硬件公司检查,个人及其他非专业人员勿进行操作,以免造成数据丢失； 4、一般服务器至少20天左右要进行一次系统的关机动作。对于专用服务器则不需要进行此操作。（二）、系统运行过程中的数据库维护操作 5、每天必须做好数据库的日常备份工作，同时必须进行数据库至少存放在服务器的2个地方，或者备份到U盘或其他电脑上,同时保存好备份数据。 6、拷贝数据库备份文件的U盘或其他存储工具,必须先在其他电脑杀毒后,在到服务器使用,禁止其他未杀毒U盘在服务器使用,避免服务器中毒! （三）、服务器的关机操作步骤

7、点击开始菜单中关机按钮,进行正常关机,关机前先关闭应用程序,禁止强制关机! 二、数据库备份原则说明 1、以上操作的意义为：每天在服务器上执行数据备份以保证数据的安全性。防止硬件故障等突发原因引起的系统崩溃。系统安全稳定性依赖于规范的操作。非正常操作（如：未正常关机,直接关电。强制关机）都会给系统带来损害。 2、建议备份方案：每月盘点后：数据库备份并且将备份保存一年。 3、注意事项：在使用过程中如果发生断电或硬件故障等意外情况而造成前后台死机，应先尝试开启服务器,如服务器不能开机,需及时联系硬件公司与蓝崎公司售后人员,大面积的死机可能由服务器故障引起，也可能由于网络（网线、HUB）等故障引起，出现问题时要注意区分，以便迅速有效的解决问题。

(完整版)《设备故障诊断-沈庆根》知识点汇总

1.1.设备故障诊断的含义设备故障诊断是指应用现代测试分析手段和诊断理论方法，对运行中的机械设备出现故障的机理、原因、部位和故障程度进行识别和诊断，并且根据诊断结论，确定设备的维修方案和防范措施。 1.2.设备故障诊断的过程信号采集→信号处理→故障诊断→诊断决策→故障防治与控制 1.3.设备故障诊断的特性多样性、层次性、多因素相关性、延时性、不确定性 1.4.三种维修制度事后维修（故障维修）、定期维修（计划维修）、状态监测维修（预知性维修） 1.5设备故障的类型有哪些 ①结构损伤性故障（裂纹、磨损、腐蚀、变形、断裂、剥落和烧伤） ②运动状态劣化性故障（机械位置不良、刚性不足、摩擦、流体激振、非线性的谐波共振） 1.6设备故障诊断的功能 ①不停机不拆卸的状态下检测 ②可预测设备的可靠性程度 ③确定故障来源，提出整改措施 1.7.设备状态监测与故障诊断的技术和方法振动信号监测诊断技术（普遍性、信息量丰富、易处理与分析）声信号监测诊断技术（声音监听法、频谱分析法、声强法）温度信号监测诊断技术润滑油的分析诊断技术其他无损检测诊断技术 1.8.设备故障状态的识别方法信息比较诊断法、参数变化诊断法、模拟试验诊断法、函数诊断法、故障树分析诊断法、模糊诊断法、神经网络诊断法、专家系统 2.1信号的含义和分类信号是表征客观事物状态或行为信息的载体分类：确定性信号与非确定性信号；连续信号和离散信号；能量信号和功率信号；时限与频限信号 2.2.信号时域分解直流分量和交流分量脉冲分量实部分量和虚部分量正交函数分量 2.3.信号的时域统计均值均方值方差

2.4.时域相关分析相关系数： 2.5.频谱分析法利用傅里叶变换的方法对振动的信号进行分解，并按频率顺序展开，使其成为频率的函数，进而在频率域中对信号进行研究和处理的一种过程，称为频谱分析 2.6.振动监测的基本参数振幅、频率、相位 2.7.旋转机械常用的振动信号处理图形轴心轨迹：轴颈中心相对于轴承座在轴线垂直平面内的运动轨迹转子振型：转子轴线上各点的振动位移所连成的一条空间曲线轴颈涡动中心位置：在滑动轴承中，轴颈中心在激扰力作用下是绕着某一中心点运动的波特图：描述转子振幅和相位随转速变化的关系曲线，纵坐标为振幅和相位，横坐标为转子的转速或转速频率极坐标图：把转子的振幅与相位随转速的变化关系用极坐标的形式表示出来（直观，方便，清晰，抗干扰）三维坐标图（级联图、瀑布图）：随转速上升，机械振动的基础幅指上升阶比谱分析：将频谱图上横坐标的每个频率值除以某个参考频率值（读数清晰、周期采样、精度高） 3.1旋转机械的故障类型有哪些 ①转自不平衡②转子不对中③滑动轴承故障④转子摩擦⑤浮动环密封故障 3.2转子不平衡的概念转子受材料质量、加工、装配以及运行中多种因素的影响，其质量中心和旋转中心线中间存在一定量的偏心距，使得转子在工作时形成周期性的离心力干扰，在轴承上产生动载荷，从而引起机器振动的现象不平衡产生的离心力大小 3.3转子不平衡振动的故障特征 ①不平衡故障主要引起转子或轴承径向振动，在转子径向测点上得到的频谱图，转速频率成分具有突出的峰值 ②单纯的不平衡振动，转速频率的高次谐波幅值很低，因此在时域上的波形是一个正弦波 ③转子的轴心轨迹形状基本上为一个圆或者椭圆，这意味着置于转轴同一截面上相互垂直的两个探头，其信号相位差接近90° ④转子的进动方向为同步正进动 ⑤除了悬臂转子外，对于普通两端支撑的转子，不平衡在轴向上的振幅一般不明显 ⑥转子振幅对转速变化很敏感，转速下降，振幅将明显下降 3.4转子不平衡振动的原因 ①固有质量不平衡（设计错误、材料缺陷、加工与装配误差、动平衡方法不正确） ②转子运行中的不平衡（转子弯曲、转子平衡状态破坏） 3.5怎样区别转子弯曲不平衡和质量不平衡 ①振幅随转速的变化：质量不平衡与转速之间按照固定的关系式变化，弯曲的没有

Oracle中间件WebLogic 12c维护保养手册

Oracle 中间件 WebLogic 12c 维护保养手册

目录 1日常监控及JVM查看工具 (3) 1.1安装 (3) 2VNC的安装及使用 (3) 2.1安装 (3) 2.2启动vnc (3) 2.3运行VNC Viewer客户端 (3) 2.4查询vnc服务 (4) 2.5停止vnc服务 (5) 2.6增加vnc服务终端 (5) 3服务器相关参数配置 (5) 3.1文件句柄数：根据实际服务器情况配置。 (5) 4常见问题及处理办法 (5) 4.1修改系统字符编码 (5) 4.2手工删除DOMIAN的方法 (6) 4.3域服务器启动端口冲突 (6) 4.4启动后可刷新页面，查看服务状态 (6) 4.5不重启服务情况下，替换静态文件 (6) 4.6weblogic改为开发模式 (7) 4.7版本管理 (7) 4.8使用部署的目标定义的默认值的情况下，清理缓存文件路径 (7) 4.9启动server，server**.out日志文件中包含乱码 (7) 4.10weblogic.xml文件说明 (7) 4.11weblogic控制台密码修改 (8) 4.12节点管理器配置文件说明 (9) 4.13设置GC日志的打印参数 (9) 4.14部署模式设置 (9)

1日常监控及JVM查看工具 1.1安装 2VNC的安装及使用 2.1安装 Linux系统默认已安装vnc服务器端。 2.2启动vnc 若未用vncpasswd设置密码，则第一次运行vncserver时，会提示设置密码，再次确定密码,并分配终端编号。输入命令：vncserver You will require a password to access your desktops. Password:输入连接密码 Verify:再次输入密码 xauth: creating new authority file /webapp/.Xauthority New 'gd-webapps01:1 (webapp)' desktop is gd-webapps01:1 分配终端编号 Creating default startup script /webapp/.vnc/xstartup Starting applications specified in /webapp/.vnc/xstartup Log file is /webapp/.vnc/gd-webapps01:1.log 2.3运行VNC Viewer客户端在Microsoft Windows上运行VNC Viewer “vncviewer.exe”,系统会出现”Connection details”对话框在“Connection details”对话框中的“VNC server”文本框中输入VNC Server的IP地址：终端编号，单击“连接”按钮，再输入密码后，进入vnc操作界面。