人工智能模式识别综述

格式：docx
大小：23.43 KB
文档页数：5

下载文档原格式

/ 5

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模式识别综述

摘要

模式识别(Pattern Recognition)又称图形识别，就是通过计算机用数学技术方法来研究模式的自动处理和判读。通常把环境与客体统称为“模式”。随

着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的

一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光

学信息（通过视觉器官来获得）和声学信息（通过听觉器官来获得）的识别。

这是模式识别的两个重要方面。模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的，属于认识科学的范畴,二是在给定的任务下,如

何用计算机实现模式识别的理论和方法。本文主要阐述了模式识别的基本原理、方法及各种技术，以及在相关领域的应用。

关键字：模式识别

模式识别基本概念：

（一）模式识别系统

模式识别的本质是根据模式的特征表达和模式类的划分方法，利用计算机

将模式判属特定的类。因此，模式识别需要解决五个问题：模式的数字化表达、模式特性的选择、特征表达方法的确定、模式类的表达和判决方法的确定。一

般地，模式识别系统由信息获取、预处理、特征提取和选择、分类判决等4部

分组成，如图1-1所示。

图1-1 模式识别系统的组成框图

（二）线性分类器

对一个判别函数来说，应该被确定的是两个内容：其一为方程的形式；其

二为方程所带的系数。对于线性判别函数来说方程的形式是线性的，方程的维

数为特征向量的维数，方程组的数量则决定于待判别对象的类数。对M类问题

就应该有M个线性判别函数；对两类问题如果采用“+”“-”判别，则判别函

数可以只有一个。既然方程组的数量、维数和形式已定，则对判别函数的设计

就是确定函数的各系数，也就是线性方程的各权值。在计算机上确定各权值时

采用的是“训练”或“学习”的方法，这就是待识别的模式集中挑选一批有代

表的样本，它们经过人工判读成为已知类别的样本，把这批样本逐个输入到计

算机的“训练”程序（或算法）中去，通过一次一次的迭代最后得到正确的线

性判别函数，这样一个迭代的运算的过程成为训练过程。由于样本的分类首先

经过人工判读，因而这样的构成分类器也称为有人监督或有教师的分类器。

线性分类器虽然是最简单的分类器，但是在样本为某些分布情况时，线性

判别函数可以成为最小错误率或最小风险意义下的最优分类器。而在一般情况下，线性分类器只能是次优分类器，但是因为它简单而且在很多情况下效果接

近最优，所以应用比较广泛，在样本有限的情况下有时甚至能取得比复杂的分

类器更好的效果。

(三）特征选择和提取

(1)特征选择

一个模式识别系统的成败，首先取决于所利用的特征是否较好地反映了

将要研究的分类问题。因此如何设计和获取特征是一个实际模式识别的第一

步。特征的获取是依赖于具体的问题和相关专业的知识的，无法进行一般性

的讨论。从模式识别角度，很多情况下人们面对的是已经得到的一组特征，或

者是利用当时的技术手段把所有有可能观测到的特征都记录下来。这时，这些

特征中可能有很多特征与要解决的分类问题关系并不密切，它们在后续的分类

器设计中可能会影响分类器的性能。另一方面，有时即使很多特征都与分类器

关系密切，但是特征过多会带来计算量大、推广能力差等问题，在这样数目有

限时很多方法甚至会因为出现病态矩阵等问题而根本无法计算，因此人们也往

往希望在保证分类效果的前提下用尽可能少的特征来完成分类。模式识

别中的特征选择的问题，就是指在模式识别中，用计算方法从一组给定的特征

中选择一部分特征进行分类。这是降低特征空间维数的一种基本方法。

(2)特征提取

原始特征的数量可能很大，或者说样本处于一个高维空间中，通过映射（或变换）的方法可以用低维空间来表示样本，这个过程称为特征提取。映射

后的特征称为二次特征，它们是原始特征的某种组合（通常是线性组合）。所

谓特征提取，在广义上就是指一种变换。若Y是测量空间，X是特征空间，则

变换A:Y→X就称为特征提取器。一般情况下的特征变换都是将维变换。

(3)特征选择和提取的作用

特征选择和特征的提取的主要目的，一是在不降低或者很少降低分类结果性能的情况下，降低特征空间的维数，二是为了消除特征之间可能存在的相关性，减少特征中与分类无关的信息，使新的特征更有利于分类。

其主要作用在于：

（1）简化计算。特征空间的维数越高，需占用的计算机资源就越多，

设计和计算也就越复杂。

（2）简化特征空间结构。由于特征提取和选择是去除类间差别小的特征，保留类间差别大的特征，因此，在特征空间中，每类所占据的子空间结构可分

离性更强，从而也简化了类间分界面形状的复杂度。

(四)概率密度函数估计

概率密度函数的估计方法分为两大类：参数估计与非参数估计。

参数估计中，已知概率密度函数形式，但其中部分或者全部参数未知，概

率密度函数的估计问题就是用样本来估计这些参数。主要方法又有两类：最大

似然估计和贝叶斯估计，两者在很多实际情况下结果接近，但从概念上它们的

处理方法是不同的。

参数估计是统计推断的基本问题之一，下面主要介绍几个参数估计的基本

概念。

（1）统计量。样本中包含着总体的信息，希望通过样本集把有关信息抽取出来，就是说针对不同要求构造出样本的某种函数，这种函数在统计学中称

为统计量。

（2）参数空间。如上所述，在参数估计中，总是假设总体概率密度函数的形式已知，而未知的仅是分布中的几个参数，将未知参数记为θ，在统计学中，将总体分布未知函数θ的全部可容许值组成的集合称为参数空间，记为

ʘ。

（3）点估计、点估计值、点估计量。点估计问题就是要构造一个统计量作为参数θ的估计。在统计学中，构造的此统计量称为θ的估计量，把样本的

观测值代入统计量，得到一个具体数值，这个数值在统计学中称为θ的估计

值。

（4）区间估计。利用抽样分布估计参数可能在位于的区间，即要求用区间[d1,d2]作为θ的可能取值范围的一种估计。这个区间称为置信区间，这类估计称为区间估计。

非参数估计，就是概率密度函数的形式也未知，或者概率密度函数不符合

目前研究的任何分布模型，因此不能仅仅估计几个参数，而是用样本把概率密

度函数数值化地估计出来。这种估计只能用数值方法取得，无法得到完美的封

闭函数形式。从另外的角度来看，概率密度函数的参数估计实际是在指定的一

类函数中选择一个函数作为对未知函数的估计，而非参数估计可以看作是从所

有可能的函数中进行的一种选择。非参数估计的方法有直方图法，近邻法和Parzen窗法。

（五）聚类分析

聚类就是按照一定的要求和规律对事物进行区分和分类的过程，在这一过

程中没有任何关于分类的先验知识，仅靠事物间的相似性作为类属划分的准则，因此是无监督分类。聚类分析是指用数学的方法研究和处理给定对象的分类。

多年来，人们提出了许多关于“聚类”的定义，但一直没有通用的定义。温熙

森给出的聚类分析定义是：“聚类分析是统计模式识别的另一重要工具，它把

模式归入到这样的类别或聚合类：同一个聚合类的模式比不同聚合类中的模式

更相近”。它的基本原理就是在没有先验知识的情况下，基于“物以类聚”的

观点，用数学方法分析各模式向量之间的距离及分散情况，按照样本距离远近

划分类别。

聚类分析是无监督分类方法，它把一个没有类别标记的样本集按照某种准

则划分成若干个子集饿，使相似的样本尽可能归为一类，不相似的样本尽量划

分到不同的类中。在实际应用中，很多情况下无法预先知道样本的类别，只能

用没有样本类别标记的样本集进行分类器设计，这就是无监督分类方法。监督

分类方法和无监督分类方法的区别主要如下：

（1）监督分类方法有训练样本集，在训练样本集中给出不同类别的训练样本，用这些训练样本就可以找出区分不同类样本的方法，从而在特征空间中划

定决策域。

人工智能模式识别综述

相关主题

文档推荐

最新文档

人工智能 模式识别综述

相关主题

文档推荐

最新文档

人工智能模式识别综述