- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模式识别理论
Pattern Recognition
a
1
什么是模式识别
• 模式识别(Pattern Recognition)是一种 从大量信息和数据出发,在专家经验和已 有认识的基础上,利用计算机和数学推理 的方法对形状、模式、曲线、数字、字符 格式和图形自动完成识别的、评价的过程。
• 从数学角度而言,模式识别也是一个数学 建模过程。只是给出的是定性结论而不是 定量指标。
a
2
什么是模式识别
• 模式识别包括两个阶段,即学习阶段和实现阶段, 前者是对样本进行特征选择,寻找分类的规律, 后者是根据分类规律对未知样本集进行分类和识 别。
• 广义的模式识别属计算机科学中智能模拟的研究 范畴,内容非常广泛,包括声音和语言识别、文 字识别、指纹识别、声纳信号和地震信号分析、 照片图片分析、化学模式识别等等。计算机模式 识别实现了部分脑力劳动自动化。
a
7
无监督模式识别(聚类分析)
• 如果预先不知道样本的类别,要在学习过 程中根据样本的相似性对被识别的样品进 行识别分类和归类,称为聚类分析。 聚类分析是完全依靠样本自然特性进 行识别的方法,是一种无监督模式识别。
a
8
模式空间
即 x样i=本(xix1,i可xi2用, 一...,组xin参),量在(矢模量式)识来别表中征,,这 种参量值又称特征。通常这些参量实际上 就是原始数据。这样一组参量构成了模式 识别空间的一个点,或称一个n维的模式。 由这些模式所构成的n维变量空间,称为 模式空间。因高维模式空间提供了更多的 信息,故有可能解决一些低维空间中难于 解决的问题。
a
22
a
23
1. 将上表数据进行归一化处理后计算 两类的重心得:
C1=[-0.0103,0.0402,-0.0246,0.0166, 0.0313,-0.0246,-0.0174]´
C2=[0.0103,-0.0402,0.0246,-0.0166, -0.0313,0.0246,0.0174]´
a
Hale Waihona Puke Baidu
9
模式识别常用术语
• 特征抽提(Feature Extraction) • 训练集(Training Set) • 识别率(Recognition Rate) • 预测能力(Predictive Ability)
a
10
注意事项
训练集的数据一定要可靠。 训练集的样本数目要足够多,样本数m与模
2. 计算地层I、II的每一个矢量与C1和 C2的距离,分别如表a和表b所示:
a
24
a
25
线性学习机法
Linear learning machine—LLM
作为模式识别中决策分类的一种方法,该 法希望通过某种方法,在模式空间中到找 到一个判决面(此面叫做分类器),使不 同类的模式点分别位于判别面的两侧。未 知模式的分类可根据它位于判别面的哪一 侧来定。若判别面是一个线性超平面,就 叫线性分类器。
缺点:未对训练点进行信息压缩,每判断一个点
都要将其对所有已知点的距离计算一遍,工作量较
大。
a
21
简化的KNN法—类重心法
将训练集中每类样本点的重心求出,然 后判别未知样本点与各类样本点重心的 距离。未知样本点距哪一类重心距离最 近,即未知样本属于哪一类。
例:有两种地层,用7种指标的分析数据 判别,先从已经准确判断的地层中各取 9个样本,测得的数据如下表:
a
3
模式识别的特点
• 模式识别的理论基础是多元统计理论 和一些近代数学方法(如神经元网络 理论)。
• 模式识别给出的是统计和经验的规律, 无法提供关于样本理论模型。
a
4
用计算机模式识别方法总结规律预报未知, 虽然不如纯粹的理论方法严格和有明确的 机理及解释,但却有广泛的适应面,能够 在现有知识、理论不够完善的情况下发挥 作用。在用计算机模式识别方法解决问题 时,我们仍需要借助于与研究对象相关的 理论知识,去估计、判断影响研究对象的 大致因素,用这些因素的参数构筑多维空 间(即模式空间)描述研究对象的特征, 才能用模式识别的方法总结规律。
KNN法的基本假设: “同类样本在模式空间中相互较靠近,
不同类样本在模式空间中相互远离” 。
K最近邻法考查未知样本点的K个近邻(K为单数 整数),若近邻某一类样本最多,则可将未知样 本判为该类。
为了进行定量判别,可先找出待分类样本的最近 邻,并事先约定最近邻区域中的训练集样本数。 如果只取一个最近邻样本点,即样本数为1,则 称1NN法;如果取2个最近邻样本点,即样本数 为2,则称2NN法;如果样本数为K,则称K近邻 法,简称KNN法。
a
20
KNN算法
计算未知样本点和所有训练集样本点之间的距离。
从最小距离开始计样本数,一直计到有K个样本数 为止,此时所对应的距离就为最近邻的最小距离。
如果在这个最小距离中,距某一类训练集中的样
本数多,距离又小,则可将待分类样本划到该类 中。
优点:对数据结构无特殊要求,简单易行,不需 要训练过程。
a
5
模式识别计算过程示意图
a
6
有监督模式识别(判别分析)
• 如果样本的类别数是已知的,先用一组已 知类别的样本作为训练集,建立判别模型, 再用建立的模型根据相似性原则来对未知 样本进行识别,称为判别分析。
判别分析是在事先知道类别特征的情况 下建立判别模型对样本进行识别归属,是 一种有监督模式识别。
a
26
例子
现有甲状腺病人(记为类1)和正 常人(记为类2)各10例,分别测试5项 功能指标,测试结果见表a和表b所示。 以每一类的前8个 样本作为训练集(表 a),后2个作为测试集(表b)。用 LLM法对其进行判别。
Supervised pattern recognition (Discriminating analysis methods)
a
17
参数判别分析法 包括距离判别、Fisher判别与Beayes
判别分析法等
非参数判别分析法 包括线性学习机、K-最近邻法、人工
神经网络法等
a
18
K-Nearest Neighbors Discrimination Method
式空间维数n 的比值至少应满足m/n≥3,最好 m/n≥10。 模式空间特征的选择是成败的关键,要选取与 样本分类有关的特征,如果不能包括与分类有 关的主要特征,模式识别就不会有好的效果。
a
11
模式识别的数据预处理
a
13
a
14
模式间相似度的度量
a
16
模式识别方法I
有监督模式识别法(判别分析法)