《模式识别》实验报告-贝叶斯分类
- 格式:docx
- 大小:11.50 KB
- 文档页数:2
模式识别实验报告————————————————————————————————作者:————————————————————————————————日期:实验报告实验课程名称:模式识别姓名:王宇班级: 20110813 学号: 2011081325实验名称规范程度原理叙述实验过程实验结果实验成绩图像的贝叶斯分类K均值聚类算法神经网络模式识别平均成绩折合成绩注:1、每个实验中各项成绩按照5分制评定,实验成绩为各项总和2、平均成绩取各项实验平均成绩3、折合成绩按照教学大纲要求的百分比进行折合2014年 6月实验一、 图像的贝叶斯分类一、实验目的将模式识别方法与图像处理技术相结合,掌握利用最小错分概率贝叶斯分类器进行图像分类的基本方法,通过实验加深对基本概念的理解。
二、实验仪器设备及软件 HP D538、MATLAB 三、实验原理 概念:阈值化分割算法是计算机视觉中的常用算法,对灰度图象的阈值分割就是先确定一个处于图像灰度取值范围内的灰度阈值,然后将图像中每个像素的灰度值与这个阈值相比较。
并根据比较的结果将对应的像素划分为两类,灰度值大于阈值的像素划分为一类,小于阈值的划分为另一类,等于阈值的可任意划分到两类中的任何一类。
最常用的模型可描述如下:假设图像由具有单峰灰度分布的目标和背景组成,处于目标和背景内部相邻像素间的灰度值是高度相关的,但处于目标和背景交界处两边的像素灰度值有较大差别,此时,图像的灰度直方图基本上可看作是由分别对应于目标和背景的两个单峰直方图混合构成。
而且这两个分布应大小接近,且均值足够远,方差足够小,这种情况下直方图呈现较明显的双峰。
类似地,如果图像中包含多个单峰灰度目标,则直方图可能呈现较明显的多峰。
上述图像模型只是理想情况,有时图像中目标和背景的灰度值有部分交错。
这时如用全局阈值进行分割必然会产生一定的误差。
分割误差包括将目标分为背景和将背景分为目标两大类。
实际应用中应尽量减小错误分割的概率,常用的一种方法为选取最优阈值。
《模式识别》实验报告---最小错误率贝叶斯决策分类一、实验原理对于具有多个特征参数的样本(如本实验的iris 数据样本有4d =个参数),其正态分布的概率密度函数可定义为112211()exp ()()2(2)T d p π-⎧⎫=--∑-⎨⎬⎩⎭∑x x μx μ 式中,12,,,d x x x ⎡⎤⎣⎦=x 是d 维行向量,12,,,d μμμ⎡⎤⎣⎦=μ是d 维行向量,∑是d d ⨯维协方差矩阵,1-∑是∑的逆矩阵,∑是∑的行列式。
本实验我们采用最小错误率的贝叶斯决策,使用如下的函数作为判别函数()(|)(),1,2,3i i i g p P i ωω==x x (3个类别)其中()i P ω为类别i ω发生的先验概率,(|)i p ωx 为类别i ω的类条件概率密度函数。
由其判决规则,如果使()()i j g g >x x 对一切j i ≠成立,则将x 归为i ω类。
我们根据假设:类别i ω,i=1,2,……,N 的类条件概率密度函数(|)i p ωx ,i=1,2,……,N 服从正态分布,即有(|)i p ωx ~(,)i i N ∑μ,那么上式就可以写为1122()1()exp ()(),1,2,32(2)T i i dP g i ωπ-⎧⎫=-∑=⎨⎬⎩⎭∑x x -μx -μ对上式右端取对数,可得111()()()ln ()ln ln(2)222T i i i i dg P ωπ-=-∑+-∑-i i x x -μx -μ上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。
则判别函数()i g x 可简化为以下形式111()()()ln ()ln 22T i i i i g P ω-=-∑+-∑i i x x -μx -μ二、实验步骤(1)从Iris.txt 文件中读取估计参数用的样本,每一类样本抽出前40个,分别求其均值,公式如下11,2,3ii iii N ωωω∈==∑x μxclear% 原始数据导入iris = load('C:\MATLAB7\work\模式识别\iris.txt'); N=40;%每组取N=40个样本%求第一类样本均值 for i = 1:N for j = 1:4w1(i,j) = iris(i,j+1); end endsumx1 = sum(w1,1); for i=1:4meanx1(1,i)=sumx1(1,i)/N; end%求第二类样本均值 for i = 1:N for j = 1:4 w2(i,j) = iris(i+50,j+1);end endsumx2 = sum(w2,1); for i=1:4meanx2(1,i)=sumx2(1,i)/N; end%求第三类样本均值 for i = 1:N for j = 1:4w3(i,j) = iris(i+100,j+1); end endsumx3 = sum(w3,1); for i=1:4meanx3(1,i)=sumx3(1,i)/N; end(2)求每一类样本的协方差矩阵、逆矩阵1i -∑以及协方差矩阵的行列式i ∑, 协方差矩阵计算公式如下11()(),1,2,3,41i ii N i jklj j lk k l i x x j k N ωωσμμ==--=-∑其中lj x 代表i ω类的第l 个样本,第j 个特征值;ij ωμ代表i ω类的i N 个样品第j 个特征的平均值lk x 代表i ω类的第l 个样品,第k 个特征值;iw k μ代表i ω类的i N 个样品第k 个特征的平均值。
模式识别理论与方法
课程作业实验报告
实验名称:Generating Pattern Classes
实验编号:Proj02-01
规定提交日期:2012年3月30日
实际提交日期:2012年3月24日
摘要:
在熟悉贝叶斯分类器基本原理基础上,通过对比分类特征向量维数差异而导致分类正确率发生的变化,验证了“增加特征向量维数,可以改善分类结果”。
对于类数的先验概率已知、且无须考虑代价函数的情况,贝叶斯分类器相当简单:“跟谁亲近些,就归属哪一类”。
技术论述:
1,贝叶斯分类器基本原理:多数占优,错误率最小,风险最低
在两类中,当先验概率相等时,贝叶斯分类器可以简化如下:
2,增加有效分类特征分量,可以有助于改善分类效果
实验结果讨论:
从实验的过程和结果来看,进一步熟悉了贝叶斯分类器的原理和使用,基本达到了预期目的。
实验结果:
图1 原始数据
图2 按第1 个特征分量分类结果
图3 按第2 个特征分量分类结果
图4 综合两个特征分量分类结果附录:(程序清单,参见压缩包)
%在Matlab 版本2009a 下运行通过。
实验报告课程名称:模式识别学院:电子通信与物理学院专业:电子信息工程班级:电子信息工程2013-3 姓名:学 号:指导老师:实验一Bayes 分类器设计本实验旨在让同学对模式识别有一个初步的理解,能够根据自己的设计对贝叶斯决策理论算法有一个深刻地认识,理解二类分类器的设计原理。
1实验原理最小风险贝叶斯决策可按下列步骤进行:(1)在已知)(i P ω,)(i X P ω,i=1,…,c 及给出待识别的X 的情况下,根据贝叶斯公式计算出后验概率:∑==c j ii i i i P X P P X P X P 1)()()()()(ωωωωω j=1,…,x(2)利用计算出的后验概率及决策表,按下面的公式计算出采取i a ,i=1,…,a 的条件风险∑==c j j ji i X P a X a R 1)(),()(ωωλ,i=1,2,…,a(3)对(2)中得到的a 个条件风险值)(X a R i ,i=1,…,a 进行比较,找出使其条件风险最小的决策k a ,即则k a 就是最小风险贝叶斯决策。
2实验内容假定某个局部区域细胞识别中正常(1ω)和非正常(2ω)两类先验概率分别为 正常状态:P (1ω)=0.9;异常状态:P (2ω)=0.1。
现有一系列待观察的细胞,其观察值为x :-3.9847 -3.5549 -1.2401 -0.9780 -0.7932 -2.8531-2.7605 -3.7287 -3.5414 -2.2692 -3.4549 -3.0752-3.9934 2.8792 -0.9780 0.7932 1.1882 3.0682-1.5799 -1.4885 -0.7431 -0.4221 -1.1186 4.2532已知类条件概率密度曲线如下图:)|(1ωx p )|(2ωx p 类条件概率分布正态分布分别为(-2,0.25)(2,4)试对观察的结果进行分类。
3 实验要求1)用matlab完成分类器的设计,要求程序相应语句有说明文字。
《模式识别》实验报告题目:最小错误率贝叶斯决策一、实验内容1,实验原理2,实验步骤1)从iris.txt 文件(课程邮箱-文件中心)中读取估计参数用的样本,每一类样本抽出前40个,分别求其均值;(2)求每类样本的协方差矩阵、逆矩阵以及协方差矩阵的行列式;(3)对三个类别,分别取每组剩下的 10个样本,每两组进行分类。
由于每类样本都相等,且每类选取用作训练的样本也相等,在每两组进行分类时,待分类样本的类先验概率为0.5。
将各个样本代入判别函数既公式(5),进行分类。
3,实验要求(1)复习最小错误率贝叶斯决策原理,写出实验代码,实现对三类样本的分类;(2)计算分类的正确率,画出三维空间的样本分类图;(3)分析实验结果,完成实验报告。
二、实验代码(1),clear% 原始数据导入iris=load('iris.txt');N=40;%每组取N=40个样本%求第一类样本均值for i = 1:Nfor j = 1:4w1(i,j) = iris(i,j+1);endendsumx1 = sum(w1,1);for i=1:4meanx1(1,i)=sumx1(1,i)/N;end%求第二类样本均值for i = 1:Nfor j = 1:4w2(i,j) = iris(i+50,j+1);endendsumx2 = sum(w2,1);for i=1:4meanx2(1,i)=sumx2(1,i)/N;end%求第三类样本均值for i = 1:Nfor j = 1:4w3(i,j) = iris(i+100,j+1);endendsumx3 = sum(w3,1);for i=1:4meanx3(1,i)=sumx3(1,i)/N;end(2),%求第一类样本协方差矩阵z1(4,4) = 0;var1(4,4) = 0;for i=1:4for j=1:4for k=1:Nz1(i,j)=z1(i,j)+(w1(k,i)-meanx1(1,i))*(w1(k,j)-meanx1(1,j)); endvar1(i,j) = z1(i,j) / (N-1);endend%求第二类样本协方差矩阵z2(4,4) = 0 ;var2(4,4) = 0;for i=1:4for j=1:4for k=1:Nz2(i,j)=z2(i,j)+(w2(k,i)-meanx2(1,i))*(w2(k,j)-meanx2(1,j)); endar2(i,j) = z2(i,j) / (N-1);endend%求第三类样本协方差矩阵z3(4,4) = 0 ;var3(4,4) = 0;for i=1:4for j=1:4for k=1:Nz3(i,j)=z3(i,j)+(w3(k,i)-meanx3(1,i))*(w3(k,j)-meanx3(1,j));endvar3(i,j) = z3(i,j) /( N-1);endend%求各类的协方差矩阵逆矩阵及行列式var1_inv = [];var1_det = [];var2_inv = [];var2_det = [];var3_inv = [];var3_det = [];var1_inv = inv(var1);var2_inv = inv(var2);var3_inv = inv(var3);var1_det = det(var1);var2_det = det(var2);var3_det = det(var3);(3),M=10;for i = 1:Mfor j = 1:4test(i,j) = iris(i+50,j+1); % 取测试数据endendt1=0;t2=0;t3=0;for i = 1:Mx=test(i,1);y=test(i,2);z=test(i,3);h=test(i,4);g1 = (-0.5)*([x,y,z,h]-meanx1)*var1_inv*([x,y,z,h]'-meanx1') - 0.5*log(abs(var1_det)) +log(0.5); % p1g2 = (-0.5)*([x,y,z,h]-meanx2)*var2_inv*([x,y,z,h]'-meanx2') - 0.5*log(abs(var2_det)) +log(0.5); % p2if g1>g2t1=t1+1; %若g1>g2,则属于第一类,否则属于第二类,并统计属于每一类的个数elset2=t2+1;endend三、实验结果(1)第一类样本均值:5.0375 3.4525 1.46 0.235第二类样本均值:6.01 2.78 4.3175 1.35第三类样本均值:6.6225 2.96 5.6075 1.99(2)每类样本的协方差矩阵、逆矩阵以及协方差矩阵的行列式第一类样本的协方差矩阵:0.131121794871795 0.0972115384615384 0.0133333333333333 0.01326923076923080.0972115384615384 0.130250000000000 0.00215384615384614 0.01196153846153850.0133333333333333 0.00215384615384614 0.0296410256410257 0.005025641025641030.0132692307692308 0.0119615384615385 0.00502564102564103 0.00951282051282051逆矩阵:18.8146188042527 -13.3847352886752 -6.47453636800065 -5.99346924772421 -13.3847352886752 18.2504706645718 5.95329943788004 -7.42342518317483-6.47453636800065 5.95329943788004 39.4922929094642 -19.3184124732768-5.99346924772421 -7.42342518317483 -19.3184124732768 133.021*********协方差矩阵的行列式:1.56318133831812e-06第二类样本的协方差矩阵:0 0 0 00 0 0 00 0 0 00 0 0 0逆矩阵:Inf Inf Inf InfInf Inf Inf InfInf Inf Inf InfInf Inf Inf Inf协方差矩阵的行列式:0第三类样本的协方差矩阵:0.467942307692308 0.110410256410256 0.357775********* 0.0512564102564103 0.110410256410256 0.113230769230769 0.0810769230769231 0.0462564102564103 0.357775********* 0.0810769230769231 0.345326923076923 0.0593076923076923 0.0512564102564103 0.0462564102564103 0.0593076923076923 0.0742564102564103 逆矩阵:12.0677437364511 -4.88916379648501 -12.1082128512238 4.38637019494952 -4.88916379648501 14.8211423555543 3.00369869101398 -8.25671873361937 -12.1082128512238 3.00369869101398 15.7866851329687 -6.12187764556262 4.38637019494952 -8.25671873361937 -6.12187764556262 20.4719162879598 协方差矩阵的行列式:0.000142786635162081(3)各类样本代入公式分类得:第一类样本:5.11375000000000 3.79125000000000 0.520000000000000 0.517500000000000 3.79125000000000 5.07975000000000 0.0839999999999996 0.466500000000000 0.520000000000000 0.0839999999999996 1.15600000000000 0.196000000000000 0.517500000000000 0.466500000000000 0.196000000000000 0.371000000000000 第二类样本:10.6760000000000 3.37800000000000 6.71300000000000 2.04000000000000 3.37800000000000 4.32400000000000 3.15400000000000 1.77000000000000 6.71300000000000 3.15400000000000 7.93775000000000 2.87500000000000 2.04000000000000 1.77000000000000 2.87500000000000 1.68000000000000 第三类样本:18.2497500000000 4.30600000000000 13.9532500000000 1.99900000000000 4.30600000000000 4.41600000000000 3.16200000000000 1.80400000000000 13.9532500000000 3.16200000000000 13.4677500000000 2.31300000000000 1.99900000000000 1.80400000000000 2.31300000000000 2.89600000000000三维空间分类图:四实验心得首先感谢老师给予我们这次试验的机会,通过这次试验,我更深入了解了最小错误率贝叶斯决策原理,通过计算期望,可以对现实问题进行数学计算,从而获得最优解。
一、贝叶斯估计做分类【问题描述】实习题目一:用贝叶斯估计做分类。
问题描述:给出试验区裸土加水田的tif图像,要求通过贝叶斯估计算法对房屋、水田及植被进行分类。
问题分析:首先通过目视解译法对图像进行分类,获取裸土、水田和植被的DN值,在此基础上,通过该部分各个类别的面积计算先验概率,然后带入公式进行计算,从而对整个图像进行分类。
【模型方法】与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。
最大似然分类是图像处理中最常用的一种监督分类方法,它利用了遥感数据的统计特征,假定各类的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,也就是和中个方向上散布情况不同,按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。
否则,用平行六面体或最小距离分类效果会更好。
【方案设计】①确定需要分类的地区和使用的波段和特征分类数,检查所用各波段或特征分量是否相互已经位置配准;②根据已掌握的典型地区的地面情况,在图像上选择训练区;③计算参数,根据选出的各类训练区的图像数据,计算和确定先验概率;④分类,将训练区以外的图像像元逐个逐类代入公式,对于每个像元,分几类就计算几次,最后比较大小,选择最大值得出类别;⑤产生分类图,给每一类别规定一个值,如果分10 类,就定每一类分别为1 ,2 ……10 ,分类后的像元值便用类别值代替,最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数,在监视器上显示时需要给各类加上不同的彩色;⑥检验结果,如果分类中错误较多,需要重新选择训练区再作以上各步,直到结果满意为止。
【结果讨论】如图所示,通过贝叶斯算法,较好地对图像完成了分类,裸土、植被和水田三个类别清晰地判别出来。
在计算先验概率时,选择何种数据成为困扰我的一个问题。
既有ENVI自身提供的精确的先验概率值,也可以自己通过计算各个类别的面积,从而获取大致的先验概率值。
最后,在田老师的讲解下,我知道了虽然数据可能不太精确,但是,计算先验概率时,总体的倾向是一致的,所以在最后判别时,因此而引起的误差是微乎其微的,所以,一定要弄清楚算法原理,才能让自己的每一步工作都有理可循。
模式识别贝叶斯方法实验报告姓名与学号:教师:唐柯目录模式识别贝叶斯方法实验报告 (1)目录 (2)1 原理 (3)1.1 基本思想 (3)1.2 工作过程 (3)2 实验记录 (4)2.1 matlab程序 (4)2.2 特殊情况 (4)2.3 实验结果 (4)2.4 实验人员任务分配 (4)附录 (5)1 原理1.1 基本思想①已知类条件概率密度参数表达式(如符合正态分布)和先验概率(有监督,可统计得到) ②利用贝叶斯公式转换成后验概率 ③根据后验概率大小进行决策分类1.2 工作过程1. 每个数据样本用一个n 维特征向量X = {x 1 , x 2 ,..., x n }表示,对应属性A 1, A 2, ..., A n 。
2. m 个类别C 1 ,C 2 ,...,C m (在本实验中只有两类)。
给定一个未知类别的数据样本X ,分类器将预测X 属于具有最高后验概率(条件X 下)的类。
即将未知的样本分配给类C i ,当且仅当:P(C i | X) > P(C j | X) 1 ≤ j ≤ m 且j ≠ i.求令P(C i | X)最大的类Ci 称为最大后验假设。
根据贝叶斯定理P(C i | X) = P(X | C i )*P(C i )/P(X)由于P(X) 对于所有类别为常数,只需要P(X |C i )*P(C i )最大。
类别的先验概率可以统计得到(有监督),所以最大化P(X | C i )P(C i )。
类别的先验概率P(C i ) = 类别C i 的训练样本数/训练样本总数3. 假定各类别样本之间的属性值相互独立,则P(X|C i ) = ΠP(x k |C i ) k=1...n而概率P(x k |C i )可由训练样本估值,按属性离散与否分为 ①离散属性,则P(x k |C i ) = S ik /S iS ik 为在属性A k 上具有值x k 的类别C i 的训练样本数,S i 是类别C i 的样本数。
《模式识别》实验报告-贝叶斯分类
一、实验目的
通过使用贝叶斯分类算法,实现对数据集中的样本进行分类的准确率评估,熟悉并掌握贝叶斯分类算法的实现过程,以及对结果的解释。
二、实验原理
1.先验概率
先验概率指在不考虑其他变量的情况下,某个事件的概率分布。
在贝叶斯分类中,需要先知道每个类别的先验概率,例如:A类占总样本的40%,B类占总样本的60%。
2.条件概率
后验概率指在已知先验概率和条件概率下,某个事件发生的概率分布。
在贝叶斯分类中,需要计算每个样本在各特征值下的后验概率,即属于某个类别的概率。
4.贝叶斯公式
贝叶斯公式就是计算后验概率的公式,它是由条件概率和先验概率推导而来的。
5.贝叶斯分类器
贝叶斯分类器是一种基于贝叶斯定理实现的分类器,可以用于在多个类别的情况下分类,是一种常用的分类方法。
具体实现过程为:首先,使用训练数据计算各个类别的先验概率和各特征值下的条件概率。
然后,将测试数据的各特征值代入条件概率公式中,计算出各个类别的后验概率。
最后,取后验概率最大的类别作为测试数据的分类结果。
三、实验步骤
1.数据集准备
本次实验使用的是Iris数据集,数据包含150个Iris鸢尾花的样本,分为三个类别:Setosa、Versicolour和Virginica,每个样本有四个特征值:花萼长度、花萼宽度、花瓣长度、花瓣宽度。
2.数据集划分
将数据集按7:3的比例分为训练集和测试集,其中训练集共105个样本,测试集共45个样本。
计算三个类别的先验概率,即Setosa、Versicolour和Virginica类别在训练集中出现的频率。
对于每个特征值,根据训练集中每个类别所占的样本数量,计算每个类别在该特征值下出现的频率,作为条件概率。
5.测试数据分类
将测试集中的每个样本的四个特征值代入条件概率公式中,计算出各个类别的后验概率,最后将后验概率最大的类别作为该测试样本的分类结果。
6.分类结果评估
将测试集分类结果与实际类别进行比较,计算分类准确率和混淆矩阵。
四、实验结果分析
本次实验使用的贝叶斯分类算法在Iris数据集上的分类准确率为93.3%,混淆矩阵如下:
||||正确|错误|
|:-:|:-:|:-:|:-:|
|Setosa|14|1|
|Versicolour|16|0|
|Virginica|13|1|
结果表明,数据集中的大部分样本都被正确分类,说明贝叶斯分类器在本数据集上有较好的分类效果。
五、总结
贝叶斯分类算法是一种基于概率论的分类方法,在处理多个分类问题时具有较高的准确率和鲁棒性,并且对特征值数目的要求较低。
本次实验证明了贝叶斯分类器在Iris数据集上的有效性。
在使用贝叶斯分类算法时,需要准备好训练数据集,计算先验概率和条件概率,并对分类结果进行评估和解释。
针对不同的数据集和问题,可以使用不同的贝叶斯分类算法进行实现和优化,以获得更好的分类效果和应用场景。