模式识别近邻法共63页文档

模式识别实验报告

模式识别实验报告实验一、最近邻规则的聚类算法一、实验要求编写采用最近邻规则的聚类算法，距离采用欧式距离，阈值可设定。

采用二维特征空间中的10个样本对程序进行验证。

x1 = (0,0) ，x2 = (3,8) ，x3 = (2,2) ，x4 = (1,1) ，x5 = (5,3)，x6 = (4,8) ，x7 = (6,3) ，x8 = (5,4) ，x9 = (6,4) ，x10 = (7,5)。

二、实验步骤○1、选取距离阈值T，并且任取一个样本作为第一个聚合中心Z1，如：Z1=x1；○2、计算样本x2到Z1的距离D21；若D21≤T，则x2∈Z1，否则令x2为第二个聚合中心，Z2=x2。

设Z2=x2，计算x3到Z1和Z2的距离D31和D32 。

若D31>T和D32>T，则建立第三个聚合中心Z3 ；否则把x3归于最近邻的聚合中心。

依此类推，直到把所有的n个样本都进行分类。

○3、按照某种聚类准则考察聚类结果，若不满意，则重新选取距离阈值T、第一个聚合中心Z1，返回第二步②处，直到满意，算法结束。

三、程序设计详见附件1：test1.m。

四、仿真结果最近邻聚类算法：阈值T=1，第一个聚类中心（5,4）最近邻聚类算法：阈值T=3，第一个聚类中心（5,4）最近邻聚类算法：阈值T=6，第一个聚类中心（5,4）最近邻聚类算法：阈值T=10，第一个聚类中心（5,4）五、结果分析1、考虑阈值对聚类的影响：由上述仿真结果可知，阈值大小对于分类的影响非常大。

当阈值小于1的时候，样本（10个）共分为10类；而当阈值大于10的时候，样本全分为1类；当阈值在其中时，随着阈值的变化分类页多样化。

所以选取合适的阈值是正确分类的前提标准！2、考虑初始聚类中心对聚类的影响：在合适的阈值下，第一个聚类中心的选取对分类结果几乎没有什么影响；而相对的，阈值不合适的情况下，第一个聚类中心的选取对分类结果还是有一些影响，仿真结果会出现一些偏差。

模式识别：K_近邻法

模式识别：K_近邻法最近邻法：保存两个已知分类的样本，用新样本依次与已经保存的两类样本计算欧式距离，分类结果指向距离最小的样本。

K-近邻法:在最近邻法的基础上，引进投票机制，选择若干个距离新样本最近的已知样本，用他所得类别最大票数做为新样本所属类别。

注意：为保证公平，投票数量（k）为奇数欧式距离：||xi-xj||xi,xj为特征向量，||。

||先取绝对值再取模错误率:样本趋于无穷，k值趋于无穷时 k-近邻法的错误率接近贝叶斯错误率算法：涉及的语言以及依赖库：本算法采用python3完成，事先需要安装python3的numpy,pandas,random库。

其中numpy库涉及矩阵运算，以及科学数据处理。

pandas涉及excel文档数据的导入。

random库涉及随机数的产生，用于产生本程序所需要的k_折交叉验证用到的随机分包索引矩阵。

程序：# -*- coding: utf-8 -*-"""Created on Sun Nov 19 17:27:04 2017@author: hasee"""import pandas as pdimport mathimport randomimport numpy as np#读取文件的数据集def read_file(filename):file_data = pd.read_excel(filename,index_col=None,header=None,sheetna me=0)example_data = np.array(file_data)example_data = example_data.tolist()example_data = np.mat(example_data)return example_data#计算矩阵中各元素平方def numplus(plus_data):m,n = np.shape(plus_data)for i in list(range(0,m)):for j in list(range(0,n)):plus_data[i,j]=plus_data[i,j]**2target_data = plus_data.sum(1)m1,n1 = np.shape(target_data)for k in list(range(0,m1)):for v in list(range(0,n1)):target_data[k,v]=np.sqrt(target_data[k,v])return target_data#寻找数量最多的元素的值def maxnum(label_map):label_list = label_map.tolist()num_list=[]m,n=np.shape(label_map)for i in list(range(0,m)): #获取标签矩阵中个数最多的元素b=label_list[i]d=max(b,key=b.count)num_list.append(d)label_mat = np.mat(num_list).Treturn label_mat#K折交叉验证随机分包行标记,row_big为样本集最大行数def rndom_rows(row_big,k):rows = list(range(0,row_big))goals = []rows = set(rows)for i in list(range(0,k)):a = random.sample(rows,int(row_big/k)) #在给定的rows里面选择row_big/k个不同的数b = set(a)rows = rows -bgoals.append(a)goal = np.array(goals)index_matrix = np.mat(goal)return index_matrix#用k_折交叉验证获取训练数据以及测试数据def k_validation(example_data,index_matrix,k1): #k1表式取索引矩阵的第k1组数据作为测试集合exm_list=example_data.tolist() #样本数据转化为列表index_list = index_matrix.tolist() #分包索引矩阵转化问列表m,n = np.shape(exm_list) #获取样本数据大小m1,n1 = np.shape(index_list) #获取索引矩阵大小test=[]train=[]for i in list(range(0,int(m/10))): #遍历index_matrix中数据集测试集索引c = index_list[k1][i]test.append(exm_list[c]) #根据index_d=matrix的索引获取样本集，保存在test列表中test_data=np.mat(test) #样本列表转换成矩阵for x in test: #删除样本集中取出的测试集相等子集exm_list.remove(x)train = exm_listtrain_data = np.mat(train) #训练样本列表转矩阵return test_data,train_data #返回样本集，测试集#获取测试集与训练集的欧式距离矩阵def get_distance(train_data,test_data):m,n = np.shape(train_data)m1,n1=np.shape(test_data)r_train = train_data[:,0:n-1] #获取除标签外的test_data和train_datar_test = test_data[:,0:n1-1]each_row = np.mat(np.zeros((m+1,1))) #建立按列增加的矩阵each_col = np.mat(np.zeros((1,n-1))) #建立按行增加的矩阵for i in list(range(0,m1)):for j in list(range(0,m)):a=r_train[j,:]-r_test[i,:] #计算样本和测试集坐标差each_col=np.vstack((each_col,a)) #按行增加保存在each_col矩阵中target_data = numplus(each_col) #根据坐标差调用numplus()函数，计算欧式距离each_row = np.hstack((each_row,target_data)) #按列增加模式保存在each_row距离矩阵中each_col = np.mat(np.zeros((1,n-1)))distance = each_row #距离矩阵赋值给distancem2,n2 = np.shape(distance)distance_data = distance[1:m2,1:n2] #删除空间分配时产生的零行和零列m,n = np.shape(distance_data)return distance_data #返回距离矩阵#在距离矩阵中实现分类def classify_data(distance,train_data,test_data,K):m,n = np.shape(train_data)pre_clsy = np.hstack((distance,train_data[:,n-1])) #将训练集的标签按行增加的方式，贴到距离矩阵中，距离矩阵中的每一列代表一个样本和所有训练集的欧氏距离pre_clsy = pre_clsy.T #求距离矩阵的转置标签变为最后一行m1,n1=np.shape(pre_clsy)clsy_index = np.mat(np.zeros((1,n1)))for i in list(range(0,m1-1)):index_sort = np.argsort(pre_clsy[i,:]) #按行排序把排好序的数据在未排序之前的元素所在的位置保存在位置矩阵中clsy_index = np.vstack((clsy_index,index_sort))clsy_index = clsy_index[1:m1,:] #获取除标签外的所有行的数据排序后的位置矩阵target_index = clsy_index[:,0:K] #K_近邻法要求取的前k各最小的元素，索引矩阵前k行m2,n2 =np.shape(target_index)for i in list(range(0,m2)):for j in list(range(0,n2)):a=target_index[i,j]target_index[i,j] =train_data[a,n-1] #将索引矩阵映射到原矩阵的标签处label_map = target_indexlabel = maxnum(label_map) #投票求出得票数最多的类型，并将其标签保存target_clsy = np.hstack((test_data,label)) #得到的标签保存后按列扩增后贴到测集合上return target_clsy,label#获取分类的错误率def get_accuracy(target_classify_data):m,n=np.shape(target_classify_data)count=0for i in list(range(0,m)):if target_classify_data[i,n-1] !=target_classify_data[i,n-2]: #判断分类后的标签与原测试数据是否相等，若不相等则count+1 count+=1else:true_rate=(m-count)/m #计算正确率target_classify_data[:,n-2]=target_classify_data[:,n-1] classify_data = target_classify_data[:,0:n-1] #删除原标签，贴上分类判断得到的结果标签return classify_data,true_rate #返回分类最终结果，以及正确率#构建分类器def classify_cot(filename,K):data = read_file(filename) #获取iris数据集m,n = np.shape(data) #获取原数据集行，列大小for k0 in list(range(0,1)): #k_折交叉验证循环，循环次数为子集个index_matrix = rndom_rows(m,10) #获取样本随机分包索引test_data,train_data = k_validation(data,index_matrix,1) #分包得到测试集以及数据集distance = get_distance(train_data,test_data)target_index,label = classify_data(distance,train_data,test_data,K)clsy_data,true_rate = get_accuracy(target_index)print("\n\n")print("------------------------%s-----------------------------------------------------------"%filename)print("分离出来的训练集：")print(train_data)print("分离出来的测试集：")print(test_data)print("标签匹配矩阵")print(target_index)print("分类结果矩阵")print(clsy_data)print("分类正确率")print(true_rate)print("原数据行数：")print(m)print("-------------------------%s-----------------------------------------------------------"%filename)print("\n\n")#定义最近邻分类子函数def B_NN():#最近邻法iris数据集分类iris='iris.xlsx'classify_cot(iris,1)#最近邻法sonar分类sonar = 'sonar.xlsx'classify_cot(sonar,1)#定义k_近邻子函数def K_NN():#最近邻法iris数据集分类iris='iris.xlsx'classify_cot(iris,80)#最近邻法sonar分类sonar = 'sonar.xlsx'classify_cot(sonar,80)B_NN()K_NN()最后：代码是自己根据原理敲出来的，有什么不足之处希望大佬们斧正。

模式识别最近邻法和k近邻法MATLAB实现

学号：02105120 姓名：吴林一.基本概念：最近邻法：对于未知样本x，比较x与N个已知类别的样本之间的欧式距离，并决策x与距离它最近的样本同类。

K近邻法：取未知样本x的k个近邻，看这k个近邻中多数属于哪一类，就把x归为哪一类。

K取奇数，为了是避免k1=k2的情况。

二.问题分析：要判别x属于哪一类，关键要求得与x最近的k个样本（当k=1时，即是最近邻法），然后判别这k个样本的多数属于哪一类。

可采用欧式距离公式求得两个样本间的距离s=sqrt（（x1-x2）^2+(y1-y2)^2）三.算法分析：该算法中任取每类样本的一半作为训练样本，其余作为测试样本。

例如iris中取每类样本的25组作为训练样本，剩余25组作为测试样本，依次求得与一测试样本x距离最近的k 个样本，并判断k个样本多数属于哪一类，则x就属于哪类。

测试10次，取10次分类正确率的平均值来检验算法的性能。

四.MATLAB代码：最近邻算实现对Iris分类clc;totalsum=0;for ii=1:10data=load('');data1=data(1:50,1:4);%任取Iris-setosa数据的25组rbow1=randperm(50);trainsample1=data1(rbow1(:,1:25),1:4);rbow1(:,26:50)=sort(rbow1(:,26:50));%剩余的25组按行下标大小顺序排列testsample1=data1(rbow1(:,26:50),1:4);data2=data(51:100,1:4);%任取Iris-versicolor数据的25组rbow2=randperm(50);trainsample2=data2(rbow2(:,1:25),1:4);rbow2(:,26:50)=sort(rbow2(:,26:50));testsample2=data2(rbow2(:,26:50),1:4);data3=data(101:150,1:4);%任取Iris-virginica数据的25组rbow3=randperm(50);trainsample3=data3(rbow3(:,1:25),1:4);rbow3(:,26:50)=sort(rbow3(:,26:50));testsample3=data3(rbow3(:,26:50),1:4);trainsample=cat(1,trainsample1,trainsample2,trainsample3);%包含75组数据的样本集testsample=cat(1,testsample1,testsample2,testsample3);newchar=zeros(1,75);sum=0;[i,j]=size(trainsample);%i=60,j=4[u,v]=size(testsample);%u=90,v=4for x=1:ufor y=1:iresult=sqrt((testsample(x,1)-trainsample(y,1))^2+(testsample(x,2)-trainsample(y ,2))^2+(testsample(x,3)-trainsample(y,3))^2+(testsample(x,4)-trainsample(y,4))^ 2); %欧式距离newchar(1,y)=result;end;[new,Ind]=sort(newchar);class1=0;class2=0;class3=0;if Ind(1,1)<=25class1=class1+1;elseif Ind(1,1)>25&&Ind(1,1)<=50class2=class2+1;elseclass3=class3+1;endif class1>class2&&class1>class3m=1;ty='Iris-setosa';elseif class2>class1&&class2>class3m=2;ty='Iris-versicolor';elseif class3>class1&&class3>class2m=3;ty='Iris-virginica';elsem=0;ty='none';endif x<=25&&m>0disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),ty));elseif x<=25&&m==0disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),'none'));endif x>25&&x<=50&&m>0disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),ty));elseif x>25&&x<=50&&m==0disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),'none'));endif x>50&&x<=75&&m>0disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),ty));elseif x>50&&x<=75&&m==0disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),'none'));endif (x<=25&&m==1)||(x>25&&x<=50&&m==2)||(x>50&&x<=75&&m==3)sum=sum+1;endenddisp(sprintf('第%d次分类识别率为%',ii,sum/75));totalsum=totalsum+(sum/75);enddisp(sprintf('10次分类平均识别率为%',totalsum/10));测试结果：第3组数据分类后为Iris-setosa类第5组数据分类后为Iris-setosa类第6组数据分类后为Iris-setosa类第7组数据分类后为Iris-setosa类第10组数据分类后为Iris-setosa类第11组数据分类后为Iris-setosa类第12组数据分类后为Iris-setosa类第14组数据分类后为Iris-setosa类第16组数据分类后为Iris-setosa类第18组数据分类后为Iris-setosa类第19组数据分类后为Iris-setosa类第20组数据分类后为Iris-setosa类第23组数据分类后为Iris-setosa类第24组数据分类后为Iris-setosa类第26组数据分类后为Iris-setosa类第28组数据分类后为Iris-setosa类第30组数据分类后为Iris-setosa类第31组数据分类后为Iris-setosa类第34组数据分类后为Iris-setosa类第37组数据分类后为Iris-setosa类第39组数据分类后为Iris-setosa类第41组数据分类后为Iris-setosa类第44组数据分类后为Iris-setosa类第45组数据分类后为Iris-setosa类第49组数据分类后为Iris-setosa类第51组数据分类后为Iris-versicolor类第54组数据分类后为Iris-versicolor类第55组数据分类后为Iris-versicolor类第57组数据分类后为Iris-versicolor类第58组数据分类后为Iris-versicolor类第59组数据分类后为Iris-versicolor类第60组数据分类后为Iris-versicolor类第61组数据分类后为Iris-versicolor类第62组数据分类后为Iris-versicolor类第68组数据分类后为Iris-versicolor类第70组数据分类后为Iris-versicolor类第71组数据分类后为Iris-virginica类第74组数据分类后为Iris-versicolor类第75组数据分类后为Iris-versicolor类第77组数据分类后为Iris-versicolor类第79组数据分类后为Iris-versicolor类第80组数据分类后为Iris-versicolor类第84组数据分类后为Iris-virginica类第85组数据分类后为Iris-versicolor类第92组数据分类后为Iris-versicolor类第95组数据分类后为Iris-versicolor类第97组数据分类后为Iris-versicolor类第98组数据分类后为Iris-versicolor类第99组数据分类后为Iris-versicolor类第102组数据分类后为Iris-virginica类第103组数据分类后为Iris-virginica类第105组数据分类后为Iris-virginica类第106组数据分类后为Iris-virginica类第107组数据分类后为Iris-versicolor类第108组数据分类后为Iris-virginica类第114组数据分类后为Iris-virginica类第118组数据分类后为Iris-virginica类第119组数据分类后为Iris-virginica类第124组数据分类后为Iris-virginica类第125组数据分类后为Iris-virginica类第126组数据分类后为Iris-virginica类第127组数据分类后为Iris-virginica类第128组数据分类后为Iris-virginica类第129组数据分类后为Iris-virginica类第130组数据分类后为Iris-virginica类第133组数据分类后为Iris-virginica类第135组数据分类后为Iris-virginica类第137组数据分类后为Iris-virginica类第138组数据分类后为Iris-virginica类第144组数据分类后为Iris-virginica类第148组数据分类后为Iris-virginica类第149组数据分类后为Iris-virginica类第150组数据分类后为Iris-virginica类k近邻法对wine分类：clc;otalsum=0;for ii=1:10 %循环测试10次data=load('');%导入wine数据data1=data(1:59,1:13);%任取第一类数据的30组rbow1=randperm(59);trainsample1=data1(sort(rbow1(:,1:30)),1:13);rbow1(:,31:59)=sort(rbow1(:,31:59)); %剩余的29组按行下标大小顺序排列testsample1=data1(rbow1(:,31:59),1:13);data2=data(60:130,1:13);%任取第二类数据的35组rbow2=randperm(71);trainsample2=data2(sort(rbow2(:,1:35)),1:13);rbow2(:,36:71)=sort(rbow2(:,36:71));testsample2=data2(rbow2(:,36:71),1:13);data3=data(131:178,1:13);%任取第三类数据的24组rbow3=randperm(48);trainsample3=data3(sort(rbow3(:,1:24)),1:13);rbow3(:,25:48)=sort(rbow3(:,25:48));testsample3=data3(rbow3(:,25:48),1:13);train_sample=cat(1,trainsample1,trainsample2,trainsample3);%包含89组数据的样本集test_sample=cat(1,testsample1,testsample2,testsample3);k=19;%19近邻法newchar=zeros(1,89);sum=0;[i,j]=size(train_sample);%i=89,j=13[u,v]=size(test_sample);%u=89,v=13for x=1:ufor y=1:iresult=sqrt((test_sample(x,1)-train_sample(y,1))^2+(test_sample(x,2)-train_samp le(y,2))^2+(test_sample(x,3)-train_sample(y,3))^2+(test_sample(x,4)-train_sampl e(y,4))^2+(test_sample(x,5)-train_sample(y,5))^2+(test_sample(x,6)-train_sample (y,6))^2+(test_sample(x,7)-train_sample(y,7))^2+(test_sample(x,8)-train_sample( y,8))^2+(test_sample(x,9)-train_sample(y,9))^2+(test_sample(x,10)-train_sample( y,10))^2+(test_sample(x,11)-train_sample(y,11))^2+(test_sample(x,12)-train_samp le(y,12))^2+(test_sample(x,13)-train_sample(y,13))^2); %欧式距离newchar(1,y)=result;end;[new,Ind]=sort(newchar);class1=0;class 2=0;class 3=0;for n=1:kif Ind(1,n)<=30class 1= class 1+1;elseif Ind(1,n)>30&&Ind(1,n)<=65class 2= class 2+1;elseclass 3= class3+1;endendif class 1>= class 2&& class1>= class3m=1;elseif class2>= class1&& class2>= class3m=2;elseif class3>= class1&& class3>= class2m=3;endif x<=29disp(sprintf('第%d组数据分类后为第%d类',rbow1(:,30+x),m));elseif x>29&&x<=65disp(sprintf('第%d组数据分类后为第%d类',59+rbow2(:,x+6),m));elseif x>65&&x<=89disp(sprintf('第%d组数据分类后为第%d类',130+rbow3(:,x-41),m));endif (x<=29&&m==1)||(x>29&&x<=65&&m==2)||(x>65&&x<=89&&m==3)sum=sum+1;endenddisp(sprintf('第%d次分类识别率为%',ii,sum/89)); totalsum=totalsum+(sum/89);enddisp(sprintf('10次分类平均识别率为%',totalsum/10));第2组数据分类后为第1类第4组数据分类后为第1类第5组数据分类后为第3类第6组数据分类后为第1类第8组数据分类后为第1类第10组数据分类后为第1类第11组数据分类后为第1类第14组数据分类后为第1类第16组数据分类后为第1类第19组数据分类后为第1类第20组数据分类后为第3类第21组数据分类后为第3类第22组数据分类后为第3类第26组数据分类后为第3类第27组数据分类后为第1类第28组数据分类后为第1类第30组数据分类后为第1类第33组数据分类后为第1类第36组数据分类后为第1类第37组数据分类后为第1类第43组数据分类后为第1类第44组数据分类后为第3类第45组数据分类后为第1类第46组数据分类后为第1类第49组数据分类后为第1类第52组数据分类后为第1类第54组数据分类后为第1类第56组数据分类后为第1类第57组数据分类后为第1类第60组数据分类后为第2类第61组数据分类后为第3类第63组数据分类后为第3类第65组数据分类后为第2类第66组数据分类后为第3类第67组数据分类后为第2类第71组数据分类后为第1类第72组数据分类后为第2类第74组数据分类后为第1类第76组数据分类后为第2类第79组数据分类后为第3类第81组数据分类后为第2类第82组数据分类后为第3类第83组数据分类后为第3类第84组数据分类后为第2类第86组数据分类后为第2类第87组数据分类后为第2类第88组数据分类后为第2类第93组数据分类后为第2类第96组数据分类后为第1类第98组数据分类后为第2类第99组数据分类后为第3类第102组数据分类后为第2类第104组数据分类后为第2类第105组数据分类后为第3类第106组数据分类后为第2类第110组数据分类后为第3类第113组数据分类后为第3类第114组数据分类后为第2类第115组数据分类后为第2类第116组数据分类后为第2类第118组数据分类后为第2类第122组数据分类后为第2类第123组数据分类后为第2类第124组数据分类后为第2类第133组数据分类后为第3类第134组数据分类后为第3类第135组数据分类后为第2类第136组数据分类后为第3类第139组数据分类后为第3类第140组数据分类后为第3类第142组数据分类后为第3类第144组数据分类后为第2类第145组数据分类后为第1类第146组数据分类后为第3类第148组数据分类后为第3类第149组数据分类后为第2类第152组数据分类后为第2类第157组数据分类后为第2类第159组数据分类后为第3类第161组数据分类后为第2类第162组数据分类后为第3类第163组数据分类后为第3类第165组数据分类后为第3类第167组数据分类后为第3类第168组数据分类后为第3类第173组数据分类后为第3类第174组数据分类后为第3类五：问题和收获：该算法的优缺点总结为：优点：算法简单且识别率较高；缺点：算法需要计算未知样本x与周围每个样本的距离，然后排序选择最近的k个近邻，计算量和时间复杂度高。

模式识别_第6章_近邻法

行分类，剪辑掉X(NT)中被错误分类的样本。
, xNT
进
若 y0 ( x ) X ( NR)是 x X ( NT )的最近邻元，剪辑掉
11
从上面可以看出近邻法有方法简单的优点，但也存在这一些缺点：（1）存储量和计算量都很大；（2）没有考虑决策的风险，如果决策的错误代价很大时，会产生很大的风险；（3）以上的分析——渐近平均错误率，都是建立在样本数趋向无穷大的条件下得来的，在实际应用时大多是无法实现的。
12
6.3 改进的近邻法
13
6.2 剪辑最近邻方法
对于两类问题，设将已知类别的样本集X(N)分成参
照集X(NR)和测试集X(NT)两部分，X(NR)X(NT)=，
它们的样本数各为NR和NT，NR+NT=N。利用
参照集X(NR) y中的样本 , yNR 1 , y2 , 采用最近邻规则对
已知类别的测试集X(NT)中的每个样本 x1 , x2 ,
(6) 判xω 2 (5)看xm属于哪一类：xmω 2
4
(4)找出最小距离 dm(x)=min{di(x)}
最近邻方法
NN 分类思想: k-NN
6.1 最近邻决策规则—kN Ni
i 1 c
对待识别模式 x, 分别计算它与
个已知类别的样本 x
(i ) j的距离,取k个最近邻样本,这
k个样本中哪一类最多, 就判属哪一类。
N
lim P(i x N ) P(i x )
7
最近邻法则可以看成是一个随机化决策 —— 按照概率 P(i x) 来决定 x 的类别。定义：
P(m x) max P(i x)
i 1,2,
,c
按最小错误率的Bayes决策法则：以概率1决策 m ；按最近邻决策法则：以概率的后验概率分别为

清华大学模式识别课件-07_近邻法

(6 20)
因为 P 与
P 2 i | x 有关，若寻求 P 与 P* 的关系，首先可以寻求 P 2 i | x 与 P* 的关
i 1 i 1
系。现利用式(6-18)，式(6-20)的结果来推导，有
P | x P
2 2 i 1 i
c
m
| x P i | x 1 P e | x
以上两式对我们的启发是：对已知的 P m | x 而言，
*
P | x 的最小值对应着 P 的最大值。
2 i 1 i
c
如能求出 P 的最大值，就把贝叶斯错误率 P 和最近邻法错误率 P 联系起来了。若记
P | x P
2 2 i 1 i
c
m
| x P 2 i | x

x's
p x' dx'
N
(6 8)
P x1 , x2 , …,x N 1 Ps
当 N→∞时，这一概率趋于零。由于 s 可以任意小，所以 N→∞时， x' 落在以 x 为中心无限小区域
中的概率趋于 1。就是说 x' 以概率为 1 收敛于 x，从而
N
lim p x' | x x' - x
(6 9)
现在来计算条件错误概率 PN e | x, x' 。当我们说有 N 个独立抽取并有类别标记的样本时，意思是说有 N 对随机变量 x1 , 1 , x2 , 2 , …， x N , N ，其中 xi 是独立抽取的样本，i 是 xi 的类别标记，且 i 是 c 个类别状态 1 , 2 …,c 之一。现在假定抽取一对 x, ，并假定标以 ' 的 x' 是 x 的最近邻。由于抽出 x' 时，它的类别状态和 x 无关。因此有

模式识别第3章近邻法

如果样本足够多，就可以重复地执行剪辑程序，以进一步提高分类性能，称为重复剪辑最近邻法（MultiEdit算法）。
26
27
近邻法
重复剪辑近邻法
原始样本集（不同均矢和协方差阵的两类正态分布随机样本）28
近邻法
重复剪辑近邻法
第一次剪辑后留下的样本
29
近邻法
重复剪辑近邻法
第三次剪辑后留下的样本

36
近邻法
压缩近邻法
基本方法：
• 将样本集XN分为XS 和XG ，开始时XS 中只有一个样本， XG中为其余样本
• 考查XG 中每个样本，若用XS 可正确分类则保留，否则移入XS
• 最后用XS作最近邻法的比较样本集。
37
近邻法
压缩近邻法
算法步骤（Condensing算法）：
1. 设置两个存储器，分别为STORE和GRABBAG，将第一个样本放入STORE中，把其他样本放入GRABBAG中；
i1
如果
则 x m
5
近邻法
最近邻决策规则—k-NN
k的取值选择很重要！ 6
近邻法
最近邻决策规则—k-NN
特点：思想简单，计算方便需要存储所有样本，每次决策都要计算待识
别样本与全部训练样本之间的距离并进行比较，存储量和计算量都很大
7
近邻法例子：
最近邻决策规则—k-NN
8
近邻法
最近邻决策规则—k-NN
主要内容
第一章第二章第三章第四章第五章第六章第七章
绪论非监督学习方法近邻法线性判别函数人工神经网络贝叶斯决策理论模式识别应用
1
第三章近邻法
• 最近邻决策规则 • 推广—K近邻决策规则 • 改进算法

模式识别7.近邻法

的样本均值
：从到
的最大距离
15
【样本集分级分解示例】
16
【样本集搜索规则】
规则1：如果
成立，则规则2：如果
不可能是的最近邻。
成立，其中
，则不可能是的最近邻。
：当前已经涉及到的样本集中的样本到的最近距离。
17
【搜索算法的基本思想】
18
【讨论】
1. 分级数目增多，结点增多，最终结点对应的样本数减少。
2. 分级数目增少，结点增少，最终结点对应的样本数增多。
3. 推广到 -近邻
19
3. 剪辑近邻法
20
【概念的提出】
以上讨论的快速算法只是研究如何减少计算量的问题，而不考虑存储量的压缩。实际上由于对样本进行分层次分组，并附有一些参数，实际的存储量还有可能增加。
对每个模板计算一次相似度。
5
1.近邻法原理及其决策规则
6
【基本原理】
背景：最小距离分类器是将各类训练样本划分成若干子类，并在每个子类中确定代表点，一般用子类的质心或邻近质心的某一样本为代表点。测试样本的类别则以其与这些代表点距离最近作决策。该法的缺点是所选择的代表点并不一定能很好地代表各类, 后果将使错误率增加。
本数量却大大减少了，因此可以大大节省存储量。
35
【本章小结】
几个要点： (1) 弄清楚近邻法的定义以及基本做法。 (2) 弄清“近邻法性能好”是在什么意义上讲的？ (3) 快速搜索方法是使用怎样的原理？ (4) 剪辑近邻法的原理是什么? 而压缩近邻法与剪辑近邻法有什
么不同之处？
36
【课后习题】
• 有7个二维向量:
9
【 -近邻法决策规则】

模式识别课件(第六章 NO1)(最近邻法)

二. 剪辑近邻法
此类方法的基本思想是：剪掉(清理)两类间的边界，取掉类别混杂的样本，使两类边界更清晰。
1. 两分剪辑近邻法(亦称剪辑最近邻法) 基本过程为：设N个样本分成c类
æ
N
N , N ,……, = { æ1 æ2 æcN }
1
2
c
(N1+N2+……,+Nc= N)
N
step1：剪辑。利用已知样本集æ 中的样本进行预分类，并剪辑掉被错分类的样本，留下的样本构成 NE æ 剪辑样本集 step2：分类。利用 æ
6.3 近邻法的改进算法
共同特点是如何尽快地找出最近邻可能存在的小的空间，减少搜索的范围，从而达到减少近邻法中的计算量和存储量的问题。一. 快速近邻算法该算法对最近邻法和k-近邻法都适用。下面以最近邻法为例来讨论。 1. 基本思想将全部已知样本按级分成一些不相交的子集，并在子集的基础上进行搜索。也就是说，该算法由两个阶段组成：第一阶段：将样本集按级分解，形成树状结构。
二. 最近邻法的决策规则设有c类模式样本， ω1, ω2,……, ωc 每类有Ni个样本(i=1,2,……,c)，则最近邻法的(ωi类)判别函数为:
gi ( X ) min X X ik
k
(k 1,2,...... , Ni )
式中X ik 表示ωi类中的第k个样本。
对应的决策规则为：如果则决策
X i 。
具体就是：设k1,k2,......,kc分别为X的k个最近邻样本中属于
1 , 2 ,......, c
类的样本数，
则定义 i (i 1,2,......,c) 类的判别函数为：
g i ( X ) ki

模式识别实验报告

的分类。
二、实验步骤前提条件：只考虑第三种情况：如果 di(x) >dj(x) 任意 j≠ i ，则判 x∈ωi 。
○1 、赋初值，分别给 c 个权矢量 wi(1)（i=1,2,…c）赋任意的初
值，选择正常数ρ ，置步数 k=1；
○2 、输入符号未规范化的增广训练模式 xk, xk∈{x1, x2… xN} ,
二、实验步骤
○1 、给出 n 个混合样本，令 I=1，表示迭代运算次数，选取 c
个初始聚合中心，j=1,2,…,c;
○2 、计算每个样本与聚合中心的距离
，
。
若
，，则
。
○3 、计算 c 个新的聚合中心：
，
。
○4 、判断：若
，
，则 I=I+1，返回
第二步 b 处，否则结束。三、程序设计
聚类没有影响。但当 C=2 时，该类别属于正确分类。而类别数目大于 2 时，初始聚合中心对聚类的影响非常大，仿真
结果多样化，不能作为分类标准。 2、考虑类别数目对聚类的影响：当类别数目变化时，结果也随之出现变化。 3、总结综上可知，只有预先分析过样本，确定合适的类别数目，才能对
样本进行正确分类，而初始聚合中心对其没有影响。
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
初始聚合中心为（0,0），（2,2）,（5,5），（7,7），（9,9）
K-均值聚类算法：类别数目 c=5 9
8
7
6
5
4

模式识别近邻法

2
eB x0 （3） c 1
2
c 2 2eB x0 eB x0 c 1
P x 1 e x
c 2 i 1 r i 0 B 0
2
e B x0 c 1
2
最近邻法的错误率分析
• 而近邻法和贝叶斯决策的错误率定义为：
NN
1 1 PB e x min Pr 1 x, Pr 2 x 1 4 x (5) 2 2
1 2i 2 i x i 1 i i 1

（Maclaulin）马克劳林级数展开
K-近邻法的错误率界 • 利用上面的③–⑤式，有
1 B 1 (回想过去讲的 B 2 e 2 p1 p 2 dx Pk 和 B 间联系了起来， p p p p dx p p e 贝叶斯错误率的Bhattacharyya界， 12 称为B距离。）
1 2 1 2
1 PB P2 P4 PB P5 P3 P1 2 PB 2
c 2 Ee NN x 1 Pr i x px dx i 1
B EeB x eB x px dx

最近邻法的错误率分析
VareB x E eB x E eB x 0
c c 2 i 1 i 1
最近邻法的错误率分析
• 下面分析这个错误率和贝叶斯错误率间的关系令 B 是根据贝叶斯决策规则将x0 所分的类，即：
Pr B x0 max Pr j x0
j

最近邻法的错误率分析
• 贝叶斯决策的条件错误率为：
eB x0 Pr e x0 Pr i x0 1 Pr B x0

模式识别(6)近邻法

§6.2 k－近邻法
从样本点x开始生长，不断扩大区域，直到包含进k个训练样本点为止，并且把测试样本点x的类别归为这最近的k个训练样本点中出现频率最大的类别。
k－近邻法的错误率
最近邻法和k-近邻法的错误率上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内。
在k →∞的条件下，k-近邻法的错误率要低于最近邻法。在k →∞的条件下，k-近邻法的错误率等于贝叶斯误差率。
1按近邻法分类这两类最多有多少个分界面2画出实际用到的分界面b2a2b3b4b1a3a1?按最近邻法对任意两个由不同类别的训练样本构成的样本对如果它们有可能成为测试样本的近邻则它们构成一组最小距离分类器它们之间的中垂面就是分界面因此由三个a类与四个b类训练样本可能构成的分界面最大数量为3412
模式识别
➢从以上讨论可以看出，当N→∞时，最近邻法的渐近平均错误率的下界是贝叶斯错误率，这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况。
最近邻法的错误率
最近邻法的错误率
最近邻法的错误率高于贝叶斯错误率，可以证明
以下关系式成立：
P* P P*(2 C P*) C 1
最近邻法的错误率
有以下两种例外情况△P＝0：
P(ω1|X)＝1 P(ω1|X)＝P(ω2|X)＝1/2。
最近邻法的错误率
请想一下，什么情况下P(ω1|X)＝1或P(ω2|X)=1? P(ω1|X)= P(ω2|X)会出现什么什么情况？
➢一般来说，在某一类样本分布密集区，某一类的后验概率接近或等于1。此时，基于最小错误率贝叶斯决策基本没错，而近邻法出错可能也很小。 ➢而后验概率近似相等一般出现在两类分布的交界处，此时分类没有依据，因此基于最小错误率的贝叶斯决策也无能为力了，近邻法也就与贝叶斯决策平起平坐了。

机器学习与模式识别-第6章_近邻法

最近邻法的错误率
• 可以证明当样本数相当多时，近邻法的错误率在贝叶斯错误率和2倍的贝叶斯错误率之间。
最近邻法的错误率
6.2 K-近邻法
6.2 K-近邻法
对于一个待识别模式x, 分别计算它与 N N i 个已知类别的样本 x j 的距离, 取k个最近邻样本,这k
(i )
i 1 c
•它定义两个存储器，一个用来存放即将生成的样本集，称为Store；另一存储器则存放原样本集，称为Grabbag。
6.3.3 压缩近邻法
•算法的实现
•其算法是：
•1.［初始化］Store是空集，原样本集存入Grabbag；从 Grabbag中任意选择一样本放入Store中作为新样本集的第一个样本。 •2.［样本集生成］在Grabbag中取出第i个样本用Store中的当前样本集按最近邻法分类。若分类错误，则将该样本从 Grabbag转入Store中，若分类正确，则将该样本放回 Grabbag中，对Grabbag中所有样本重复上述过程。 •3.［结束过程］若Grabbag中所有样本在执行第二步时没有发生转入Store的现象，或Grabbag已成空集，则算法终止，否则转入第二步。
6.3.3 压缩近邻法
6.3.1 近邻法的快速算法
•实现快速搜索近邻的基本思路
•需要有方法快速判断某个样本子集是否是该待识样本的可能近邻样本集，从而可将无关的样本子集尽快排除。 •另一方面在某样本子集内寻找哪个样本是近邻时，需快速排除不可能为近邻的样本 •这两个快速判别算法可用两个规则表示
6.3.1 近邻法的快速算法
剪辑的最近邻法的错误率 • 重复使用最近邻法，把落在 j类区域中 i 类的样本剪掉，其错误率的情况为
6.3.3 压缩近邻法

第5讲最近邻分类器

《模式识别》讲义 2014 版：第五讲最近邻分类器
概率最大的类作为分类结果，而最近邻分类器则是选择 x’所对应的类，所以其分类错误率一定是大于等于最小错误率贝叶斯分类的。设训练集中一共有 N 个样本，则最近邻分类器的平均错误率可定义为：
PN (e) PN (e | x, x) p( x | x)dxp ( x)dx
2、 k-近邻分类器的错误率
当训练集中的样本总数 N→∞时， x 的 k 个近邻都会收敛于 x。同时若 k→∞， k-近邻分类器的决策规则也就变成了最大后验概率贝叶斯分类，也就是最小错误率贝叶斯分类。当 N→∞时，可以证明 k-近邻分类器的错误率上下界为
( k 1)/..., c
，k-近邻分类器的分类决策为 x j
第 3 页自动化学院模式识别与智能系统研究所高琪 gaoqi@
《模式识别》讲义 2014 版：第五讲最近邻分类器
图 4 k=3 和 k=9 时的 k-近邻两类分类器
对于二类问题，k 一般取奇数，便于表决。
《模式识别》讲义 2014 版：第五讲最近邻分类器
第五讲最近邻分类器
一、最近邻分类器
1、最小距离分类
在统计模式识别中，可以采用最小距离分类器，它是计算待分类的样本到各个已知类别的中心（通常是训练集中同类样本的重心）的距离，将其划分到距它最近的类别中去，这可以看做是一种最近邻的分类规则。
2、最近邻分类器 Nearest Neighbor Classifier
图 1 两个样本时的最近邻分类器
当训练集包含多类的许多样本时，最近邻分类器的分类决策区域是由任意两个相邻样本点连接线的垂直平分线所分割成为的网格状的图形，称为维诺图（Voronoi Diagram）。

模式识别第五章近邻法

24
压缩近邻算法
数据经MultiEdit算法剪辑后再使用 Condensing压缩近邻算法的结果
25
5.4 小结

近邻法是典型的非参数法在原理上最直观，方法上也十分简单，明显的缺点就是计算量大，存储量大; 近邻法
26
习题
1.
设在一个二维空间，A类有三个训练样本，图中用红点表示，B类四个样本，图中用蓝点表示。试问：
规则2：如果满足：D(x, M p ) B D(xi , M p ) 则xi不是x的最近邻
14

树搜索算法
1. 2.
3. 4.
5.
6.
置B=∞，L=0，p=0 将当前结点的所有直接后继结点放入一个目录表中，并对这些结点计算D(x,Mp) 根据规则1从目录表中去掉step2中的某些结点如果目录表已无结点则置L=L-1，如果L=0则停止，否则转Step3。如果目录表有一个以上的结点，则转 step5 在目录表中选出最近结点p’为当前执行结点。如果当前的水平L是最终水平，则转Step6，否则置L=L+1，转Step2 对当前执行结点p’中的每个xi，根据规则2决定是否计算D(x, xi)。若D(x, xi)<B，则置NN=i和B= D(x, xi)，处理完当前执行结点中的每个xi后转Step3
P* P 0

当各类后验概率分布为均匀分布时：
1 P(i | x) C
C 1 P* P C
7
5.2 k-近邻法

k-近邻法: 最近邻法的扩展，其基本规则是，在所有N个样本中找到与测试样本的k个最近邻者，其中各类别所占个数表示成ki, i＝1，…，c。定义判别函数为： gi(x)=ki, i=1, 2,…,c。

第6章_近邻法

类别的样本之间的欧氏距离，并决策x与离它最近的样本同类。
最近邻方法
(1) N个已知类别样本X
(2)输入未知类别样本x
(3)计算x到 xiX，(i=1, 2,…,N)的距离di(x)
(5) 判xωm (4)找出最小距离 dm(x)=min{di(x)}
6.1.2 最近邻法的错误率分析

可以证明，当样本数相当多时，近邻法错误率与贝叶斯错误率存在以下关系：
c * P P P 2 P c 1 * 其中P 为贝叶斯错误率，c为类数。
* *
• 上式表明，当样本数相当多时，近邻法的错误率在贝叶斯错误率和两倍的贝叶斯错误率之间。
最近邻法错误率上下界与贝叶斯错误率的关系
第6章近邻法
在分段线性判别函数的讨论中，利用每一类的 “代表点”设计分段线性分类器。优点是简单而直观缺点是所选“代表点”不一定很好地代表各个类，其后果是使所设计分类器的错误率增加。本章讨论一种分段线性判别函数的极端情况，就是将各类中的全部样本都作为“代表点”的情况。这时的决策方法称为近邻法。
xi X p
第二阶段用搜索算法
检验未知样本x的最近邻是否在X p中的两个规则。规则1:如果存在 B rp D x, M p 则xi X p 不可能是x的最近邻。其中B是在算法执行过程中，对于已涉及到的那些样本集X p中的样本到x 的最近距离。初始B可置为，以后的B在算法中求得。
最初的近邻法是由Cover和Hart于1968年提出
的，随后得到理论上深入的分析与研究，是非参数法中最重要的方法之一。
6.1 最近邻法

6.1.1 最近邻决策规则

6.1.2 最近邻法的错误率分析

清华大学模式识别讲义07

X
N
=X
NT
UX
X
剪辑：用 X
NT
IX
NR
=φ
NT
NR
中的样本对 X
NT
中的样本进行近邻法分类
剪掉 X
中被错分的样本，
NTE
X
NT
中剩余样本构成剪辑样本集 X
NTE
分类：利用 X 思考：
和近邻法对未知样本 x 分类。
将样本集分为考试集和参考集是为了剪辑的独立性，但既然样本都是独立的，可否考虑下面的做法？（借鉴 LOOCV）即：对 X
E
P (e | x ) < P1E (e | x) 2[1 − Pk (e | x)]
*
当 k → ∞ 时 Pk (e) 收敛于 P （N 应更快地趋向 ∞ ） 3. 多类情况，多类剪辑近邻错误率 Pkc (e | x ) 小于两类情况 4.重复剪辑样本足够多时，可多次重复剪辑，效果更好。
E
一种重复剪辑算法——MULTIEDIT：（1）(散开) 把X
E (e)
即
P1E (e) ≤ P(e)
当 P(e) 很小时，如 P(e) < 0.1 ，则有 P 1 而 P (e) ≤ 2 P
* *
= &
1 P (e) 2
（ P 为贝叶斯错误率）。
故此时 P 1 (e) 接近 P 。 2. 若用 k 近邻剪辑，用最近邻分类，则
E
*
PkE (e | x) =
第六章近邻法 Nearest-Neighbor Method
回顾：最简单的分段线性分类器：把各类划分为若干子类，以子类中心作为类别代表点，考查新样本到各代表点的距离并将它分到最近的代表点所代表的类。

西电,模式识别,k近邻

模式识别大作业k- 近邻算法学院：电子工程学院班级：学号：姓名：作业要求一、作业内容编程实现最近邻算法和k-近邻算法，在Iris ( 3 类，每类50 个样本，4维特征)，wine 数据集( 3 类，13 维，共178个样本) 上验证其性能。

二、算法描述K 近邻就是在N 个样本中，找出x 的K 个近邻。

设这N 个样本中，来自Wc 类的样本有Nc 个，若K1，K2 ，⋯Kc 分别是K 个近邻中属于W1，W2，⋯，Wc 类的样本数，则我们可以定义判别函数为：决策规则为：若则决策x∈错误!未找到引用源。

这就是K 近邻的基本规则。

三、代码实现Iris function k_jl=k_jl(); temp=importdata('iris.txt');sum=zeros(1,10); for i=1:10data1=temp(1:50,1:4); randnum=randperm(size(data1,1));train1=data1(randnum(1:25),:);test1=data1(randnum(26:50),:);data2=temp(51:100,1:4);randnum=randperm(size(data2,1)); train2=data2(randnum(1:25),:);test2=data2(randnum(26:50),:);data3=temp(101:150,1:4);randnum=randperm(size(data3,1));train3=data3(randnum(1:25),:);test3=data3(randnum(26:50),:);train_sample=cat(1,train1,train2,train3);test_sample=cat(1,test1,test2,test3);k=11;kjl=zeros(1,75);for x=1:75for y=1:75result=sqrt((test_sample(x,1)-train_sample(y,1))^2+(test_sample(x,2)-train_sample(y, 2))^2+(test_sample(x,3)-train_sample(y,3))^2+(test_sample(x,4)-train_sample(y,4))^2 );kjl(1,y)=result;end[B,Ind]=sort(kjl);m1=0;m2=0;m3=0;for n=1:kif Ind(1,n)<=20m1=m1+1;elseif Ind(1,n)>20&&Ind(1,n)<=40m2=m2+1;elsem3=m3+1;endendif(m1>=m2&&m1>=m3) m=1;elseif m2>=m1&&m2>=m3 m=2;else m=3;endif x<=25disp(sprintf('第%d组数据分类后为第%d类',x+25,m));elseif x>25&&x<=50 disp(sprintf('第%d组数据分类后为第%d类',x+50,m));elseif x>50&&x<=75 disp(sprintf('第%d组数据分类后为第%d类',x+75,m));endif (x<=25&&m==1)||(x>25&&x<=50&&m==2)||(x>50&&x<=75&&m==3) sum(1,i)=sum(1,i)+1;endendsum(1,i)=sum(1,i)/75;disp(sprintf(' 分类正确率为%4.2f',sum(1,i)))endadd=0;for j=1:10disp(sprintf('第%d次分类正确率为%4.2f',j,sum(1,j))) add=sum(1,j)+add; enddisp(sprintf(' 平均分类正确率为%4.2f',add/10))Winefunction zx=zx();temp=importdata('wine.txt');sum=zeros(1,10);for i=1:10data_1=temp(1:58,1:4);randnum=randperm(size(data_1,1));train_1=data_1(randnum(1:29),:);test_1=data_1(randnum(30:58),:);data_2=temp(59:116,1:4);randnum=randperm(size(data_2,1));train_2=data_2(randnum(1:29),:);test_2=data_2(randnum(30:58),:);data_3=temp(117:174,1:4);randnum=randperm(size(data_3,1));train_3=data_3(randnum(1:29),:);test_3=data_3(randnum(30:58),:);train_sample=cat(1,train_1,train_2,train_3); test_sample=cat(1,test_1,test_2,test_3); k=11;kjl=zeros(1,87);forxur87 fory287resu-Hsqrt(((Dsflsamp-e(><」Hrainlsamp-e(y-」))>2+aesflsamp-e(><2Hrainlsamp-e(y-2))>2+((Dsflsamp-e(><3H 「ainlsamp-e(yGO))>2+((Ds1:lsamp-e(><4H 「ainlsamp-e(y4))>2k j -?y H r e s u -cendp -n d H s o r t (k j -)八m_k HO 八m2H0 八 m3H0八forn A大if _nd 9n A H 20m—kH m l +—k 八e_seif一 n d (_k SV 20QO QO一nd=H A H 40m 2H m 2+_k 八e-sem 3H m 3+_k八end endif(mlV H m 2QO QO m l V H m3) m H —k八e-seifm 2VH m l QO QOm 2V H m 3mH2 八e-se mH3八endifx 〈H29disp(sp 「inff(»%6肾達議® 淋可R »%d ^x +29』m ))八e-seifX V 29QO QO X A H 58d i s p (s p 「i n f f (-»%d ^»a ®^/t R »%d ^「x +50°m ))八e-seifX V 58QO QO X A H 87disp(sp「inff(»%£|肾達議® 淋可R»%d ^x +87』m ))八endif(X A H 29QO QO m H A ) - - (x v 29QO QO X A H58QO QO m H H 2) - - (x v 58QO QO X A H 87QOQO m H H 3) s u m ?i H s u m ?i )+」八endendsu mujHsum ?i )007 八d i s p (s p r i n f f (-®^m ^4ME%4.2严sum(lj)))endaddHO 八forjuodisp(sp 「inff(»%d舟®^m ^w E %4.2f\Lsumu s )addHsum (二)+add八 enddisp(sprintf(' 平均分类正确率为%4.2f',add/10))四、运行结果组数据分类后为1类第87 组数据分类后为3类组数据分类后为第2类第88 组数据分类后为第2类组数据分类后为第1类89 组数据分类后为2类组数据分类后为第1类第90 组数据分类后为第3类组数据分类后为第1类91 组数据分类后为第2类组数据分类后为第1类92 组数据分类后为第3类组数据分类后为第1类93 组数据分类后为第3类组数据分类后为第1类94 组数据分类后为第3类组数据分类后为第1类95 组数据分类后为第3类组数据分类后为第1类96 组数据分类后为3类组数据分类后为第1类第97 组数据分类后为第3类组数据分类后为第1类98 组数据分类后为第2类组数据分类后为第1类99 组数据分类后为第2类组数据分类后为第1类第100 组数据分类后为第3类组数据分类后为第2类第126 组数据分类后为第3类组数据分类后为第1类第127 组数据分类后为第3类组数据分类后为第1类第128 组数据分类后为第3类组数据分类后为第1类第129 组数据分类后为第3类组数据分类后为第1类第130 组数据分类后为第3类组数据分类后为第1类第131 组数据分类后为第3类组数据分类后为第1类第132 组数据分类后为第3类组数据分类后为第1类第133 组数据分类后为第3类组数据分类后为第1类第134 组数据分类后为第3类组数据分类后为第1类第135 组数据分类后为第3类组数据分类后为第1类第136 组数据分类后为第3类组数据分类后为第2类第137 组数据分类后为第3类组数据分类后为第2类第138 组数据分类后为第3类组数据分类后为第3类第139 组数据分类后为第3类组数据分类后为第3类第140 组数据分类后为第3类组数据分类后为第2类第141 组数据分类后为第3类组数据分类后为第2类第142 组数据分类后为第3类组数据分类后为第2类第143 组数据分类后为第3类组数据分类后为第3类第144 组数据分类后为第3类组数据分类后为第3类第145 组数据分类后为第3类组数据分类后为第2类第146 组数据分类后为第3类组数据分类后为2类第147 组数据分类后3类分类正确率为 0.96 第 91 组数据分类后为2类组数据分类后为第 1类第 92 组数据分类后为2类组数据分类后为第 1类第 93 组数据分类后为第 3类组数据分类后为第 1类 94 组数据分类后为第 2类组数据分类后为第 1类 95 组数据分类后为第 3类组数据分类后为第 1类 96 组数据分类后为第 2类组数据分类后为第 1类 97 组数据分类后为3类组数据分类后为第 1类第 98 组数据分类后为第 3类组数据分类后为第 1类 99 组数据分类后为第 2类组数据分类后为第 1类第100 组数据分类后为第 3类组数据分类后为第 1类第126 组数据分类后为第 3类组数据分类后为第 1类第127 组数据分类后为第 3类组数据分类后为第 1类第128 组数据分类后为第 3类组数据分类后为第 1类第129 组数据分类后为第 3类组数据分类后为第 1类第130 组数据分类后为第 3类组数据分类后为第 1类第131 组数据分类后为第 3类组数据分类后为第 1类第132 组数据分类后为第 3类组数据分类后为第 1类第133 组数据分类后为第 3类组数据分类后为第 1类第134 组数据分类后为第 3类组数据分类后为第 1类第135 组数据分类后为第 3类组数据分类后为第 1类第136 组数据分类后为第 3类组数据分类后为第 1类第137 组数据分类后为第 3类组数据分类后为第 1类第138 组数据分类后为第 3类组数据分类后为第 1类第139 组数据分类后为第 3类组数据分类后为第 1类第140 组数据分类后为第 3类组数据分类后为第 1类第141 组数据分类后为第 3类组数据分类后为第 3类第142 组数据分类后为第 3类组数据分类后为第 3类第143 组数据分类后为第 3类组数据分类后为第 3类第144 组数据分类后为第 3类组数据分类后为第 2类第145 组数据分类后为第 3类组数据分类后为第 2类第146 组数据分类后为第 3类组数据分类后为第 2类第147 组数据分类后为第 3类组数据分类后为第 2类第148 组数据分类后为第 3类组数据分类后为第 2类第149 组数据分类后为第 3类组数据分类后为第 2类第150 组数据分类后为第 3类组数据分类后为第 3类分类正确率为 0.94667组数据分类后为第 2类组数据分类后为3类Wine第 148 组数据分类后为第第 149 组数据分类后为第3类 3类 3类第 88 组数据分类后为第第 89 组数据分类后为第 1类 2类 2类第30组数据分类后为1类第101 组数据分类后为3类第31 组数据分类后为第1类第102 组数据分类后为第3类第32 组数据分类后为第1类第103 组数据分类后为第3类第33 组数据分类后为第1类第104 组数据分类后为第2类第34 组数据分类后为第1类第105 组数据分类后为第3类第35 组数据分类后为第1类第106 组数据分类后为第3类第36 组数据分类后为第1类第107 组数据分类后为第2类第37 组数据分类后为第1类第108 组数据分类后为第3类第38 组数据分类后为第1类第109 组数据分类后为第3类第39 组数据分类后为第1类第110 组数据分类后为第2类第40 组数据分类后为第1类第111组数据分类后为第2类第41 组数据分类后为第1类第112 组数据分类后为第3类第42 组数据分类后为第1类第113 组数据分类后为第3类第43 组数据分类后为第1类第114 组数据分类后为第3类第44 组数据分类后为第1类第115 组数据分类后为第3类第45 组数据分类后为第1类第116 组数据分类后为第3类第46 组数据分类后为第1类第146 组数据分类后为第3类第47 组数据分类后为第1类第147 组数据分类后为第3类第48 组数据分类后为第1类第148 组数据分类后为第3类第49 组数据分类后为第1类第149 组数据分类后为第3类第50 组数据分类后为第1类第150 组数据分类后为第3类第51 组数据分类后为第1类第151 组数据分类后为第3类第52 组数据分类后为第1类第152 组数据分类后为第3类第53 组数据分类后为第1类第153 组数据分类后为第3类第54 组数据分类后为第1类第154 组数据分类后为第3类第55 组数据分类后为第1类第155 组数据分类后为第3类第56 组数据分类后为第1类第156 组数据分类后为第3类第57 组数据分类后为第1类第157 组数据分类后为第3类第58 组数据分类后为第1类第158 组数据分类后为第3类第88 组数据分类后为第3类第159 组数据分类后为第3类第89 组数据分类后为第3类第160 组数据分类后为第3类第90 组数据分类后为第3类第161 组数据分类后为第3类第91 组数据分类后为第3类第162 组数据分类后为第3类第92 组数据分类后为第2类第163 组数据分类后为第3类第93 组数据分类后为第3类第164 组数据分类后为第3类第94 组数据分类后为第2类第165 组数据分类后为第3类第95 组数据分类后为第1类第166 组数据分类后为第3类第96 组数据分类后为第3类第167 组数据分类后为第3类第97 组数据分类后为第3类第168 组数据分类后为第3类第98 组数据分类后为第3类第169 组数据分类后为第3类第99 组数据分类后为第3类第170 组数据分类后为第3类第100 组数据分类后为第3类第第第171 组数据分类后为第172 组数据分类后为3类3类3类分类正确率为 0.8764 第 102 组数据分类后为1类组数据分类后为第 1类第 103 组数据分类后为第 3类组数据分类后为第 1类第 104 组数据分类后为第 3类组数据分类后为第 2类第 105 组数据分类后为第 3类组数据分类后为第 1类第106 组数据分类后为第 3类组数据分类后为第 1类第 107 组数据分类后为第 3类组数据分类后为第 1类第108 组数据分类后为第 3类组数据分类后为第 1类第 109 组数据分类后为第 3类组数据分类后为第 1类第 110 组数据分类后为第 2类组数据分类后为第 1类第 111组数据分类后为第 3类组数据分类后为第 1类第 112 组数据分类后为第 3类组数据分类后为第 1类第113 组数据分类后为第 3类组数据分类后为第 1类第 114 组数据分类后为第 3类组数据分类后为第 1类第 115 组数据分类后为第 3类组数据分类后为第 1类第 116 组数据分类后为第 3类组数据分类后为第 1类第 146 组数据分类后为第 2类组数据分类后为第 1类第 147 组数据分类后为第 3类组数据分类后为第 1类第 148 组数据分类后为第 2类组数据分类后为第 1类第 149 组数据分类后为第 3类组数据分类后为第 1类第 150 组数据分类后为第 3类组数据分类后为第 1类第 151 组数据分类后为第 3类组数据分类后为第 1类第 152 组数据分类后为第 3类组数据分类后为第 1类第 153 组数据分类后为第 3类组数据分类后为第 1类第154 组数据分类后为第 3类组数据分类后为第 2类第 155 组数据分类后为第 3类组数据分类后为第 1类第 156 组数据分类后为第 3类组数据分类后为第 2类第 157 组数据分类后为第 3类组数据分类后为第 1类第 158 组数据分类后为第 3类组数据分类后为第 1类第159 组数据分类后为第 3类组数据分类后为第 1类第 160 组数据分类后为第 3类组数据分类后为第 2类第 161 组数据分类后为第 3类组数据分类后为第 3类第 162 组数据分类后为第 3类组数据分类后为第 3类第 163 组数据分类后为第 3类组数据分类后为第 1类第 164 组数据分类后为第 3类组数据分类后为第 2类第 165 组数据分类后为第 3类组数据分类后为第 3类第 166 组数据分类后为第 3类组数据分类后为第 3类第 167 组数据分类后为第 3类组数据分类后为第 3类第168 组数据分类后为第 3类组数据分类后为第 3类第 169 组数据分类后为第 3类组数据分类后为第 2类第 170 组数据分类后为第 3类组数据分类后为第 3类第 171 组数据分类后为第 3类组数据分类后为3类第 172组数据分类后为3类 101 组数据分类后为第第3类 173 组数据分类后为第3类第3类第 174 组数据分类后为第 2 类第 100 组数据分类后为第第174 组数据分类后为第 3 类分类正确率为0.88764.Iris数据表格：Wine数据表格：k=7五、作业收获通过本次大作业，我对k 近邻算法有了更充分的认识，熟悉了MATLAB 的使用方法。

模式识别近邻法共63页文档

合集下载

模式识别实验报告

模式识别：K_近邻法

模式识别最近邻法和k近邻法MATLAB实现

模式识别_第6章_近邻法

清华大学模式识别课件-07_近邻法

模式识别第3章近邻法

模式识别7.近邻法

模式识别课件(第六章 NO1)(最近邻法)

模式识别实验报告

模式识别近邻法

模式识别(6)近邻法

机器学习与模式识别-第6章_近邻法

第5讲最近邻分类器

模式识别第五章近邻法

第6章_近邻法

清华大学模式识别讲义07

西电,模式识别,k近邻

文档推荐

最新文档

模式识别近邻法共63页文档

合集下载

模式识别实验报告

模式识别：K_近邻法

模式识别 最近邻法和k近邻法MATLAB实现

模式识别_第6章_近邻法

清华大学模式识别课件-07_近邻法

模式识别第3章 近邻法

模式识别7.近邻法

模式识别课件(第六章 NO1)(最近邻法)

模式识别实验报告

模式识别近邻法

模式识别(6)近邻法

机器学习与模式识别-第6章_近邻法

第5讲 最近邻分类器

模式识别第五章 近邻法

第6章_近邻法

清华大学模式识别讲义07

西电,模式识别,k近邻

文档推荐

最新文档

模式识别最近邻法和k近邻法MATLAB实现

模式识别第3章近邻法

第5讲最近邻分类器

模式识别第五章近邻法