第六章-K近邻

格式：pptx
大小：2.72 MB
文档页数：1

下载文档原格式

/ 1

第6章-k近邻算法--机器学习与应用第二版

第6章k 近邻算法k 近邻算法（kNN 算法）由Thomas 等人在1967年提出[1]。

它基于以下朴素思想：要确定一个样本的类别，可以计算它与所有训练样本的距离，然后找出和该样本最接近的k 个样本，统计这些样本的类别进行投票，票数最多的那个类就是分类结果。

因为直接比较待预测样本和训练样本的距离，kNN 算法也被称为基于实例的算法。

6.1基本概念确定样本所属类别的一种最简单的方法是直接比较它和所有训练样本的相似度，然后将其归类为最相似的样本所属的那个类，这是一种模板匹配的思想。

k 近邻算法采用了这种思路，下图6.1是使用k 近邻思想进行分类的一个例子：图6.1k 近邻分类示意图在上图中有红色和绿色两类样本。

对于待分类样本即图中的黑色点，我们寻找离该样本最近的一部分训练样本，在图中是以这个矩形样本为圆心的某一圆范围内的所有样本。

然后统计这些样本所属的类别，在这里红色点有12个，绿色有2个，因此把这个样本判定为红色这一类。

上面的例子是二分类的情况，我们可以推广到多类，k 近邻算法天然支持多类分类问题。

6.2预测算法k 近邻算法没有要求解的模型参数，因此没有训练过程，参数k 由人工指定。

它在预测时才会计算待预测样本与训练样本的距离。

对于分类问题，给定l 个训练样本(),i i y x ，其中i x 为维特征向量，i y 为标签值，设定参数k ，假设类型数为c ，待分类样本的特征向量为x 。

预测算法的流程为：1.在训练样本集中找出离x 最近的k 个样本，假设这些样本的集合为N 。

2.统计集合N 中每一类样本的个数,1,...,i C i c =。

3.最终的分类结果为arg max i i C 。

在这里arg max i i C 表示最大的i C 值对应的那个类i 。

如果1k =，k 近邻算法退化成最近邻算法。

k 近邻算法实现简单，缺点是当训练样本数大、特征向量维数很高时计算复杂度高。

因为每次预测时要计算待预测样本和每一个训练样本的距离，而且要对距离进行排序找到最近的k 个样本。

K最近邻算法

K最近邻算法K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

kNN方法在类别决策时，只与极少量的相邻样本有关。

由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

KNN算法的机器学习基础显示相似数据点通常如何彼此靠近存在的图像大多数情况下，相似的数据点彼此接近。

KNN算法就是基于这个假设以使算法有用。

KNN利用与我们童年时可能学过的一些数学相似的想法(有时称为距离、接近度或接近度)，即计算图上点之间的距离。

例如，直线距离(也称为欧氏距离)是一个流行且熟悉的选择。

KNN通过查找查询和数据中所有示例之间的距离来工作，选择最接近查询的指定数字示例( K )，然后选择最常用的标签(在分类的情况下)或平均标签(在回归的情况下)。

在分类和回归的情况下，我们看到为我们的数据选择正确的K是通过尝试几个K并选择最有效的一个来完成的。

KNN算法的步骤1.加载数据2.将K初始化为你选择的邻居数量3.对于数据中的每个示例4.3.1 根据数据计算查询示例和当前示例之间的距离。

5.3.2 将示例的距离和索引添加到有序集合中6.按距离将距离和索引的有序集合从最小到最大(按升序)排序7.从已排序的集合中挑选前K个条目8.获取所选K个条目的标签9.如果回归，返回K个标签的平均值10.如果分类，返回K个标签的模式'为K选择正确的值为了选择适合你的数据的K，我们用不同的K值运行了几次KNN算法，并选择K来减少我们遇到的错误数量，同时保持算法在给定之前从未见过的数据时准确预测的能力。

K近邻算法PPT课件

• 给定一个目标点，搜索其最近邻。首先找到包含目标点的叶结点；然后从该叶结点出发，依次回退到父结点；不断查找与目标点最邻近的结点，当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上，效率大为提高。
• 包含目标点的叶结点对应包含目标点的最小超矩形区域。以此叶结点的实例点作为当前最近点。目标点的最近邻一定在以目标点为中心并通过当前最近点的超球体内部。然后返回当前结点的父结点，如果父结点的另一子结点的超矩形区域与超球体相交，那么在相交的区域内寻找与目标点更近的实例点。如果存在这样的点，将此点作为新的当前最近点。
➢ 问题：给这个绿色的圆分类？ ➢ 如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝
色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。 ➢ 如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。
区域内没有实例时终止。在此过程中，将实例保存在相应的结点
上。
2020/7/23
9
K近邻法的实现：kd树
2020/7/23
10
K近邻法的实现：kd树
2020/7/23
11
K近邻法的实现：kd树
➢ 搜索kd树
• 利用kd树可以省去大部分数据点的搜索，从而减少搜索的计算量。这里以最近邻为例，同样的方法可以应用到K近邻。
2020/7/23
5
K近邻的三个基本要素
2020/7/23
6
K近邻的三个基本要素
➢ K值的选择
• 如果选择较小的k值，就相当于用较小的邻域中的训练实例进行预测， “学习”的近似误差会减小，只有与输入实例较近的训练实例才会对预测结果起作用。但缺点是“学习”的估计误差会增大，预测结果会对近邻的实例点非常敏感。换句话说，k值的减小意味着整体模型变得复杂，容易发生过拟合。

机器学习--K近邻（KNN）算法的原理及优缺点

机器学习--K近邻（KNN）算法的原理及优缺点⼀、KNN算法原理 K近邻法(k-nearst neighbors,KNN)是⼀种很基本的机器学习⽅法。

它的基本思想是：在训练集中数据和标签已知的情况下，输⼊测试数据，将测试数据的特征与训练集中对应的特征进⾏相互⽐较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。

由于KNN⽅法主要靠周围有限的邻近的样本，⽽不是靠判别类域的⽅法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN⽅法较其他⽅法更为适合。

KNN算法不仅可以⽤于分类，还可以⽤于回归。

通过找出⼀个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。

更有⽤的⽅法是将不同距离的邻居对该样本产⽣的影响给予不同的权值(weight)，如权值与距离成反⽐。

KNN算法的描述：（1）计算测试数据与各个训练数据之间的距离；（2）按照距离的递增关系进⾏排序；（3）选取距离最⼩的K个点；（4）确定前K个点所在类别的出现频率 (5）返回前K个点中出现频率最⾼的类别作为测试数据的预测分类。

算法流程：（1）准备数据，对数据进⾏预处理。

（2）选⽤合适的数据结构存储训练数据和测试元组。

（3）设定参数，如k。

（4）维护⼀个⼤⼩为k的的按距离由⼤到⼩的优先级队列，⽤于存储最近邻训练元组。

随机从训练元组中选取k个元组作为初始的最近邻元组，分别计算测试元组到这k个元组的距离，将训练元组标号和距离存⼊优先级队列。

（5）遍历训练元组集，计算当前训练元组与测试。

元组的距离，将所得距离L 与优先级队列中的最⼤距离Lmax。

（6）进⾏⽐较。

若L>=Lmax，则舍弃该元组，遍历下⼀个元组。

若L < Lmax，删除优先级队列中最⼤距离的元组，将当前训练元组存⼊优先级队列。

（7）遍历完毕，计算优先级队列中k 个元组的多数类，并将其作为测试元组的类别。

k近邻算法——精选推荐

第一部分、K近邻算法1.1、什么是K近邻算法何谓K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，单从名字来猜想，可以简单粗暴的认为是：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。

为何要找邻居？打个比方来说，假设你来到一个陌生的村庄，现在你要找到与你有着相似特征的人群融入他们，所谓入伙。

用官方的话来说，所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

根据这个说法，咱们来看下引自维基百科上的一幅图：如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。

也就是说，现在，我们不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形），下面，我们就要解决这个问题：给这个绿色的圆分类。

我们常说，物以类聚，人以群分，判别一个人是一个什么样品质特征的人，常常可以从他/她身边的朋友入手，所谓观其友，而识其人。

我们不是要判别上图中那个绿色的圆是属于哪一类数据么，好说，从它的邻居下手。

但一次性看多少个邻居呢？从上图中，你还能看到：∙如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。

∙如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。

于此我们看到，当无法判定当前待分类点是从属于已知分类中的哪一类时，我们可以依据统计学的理论看它所处的位置特征，衡量它周围邻居的权重，而把它归为(或分配)到权重更大的那一类。

这就是K近邻算法的核心思想。

1.2、近邻的距离度量表示法上文第一节，我们看到，K近邻算法的核心在于找到实例点的邻居，这个时候，问题就接踵而至了，如何找到邻居，邻居的判定标准是什么，用什么来度量。

[课件]K最近邻方法PPT

t={(4,2)},K=4
1.
N={(1,0),(1,2),(1,4),(2,1)},
d1=sqr(13),d2=3,d3=sqr(13),d4=sqr(5)
2.d={(2,3)},dt=sqr(5),N={(1,2),(1,4),(2,1),(2,3)},
d1=3,d2=sqr(13),d3=sqr(5),d4=sqr(5)
3.d={20},比较,N={10,12,3,20},d1=8,d2=6,d3=15,d4=2
4.d={22},比较,N={12,3,20,22},d1=6,d2=15,d3=2,d4=4
5.d={21},比较,N={3,20,22,21},d1=15,d2=2,d3=4,d4=3
6.d={11},比
11
基于距离的分类方法
数据样本都是用n维数值属性描述的向量。
X=(x1,x2，……xn)
每个样本代表n维空间的一个点。这样所有的训练样本都存放在n维模式空间中。我们根据样本的m个类别，将同类样本计算出类中心：
Cj=(cj1,cj2, …… cjn)；j=1,2,…m
输入一个未知类别样本： Y=(y1,y2, …… yn)
8
K- 近邻分类方法也可作为预测方法
样本的输出不是类别，而为实数值，未知样本返回的是k个近邻者的实数值平均值。
9
K-近邻方法的优缺点
优点：
（1）易于编程，且不需要优化和训练（2）当样本增大到一定容量，k也增大到合适的程度，k-近
邻的误差可与贝叶斯方法相比。缺点：（1）在高维和数据质量较差时，k-近邻方法表现不好。（2）当n个训练样本，n大时，计算时间太大。
如计算一个点要p次操作，每次查询都要np次计算，时间复杂度为O(np)。往往用户难以接受。

清华大学模式识别课件-07_近邻法

(6 20)
因为 P 与
P 2 i | x 有关，若寻求 P 与 P* 的关系，首先可以寻求 P 2 i | x 与 P* 的关
i 1 i 1
系。现利用式(6-18)，式(6-20)的结果来推导，有
P | x P
2 2 i 1 i
c
m
| x P i | x 1 P e | x
以上两式对我们的启发是：对已知的 P m | x 而言，
*
P | x 的最小值对应着 P 的最大值。
2 i 1 i
c
如能求出 P 的最大值，就把贝叶斯错误率 P 和最近邻法错误率 P 联系起来了。若记
P | x P
2 2 i 1 i
c
m
| x P 2 i | x

x's
p x' dx'
N
(6 8)
P x1 , x2 , …,x N 1 Ps
当 N→∞时，这一概率趋于零。由于 s 可以任意小，所以 N→∞时， x' 落在以 x 为中心无限小区域
中的概率趋于 1。就是说 x' 以概率为 1 收敛于 x，从而
N
lim p x' | x x' - x
(6 9)
现在来计算条件错误概率 PN e | x, x' 。当我们说有 N 个独立抽取并有类别标记的样本时，意思是说有 N 对随机变量 x1 , 1 , x2 , 2 , …， x N , N ，其中 xi 是独立抽取的样本，i 是 xi 的类别标记，且 i 是 c 个类别状态 1 , 2 …,c 之一。现在假定抽取一对 x, ，并假定标以 ' 的 x' 是 x 的最近邻。由于抽出 x' 时，它的类别状态和 x 无关。因此有

k近邻算法应用

k近邻算法应用k近邻算法应用于现代机器学习的领域广泛。

它可以用于解决分类问题和回归问题。

本文将会对k近邻算法进行详细介绍，并探讨它的应用。

一、什么是k近邻算法？k近邻算法是一种非参数算法，它基于实例进行学习。

在k近邻算法中，分类标记给实例是依据一个特征空间中邻近的k个训练实例的多数分类。

在回归问题中，输出值是邻近的k个实例的平均值。

二、k近邻算法的应用1. 图像分类k近邻算法可用于图像分类中。

基于这种算法，先对对待测图像计算特征向量，然后找到一个能最小化距离度量的簇分类该向量。

这种分类器能够对图像的种类进行非常准确的分类。

2. 疾病预测k近邻算法也是一种用于预测疾病的方法。

它可以根据患者的特征和疾病的症状，找到临床数据库中其他病例的最相似的病例，从而制定出最佳的治疗方案。

3. 个性化推荐k近邻算法可用于实现个性化推荐系统。

它能够通过分析用户的购买历史，找到与之最相似的消费者，然后建议类似的产品给他们。

三、k近邻算法的优点和缺点1. 优点- k近邻算法简单有效，精度高。

- k近邻算法无需假设数据分布模型，因此适用性很广。

- k近邻算法的训练过程快速简单，通常只需存储数据即可。

2. 缺点- k近邻算法的复杂度随着样本增长而增长很快。

- k近邻算法对训练数据中的噪声敏感。

- k近邻算法在处理高维数据时效率较低。

四、结论总的来说，k近邻算法是一种很重要的机器学习方法，它经常被应用于分类、回归和其他任务中。

在实际应用时，根据具体情况选择一个合适的k值是很重要的，因为k值的选择直接影响到算法的准确度和性能。

k近邻算法概念

k近邻算法概念嘿，朋友！今天咱们来聊聊一个挺有意思的东西——K 近邻算法。

你知道吗，这 K 近邻算法就像是你在陌生城市找路时，向身边几个看起来靠谱的路人打听。

比如说你在一个错综复杂的胡同里迷路了，不知道该往哪儿走，这时候你看到前面有几个人，你就问问他们，然后根据他们给你的建议来决定自己的方向。

K 近邻算法也是这么个理儿。

它是通过看离给定数据点最近的那几个“邻居”来做出判断或者预测。

这几个“邻居”就像是给你指路的热心路人。

那怎么确定谁是这“邻居”呢？这就好比选朋友，得有个标准。

在 K近邻算法里，这个标准通常是距离。

距离的计算方法有好多，就像不同人衡量朋友亲疏的方式不一样。

比如说，我们有一堆数据，就像一个班级里的同学们的成绩和身高。

现在来了一个新同学，我们想知道他的成绩大概会怎么样。

这时候 K近邻算法就出马啦，它会看看在成绩和身高这个“空间”里，离这个新同学最近的那几个同学的成绩，然后根据他们的成绩来推测新同学的成绩。

你说这是不是挺神奇？这就好像是在茫茫数据的大海里，找到了和目标最相似的那几个“小伙伴”，然后从它们身上获取有用的信息。

再比如说，你要预测明天的天气。

K 近邻算法就会去找历史上和明天相似的那些天，看看那些天的天气情况，然后告诉你一个可能的结果。

这是不是有点像翻老黄历，但可比老黄历靠谱多啦！不过，这 K 近邻算法也不是完美无缺的。

就像你问路人指路，万一他们也不太清楚或者故意给你指错了呢？K 近邻算法也可能会因为数据的质量不好，或者选择的“邻居”数量不合适，给出不太准确的结果。

那怎么解决这些问题呢？这就得靠咱们不断地去调整和优化啦，就像你在不断地学习怎么分辨靠谱的路人一样。

总的来说，K 近邻算法是个挺有用的工具，能在很多领域帮咱们做出预测和判断。

咱们得好好琢磨它，让它更好地为咱们服务！。

K-近邻算法PPT课件

.
19
示例：使用k-近邻算法
改进约会网站的配对结果
1.问题描述：我都朋友佩琪一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选，但是她并不是喜欢每一个人。经过一番总结，她发现曾交往过三种类型的人：
不喜欢的人魅力一般的人极具魅力的人
.
20
示例：使用k-近邻算法
改进约会网站的配对结果
(3)分析数据：可以使用任何方法。 (4)测试算法：计算错误率。 (5)使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据属于哪个分类，最后应用对计算出的分类执行后续的处理。
.
10
准备：使用Python导入数据
1.创建名为kNN.py的Python模块
注：接下来所有的代码均保存于这个文件夹中，读者可以按照自己的习惯在自己创建的文件夹中编写代码，也可以去网上查找源代码，但笔者建议读者按照本PPT的顺序去创建模块并编写代码。
.
15
实施kNN分类算法
(2)以下为kNN近邻算法代码，将其保存于kNN.py中 def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0] diffMat = tile(inX, (dataSetSize,1)) - dataSet sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis = 1) distances = sqDistances**0.5 sortedDistIndicies = distances.argsort() classCount = {} for i in range(k):

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Kaggle
Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据，统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。
https:///
Kaggle
数字识别的例子
近邻方法还是相当有竞争力的！
数字识别的应用场景
车牌号识别
银行支票识别
门牌号识别邮件数字识别
目标: 输出对未知标记或类别的样本 ��的预测��
预测准则：寻找训练数据中最近的K个样本
形式化描述
输出形式: 分类问题: 离散值 �� ∈ 1, . . . , �� 多数投票(majority voting)
回归问题：连续的（实值）变量�� ∈ �� 平均值 average response 这个算法需要: 参数 K : 寻找的近邻个数距离函数: 计算样本之间的相似度
• 在n维空间中，我们必须查询大小（0.001）1 / d —> 1 的区域
由于空间的急剧扩张，样本变得非常稀疏，为了找到最近的5个样本，需要查询的空间越来越接近于1，此时的邻居已经不在查询点附近。邻居之间相似性很低，分类效果也就很差，所以无法用来分类。
维数灾难的几个表现
组合爆炸问题、距离度量失效、概率密度估计…
K-NN: 特征权重
根据维度的重要性来赋予不同的权重
使用先验知识来决定哪些维度的特征比较重要可以使用交叉验证法学习权重Wk (本课没有涉及)
那么样本之间的权重又如何呢？
K的选择
理论上, 如果有无穷多的样本, k越大, 分类效果越好.
这是不可能实现的，实际中样本个数总是有限的
KNN性质总结
优点：简单直观，训练非常快，易于实现特别适合多分类问题训练数据无限和足够大的K，K-NN方法效果会相当好！缺点：对噪声敏感（小K）即使在测试时间时，也需要存储所有训练数据查询时间慢：每个查询 O（nd）复杂度在高维度上，距离的概念是违反直觉的！高维空间表现不佳（维度诅咒）也叫：记忆/实例学习懒惰学习
数据集
32x32像素的二值图像: d = 1024 1,934个训练样本 946个测试样本
…
数字识别的例子
https://shichengcn.github.io/KNN/
维度的“诅咒”
K-NN 在高维空间中失效, 因为此时“Neighborhood” 的空间变得非常巨大，这时候找到近邻点的距离相当远，以至于无法用于预测分类。维度的诅咒是指在高维空间中出现的各种现象，不存在于日常经验的的低维空间中。维数灾难最早是由理查德· 贝尔曼（Richard E. Bellman）在考虑优化问题时提出来的，它用来描述当(数学)空间维度增加时，分析和组织高维空间(通常有成百上千维)中的数据，因体积指数增加而遇到各种问题场景。 • 存储和计算复杂性 • 样本稀疏 • 组合爆炸 • 近邻搜索 • 距离度量 • 非参估计 • …
常见的度量方式
欧氏距离（ Euclidean distance ）最常使用在二维欧式平面中, 两点 p = (p1, p2) 和 q = (q1, q2) 的距离为
三维空间中的欧氏距离
一般的，n维空间中的距离
常见的度量方式
曼哈顿距离（ Manhattan Distance）
一般的，n维空间中的两点的曼哈顿距离是
K近邻算法
2017
目录
K近邻
• • • • • • 背景定义距离度量 K的选择手写识别例子 KNN总结
K-D 树的构造和查询作业
背景
• K-近邻算法（KNN算法）是一种用于分类和回归的非参数统计方法。 • 最近邻方法在1970年代初被用于统计估计和模式识别领域。 • 该方法仍然是十大数据挖掘算法之一。
汉明距离在包括信息论、编码理论、密码学等领域都有应用。比如在信息编码过程中，为了增强容错性，应使得编码间的最小汉明距离尽可能大。
K -NN: 特征归一化
Note: 特征应该在同一尺度
距离度量会被数值较大的维度主导，既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。
例如: : 第m 维特征的均值 : 第 m 维特征的方差代替 �� by (零均值, 单位方差)
�� 1 ��
|�� − �� |��
��=1
m取1或2时的闵氏距离是最为常用的，m=2即为欧氏距离，而m=1时则为曼哈顿距离。当m取无穷时的极限情况下，可以得到切比雪夫距离。
常见的度量方式
夹角余弦（ Cosine similarity ）几何中，夹角余弦可用来衡量两个向量方向的差异；机器学习中，借用这一概念来衡量样本向量之间的差异。两个n维样本点的夹角余弦为：
形式化描述
Note: • kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。 • “K”表示分类考虑的数据集项目的数量。 • K-NN是一种基于实例的学习。 • k-近邻算法是所有的机器学习算法中最简单的方法之一。
决策边界
维诺图基于一组特定点将平面分割成不同区域，而每一区域又仅包含唯一的特定点，并且该区域内任意位置到该特定点的距离比到其它的特定点都要更近。
K的选择
小K 对每个类别都创建了许多小的分类区域对“噪声敏感” 非平滑的决策边界， (可能导致过拟合)
大K
创建了少数大范围的区域, 通常产生更平滑的决策边界可以降低噪声样本的影响 (注意过于平滑的决策边界可能导致欠拟合)
近邻搜索
• 假设在单位超立方体中的5000个点服从均匀分布，我们要应用5-nn算法。
(假设我们的查询点在原点)
• 在一维中，5000个点均匀分布在单位长度1的线段上，我们必须查询5/5000 = 0.001的长度，以捕获5个最近邻居 • 在二维中，同样是5000个点均匀分布在单位面积1的矩形上，数据已经变得稀疏了，我们必须查询面积0.001 的区域来得到5个最近邻居，小矩形的边长为 0.001 > 0.001
You are the average of the five people you spend most time with. —Jim Rohn
Scott Dinsmore:: How to find work you love| TED Talk
• 近朱者赤近墨者黑
•
把这种思想用于数据方面
x s1 h e f
i
g
y d b
a
c
s1
x
K-d 树构造(3)
x s1 h e f y s2
i
g
y
s2
d b
a
c
s1
x
K-d 树构造(4)
x s1 h e f x s3 y s2
i
g
y
s2
d b
a
s3
cቤተ መጻሕፍቲ ባይዱ
s1
x
K-d 树构造(5)
x s1 h e f x s3 a y s2
i
g
y
s2
d b
a
s3
常见的度量方式
闵可夫斯基距离 (Minkowski Distance) 闵氏距离不是一种距离，而是一组距离的定义，是对多个距离度量公式的概括性的表述。两个n维变量 �� = (��1 ，��2 ，. . . ，�� )和 �� = (��1 ，��2 ，. . . ，�� ) 之间的闵式距离定义为：
留出法
• 方法：直接将数据集划分为两个互斥的集合，训练集合和测试集合，模型在验证集上的表现就是对模型泛化能力的一种估计。
• 例如：训练集(80%) 验证集(20%)
• 注意：训练／测试集的划分要尽可能保持数据分布的一致性，避免因为数据划分过程引入额外的偏差而对最终结果产生影响。 • 缺点与改进：使用留出法得到的估计往往不够稳定可靠。
形式化描述
给定训练数据（或已标记数据） (��1 , ��1 ), . . . , (�� , �� ) 以及测试点�� 对 ; �� 是D维特征所组成的向量, �� - 标记或类别
c
s1
x
K-d 树构造(6)
x s1 h e f x s3 a b y s2
i
g
y
s2
d b
a
s3
c
s1
x
K-d 树构造(7)
x s1 h e f x s3 a b y s2 y s4
i
g
y
s4
d b
s2
a
s3
c
s1
x
K-d 树构造(8)
x s1 h e
s5 s2
i
g
/zhangchaoyang/articles/2801525.html /zc02051126/article/details/49618633 https:///wiki/%E7%BB%B4%E6%95%B0%E7%81%BE%E9%9A%BE /zc02051126/article/details/49618633
两种极端情况： k=1 最近样本的类别 k=N 样本个数最多的类别
K的选择
k = 1 最常用，效果也较好, 但是却对“噪声” 敏感
噪声样本
1 NN
3 NN