KNN算法综述

  • 格式:pdf
  • 大小:1.39 MB
  • 文档页数:2

下载文档原格式

  / 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2018年10月

KNN算法综述

窦小凡(吉林高新区万信培训学校,吉林省吉林市132000)

【摘要】KNN算法是非常有效和容易完成的,是最好的文本分类算法之一,在机器学习分类算法中占有相当大的位置,是最简略的机器学习算法之一。它用于分类、回归和模式识别等。

【关键词】机器学习;人工智能;KNN算法;K近邻算法

【中图分类号】TP301.6【文献标识码】A【文章编号】1006-4222(2018)10-0273-02

1引言

计算机分类在生活中已经运用广泛,在商业经营中,政府

决策管理中,科学研究中和工业中等多个领域都有运用。我对

计算机、手机之类的设备感兴趣,比如手机中的人脸、图片识

别,模式识别,扫码,计算机中的空间分类,文本分类,决策树

分类(kd-tree),贝叶斯分类,KNN分类,人工神经网络等技

术。从计算机的KNN分类中,我发现了这种算法的一些优点

及缺点。本文的结构如下:

第二部分主要介绍KNN算法及其基本原理。

第三部分是对KNN算法的一些优点及不足之处进行了

概括。

第四部分是针对KNN算法的不足之处提出了一些简单的建议。

2KNN算法

(1)KNN(K-nearestneighbor),即K-邻近算法是由Cover 和Hart于1968年提出。所谓K最近邻,就是K附近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表。比如将20万张猫的图片和20万张狗的图片,输入到计算机让它学习,每一张都不要重复。训练成功后,你就可以随意选一张图片,让它识别,它就会在它储存40万张照片中,判断与它储存的形状最接近的一个,最后显示出结果,如图1所示。

圆圈就像20万张猫的图片,方块就像20万张狗的图片,以此类推。X就相当于你想识别的对象,这时计算机就会将与它距离最近的对象识别出来,给出最终的结果。再打个比方,我们都说物以类聚,人以群分,判别一个人有什么样的品质特征,常常可以通过他身边的朋友来入手。KNN算法也类似,如果我们想判断圆圈属于哪一类数据(如图2所示)。

若以圆圈为圆心,半径为3画圆,圆圈圈中的三个样本,三角形样本数量最多,那么就将圆圈视为三角形一类。

(2)KNN算法流程:

T=(x1,y1),(x2,y2),…,(x N,y N)(1)其中x是每个样本的特征向量,特征向量意思就是一个矩阵作用在一个向量上,数字就是特征值,这个向量就是特征向量。y为实例的类别,i就是常数、序号1,2,3…N。根据测完的距离,在T(样本)中找出与待分类对象最邻近的k个点,包

含了所有k点的区域记作Nk(x)。在Nk(x)中根据分类决策(少数跟随多数的原则来表决)决定x的类别:

y=arg max cj∑xi∈Nk(x)I(y i=c j),i=1,2,…,N(2)式中,I为指示函数,即当y i=c j时I=1,不然I=0。k近邻法的特殊状况时k=1的情景,成为最近邻算法。关于输入的实例

点x,最近邻法将数据集中与x最邻近点的类作为x的类。3KNN算法的优点/缺点

KNN算法自身操作简略、有效,易于了解,易于完成,无需预计参数,也无需训练。它适宜对时间进行分类,尤其适合于多分类问题(multi-modal,即此对象具备多个类别)。它是一种lazy-learning,也就是惰性学习。这种分类器不需要应用训练及进行训练,也就是训练时间复杂度为0,你只需要输入大量样本,计算机就会进行分类,再输入一个新的样本,它就会识别出来。KNN分类的计算复杂度和训练集中的文档数目成正比,打个比方,假如你输入了一些关于手机的照片,你输入的图片数量越少,它识别的速度也随之变快。但这个算法有不足之处,就是计算量较大。因为计算机需要计算出每一个已知的样本与待分类对象之间的距离,才能得出它的近邻。KNN算法还可以回归,或者说成预测。通过找出待识别对象的几个近邻,求出这些近邻的平均值,将这个平均值赋给待分类对象,就可以知道这个对象的属性。还有另外一种方法,就是将不同距离的近邻对该对象所产生的影响给予不同的权值(权值,就是加权平均数中每个数的频数),权值与距离成反比。这种算法仍有不足之处,当样本数量不平衡时,即一种样本容量很大,而其他几种容量很小时,有可能会导致输入一个新样本时,该样本的近邻中容量大的样本所占多数,就会产生误差。4KNN算法的改进策略

KNN算法提出时间较早,再加上其它技术的不断更新和完善,这种算法的许多不足之处也逐一浮现出来。对此,一些科研人员也研究出的改进算法也应运而生。针对3中的不足点,科研人员将改进算法分为两类:分类效率和分类效果。提高效率的方法主要是事先对样本属性进行约简,删除一些对分类结果影响较小的样本属性,就能快速得出待分类样本的

图1KNN

分类示意图

图2KNN分类示意图

论述273

2018年10月

类别。这种改进算法适用于样本容量较大的作业,而容量较小的作业若采用此种算法来计算,就会产生3中的问题:输入的图片数量越少,速度快,但随之改变的是准确率的下降。分类效果的提升是采用权值的方法来改进,即比较和待分类对象的近邻权值,距离越小的权值越大。

5结束语

KNN算法是很基本的机器学习算法,它非常容易学习,在维度很高的时候也有很好的分类效率,因此运用很广泛。但随着科技的发展,KNN算法变得很不智能,远远低于其他那些算法,但为了使KNN算法能继续得到快速的发展,科研人员正从不同角度提出并改进KNN算法,使它变得更加优秀、高效。以上就是对KNN算法的一个小的综述。

参考文献

[1]奉国和,吴敬学.KNN分类算法改进研究进展[J].图书情报工作, 2012,56(21):97~100+118.

[2]李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法.计

算机研究与发展,2004,41(4):539~546.

[3]田丽.浅谈院校合并期间的档案管理[J].郑州铁路职业技术学院学

报,2008,20(3):91~92.

[4]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26~32.

[5]邓耀华,吴黎明,张力锴,等.基于FPGA的双DDS任意波发生器设计与杂散噪声抑制方法[J].仪器仪表学报,2009,11(30):2255~2261.收稿日期:2018-9-20

浅论“互联网+”智慧水利的研究与应用马旺,江力,李姝倩(湖北省十堰市水文水资源勘测局,湖北十堰442000)

【摘要】随着社会经济的快速发展和科学技术的不断进步,我国在水利工程建设方面取得了一定的成就,在现阶段的发展中,互联网信息技术得到了广泛的利用,许多行业都将信息技术融入到产业结构之中,水利工程建设也是如此。我国的水利工程信息化建设已经发展三十余年了,其中智慧水利是现阶段水利信息化的一个新的形态,也是适应新时期新形势下的国家信息化建设总体要求、推进水利工程现代化事业发展的基本需求。本文主要以互联网技术的发展为基础,对智慧水利在应用过程中的相关问题进行研究。

【关键词】互联网+;智慧水利;水利信息化

【中图分类号】TP393.09【文献标识码】A【文章编号】1006-4222(2018)10-0274-02

1引言

随着信息技术的快速发展,各行各业都处于一个信息化快速发展的模式之下,为了适应信息化的发展速度,需要对传统的水利工程发展模式进行适当的转变,以水利信息化建设来带动水利工程的现代化建设。近些年来,一些水利工程建设项目正在逐渐向着现代化和民生化的方向发展,水利理念和民生思路都在发生着巨大的转变,智慧水利的提出正是水利理念转变的产物,同样也是水利工程未来发展的主要趋势。互联网+智慧水利是一种新的发展方向和应用思路,这种创新发展观念的提出给水利工程的可持续发展建设带来了巨大的作用。2水利信息化的发展现状

虽然,我国水利信息化建设有着三十年的发展时间,但是其中仍然存在着一些不足,在新的发展模式与建设需求的推动下,这些不足会对水利信息化建设的进一步发展产生巨大的影响,所以要加快水利信息化转型发展的速度。

2.1水利信息化的发展阶段分析

(1)第一阶段。水利信息化建设从20世纪80年代到本世纪初为第一发展阶段,也可以说是启蒙阶段,在这个发展阶段中,开始对水利信息化建设进行研究,水利信息化建设的相关工作才慢慢开始进行,其工作主要围绕水情信息的收集和整理来进行。

(2)第二阶段。在21世纪初的前十五年是水利信息化建设的第二发展阶段,在这个阶段中,加大了对水利信息化建设的研究深度,人们意识到水利信息化建设的重要性,相关研究工作得以全面开展,其工作主要以对水利信息化基础设施研究和保障环境建设为主。

(3)第三阶段。从本世纪初的十五年后到现在都是水利信息化建设的第三发展阶段,在这个阶段中,由于国家经济和科学技术得到了快速的发展,水利信息化建设工作不在局限于一些简单的基础建设工作,而是提出了许多新的发展理念,其中智慧水利建设就是在这个阶段研究的成果,在未来许多年的发展时间内,这都是最为主要的研究方向。

2.2水利信息化的发展现状分析

下面主要从现阶段水利工程发展五个方面的内容来对发展现状进行分析:

(1)在现阶段水利信息化建设发展中缺乏统一的指导体系,影响了系统的开发和数据服务,使数据建设在研究工作开展中的准确度无法得到保障。

(2)水利资源的相关信息非常分散,这给水利信息化建设工作的正常开展带来了影响,信息分析处理、共享应用存在困难,不利于水利各部门之间的协调合作发展。

(3)水利业务的应用建设非常零散,各个部门之间没有频繁的联系和工作交流,所形成的是一种信息封闭的孤岛局面,这种局面会使得后期水利信息化重复建设和维护建设工作难以进行。

(4)不同地区的水利信息化建设的程度有所区别,这取决与该地区的经济发展状况,也就意味着地区在信息化认知、规划、建设方面都存在着差异,建设起点不同会导致各级管理单位和职能部门的能力水平有着较大的差距,信息化建设水平与水利管理需求不相适应。

(5)在现阶段水利信息化建设发展中,水利信息化系统各类应用软件功能、信息资源开发利用层次普遍偏低,水利信息化操作平台也过于单一,领导者在水利信息化建设方面的决策能力发挥有限,缺乏统一的水利业务监管平台,管理效率非

论述274