当前位置:文档之家› 深度学习在图像识别中的研究及应用

深度学习在图像识别中的研究及应用

摘要

对图像进行精确识别,具有非常重要的研究意义,图像识别技术在医药学、航天、军事、工农业等诸多方面发挥着重要的作用。当前图像识别方法大多采用人工提取特征,不仅费时费力,而且提取困难;而深度学习是一种非监督学习,学习过程中可以不知道样本的标签值,整个过程无需人工参与也能提取到好的特征。近年来,将深度学习用于图像识别成为了图像识别领域的研究热点,已取得了良好的效果,并且有广阔的研究空间。

本文基于深度学习在图像识别的相关理论,分析了深度学习的基本模型和方法,并在相关图像数据集上实验论证;另外鉴于深度学习多用于大样本集,本文基于小样本提出了一种改进算法,具体工作内容如下:

(1)分析深度学习中卷积神经网络(Convolutional Neural Networks,CNNs)的基本原理,研究其训练过程和模型结构。其中卷积层通过卷积运算,可以使原信号增强,并且降低噪声,提高信噪比;降采样对卷积层的图像进行子抽样,在保证了有用信息不降低的基础上,减少数据处理量。将其在 MNIST手写字体数据集上进行实验,通过对比分析了该方法和其他经典算法在识别率和时间方面的优劣。

(2)针对于卷积神经网络训练时间过长这一缺陷,分析了深度学习中深度信念网络(Deep Belief Networks,DBNs)的基本原理、训练过程和模型结构。DBNs的分层训练机制大大减少了训练难度,减少了训练时间。引入Softmax作为模型的分类器,将其在MNIST手写字体数据集上进行实验,实验表明:深度信念网络在识别率上和卷积神经网络持平,但训练方法的改善使得消耗时间大大减少。此外,该方法在自然场景CIFAR-10库上也有较好的实验效果。

(3)鉴于深度学习多适用于较大的数据集,针对小样本提出了一种改进的深度信念网络结构:深度信念网络整个过程可以分为预训练和参数微调两个阶段,改进的算法在预训练阶段对样本进行降采样;在参数微调阶段引入随机隐退(Dropout),将隐含层的结点随机清零掉一部分,保持其权重不更新。将改进的模型在MNIST子集和ORL数据集上进行实验,实验表明:在小样本中,引入降采样和随机隐退后,深度信念网络在识别率和耗时方面都有不错的改善,过拟合现象得到有效缓解。

关键字:深度学习图像识别卷积神经网络深度信念网络小样本集

I

Abstract

Precise recognition for image Has very important research significance, imagerecognition technology is widely used in Medicine , space military ,industry and agriculture.

As now most method of image recognition Used artificial feature extraction which Not only

laborious, but also difficult to extract. Deep Learning is a kind of unsupervised learning, Inthe learning process we need not know the values of samples, The whole process can alsoextracted good characteristics without human participation. in recent years , The deeplearning used in image recognition become the hot research topic in the field of imagerecognition , Has achieved good effect, and have a broad space for research.

In this paper, we based on the study on the theory of image recognition analyzes thedeep learning the basic models and methods ,then do experiment on some image data sets .

Given deep learning more for large sample set , we improved a algorithm proposed to use itinto small sample set, the work can be described as follows:

( 1 ) Analysis basic principles of the convolution neural networks (CNNs) , introducethe training process and model structure of it. The convolution layer can make the originalsignal enhancement, and reduce noise as well as improve signal-to-noise ratio byconvolution operation, use the model into the handwriting data set MNIST, compared toother classical algorithms, analyze their advantages and disadvantages about time andrecognition rate.

( 2 ) aim at the inadequacies of the convolution neural network , Analysis the basicprinciples , training process and model structure of deep belief networks (DBNs). Thestratified training mechanism of DBNs greatly reduces the difficulty and reduces the trainingtime of it. We use Softmax classification system as the classifier , the use this model doexperiment on MNIST datasets , compared to convolution neural network, mainly in therecognition rate and time-consuming ,which can be proved that DBNs has the sameidentifying rate of CNNs, but the elapsed time is greatly reduced, and then analyze thereasons ; addition, use the model into the CIFAR-10 databases , compared to the otheralgorithms .

( 3 ) aim at the deep belief networks algorithm is only applicable to large data sets, raisea improved algorithm of deep belief network aim at small sample set . Before the pre-training , down-sampling of samples , after the training, in the parameter fine-tuning phase ,

II

use the dropout ideas. Down-sampling and dropout can effectively prevent of overfitting ,the improved system is applied on a MNIST subset and ORL datasets , experiments showthat this system indeed prevent over-fitting , the algorithm has good improvements in therecognition rate and time-consuming both.

Keywords: Deep learning Image recognition Convolutional Neural Networks DeepBelief Networks Small sample set.

III

目录

摘要 .................................................................................................................................................... I Abstract ............................................................................................................................................. II 第 1 章绪论 (1)

1.1课题来源 (1)

1.2课题研究背景及意义 (1)

1.3国内外研究现状 (5)

1.4论文主要内容和组织结构 (6)

第 2 章基于卷积神经网络的图像识别 (7)

2.1传统人工神经网络结构 (7)

2.2卷积神经网络结构 (9)

2.2.1卷积神经网络结构 (10)

2.2.2卷积神经网络的参数减少和权值共享 (11)

2.2.3卷积神经网络的参数更新 (13)

2.3基于卷积神经网络的手写字体识别 (16)

2.3.1MNIST数据库及手写字体识别一般方法 (16)

2.3.2基于卷积神经网络的手写字体识别 (16)

2.3.3实验结果和对比 (18)

2.4本章小结 (21)

第 3 章基于深度信念网络的图像识别 (22)

3.1深度网络分层训练的思想 (22)

3.1.1 浅层学习和深度学习 (22)

3.1.2 深度网络的分层学习思想 (24)

3.2深度信念网络(DBNs)基本原理 (25)

3.2.1 受限制玻尔兹曼机模型 (25)

3.2.2 受限制玻尔兹曼机(RBM)学习方法 (27)

3.2.3 深度信念网络(DBNs)的模型和方法 (29)

3.3 基于深度信念网络的图像识别 (31)

3.3.1 基于深度信念网络的手写字体识别 (31)

3.3.2基于深度信念网络的自然场景识别 (35)

3.4 本章小结 (36)

第 4 章基于小样本的深度信念网络的应用研究 (37)

4.1 随机隐退思想及其应用 (37)

4.1.1 随机隐退的思想 (37)

4.1.2 随机隐退应用于神经网络 (39)

4.2 随机隐退和深度学习算法的结合 (42)

4.3基于降采样和随机隐退的深度信念网络 (45)

4.3.1图像降采样 (46)

4.3.2降采样和随机隐退相结合应用于深度信念网络 (47)

4.4小结 (50)

第 5 章总结与展望 (51)

5.1 课题总结 (51)

5.2 课题展望 (52)

致谢 (53)

参考文献 (54)

第 1 章绪论

1.1课题来源

本课题来源于国家自然科学基金面上项目,基金号为:61273241。该项目主要进行机器学习、人工智能方面的研究,本文基于此进行深度学习的理论研究,并对研究出的理论进行验证,取得了满意的研究成果。

1.2课题研究背景及意义

随着信息技术的飞快发展,信息充满人们的日常生活。而图像在所有信息中占据最重要的地位,它包含信息量大,而且易于被人们接受,相比于声音和文字,图像更加直接。因此,图像处理具有现实研究意义和广泛的应用前景。

图像识别[1],是图像处理最主要的用途之一,其目的是让经过训练的电脑在待检测图片中提取信息,并加以识别。图像识别之所以被深入研究,发展快速,是因为其广泛且重要的应用价值,目前图像识别技术成熟,广泛应用于人脸,数字及其他物件的识别中,同时在农业,商业,军事以及日常生活中也很常见:在军事领域,无人机侦探,导弹精确打击,军事目标锁定,雷达警戒系统等等,无一例外都依赖图像识别技术;在公共安全领域,机场安检,恐怖分子搜查,公共交通安全,车牌定位,目标追踪,移动物体侦测也都和图像识别息息相关,无论是政府还是个人,从公共场合到个人室内,图像识别都带来了很大的便利;在农业领域,图像识别技术大大提高分选品种,物种识别,产品营养成分分析,农作物病情分析的效率和准确率,使得农产品产量大幅度提升,营养价值大大提高;而在日常生活中,更是时时刻刻都用到了图像识别技术:比如说现在比较热门的智能家居,人脸识别就是一项比较成熟的图像识别,另外视网膜扫描,指纹扫描和其他门禁系统也都是如此,医院临床医学仪器通过图像识别对病情做出判断和分析等等,这些应用都具有重要的现实意义。

首先对图像预处理,然后进行特征提取,最后用分类器进行识别(即分类),这是一个图像识别的基本流程。一般算法性能指标包括识别精确度和训练时间。

图 1-1表示图像识别的一般流程:

1

图 1-1 图像识别的一般流程

所谓预处理,是指将训练或者测试的图像进行一定的处理,使得它更加清晰或者更加适合算法要求。常见的预处理手段包括去噪处理,即去掉图像中的噪声,使得图像的信噪比更高;另外一种预处理类似于图像增强或者图像修复,图像中某一块不够清晰时,需要对它进行复原处理;此外还有归一化处理,就是将输入图像等比例的缩小到 0~1或者-1~1的区间内,因为某些算法用到的分类器只能处理 0~1或者-1~1的数据,深度学习算法就要用到归一化处理。

特征提取[2]是图像识别中最重要的一个环节,原始输入图像有大量的数据,这些数据是像素级别的,是最浅层的信号,对于任何图片来讲,都是 0和 1这样的数字,分类器无法通过他们做出判断,分类器只能识别出更高层的信号,这些信号是从训练或者测试数据中提取出来的那些“有用”的部分,这些有用的部分,就是提取出来的特征,这个过程称之为特征提取。图像的特征非常多,比如形状边缘轮廓特征和纹理特征。特征提取的方法同样多种多样,传统方法中最主要的包括主成分提取(Principal Component Analysis,PCA[3])和线性鉴别分析(Linear Discriminant Analysis,LDA[4])等,如今,随着遗传网络和其他理论的成熟,已经呈现出多特征融合[5]的趋势,特征提取的方法也开始相互结合。目前特征提取的方法中,主要是人工特征提取,而本文中深度学习的特征提取是完全由算法自身完成,无需人工干预。

目标识别就是分类过程,算法通过一定的训练后,形成一个分类标准,可以将测试集中的待识别图像归为某一类。神经网络识别方法是最常见的一种目标识别方法。

机器学习[6](Machine Learning)的核心思想是通过训练让机器模拟人脑,去学习,去判别。机器的确可以像人脑一样进行学习,美国科学家塞缪尔在1959年写了一个具有学习能力的下棋程序,该程序一开始连下棋的基本规则都不懂,但是它可以通过在与对手对弈的过程中学习,并将棋艺记住;经过几年的“培训”,程序棋力高超,击败了包含世界冠军在内的多名棋艺精湛的棋手。可见计算机具备学习能力并不是空想。

机器学习讨论的是如何让计算机进行学习,因为在实际问题中,并非所有的情

2

况都可以直接通过编程解决问题,比如自动驾驶技术[7],开车的电脑必须经

过不断的训练学习,才能摸清楚在什么情况下该如何打方向盘,什么情况下该换挡,什么时候该加油,什么时候踩刹车。也就是说,机器学习的方法是让程序具有了学习的能力,通过不断的训练和迭代,使得模型的参数最优;就像人一样,学习到了经验,行为就改变了,机器学习道理类似,只不过是将学习的主体换成机器(程序)而已。图 1-2是机器学习应用于图像识别的模型:

图 1-2 机器学习应用于图像识别

可以看出机器学习最主要的过程在于分类器的训练,通过多次迭代,不断训练,使得算法具有更佳的模型参数,更优的分类性能。机器学习的目的是通过学习使其在某个任务上的性能得到提升,为了解决任务,首先要对这个任务选取适当的模型,这个模型即分类器,如线性回归、Logistic回归和Softmax回归等;模型选好了,就要通过训练来调整参数使性能达到最优。在机器学习中算法并不知道到底什么样的参数是最优的,只能是对最优值做一个估计(如最大似然估计),而该估计值往往以最大概率收敛于最优值。

一般根据学习方法的不同将机器学习划分为两种类别,即监督学习(Supervised Learning)和无监督学习[8](Unsupervised Learning)。

监督学习是最常用的学习方法,在监督学习过程中,每一个训练样本都是带有标签值的,训练通过标签值和网络输出值的差别去调整网络参数。有监督学习包括回归和分类,如人工神经网络[9](Artificial Neural Network,ANN)和支持向量机[10](Support Vector Machine,SVM)。训练样本不带标签的学习过程被称为无监督学习,无监督学习是面向外界,学习过程无任何指导,也就是说,可以在并无任何外界反馈的情况下进行学习,学习过程中没受到外来指导的干预,而是内部自身来调节。相比监督学习,无监督学习适应能力强,应用也更为广泛,无监督学习的常用方法是聚类,常见的有 K-means[11]算法以及ISODATA方法。

此外,机器学习中,一个算法包含无监督学习和有监督学习,这种训练过程被称为半监督学习。深度学习[12-14]中的深度信念网络就是一种半监督学习,其具体步骤是无监督训练,有监督微调。

深度学习的灵感源自于人脑视觉系统,而人脑视觉系统的研究是一个漫长

3

的过程。科学家通过研究发现一种“方向选择性细胞”。在观察的过程中,是“边缘”和“方向”刺激了瞳孔,瞳孔受到了刺激,大脑皮层的某些细胞就会活跃。

进一步研究发现:人类视觉[15]从感受物体到瞳孔刺激,再到神经元细胞活跃,最后进入中枢大脑的工作过程,是一个多层传递、不断抽象的过程。原始信号是最底层的信息,从这一低层中抽象出某些特征,将这些特征作为新的一层,再从这一层中抽象出更加抽象的特征作为新的一层,如此多次重复迭代,直到大脑可以辨别出信号。图 1-3表示人脑视觉中枢观察的过程:

图 1-3 人脑视觉原理

其中像素是输入的组成部分,经过处理提取出边缘和方向,接着传递做进一步抽象,最后进入大脑进行物体判别。

总体上来讲,视觉系统确实是从具体到抽象,多层传递的。低层特征组合形成高层特征,从低层到高层,特征越来越抽象,也就越来越能表现物体的原有语义,在上面的例子中:像素是最底层的特征,物体本身是最高层的语义。

抽象层面越高,大脑判断的结果越准确,存在的疑虑越少。深度学习模拟人脑视觉中枢,通过构建多层网络,将原始的输入信号不断的进行特征提取,直到抽象出分类器可用的特征。因此和人脑一样,系统最终输出层只是一些少数可用的信息。

深度学习采用无监督学习,训练过程中样本标签是未知的,这种学习方法无需人工参与,在信息化的现代,大样本大数据集越来与普遍,毫无疑问深度学习将越来越多的影响到人们的生活,成为研究的热点。

4

1.3国内外研究现状

早在1950年图灵就提出过隔墙对话的概念,用电脑模拟人脑和人进行对话,人们不清楚到底是和人还是电脑在交谈。这种设想将计算机完全智能化,期望值太高,在以后的几十年里,人工智能的发展远远没有达到预想的效果。人们开始怀疑人工智能[16]可望不可及,相关的研究领域是“伪科学”。

20世纪 80年代,人工神经网络反向传播算法[17]诞生,这种方法无需人工制定规则,而是让机器在大量训练样本中寻找统计规律,相比以前的方法,神经网络在很多方面优势明显。神经网络实际上只含有一个隐含层,是一种浅层学习模型。90年代后期,最大熵方法、SVM等一些模型在理论和实践方面的优越性,使得人工神经网络领域的研究变得缓慢。

2006年,深度学习的宗师Hinton阐述了两个重要思想:其一、隐含层层数增加可以使网络学习能力增强,学到的特征更贴近物体本身;其二、多层神经网络系统训练时间长,训练难度大,但是如果每一层单独训练,训练的难度和时间都有改善。文章中,每一层的“单独训练”均是无监督学习。

Hinton的思想被广泛应用到学术界和工业界,欧美相继成立了研究院,2010年美国国防部联合斯坦福大学、纽约大学深入研究深度学习,2011年,微软将深度学习应用到语音识别中,识别率达到了 70-80%,2012年深度学习研究和应用大爆发:世界著名生物制药公司默克公司用深度学习算法预测各类分子中哪些分子能够成为药物,这一方法在实践中远优于其他方法,在生物制药领域掀起轩然大波;同年,Google公司启动 Google Brain[18]项目,吸引了公众关注,该项目是由斯坦福大学著名机器学习专家Andrew Ng和计算机系统专家JeffDean负责,他们设计了一个机器学习模型,该模型用 16000个 CPU Core组成一个并行计算平台,一共有 10亿多个节点,该模型被用来训练一种称为“深度神经网络”的结构。实践表明,该套系统能够从大量的输入数据中学习到特征,实现分类和识别。项目负责人表示:Google Brain只是将大量的训练数据输入到算法中,而没有人为设定边界,系统会自动从中学习,系统可以自己领悟到这些概念。2012年11月,微软开发的一套“全自动同声传译系统”在天津公开演示,这套系统能够实时的将演讲者的英文演讲翻译成中文,并流畅发音,系统核心就是深度学习。2013年,百度宣布成立深度学习研究所[19]

(Institue of DeepLearning,IDL);同年,欧洲委员会发起了一个模仿人脑的超级计算机项目,计划投入16亿美元,耗时10年,力图在人脑解读方面有所突破,共有

5

200多名

研究院参与其中,遍布世界 80多个研究机构,规模宏大,意义深远。

当然,深度学习的发展还是受到人脑机制复杂的制约,深层次了解人脑神经元传递信息和神经中枢处理信息的原理,将有助于设计出更加完善的算法。

深度学习引发了一场科技革命,它的影响不仅仅局限于计算机学科本身;最直接的图像、语音处理精确度会大幅度提升,同时以互联网为核心的信息服务产业也会发生根本的变化,深度学习带来的数据智能化,在搜索引擎方面占据至关重要的地位。

1.4论文主要内容和组织结构

本文主要围绕图像识别的方法进行探讨,包括手写字体识别和人脸识别以及自然场景识别;图像识别的基本流程大致是首先对图像预处理,然后进行特征提取,最后用分类器进行识别(即分类)。其中分类器训练是图像识别的重中之重;本文将分析深度学习方法和普通浅层学习方法优势劣势。然后将深度学习用于手写字体和人脸以及自然场景识别中,比较算法的优越性并分析原因。

论文一共分为五个章节,内容安排如下:

第一章:绪论,介绍图像处理技术,机器学习方法,简要介绍人脑工作机理,分析深度学习的现状和发展趋势。

第二章:讲述深度学习的一种方法,卷积神经网络,介绍其基本原理和思想,分析其和传统神经网络的联系和区别,阐释其优势;重点介绍卷积神经网络的训练过程,通过实验分析算法的优越性和不足之处。

第三章:讲述深度学习的另一种方法,深度信念网络,从理论角度分析其模型和思想,阐述训练过程,改进已有的模型并将其应用到图像识别领域,通过实验对比,分析两种深度学习方法各自的优势和劣势。

第四章:在第三章的基础上,将深度学习的方法应用到小样本集上,为防止小样本带来的过拟合现象,分别在预训练阶段和参数微调阶段对模型进行改进。预训练阶段进行降采样,微调阶段加入随机隐退,然后将改进的模型在MNIST子集和ORL数据集上实验,对比识别率和消耗时间,证明其可行性。

第五章:对本论文各个章节内容做小结,分析文中不足之处,对深度学习做进一步研究,对以后工作提出展望。

6

第 2 章基于卷积神经网络的图像识别

卷积神经网络(CNNs)是建立在传统人工神经网络上的一种深度学习算法,也是第一个成功训练多层网络的学习算法。CNNs的权值共享减少系统参数,使得算法性能得到提升。CNNs作为一个深度学习架构,其提出可以减少对数据的预处理要求。在 CNNs中输入是原始图像的一个小的部分,通过数字滤波器或者降采样逐层去获得上一层的特征。卷积神经网络是一个多层感知器,它在二维形状识别方面应用广泛,优势明显;其中在图像识别和语音分析领域应用尤其广泛。本章将以MNIST手写字体库为例,阐述 CNNs的优良性以及和传统神经网络相比的不同之处。

2.1传统人工神经网络结构

人类的神经中枢视觉系统包括几十亿个神经元,人工神经网络是模拟人脑神经系统的一种算法,但是计算机硬件资源有限,神经网络只能是模拟人脑的抽象简化的模型,和生物系统的工作方式还是有很明显差距。即便如此,人工神经网络依然具有生物系统的很多特点,如鲁棒性、高度并行、非线性、容错性、良好的学习能力等等。人工神经网络可以从大量样本中学习到离散、连续或者向量形式的函数,在多种神经网络模型中,反向传播算法结构简单、工作状态稳定、应用广泛;目前,反向传播算法大量运用在模式识别、分类问题、图像处理和函数拟合等各个方面。

神经网络是一个有向无环的网络结构,由许多个感知器分层互联而成;包括输入层,隐含层和输出层。输入层直接接受样本的数据,经过一个或多个隐含层,依次向前传播到达输出层。图 2-1是一个典型的 3层神经网络结构,包含一个输入层,一个隐含层和一个输出层;每一层都含有多个神经元(也称为感知器)。箭头代表不同层次之间神经元信息传递。

7

图 2-1 神经网络结构图

需要注意的是,神经元和神经元之间的连接并不是简单的加权,而是首先需要

加入偏置,然后进行加权,最后还要通过一个激励函数进行映射

2-2 表示:

x

1

w

Net

W X

图 2-2 神经元 Sigmoid 单元

x 1 ~ x n 是从上一层网络神经元的输入信号,令W i j 表示从上层神经元 j

到该层神经元 i 的权重,

net XW y f net

f XW

(2-1)

在众多的神经网络模型中,反向传播算法是性能最好且应用最为广泛的一

2 w n

0 x 1 w 0

w 1 x 2

1 net

1

x n

图中

x 0 是偏置 bias 。将输入表示为 X ,将权值表示为W , 那么,神经元 i 的输出与输入的关系可以表示为:

i

i i

8

个。其主要思想是:导入训练样本,计算期望值和实际值的差值,然后通过不断的调整权重,减小两者误差,直到误差小到规定值为止。BP算法具体步骤如下:1)数据预处理,预处理的方法有很多,比如说去噪,归一化等,普通的神经网络都要用到归一化,即将数据等比例的映射到0 , 1和 1 , 1区间内,归一化处理可以将大范围数据映射到小范围区间,防止网络收敛慢,训练时间长;也可以提高算法精确度,减小误差;另外需要归一化的一个重要原因是:神经网络的激活函数如 Sigmoid和 Tanh函数,只能处理0 , 1以及 1 , 1区间内的数据,只有在这区间内,曲线变化才会明显。一般的归一化方法都是线性方法。

2)设置网络初值,传统的神经网络中,权重和阀值是随机给出的,一般随机化的权重都是比较小的参数,过大的权值容易导致局部收敛和过拟合。

3)根据给定的权值和阀值以及Sigmoid函数,计算隐含层各神经元的输入和输出,依次向前传递,计算每一层的输出值,这个输出值是网络计算出来的值。

4)计算网络输出和期望值的差值,依次从后往前调整各个层次的权重,一般使用逻辑回归调节每个神经元的权值。

5)重复迭代,直到全局误差满足要求。

2.2卷积神经网络结构

通过构建多个隐含层,传统神经网络算法也可以从大量样本中学习出复杂的分类曲面,因此传统神经网络被广泛应用于语音识别和图像识别领域。传统模式识别方法,一般是首先设计一个算法用作特征提取,如常见的HOG特征、LBP特征以及SIFT特征,然后将提取出来的特征传入一个可训练的分类器,对分类器进行训练,最后将测试样本导入分类器进行分类。在这种模式下,由于提取出来的特征一般较小,因此可以设计一个全连接的多层网络作为分类器。

另外一种思路是:考虑直接用神经网络进行特征提取和分类,而免去前面的特征提取过程。反向传播算法可以将前面几层网络训练成特征提取器,把后面的层次用来分类;只是这种方法有较大的弊端。

首先,如果直接用神经网络进行特征提取,要提取到足够好的特征,隐含层结点必定不能太少,而传入的语音频谱和图像的像素往往比较大。假设输入层数据有1000个神经元(一般情况下远远不止),第一个隐含层有 100个神经

9

元,由于神经网络是全连接的,那么仅仅是这两层之间就有十万个以上的连接权重。即使不考虑训练速度,如果没有足够的训练样本,这些参数也难以拟合网络;其次,全连接的网络对每一个样本进行学习,每一个样本的传入都会影响参数的更新,而传入的数据之间往往是有很大相似之处的,例如在图像识别中,两幅图像的差距可能只是很小的方位移动,而全连接的网络无法捕捉这种信息,不能根据样本对训练过程进行优化,费时又费力。

而本章研究的卷积神经网络中,系统通过权重共享、特征降采样等手段,充分利用数据的局部性特征,缓解了这些问题。

2.2.1卷积神经网络结构

在一个卷积神经网络模型[20],神经元可分为两类,一类是用于特征提取的S元,另一类是抗形变的C元,S元中有两个重要的参数,即阈值参数和感受野;感受野就是从输入层中提取多大的空间作为输入,阈值参数控制着输出对输入的反应程度。同样,卷积神经网络是一个多层网络结构,它的每一个层实际上是由多个特征图构成,每个特征图代表一种特征;在每一个特征图上又有许多个独立的神经元。对应的,将卷积神经网络的网络层分为卷积层和下采样层,也称为降采样或者子采样;网络层次之间并非线性映射,从卷积层到下采样层是一个下采样的过程,从下采样层到卷积层则是一个卷积滤波的过程。

图 2-3是一个简化的卷积神经网络结构:

图 2-3 卷积神经网络结构图

其中,Input是输入层,通过 3个可训练的数字滤波器,然后加上偏置,通过一个Sigmoid函数,得到C1,C1是一个卷积层,由于是3个滤波器,因此C1包含了3个特征图,每个特征图代表学到的一组特征;从C1到 S 2的过程是一个下采样过程,具体

10

做法是C1中的连续 4个像素(22区域)求和,加权值加偏

置,映射到 S 2 中的一个点上,C 1中的每一个特征图都单独下采样,因此 S 2也包含3 个特征图,然后从 S 2 到C 3 又是卷积滤波,从C 3 到 S 4 是下采样,得到 S 4 后,将特征拉成一条直线作用于神经网络。图 2-4 是其连接过程:

Sigmod

W x 1 b x 1

图 2-4 卷积神经网络连接过程

这里 f x 是数字滤波器,b x 是偏置,C x 是卷积层的特征图;W x 1表示下采样的权值,b x 1是对应的权重,得到下采样层 S x

1。

可以看出,C 层作为卷积层是用来做特征提取的,每一个神经元和上一层的小块感受野连接,然后移动感受野,将新的感受野对应到C 层的另一个神经元上;采用 Sigmoid 函数,使得该过程具有位移不变性。这里只要输入层大小和局部感受野大小确定,那么C 层的大小也是确定的。S 层是下采样层,其目的是将C 层多个像素变为一个像素。

由于映射面上的权值是共享的,也就是说每个神经元的权重一样,因此整个网络参数大大减少,复杂度降低;网络采用特征提取和下采样相结合的方法,下采样求局部平均,这种结构使得网络具有较高的抗畸变能力。

2.2.2 卷积神经网络的参数减少和权值共享

卷积神经网络最大的优势在于通过感受野和共享权重减少网络的参数,即参数减少和权值共享[20]。该方法使得训练速度更快,而且训练需要的样本更少。 这种模拟人脑视觉中枢的方法自然有更好的算法效率。

通过区域感受野可以使系统参数大幅度减少,所谓区域感受野是指网络并非全连接,每个神经元只连接上一层的一个小区域,这样使得层次间的参数大量减少。如果训练样本是10001000的图像,网络的卷积层有10 6 个结点,全连接则一共有

1012 个权值。然而,类似于人们观察事物的过程,并不是每一个神经元都要记住所有

的信息,而只是需要记录一个小区域,然后在高层将这些不同的神经元记录的信息综合起来即可。卷积神经网络模拟这一原理,使得网络需要训练的权值大大减少。假如局部感受野大小是1010的区域,那么卷积神经网络的隐含层实际只需要10 6个不

到的神经元,每一个神经元只连接一个 100 个像素的区域,那么一共需要的权重不

到108 个,减少了 4 个数量级,训练起来更加

X

f

x x

1

x

x

11

省时省力。

当然,一般的卷积神经网络会提取多种特征,因此每个特征图都含有108个权重,最终参数也大概在 N108个,其中 N表示特征图的数量。

卷积神经网络通过卷积数字滤波器,将对应感受野的输入转化为卷积层的一个神经元,其方法是将感受野区域内的像素加权平均,再加上一个偏置,映射到卷积层中,就相当于是输入到一个激励函数中,这个函数又被称为卷积核。

卷积的过程就是感受野每次移动一个像素,这样得到一个新的感受野,这个新的感受野再通过一个激励函数,映射到卷积层中的另一个神经元。如此移动感受野,直到覆盖整个输入层。

这样的话,每一个局部感受野通过一个卷积核,映射到卷积层的一个神经元,原始像素是100100,感受野大小是1010,移动步长是1,那么最终感受野的个数是9912个9911000101,大概在10 6个。如果每一个感受野对应一个卷积核,每个卷积核是一个1010到 1的映射,因此每个卷积核有 100个参数,这样参数是108个。这也不是一个小数目。

为了进一步减少权重个数,卷积神经网络采用权值共享的网络模式。权值共享是指对于同一个特征图,每一个感受野的卷积核是一样的。那么对于上面模型,使用的是同一个卷积核,只需要 100个参数。这就是权值共享的意义。

在现实应用中,这样的特征提取方式对于整个系统来说远远不够,因为这样只提取出来一种特征,单特征还不足以被系统用来学习和分类。为了提高算法性能,卷积神经网络采用多个滤波器,用这种滤波器去卷积输入图像就能得到一个特征图,每一种滤波器对应一个不同的卷积核,由于卷积核不同,提取出来的特征也就不相同;假如系统设计了100个滤波器,那么提取出来的100种特征就足以让系统完成学习和分类了,系统的权值数变成了 10000个,降低 4个数量级。

卷积网络将局部感受野、权值共享以及降采样这三种结构结合起来使系统具有一定程度的位移、尺度、形变不变性。

图 2-5描述了卷积神经网络的参数减少和权值共享:

12

全连接

参数减少

权值共享

图 2-5 卷积神经网络参数减少和权值共享

2.2.3 卷积神经网络的参数更新

1 卷积神经网络的前向传播

卷积神经网络的前向传播和普通神经网络的前向传播是一样的,虽然普通神经网络层间是全连接,而卷积神经网络的网络层次分为卷积层和降采样层,层间连接方式也不一样;但是两者的前向传播都是严格遵循各自的连接方式由前向后传递。普通神经网络可以表示为上面的公式(2-1),而卷积神经网络中卷积层和下采样层分开对待,如上面图 2-4 所示。

2 卷积神经网络的反向传播

卷积神经网络反向传播算法[21]基于梯度下降,迭代分为两个步骤:即前向传播产生输出结果和计算误差并通过反向传播调整权值。对于样本 n ,误差为:

2

2

其中C 表示样本的类别数, 表示第 n 个样本的第 k 维对应的目标值(也就是分类标), 表示第 n 个样本对应的输出的第 k 维。在全连接网络中,网络的结构可以描述为:

E E u

b u b

2-4

由于?u/?b=1,则?E/?b=?E/?u=δ,那么可以推出隐含层的灵敏度:

1 1

2 2

C (2-2) n n n n n k k k E t y t y 2 1 n

t k

n y k

1

x f u 其中 u W x b

(2-3)

其中激活函数 f

般选用 Sigmoid

函数

接着要求误差对网络参数的偏导数,

即用误差对偏置和权重求导。

13

简单介绍图像识别技术在各类行业的应用

简单介绍图像识别技术在各类行业的应用 图像识别作为计算视觉技术体系中的重要一环,一直备受重视。微软在两年前就公布了一项里程碑式的成果:它的图像系统识别图片的错误率比人类还要低。如今,图像识别技术又发展到一个新高度。这有赖于更多数据的开放、更多基础工具的开源、产业链的更新迭代,以及高性能的AI计算芯片、深度摄像头和优秀的深度学习算法等的进步,这些都为图像识别技术向更深处发展提供了源源不断的动力。 其实对于图像识别技术,大家已经不陌生,人脸识别、虹膜识别、指纹识别等都属于这个范畴,但是图像识别远不只如此,它涵盖了生物识别、物体与场景识别、视频识别三大类。发展至今,尽管与理想还相距甚远,但日渐成熟的图像识别技术已开始探索在各类行业的应用。 01 网络搜索 以Facebook和谷歌为例,近日,Facebook专门为图像和视频理解打造了一个专业计算机视觉平台Lumos,该平台可以为整个社交网络提供视觉搜索功能,它将从两个方面改善社交网络上的用户体验:基于图片本身(而不是图片标签和拍照时间)的搜索;升级的自动图片描述系统(可向视觉障碍者描述图片内容)。而对于谷歌而言,图片识别已经攻克,它的下一个挑战是视频识别,目标是提升图像识别技术,最终能够识别和搜索视频本身的原内容,从而改善视频推荐服务。除此以外,Snap和Twitter等也都在致力于此。 02 智能家居 在智能家居领域,通过摄像头获取到图像,然后通过图像识别技术识别出图像的内容,从而做出不同的响应。举个例子,我们在门口安装了摄像头,当有物体出现在摄像头范围内的时候,摄像头自动拍摄下图像进行识别,如果发现是可疑的人或物体,就可以及时报警给户主。如果图像和主人的面部匹配,则会主动为主人开门。还有家庭用的智能机器人,

图像识别对工业4.0的五大应用

图像识别对工业 4.0 的五大支持 如何定制个人商品? 想买一条长裤?可能你正在去商店的路上,或者正在网上根据从S到XL的标准尺码进行挑选。这些大批量的生产造就了单位货物的成本下降。 工业 4.0 时代的纺织品生产方式或许会与之不同,它将通过有效的数据处理,提供定制性的个性商品。客户一旦决定选择哪个模型,图像处理系统(机器视觉系统)就会对其各项维度进行测量。 具体测试形式可能是,在一个小更衣室中放置四个摄像头,拍摄身体每一边的图像。软件控制测量操作,并决定随后生产衣物时的剪裁方式。接下来的生产过程会自动进行,直至包括运输环节。 未来的时装屋将不再摆满几柜子的商品,而是通过提供大量的虚拟选择和快速可靠的生产流程来为客户服务。 工业相机系统怎样让这种未来式的生产流程走入现实?

围绕工业摄像机构建的图像处理系统,早就是自动化生产中必不可少的组件。在生产的各个环节中,为实现生产高效和高质,在包括原材料检测、生产过程监控(如瑕疵检测)、最后检查和质保等环节中,图像处理系统都是不可或缺的。 工业 4.0 这个词,代表着工业生产中新兴的处理模式和组织形式。它的核心要素就是,网络化及更广泛的数据通信。其目标是,基于全面的数据搜集和有效的信息交互,达到自组织的、深度定制化的高效生产。 图像处理技术在决定特定信息时,起着决定性作用。需要注意的是,在相机性能提升的同时,其体积越来越小,价格也逐渐降低。如今的相机系统小而高效,与之前大个头的复杂相机相比,功能不相上下,甚至更加出色。科技的进步,再加上网络化的不断扩展,为工业4.0 时代的应用多样化带来了更大的可能性。 小数额生产的新机遇 工业 4.0 时代的一个重要影响在于,由于使用控制自动化技术,不管是大批量生产还是非常小量的生产,很多工件都能被低成本地生产——「批容量为1」这个说法已屡见不鲜。这方面的例子包括上面提到的纺织品生产;还有就是根据客户指定规格进行金属物件的单独设计生产,如邮箱、栏杆等。 但是,精准的工业摄像机系统怎样为这一切提供服务?

仪表显示的图像识别算法研究

仪表显示的图像识别算法研究 摘要:随着社会的逐渐发展,人类的生活越来越趋于智能化。本文根据当今社会对于图像识别研究的发展现状,针对目前人们生活中人工读表的弊端,提出了通过采集仪表显示的图像并进行图像识别算法处理来达到智能自动读表的方法。 为了能快速获得采集数据,减少人们生活中繁复的人工作业。本文通过多样的图像处理来代替人眼识别图像。只需要得到采集到的图像,就可以利用计算机来进行计算和识别,得出最后的数字。本文采用了一系列的图像处理方法,包括图像的去噪,二值化分割,边缘检测和基于数学形态学的膨胀腐蚀操作等。同时通过多种尝试和比较各种方法的优缺点得到了一套简易而又完善,快速的图像识别算法。 在进行多次测试试验后,本文采用数码相机来进行图像的采集,同时经过图像预处理、图像分割、图像识别等一系列流程得出了较为完善的图像采集和识别系统,为未来信息传递智能化提供了基础,对于促进工业发展或是改善生活水平都有重要的意义。 关键词:图像预处理、二值化、边缘检测、形态学、去噪、图像分割、图像匹配 The research of image recognition displayed by the instrument Abstract: With the continuous development of society, people's lives become more and more intelligent. Based on the current development in today's society for the study of image recognition, according to the present disadvantages of manual meter reading in peop le’s lives, this page proposed the way by collecting the instruments display image and then deals it with image recognizing algorithms to achieve intelligent automatic meter. In order to quickly gather data, reducing manual work in people’s lives complicated. The page uses a series of image processing to replace human eye image recognition. Just need the collected images, we can use a computer to calculate and identify, then we will arrive at a final figure. We used a variety of image processing methods, including image denoising, thresholding segmentation, expansion of edge-detection based on mathematical morphology and corrosion and so on. And

图像识别与分类技术在ADAS中的应用

Application of Image Recognition and Identification in ADAS 2013.06.19 PLK Technologies

Company Brief

PLK Technologies History ?PLK started as a venture TFT in Hyundai Motor Company (2000)?PLK Technologies span off in July 2003 ?Developed and successfully launched ADAS vision products –First LDWS for commercial vehicles in Korea (HMC Trago)–First LDWS for passenger vehicles in Korea (HMC Equus)–First LDWS+HBA in Korea (KMC K9) Status ?42 Employees (20 Developers/Engineers) ?Products for 12 vehicles (passenger car, bus and trucks)?Verified in many regions –Korea, China, Japan, Europe, US, Middle East, Australia ? TS16949, ISO9001, HKMC SQ OEM ADAS Vision Products of PLK Factory Production(Test) Facility

车辆牌照图像识别算法研究与实现本科毕设论文

Q260046902 专业做论文 西南科技大学 毕业设计(论文)题目名称:车辆牌照图像识别算法研究与实现

车辆牌照图像识别算法研究与实现 摘要:近年来随着国民经济的蓬勃发展,国内高速公路、城市道路、停车场建设越来越多,对交通控制、安全管理的要求也日益提高。因此,汽车牌照识别技术在公共安全及交通管理中具有特别重要的实际应用意义。本文对车牌识别系统中的车牌定位、字符分割和字符识别进行了初步研究。对车牌定位,本文采用投影法对车牌进行定位;在字符分割方面,本文使用阈值规则进行字符分割;针对车牌图像中数字字符识别的问题,本文采用了基于BP神经网络的识别方法。在学习并掌握了数字图像处理和模式识别的一些基本原理后,使用VC++6.0软件利用以上原理针对车牌识别任务进行编程。实现了对车牌的定位和车牌中数字字符的识别。 关键词:车牌定位;字符分割;BP神经网络;车牌识别;VC++

Research and Realization of License Plate Recognition Algorithm Abstract:In recent years, with the vigorous development of the national economy,there are more and more construct in the domestic expressway, urban road, and parking area. The requisition on the traffic control, safety management improves day by day. Therefore, license plate recognition technology has the particularly important practical application value in the public security and the traffic control. In the paper, a preliminary research was made on the license location, characters segment and characters recognition of the license plate recognition. On the license location,the projection was used to locate the license plate; On the characters segmentation, the liminal rule was used to divide the characters; In order to solve the problem of the digital characters recognition in the plate, BP nerve network was used to recognize the digital characters. After studying and mastering some basic principles of the digital image processing and pattern recognition, the task of license plate recognition was programmed with VC++ 6.0 using above principles. The license location and the digital characters recognition in the license plate were implemented. Keywords: license location, characters segmentation, BP nerve network, license plate recognition, VC++

森林防火系统中图像识别算法的研究

哈尔滨工业大学工学硕士学位论文 摘要 森林是陆地生态的主体,具有很高的生态效益和经济效益。鉴于目前我国森林防火的严峻形势,必须开发有效技术解决森林火灾的监测问题。传统火灾探测器多采用单一时刻的火灾参量作为判断标准,在外界干扰下易引起频繁误报或漏报。近年来提出的基于机器视觉的火灾报警系统,利用数字图像处理技术来实现火灾自动报警。 基于火焰和烟雾的图像特征,本文研究了一种识别自然环境下火灾的机器视觉方法。火灾发生过程中,主要的图像信息是燃烧时产生的烟雾和火焰,通过对烟雾和火焰的图像信息研究发现,烟雾和火焰本身具有一定的规律性,以此为依据设计有针对性的算法,从图像中识别出烟雾和火焰,判断火灾是否发生。 首先,论文阐述了森林防火技术及图像型火灾检测技术的发展和现状,并对图像分割和滤波方法中的关键技术进行了详细介绍,在此基础上,本文分别讨论了火焰和烟雾的分割与识别。 然后,对于火焰分割,针对不同情况下的火焰研究了三种不同的分割技术,实现了火焰区域的准确分割。对于火焰的特征检测,主要进行颜色和动态特征的分析,通过建立火焰颜色模型进行颜色识别,再进一步进行火焰的四个动态特征的识别。对于烟雾分割,由于烟雾颜色的复杂性,采取颜色提取法进行分割,并运用视觉一致性的聚类算法对其进行了改进。对于烟雾的特征检测,主要进行小波特征及动态特征的分析,通过对比烟雾图像与背景图像小波系数进行小波特征识别,再对识别结果进一步进行动态特征识别,包括烟雾的不规则性和扩散性,最终确定视频中是否存在烟雾。 最后,综合以上分析,给出了森林防火系统中火灾的识别的整体流程以及火焰和烟雾分别的识别流程。 实验证明,综合火焰和烟雾的静态特征及动态特征的火灾识别方法,识别率高。在火灾检测技术中,具有较好的发展前景。 关键词火焰识别;烟雾识别;图像分割;动态特征 - I -

图像识别技术的现状和未来

图像识别技术的背景 深圳知了图像识别科技有限公司,是一家以图像识别算法为核心的高科技企业,目前已经开发出了,知了点拍,钢管,钢筋智能点数app。识别率高,点数速度快,极大的方便了需要对钢管,钢筋点数人员的工作,提高了效率,知了点拍,是施工和建材经销商的好帮手。 移动互联网、智能手机以及社交网络的发展带来了海量图片信息,根据BI五月份的文章,Instagram每天图片上传量约为6000万张;今年2月份WhatsApp 每天的图片发送量为5亿张;国内的微信朋友圈也是以图片分享为驱动。不受地域和语言限制的图片逐渐取代了繁琐而微妙的文字,成为了传词达意的主要媒介。图片成为互联网信息交流主要媒介的原因主要在于两点:第一,从用户读取信息的习惯来看,相比于文字,图片能够为用户提供更加生动、容易理解、有趣及更具艺术感的信息;第二,从图片来源来看,智能手机为我们带来方便的拍摄和截屏手段,帮助我们更快的用图片来采集和记录信息。 但伴随着图片成为互联网中的主要信息载体,难题随之出现。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑,而当信息是由图片记载时,我们却无法对图片中的内容进行检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的图像识别技术就显得尤为重要。 图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标

和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说,图像识别就是计算机如何像人一样读懂图片的内容。借助图像识别技术,我们不仅可以通过图片搜索更快的获取信息,还可以产生一种新的与外部世界交互的方式,甚至会让外部世界更加智能的运行。百度李彦宏在2011年提到“全新的读图时代已经来临”,现在随着图形识别技术的不断进步,越来越多的科技公司开始涉及图形识别领域,这标志着读图时代正式到来,并且将引领我们进入更加智能的未来。 图像识别的初级阶段——娱乐化、工具化 在这个阶段,用户主要是借助图像识别技术来满足某些娱乐化需求。例如,百度魔图的“大咖配”功能可以帮助用户找到与其长相最匹配的明星,百度的图片搜索可以找到相似的图片;Facebook研发了根据相片进行人脸匹配的DeepFace;雅虎收购的图像识别公司IQ Engine开发的Glow可以通过图像识别自动生成照片的标签以帮助用户管理手机上的照片;国内专注于图像识别的创业公司旷视科技成立了VisionHacker游戏工作室,借助图形识别技术研发移动端的体感游戏。 这个阶段还有一个非常重要的细分领域——OCR(Optical Character Recognition,光学字符识别),是指光学设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,就是计算机对文字的阅读。语言和文字是我们获取信息最基本、最重要的途径。在比特世界,我们可以借助互联网和计算机轻松的获取和处理文字。但一旦文字以图片的形式表现出来,就对我们获取和处理文字平添了很多麻烦。这一方面表现为数字世界中由于特定原因被存储称图片格式的文字;另一方面是我们在现实生活中看到的所有物理形态的文字。所以我们需要借助OCR技术将这些文字和信息提取出来。在这方面,国内产品包括百度的涂书笔记和百度翻译等;而谷歌借助经过DistBelief 训练的大型分布式神经网络,对于Google 街景图库的上千万门牌号的识别率超过90%,每天可识别百万门牌号。 在这个阶段,图像识别技术仅作为我们的辅助工具存在,为我们自身的人类视觉提供了强有力的辅助和增强,带给了我们一种全新的与外部世界进行交互的方

图像识别技术在人工智能中的应用

图像识别技术在人工智能中的应用 发表时间:2019-08-06T16:21:09.890Z 来源:《防护工程》2019年9期作者:门爱军李常铮[导读] 人工智能的技术是时代发展的产物,图像识别技术在人工智能应用中逐渐趋于成熟化,图像识别技术可以说是信息时代的的一项新兴信息技术 青岛流亭机场海关山东青岛 266000 摘要:人工智能的技术是时代发展的产物,图像识别技术在人工智能应用中逐渐趋于成熟化,图像识别技术可以说是信息时代的的一项新兴信息技术,该项技术主要的技术核心是对众多杂乱的物理信息进行智能化和数字化的技术处理,其主要是应用计算机技术来代替传统的人工。计算机技术的快速发展无疑是对图像识别技术的侧面的大力支持,在图像识别技术进行图像识别的过程中,计算机可以进行精确图像分析,在神经网络以及非线性降维两个形式的图像识别技术中,都充分的体现了多种技术结合后,人工智能技术的突出表现。 关键词:图像识别技术;人工智能 引言:图像识别技术作为人工智能技术的发展区域之一,其技术上的重要性是不言而喻的,图像识别技术可以引言在不同的区域,其应用的广泛性也是能够在人工智能中大力发展的原因之一。在二十一世纪信息技术高速发展的时代已经没有什么能够做到技术上的替代,只有不断的发展自身的技术才能够让企业生存发展下去,比如,图像识别技术在医疗诊断、指纹识别、面部识别以及卫星云图识别等方面具有良好的应用效果,该项技术已经深入我们的日常生活之中。 一、图像识别技术在人工智能中的应用原理 实际上,图像识别技术的技术原理是十分简单的,其主要能够在人工智能上被重点使用是因为依靠其高精端的设备保证一些测量数据的高精准性,这与计算机技术也是分不开的。图像识别技术主要技术原理是通过数据库对输入的图像进行核对(如图表1),对一些相对复杂的图像信息进行智能分类,从而达到整理信息目的。目前图像识别技术的潜力在于其能够通过计算机技术再次的进行功能上的技术升级。通过模拟实验与现实检测,计算机能够完成与人类近似的图像识别任务,这需要研究人员在多方面不断地进行计算机性能测试,使其与图像识别技术能够完美的融合在一起,计算机难以做到完全的模仿人类视觉和感觉,所以这方面的技术研究还是存在一定的不足,目前也只能是通过其他手段使得分析误差最大程度上的减小。人类在进行图像识别时主要是利用大脑的存储功能对脑海内的图像记忆进行识别,而依据人大脑的不同要求,大脑会对符合图像特征的复杂信息进行筛选,从而整理出自己想要的信息。图像识别技术也是利用这个原理进行信息处理的,只不过图像识别技术是计算机程序上的控制,它的优点在于能够瞬间识别图像,面对大量的图像信息能够循环反复的进行识别,这是远远超出人脑识别的速度的。而想要进行图像识别技术识别的关键在于图像特征的输入,这是图像识别技术的关键点,一旦图像特征不够完整就会出现信息分类不详细的情况,甚至如果图像识别设备的特征采集不够精确那么就可能出现分类错误和识别错误的情况,图像识别技术在人工智能的此方面的表现还是具有一定的优化空间的。

相关主题
文本预览
相关文档 最新文档