当前位置:文档之家› 基于主动学习和半监督学习的多类图像分类

基于主动学习和半监督学习的多类图像分类

基于主动学习和半监督学习的多类图像分类
基于主动学习和半监督学习的多类图像分类

第37卷第8期自动化学报Vol.37,No.8 2011年8月ACTA AUTOMATICA SINICA August,2011

基于主动学习和半监督学习的多类图像分类

陈荣1曹永锋2孙洪1

摘要多数图像分类算法需要大量的训练样本对分类器模型进行训练.在实际应用中,对大量样本进行标注非常枯燥、耗时.对于一些特殊图像,如合成孔径雷达(Synthetic aperture radar,SAR)图像,对其内容判读非常困难,因此能够获得的标注样本数量非常有限.本文将基于最优标号和次优标号(Best vs second-best,BvSB)的主动学习和带约束条件的自学习(Constrained self-training,CST)引入到基于支持向量机(Support vector machine,SVM)分类器的图像分类算法中,提出了一种新的图像分类方法.通过BvSB主动学习去挖掘那些对当前分类器模型最有价值的样本进行人工标注,并借助CST半监督学习进一步利用样本集中大量的未标注样本,使得在花费较小标注代价情况下,能够获得良好的分类性能.将新方法与随机样本选择、基于熵的不确定性采样主动学习算法以及BvSB主动学习方法进行了性能比较.对3个光学图像集及1个SAR 图像集分类问题的实验结果显示,新方法能够有效地减少分类器训练时所需的人工标注样本的数量,并获得较高的准确率和较好的鲁棒性.

关键词主动学习,半监督学习,支持向量机,图像分类

DOI10.3724/SP.J.1004.2011.00954

Multi-class Image Classi?cation with Active Learning and

Semi-supervised Learning

CHEN Rong1CAO Yong-Feng2SUN Hong1

Abstract Most image classi?cation methods require adequate labeled training samples to train classi?er models.In real world applications,labelling samples are often very time consuming and expensive,especially for some special images, e.g.synthetic aperture radar(SAR)images.So the number of labeled samples is usually limited.In this study,we propose a novel image classi?cation method based on SVMs,incorporating best vs second-best(BvSB)active learning and constrained self-training(CST).In this method,BvSB active learning is used to explore examples that are the most valuable to current classi?er model for manual labelling.And CST is used to exploit useful information from examples that remain in the unlabeled dataset.With this new method,satisfying classi?cation performance can be achieved while the human labelling load is low.We demonstrate results on3optical image datasets and a SAR image dataset.The proposed method gives large reduction in the number of human labeled samples as compared with random selection,entropy based active learning and BvSB active learning to achieve similar classi?cation accuracy,and has little computational overhead and good robustness.

Key words Active learning,semi-supervised learning,support vector machines(SVM),image classi?cation

图像分类是图像处理中的一个非常重要的应用.大多数图像监督分类算法都是建立在统计模型的基础上,用户需要对大量图像样本进行人工标注,然后由带有类别标号的训练样本训练得到该模型.在

收稿日期2010-04-01录用日期2010-11-08

Manuscript received April1,2010;accepted November8,2010国家高技术研究发展计划(863计划)(2007AA12Z155),国家自然科学基金(40901207),测绘遥感信息工程国家重点实验室专项科研经费,中央高校基本科研业务费专项资金资助

Supported by National High Technology Research and Devel-opment Program of China(863Program)(2007AA12Z155),Na-tional Natural Science Foundation of China(40901207),Labo-ratory of Information Engineering in Surveying,Mapping and Remote Sensing(LIESMARS)Special Research Funding,and the Fundamental Research Funds for the Central Universities 1.武汉大学电子信息学院信号处理实验室武汉430079 2.贵州师范大学数学与计算机科学学院贵阳550001

1.Signal Processing Laboratory,Electronic Information School,Wuhan University,Wuhan430079

2.School of Math-ematics and Computer Science,Guizhou Normal University, Guiyang550001实际应用中,对大量图像进行标注是比较困难的[1].首先,对整个图像集进行标注需要耗费大量的时间,用户往往没有足够的耐性来完成整个样本集的标注;其次,对于某些比较复杂的图像,例如合成孔径雷达(Synthetic aperture radar,SAR)图像,普通用户对其内容进行判读是比较难的,通常需要借助同一场景的高分辨率光学遥感图像或者通过有经验的专家来完成.正是由于标注上的困难,使得在图像分类中能够获得的训练样本是比较有限的.然而,在小训练样本情况下,分类器的性能可能受到很大影响.如何对尽量少的样本进行人工标注,并获得较好的分类性能也成为图像分类中的一个关键问题.为了解决标注困难带来的有限样本情况下的分类问题,主动学习(Active learning)已经成为机器学习和模式识别领域的研究热点.在主动学习中,学习器不再是被动地接受由用户提供的训练样本,而是主动要求用

8期陈荣等:基于主动学习和半监督学习的多类图像分类955

户对那些对于当前分类器模型最有价值的样本进行标注,并将这些带有类别标号的样本添加到训练样本集,对分类模型进行重新训练.通过迭代的方式,对分类器模型进行更新.理论上的结果表明,在获得相似的分类准确率的情况下,主动样本选择相对于随机选择可以显著地减少所需的样本数[2].典型的主动学习图像分类框架如图1所示

.

图1典型的主动学习图像分类框架

Fig.1A typical framework of image classi?cation with

active learning

近年来,研究者对主动学习进行了大量的研究工作,也提出了很多主动学习方法.Tong等[3?4]在基于支持向量机(Support vector machines,SVMs)的分类和检索中,根据样本到当前SVM分类面的距离对样本进行采样(Margin sampling,MS),最靠近分类面的样本被认为是最具信息量的,在下一次迭代中选择最靠近当前分类面的样本添加到现有训练样本集中;基于委员会的采样(Query by com-mittee)[5?6]也是比较常用的主动学习方法,在这种方法中,采用多个学习器对样本的类别进行判断,选择那些分类结果最不一致的样本加入到当前的训练样本集;在基于熵的不确定性采样(Entropy based uncertainty sampling)方法中,首先计算样本属于每个可能的类别的概率,根据得到的概率计算每个样本的熵,熵越大表示该样本的分类不确定性越高,在每次迭代中选择那些具有最大熵的样本添加到当前训练样本集.此外,还有基于Fisher信息矩阵(Fisher information matrix)的主动学习方法[7]等.其中,MS方法是使用最广泛、具有较好性能的方法之一,但是该方法只适用于二类(Two-class)SVM 分类问题,对于多类(Multi-class)SVM分类问题,由于分类器是由多个二分类器联合而成,每个二分类器都有各自的分类面,这时,MS主动学习方法将不再适用.基于熵的主动学习方法虽然可以较好地用于多类分类问题中,但是当类别数量较多时,熵往往不能很好地代表样本的分类不确定性.鉴于这个问题,Joshi等提出了一种基于最优标号和次优标号(Best vs second-best,BvSB)的主动学习方法[8],该方法可以看成是MS主动学习方法在多类分类问题中的扩展,在多类分类问题中获得了较好的性能.为了尽可能地减少分类器训练过程中所需人工标注的数量,同时获得较好的分类性能,本文对半监督学习(Semi-supervised learning,SSL)中的自学习(Self-training)技术加以改进,提出一种带约束条件的自学习方法(Constrained self-training,CST),并且在BvSB主动学习方法的基础上,结合CST进一步对样本集里大量的未标注样本加以利用,从而进一步提高分类器的分类性能.最后,将包含BvSB主动学习和CST半监督学习的新方法(BvSB+CST),结合SVM分类器进行图像分类实验,并与BvSB、基于熵的主动学习以及随机选择等3种样本选择方法的性能进行了比较.通过对3个常用的光学图像集和1个SAR图像集上的分类结果进行分析,我们的新方法能够有效地减少在训练过程中所需的人工标注的负担,并取得较好的分类准确率.

1BvSB主动学习及带约束条件的自学习1.1BvSB主动学习

首先简单介绍基于熵的主动学习方法.设未标注样本集为U={x1,···,x n},Y={1,2,···}为所有可能的类别标号,在由当前已经获得的训练样本集训练得到的分类模型下,样本x i属于各个类别的概率为p(y i|x i),则基于熵的主动学习样本选择准则可以表示为

ENT?=arg max

x i∈U

?

y i∈Y

p(y i|x i)log p(y i|x i)(1)

熵越大的样本被认为是对于当前分类器来说分类结果最不确定,最具信息量的样本,用户对熵最大的这一部分样本进行人工标注,然后将其添加到现有的训练样本集,用更新后的训练样本集重新训练分类器模型.在多类分类问题中,熵往往不能很好地代表样本的不确定性.有些具有较小熵的样本的分类不确定性相对于有些熵稍大的样本可能更高,如图2所示.

从图2所示的例子可以看到,在图2(a)中,样本属于类别4和类别5的概率都比较高,并且比较接近,这说明分类器无法对该样本属于类别4或者类别5作出明确的判断,即该样本的分类不确定性较高,在图2(b)中,样本仅仅在类别4上具有较高的概率,这说明分类器对该样本的分类结果比较明确.通过计算图2(a)和图2(b)中两个样本的熵,结果却发现分类不确定性高的样本图(图2(a))的熵小于分类结果较确定的样本图(图2(b))的熵.上面的这个问题是由于在多类分类问题中,样本的熵会受到那些不重要的类别的影响(值较小的那些p(y i|x i)).Joshi等[8]提出了一种更为直接的主动

956自动化学报37卷

学习样本选择准则BvSB,在BvSB准则中只考虑

样本分类可能性最大的两个类别,忽略其他对该样

本的分类结果影响较小的类别.

(a)(b)

图2一个样本的分类不确定性与其对应的熵相背离的例子

(图中给出了在一个10类的分类问题中,两个未标注样本通

过当前分类器估计出的类别的概率分布)

Fig.2An illustration of why entropy can be a poor

estimate of classi?cation uncertainty(The plots show

estimated probability distributions for two unlabeled

samples in a10-class classi?cation problem.)

将样本x i的最优标号和次优标号的概率分别

记为p(y Best|x i)和p(y Second?Best|x i),该准则可以

表示如下:

BvSB?=arg min

x i∈U

(p(y Best|x i)?

p(y Second?Best|x i))(2)

作为对样本的分类不确定性估计的一种贪婪近

似,BvSB准则也可以从另外一个角度来进行解释.

我们以一对一(One-against-one)形式的SVM分

类器组为例,设C i,j(i,j∈Y)为区分第i类和第j

类之间的分类器.如果一个未标注样本x的真实

标号为l,那么一旦x经过标注,并加入训练样本

集,将会影响那些用来区分第l类和其他类的分类

器的分类面,我们将这些分类器记为C l={C(y,l)

|y∈Y,y=l}.由于并不知道x的真实标号,我

们只能用该样本的最优标号y Best作为对其真实标

号的估计,这样,样本x会影响的分类器为C y

Best

={C(y,y

Best )

|y∈Y,y=y Best},对于集合C y

Best

的每个分类器C(y,y

Best )

而言,x的分类不确定程度

可以通过它属于该二分类器的正负类别的概率差p y

Best

?p y来表示,这个差值可以作为x对于特定的

分类器C(y,y

Best )

所具有的信息量高低的一个度量指

标[8].通过最小化p y

Best ?p y,即最大化分类不确定

度,我们可以得到BvSB准则:

BvSB?=

arg min

x i∈U

min

y∈Y,y=y Best

(p(y Best|x)?p(y|x))

=

arg min

x i∈U

(p(y Best|x)?p(y Second?Best|x))(3)

从分类边界的改变这个角度来说,BvSB准则

是一个有效的度量来选择那些对分类器的分类边界

影响最大的样本.当分类问题的类别数量等于2时,

BvSB准则退化为MS准则.

1.2带约束条件的自学习

自学习是半监督学习中一个常用的技术.在自

学习中,首先由少量的已经人工标注过的样本训练

得到分类器,然后通过这个分类器对未标注样本的

标号进行判断.通常,

那些分类结果最确定的未标注

样本,连同它们对应的由分类器预测得到的类别标

号一起,加入到当前的训练样本集.用扩充后的训练

样本集重新训练分类器,对分类结果进行更新[9].典

型的自学习框架如图3所示.

图3自学习典型框架

Fig.3A typical framework of self-training

自学习方法在模式识别问题中已经得到广泛应

用,Rilo?等[10]用自学习方法来识别语言中的主观

名词,Rosenberg等[11]在图像的目标识别系统中采

用自学习,并证明了该半监督学习方法相对于现有

的其他检测方法具有更好的性能.

在自学习中,添加到训练样本集里的样本的标

号不是由用户进行人工标注,而是由当前的分类器

预测得到的.因此,如果预测得到的标号与样本的真

实类别标号不一致,即预测错误,那么该错误会在迭

代过程中不断积累加强.因此,如何尽量减少在自学

习中引入的标号错误,也成为算法设计中的一个重

要问题.

从直观上说,如果选择那些在当前分类器下分

类结果最明确的样本进行自学习,引入错误标号的

概率是最小的.但是从样本所包含的信息量这个角

8期陈荣等:基于主动学习和半监督学习的多类图像分类957

度来说,这些分类结果最明确的样本所包含的信息量是非常低的,对于当前分类面的影响极小.因此,将这些样本加入到训练样本集,对分类模型的影响很小,同时反而增加了分类器训练时的计算负担.

为了在样本的信息性和预测标号的准确性两者之间获得较好的平衡.我们在自学习的基础上,提出了带约束条件的自学习(CST).通过阈值的设置和空间位置关系这两个约束条件,来提高自学习选出的样本的预测标号的准确性.对于当前的每个未标注样本x u,具体如下:

1)计算x u属于各个类别的概率的最大值(最优标号的概率)

p(y Best|x u)=max

y i∈Y

p(y i|x u)

2)将训练样本集中所有由用户人工标注的样本子集记为S m,计算x u到S m中所有样本的距离,寻找x u的最近邻点NN(x u)=

arg min

x∈S m

dis(x,x u),并将该最近邻点的类别标号记为y nn

3)约束条件

阈值约束:

p(y Best|x u)≥threshold(4)其中,0≤threshold≤1为设置的阈值.

空间位置关系约束:

y Best=y nn(5)

4)设当前未标注样本集中满足约束条件(4)和

(5)的子集为S satis?ed,将S satis?ed中所有样本按照各自的最优标号的概率p(y Best|x u)进行排序,选择p(y Best|x u)最小的k个样本,连同其各自对应的最优预测标号y Best一起,加入到当前的训练样本集里.

从CST的具体步骤中可以看到,上面的两个约束条件保证了通过自学习添加到训练集里的样本标号具有较高的正确率,同时,在选择样本的时候,没有选择那些分类结果最确定的样本,因此使得选出的样本对于当前的分类模型也具有一定的信息量,在预测标号准确率和样本的信息量之间达到了一个较好的平衡.

2基于BvSB主动学习和CST半监督学习样本选择的SVM多类图像分类算法

2.1创新点及算法设计动机

考虑到构造训练样本集的标注负担,我们在算法设计时主要从两个方面出发:1)对于选出的用于人工标注的样本必须是对于当前的分类模型而言最具信息量的,以最大化人工标注的效率;2)对于剩余的大量未标注样本所包含的信息,在不增加人工标注负担的情况下,要进一步加以利用.

基于以上两点考虑,我们提出了一种基于BvSB +CST样本选择的SVM多类图像分类算法.其中, BvSB主动学习被用来寻找那些最具信息量的样本,提供给用户进行手工标注,CST半监督学习用来对样本集中剩下的未标注样本中分类结果相对较确定且具有一定信息量的一部分样本进行自动标注,进一步对训练样本集进行补充更新.

2.2算法具体步骤

在本文提出的图像分类算法中,主要包括初始样本选择及分类器模型训练、BvSB主动学习、CST 半监督学习、分类器模型更新等几个关键步骤.完整的算法框架如图4所示

.

图4BvSB+CST图像分类框图

Fig.4The framework of image classi?cation with

BvSB+CST

2.2.1初始样本选择及分类器模型训练

将训练样本集和未标注样本集分别记为L和U,在初始分类时,从U中随机选择K ini个样本,由用户对其进行人工标注,将该样本集合记为S ini.对训练样本集L和未标注样本集U进行更新:L=S ini, U→U\S ini.用训练集L训练SVM分类器,同时,对未标注样本集U中的样本的类别进行预测,并计算其属于各个类别的概率p(y i|x),y i∈Y,x∈U.

2.2.2BvSB主动学习

BvSB主动学习被用来寻找那些对当前分类模型最有价值的样本.根据前面得到的未标注样本属于各个类别的概率p(y i|x),通过BvSB度量准则从U中选出K BvSB个样本,记为S BvSB,由用户对S BvSB中的样本进行人工标注.

2.2.3CST半监督学习

除了通过BvSB主动学习选择那些最有价值的样本外,我们还通过CST半监督学习进一步挖掘剩下的未标注样本中的有用信息.首先,通过当前的分

958自动化学报37卷

类器,计算未标注样本集U中所有样本的最优标号的概率p(y Best|x),然后,计算U中样本在用户手工标注样本集S m的最近邻点,并记录其类别标号.对U中符合约束条件(4)和(5)的样本按照其最优标号的概率大小从小到大进行排列,选择前K CST个样本,记为S CST,将S CST中的样本的最优标号作为各自的类别标号.

2.2.4训练样本集及分类器模型更新

用新选出的样本对训练样本集和未标注样本集进行更新:L=L∪(S BvSB∪S CST),U→U\(S BvSB∪S CST).用更新后的训练样本集重新训练SVM分类器,对整个分类过程进行迭代.

3实验及相关分析

为了验证本文提出的基于BvSB+CST的图像分类算法的有效性和鲁棒性,我们分别在3个光学图像集和1个SAR图像集上进行分类实验,分别从测试集的总体分类准确率、每个类别各自的分类准确率、标注负担等3个方面对算法的性能进行评价,并将我们的方法与基于随机选择(Random)、基于熵的主动学习(Entropy based active learning)以及基于BvSB的主动学习(BvSB)这三种方法的性能进行比较.

采用LIBSVM[12]作为实验中SVM的实现. LIBSVM采用一对一的方式来处理多类分类问题,并且能够输出测试样本属于各个可能的类别的概率.

3.1标准光学图像集上的分类实验

3.1.1实验设置

我们从UCI数据库[13]中选择了3个比较适合进行分类的图像集来进行实验.其中包括英文字母数据集(Letters)、美国邮政手写体数字图像集(USPS),以及另外一个手写数字图像集(Pendig-its).3个光学图像数据集的基本情况如表1所示.

我们在每个图像集上进行了10次分类实验,实验的具体参数设置如表2所示.表2中各个参数具体含义如下:

K ini:初始随机选择训练样本数量;

K BvSB:每次迭代中通过BvSB主动学习选出的样本数量;

K CST:每次迭代中通过CST选出的样本数;

threshold:约束条件(4)中的阈值;

Kernel:SVM分类器中使用的核函数;

Max ite:最大迭代次数(初始样本选择作为第1次迭代).

表13个光学图像集的基本情况

Table1General information of3optical image datasets 类别数量特征维数

未标注样

测试集大小

本集大小

USPS10

256(通过PCA

60005000

降至65)

Pendigits101620005100 Letters26161000010000需要说明的是,在对实验中的参数设置时,我们保证了在该参数下,每次迭代中满足CST约束条件的未标注样本的数量大于等于K CST,使得CST能够顺利进行.

3.1.2分类准确率

我们对每个图像集上的分类准确率进行计算,得到分类准确率随迭代次数的变化曲线,并将10次实验得到的分类准确率变化曲线进行平均,得到一个统计上的平均准确率变化曲线,如图5所示.在图5中,x轴代表迭代次数,y轴代表分类准确率.通过对分类准确率变化曲线进行观察,在迭代初期,采用各种样本选择方法的分类性能相差不大,这是由于在迭代初期,训练样本的数量较少,训练得到的分类器不是很准确,在这种情况下,各种样本选择方法都近似于随机选择.随着迭代不断进行,BvSB+CST 的作用逐渐体现出来,采用该方法的分类性能要优于其他三种方法.当迭代次数相同时(固定x轴),采用BvSB+CST方法可以获得最高的分类准确率.由于我们在每次迭代中,各种不同的方法所需的人工标注的数量都是相同的,这说明在相同的人工标注负担的情况下,BvSB+CST方法相对于其他方法能够有效地提高分类准确率.当获得相同的分类准确率时(固定y轴),BvSB+CST方法所需的迭代次数最少,说明获得相同的分类准确率时,该方法所需的人工标注数量更少.需注意的是,在USPS

表2实验设置

Table2Experimental setup

K ini K BvSB K CST threshold Kernel Max ite USPS1005100.7RBF(γ=0.01)51 Pendigits505150.6RBF(γ=0.0001)51 Letters26010100.6RBF(γ=0.05)101

8期陈荣等:基于主动学习和半监督学习的多类图像分类959

和Letters 两个数据集上,基于熵的主动学习和随机选择的性能差别不大,这说明在这两个数据集上,熵并不能很好地代表样本的分类不确定性,这也从实验上说明了第1.1节中提出的问题.在3个数据集上,采用BvSB +CST 方法的分类准确率都要高于采用BvSB 主动学习方法的分类准确率,这说明CST 中选出的样本经过自动标注,加入到训练样本集之后能够较有效地提高分类器的分类性能.在Letters 数据集上,BvSB +CST 相对于BvSB 方法在分类准确率上提高不大,这说明在该数据集上,那些符合CST 中的约束条件的样本包含的信息量相对比较有限,对分类器的性能提升并不大.

图6~8分别给出了在3个数据集上,经过实验中设置的最大迭代次数后,采用本文提出的BvSB +CST 样本选择方法和其他3种方法在各个类别上分类准确率的比较.图中的柱状代表采用BvSB +CST 方法与各种对比方法在各个类别上的分类准确率的差,正数代表BvSB +CST 在该类别上的分类准确率高于该对比方法.从图中可以看到,BvSB +CST 方法相对于其他三种方法在绝大多数类别上的分类准确率都有一定程度的提高.其中,BvSB +CST 相对于Random 和Entropy 两种方法的性能提升幅度较大,相对于BvSB 方法的性能提升相

对较小.这说明在BvSB +CST 方法中,BvSB 主动学习能够有效地选择那些最具信息量、对当前的分类器最优价值的样本,而CST 半监督学习选出的样本所包含的信息量相对较小,但由于CST 选出的样本是自动标注的,没有增加人工标注负担,因此CST 仍然可以认为是有用的.

3.1.3人工标注负担

为了说明BvSB +CST 方法在减少人工标注负担上所起的作用,我们分别比较了在达到相同的分类准确率时,各种方法所需的迭代次数.表3给出了对USPS 数据集的分类实验中,采用各种不同的样本选择方法达到相同的分类准确率时所需的迭代次数.我们以BvSB +CST 方法作为基准进行比较,例如,采用BvSB +CST 方法迭代14次所能达到的分类准确率,采用Random 方法需要迭代39次,采用Entropy 方法需要迭代36次,采用BvSB 方法需要迭代20次才能获得.表3中的“?”表示该方法即使达到实验中设定的最大迭代次数时,仍不能达到相应的分类准确率.

3.1.4关键参数t h r e s h o l d 对分类性能的影响

在BvSB +CST 方法中,包含一个重要的参数threshold .它控制着在CST 中用来自动标注的样本

(a)USPS (b)Pendigits (c)Letters

图5

分类准确率

Fig.5

Classi?cation accuracies on USPS,Pendigits,and Letters datasets

(a)BvSB +CST 与Random 性能比较

(a)BvSB +CST vs.Random

(b)BvSB +CST 与Entropy 性能比较

(b)BvSB +CST vs.Entropy

(c)BvSB +CST 与BvSB 性能比较

(c)BvSB +CST vs.BvSB

图6BvSB +CST 方法与其他三种方法在USPS 图像集各个类别上的分类准确率比较Fig.6

Classi?cation accuracy comparison for each class in USPS dataset

960自动化学报37卷

(a)BvSB +CST 与Random 性能比较

(a)BvSB +CST vs.Random

(b)BvSB +CST 与Entropy 性能比较

(b)BvSB +CST vs.Entropy

(c)BvSB +CST 与BvSB 性能比较

(c)BvSB +CST vs.BvSB

图7BvSB +CST 方法与其他三种方法在Pendigits 图像集各个类别上的分类准确率比较Fig.7

Classi?cation accuracy comparison for each class in Pendigits dataset

(a)BvSB +CST 与Random 性能比较

(a)BvSB +CST vs.Random

(b)BvSB +CST 与Entropy 性能比较

(b)BvSB +CST vs.Entropy

(c)BvSB +CST 与BvSB 性能比较

(c)BvSB +CST vs.BvSB

图8BvSB +CST 方法与其他三种方法在Letters 图像集各个类别上的分类准确率比较Fig.8

Classi?cation accuracy comparison for each class in Letters dataset

表3在USPS 数据集上,各种不同的样本选择方法在达到相同分类准确率所需的标注负担Table 3The numbers of iteration rounds required of di?erent methods when achieving

the same classi?cation accuracy on USPS dataset

BvSB +CST selection rounds

Random selection rounds

Entropy selection rounds

BvSB selection rounds

4665611127817231210242613123131171648432418

?

51

27

的选择,同时也影响着整个分类系统的性能.在前面我们已经定性地讨论了threshold 的设置问题,threshold 的值过小,会使得对未标注样本进行自动标注的时候引入过多的错误标号,从而对分类器模型的更新产生误导;threshold 的值过大,会使得经过自动标注的样本所包含的信息量很低,对分类器模型的更新作用很小.我们通过实验来说明上述分析的有效性.在USPS 数据集上分别取threshold =0.2~0.8,并计算各种不同的参数值下经过51次迭代后系统的分类准确率,如图9所示.

从图9可以看出,当threshold 由小变大,BvSB +CST 方法的分类准确率随着threshold 的变化

8期陈荣等:基于主动学习和半监督学习的多类图像分类961

曲线是先上升后下降的.在threshold 小于0.7时,分类准确率随着threshold 的增大而提高,在threshold =0.7的时候,分类准确率达到最大值,之后随着threshold 的增大,分类准确率开始下降.实验结果证明了前面分析的准确性,也说明我们在USPS 数据集上设置threshold =0.7是合理的.依照上面的分析,我们对其他几个图像集的分类实验中的threshold 进行设置,并根据各个图像集的复杂程度不同进行相应的调整,对于较复杂的图像集,适当降低threshold .

图9不同threshold 值下,BvSB +CST 方法的

分类准确率Fig.9

Classi?cation accuracy of BvSB +CST with

di?erent values of threshold

3.2SAR 图像集分类实验

我们从TerraSAR-X 拍摄的中国广东地区的SAR 图像中,截取了8类地物样本,包括Forest,Hill,Industrial area,Land,Pool,Residential area,River,Woodland,其中每类地物包含160幅样本图像,每张图像的大小为64像素×64像素,16位raw 格式.我们将原始的16位图像量化到8位,用长度为256的灰度直方图作为图像特征.从每类图像中挑选50%作为测试集(共80×8=640幅),剩下的50%作为待选的未标注样本集.图10给出了图像集中各个类别所包含的部分典型样本.

在实验中,我们在初始样本选择时选择16个样本进行训练,在之后的每次迭代中,通过BvSB 主动学习选择5个样本由用户进行人工标注,通过CST 选择10个样本并对其进行自动标注,其中CST 约束条件(4)中的阈值threshold 设置为0.5,SVM 分类器采用RBF 核函数(γ=128),最大迭代次数Max ite =31.

图11给出了在SAR 图像集上的分类结果,在绝大多数迭代次数中,采用BvSB +CST 方法的分类性能都要高于其他的几种方法.经过5次迭代以

后,分类性能得到明显提升.在经过15次迭代以后,采用BvSB +CST 方法的分类准确率随迭代次数变化较为平坦,说明这时训练样本集中的样本已经比较充分,能较好地代表样本在特征空间中的分布,在之后的迭代中新添加的训练样本对分类器模型几乎没有影响.我们将整个未标注样本集(640个样本)连同其对应的真实类别标号,作为训练样本训练分类器,在测试集上得到的分类准确率为71.25%.采用我们的方法在第15次迭代时,在测试集上的分类准确率为71.22%,所需的人工标注样本数量为86,仅占整个未标注样本集的13.44%,说明采用我们的方法可以很快收敛到一个较好的性能.

图10SAR 图像集中的典型样本

Fig.10

Examples in SAR image dataset

图11

SAR 图像集上分类准确率

Fig.11

Classi?cation accuracies on SAR image dataset

962自动化学报37卷

4结论

本文提出了一种基于BvSB+CST样本选择和SVM分类器的图像分类算法.在该方法中,通过BvSB主动学习将对当前分类器最具信息量、最有价值的样本选出来,提交给用户进行人工标注;同时,利用CST半监督学习,从剩余的大量未标注样本中,选择一部分兼具信息性和分类确信度的样本,由当前分类器进行自动标注,有效地提高了图像分类问题中训练样本选择的效率,减少了训练分类器的过程中所需要的人工标注量.在3个光学图像数据集和1个SAR图像数据集上的分类实验结果表明,新算法能够有效地减少训练过程中的人工标注负担,并获得较好的分类性能.

在CST的约束条件(4)中,阈值的确定是通过经验选取,可能并不是最优的,如何根据数据集及当前分类模型来对该阈值进行自适应地调整是下一步工作中需要考虑的重要问题.此外,约束条件(5)中,最近邻点的计算是在欧氏空间完成的,在一些复杂的数据分布下,欧氏距离往往不能够准确地描述样本之间的相似关系,将流形(Manifold)等非线性空间映射引入来更准确地刻画样本之间的相似关系也是今后工作中的一个重要方向.

References

1Settles B.Active Learning Literature Survey,Computer Science Technical Report1648,University of Wisconsin-Madison,USA,2009.3?4

2Dasgupta S.Coarse sample complexity bounds for active learning.Advances in Neural Information Processing Sys-tems.Cambridge:The MIT Press,2006.235?242

3Tong S,Chang E.Support vector machine active learning for image retrieval.In:Proceedings of the9th ACM Inter-national Conference on Multimedia.New York,USA:ACM, 2001.107?118

4Tong S,Koller D.Support vector machine active learning with applications to text classi?cation.The Journal of Ma-chine Learning Research,2002,2:45?66

5Seung H S,Opper M,Sompolinsky H.Query by commit-tee.In:Proceedings of the5th Annual Workshop on Com-putational Learning Theory.New York,USA:ACM,1992.

287?294

6Dagan I,Engelson S https://www.doczj.com/doc/c416858936.html,mittee-based sampling for train-ing probabilistic classi?ers.In:Proceedings of the12th International Conference on Machine Learning.California, USA:Morgan Kaufmann,1995.150?157

7Hoi S C H,Jin R,Lyu M R.Batch mode active learning with applications to text categorization and image retrieval.

IEEE Transactions on Knowledge and Data Engineering, 2009,21(9):1233?1248

8Joshi A J,Porikli F,Papanikolopoulos N.Multi-class ac-tive learning for image classi?cation.In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recog-nition.Miami,USA:IEEE,2009.2372?2379

9Zhu X J.Semi-supervised Learning Literature Survey, Computer Sciences Technical Report1530,University of Wisconsin-Madison,USA,2008.11?13

10Rilo?E,Wiebe J,Wilson T.Learning subjective nouns using extraction pattern bootstrapping.In:Proceedings of the7th Conference on Natural Language Learning.

Stroudsburg,USA:Association for Computational Linguis-tics,2003.25?32

11Rosenberg C,Hebert M,Schneiderman H.Semi-supervised self-training of object detection models.In:Proceedings of the7th IEEE Workshop on Applications of Computer Vi-sion.Breckenridge,USA:IEEE,2005.29?36

12Chang C C,Lin C J.LIBSVM:a library for support vector machines[Online],available:https://www.doczj.com/doc/c416858936.html,.tw/~cjlin/libsvm/,December1,2009

13Asuncion A,Newman D J.UCI machine learning repository [Online],available:https://www.doczj.com/doc/c416858936.html,/ml/datasets.

html,January10,2010

陈荣武汉大学电子信息学院博士研

究生.主要研究方向为图像处理,模式识

别和机器学习.

E-mail:chenrong0707@https://www.doczj.com/doc/c416858936.html,

(CHEN Rong Ph.D.candidate at

the Signal Processing Laboratory,Elec-

tronic Information School,Wuhan Uni-

versity.His research interest covers im-age processing,pattern recognition,and machine learning.)

曹永锋贵州师范大学数学与计算机科

学学院副教授.主要研究方向为图像处

理和模式识别.

E-mail:yongfengcao.cyf@https://www.doczj.com/doc/c416858936.html,

(CAO Yong-Feng Associate pro-

fessor at the School of Mathematics

and Computer Science,Guizhou Nor-

mal University.His research interest covers image processing and pattern recognition.)

孙洪武汉大学电子信息学院教授.主

要研究方向为信号与图像处理.本文通

信作者.E-mail:hongsun@https://www.doczj.com/doc/c416858936.html,

(SUN Hong Professor at the Elec-

tronic Information School,Wuhan Uni-

versity.Her research interest covers sig-

nal and image processing.Correspond-

ing author of this paper.)

8.1.2图像的分辨率,图像的颜色深度

池河中学2017-2018学年度第一学期教学设计 年级8年级 科 目信息 技术 任课教师李瑞峰授课时间 1 课题图像的分辨率,图像的颜色深度授课类型新授 课标依据学习应用技能 ,提高信息素养,培养创新能力 《图像的分辨率,图像的颜色深度》属于初中信息技术课程第1章图形图像初步知识中的重要内容,本节课选用的教材是人民教育出版社出版的:《信息技术》八年级上册中的二节。主要是帮助学生掌握一些基本的概念,教会学生理解图像参数的方法。 教学目标知识与 技能 理解和掌握图像的分辨率,图像的颜色深度概念,并能理解二者对图像的影响。 过程与 方法 通过自学和讲解二个参数的特点,理解它们之间的联系与区别。 情感态 度与价 值观 激发并保持利用信息技术不断学习和探索的热情,形成积极主动地学习和使用信息技术、参与信息技术的 活动。 教学重点难点教学 重点 全面掌握图像的分辨率,图像的颜色深度概念。 编号:8.1.2

教学 难点 掌握图像的颜色深度。 教学过程设计 师生活动设计意图回想上节课的内容,我们学习了位图和矢量图, 在学习过程中我们也提到了像素,分辨率等概念, 今天我们要加深这几个概念的了解。 在照像机的参数中。像素是描述的数码相机的 主要参数,引出分辨率的概念。 任务一,阅读自学课本第二课,初步了解像素 和深度概念。 布置探究任务二,按课本要求查看图像素材文 件像素、存储容量、颜色位数。查看过程中理解分 辨率和文件大小及像素等概念。 发放相关知识材料教师对照讲解让学生理解分 辨率和像素的关系。 阶段性小结。图像分辨率则是单位英寸中所包 含的像素点数,辨率是图片清晰程度的标志。 显示分辨率与图像分辨率两个方向来分类 利用电脑的显示属性设置来自主探究“位深度” 的概念。 任务三,动手调整计算机的显示参数 教师提示:右键,分辨率,高级设置 阶段性小结 复习巩固旧 知识,引出 新知识。 以任务为驱 动开展教学 激发学生兴 趣;引导学 生发现问 题,并学会 分析问题。 学生动手进行 操作,在操作 中体会理解概 念

深度图像的二值化

深度图像的二值化

————————————————————————————————作者: ————————————————————————————————日期:

3.2 深度图像二值化 图像二值化是图像处理中的一项基本技术,也是很多图像处理技术的预处理过程。在颗粒分析、模式识别技术、光学字符识别(OCR)、医学数据可视化中的切片配准等应用中,图像二值化是它们进行数据预处理的重要技术。由于图像二值化过程将会损失原图像的许多有用信息,因此在进行二值化预处理过程中,能否保留原图的主要特征非常关键。在不同的应用中,图像二值化时阈值的选择是不同的。因此,自适应图像阈值的选取方法非常值得研究。研究者对图像二值化方法进行了讨论,在此基础上提出了一个新的图像二值化算法。该算法基于数学形态学理论,较好地保留了图像二值化时原图的边缘特征。本文主要研究二值化及灰度图像二值化方法。 3.2.1.灰度图像与二值图像 数字图像是将连续的模拟图像经过离散化处理后得到的计算机能够辨识的点阵图像。在严格意义上讲,数字图像是经过等距离矩形网格采样,对幅度进行等间隔量化的二维函数。因此,数字图像实际上就是被量化的二维采样数组。一幅数字图像都是由若干个数据点组成的,每个数据点称为像素(pixel)。比如一幅256×400,就是指该图像是由水平方向上256列像素和垂直方向上400行像素组成的矩形图。每一个像素具有自己的属性,如颜色(color)、灰度(grayscale)等,颜色和灰度是决定一幅图像表现里的关键因素。数字图像又可分为彩色图像、灰度图像、二值图像。 3.2.1.1彩色图像 彩色图像是多光谱图像的一种特殊情况,对应于人类视觉的三基色即红(R)、绿(G)、蓝(B)三个波段,是对人眼的光谱量化性质的近似。彩色图像中的每个像素的颜色有R、G、B三个分量决定,而每个分量有255种值可取,这样一个像素点可以有1600多万的颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像,一个像素点的变化范围为255种。图1-1为彩色图像。

基于深度的图像修复实验分析报告

基于深度的图像修复实验报告

————————————————————————————————作者:————————————————————————————————日期: 2

基于深度的图像修复 一.实验目的 1、学会单幅图像的修补 2、学会结合彩色图像和深度图像的图像修补 二.实验原理 1图像修补简介----单幅图像修补 图像中常有缺失或者损坏的部分,即空白区域或者有误的区域。图像修补就是根据这些区域周围的信息完成对空白区域的填充,以实现图像的恢复。 基本方法 图像修补的基本方法示例

示例方法2 选取空白点周围的一片区域,对区域内的参考点进行加权求和,其结果用于对空白点的修补。若所选窗口太小,即窗口中无参考点,则将窗口扩大。 2图像修补简介----利用深度图的图像修补 1图像的前景与背景

实际场景中存在前景与背景的区别,前景会遮挡背景,而且前景与背景往往差距比较大。 2深度图 用于表示3D空间中的点与成像平面距离的灰度图。0~255表示,灰度值越大,表示场景距离成像平面越近,反之,灰度值越小,表示场景距离成像平面越远。 前景的灰度值大,背景的灰度值小。 如下左彩色图,右深度图 3普通的图像修补区分不了图像的前景和背景,简单的加权求和填补空白点的方法会导致前景和背景的混杂。引入深度图之后,可以利用深度图区分图像的前景和背景,在对背景进行修补的时候,可以利用深度图滤除那些前景参考点的影响,从而使背景的空白点只由背景点加权求和得到,前景亦然。

三.实验步骤 1读入一个像素点,判断其是否为空白点。 2若不是空白点,则跳过该点,判断下一个点。 3若该点是空白点,则用前面所述的方法进行加权修补。 4对图像中的每一个点都进行如此处理,直至全图处理完毕,则图像修补完成。 四.实验要求 1独立编码完成实验单幅图像修补利用深度图的图像修补。 2 比较实验结果的差别,并分析原因,完成实验报告。 五.用MATLAB编写实验代码 对于单幅图像以及结合深度图像的修补,其实区别就是是否考虑了深度图像的灰度权重(其实就是0和1),虽然效果图区别很小,但是通过深度图还是可以反映出其立体三维空间的。为了能较好的对比,我把两种方法的比较融合在一条件语句中,在下面的深度图像代码中用红色字体标注。同时深度图像变量用绿色字体标注。

用于图像分类的浅层结构深度学习方法

用于图像分类的浅层结构深度学习方法Asma ElAdel?, Ridha Ejbali?, Mourad Zaied?and Chokri Ben Amar? ?REsearch Group in Intelligent Machines, National School of Engineers of sfax, B.P 1173, Sfax, Tunisia Email: {asma.eladel, ridha ejbali, mourad.zaied and chokri.benamar}@https://www.doczj.com/doc/c416858936.html, 摘要——本论文介绍了一种新的图像分类方案。该方案提出了一种用于深度学习的卷积神经网络(CNN):利用多分辨率分析法(MRA)计算每一张用于分类的图像在不同的抽象层次中输入层与隐层之间的连接权值。然后,利用Adaboost 算法选择出能代表每一类图像的最佳的特征和对应的权值。这些权值将作为隐层与输入层之间的连接权值,并且在测试阶段用于对所给的图像的分类。所提出的方法在不同的数据集上进行了测试,所获得的结果证明了该方法具有较好的效率和较快的速度。 关键词:多分辨率分析,Adaboost,深度学习,小波,图像分类 一、介绍 图像分类是计算机视角中最具挑战性的问题之一,特别是在类别数量巨大的情况下。有许多解决这个问题的方法,例如小波相关向量机(WRVM)[1],分别应用于不同类别对象上,以形成每个对象独立特征空间的独立主成分分析法[2],全局显著和局部差异相结合的不寻常特征编码法[3],以及用来学习可述性视觉词袋(BOW)表现的正则化矩阵分解法[4]。 另外一种最近提出的方法介绍了旨在学习图像层次表示的深度学习的方法。在这种方法中,为了理解数据的意义,图像可以看作是由一些非线性特征经过多层次的抽象而形成的。高层次的特征是从低层次特征中得到的,并以此形成层次化表示[5] [6] [7]。这类方法的基础是利用了机器学习的不同结构。 这种结构的其中一种是前馈结构,前馈结构中多层神经网络和卷积网络在图像分类[8] [9] [10] [11],目标识别[12],人脸识别[13]和语音识别[14]等分类任务中都取得了良好的效果。这些网络的设计,分类,自动推断和学习能力都引起了人们的注意。但是到目前为止,它们的训练仍然需要大量的计算,同时还要选择适当的方法以防止过拟合现象。另外一个不足是特征变换阶段的次数是随机确定的,也就是说网络层次的数量和大小影响了抽象过程的数量。而且,分类仅仅是在最后的抽象层上对特征进行选择而完成。 此外,我们还要知道每一个抽象层次中更多的重要细节(也即特征),以减少分类阶段的复杂性。 在此背景下,Y.Zou等人[15]通过模拟影像中的固定点提出了一种显著特征的深度学习方法。另外,Weston等人[16]提出一种用于图像分类的非线性半监督的嵌入算法,称为嵌入式卷积神经网(Embed CNN)。以及,Xu[17]创新地提出了一种称为空间金字塔深层神经网络(SPDNN)的半监督分类方法,这是基于一个新的深层结构集成神经网络和空间金字塔模型。 在本文中,我们得到了两个具体的成果:首先,我们提出了一种改进的前馈深层结构。我们称之为基于二元多分辨率分析的改进型前馈卷积神经网络[18] [19] [20]。这种方法在不同的抽象层次中使用快速小波变换(FWT)[21]。这一

深度图像的平面分割算法

深度图像的平面分割算法 王恒1,赵亮 摘 要: 三维激光扫描系统使用深度图像来重建城市建筑模型,现有激光点云数据处理系统程序直接 进行海量点云数据建模较为困难。因为实际模型往往含有复杂表面几何特征,如果利用深度图像直接进 行拟合,则会造成建筑模型的数学表示和拟合算法处理的难度加大,甚至无法使用数学表达式描述三维 模型。 深度图像拟合或深度图像分割,是将具有相同几何特征的点云数据划分同一个区域并进行曲面拟合。深度图像分割主要有两种方法:一种是基于边缘分割的方法,另一种基于区域生长的方法。由于深度图像获取方式的特点,其点云数据往往不连续含有较多的噪声。使用基于边缘分割算法,仅当所处理点云数据具有连续性并且噪声点比较少的情况下,方能有效实现边界点分割。因此深度图像的分割方法也较多的集中在基于区域的分割方法。利用高斯曲率和平均曲率及方向将点附近的曲面类型分为8种,对数据点进行初步分类,从初步分类的点集中找一个合适的生长点,用二次多项式函数来进行区域生长,实现了深度图像数据的分块与曲面拟合。本文提出的算法利用了建筑物包含大量平面的特点,将分割问题具体到了平面分割,从而避免了低精度估计高斯曲率和复杂的二次曲面拟合,完成了一种高效简洁的算法用来识别深度图像的平面特征。该算法借鉴了数字图像处理方法首先平面拟合邻近n*n区域的点集,计算出邻域点集的协方差矩阵及其特征值和特征向量;如果绝对值最小特征值小于阈值,则可以认为该点的局部平面拟合成功;最小特征值对应的特征向量为局部法向量。接着从左到右沿扫描线遍历深度图像中的每个坐标点,按照聚类分析的原则对该点和其上方、右上方、右方的三个坐标点的法向量按照具有相同方向和同处一个平面的两个相似度准则进行比对,来获得两个局部平面是否同处一个平面。本文提出的算法将深度图像分割成为若干个集合,每个集合的任意点都同处一个平面。本文根据深度图像的数据特征给出了合理高效的数据结构和算法,并以图例说明深度图像平面分割算法的有效性。 关键词:点云数据;深度图像;平面分割

深度图像的二值化

3.2 深度图像二值化 图像二值化是图像处理中的一项基本技术,也是很多图像处理技术的预处理过程。在颗粒分析、模式识别技术、光学字符识别(OCR)、医学数据可视化中的切片配准等应用中,图像二值化是它们进行数据预处理的重要技术。由于图像二值化过程将会损失原图像的许多有用信息,因此在进行二值化预处理过程中,能否保留原图的主要特征非常关键。在不同的应用中,图像二值化时阈值的选择是不同的。因此,自适应图像阈值的选取方法非常值得研究。研究者对图像二值化方法进行了讨论,在此基础上提出了一个新的图像二值化算法。该算法基于数学形态学理论,较好地保留了图像二值化时原图的边缘特征。本文主要研究二值化及灰度图像二值化方法。 3.2.1.灰度图像与二值图像 数字图像是将连续的模拟图像经过离散化处理后得到的计算机能够辨识的点阵 图像。在严格意义上讲,数字图像是经过等距离矩形网格采样,对幅度进行等间隔量化的二维函数。因此,数字图像实际上就是被量化的二维采样数组。一幅数字图像都是由若干个数据点组成的,每个数据点称为像素(pixel)。比如一幅 256×400,就是指该图像是由水平方向上256列像素和垂直方向上400行像素组成的矩形图。每一个像素具有自己的属性,如颜色(color)、灰度(grayscale)等,颜 色和灰度是决定一幅图像表现里的关键因素。数字图像又可分为彩色图像、灰度图像、二值图像。 3.2.1.1彩色图像 彩色图像是多光谱图像的一种特殊情况,对应于人类视觉的三基色即红(R)、绿(G)、蓝(B)三个波段,是对人眼的光谱量化性质的近似。彩色图像中的 每个像素的颜色有R、G、B三个分量决定,而每个分量有255种值可取,这样一个像素点可以有1600多万的颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像,一个像素点的变化范围为255种。图1-1为彩色图像。

基于深度图像技术的手势识别方法

基于深度图像技术的手势识别方法 曹雏清,李瑞峰,赵立军 (哈尔滨工业大学机器人技术与系统国家重点实验室,哈尔滨 150001) 摘 要:针对复杂环境下的手势识别问题,提出一种基于深度图像技术的手势识别方法。利用深度图像信息从复杂环境中提取手势区域,综合手势的表观特征,建立决策树实现手势的识别。对常见的9种手势在复杂背景条件下进行测试,实验结果表明,手势的平均识别率可达到98.4%,速度达到每秒25帧。 关键词:手势识别;深度图像;表观特征;复杂背景;决策树 Hand Posture Recognition Method Based on Depth Image Technoloy CAO Chu-qing, LI Rui-feng, ZHAO Li-jun (State Key Laboratory of Robotics and System, Harbin Institute of Technology, Harbin 150001, China) 【Abstract 】Aiming at the problem of hand posture recognition from complex backgrounds, this paper proposes a hand posture recognition method based on depth image technoloy. The hand posture region is extracted from complex background via depth image. Appearance features are integrated to build the decision tree for hand posture recognition. Nine common postures with complex background are tested. Experimental results demonstrate that recognition rate is 98.4% and speed rate achieves 25 frames per second. 【Key words 】hand posture recognition; depth image; appearance feature; complex background; decision tree DOI: 10.3969/j.issn.1000-3428.2012.08.006 计 算 机 工 程 Computer Engineering 第38卷 第 8期 V ol.38 No.8 2012年4月 April 2012 ·博士论文· 文章编号:1000—3428(2012)08—0016—03文献标识码:A 中图分类号:TP391 1 概述 随着机器人技术的发展,智能服务机器人开始逐步融入人类的生活,人机交互技术的发展是智能服务机器人研究的重要组成部分。人机交互的研究方向主要有表情、声音和手势识别技术。其中,手势是一种自然直观的人机交流模式,在信息表达上比表情更明确、信息量更丰富。 在人机交互中,基于视觉的手势识别是实现新一代人机交互的关键技术。基于视觉的手势识别通过图像信息,让机器人获取人的手势姿态信息,对不同的手势信息进行分类。近年来,学者们对基于视觉的手势识别进行研究,文献[1]提出特征空间匹配法,文献[2]采用提取同类手势的SIFT 特征方法进行手势识别,文献[3]提出手势图解析分类法,文献[4]针对复杂背景采用空间分布特征对手势进行识别。 复杂背景下手势识别的研究[4-5]一般使用肤色模型实现手势区域分割,虽然可以区分肤色和非肤色区域,但是实际应用中图像都包含有肢体和面部肤色区域,它们对手势区域提取有着较大的影响,同时光线也直接影响肤色模型。现有的文献中并没有考虑强光和弱光环境下的手势识别情况,在实际应用中往往伴随光线的变化问题,这些问题都直接影响了人机交互的实际效果。本文提出一种基于深度图像技术的手势识别方法,从深度图像信息中提取手势区域,运用几何方法提取手势表观特征并分类,从而实现复杂环境下基于手势的人机交互。 2 2.1 手势识别系统 基于深度图像信息的手势识别系统框架如图1所示。深度图像的采集采用非接触测量方式,获取的场景中深度信息不受物体自身的颜色、纹理特征以及背景环境光线强弱的影响。本文选用微软公司的Kinect 进行深度图像的采集,获取 深度信息值,转换到灰度值图像,经过手势区域分割、特征提取、手势识别,转换为手势信息,提供人机交互使用。 图1 面向人机交互的手势识别框架 2.2 手势区域分割 2.2.1 深度图像成像原理 深度图像技术在近年来逐步得到广泛的关注,Kinect 采集640×480像素的深度图像速度可以达到30 f/s ,深度的分辨率在5 mm 左右。本文把Kinect 采集到的场景深度值转换到灰度值空间,实际场景的RGB 图像如图2所示。在深度图像中像素点灰度值的大小对应于场景中点的不同深度值,如图3所示,图像中的灰度值越大,表明该区域距离深度摄像头的距离越近。 图2 场景RGB 图像 图3 深度图像 基金项目:国家自然科学基金资助项目(61075081);机器人技术与 系统国家重点实验室课题基金资助项目(SKLRS200802A02) 作者简介:曹雏清(1982-),男,博士研究生,主研方向:模式识 别,人机交互;李瑞峰,教授、博士生导师;赵立军,讲师 收稿日期:2011-07-11 E-mail :caochuqing@https://www.doczj.com/doc/c416858936.html,

基于深度图像技术的手势识别方法

龙源期刊网 https://www.doczj.com/doc/c416858936.html, 基于深度图像技术的手势识别方法 作者:付学娜 来源:《电子技术与软件工程》2015年第04期 所谓手势是指人手或手臂同人手结合而产生的动作或姿势,作为人机交互的一项重要技术,手势识别通过在人手安置相关的硬件设备,并通过硬件设备中的计算模块对人手的位置和速度等信息进行获取,对于识别过程中的定位和跟踪均都具有良好的指导和保障作用。本文通过对手势识别系统与深度图像的成像原理进行阐述,进而结合手势区域分割的相关理论,对基于深度图像技术的手势识别方法展开了深入研究。 【关键词】深度图像技术手势识别圆形轨迹像素值变化点 随着科技的不断发展,基于视觉的手势识别已成为新一代人机交互中的核心技术。在借助相关图像信息的基础上,计算机可以对人手的各种姿态信息以及不同的手势信息尽心准确识别,有效提高了识别的速度与质量。本文以基于深度图像技术的手势识别作为研究对象,通过对手势识别系统及深度图像成像原理进行分析,从手势区域分割以及手势特征提取两方面出发,对深度图像技术下手势识别的方法做出了详细分析。 1 手势识别系统与深度图像成像原理 基于深度图像技术的手势识别系统主要包括了手势、深度图像、手势区域分割、手势特征提取以及手势识别和人机交互等,深度图像以非接触测量的方式对场景中的深度信息进行采集,而所采集的深度信息具有较强的稳定性和可靠性,即不受物体(人手)自身颜色、背景环境和纹理特征等因素的影响。本文以微软的Kinect作为图像采集和获取深度信息的工具,进而对手势识别展开分析。 基于Kinect下的深度图像技术下所采集的640×480深度图像信息的速度可达30f/s,且信息的分辨率维持在5mm左右,在应用方面具有较强的合理性。通过在相关场景采集的场景深度值进行转换,使其转移到灰度值空间,并使深度图像中所有的像素点灰度值大小与实际场景中不同的深度值相对应,进而显示成像。值得注意的是品拍摄区域与深度摄像头之间的距离与图像中的灰度值呈现出明显的负相关关系,即灰度值越大,距离越近。 2 基于深度图像技术的手势识别 2.1 手势区域分割 虽然具有相同深度的像素点,其在深度图像中所具有的灰度值也具有较高的一致性,但由于在每次对人手手势进行拍摄时,人手同深度摄像头间的距离存在差异。因此,无法利用单一的固定阈值对手势区域进行分割,故本文以灰度值直方图作为主要研究方法,进而确定出相关背景及手势区域分割的阈值。由于人手做出相关姿势的区域距离深度摄像头较近,且相对于整

利用深度学习进行场景分类

? 25 ? ELECTRONICS WORLD?探索与观察 利用深度学习进行场景分类 浙江省杭州学军中学 赵熠杰【摘要】近些年来,随着社交网络的发展,互联网中的图像数据也越来越多。使用机器学习以及深度学习进行场景分类取得了一系列的进展,同时大量的场景分类的数据集公开出来,为我们提供了非常多的训练样本。本文使用aichallenger竞赛场景分类的数据集,使用迁移学习以及深度学习的方法构建模型,对场景图片进行了比较精确的分类。 【关键词】场景分类;深度学习 1.概述 1.1 研究背景与意义 随着网络的普及以及信息社会的发展,我们在日常生活中接触到的图像数据也越来越多,尤其是最近几年社交网络的普及,像是facebook,微信,微博等社交网络,人们可以随时随地上传自己的图片或者视频,一方面对于图像的存储以及管理带来了很大的困难,另一方面来说如何去挖掘图像中存储的信息也变得越来越重要。这些图像信息不仅可以让我们获得一些人们的想法,还可以快速的提高效率。 场景分类是一个比较基础性的工作,它的应用非常的广泛,不仅可以应用的安防领域,让我们的生活变得更加安全,还可以应用到自动驾驶领域,提高自动驾驶的安全性。同时场景分类在各大社交网络中的应用也非常多,丰富了我们的生活。但是如何让计算机像人类一样对一个场景进行精确的分类也是一项非常具有挑战性的工作。因此,场景分类是一个具有研究前景的领域。 1.2 研究现状 计算机视觉一直以来都是人工智能的研究热点,所以也涌现了非常多的优秀的算法。主要分为两类,一类是传统的根据特征进行建模然后使用机器学习的算法进行分类,常见的特征提取算法包括统计直方图,色彩直方图,LBP以及SIFT特征等。使用的机器学习算法如随机森林,建立多颗决策树,并根据多棵决策树的结果进行多数投票,另外一种是支持向量机,这也是在深度学习大规模应用之前效果最好的一种算法,是一种根据支持向量确定决策边界的方法。 另外一类是基于深度学习的算法,Krizhevsky在2012年提出了基于深度学习的图像分类算法,使用了一个8层的神经网络结构,夺得了ImageNet2012年图像分类的冠军。随后Christian Szegedy提出了GoogleNet,使用了22层的神经网络获得了ImageNet2014年图像分类的冠军。随后Karen Simonyan等人提出了一个19层的VGG网络,在图像分类领域获得了更好的结果。 2.场景分类 2.1 什么是场景分类 场景分类是根据训练数据集中的数据的特征,给每一类确定一种准确地描述方式,由这些特征生成类描述或模型,并运用这种描述方式对新的数据集进行分类。场景分类是指针对原始的图片数据,对数据进行过滤、提取特征等操作,然后根据场景图像特征进行分类。 2.2 数据集介绍 本文中所使用的数据集为aichallenger中场景分类的数据集,比赛从400万张图片中选出了8万张比较好的图片,分别属于80个不同的场景,比如足球场,滑雪场,卧室等。从中选出70%作为训练集,10%作为交叉验证集,20%作为测试集,其中每张图片的大小是不相同的。 2.3 场景分类的步骤 首先是图像的预处理,本步骤主要将图片做一些简单的处理。由于每张图片的大小都是各不相同的,深度学习算法通常需要固定大小的输入,因此我们需要将每张图片的大小处理成固定的大小,如果直接对图像做缩放的话可能会造成比较大的失真,实验验证也是如此的。因此,在图像的处理中本文首先将图像进行小幅度的缩放,然后从缩放后的图片中裁剪出224*224大小的图片。后续将图片存储为numpy支持的数组即可。 第二步是数据增强。在后续的实验中本文发现,现有的数据数量还是比较的少,因此有必要进行进一步的数据增强,在增加数据增强后的网络中,top3的准确率可以提高大约10%。本文所使用的数据增强方法主要包括如下:将输入数据归一化到-1,到1之间;将输入的图片进行一定幅度的旋转,本文中旋转角度为15度;每一张图片的宽度上进行随机的水平平移,本文中平移整张图片的1%;每一张图片在高度上进行随机的水平平移,本文中同样偏移整张图片的1%;对图片以一定的概率进行随机的水平翻转,在竖直方向上不做任何的翻转。 第三步模型构建。此步骤主要是选择或者设计深度学习使用的模型,同时由于本文使用的数据集中图片的数量比较少,只有8万张图片,比较深的网络可能会过拟合。因此,本文使用了迁移学习的方法,使用了部分在ImageNet中训练好的参数初始化网络,部分模型没有使用做对比实验。详细的内容将在第三部分进行介绍。 第四步是使用第三步训练好的网络以及参数进行预测。在这一部分同样需要对数据进行预处理,预处理的过程同训练过程的预处理相同,但是这一步不进行数据的增强。 3.场景分类的方法 在对场景分类模型的构建的时候,本文选择使用ResNet以及InceptionV3的网络结构对场景进行分类,并对部分地方进行改进实验。同时,为了增强模型的泛化能力,避免在小数据上造成过拟合的现象,因此本文使用了迁移学习的方法,使用了在ImageNet中训练好的ResNet以及InceptionV3的参数对网络进行初始化。另外在进

图像深度与颜色类型

图像深度与颜色类型 2011-09-07 17:06:44| 分类:图像处理| 标签:|举报|字号大中小订阅四.图像深度与颜色类型< XMLNAMESPACE PREFIX ="O" /> 图像深度是指位图中记录每个像素点所占的位数,它决定了彩色图像中可出现的最多颜色数,或者灰度图像中的最大灰度等级数。图像的颜色需用三维空间来表示,如RGB颜色空间,而颜色的空间表示法又不是惟一的,所以每个像素点的图像深度的分配还与图像所用的颜色空间有关。以最常用的RGB颜色空间为例,图像深度与颜色的映射关系主要有真彩色、伪彩色和直接色。 (一)真彩色(true-color):真彩色是指图像中的每个像素值都分成R、G、B三个基色分量,每个基色分量直接决定其基色的强度,这样产生的颜色称为真彩色。例如图像深度为24,用R:G:B=8:8:8来表示颜色,则R、G、B各用8位来表示各自基色分量的强度,每个基色分量的强度等级为28=256种。图像可容纳224=16M 种颜色。这样得到的颜色可以反映原图的真实颜色,故称真彩色。 (二)伪彩色(pseudo-color):伪彩色图像的每个像素值实际上是一个索引值或代码,该代码值作为颜色查找表(CLUT,Color Look-Up Table)中某一项的入口地址,根据该地址可查找出包含实际R、G、B的强度值。这种用查找映射的方法产生的颜色称为伪彩色。用这种方式产生的颜色本身是真的,不过它不一定反映原图的颜色。在VGA显示系统中,调色板就相当于颜色查找表。从16色标准VGA调色板的定义可以看出这种伪彩色的工作方式(表06-03-2)。调色板的代码对应RGB颜色的入口地址,颜色即调色板中RGB混合后对应的颜色。 表06-03-216色标准VGA调色板

数字图像处理报告 图像二值化

数字图像处理实验报告 实验二灰度变换 实验目的:通过实验掌握灰度变换的基本概念和方法 实验内容: 掌握基本的灰度变换:图像反转、对数变换、幂次变换和二值化1.图像反转、对数变换、幂次变换 I=imread('fengjing.jpg'); J=im2double(I); subplot(2,3,1),imshow(J); title('原图'); K=255-I; subplot(2,3,2),imshow(K); title('图象反转'); L=3.*log(1+J); subplot(2,3,3),imshow(L);title('图象对数,系数为3'); M=10.*log(1+J); subplot(2,3,4),imshow(M);title('图象对数,系数为10'); N=10.*(J.^0.2); subplot(2,3,5),imshow(N);title('图象指数变换,γ=0.2'); P=10.*(J.^2.5); subplot(2,3,6),imshow(P);title('图象指数变换,γ=2.5'); 2.图象二值化 方法一:

I=imread('fengjing.jpg'); % 确定大小subplot(1,2,1),imshow(I);title('原图象'); [m,n]=size(I); for i=1:m for j=1:n if I(i,j)<128 I(i,j)=0; else I(i,j)>=128 & I(i,j)<256 I(i,j)=255; end end end subplot(1,2,2),imshow(I);title('图象二值化');方法二: I=imread('fengjing.jpg'); % 确定大小subplot(1,2,1),imshow(I);title('原图象'); J=find(I<128); I(J)=0; J=find(I>=128); I(J)=255; title('图像二值化(阈值为128)'); subplot(1,2,2),imshow(I);title('图象二值化');

基于深度学习的图像深度估计及其应用研究

基于深度学习的图像深度估计及其应用研究场景深度估计是计算机视觉领域的一项重要课题。利用图像的深度信息,可以重构场景的三维结构信息,对机器人自主导航、物体识别与抓取等任务具有重要意义。 传统的视觉深度估计方法多利用场景的多视信息,通过三角几何对应关系从二维图像中恢复场景深度,计算量大且复杂。近年,随着深度学习的发展,利用卷积神经网络重构场景深度成为研究者关注的热点方向。 卷积神经网络可以利用图像数据及其配套的基准深度数据预先训练学习,在测试阶段可以实现端到端的全分辨率图像深度估计。该方法不仅速度快,实现简单,而且可实现场景的尺度恢复,有益于机器人的空间任务执行。 在此背景下,本文在深入研究近年基于卷积神经网络的深度估计方法基础上,提出创新性的端到端深度学习网络,实验证明所提方法可进一步提升算法性能。本文首先提出了一种端到端的学习方案,用于从稀疏深度图和RGB图像中预测尺度化的稠密深度图。 该方案中,首先利用稀疏采样生成稀疏深度图,然后将彩色图像和稀疏深度图作为网络输入,输出全分辨率深度图像。在训练过程中,稀疏深度图作为深度估计网络的监督信号来恢复场景的真实尺度。 为了更精确的估计场景深度,本文引入“correlation”层,人工模拟标准匹配过程来融合稀疏深度信息和彩色图像信息,即使用颜色信息来帮助提高基于稀疏深度图的预测精度。最后,利用精细化模块以全分辨率输出场景深度图像。 在NYU-Depth-V2和KITTI数据集上的实验结果表明,与前沿算法相比,该模型能够以全分辨率恢复尺度化的场景深度,具有更优的性能。本文提出了并行构

建的深度估计网络和相机位姿估计网络。 相机位姿估计网络以单目视频序列为输入,输出六自由度的相机相对位姿。深度估计网络以单目目标视图为输入,生成稠密的场景深度。 最后基于相机模型,生成合成视图,并把它作为监督信号联合训练两个并行的估计网络。与此同时,稀疏采样生成的稀疏深度图作为深度估计网络的另一个监督信号,帮助恢复其全局尺度。 深度估计网络获得的尺度信息又通过合成视图与目标视图的光度误差耦合传递给位姿估计网络。在测试阶段,深度估计器和位姿估计器可以分别独立的使用。 在KITTI数据集上对本文算法进行了实验评估,所提算法在多个指标上优于前沿算法。

单目视觉图像深度测量方法研究

单目视觉图像深度测量方法研究 相机与其它传感器相比,具有能够直观反映客观世界、数据量大、信息丰富等特点,而且通常价格较低、配置方便,是自动化装置和机器人感知环境传感器中的优先选择之一。但由于普通相机在拍摄时获得的是被拍摄场景投影到成像平面上的二维图像,丢失了场景的深度信息,这使得机器无法通过图像直接得到场景中物体的远近、大小和运动速度等信息,因此需要从二维图像中恢复深度信息,即深度测量。深度测量在工业自动化、智能机器人、目标检测和跟踪、智能交通、三维建模和3D视频制作等领域都有广泛的应用。深度测量方法有很多种,其中基于单目视觉的图像深度测量方法具有设备简单、成本低廉、操作方便等特点而成为研究热点,并且单目相机体积小,重量轻,在一些有空间大小或载荷限制的特定场合以及手眼系统等应用中,需要或只能使用基于单目视觉的图像深度测量方法,而目前该测量方法还很不成熟,有必要对其计算原理、技术方法等方面进行研究。 因此本文对基于单目视觉的图像深度测量方法开展研究,主要工作和创新点如下:(1)提出一种基于熵和加权Hu氏不变矩的目标物体绝对深度的测量方法。该方法用普通单目相机拍摄同一场景的两幅图像,拍摄时保持相机的参数不变,将相机沿光轴方向移动,分别在物距间隔为d的前后两处各拍摄一幅图像,然后采用LBF模型的方法分割出图像中的物体,并求出各个目标物体像的面积,再将物体像的熵的相对变化率和加权Hu氏不变矩结合起来实现图像内物体的自动匹配,最后运用本文推导的公式计算出各个目标物体的绝对深度。文中采用真实场景图像对该方法进行了实验验证并与其他方法进行了对比,结果表明了该方法的有效性。(2)提出一种基于SIFT特征的目标物体绝对深度的测量方法,该方法同样需要按照上面的方法获取同一场景的两幅图像,然后分别对这两幅图像进行图像分割和SIFT特征点提取,并进行图像中的目标物体匹配,接着用凸包和几何形状约束从匹配物体中选出一对最佳直线段,最后根据光学成像原理利用直线段长度计算出场景中静态目标物体的绝对深度信息。 由于是通过被测量物体上的两个SIFT特征点所成的直线段长度来计算出物体的绝对深度信息的,所以该方法鲁棒性较好,不受场景中被测量目标物体部分遮挡或缺失的限制,对比实验表明该方法测量精度高于现有其他方法。(3)提出一种基于梯度信息和小波分析的单幅图像相对深度测量方法。该方法首先利用图像

数字图像处理1-关于灰度,比特深度,彩色图像等名词的理解

灰度图像 灰度图像是区别于普通rgb编码图像的一种特别的图像编码。它将一张黑白照片的每个像素设置了256个灰度档,每个像素根据自身反应的图像上点的明亮程度来展示对应的灰度。同时使用rgb的编码一样可以得到黑白照片,但是二者各有优缺点。灰度图像的黑白照片,由于每个像素只需要8bit的存储量,占用空间更小。而rgb模式下的黑白照片虽说占用了3倍的空间,相对应的阴影细节却能更好的体现出来。 比特深度 比特深度也就是通常买显示器会说到的“色域”。8bit的深度就是说一个像素点对应的颜色,其rgb值中的每一个都分为256档。当然除了8bit还有11bit,16bit之类的更宽的色域,相对应的图片的颜色会更丰富,更有层次感。 图像分辨率 图像分辨率是一个用来描述图像质量,图像清晰程度的一个量。其基本概念是指每一平方英寸中有多少个像素点,单位就是人们经常提到的dpi。而整个图像的像素个数就是由图像本身的宽、高以及图像分辨率来共同确定的。 图像直方图 图像直方图是对图像曝光程度以及颜色的一种特别的表现方式。在灰度图像中,其横坐标就是256个灰度档,而其纵坐标就是整个图像中某一灰度档对应的相对像素数量。在rgb图像中也同理,只不过每个单独的原色会有其单独的直方图。如果图像直方图中某一位置出现峰值,就说明这个强度的像素点最多。如果在横轴最左端或最右端出现峰值,则说明画面过曝或过暗,损坏无法修复。 Bayer Filter的工作原理 Bayer Filter通常翻译为拜耳过滤器或拜耳滤色器,现在的数字图像采集设备基本上都是用的这种原理。由于要同时采集rgb信息,平面上均匀分布着3种采集单元,分别对应着rgb三原色。每个单元由一片或红或绿或蓝的玻璃和可以感受光强的传感器构成,光线通过彩色玻璃,对应颜色的光线就会照射到传感器上,待曝光结束后,对传感器的读数进行计算,就可以还原某一像素上对应的rgb值构成其采集到的颜色,所有单元同理。此外,由于两个单元之间有微小的缝隙,会有部分光无法直接被传感器利用。于是在缝隙间会有微透镜将这部分光折射到附近的单元中,保证尽可能高效准确的完成采集。

图像二值化算法研究与实现

图像二值化算法研究与实现 摘要:图像二值化是图像预处理中的一项重要技术,在模式识别、光学字符识别、医学成像等方面都有重要应用。论文介绍了图像及数字图像处理技术的一些概念和相关知识;对VC++ 软件的发展和软件在图像处理中的应用做了简要介绍;还介绍了图像二值化算法以及利用VC++软件工具进行算法的实现。论文重点实现了图像分割技术中常用灰度图像二值化算法,如Otsu算法、Bernsen算法,并对这些算法运行的实验结果进行分析与比较。 关键词:图像处理;二值化;VC++; 1.引言 1.1 图像与数字图像 图像就是用各种观测系统观测客观世界获得的且可以直接或间接作用与人眼而产生视觉的实体。视觉是人类从大自然中获取信息的最主要的手段。拒统计,在人类获取的信息中,视觉信息约占60%,听觉信息约占20%,其他方式加起来才约占20%。由此可见,视觉信息对人类非常重要。同时,图像又是人类获取视觉信息的主要途径,是人类能体验的最重要、最丰富、信息量最大的信息源。通常,客观事物在空间上都是三维的(3D)的,但是从客观景物获得的图像却是属于二维(2D)平面的。 数字图像:数字图像是将连续的模拟图像经过离散化处理后得到的计算机能够辨识的点阵图像。在严格意义上讲,数字图像是经过等距离矩形网格采样,对幅度进行等间隔量化的二维函数。因此,数字图像实际上就是被量化的二维采样数组。 1.2 数字图像处理技术内容与发展现状 数字图像处理就是采用一定的算法对数字图像进行处理,以获得人眼视觉或者某种接受系统所需要的图像处理过程。图像处理的基础是数字,主要任务是进行各种算法设计和算法实现。 图像处理技术的发展大致经历了初创期、发展期、普及期和实用化期4个阶段。初创期开始与20世纪60年代,当时的图像采用像素型光栅进行少秒显示,大多采用中、大型机对其处理。在这一时期,由于图像存储成本高、处理设备昂贵,其应用面很窄。进入20世纪70年代的发展期,开始大量采用中、小型机进行处理,图像处理也逐渐改用光栅扫描方式,特别是CT和卫星遥感图像的出现,对图像处理技术的发展起到了很好的推动作用。到了20世纪80年代,图像处理技术进入普及期,此时的微机已经能够担当起图形图像处理的任务。超大规模集成电路(Very Large Scale Integration, VLSI)的出现更使处理速度大大提高,设备造价也进一步降低,极大地促进了图形图像系统的普及和应用。20世纪90年代是图像处理技术的实用化时期,图像处理的信息量巨大,对处理速度的要求极高。 1.3 图像二值化原理及意义 图像二值化是指用灰度变换来研究灰度图像的一种常用方法,即设定某一阈值将灰度

图像二值化中阈值选取方法研究

目录 摘要 ................................................................. III Abstract............................................................... IV 第一章绪论. (1) 1.1 图像与数字图像 (1) 1.2 数字图像处理技术内容与发展现状 (2) 1.3 灰度图像二值化原理及意义 (4) 第二章软件工具——MATLAB (6) 2.1 MATLAB概述 (6) 2.2 MATLAB的工作环境 (6) 2.3 MATLAB图像处理工具箱 (8) 2.4 工具箱实现的常用功能 (9) 第三章图像二值化方法 (11) 3.1 课题研究对象 (11) 3.2 二值化方法研究动态 (13) 3.3 全局阈值法 (18) 3.4 局部阈值法 (18) 第四章 Otsu方法和Bernsen方法 (20) 4.1 Otsu算法分析 (20) 4.2 Otsu方法流程图 (22) 4.3 Bernsen算法分析 (23) 4.4 Bernsen方法流程图 (23) 第五章 Otsu方法和Bernsen方法实验比较 (25) 5.1 Otsu方法实验结果分析 (25)

5.2 Bernsen方法结果分析 (27) 5.3 0tsu方法和Bernsen方法实验结果比较 (28) 5.4 结论 (29) 结束语 (31) 参考文献 (32) 致谢 (33) 附录:源代码 (34)

摘要 在人类获取的信息中,视觉信息约占60%,听觉约占20%,其它约占20%。由此可见,视觉信息对人类非常重要。同时,图像是人类获取视觉信息的主要途径。图像二值化是图像预处理中的一项重要技术,在模式识别、光学字符识别、医学成像等方面都有重要应用。论文介绍了图像及数字图像处理技术的一些概念和相关知识;对Matlab7.0 软件的发展和软件在图像处理中的应用做了简要介绍;还介绍了灰度图像二值化方法以及利用Matlab7.0软件工具进行算法的实现。课题重点实现了图像分割技术中灰度图像二值化方法,如Otsu算法、Bernsen算法,并对这些算法运行的实验结果进行分析与比较。 关键词:图像处理,二值化,Matlab,Otsu算法,Bernsen算法

相关主题
文本预览
相关文档 最新文档