基于图的半监督学习方法综述
- 格式:doc
- 大小:19.00 KB
- 文档页数:4
【机器学习】半监督学习⼏种⽅法1.Self-training algorithm(⾃训练算法)这个是最早提出的⼀种研究半监督学习的算法,也是⼀种最简单的半监督学习算法.2.Multi-view algorithm(多视⾓算法)⼀般多⽤于可以进⾏⾃然特征分裂的数据集中.考虑特殊情况(每个数据点表征两个特征):每⼀个数据点看成是两个特征的集合,然后利⽤协同训练(Co-training algorithm)进⾏处理.协同训练(co-training)算法,此类算法隐含地利⽤了聚类假设或流形假设,它们使⽤两个或多个学习器,在学习过程中,这些学习器挑选若⼲个置信度⾼的未标记⽰例进⾏相互标记,从⽽使得模型得以更新。
Balcan and Blum (2006) show that co-training can be quite effective, that in the extreme case only one labeled point is needed to learn the classifier. Zhou et al. (2007) give a co-training algorithm using Canonical Correlation Analysis which also need only one labeled point. Dasgupta et al. (Dasgupta et al., 2001) provide a PAC-style th-eoretical analysis.3.Generative Models(⽣成模型)以⽣成式模型为分类器,将未标记⽰例属于每个类别的概率视为⼀组缺失参数,然后采⽤EM算法来进⾏标记估计和模型参数估计,此类算法可以看成是在少量有标记⽰例周围进⾏聚类,是早期直接采⽤聚类假设的做法。
EM算法的贪⼼本质使其容易陷⼊局部极值,因此算法对初始值的选择具有很强的依赖性.常⽤的解决⽅法是采⽤多组初值进⾏重复运算,并从中选择最好的⼀组解,或者通过复杂的优化算法(如分裂合并EM算法)获取参数的优化解.这些做法尽管降低了对初始值选择的敏感性,但却引⼊了过多的运算负担。
弱监督学习中的半监督聚类方法详解弱监督学习是一种介于监督学习和无监督学习之间的学习方式,它利用大量的无标签数据和少量的有标签数据来进行模型训练。
在实际应用中,由于获取标签数据的成本和时间成本很高,弱监督学习成为了一种重要的学习方式。
而半监督聚类方法作为弱监督学习的一种应用,可以在数据集中同时利用有标签数据和无标签数据,从而提高聚类算法的性能。
本文将详细介绍几种常见的半监督聚类方法,并分析它们的优缺点。
半监督聚类方法一:基于图的半监督聚类方法基于图的半监督聚类方法是一种常见的半监督学习方法,它利用图模型来表示数据集中的相似性关系。
在这种方法中,首先构建一个图模型,其中每个节点代表一个数据样本,边代表数据样本之间的相似性关系。
然后,利用有标签数据和无标签数据来初始化节点的标签,通过在图上进行半监督优化来进行聚类。
基于图的半监督聚类方法的优点是能够充分利用数据集中的相似性关系,从而获取更准确的聚类结果。
然而,这种方法也存在一些缺点,例如对图的构建和优化算法的复杂性较高,需要消耗大量的计算资源。
半监督聚类方法二:半监督聚类的自学习算法半监督聚类的自学习算法是一种利用标签数据来指导无标签数据聚类的方法。
在这种方法中,首先使用有标签数据来初始化聚类中心,然后通过迭代优化的方式来不断调整聚类中心,直到达到收敛条件。
半监督聚类的自学习算法的优点是简单直观,易于实现。
然而,这种方法也存在一些缺点,例如可能会陷入局部最优解,对初始聚类中心的选择较为敏感。
半监督聚类方法三:基于生成模型的半监督聚类方法基于生成模型的半监督聚类方法是一种通过学习数据分布来进行聚类的方法。
在这种方法中,首先利用有标签数据来学习数据的分布,然后通过生成模型来对无标签数据进行聚类。
基于生成模型的半监督聚类方法的优点是能够充分利用数据的分布信息,从而获取更准确的聚类结果。
然而,这种方法也存在一些缺点,例如对生成模型的选择和参数调整较为困难。
综合以上介绍的几种半监督聚类方法,我们可以看到每种方法都有其优缺点。
半监督学习算法的综述半监督学习是一种介于有监督学习和无监督学习之间的学习方式,兼具有监督学习的准确性和无监督学习的灵活性。
相对于有监督学习需要大量标记数据和无监督学习需要复杂的聚类或分类算法,半监督学习可以在少量标记数据的情况下,同时结合无监督学习算法,使得模型拟合效果更好,适用范围更广。
现实应用中,标记数据不仅数量有限,而且经常会存在噪声和不准确性,此时半监督学习能够利用未标记数据和有标记数据的关系优化模型,在数据稀缺和复杂的情况下,半监督学习具有重要的应用价值。
下面对半监督学习的一些常见算法进行综述:1. 图半监督学习图半监督学习是半监督学习中较为常用的方法之一。
该方法将数据看作图中的节点,通过连接节点的边表示节点之间的关系,然后通过有标记数据作为种子节点,将图中所有节点分为已标记节点和未标记节点,并寻找未标记节点与已标记节点之间的关系,在此基础上通过传播算法将标签传递给未标记节点,最终得到整个图的标签。
2. 深度半监督学习在深度学习领域中,深度半监督学习是一种比较新兴的方法,该方法利用神经网络模型对未标记数据进行预测,同时利用有标记数据对模型进行微调,从而达到半监督学习的目的。
深度半监督学习可以应用在图像识别、文本分类等领域,是一个非常有效的学习方式。
3. 半监督聚类聚类是无监督学习领域中的常见算法,而半监督聚类则是将有标记数据和未标记数据进行组合,进行聚类得到的结果更加准确和鲁棒。
半监督聚类主要应用在图像分割、文本聚类等领域,能够有效利用未标记数据提升聚类的准确性和鲁棒性。
总的来说,半监督学习通过结合有监督和无监督学习的方法,能够提高模型的拟合效果和应用范围,具有重要的应用价值。
未来,半监督学习算法的研究将会越来越深入,在更多的领域得到广泛的应用。
半监督学习是指在训练数据中,只有一小部分数据被标记,而大部分数据是未标记的情况下进行学习的一种机器学习方法。
它通常用于处理标记数据难以获取的情况下,比如在训练数据非常庞大的情况下,标记每一个样本都需要大量的人力物力来完成,这是非常繁重和昂贵的。
因此,半监督学习在这种情况下可以充分利用未标记数据进行学习,提高了训练的效率和泛化性能。
在半监督学习中,图半监督学习是一种常用的方法。
图半监督学习是基于图的一类学习方法,它通过构建数据样本之间的图结构,利用这种图结构信息来增强学习模型的泛化能力。
在图半监督学习中,最为常用的算法就是基于图的半监督学习算法。
接下来,我们就来详细解析一下图半监督学习算法的原理。
首先,图半监督学习算法的核心思想是基于数据样本之间的相似性来构建图结构。
在构建图结构时,通常使用的是K近邻算法来确定每个样本的K个最近邻居,然后通过相似性度量来确定每个最近邻居之间的连接关系。
一般来说,相似性度量可以使用欧氏距离、余弦相似度等距离度量方法来进行计算。
通过这种方式,我们可以构建出一个样本之间的连接关系图,每个样本都可以看作图中的一个节点,而它们之间的连接关系就可以看作图中的边。
其次,在构建好图结构之后,我们就可以利用这个图结构来进行半监督学习。
在图半监督学习中,通常会假设相似的样本在标签上也会有相似的输出。
因此,我们可以利用已标记数据的标签信息来扩展到未标记数据上,从而实现对未标记数据的标签预测。
具体的做法是,通过已标记数据的标签信息来构建一个标签传播模型,然后利用这个模型来对未标记数据的标签进行预测。
在标签传播模型中,我们通常会假设相似的样本在标签上也会有相似的输出,这样就可以利用图结构中样本之间的相似性信息来对未标记数据的标签进行传播。
除了标签传播模型外,还有一些其他的图半监督学习算法,比如基于图的半监督分类算法。
在这类算法中,通常会将半监督学习问题转化为一个图上的标签传播问题,然后利用图结构信息来进行标签传播,最终得到对未标记数据的标签预测结果。
半监督深度学习图像分类方法研究综述吕昊远+,俞璐,周星宇,邓祥陆军工程大学通信工程学院,南京210007+通信作者E-mail:*******************摘要:作为人工智能领域近十年来最受关注的技术之一,深度学习在诸多应用中取得了优异的效果,但目前的学习策略严重依赖大量的有标记数据。
在许多实际问题中,获得众多有标记的训练数据并不可行,因此加大了模型的训练难度,但容易获得大量无标记的数据。
半监督学习充分利用无标记数据,提供了在有限标记数据条件下提高模型性能的解决思路和有效方法,在图像分类任务中达到了很高的识别精准度。
首先对于半监督学习进行概述,然后介绍了分类算法中常用的基本思想,重点对近年来基于半监督深度学习框架的图像分类方法,包括多视图训练、一致性正则、多样混合和半监督生成对抗网络进行全面的综述,总结多种方法共有的技术,分析比较不同方法的实验效果差异,最后思考当前存在的问题并展望未来可行的研究方向。
关键词:半监督深度学习;多视图训练;一致性正则;多样混合;半监督生成对抗网络文献标志码:A中图分类号:TP391.4Review of Semi-supervised Deep Learning Image Classification MethodsLYU Haoyuan +,YU Lu,ZHOU Xingyu,DENG XiangCollege of Communication Engineering,Army Engineering University of PLA,Nanjing 210007,ChinaAbstract:As one of the most concerned technologies in the field of artificial intelligence in recent ten years,deep learning has achieved excellent results in many applications,but the current learning strategies rely heavily on a large number of labeled data.In many practical problems,it is not feasible to obtain a large number of labeled training data,so it increases the training difficulty of the model.But it is easy to obtain a large number of unlabeled data.Semi-supervised learning makes full use of unlabeled data,provides solutions and effective methods to improve the performance of the model under the condition of limited labeled data,and achieves high recognition accuracy in the task of image classification.This paper first gives an overview of semi-supervised learning,and then introduces the basic ideas commonly used in classification algorithms.It focuses on the comprehensive review of image classification methods based on semi-supervised deep learning framework in recent years,including multi-view training,consistency regularization,diversity mixing and semi-supervised generative adversarial networks.It summarizes the common technologies of various methods,analyzes and compares the differences of experimental results of different methods.Finally,this paper thinks about the existing problems and looks forward to the feasible research direction in the future.Key words:semi-supervised deep learning;multi-view training;consistency regularization;diversity mixing;semi-supervised generative adversarial networks计算机科学与探索1673-9418/2021/15(06)-1038-11doi:10.3778/j.issn.1673-9418.2011020基金项目:国家自然科学基金(61702543)。
基于深度学习的图像半监督学习方法研究一、引言图像半监督学习是机器学习和图像处理领域的重要课题之一。
传统的监督学习方法需要大量标注好的数据,但是在现实场景中,获取大量标注好的图像数据是非常困难和耗时的。
因此,通过开发图像半监督学习方法,可以利用少量标注好的数据进行训练,从而提高图像分类、目标检测和图像生成等任务的性能。
本文将介绍基于深度学习的图像半监督学习方法的研究进展及应用。
二、深度学习与图像半监督学习深度学习是一种机器学习方法,通过多层的神经网络模型进行特征学习和分类等任务。
在图像处理领域,深度学习方法具有很强的表达能力和泛化能力,已经在图像分类、目标检测和图像生成等任务中取得了很大的成功。
然而,深度学习方法通常需要大量标注好的数据进行训练,而在实际应用中,获取大量标注好的图像数据是非常困难和耗时的。
因此,图像半监督学习成为了一个研究热点。
三、基于深度学习的图像半监督学习方法1. 单一模型方法单一模型方法是最简单常用的半监督学习方法之一。
该方法使用少量标注好的数据和大量未标注的数据进行训练,通过学习到的特征进行图像分类或目标检测。
这种方法的优点是简单易实现,但缺点是未标注数据的利用效果有限,容易受到噪声数据的影响。
2. 生成对抗网络方法生成对抗网络(GAN)是一种深度学习方法,通过生成器和判别器的对抗训练,学习到数据的分布。
在图像半监督学习中,生成对抗网络可以用来生成伪造的标签数据,从而增加标注数据的数量,提升模型性能。
生成对抗网络方法的优点是可以有效利用未标注数据,但缺点是生成的伪造数据可能存在一定的偏差。
3. 聚类方法聚类方法是一种将图像数据进行分组的方法,在图像半监督学习中可以利用聚类方法将无标签数据进行分组,并与有标签数据进行关联。
这样可以通过估计无标签数据的标签,进行模型训练和预测。
聚类方法的优点是可以利用没有标签的数据进行训练,但缺点是聚类结果可能会存在误差。
四、图像半监督学习方法的应用基于深度学习的图像半监督学习方法已经被广泛应用于图像分类、目标检测和图像生成等任务中。
机器学习中的半监督学习方法简介半监督学习是机器学习领域的一个重要研究方向,它旨在利用未标记的数据来提升有限的标记数据的利用效率。
相比于传统的监督学习方法,半监督学习可以在数据集中加入大量未标记的数据,从而提升模型的泛化性能。
本文将简要介绍机器学习中的半监督学习方法。
半监督学习可以分为基于生成模型和基于判别模型的方法。
基于生成模型的方法主要利用未标记数据的分布信息,通过学习数据的生成过程来进行预测。
典型的生成模型方法包括自动编码器(autoencoder)、生成对抗网络(GAN)和噪声吸收过程(noise-contrastive estimation,NCE)等。
自动编码器是一种神经网络模型,它通过将输入数据映射到低维空间,并再次映射回原始空间来学习数据的特征表示。
生成对抗网络则是通过训练一个生成器网络和一个判别器网络来对抗地生成逼真的样本。
噪声吸收过程则是通过将未标记的数据与噪声样本相结合,从而使得模型能够适应未标记数据的分布。
基于判别模型的方法主要利用未标记数据的几何信息,通过学习数据的决策边界来进行预测。
典型的判别模型方法包括图半监督学习(graph-based semi-supervised learning)、标签传播(label propagation)和半监督支持向量机(semi-supervised support vector machine,S3VM)等。
图半监督学习是一种基于图的方法,它通过构建数据之间的相似性图来利用未标记数据进行预测。
标签传播则是通过已标记数据的标签信息传播到未标记数据,从而使得模型能够学习到未标记数据的标签。
半监督支持向量机则是将传统的支持向量机方法扩展到半监督学习问题,通过最大化标记数据和未标记数据之间的边界来进行预测。
除了基于生成模型和判别模型的方法,还有一些其他的半监督学习方法,如分布一致性方法(distributional consistency)和相互信息(mutual information)等。
图像识别中的半监督学习方法研究随着人工智能的快速发展,图像识别已经成为计算机视觉领域的一个重要研究方向。
然而,要实现准确的图像识别,需要大量标记好的训练样本来进行监督学习,而这个过程往往非常耗时和昂贵。
为了解决这个问题,半监督学习方法应运而生。
半监督学习(Semi-Supervised Learning)是介于有监督学习和无监督学习之间的一种学习方式。
它利用有标记和无标记的数据进行训练,在只有少量标记样本的情况下,通过利用未标记样本的信息进行学习和预测。
一种常见的半监督学习方法是自学习(Self-Training)。
自学习将有标记的样本和未标记的样本混合在一起,然后使用有标记的样本进行初始模型的训练。
接着,使用该模型对未标记的样本进行预测,并将置信度较高的样本添加到有标记的集合中,重复上述步骤直到收敛。
虽然该方法简单易行,但结果往往比较依赖初始训练集的质量和模型的选择。
另一种常见的半监督学习方法是生成模型(Generative Model)。
生成模型试图从数据中学习生成样本的概率分布,并基于这个分布进行预测。
在图像识别中,生成模型通常是通过无监督学习方法如自编码器(Autoencoder)来实现的。
自编码器可以从输入图像中学习到一个低维的特征表达,然后再通过解码器将其重建为输入图像。
通过这种方式,自编码器能够学习到图像的特征表示,从而能够用于分类任务。
此外,基于图的半监督学习方法也被广泛应用于图像识别中。
图模型可以用来建模图像中的像素之间的关系,并通过标记好的样本来传播标签信息。
常见的图模型包括图神经网络(Graph Neural Network)和标签传播算法(Label Propagation)。
图神经网络通过对图像像素之间的关系进行建模,融合标记好的样本和未标记的样本的信息,从而通过学习对未标记样本进行分类。
标签传播算法则是通过将有标记样本的标签信息在图上进行传播,给未标记的样本分配标签。
在机器学习领域,监督学习和半监督学习是两种常见的学习方式。
监督学习使用带有标签的数据进行训练,而半监督学习则利用部分带有标签的数据和大量未标记的数据进行训练。
在半监督学习中,图半监督学习算法是一种常见的方法,它利用图结构来挖掘数据之间的关系,进而提高学习模型的性能。
图半监督学习算法的基本原理是利用图结构来表示数据之间的相似性和关联性。
在图中,每个节点表示一个样本,每条边表示样本之间的关系。
通过构建这样一个图结构,我们可以利用图的传播性质来推断未标记样本的标签。
首先介绍一下图半监督学习中常用的一种算法——标签传播算法。
该算法的核心思想是将带有标签的数据的标签信息通过图结构传播给未标记的数据。
具体来说,算法首先构建一个图,节点表示样本,边表示样本之间的相似性。
然后,将带有标签的数据的标签信息初始化为已知标签,未标记的数据的标签信息初始化为未知标签。
接着,通过迭代更新每个节点的标签信息,直到收敛为止。
更新的规则是将每个节点的标签信息更新为其相邻节点中标签信息最多的标签。
最终,得到所有样本的标签信息,从而完成半监督学习的任务。
除了标签传播算法,图半监督学习中还有一些其他常用的算法,比如拉普拉斯支持向量机(Laplacian Support Vector Machine,简称LSVM)和图卷积网络(Graph Convolutional Network,简称GCN)。
LSVM是一种基于图的半监督学习算法,它将带有标签的数据的标签信息传播给未标记的数据,并通过支持向量机来学习一个分类器。
GCN是一种利用图卷积神经网络进行半监督学习的算法,它可以有效地利用图结构挖掘数据之间的关系,并通过卷积操作来学习数据的表示。
图半监督学习算法在实际应用中具有一定的优势。
首先,它可以通过挖掘数据之间的关系来提高模型的泛化能力,尤其是在数据稀疏的情况下。
其次,它可以充分利用未标记数据的信息,从而降低人工标注数据的成本。
另外,图半监督学习算法还可以处理异构数据和非线性关系,适用范围较广。
基于半监督学习的图像分类算法一、概述图像分类,就是将一幅图片自动地归为某一个预先设定的类别。
它是计算机视觉领域中的一项重要任务。
而基于半监督学习的图像分类算法则是在训练数据中既有标注数据,也有未标注数据的情况下进行的分类学习,而且使用未标注数据的方法是先估计它们的标签,再利用这些标签来学习分类器。
与仅使用标注数据学习分类器相比,使用未标注数据的方法可以获取更多的信息、提高分类器的泛化性能。
二、半监督学习的基本思想半监督学习是机器学习中一种特殊的学习方式,其基本思想是结合有标记数据和无标记数据,达到更好的学习效果。
在图像分类任务中,标记数据通常是由人工标注的,而且数量有限;而无标记数据则是大量存在的,但无法直接使用。
因此,半监督学习就成为了一种使用有限标记数据和丰富无标记数据的有效方法。
三、半监督学习的方法1. 生成式方法:该方法主要是建立数据的概率分布模型,将其描述为一个概率密度函数。
它并不是直接从数据中学习分类器,而是通过对数据的自然分布进行建模,来推断数据的标签。
然后,将这些新的标签用于模型的训练。
其中最典型的方法是生成对抗网络(GAN)技术。
2. 半监督支持向量机(SVM)方法:SVM具有良好的泛化性能和很好的抗噪能力,能够有效地处理图像分类任务中的半监督学习问题。
该方法是基于标记数据的线性判别分析,加上带约束的平均移位算法,优化带约束的损失,使得分类器能够使用无标签数据进行学习。
3. 图卷积网络(GCN)方法:GCN是一种基于图形数据的深度学习方法,与自然语言处理和计算机视觉息息相关。
在半监督学习中,GCN将图像的邻域信息与标记数据进行联合训练,以利用无标签数据来改进分类器的准确性。
由于GCN具有很好的卷积性质和参数共享能力,可以更充分地利用训练数据的潜力。
四、应用实例目前基于半监督学习的图像分类算法已经被广泛应用于各种领域,例如医学图像分析、视频监控、自动驾驶和无人机影像分析等。
其中最具代表性的案例是基于SVM和GCN的算法,在疾病诊断和药品筛选等领域中有着广泛的应用。
基于图的半监督学习方法综述作者:韩灵珊来源:《科教导刊·电子版》2016年第10期摘要半监督学习是机器学习中结合监督学习和无监督聚类方法的一类学习方法。
基于图的半监督学习凭借其直观性得到了半监督学习领域专家的青睐。
本文对常用的半监督学习方法进行了介绍和阐述,介绍了基于图的半监督学习的发展现状,并对未来基于图的半监督学习的发展做出展望。
关键词基于图的半监督分类机器学习图方法中图分类号:TP181 文献标识码:A0引言基于图的半监督学习凭借其直观性也逐渐被更多的学者所研究和使用。
本文主要介绍了目前使用较多的基于图的半监督学习的方法分类;介绍了基于图的半监督学习目前的研究成果及现状;最后给出基于图的半监督学习下一步更待研究的方向。
1基于图的半监督学习方法分类1.1图的构造及正则化框架首先利用样本集X构造一个无向加权图G。
图当中的每个顶点代表了样本集中的样本,图当中边的权值表示了样本对和之间的相似度;构造完图之后,基于图的学习方法通常假设样本标签在图中的分布是平滑的,并由此根据边的连接情况使已标记样本的类别标签在整个图上不断传播并达到最终完成对未标记样本的类别标签的预测。
通常,样本对之间的相似度采用高斯核函数来计算。
图模型构造好后,基于图的半监督学习算法需要定义一个函数f。
我们将基于图的学习方法规范化,提出基于图的学习的正则化框架。
对于已标记样本,令(f)为损失函数,用来调节函数f分类标签时预测标签与真实标签值之间的损失或误差;令(f)为目标函数的调整项,使标签分布在整个图上并且有足够的平滑性,通常采用引入正则项的方法来确保。
一般而言,基于图的学习方法通常都利用图的拉普拉斯性质作为目标函数的调整项,以确保标签能够平滑的在整个图上传递。
1.2基于图的半监督学习方法分类1.2.1标签传播算法在标签传播算法中,使用的损失函数为,其中表示预测标签概率,表示已标记样本的真实标签值,损失函数表示在标签传递的过程中应当使预测的已标记样本的标签与真实标签类别相同;在调整项中使用(f)=作为保障标签在整个图上的分布具有平滑性的调整项。
1.2.2图的最小分割方法图的最小分割方法(graph mincut algorithm)是由Blum A在2002年提出的。
它的主要思想是:在二分类问题中定义正标记样本作为源点(source),负标记样本作为汇点(sink),目标是:找到一个边集,使得删除该边集之后能够隔绝任意从源点到汇点的流量,并且最终找到的这个边集为最小边集。
那些与源点连接的点被标记为正类,与汇点连接的点则被标记为负类。
1.2.3调和函数方法基于高斯域(Gaussian fields)和调和函数(harmonic function)的方法,简称为调和函数方法,针对在图的最小分割方法中未考虑样本的分类概率的硬划分(hard classification)的问题,采用了软划分(soft classification)的方法,将样本的类别用取值连续的变量表示。
1.2.4局部全局一致性算法Zhou等人在标签传播算法和调和函数方法的启发下,提出基于局部与全局一致性的方法(learning with local and global consistency),简称LGC算法。
LGC算法的调整项采用了对称拉普拉斯矩阵,提高了分类的精度。
保持局部一致性的目标就是要使该调节项最小。
与调和函数的目标函数不同,LGC算法的损失项允许预测标签与真实标签之间有一定的误差,并会使这种误差最小化,使用这样的方式保持样本集的全局一致性。
2基于图的半监督学习方法研究现状国外学者对基于图的半监督学习研究起步较早。
Yang等人在2007年时首次提出了利用LPA算法进行英汉双语信息检索;Raghavan U则在同年用图方法进行网络社区发现,用空手道俱乐部网和美国大学橄榄球网的实验证明了其良好的检测效果;此外,在降维研究方面也有不少较为成熟的成果:2004年,Argyrious等采用kd树方法构造稀疏图,通过线性系统的迭代计算加速分类学习的速度,Delalleau等通过基于所选样本集的子集进行标记传播并利用所选样本与剩余样本的关联降低图拉普拉斯矩阵的大小提出了一种无参数且支持直推式学习的算法。
我国在基于图的半监督学习的研究方向上起步较晚,但发展迅速取得了不少成果。
一方面,对算法本身进行了深入研究和改进。
例如:王雪松等人在原算法基础上提出了一种简洁的优化算法,通过使用k近邻图代替全连接图并且简化目标函数,减少了参数造成的误差影响;李明等人利用一种基于密度的快速聚类的方法对样本数据先聚类后进行标签传递,通过实验最终证明在分类效果上该算法与原算法相比速度大幅提高;Wang等人利用线性近邻传递思想,构建邻接矩阵,提高分类效果并取得了好的成果。
另一方面,基于图的半监督学习在其他学科领域发挥了支柱作用:丁宇新等研究中采用了局部全局一致性学习方法,以“人人网”数据作为实验数据,对用户的兴趣与毕业学校进行预测;新浪微博也同样利用了标签传播算法作为其背后的核心算法之一,进行更精准的广告投放和内容投送。
3结论通过对目前基于图的半监督学习取得的进展和成果了解分析,从研究内容来看:基于图的半监督学习的基础理论研究已经成熟,并且其成果已经应用于许多实际问题中。
如今,如何利用图论知识优化构图,寻找提高学习算法效率,减少计算开销的新思路成为基于图的半监督学习的热点,也为今后的学习研究提供了大的发展空间;同时,如何将基于图的半监督学习方法联系到实际情况中,利用该方法对实际问题进行更好地挖掘和探索,从而利用隐含信息获得知识。
参考文献[1] Chappele O,Scholkopf B.Semi-supervised learning[M].Cambridge:MIT Press,2006:193-196.[2] Zhu X.J.and Ghahramani Z. Learning from labeled and unlabeled data with label propagation [R].Technical Report CMU-CALD-02-107.Carnegic Mellon University,2002:1-8.[3] Blum A,Chawla S.Learning from labeled and unlabeled data using graphmincuts.Proceedings of the 18th International Conference on Machine Learning.Williamstorn,USA:Morgan Kaufmann Publisher,2001:19-26.[4] Zhu X,Ghahramani Z,Lafferty J.Semi-supervised learning using Gaussian fields and harmonic functions[C]Proceedings of the 20th International Conference on MachineLearning.Washington:[s.n.],2003:912-919.[5] Zhou D,Bousquet O,Lal T N,et al.Learning with local and global consistency[C]Thrun S,Saul L,Schlkopf B,et al.Advances in Neural Information Processing Systems 16.Cambridge:MIT Press,2004:321-328.[6] YANG L P,JI D rmation Retrieval Using Label Propagation based ranking[C],In:Proceedings of NTCIR-6 Workshop Meeting,Tokyo,Japan,2007:140-144.[7] RAGBAVAN U N.ALBERT R. KUMARA S. Near linear time algorithm to detect community structures in large-scale networks[J].Physical Review E.2007(76):1-12.[8] Argyriou A.Efficient Approximation Methods for Harmonic Semi-supervised Learning[D].University College London,2004.[9] Delalleau O.Bengio Y.and Roux N.L Efficient Non-parametric Function Induction in Semi-supervised Learning[A].Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics [C].New Jerscy,USA:Society for Artificial Intelligence and Statistics,2005:96-103.[10] 王雪松,张晓丽,等.一种简洁局部全局一致性学习[J].控制与决策,2011,26(11):1726-1734.[11] 李明.基于局部聚类与图方法的半监督学习算法[J].自动化学报,2010,36(12):1655-1660.[12] Wang,bel propagation through linear neighborhood[J].IEEE Trans on Knowledge and Data Engineering,2008,20(1):55-67.[13] 丁宇新,肖骁,等.基于半监督学习的社交网络用户属性预测[J].通信学报,2014,35(8):15-22.。