EM算法及其在半监督学习中的运用

格式：ppt
大小：730.50 KB
文档页数：57

下载文档原格式

/ 57

em算法的应用场景和案例

em算法的应用场景和案例EM算法（Expectation Maximization Algorithm）是一种常用的统计学习方法，主要用于估计含有隐变量的概率模型的参数。

以下是EM算法的一些应用场景和案例：1.K-Means聚类：这是EM算法的硬聚类应用案例。

在K-Means聚类中，我们试图将数据划分为K个不同的簇，其中每个簇的中心是所有属于该簇的数据点的平均值。

EM算法在这里被用来迭代地更新簇的中心和分配数据点到最近的簇。

2.GMM（高斯混合模型）聚类：这是EM算法的软聚类应用案例。

高斯混合模型是一种概率模型，它假设所有的数据点都是由几个高斯分布混合而成的。

EM算法在这里被用来估计每个高斯分布的参数以及每个数据点属于每个高斯分布的概率。

3.PLSA（概率潜在语义分析）模型：在文本挖掘和信息检索中，PLSA模型被用来发现文档和单词之间的潜在主题。

EM算法在这里被用来估计模型中的参数，包括每个文档的主题分布和每个主题中的单词分布。

4.硬币投掷实验：这是一个简单的EM算法应用案例。

假设有三枚硬币A，B，C，我们不知道它们投掷出正面的概率。

在实验中，我们首先投掷硬币A，如果A出现正面，我们就选择硬币B投掷，否则选择硬币C。

我们只观察到了所选择的硬币的投掷结果（正面或反面），而没有观察到硬币A的投掷结果。

EM算法在这里可以被用来估计三枚硬币投掷出正面的概率。

5.在自然语言处理中的应用：EM算法还可以用于词义消歧和主题模型中，例如隐含狄利克雷分布（LDA）。

在这些模型中，EM算法用于估计话题的分布和文档中单词的主题分配。

6.图像处理和计算机视觉：EM算法也广泛应用于图像处理和计算机视觉领域，例如用于混合高斯模型（GMM）来分割图像，或者用于隐马尔可夫模型（HMM）来进行图像序列分析等。

7.在生物信息学中的应用：EM算法在生物信息学中也有广泛的应用，例如在基因表达数据的分析、蛋白质分类和基因序列分析等领域。

EM算法

在医学研究中的应用
ˆ 和 ˆ 2： 3)计算均值和方差的最大似然估计校正值
2 ˆ ˆ 4)重复以上的2-3步,直至和收敛为止。
经过EM迭代算法可得:
迭代算法补入的两个数据:第4行第5个为2.5216,第8行第3个为4.5522。
在医学研究中的应用
5)MonteCarlo模拟,随机取 x
假设我们想估计知道A和B两个参数，在开始状态下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，持续迭代直到收敛为止。
迭代的结果真的有效吗？
从最大似然到EM算法
EM算法推导
里面了。那下一步怎么办啊？你开始喊：“男的左边，女的右边！”。然后你就先统计抽样得某些男生和女生一见钟情，无法硬把他们拉扯开。那现在这200个人已经混到一起了，到的 100个男生的身高。随便指出一个人（的身高），无法确定这个人（的身高）是男生（的身高）还是女生（的身假设他们的身高是服从高斯分布的。但是这个分布的均值 μ和方差σ2我们不知道，这两个参数高）。也就是说不知道抽取的那200个人里面的每一个人到底是从男生的那个身高分布里面就是我们要估计的。记作 θ=[μ,σ2]T 抽取的，还是女生的那个身高分布抽取的。用数学的语言就是，抽取得到的每个样本都不知道是从哪个分布抽取的。两个问题需要估计：一是这个人是男的还是女的？
i 1 zi
p( xi , zi ; ) ln LEM ( ) ln p( xi , zi ; ) ln Q( zi ) Q( zi ) i zi i zi p( xi , zi ; ) Q( zi ) ln Q( zi ) i zi

贝叶斯算法em算法

贝叶斯算法em算法贝叶斯算法和EM算法是统计学中两种重要的方法，它们在数据分析和机器学习领域被广泛应用。

这是两种独立存在的算法，但它们之间存在一种紧密联系。

本文将全面介绍贝叶斯算法和EM算法的概念、原理及其在实际问题中的应用，希望能对读者有指导意义。

首先，我们来了解一下贝叶斯算法。

贝叶斯算法是基于贝叶斯定理的一种概率统计方法，它可以用来从已知的先验概率和新的证据中计算出各种事件的后验概率。

贝叶斯算法的核心思想是通过利用已知的先验知识来更新对未知事件的概率估计，从而得到更准确的预测结果。

它在机器学习中常用于分类问题，通过训练集的样本数据来构建模型，并利用贝叶斯公式进行分类。

与贝叶斯算法相比，EM算法是一种更为复杂的统计学习方法。

EM算法全称为Expectation-Maximization算法，它是一种迭代优化算法，用于求解含有隐变量（未观测到的变量）的概率模型。

EM算法的基本思想是通过两个步骤交替进行，即期望步骤（E步）和最大化步骤（M 步）。

在E步，根据当前的模型参数估计，计算出隐变量的后验概率；在M步，利用已知的观测数据和隐变量的后验概率来更新模型参数。

通过不断迭代这两个步骤，EM算法可以逐步求得最优的模型参数估计。

贝叶斯算法和EM算法可以说是一对有着紧密联系的算法。

贝叶斯算法使用先验概率和后验概率来进行推断，而EM算法则是在给定观测数据和隐变量的情况下，通过迭代优化来估计模型参数。

两者的共同点在于都涉及到概率的推断和模型参数的估计，都是用于解决实际问题的重要方法。

在实际应用中，贝叶斯算法和EM算法有广泛的应用领域。

贝叶斯算法在文本分类、垃圾邮件过滤、推荐系统等领域有着重要应用。

它通过建立模型，利用文本特征对文档进行分类，能够实现精准的分类结果。

EM算法则在聚类、图像分割、高斯混合模型等问题中得到广泛应用。

它通过利用隐变量进行聚类、分割和建模，能够更好地解决复杂的实际问题。

总结来说，贝叶斯算法和EM算法是两种重要的统计学习方法，它们在实际问题中发挥着重要的作用。

机器学习原理及应用练习题答案

第一章机器学习概述1.机器学习研究什么问题，构建一个完整的机器学习算法需要哪些要素？机器学习主要研究如何选择统计学习模型，从大量已有数据中学习特定经验。

构建一个完整的机器学习算法需要三个方面的要素，分别是数据，模型，性能度量准则。

2.可以生成新数据的模型是什么，请举出几个例子可以生成新数据的模型是生成模型，典型的生成模型有朴素贝叶斯分类器、高斯混合模型、隐马尔可夫模型、生成对抗网络等。

3.监督学习、半监督学习和无监督学习是什么，降维和聚类属于哪一种？监督学习是指样本集合中包含标签的机器学习，无监督学习是无标签的机器学习，而半监督学习介于二者之间。

降维和聚类是无监督学习。

4.过拟合和欠拟合会导致什么后果，应该怎样避免？过拟合导致模型泛化能力弱，发生明显的预测错误，往往是由于数据量太少或模型太复杂导致，通过增加训练数据量，对模型进行裁剪，正则化的方式来缓解。

而欠拟合则会导致模型不能对数据进行很好地拟合，通常是由于模型本身不能对训练集进行拟合或者训练迭代次数太少，解决方法是对模型进行改进，设计新的模型重新训练，增加训练过程的迭代次数。

5.什么是正则化，L1正则化与L2正则化有什么区别？正则化是一种抑制模型复杂度的方法。

L1正则化能够以较大概率获得稀疏解，起到特征选择的作用，并且可能得到不止一个最优解。

L2正则化相比前者获得稀疏解的概率小的多，但得到的解更加平滑。

第二章逻辑回归与最大熵模型1.逻辑回归模型解决（B ）A.回归问题B.分类问题C.聚类问题D.推理问题2.逻辑回归属于（B ）回归A.概率性线性B.概率性非线性C.非概率性线性D.非概率性非线性3.逻辑回归不能实现（D ）A.二分类B.多分类C.分类预测D.非线性回归4.下列关于最大熵模型的表述错误的是（B ）A.最大熵模型是基于熵值越大模型越稳定的假设B.最大熵模型使用最大熵原理中一般意义上的熵建模以此缩小模型假设空间C.通过定义最大熵模型的参数可以实现与多分类逻辑回归相同的作用D.最大熵模型是一种分类算法5.下列关于模型评价指标的表述错误的是（C ）A.准确率、精确率、召回率以及AUC均是建立在混淆矩阵的基础上B.在样本不平衡的条件下准确率并不能作为很好的指标来衡量结果C.准确率表示所有被预测为正的样本中实际为正的样本的概率D.一般来说，置信度阈值越高，召回率越低，而精确率越高6.简述逻辑回归的原理。

李宏毅深度学习笔记-半监督学习

李宏毅深度学习笔记-半监督学习半监督学习什么是半监督学习？⼤家知道在监督学习⾥，有⼀⼤堆的训练数据（由input和output对组成）。

例如上图所⽰x r是⼀张图⽚，y r是类别的label。

半监督学习是说，在label数据上⾯，有另外⼀组unlabeled的数据，写成x u (只有input没有output)，有U笔ublabeled的数据。

通常做半监督学习的时候，我们常见的情景是ublabeled的数量远⼤于labeled的数量（U>>R)。

半监督学习可以分成两种：⼀种叫做转换学习，ublabeled 数据就是testing set，使⽤的是testing set的特征。

另⼀种是归纳学习，不考虑testing set，学习model的时候不使⽤testing set。

unlabeled数据作为testing set，不是相当于⽤到了未来数据吗？⽤了label 才算是⽤了未来数据，⽤了testing set的特征就不算是使⽤了未来数据。

例如图⽚，testing set的图⽚特征是可以⽤的，但是不能⽤label。

什么时候使⽤转换学习或者归纳学习？看testing set是不是给你了，在⼀些⽐赛⾥，testing set给你了，那么就可以使⽤转换学习。

但在真正的应⽤中，⼀般是没有testing set的，这时候就只能做归纳学习。

为什么使⽤半监督学习？缺有lable的数据，⽐如图⽚，收集图⽚很容易，但是标注label很困难。

半监督学习利⽤未标注数据做⼀些事。

对⼈类来说，可能也是⼀直在做半监督学习，⽐如⼩孩⼦会从⽗母那边做⼀些监督学习，看到⼀条狗，问⽗亲是什么，⽗亲说是狗。

之后⼩孩⼦会看到其他东西，有狗有猫，没有⼈会告诉他这些动物是什么，需要⾃⼰学出来。

为什么半监督学习有⽤？假设现在做分类任务，建⼀个猫和狗的分类器。

有⼀⼤堆猫和狗的图⽚，这些图⽚没有label。

Processing math: 100%假设只考虑有label的猫和狗图⽚，要画⼀个边界，把猫和狗训练数据集分开，可能会画⼀条如上图所⽰的红⾊竖线。

半监督学习中的半监督降维与半监督聚类的关系分析(六)

半监督学习（Semi-Supervised Learning）是指在一部分有标签数据和大量无标签数据的情况下进行学习的方法。

在现实生活中，很多机器学习任务往往无法获得足够的标签数据，因此半监督学习成为了一种重要的学习范式。

在半监督学习中，降维和聚类是两个重要的任务，在本文中我将讨论半监督降维与半监督聚类的关系。

降维（Dimensionality Reduction）是指将高维数据映射到低维空间的过程。

在监督学习中，常见的降维方法有主成分分析（PCA）和线性判别分析（LDA）等。

这些方法在有标签数据的情况下能够有效地降低数据的维度，提取出最重要的特征。

然而，在半监督学习中，我们往往只有一小部分数据是有标签的，因此传统的监督降维方法无法直接应用。

在这种情况下，半监督降维方法就显得至关重要了。

半监督降维方法主要有两种：一种是基于图的方法，另一种是基于生成模型的方法。

基于图的方法将数据看作是图的节点，节点之间的相似性作为边的权重，然后通过图的特征进行降维。

典型的方法有拉普拉斯特征映射（LE）和局部线性嵌入（LLE）等。

这些方法在处理半监督降维问题时能够充分利用无标签数据的信息，从而获得更好的降维效果。

而基于生成模型的方法则是通过对数据的分布进行建模，然后利用模型进行降维。

这类方法中，最著名的就是自编码器（Autoencoder）了。

自编码器通过学习数据的特征表示，然后再将其映射到低维空间中。

这类方法在处理半监督学习问题时同样表现出了很好的效果。

与降维相似，聚类（Clustering）也是无监督学习的一种重要方法。

聚类是指将数据划分为若干个不相交的簇的过程。

在传统的无监督学习中，聚类方法如K均值（K-means）和层次聚类（Hierarchical Clustering）等被广泛应用。

然而，在半监督学习中，我们往往需要利用有标签数据的信息来指导聚类过程，因此半监督聚类方法就显得尤为重要。

半监督聚类方法可以分为基于图的方法和基于生成模型的方法两种。

半监督学习中的半监督聚类算法详解(七)

半监督学习中的半监督聚类算法详解半监督学习是指在训练过程中，使用了未标记数据的学习方式。

与监督学习只使用标记数据不同，半监督学习可以更好地利用未标记数据，从而提高模型的泛化能力。

在半监督学习中，半监督聚类算法是一种重要的技术，它可以帮助我们对未标记数据进行聚类，并且可以通过一小部分标记数据来指导聚类的过程。

一、半监督学习概述半监督学习是指在机器学习过程中，使用了部分标记数据和大量未标记数据的学习方式。

在实际应用中，标记数据通常很难获取和标记，而未标记数据则很容易获取，因此半监督学习具有很高的实用价值。

半监督学习的关键挑战在于如何有效地利用未标记数据来提高模型的性能。

二、半监督聚类算法原理半监督聚类算法是一种能够利用少量标记数据来指导未标记数据聚类的算法。

传统的聚类算法通常只能利用未标记数据进行聚类，而半监督聚类算法可以利用标记数据中的信息来优化聚类结果。

半监督聚类算法的核心思想是将标记数据的信息融入到聚类过程中，从而提高聚类的准确性。

三、基于图的半监督聚类算法基于图的半监督聚类算法是一种常用的半监督聚类算法。

该算法通过构建数据样本之间的图结构，利用图的连接信息来指导聚类过程。

在图的构建过程中，标记数据被用来初始化图中的节点，然后通过图的传播过程来逐步扩展聚类结果。

基于图的半监督聚类算法能够有效地利用标记数据的信息，从而提高聚类的准确性。

四、半监督聚类算法的应用半监督聚类算法在实际应用中具有广泛的应用价值。

例如，在社交网络分析中，往往只有少量节点被标记，而大部分节点是未标记的。

利用半监督聚类算法可以更好地挖掘社交网络中的群体结构和社区发现。

另外，在生物信息学中，半监督聚类算法也被广泛应用于基因表达数据的分析和挖掘，能够帮助科学家们更好地理解基因之间的关系和功能。

五、半监督聚类算法的挑战尽管半监督聚类算法在一些领域取得了成功，但是在实际应用中还存在一些挑战。

其中一个挑战是如何有效地利用标记数据指导未标记数据的聚类过程，特别是当标记数据的数量非常有限时，如何设计有效的算法仍然是一个挑战。

EM算法及其应用

EM算法及其应用EM算法作为一种常用的统计方法，被广泛应用于各种领域，如计算机视觉、自然语言处理、生物信息学等。

在本文中，我们将详细探讨EM算法及其应用。

一、EM算法概述EM算法（Expectation-Maximization Algorithm）是一种用于概率模型参数估计的迭代算法，由Arthur Dempster等人于1977年提出。

它可以用于处理带有隐变量的模型参数估计，也可以被看做一种极大化带有隐变量的数据似然函数的方法。

EM算法的核心思想是将似然函数分解为两部分，一部分是观测数据，另一部分是隐变量。

在每次迭代中，EM算法首先根据当前参数的值计算出对隐变量的期望，即E步。

然后，它通过极大化在E步中计算出的隐变量的期望下的似然函数来更新参数，即M步。

这个过程不断迭代，直到收敛为止。

二、EM算法应用案例1. 高斯混合模型高斯混合模型（Gaussian Mixture Model，GMM）是一种用来描述多个高斯分布的模型。

在计算机视觉中，GMM被广泛应用于图像分割和姿态估计等领域。

由于图像中的像素值往往服从高斯分布，因此使用GMM进行图像分割时，可以将像素分为多个高斯分布。

使用EM算法进行GMM参数估计的步骤如下：1) 初始化高斯分布的个数和参数；2) E步：计算每个样本属于每个高斯分布的概率，即计算隐变量的期望；3) M步：根据在E步中计算出的隐变量的期望，更新高斯分布的均值和方差。

4) 不断迭代E步和M步，直到收敛。

2. K均值聚类K均值聚类是一种无监督学习的算法，它将n个样本划分为k 个簇，使得每个样本都属于距离它最近的簇。

这种算法被广泛应用于图像分割和文本聚类等领域。

使用EM算法进行K均值聚类的步骤如下：1) 随机初始化k个簇的中心点；2) E步：将每个样本分配到距离它最近的簇中，即计算隐变量的期望；3) M步：根据在E步中计算出的隐变量的期望，更新每个簇的中心点；4) 不断迭代E步和M步，直到收敛。

机器学习中的半监督学习算法

机器学习中的半监督学习算法半监督学习是机器学习中的一种重要算法，主要针对数据量大但带标签数据较少的情况下进行的算法研究，既不是纯监督学习也不是纯无监督学习。

半监督学习通过利用带标签数据和未标签数据之间的信息交互，尽可能地扩展已有的标记数据的范围，从而达到利用数据的最大化。

在本文中，我们将重点介绍半监督学习中的算法。

一、半监督学习的基本概念半监督学习的基本思想是使用未标记数据和已标记数据建立一个联合分布模型，通过最大似然估计的方法得到分布模型参数的近似解，进而对未标记数据进行分类。

半监督学习的学习过程可以分为以下三个步骤：1. 利用标记数据训练监督学习模型，得到分类器。

2. 用分类器对未标记数据进行预测，将预测结果作为这些数据的标记。

3. 重新训练监督学习模型，并更新分类器。

值得注意的是，半监督学习并不是对所有未标记数据都会给出标记，而是对其中一部分进行标记，并且标记的选择要尽可能地有利于分类器的训练和泛化能力。

二、半监督学习的应用半监督学习在文本分类、图像分类、计算机视觉和语音识别等领域都有广泛的应用。

其中，基于分类器的半监督学习算法在文本分类领域中应用最为广泛。

例如，一个从网上收集的新闻分类数据集中，只有一小部分新闻被标注了类别，但是有大量的未标注新闻。

在这种情况下，半监督学习可以通过使用带标签的新闻和无标签的数据来训练分类器，然后使用该分类器来对未标注的新闻进行分类。

三、常见的半监督学习算法1. 基于图的半监督学习算法图表示数据对象之间的相似性，相似的对象之间连一条边，然后通过对该图进行染色，将数据对象分成不同的类别。

基于图的半监督学习算法是利用此方法将标记传递到未标记的数据上。

2. 生成模型的半监督学习算法生成模型的半监督学习算法是一个参数化的概率密度函数，它可以根据带标签数据的参数来推断未标签数据的类别。

该方法通常使用EM算法来学习参数，使得在训练数据上的似然函数最大。

3. 半监督支持向量机算法半监督支持向量机算法基于深度学习框架，采用回归的方式进行训练。

机器学习中的半监督分类算法研究

机器学习中的半监督分类算法研究随着数据的爆炸式增长，如何进行精准分类成为了一个不可避免的问题。

而在机器学习中，半监督分类算法就是一种解决这类问题的有效手段之一。

半监督学习半监督学习是介于有监督学习和无监督学习间的一种学习方式。

有监督学习是指已知训练集中每个样本的标记信息，从而可以根据这些标记信息构建分类模型。

无监督学习则是指在没有标记信息的情况下，根据给出的数据结构或者其它一些特征来进行分类。

而半监督学习则是利用一部分标记信息来引导无标记样本的分类。

在许多实际应用中，获取标记信息是一个非常费时费力的工作，而无标记信息又不能充分利用所有的相关知识。

这时，半监督学习模型就可以通过一个平衡无标记样本和少量标记样本的方法来解决上述问题。

半监督分类算法在机器学习中，半监督分类算法主要可以分为基于图的半监督分类算法和基于生成模型的半监督分类算法两大类。

基于图的半监督分类算法基于图的半监督分类算法是以多元图的形式表现数据集中的数据关系，以此来推断出未标识的数据样本的分类结果。

常用的基于图的半监督分类算法有两种，分别是基于传输学习的分类算法和基于图的半监督学习算法。

传输学习是将一个模型的知识应用在不同于学习数据的模型上。

基于传输学习的分类算法，是利用已有的标识数据，训练产生一种通用知识模型，然后将这种模型迁移到更广泛的应用领域。

通常情况下，基于传输学习的分类算法采用神经网络作为模型，尤其是在计算机视觉领域中更是如此。

基于图的半监督学习算法，可以根据数据的相似性在数据空间中构建一张权重图。

其中每个节点表示一个数据样本，边代表这些样本之间的近似关系。

根据这个图可以得到未标识数据样本的分类结果。

基于生成模型的半监督分类算法相比于基于图的半监督分类算法，基于生成模型的半监督分类算法则通过估计数据的数据分布来进行分类。

基于生成模型的半监督分类算法将训练的数据集分为带标识和无标识的部分，然后采用EM算法对模型进行训练。

由于EM算法可以处理不完整数据集，所以该算法可以非常好的处理有少量标识数据的情况。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

k 1 i 1
M
N
对上式使用拉格朗日乘数法可得 N
k new
1 N
p(k | x ,
i 1 i
old
)
求偏导并令值为零分别得： N
k new
old x p ( k | x , ) i i i 1 N
p(k | x ,
i 1 i
old
)
k new
Q( , old ) Ez [log p( X , Z| )|X, old ]
Q ( , old ) Ez [log p ( X , Z| )|X, old ] log p ( X , Z| ) p( Z | X , old )
z z
log p ( X , Z | ) f ( Z | X , old ) dZ
i 1 M

其中Ni ( x; i , i ) 为均值为 i ，协方差为 i 的高斯分布， i 是混合参数，看做第i个高斯分布的权重，表征先验概率。且

i 1
M
i
1且0 i 1
EM问题描述

Ni ( x; i , i )的概率密度函数为
1 1 T 1 Ni ( x) exp ( x ) ( x ) d /2 i i i 1/2 (2 ) i 2
log(L( | , y )) f ( y | , t )dy
y y t t y
l ( t1 | ) l ( t | ) Q( t1 , t ) Q( t , t ) D( t , t1 )
t f ( y | , ) t 其中，D( t , t 1 ) log f ( y | , )dy 0 t 1 y f ( y | , )

对E步计算得到的完整似然函数的期望求极大值（EM的M步），得到参数新的估计值，即每次参数更新会增加非完整似然值反复迭代后，会收敛到似然的局部最大值

23
EM的收敛性
Q( , t ) [log L( | , ) | , t ]
log(f ( y | , ) f ( | )) f ( y | , )dy log(f ( y | , )) f ( y | , )dy l ( | )

参数估计的最常用方法是最大似然估计，通过使似然函数达到最大值得到参数的估计值。将高斯混合密度函数中所有待定的参数记为，则似然函数为：
P( X | ) P( xi | ) arg max P( X | )i 1 N源自EM问题描述
为了使问题简化，我们求
生成模型中的EM算法

假设我们有两种类型的数据集：
未标注数据：这个数据集由Nu 个样本构成xi Rl , i 1, 2..., 我们假设这些数据是相互独立、并且按照相同概率分配给随机向量，这些向量来自边缘分布p( x; , P), 它也受 , P
T [P , P ,..., P ] 等参数的限定，由Du定义相应集合。 1 2 M
log( p( X | )) log p( xi | ) log( k N ( xi ; k , k ))
i 1 i 1 k 1 N N K

的最大值。这里由于有和的对数，求导后形式复杂，因此不能使用一般的求偏导并令导数为零的方法。
EM算法原理

简化的问题：某混合高斯分布一共有k个分布，并且对于每一个观察到的x，如果我们同时还知道它是属于k中哪一个分布的，则求各个参数并不是件难事。比如用z来表示每一个高斯分布，那么我们的观察集不仅仅是{x1,x2,x3…},而是 {(x1,z2),(x2,z3), (x3,z1)…} 而现实往往是：我们不知道每个x属于哪个分布，也就是说z是我们观察不到的，z是隐藏变量。
半监督学习
(Semi-supervised Learning )
学习分类

有监督的学习：学习器通过对大量有标记的训练例进行学习，从而建立模型用于预测未见示例的标记 (label)。很难获得大量的标记样本。无监督的学习：无训练样本，仅根据测试样本的在特征空间分布情况来进行标记，准确性差。半监督的学习：有少量训练样本，学习机以从训练样本获得的知识为基础，结合测试样本的分布情况逐步修正已有知识，并判断测试样本的类别。
26
生成模型中的EM算法
Du : Lu ( ) Inp ( xi ; ) In Py p ( xi | y; )
i 1 i 1 y 1 Nu Nu M
Nl ! Dl : Ll ( ) Inp ( y, ziy | y; ) In N1 ! N 2 !...N M ! y 1 i 1 Nl ! In( p y p ( ziy | y; )) In N1 ! N 2 !...N M ! y 1 i 1 E 步骤：

半监督学习的过程
半监督学习背景
传统的训练学习算法需要利用大量有标记的样本进行学习。随着信息技术的飞速发展，收集大量未标记的（unlabeled）样本已相当容易，而获取大量有标记的示例则相对较为困难，因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本来改善学习性能成为当前模式识别研究中备受关注的问题。优点：半监督学习（Semi-supervised Learning）能够充分利用大量的未标记样本来改善分类器的性能，是目前利用未标记样本进行学习的主流技术。

当Q取极大值时，观测数据的似然也在相同点取极大值 EM算法会收敛到似然的局部极大值
24
EM算法缺点

1）EM算法比K-means算法计算复杂，收敛也较慢，不适于大规模数据集和高维数据，但比K-means算法计算结果稳定、准确。 2）需要已知样本聚类数目 3）对初值敏感 4）爬山技术，局部最优解 5）对孤立点敏感，有噪音时效果差
2 Q ( ; (t )) p ( y | xi ; (t )) In( p ( xi | y; y , y ) Py )) i 1 y 1 2 In( p ( ziy | y; y , y ) Py ) i 1
9
极大似然估计(MLE)
独立同分布(IID)的数据 ( X , X , , X 其概率密度函数为 f ( x | ) 似然函数定义为 L( | ) f ( | ) f ( X | ) log似然函数定义为l ( | ) logL( | )

1 2
抛硬币实例
20
抛硬币实例
21
EM—Expectation

观测数据X已知，参数的当前值 t 已知，在完整似然函数中，缺失数据(隐含变量 ) Y未知，完整log似然函数对Y求期望。定义其中是待确定的参数通过求期望，去掉了完整似然函数中的变量Y。即EM的E步。
22

EM—Maximization
EM算法原理

假定可以观察到Z，问题变为求下式最大值
P( X , Z | ) log p( xi , zi | ) log( i N ( xi ; zi , zi ))
i 1 i 1 N N

但是Z是观察不到的，因此EM算法假设Z的分布依据上一轮的估计参数确定，求取上式期望的最大值。定义：
old new new T p ( k | x , )( x )( x ) i i k i k i 1
N
p(k | x ,
i 1 i
N
old
)

p(k | xi , (i 1) )可由下式求得。其中，
old p ( k , x | ) old i p (k | xi , ) p ( xi | old )
z11 z 2 1 M N Zn 1 i 1 j 1
M
N
N
log( k pk ( xi ; k , k )) p( k | xi , old )
k 1 i 1 M N
log( k ) p ( k | xi ,
k 1 i 1
old
) log( pk ( xi ; k , k )) p( k | xi , old )
生成模型（Generative Model)中目前最流行的方法是期望最大化（EM）算法，期望最大化是一种基于循环过程的最大似然参数估计方法，用于解决带缺失数据的参数估计问题。是最早的半监督学习方法。
EM算法描述

EM是一种聚类算法聚类：将数据集中的数据分成若干类（簇），使类内相似度尽可能大，类间相似度尽可能小 EM算法是基于模型的聚类方法，假设样本分布符合高斯混合模型，算法目的是确定各个高斯部件的参数，充分拟合给定数据，并得到一个模糊聚类，即每个样本以不同概率属于每个高斯分布，概率数值将由以上各个参数计算得到。
半监督学习的应用领域

在进行Web网页推荐时，需要用户标记出哪些网页是他感兴趣的，很少会有用户愿意花大量的时间来提供标记，因此有标记的网页示例比较少，但Web上存在着无数的网页，它们都可作为未标记示例来使用。这类问题直接来自于实际应用：例如，大量医学影像，医生把每张片子上的每个病例都标出来再进行学习，是不可能的，能否只标一部分，并且还能利用未标的部分？

p ( k | old ) p ( xi | k , old )
p (l |
l 1 M
M
old
) p ( xi | l ,
old
)

k old N ( xi | k old , k old )