主题模型LDAppt课件

格式：ppt
大小：6.40 MB
文档页数：16

下载文档原格式

LDA主题模型

LDA主题模型（⼀）LDA作⽤传统判断两个⽂档相似性的⽅法是通过查看两个⽂档共同出现的单词的多少，如TF-IDF等，这种⽅法没有考虑到⽂字背后的语义关联，可能在两个⽂档共同出现的单词很少甚⾄没有，但两个⽂档是相似的。

举个例⼦，有两个句⼦分别如下：“乔布斯离我们⽽去了。

”“苹果价格会不会降？”可以看到上⾯这两个句⼦没有共同出现的单词，但这两个句⼦是相似的，如果按传统的⽅法判断这两个句⼦肯定不相似，所以在判断⽂档相关性的时候需要考虑到⽂档的语义，⽽语义挖掘的利器是主题模型，LDA就是其中⼀种⽐较有效的模型。

在主题模型中，主题表⽰⼀个概念、⼀个⽅⾯，表现为⼀系列相关的单词，是这些单词的条件概率。

形象来说，主题就是⼀个桶，⾥⾯装了出现概率较⾼的单词，这些单词与这个主题有很强的相关性。

怎样才能⽣成主题？对⽂章的主题应该怎么分析？这是主题模型要解决的问题。

⾸先，可以⽤⽣成模型来看⽂档和主题这两件事。

所谓⽣成模型，就是说，我们认为⼀篇⽂章的每个词都是通过“以⼀定概率选择了某个主题，并从这个主题中以⼀定概率选择某个词语”这样⼀个过程得到的。

那么，如果我们要⽣成⼀篇⽂档，它⾥⾯的每个词语出现的概率为：这个概率公式可以⽤矩阵表⽰：其中”⽂档-词语”矩阵表⽰每个⽂档中每个单词的词频，即出现的概率；”主题-词语”矩阵表⽰每个主题中每个单词的出现概率；”⽂档-主题”矩阵表⽰每个⽂档中每个主题出现的概率。

给定⼀系列⽂档，通过对⽂档进⾏分词，计算各个⽂档中每个单词的词频就可以得到左边这边”⽂档-词语”矩阵。

主题模型就是通过左边这个矩阵进⾏训练，学习出右边两个矩阵。

主题模型有两种：pLSA（ProbabilisticLatent Semantic Analysis）和LDA（Latent Dirichlet Allocation），下⾯主要介绍LDA。

（⼆）LDA介绍如何⽣成M份包含N个单词的⽂档，LatentDirichlet Allocation这篇⽂章介绍了3⽅法：⽅法⼀：unigram model该模型使⽤下⾯⽅法⽣成1个⽂档：For each ofthe N words w_n:Choose a word w_n ～ p(w);其中N表⽰要⽣成的⽂档的单词的个数，w_n表⽰⽣成的第n个单词w，p(w)表⽰单词w的分布，可以通过语料进⾏统计学习得到，⽐如给⼀本书，统计各个单词在书中出现的概率。

文本主题模型之LDA（一）LDA基础

⽂本主题模型之LDA（⼀）LDA基础在前⾯我们讲到了基于矩阵分解的LSI和NMF主题模型，这⾥我们开始讨论被⼴泛使⽤的主题模型：隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称LDA)。

注意机器学习还有⼀个LDA，即线性判别分析，主要是⽤于降维和分类的，如果⼤家需要了解这个LDA的信息，参看之前写的。

⽂本关注于隐含狄利克雷分布对应的LDA。

1. LDA贝叶斯模型 LDA是基于贝叶斯模型的，涉及到贝叶斯模型离不开“先验分布”，“数据（似然）”和"后验分布"三块。

在中我们也已经讲到了这套贝叶斯理论。

在贝叶斯学派这⾥：先验分布 + 数据（似然）= 后验分布这点其实很好理解，因为这符合我们⼈的思维⽅式，⽐如你对好⼈和坏⼈的认知，先验分布为：100个好⼈和100个的坏⼈，即你认为好⼈坏⼈各占⼀半，现在你被2个好⼈（数据）帮助了和1个坏⼈骗了，于是你得到了新的后验分布为：102个好⼈和101个的坏⼈。

现在你的后验分布⾥⾯认为好⼈⽐坏⼈多了。

这个后验分布接着⼜变成你的新的先验分布，当你被1个好⼈（数据）帮助了和3个坏⼈（数据）骗了后，你⼜更新了你的后验分布为：103个好⼈和104个的坏⼈。

依次继续更新下去。

2. ⼆项分布与Beta分布对于上⼀节的贝叶斯模型和认知过程，假如⽤数学和概率的⽅式该如何表达呢？对于我们的数据（似然），这个好办，⽤⼀个⼆项分布就可以搞定，即对于⼆项分布：Binom(k|n,p)=(nk)pk(1−p)n−kBinom(k|n,p)=(nk)pk(1−p)n−k 其中p我们可以理解为好⼈的概率，k为好⼈的个数，n为好⼈坏⼈的总数。

虽然数据(似然)很好理解，但是对于先验分布，我们就要费⼀番脑筋了，为什么呢？因为我们希望这个先验分布和数据（似然）对应的⼆项分布集合后，得到的后验分布在后⾯还可以作为先验分布！就像上⾯例⼦⾥的“102个好⼈和101个的坏⼈”，它是前⾯⼀次贝叶斯推荐的后验分布，⼜是后⼀次贝叶斯推荐的先验分布。

LDA模型

LDA(主题模型)算法&&概念：首先引入主题模型(Topic Model)。

何谓“主题”呢？望文生义就知道是什么意思了，就是诸如一篇文章、一段话、一个句子所表达的中心思想。

不过从统计模型的角度来说，我们是用一个特定的词频分布来刻画主题的，并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。

LDA可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。

它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为易于建模的数字信息。

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。

所谓生注：每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

备注：流程（概率分布）：→→许多（单）词某些主题一篇文档/**解释：LDA生成过程*对于语料库中的每篇文档，LDA定义了如下生成过程(generativeprocess): *1.对每一篇文档，从主题分布中抽取一个主题;*2.从上述被抽到的主题所对应的单词分布中抽取一个单词;*3.重复上述过程直至遍历文档中的每一个单词。

**/把各个主题z在文档d中出现的概率分布称之为主题分布，且是一个多项分布。

把各个词语w在主题z下出现的概率分布称之为词分布，这个词分布也是一个多项分布。

&&深入学习：理解LDA，可以分为下述5个步骤：1.一个函数：gamma函数2.四个分布：二项分布、多项分布、beta分布、Dirichlet分布3.一个概念和一个理念：共轭先验和贝叶斯框架4.两个模型：pLSA、LDA（在本文第4 部分阐述）5.一个采样：Gibbs采样本文便按照上述5个步骤来阐述，希望读者看完本文后，能对LDA有个尽量清晰完整的了解。

lda模型的原理及其应用

LDA模型的原理及其应用1. 简介LDA（Latent Dirichlet Allocation）模型是一种生成模型，用于从文本中发现主题及其分布。

LDA模型在文本挖掘、信息检索和推荐系统等领域有着广泛的应用。

2. LDA模型原理LDA模型基于以下两个假设： - 文档主题是从主题分布中随机抽取的。

- 文档中的每个单词是由文档的主题生成的。

LDA模型通过概率分布计算文档主题和主题中的单词。

具体步骤如下：2.1 数据预处理•分词：将文档中的句子分成单词。

•去除停用词：去除常见的无意义单词，如“是”、“的”等。

•词形还原：将词语还原为其基本形式。

2.2 主题生成步骤LDA模型假设每个文档包含多个主题，每个主题由多个单词组成。

具体生成步骤如下：1. 随机给定每个文档一个主题分布。

2. 随机给定每个主题一个单词分布。

3. 针对每个文档中的每个单词，依据主题分布和单词分布，重新分配主题。

4. 重复步骤3直到达到停止条件。

2.3 参数估计LDA模型通过迭代算法估计参数： 1. 随机初始化主题分布和单词分布。

2. 利用迭代算法（如Gibbs采样算法）更新主题分布和单词分布。

3. 重复步骤2直到达到停止条件。

3. LDA模型的应用LDA模型在文本挖掘和机器学习中有着广泛的应用。

下面列举了一些主要的应用领域：3.1 文档主题分析LDA模型可以用于发现文档集合中每个文档的主题及其分布。

这对于文档分类、信息检索和文本摘要等任务非常有用。

例如，可以利用LDA模型分析新闻文章的主题分布，从而快速了解文章内容。

3.2 推荐系统LDA模型可以应用于推荐系统中，用于推测用户的潜在主题兴趣。

通过利用LDA模型计算用户的主题分布，可以为用户生成个性化的推荐结果，提高推荐系统的准确性。

3.3 社交网络分析LDA模型可以应用于社交网络分析中，用于发现用户的主题兴趣和关联性。

通过分析用户发表的帖子或评论，可以了解用户的兴趣范围和社交网络中的关系。

主题模型介绍PPT

出现概率 Φ:K*V，主题-词矩阵
8
LDA
在PLSA基础上加入Dirichlet先验分布
9
10
w是观测值已知，z是隐含变量，真正需要采样的是
11
Gibbs sampling
MCMC 步骤：
- 1. choose dimension i (random or by permutation) - 2. sample xi from - 3. Iteration.
3
Dirichlet-Multinomial 共轭分布
贝叶斯法则
共轭分布：后验概率分布和先验概率分布有相同的形式
Mult(nr | pr , N) * Dir( pr | ar) : Dir( pr | ar nr)
4
隐性语义分析（LSA）
VSM:不能解决ห้องสมุดไป่ตู้词多义和一义多词 LAS：SVD分解
主题模型介绍
张永俊信息系统工程实验室中国人民大学
1
主要内容
Dirichlet-Multinomial 共轭分布 LSA、Unigram model 和PLSA LDA模型 Gibbs Sampling
2
Dirichlet-Multinomial 共轭分布
Multinomial分布 Dirichlet分布
左奇异向量表示词的一些特性，右奇异向量表示文档的一些特性，中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程序，数字越大越重要。
缺乏严谨的数理统计基础，而且SVD分解非常耗时
5
Unigram 模型
每篇文档都是由各个词组成（文档→词）所有的词服从独立的Multinomial分布 Dirichlet先验下的Unigram model：

LDA主题模型发现

LDA主题模型发现LDA主题模型发现1.LDA概念：LDA(Latent Dirichlet Allocation)主题模型由Blei于2003年提出，是在概率隐性语义索引(probabilistic Latent Semantic Indexing，pLSI)上扩展得到的三层贝叶斯概率模型，是⽂档⽣成概率模型。

LDA模型包含词项、主题和⽂档三层结构，其基本思想是把⽂档看成其隐含主题的混合，⽽每个主题则表现为跟该主题相关的词项的概率分布，LDA可以⽤来识别⼤规模⽂档集或语料库中潜在的主题信息。

LDA基于词袋(bag of words)模型，认为⽂档和单词都是可交换的，忽略单词在⽂档中的顺序和⽂档在语料库中的顺序，从⽽将⽂本信息转化为易于建模的数字信息。

在主题模型中，主题表⽰⼀个概念、⼀个⽅⾯，表现为⼀系列相关的单词，是这些单词的条件概率。

形象来说，主题就是⼀个桶，⾥⾯装了出现概率较⾼的单词，这些单词与这个主题有很强的相关性。

2.LDA⽣成过程：⾸先，可以⽤⽣成模型来看⽂档和主题这两件事。

那么，如果我们要⽣成⼀篇⽂档，它⾥⾯的每个词语出现的概率为：这个概率公式可以⽤矩阵表⽰其中”⽂档-词语”矩阵表⽰每个⽂档中每个单词的词频，即出现的概率；”主题-词语”矩阵表⽰每个主题中每个单词的出现概率；”⽂档-主题”矩阵表⽰每个⽂档中每个主题出现的概率。

LDA整体流程为：先定义⼀些字母的含义：⽂档集合D，topic集合TD中每个⽂档d看作⼀个单词序列，wi表⽰第i个单词，设d有n个单词。

（LDA⾥⾯称之为word bag，实际上每个单词的出现位置对LDA算法⽆影响）D中涉及的所有不同单词组成⼀个⼤集合VOCABULARY（简称VOC）LDA以⽂档集合D作为输⼊（会有切词，去停⽤词，取词⼲等常见的预处理，略去不表），希望训练出的两个结果向量（设聚成k个Topic，VOC中共包含m 个词）：对每个D中的⽂档d，对应到不同topic的概率θd，其中，pti表⽰d对应T中第i个topic的概率。

(14)主题模型

4 月机器学习算法班
21/26

LDA = pLSA + Dirichlet先验
规律: 相同主题的词经常同时出现在同一文档中，不同主题的词只同时出现在少数文档中很多如下生成的文档
document-topic分布: (台湾 0.05,旅游 0.12,美食 0.18, …) 每个词的topic ID, 如 “3”(美食) Topic-word分布: ��3 美食: 海鲜 0.04, 卤肉饭 0.03, 小吃 0.02 … 抽一个词，如“卤肉饭”
Dirichlet分布
Dir ��; ��, �� =
1 ��(��) �� −1 �� =1 ��
定义在向量��上，�� > 0, �� = 1 上每个合法的�� 对应一个离散分布的一组参数和离散分布形成共轭分布:
“环行台湾：慢步嘉义,吃一碗心仪的卤肉饭” 人可以从中看出几个主题：台湾、旅游、美食
每个主题 ��: 概率分布��(�� |��) ��1 =台湾: 台湾 0.05, 台北 0.04, 嘉义 0.03… ��2 =旅游: 飞机 0.03, 酒店 0.015, 火车 0.01 … ��3 =美食: 海鲜 0.04, 卤肉饭 0.03, 小吃 0.02 …
4 月机器学习算法班
�� 项乘积的求和

11/26
pLSA模型—推断思路
如果�� 里是求和，并且可以按{�� }分解就好算

主题模型LDA简介.pptx

24/49
贝叶斯参数估计的思考过程
先验分布：根据一般的经验认为随机变量的分布。后验分布：通过当前训练数据修正后的随机变量的分布，比先验分布更符合当前数据。似然估计：已知训练数据，给定了模型，通过让似然极大化估计模型参数的一种方法。
25/49
思考过程
先验分布：
26/49
思考过程
27/49
Beta分布的概率密度曲线
人类是怎么生成文档的呢？
LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题：Arts、Budgets、Children、 Education，然后通过学习训练，获取每个主题Topic对应的词语。如下图所示：
然后以一定的概率选取上述某个主题，再以一定的概率选取那个主题下的某个单词，不断的重复这两步，最终生成如下图所示的一篇文章（其中不同颜色的词语分别对应上图中不同主题下的词）：
16/49
划分为3段
17/49
事件E2：假设有2个数落在区间[x,x+Δx]
18/49
只需要考虑1个点落在区间[x,x+Δx]
19/49
X(k)的概率密度函数
20/49
Γ函数
• Γ函数是阶乘在实数上的推广
21/499
Beta-Binomial 共轭引例：
case1：
如果时间回到2006年，马云和杨致远的手还会握在一起吗? 阿里巴巴集团和雅虎就股权回购一事签署了最终协议。
case2：
富士苹果真好，赶快买！！！苹果7真好，赶快买！！！
为什么要引入主题模型？
• 文档之间是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让我们的搜索更加智能化。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。

LDA简洁PPT

∙ 变分法(Variational Inference) ∙ 抽样法(Gibbs Sampling)
p (��, z , w |��, �� ) p (w |��, �� )
肖智博 (DLMU-ITREC)
Topic Models, LDA and all that
性”
∙ 多数文章中，每篇文章的确仅有几个主题 ∙ 由于主题数目≪词汇数目，所以词汇会产生类似聚类的“共同出
现”效应
∙ 贝叶斯网络模型的条件独立性
肖智博 (DLMU-ITREC)
Topic Models, LDA and all that
April 21, 2011
26 / 35
Approximation Inference for LDA
要解决的问题：
∙ 什么作为词？ ∙ 什么是文档？ ∙ 什么作为主题？
解决方案：
∙ 简单做法：每副图像作为一个文档，图像块(image patches)作
为codebook当做词
∙ Spatial Latent Dirichlet Allocation
肖智博 (DLMU-ITREC)
Topic Models, LDA and all that
P (xn |y )
肖智博 (DLMU-ITREC)
Topic Models, LDA and all that
April 21, 2011
13 / 35
LDA in graphical model
肖智博 (DLMU-ITREC)
Topic Models, LDA and all that
April 21, 2011
肖智博 (DLMU-ITREC)

主题模型（概率潜语义分析PLSA、隐含狄利克雷分布LDA）

主题模型（概率潜语义分析PLSA、隐含狄利克雷分布LDA）⼀、pLSA模型1、朴素贝叶斯的分析（1）可以胜任许多⽂本分类问题。

（2）⽆法解决语料中⼀词多义和多词⼀义的问题——它更像是词法分析，⽽⾮语义分析。

（3）如果使⽤词向量作为⽂档的特征，⼀词多义和多词⼀义会造成计算⽂档间相似度的不准确性。

（4）可以通过增加“主题”的⽅式，⼀定程度的解决上述问题：⼀个词可能被映射到多个主题中（⼀词多义），多个词可能被映射到某个主题的概率很⾼（多词⼀义）2.pLSA模型基于概率统计的pLSA模型(probabilistic latentsemantic analysis, 概率隐语义分析)，增加了主题模型，形成简单的贝叶斯⽹络，可以使⽤EM算法学习模型参数。

（1）D代表⽂档，Z代表主题(隐含类别)，W代表单词；P(d i )表⽰⽂档d i 的出现概率， P(z k |d i )表⽰⽂档d i 中主题z k 的出现概率， P(w j |z k )表⽰给定主题z k 出现单词w j 的概率。

（2）每个主题在所有词项上服从多项分布，每个⽂档在所有主题上服从多项分布。

（3）整个⽂档的⽣成过程是这样的：以P(d i )的概率选中⽂档d i ；以P(z k |d i )的概率选中主题z k ；以P(w j |z k )的概率产⽣⼀个单词w j观察数据为(d i ,w j )对，主题z k 是隐含变量。

(d i ,w j )的联合分布为⽽对应了两组多项分布，⽽计算每个⽂档的主题分布，就是该模型的任务⽬标。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

6
事件E2：假设有2个数落在区间[x,x+Δx]
7
只需要考虑1个点落在区间[x,x+Δx]
8
X(k)的概率密度函数
9
补充：Γ函数
Γ函数是阶乘在实数上的推广
10
利用Γ函数
11
增加观测数据
12
思考过程
13
思考过程
14
共轭分布
注：上式中的加号“+”，并不代表实际的数学公式是相加，事实上，实际计算过程是相乘的。
归一化这个等式后会得到另一个Beta分布，即：伯努利分布的共轭先验是Beta分布。
24
伪计数
可以发现，在后验概率的最终表达式中，参数α和β和x，1-x一起作为参数θ的指数。而这个指数的实践意义是：投币过程中，正面朝上的次数。因此， α和β常常被称作“伪计数”。
25
推广
二项分布多项分布 Beta分布Dirichlet分布
20
共轭先验分布的提出
某观测数据服从概率分布P(θ)时，当观测到新的X数据时，有如下问题：
可否根据新观测数据X，更新参数θ 根据新观测数据可以在多大程度上改变参数θ
θ θ+ Δθ
当重新估计θ的时候，给出新参数值θ的新概率分布。即：P(θ|x)
21
分析
根据贝叶斯法则
分布形式为
P,

111 1111d
0
23
先验概率和后验概率的关系
计算后验概率
P x Px P
x 1 x 1 1 1
xa1 1 1x 1
15
Beta分布的概率密度曲线
16
17
直接推广到Dirichlet分布
18
贝叶斯参数估计的思考过程
19
共轭先验分布
在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。
In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function.
也就是有两个独立参数x1,x2，分别对应图中的
两个坐标轴，第三个参数始终满足x3=1-x1-x2
且α1=α2=α3=α，图中反映的是α从0.3变化
到2.0的概率对数值的变化情况。
31
参数α对Dirichlet分布的影响
32
参数选择对对称Dirichlet分布的影响
When α=1, the symmetric Dirichlet distribution is equivalent to a uniform distribution over the open standard (K−1)-simplex, i.e. it is uniform over all points in its support. Values of the concentration parameter above 1 prefer variants that are dense, evenly distributed distributions, i.e. all the values within a single sample are similar to each other. Values of the concentration parameter below 1 prefer sparse distributions, i.e. most of the values within a single sample will be close to 0, and the vast majority of the mass will be concentrated in a few of the values.
主题模型LDA
北京10月机器学习班邹博
2014年11月16日
主要内容和目标
共轭先验分布 Dirichlet分布 unigram model LDA Gibbs采样算法
2
随机变量的分布
3
思考
尝试计算X(k)落在区间[x,x+Δx]的概率：
4
划分为3段
5
事件E1的概率
29
对称Dirichlet分布
30
对称Dirichlet分布的参数分析
α=1时退化Leabharlann 均匀分布当α>1时
p1=p2=…=pk的概率增大
当α<1时
p1=1，pi=0的概率增大
图像说明：将Dirichlet分布的概率密度函数取
对数,绘制对称Dirichlet分布的图像，取K=3，
22
举例说明
投掷一个非均匀硬币，可以使用参数为θ的伯努利模型，θ为硬币为正面的概率，那么
结果x的分布形式为： P xx11x
其共轭先验为beta分布，具有两个参数α和β，
称为超参数（hyperparameters）。简单解释
就是，这两个参数决定了θ参数。�� Beta
A very common special case is the symmetric Dirichlet distribution, where all of the elements making up the parameter vector have the same value. Symmetric Dirichlet distributions are often used when a Dirichlet prior is called for, since there typically is no prior knowledge favoring one component over another. Since all elements of the parameter vector have the same value, the distribution alternatively can be parametrized by a single scalar value α, called the concentration parameter(聚集参数).
P xP xP x P P xP
P(x|θ)表示以预估θ为参数的x概率分布，可以直接求得。P(θ)是已有原始的θ概率分布。
方案：选取P(x|θ)的共轭先验作为P(θ)的分布，这样，P(x|θ)乘以P(θ)然后归一化结果后其形式和P(θ)的形式一样。
26
Dirichlet分布的定义
27
Dirichlet分布的分析
α是参数，共K个定义在x1,x2…xK-1维上
x1+x2+…+xK-1+xK=1 x1,x2…xK-1>0 定义在(K-1)维的单纯形上，其他区域的概率密
度为0
α的取值对Dir(p| α)有什么影响？
28
Symmetric Dirichlet distribution