条件随机场(公式版)
- 格式:pdf
- 大小:3.95 MB
- 文档页数:85
条件随机场(CRF)的详细解释条件随机场是一类最适合预测任务的判别模型,其中相邻的上下文信息或状态会影响当前预测。
CRF 在命名实体识别、词性标注、基因预测、降噪和对象检测问题等方面都有应用。
在本文中首先,将介绍与马尔可夫随机场相关的基本数学和术语,马尔可夫随机场是建立在 CRF 之上的抽象。
然后,将详细介绍并解释一个简单的条件随机场模型,该模型将说明为什么它们非常适合顺序预测问题。
之后,将在 CRF 模型的背景下讨论似然最大化问题和相关推导。
最后,还有一个过对手写识别任务的训练和推理来演示 CRF 模型。
马尔可夫随机场马尔可夫随机场(Markov Random Field)或马尔可夫网络(Markov Network)是一类在随机变量之间具有无向图的图形模型。
该图的结构决定了随机变量之间的相关性或独立性。
马尔可夫网络由图G = (V, E) 表示,其中顶点或节点表示随机变量,边表示这些变量之间的依赖关系。
该图可以分解为J 个不同的团(小的集团cliques )或因子(factors),每个由因子函数φⱼ支配,其范围是随机变量 Dⱼ的子集。
对于 dⱼ的所有可能值,φⱼ (dⱼ) 应该严格为正。
对于要表示为因子或团的随机变量的子集,它们都应该在图中相互连接。
所有团的范围的并集应该等于图中存在的所有节点。
变量的非归一化联合概率是所有因子函数的乘积,即对于上面显示的 V = (A, B, C, D) 的 MRF,联合概率可以写为:分母是每个变量可能取的所有可能的因子乘积的总和。
它是一个常数表示,也称为配分函数,通常用Z。
Gibbs Notation还可以通过对对数空间中的因子函数进行操作,将关节表示为Gibbs 分布。
使用β (dⱼ) = log (ϕ (dⱼ)),可以用 Gibbs 表示法表示共同的边,如下所示。
X 是图中所有随机变量的集合。
β 函数也称为factor potentials。
这个公式很重要,因为本文将在后面使用Gibbs 符号来推导似然最大化问题。
条件随机场⼊门(五)条件随机场的预测算法CRF 的预测问题是给定模型参数和输⼊序列(观测序列)x , 求条件概率最⼤的输出序列(标记序列)y ∗,即对观测序列进⾏标注。
条件随机场的预测算法同 HMM 还是维特⽐算法,根据 CRF 模型可得:y ∗=arg max y P w (y |x )=arg max yexp{w ⋅F (y ,x )}Z w (x )=arg max y exp{w ⋅F (y ,x )}=arg max y w ⋅F (y ,x )于是,条件随机场的预测问题成为求⾮规范化概率最⼤的最优路径问题arg max y w ⋅F (y ,x )注意,这时只需计算⾮规范化概率,⽽不必计算概率,可以⼤⼤提⾼效率。
为了求解最优路径,将优化⽬标写成如下形式:max y n ∑i =1w ⋅F i (y i −1,y i ,x )其中,F i (y i −1,y i ,x )=f 1(y i −1,y i ,x ),f 2(y i −1,y i ,x ),…,F K (y i −1,y i ,x )T为局部特征向量。
下⾯叙述维特⽐算法。
⾸先求出位置 1 的各个标记 j=1,2,…,m 的⾮规范化概率:δ1(j )=w ⋅F 1(y 0=start ,y 1=j ,x )⼀般地,由递推公式,求出到位置 i 的各个标记 l =1,2,…m 的⾮规范化概率的最⼤值,同时记录⾮规范化概率最⼤值的路径:δi (l )=max 1≤j ≤m δi (l −1)+w ⋅F i (y i −1=j ,y i =l ,x ), l =1,2,...,m Ψi (l )=arg max 1≤j ≤m δi −1(l )+w ⋅F i (y i −1=j ,y i =l ,x ),l =1,2,...,m 直到i = n 时终⽌。
这时求得⾮规范化概率的最⼤值为max y (w ⋅F (y ,x ))=max 1≤j ≤m δn (j )及最优路径的终点y ∗n =arg max 1≤j ≤m δn (j )由此最优路径终点返回,不断的找到各个时刻的最优值:y ∗i =Ψi +1(y ∗i +1), i =n −1,n −2,…,1以上便是⼀条最优路径了,求得该最优路径:y ∗=(y ∗1,y ∗2,…,y ∗n )T 这便为条件随机场预测的维特⽐算法。
crf损失函数
CRF(Conditional Random Field,条件随机场)是一种用于序列标注任务的概率模型,常用于自然语言处理中的命名实体识别、词性标注等任务中。
CRF损失函数是指在CRF模型中,用于衡量模型预测值与真实值之间差距的函数。
CRF损失函数通常采用负对数似然函数(Negative Log-Likelihood,NLL)来表示,其公式如下:
$L(\theta) = -\log P(Y|X;\theta)$
其中,$Y$表示真实标注序列,$X$表示输入序列,$\theta$表示模型参数。
$P(Y|X;\theta)$表示在给定输入序列$X$的条件下,标注序列$Y$的概率。
由于CRF模型是一个条件随机场,其概率分布可以表示为:
$P(Y|X;\theta) =
\frac{1}{Z(X;\theta)}\exp(\sum_{i=1}^n\sum_{j=1}^k\theta_jf_j(y_{i-1},y_i,x_i))$
其中,$Z(X;\theta)$是规范化因子,$f_j(y_{i-1},y_i,x_i)$是特征函数,$\theta_j$是特征函数对应的权重。
将其代入负对数似然函数中,可以得到CRF损失函数的具体形式。
CRF损失函数的目的是最小化模型预测值与真实值之间的差距,以提高模型的准确性和泛化能力。
在训练过程中,通常采用随机梯度下降等优化算法来最小化CRF损失函数,以更新模型的参数。
条件随机场⼊门(三)条件随机场的概率计算问题条件随机场的概率计算问题是给定条件随机场 P(Y|X) ,输⼊序列 x 和输出序列 y ,计算条件概率P(Y_{i-1} = y_{i-1}Y_i = y_i|x),P(Y_i =y_i|x)以及相应的数学期望的问题。
为了⽅便起见,像 HMM 那样,引进前向-后向向量,递归地计算以上概率及期望值。
这样的算法称为前向-后向算法。
前向-后向算法对每个指标i = 0,1,…,n+1,定义前向向量a_i(x) ,对于起始状态i=0:a_0(y|x) = \left \{ \begin{aligned} &1, \ \ y = start \\ &0, \ \ else \end{aligned}\right.对于之后的状态i = 1,2,…,n+1,递推公式为:a_i^T(y_i|x) = a^T_{i-1}(y_{i-1}|x)M_i(y_{i-1},y_i|x)这⾥M_i(y_{i-1},y_i|x)对应的是转移矩阵中的⼀列,转为向量形式可表⽰为a^T_i(x) = a^T_{i-1}(x)M_i(x)a_i(y_i|x)表⽰在位置 i 的标记是y_i并且到位置 i 的前部分标记序列的⾮规范化概率,y_i可取的值有 m 个,所以a_i(x)是 m 维列向量。
同样,对每个指标i = 0,1,…,n+1,定义后向向量\beta_i(x):\beta_{n+1}(y_{n+1}|x) = \left \{ \begin{aligned} &1, \ \ y_{n+1} = stop \\ &0, \ \ else \end{aligned}\right.往前递推:\beta_i(y_i|x) = M_i(y_i,y_{i+1}|x)\beta_{i+1}(y_{i+1}|x)⼜可以表⽰为:\beta_i(x) = M_{i+1}(x) \beta_{i+1}(x)\beta_i(y_i|x)表⽰在位置 i 的标记为y_i,并且从 i+1 到 n 的后部分标记序列的⾮规范化概率。
条件随机场(Conditional Random Fields,CRF)是一种用于标注和序列标注的概率图模型,经常用于自然语言处理、生物信息学和计算机视觉等领域。
其中,参数估计是CRF模型中的重要问题之一,合理的参数估计方法可以提高模型的准确性和泛化能力。
1. 最大似然估计最大似然估计是常用的参数估计方法之一,它通过最大化训练数据的似然函数来估计参数。
在CRF模型中,给定观测序列X和标记序列Y,对数似然函数可以表示为:L(θ) = Σ logP(Y|X;θ) - Σ logZ(X;θ)其中θ为模型参数,P(Y|X;θ)为条件概率,Z(X;θ)为归一化因子,用于确保条件概率的和为1。
最大化对数似然函数可以通过梯度下降等优化算法来实现。
2. 收缩估计在参数估计过程中,常常会遇到维度灾难的问题,即参数数量远远大于训练数据的数量。
为了避免过拟合和提高模型的泛化能力,可以采用收缩估计(Shrinkage Estimation)方法。
典型的收缩估计方法包括L1正则化(Lasso)和L2正则化(Ridge)等,它们可以通过对参数添加惩罚项来实现参数收缩。
3. 条件随机场模型的期望最大化算法除了最大似然估计和收缩估计,条件随机场模型的参数估计还可以通过期望最大化(Expectation-Maximization,EM)算法来实现。
EM算法是一种迭代优化算法,它通过交替进行E步和M步来最大化似然函数。
在CRF模型中,E步主要是计算标注序列的期望特征数量,M步则是利用期望特征数量来更新模型参数。
EM算法在参数估计过程中可以有效地处理未观测到的隐变量,提高模型的鲁棒性和稳定性。
4. 改进的参数估计方法除了传统的参数估计方法,还有一些改进的方法用于CRF模型的参数估计。
例如,基于近似推断的参数估计方法可以通过采样或变分推断来近似计算归一化因子,从而简化参数估计的复杂度。
此外,还有一些基于贝叶斯推断的参数估计方法,它们可以通过引入先验分布来提高参数估计的鲁棒性和泛化能力。
条件随机场知识整理(超长文!)最近用条件随机场完成了一个任务,效果不错,总结起来感觉收获很大,我来给大家谈谈有关条件随机场的理论和有关的落地方案。
理论有关条件随机场的理论,其实大量材料都讲的很完整,嗯,我用的是完整,因为难度真的不低,下面简单总结一下我看的比较好的材料。
•《统计学习方法》第二版,李航。
这应该是有关条件随机场完整的解释了。
•条件随机场(CRF):https:///Scythe666/article/details/82021692。
整个有关知识的链路解释的都比较清楚。
当然,我肯定不是放了资料就走的,我来说说我对CRF的理解线路,角度可能比较特别,可供大家协助理解,当然的,有关细节知识还要靠大家仔细啃的。
大量的材料都是从概率无向图,向条件随机场的角度去讨论,但是我比较喜欢从条件随机场,尤其是线性链条件随机场的概念出发理解,然后引入团和概率无向图的因子分解来解释和处理;理解这两个概念后,用HC定理解释其参数化形式、简化形式和矩阵形式,这样一来,整个条件随机场的运作就会比较明显了在此基础上,概率图的三大问题就会迎刃而解——概率问题、参数估计问题和预测问题。
条件随机场的概念条件随机场其实定义不是特别难。
简单地说,对于特定位置的Y,他在已知特征且Y相邻点的条件下的概率,与已知条件且不与Y相邻点的条件下的概率,是相同的。
这个概念能在线性链条件随机场上能体现的更加清晰。
相邻和不相邻的概念非常清晰,对于Y(t),相邻的其实就是Y(t-1)和Y(t+1),其他的就是不相邻的。
看图。
其实理解了条件随机场的定义,但是不够,要做预测我们是需要知道P(y|x)的直接关系,不能依赖y的上下文,因此我们要进行分解,要进行分解,我们引入图论里面团的概念,从而推导出条件随机场的多种形式。
条件随机场的形式Hammersley-Clifford定理直接给出:在导出条件随机场的参数化形式之前,来继续看看里面的势函数,即上面提到的严格正函数,一般地,使用指数函数。
机器学习算法总结(⼗⼀)——条件随机场1、条件随机场的定义 条件随机场的定义:设X与Y是随机变量,P(Y|X)是给定条件X时Y的条件概率分布,此时若随机变量Y构成的是⼀个马尔科夫随机场,则称条件概率分布P(Y|X)是条件随机场。
隐马尔科夫模型和隐马尔科夫随机场是属于⽣成模型,因为它们都有计算联合概率分布,⽽条件随机场是判别模型,其⽬标就是直接构建条件概率模型P(Y|X)。
⾸先定义⼀般的条件随机场模型,设X与Y是随机变量。
若随机变量Y构成⼀个由⽆向图G=(V, E)表⽰的马尔科夫随机场。
则有下⾯的表达式 对于上⾯的式⼦若是对所有的v都成⽴,则称条件概率分布P(Y|X)为条件随机场。
式⼦中w~v表⽰与结点v有边连接的所有结点(也就是和结点v存在依赖关系的结点),⽽w≠v,则表⽰除了v之外的所有结点。
对于⼀般的条件随机场来说,结点v的条件概率除了和X有关还和与之有边相连的结点有关。
再来看线性链条件随机场,在⼀般的条件随机场中并没有要求X和Y具有相同的结构,⽽在线性链条件随机场中要求X和Y具有相同的结构,具体结构如下图 设X = (X1, X2, ..., X n),Y = (Y1, Y2, ..., Y n)均为线性链表⽰的随机变量序列,若在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布P(Y|X)构成条件随机场,即满⾜马尔科夫性,则表达式如下 从上⾯的表达式可以看到,当前的结点只与前后相邻的两个结点有关。
Y的⽆向图模型G可以表⽰为 对于线性链条件随机场通常的应⽤就是词性标注,将随机变量X看作是观测序列(即观察到的句⼦),Y看作是标注序列(句⼦的词性序列) 2、线性链条件随机场的参数形式 对于随机变量X和Y,线性链条件随机场的参数形式如下 其中规范场因⼦Z 在表达式中的t k、s l是特征函数(t k是定义在边上的特征函数,称为转移特征,依赖与当前和前⼀个位置;s l是定义在结点上的特征函数,称为状态特征,依赖于当前的位置)。