连续隐马尔科夫链模型简介
- 格式:docx
- 大小:134.64 KB
- 文档页数:8
马尔可夫链模型简介设考察对象为一系统,若该系统在某一时刻可能出现的事件集合为,}{N N E E E E E E ⋅⋅⋅⋅⋅⋅,2,1,2,1,两两互斥,则陈i E 为状态。
N i ⋅⋅⋅=,2,1。
称该系统从一种状态i E 变化到另一状态j E 的过程称为状态转移,并把整个系统不断实现状态转移的过程称为马尔可夫过程。
定义1 具有下列两个性质的马尔可夫过程称为马尔可夫链: (1)无后效性,即系统的第n 次实验结果出现的状态,只与第1-n 次有关,而与它以前所处的状态无关;(2)具有稳定性,该过程逐渐趋于稳定状态,而与初始状态无关。
定义2 向量),,,(21n u u u u ⋅⋅⋅= 成为概率向量,如果u 满足:⎪⎩⎪⎨⎧=⋅⋅⋅=≥∑=nj jj u nj u 11,,2,10 定义3 如果方阵P 的每行都为概率向量,则称此方阵为概率矩阵。
如果矩阵A 和B 皆为概率矩阵,则AB ,k A ,k B 也都是概率矩阵(k 为正整数)。
定义4 系统由状态i E 经过一次转移到状态j E 的概率记为ij P ,称矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅=3212222111211N N N N N P P P P P P P P P P 为一次(或一步)转移矩阵。
转移矩阵必为概率矩阵,且具有以下两个性质: 1、P P P k k )1()(-=; 2、k k P P =)(其中)(k P 为k 次转移矩阵。
定义5 对概率矩阵P ,若幂次方)(m P 的所有元素皆为正数,则矩阵P 称为正规概率矩阵。
(此处2≥m )定理1 正规概率矩阵P 的幂次方序列P ,2P ,3P ,…趋近于某一方阵T ,T 的每一行均为同一概率向量t ,且满足t tP = 。
马尔可夫链模型如下:设系统在0=k 时所处的初始状态 ),,()0()0(2)0(1)0(N S S S S ⋅⋅⋅=为已知,经过k 次转移后的状态向量 ),,()()(2)(1)(k N k k k S S S S ⋅⋅⋅=),2,1(⋅⋅⋅=k ,则⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅=NN N N N N k P P P P P P P P P S S 212222111211)0()( 此式即为马尔可夫链预测模型。
隐马尔可夫模型原理
隐马尔可夫模型(Hidden Markov Model, HMM)是一种用来
描述状态序列的概率模型。
它基于马尔可夫链的理论,假设系统的状态是一个没有直接观察到的随机过程,但可以通过观察到的结果来推断。
HMM的原理可以分为三个关键要素:状态集合、转移概率矩
阵和观测概率矩阵。
1. 状态集合:HMM中的状态是不能直接观测到的,但可以从
观测序列中推断出来。
状态集合可以用S={s1, s2, ..., sn}表示,其中si表示第i个状态。
2. 转移概率矩阵:转移概率矩阵A表示在一个时间步从状态
si转移到状态sj的概率。
可以表示为A={aij},其中aij表示从状态si到状态sj的转移概率。
3. 观测概率矩阵:观测概率矩阵B表示在一个时间步观测到
某个输出的概率。
可以表示为B={bj(o)},其中bj(o)表示在状
态sj下观测到输出o的概率。
通过这些要素,HMM可以用来解决三类问题:
1. 评估问题:给定模型参数和观测序列,计算观测序列出现的概率。
可以使用前向算法或后向算法解决。
2. 解码问题:给定模型参数和观测序列,寻找最可能的状态序
列。
可以使用维特比算法解决。
3. 学习问题:给定观测序列,学习模型的参数。
可以使用Baum-Welch算法进行无监督学习,或使用监督学习进行有标注数据的学习。
总之,HMM是一种可以用来描述随机过程的模型,可以用于许多序列预测和模式识别问题中。
它的简洁性和可解释性使其成为机器学习领域中重要的工具之一。
马尔可夫模型简介马尔可夫模型(Markov Model)是一种描述随机过程的数学模型,它基于“马尔可夫性质”假设,即未来的状态只与当前状态有关,与过去的状态无关。
马尔可夫模型在许多领域中得到了广泛的应用,如自然语言处理、机器学习、金融等。
历史发展马尔可夫模型最早由俄国数学家马尔可夫在20世纪初提出。
马尔可夫通过研究字母在俄文中的出现概率,发现了一种有规律的模式,即某个字母出现的概率只与之前的字母有关。
他将这种模式抽象为数学模型,即马尔可夫模型。
后来,马尔可夫模型被广泛应用于其他领域,并得到了不断的发展和完善。
基本概念状态(State)在马尔可夫模型中,状态是指系统可能处于的一种情况或状态。
每个状态都有一个特定的概率,表示系统处于该状态的可能性。
状态可以是离散的,也可以是连续的。
例如,对于天气预测,状态可以是“晴天”、“阴天”、“雨天”等。
转移概率(Transition Probability)转移概率表示从一个状态转移到另一个状态的概率。
在马尔可夫模型中,转移概率可以用转移矩阵表示,其中每个元素表示从一个状态转移到另一个状态的概率。
例如,对于天气预测,转移概率可以表示为:晴天阴天雨天晴天0.6 0.3 0.1阴天0.4 0.4 0.2雨天0.2 0.3 0.5上述转移矩阵表示了从一个天气状态到另一个天气状态的转移概率。
初始概率(Initial Probability)初始概率表示系统在初始时刻处于每个状态的概率。
它可以用一个向量表示,向量中每个元素表示系统处于对应状态的概率。
例如,对于天气预测,初始概率可以表示为:晴天阴天雨天0.3 0.4 0.3上述向量表示了系统初始时刻处于不同天气状态的概率。
观测概率(Observation Probability)观测概率表示系统处于某个状态时观测到某个观测值的概率。
观测概率可以用观测矩阵表示,其中每个元素表示系统处于某个状态观测到某个观测值的概率。
例如,对于天气预测,观测概率可以表示为:晴天阴天雨天温度高0.7 0.2 0.1温度低0.3 0.6 0.1上述观测矩阵表示了在不同天气状态下观测到不同温度的概率。
神经网络人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。
这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
隐马尔可夫模型隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。
80 年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。
隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。
自20世纪80年代以来,HMM被应用于语音识别,取得重大成功。
到了90年代,HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测”。
近年来,HMM在生物信息科学、故障诊断等领域也开始得到应用。
1. 评估问题。
给定观测序列O=O1O2O3…Ot和模型参数λ=(A,B,π),怎样有效计算某一观测序列的概率,进而可对该HMM做出相关评估。
例如,已有一些模型参数各异的HMM,给定观测序列O=O1O2O3…Ot,我们想知道哪个HMM模型最可能生成该观测序列。
通常我们利用forward算法分别计算每个HMM 产生给定观测序列O的概率,然后从中选出最优的HMM模型。
这类评估的问题的一个经典例子是语音识别。
在描述语言识别的隐马尔科夫模型中,每个单词生成一个对应的HMM,每个观测序列由一个单词的语音构成,单词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现的。
隐马尔可夫模型(HMM)是一种统计模型,常用于语音识别、自然语言处理等领域。
它主要用来描述隐藏的马尔可夫链,即一种具有未知状态的马尔可夫链。
在语音识别中,HMM被广泛应用于对语音信号进行建模和识别。
下面我将从HMM的基本概念、参数迭代和语音识别应用等方面展开阐述。
1. HMM的基本概念在隐马尔可夫模型中,有三种基本要素:状态、观测值和状态转移概率及观测概率。
状态表示未知的系统状态,它是隐藏的,无法直接观测到。
观测值则是我们可以观测到的数据,比如语音信号中的频谱特征等。
状态转移概率描述了在不同状态之间转移的概率,而观测概率则表示在每个状态下观测到不同观测值的概率分布。
2. HMM参数迭代HMM的参数包括初始状态概率、状态转移概率和观测概率。
在实际应用中,这些参数通常是未知的,需要通过观测数据进行估计。
参数迭代是指通过一定的算法不断更新参数的过程,以使模型更好地拟合观测数据。
常见的参数迭代算法包括Baum-Welch算法和Viterbi算法。
其中,Baum-Welch算法通过最大化似然函数来估计模型的参数,Viterbi算法则用于解码和预测。
3. HMM在语音识别中的应用在语音识别中,HMM被广泛用于建模和识别语音信号。
语音信号被转换成一系列的特征向量,比如MFCC(Mel-Frequency Cepstral Coefficients)特征。
这些特征向量被用来训练HMM模型,学习模型的参数。
在识别阶段,通过Viterbi算法对输入语音进行解码,得到最可能的文本输出。
4. 个人观点和理解从个人角度看,HMM作为一种强大的统计模型,在语音识别领域有着重要的应用。
通过不断迭代参数,HMM能够更好地建模语音信号,提高语音识别的准确性和鲁棒性。
然而,HMM也面临着状态空间爆炸、参数收敛速度慢等问题,需要结合其他模型和算法进行改进和优化。
总结回顾通过本文对隐马尔可夫模型(HMM)的介绍,我们从基本概念、参数迭代和语音识别应用等方面对HMM有了更深入的了解。
马尔可夫链法1. 简介马尔可夫链法(Markov Chain)是一种基于概率的数学模型,用于描述具有随机性质的离散事件序列。
它是根据马尔可夫性质而命名的,该性质指的是未来状态只与当前状态相关,与过去状态无关。
马尔可夫链法被广泛应用于各个领域,如自然语言处理、金融市场预测、信号处理等。
它的核心思想是通过建立状态转移矩阵来描述事件之间的转移关系,并利用概率计算不同状态出现的概率。
2. 历史背景马尔可夫链法最早由俄国数学家安德烈·马尔可夫在20世纪初提出。
他在研究随机过程时发现了一种特殊的概率性质,即未来状态只与当前状态有关,而与过去状态无关。
这一发现为后来的马尔可夫链方法奠定了基础。
20世纪50年代以后,随着计算机技术的快速发展和数学理论的深入研究,马尔可夫链方法得到了广泛应用。
尤其是在自然语言处理领域,马尔可夫链法被用于模拟文本生成、语音识别等任务,取得了显著的成果。
3. 基本概念3.1 状态空间马尔可夫链方法中,事件被抽象为若干个状态。
这些状态构成了一个状态空间,记作S。
每个状态表示系统在某一时刻的特定情况或状态。
3.2 状态转移概率马尔可夫链的核心是描述不同状态之间的转移关系。
假设当前时刻系统处于状态i,下一个时刻系统可能转移到另一个状态j。
这个转移的概率可以用条件概率P(j|i)表示,其中i和j都属于状态空间S。
3.3 转移矩阵将所有可能的状态转移概率按照一定规则组织起来形成一个矩阵,称为转移矩阵。
转移矩阵通常记作P,其元素P(i,j)表示从状态i到状态j的转移概率。
3.4 马尔可夫性质马尔可夫性质指的是未来状态只与当前状态相关,与过去状态无关。
具体而言,在马尔可夫链中,给定当前状态,过去状态对未来状态的影响可以通过当前状态来表示。
4. 马尔可夫链模型4.1 离散时间马尔可夫链离散时间马尔可夫链是指系统在离散时间点上的状态转移。
假设在每个时间点t,系统处于某个状态Si,那么在下一个时间点t+1,系统将以一定概率转移到另一个状态Sj。
隐马尔可夫模型三个基本问题以及相应的算法一、隐马尔可夫模型(Hidden Markov Model, HMM)隐马尔可夫模型是一种统计模型,它描述由一个隐藏的马尔可夫链随机生成的不可观测的状态序列,再由各个状态生成一个观测而产生观测序列的过程。
HMM广泛应用于语音识别、自然语言处理、生物信息学等领域。
二、三个基本问题1. 概率计算问题(Forward-Backward算法)给定模型λ=(A,B,π)和观察序列O=(o1,o2,…,oT),计算在模型λ下观察序列O出现的概率P(O|λ)。
解法:前向-后向算法(Forward-Backward algorithm)。
前向算法计算从t=1到t=T时,状态为i且观察值为o1,o2,…,ot的概率;后向算法计算从t=T到t=1时,状态为i且观察值为ot+1,ot+2,…,oT的概率。
最终将两者相乘得到P(O|λ)。
2. 学习问题(Baum-Welch算法)给定观察序列O=(o1,o2,…,oT),估计模型参数λ=(A,B,π)。
解法:Baum-Welch算法(EM算法的一种特例)。
该算法分为两步:E 步计算在当前模型下,每个时刻处于每个状态的概率;M步根据E步计算出的概率,重新估计模型参数。
重复以上两步直至收敛。
3. 预测问题(Viterbi算法)给定模型λ=(A,B,π)和观察序列O=(o1,o2,…,oT),找到最可能的状态序列Q=(q1,q2,…,qT),使得P(Q|O,λ)最大。
解法:Viterbi算法。
该算法利用动态规划的思想,在t=1时初始化,逐步向后递推,找到在t=T时概率最大的状态序列Q。
具体实现中,使用一个矩阵delta记录当前时刻各个状态的最大概率值,以及一个矩阵psi记录当前时刻各个状态取得最大概率值时对应的前一时刻状态。
最终通过回溯找到最可能的状态序列Q。
三、相应的算法1. Forward-Backward算法输入:HMM模型λ=(A,B,π)和观察序列O=(o1,o2,…,oT)输出:观察序列O在模型λ下出现的概率P(O|λ)过程:1. 初始化:$$\alpha_1(i)=\pi_ib_i(o_1),i=1,2,…,N$$2. 递推:$$\alpha_t(i)=\left[\sum_{j=1}^N\alpha_{t-1}(j)a_{ji}\right]b_i(o_t),i=1,2,…,N,t=2,3,…,T$$3. 终止:$$P(O|λ)=\sum_{i=1}^N\alpha_T(i)$$4. 后向算法同理,只是从后往前递推。
隐马尔可夫链模型的递推-概述说明以及解释1.引言1.1 概述隐马尔可夫链模型是一种常用的概率统计模型,它广泛应用于自然语言处理、语音识别、模式识别等领域。
该模型由两个基本假设构成:一是假设系统的演变具有马尔可夫性质,即当前状态的变化只与前一个状态有关;二是假设在每个状态下,观测到的数据是相互独立的。
在隐马尔可夫链模型中,存在两个重要概念:隐含状态和观测数据。
隐含状态是指在系统中存在但无法直接观测到的状态,而观测数据是指我们通过观测手段能够直接获取到的数据。
隐含状态和观测数据之间通过概率函数进行联系,概率函数描述了在每个状态下观测数据出现的概率。
隐马尔可夫链模型的递推算法用于解决两个问题:一是给定模型参数和观测序列,求解最可能的隐含状态序列;二是给定模型参数和观测序列,求解模型参数的最大似然估计。
其中,递推算法主要包括前向算法和后向算法。
前向算法用于计算观测序列出现的概率,后向算法用于计算在某一隐含状态下观测数据的概率。
隐马尔可夫链模型在实际应用中具有广泛的应用价值。
在自然语言处理领域,它可以用于词性标注、语义解析等任务;在语音识别领域,它可以用于语音识别、语音分割等任务;在模式识别领域,它可以用于手写识别、人脸识别等任务。
通过对隐马尔可夫链模型的研究和应用,可以有效提高这些领域的性能和效果。
综上所述,隐马尔可夫链模型是一种重要的概率统计模型,具有广泛的应用前景。
通过递推算法,我们可以有效地解决模型参数和隐含状态序列的求解问题。
随着对该模型的深入研究和应用,相信它将在各个领域中发挥更大的作用,并取得更好的效果。
1.2 文章结构文章结构部分的内容可以包括以下要点:文章将分为引言、正文和结论三个部分。
引言部分包括概述、文章结构和目的三个子部分。
概述部分简要介绍了隐马尔可夫链模型的背景和重要性,指出了该模型在实际问题中的广泛应用。
文章结构部分说明了整篇文章的组织结构,明确了每个部分的内容和目的。
目的部分描述了本文的主要目的,即介绍隐马尔可夫链模型的递推算法和应用,并总结和展望其未来发展方向。
数据分析中的马尔可夫链和隐马尔可夫模型数据分析是当今信息时代中一项重要的技术,通过对海量的数据进行统计和分析,可以从中挖掘出有用的信息和规律,对各个领域产生积极的影响。
而在数据分析中,马尔可夫链和隐马尔可夫模型是两个常用的工具,具有很高的应用价值。
一、马尔可夫链马尔可夫链(Markov chain)是一种随机过程,具有"无记忆性"的特点。
它的特殊之处在于,当前状态只与前一个状态相关,与更早的各个状态无关。
这种特性使马尔可夫链可以被广泛应用于许多领域,如自然语言处理、金融市场预测、天气预测等。
在数据分析中,马尔可夫链可以用来建模和预测一系列随机事件的发展趋势。
通过观察历史数据,我们可以计算不同状态之间的转移概率,然后利用这些转移概率进行状态预测。
以天气预测为例,我们可以根据历史数据得到不同天气状态之间的转移概率,从而预测未来几天的天气情况。
二、隐马尔可夫模型隐马尔可夫模型(Hidden Markov Model,HMM)是马尔可夫链的扩展形式。
在隐马尔可夫模型中,系统的状态是隐含的,我们只能通过观察到的一系列输出来推测系统的状态。
隐马尔可夫模型在很多领域中都有广泛的应用,尤其是语音识别、自然语言处理、生物信息学等方面。
以语音识别为例,输入的语音信号是可观察的输出,而对应的语音识别结果是隐藏的状态。
通过对大量的语音数据进行训练,我们可以得到不同状态之间的转移概率和观测概率,从而在实时的语音输入中进行识别和预测。
三、马尔可夫链和隐马尔可夫模型的应用案例1. 金融市场预测马尔可夫链和隐马尔可夫模型可以应用于金融市场的预测。
通过建立模型,我们可以根据历史数据预测未来的市场状态。
例如,在股票交易中,我们可以根据过去的价格走势来预测未来的股价涨跌情况,以辅助决策。
2. 自然语言处理在自然语言处理领域,马尔可夫链和隐马尔可夫模型经常被用来进行文本生成、机器翻译等任务。
通过对大量文本数据的学习,我们可以构建一个语言模型,用于生成符合语法和语义规则的句子。
4.1 连续隐马尔科夫链模型(CHMM)在交通规划和决策的角度估计特定出行者的确切的出行目的没有必要,推测出行者在一定条件下会有某种目的的概率就能够满足要求。
因此本文提出一种基于无监督机器学习的连续隐马尔科夫链模型(CHMM)来识别公共自行车出行链借还车出行目的,根据个人属性、出行时间和站点土地利用属性数据,得到每次借还车活动属于某种出行目的的概率,进一步识别公共自行车出行链最可能的出行目的活动链。
4.1.1连续隐马尔科夫链模型概述隐马尔可夫链模型(Hidden Markov Model,HMM)是一种统计模型,它被用来描述一个含有隐含未知状态的马尔可夫链。
隐马尔可夫链模型是马尔可夫链的一种,其隐藏状态不能被直接观察到,但能通过观测向量序列推断出来,每个观测向量都是通过状态成员的概率密度分布表现,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
本文将隐马尔科夫链和混合高斯融合在一起,形成一个连续的隐马尔科夫链模型(CHMM),并应用该模型来识别公共自行车出行链借还车活动目的。
连续隐马尔科夫链模型采用无监督的机器学习技术,用于训练的数据无需是标记的数据,该模型既不需要标记训练数据,也没有后续的样本测试,如提示-回忆调查。
相反,该模型仅利用智能卡和总的土地利用数据。
后者为隐藏活动提供额外的解释变量。
出行链内各活动的时间和空间信息是从IC卡数据获得,相关土地利用数据是根据南京土地利用规划图和百度地图POI数据获得。
在本文的研究中,一个马尔可夫链可以解释为出行者在两个连续活动状态之间的状态转换,确定一个状态只取决于它之前的状态,一个状态对应一个出行者未知的借还车活动[48-50]。
本研究坚持传统的马尔可夫过程的假设,将它包含进无监督的机器学习模型。
“隐藏马尔可夫”源于一个事实,即一系列出行链的活动是不可观察的。
对于CHMM,高斯混合模型负责的是马尔可夫链的输入端,每一个活动模式下的隐藏状态都有属于一个特征空间的集群输出概率,每个集群是观察不到的,隐藏状态集群的数量必须事先给出。
一些研究者称这些集群为二级隐状态[51]。
有两种选择可以用来处理隐藏的集群:第一种,每个状态可以被假定为有一组独立的集群,尽管这个假定有利于找到每种状态独自的概率,但是有计算时间的负担;另一种模型规定允许所有隐状态共享一组集群。
本研究采用后者的理论,既节省计算时间又简化了模型的假设条件。
基于CHMM的公共自行车出行链出行目的识别过程如下。
首先,从IC卡数据中提取公共自行车出行链。
第二,确定潜在借还车活动的数量。
在这个阶段,没有关于隐藏目的与实际活动的映射信息。
第三,确定可能的集群数。
第四,为样本链的活动链中所有隐藏活动收集特征数据。
第五步是对CHMM参数估计算法的实现。
第六步是通过模型估计参数来描述集群的特征和映射的每个状态概率分布。
最后,应用训练好的CHMM模型,推算出公共自行车出行链最有可能的借还车活动目的序列。
4.1.2连续隐马尔科夫链模型构建本文设计的CHMM是由状态和观测变量构造的,假设每条观测序列,都是由其隐藏状态按照一定规则顺序而产生的,形成如图4- 1所示的三层层级结构:图4- 1 CHMM的结构示意图在公共自行车出行链出行目的识别的研究中,先从数据中提取出行链得到观测序列,观测序列包含时间地点出行者属性等变量。
为了整合这些变量,从这些变量中提取公共自行车骑行模式,将观测样本序列转化为出行模型集群序列,然后再识别产生出行模式序列背后隐藏的出行目的序列。
在本研究中,一个特征向量是由7个特征变量组成的:公共自行车使用者的年龄、用车出行时段、借/还车类型以及4种公共自行车站点的土地利用特征。
首先根据每个集群的特征向量提取出公共自行车出行模式,然后应用CHMM来确定隐藏状态间的转移概率,以及每个状态连接到每个出行模式群集的成员概率。
在建立模型之前应预先确定一个状态变量可能存在的值的数量。
式(4-1)表示一个初始状态属于一种出行活动的概率集合。
π={πi }={P(x 1=i)},i =1,...,N (4-1)其中x 1表示出行链的活动序列的初始状态变量,N 是可以由一个状态变量得到的可能的活动数量,i 代表第i 个活动,来自于可能的活动集合,πi 是第一个状态为第i 个活动的概率,π是一个初始概率向量。
式(4-2)表示两个连续状态之间的转移概率矩阵。
在本模型中,出行链被转换为一个状态序列,遵循马尔可夫过程。
也就是说,出行链内的活动状态被假定为仅依赖先前活动的状态。
A ={a ij }={P(x t =j|x t−1=i)},i =1,...,N,j =1,...,N (4-2)其中x t 代表活动链出行序列的第t 个状态,a ij 是当先前的第(t-1)个状态给出为活动i 时,第t 个状态选择活动j 的概率。
A 是包含转移概率的N*N 矩阵。
式(4-3)代表输出概率b i (o t ),o t 将在状态i 中被观察到,它采取高斯混合模型的形式。
b i (o t )=∑g ik K k=1 f (o t |μik ,∑ik ),i =1,...,N (4-3)其中o t 是序列的第t 个状态的一个观测特征变量,K 是在一个特征空间里的隐藏集群数目,g ik 是一个观察来自第k 个集群时的当前状态是活动i 的成员概率(活动i 属于集群k 的概率),μik 是活动i 第k 个集群的特征向量的平均值。
∑ik 是第i 个活动的第k 个集群的方差-协方差矩阵,f (o t |μik ,∑ik )是高斯概率密度公式。
为了简洁起见,式(4-4)表示每个状态都被假定为共享一组公共集群。
高斯混合模型的N ×K 权重矩阵(G )可以解释为式(4-5),被称为成员概率矩阵。
μik =μk ∑ik =∑k ,i =1,...,N.k =1,...,K (4-4)G ={g ik } = {P(m t = k|x t = i)},i =1,...,N,k =1,...,K (4-5) 其中m t 代表序列第t 个隐藏状态的特征空间里的隐藏集群。
如前所述,训练CHMM 的样本是从多元高斯分布生成的特征向量。
根据观测值估计的参数由一个矢量集合表示。
必须建立出行链观测序列的似然函数来估计参数。
然而,活动的隐藏状态妨碍了似然函数以一个简单的方式建立。
存在隐变量的似然函数应集成所有可能的变量值。
对于存在离散隐变量的模型,数学积分简化为对隐变量所有可能的值一个简单的求和(或平均)。
式(4-6)表示最大化的似然函数。
该方程的第一行显示了一个边际概率基于贝叶斯定理被分解。
第二行是来自观测值的独立性假设和马尔可夫过程的记忆性假设。
L(λ)=P (o 1,,,o T |λ)=∑P(o 1,,,o T |x 1,,,x T ,λ)所有可能的 x 1,,,x T p(x 1,,,x T | λ) =∑(∏p(o t |x t ,G,{μk }T t=1,{Σk })(∏p(x t |x t−1,A Tt=1)所有可能的 x 1,,,x T=∑(∏(∑g xt k f(o t |μk ,Σk K k=1T t=1)))(∏a xt−1 xt T t=1)所有可能的 x 1,,,x T (4-6)其中T 是出行链活动序列的长度。
似然函数可以被扩展以适应多个出行链,其中每一个出行链能具有不同长度的活动序列。
在观测值独立的假设下,式(7)表示的式(6)的扩展版本,其中上标l 代表一个特定的出行链。
L ̂(λ)=∏{∑(∏(∑g xt k f(o t l |μk ,Σk K k=1T l t=1)))(∏a xt−1 xt T l t=1)所有可能的 x 1,,,x Tl }M l=1(4-7)其中L ̂(λ)代表扩展似然函数,M 是出行链的数目,T l 是第l 个出行链的活动序列的长度,o t l 代表第l 条出行链的活动序列的第t 个状态的观测特征向量。
扩展的似然函数更难处理,因为它包含了状态变量的所有可能的分配的个体似然值之和。
4.1.3连续隐马尔科夫链模型算法对于CHMM ,3个典型问题需要被解决。
第一个问题是隐藏的状态和模型的参数已知,如何计算一个特定的状态序列被观测到的概率。
这个问题可以用前向-后向的算法(Forward-backward algorithm )来解决。
第二个问题是已知一系列的观测或一组观测的多个序列(或多个出行链)如何估计最佳参数。
这个问题可以用鲍姆-韦尔奇算法(Baum-Welch algorithm )来解决。
在实现鲍姆-韦尔奇算法时,给定所有观测都可用,前向后向算法被用来计算某一状态或某一对连续状态的概率。
第三个问题是已知给定观测序列和模型参数,推导隐藏状态的最有可能的序列。
这个问题应用维特比算法(Viterbi algorithm)来实现。
本文采用了前两种算法来估计CHMM模型的参数,并应用维特比算法基于观测和估计的参数推测公共自行车出行链的借还车活动序列。
(1)前向-后向的算法的实现当活动序列的长度或可能的隐藏状态的数目变大时,就不可能对每个可能的活动序列的单个概率求和。
前向后向算法是解决这个问题的关键。
当给出了一个完整的观测序列时,该算法有利于计算隐藏状态或连续的一对隐藏状态的概率。
为了计算概率,必须创建前向和后向变量(αt(i)和βt(i))。
更具体地,这些变量提供了一个简单的方法来计算包含在鲍姆–韦尔奇算法中训练CHMM 的p(x t=i|o1,,,o T,λ)和P=(x t=i,x t+1=j,o1,,,o T|λ)。
前向变量αt(j)代表p(x t=j|o1,,,o T,λ),后向变量βt(i)代表P=(x t=i,x t+1=j,o1,,,o T|λ)。
两个变量都是根据式(4-8)的过程进行递归计算的。
结果显示p(x t|o1,,,o T,λ)和p(x t,x t+1,o1,,,o T|λ)通过前向和后向变量递归计算得到(见式(4-12)及式(4-13))[52-53]。
①前向递归过程:初始的α1(i)=πi b i(o1) i=1,…,N(4-8)对于t=2,3, … , Tαt (j)=b j(o t)∑αt−1(i)a ij, j=1,…,NNi=1(4-9)②后向递归过程:初始的βT(i)=1 i=1,…,N(4-10)对于T=T-1, T-2, …, 1βt (i)=∑αij b j(o t+1)βt+1(j), j=1,…,NNj=1(4-11)③前向-后向计算p(x t=i|o1,,,o T,λ)∝P=(x t=i,o1,,,o T|λ)=αt(i)βt(i),i= 1,…,N t=1,…,T−1(4-12)P(x t=i,x t+1=j|o1,,,o T,λ)∝P=(x t=i,x t+1=j,o1,,,o T|λ)=P(x t=i,x t+1=j|o1,,,o t+1,λ)P(o t+2,,,o T|x t=i,x t+1=j,λ)=αt(i)αij b j(o t+1)βt+1(j)i= 1,…,N,j=1,…,N,t=1,…,T−1(4-13)(2)鲍姆-韦尔奇算法的实现鲍姆–韦尔奇算法是一个用于训练CHMM的方法,是一种更普遍的期望-最大化(EM)算法的特例。