基于隐马尔可夫模型的多重序列分析 罗泽举1,朱
- 格式:pdf
- 大小:183.03 KB
- 文档页数:5
基于隐马尔可夫模型的Web用户访问序列挖掘韦相【期刊名称】《红河学院学报》【年(卷),期】2013(000)002【摘要】Web挖掘的一个研究方向是发现用户对网页的兴趣。
用户的浏览网页意味着用户对该网页上的某种概念感兴趣。
文中提出基于隐马尔可夫模型,对用户访问网页的序列进行分析,发现用户感兴趣的概念,然后把蕴含用户感兴趣概念程度最大的网页推荐给用户。
这种模式实质上是一种Web服务设计,给用户提供个性化的优质服务,提高网站的服务质量。
%Mining the interest of the users is an important research direction in web mining. A user accesses a web site with some intentions means that he is interest in some conceptions. In this paper, we present a new method for mining browse sequence based on the Hidden Markov model in ord er to discover users’ interest, and then recommend the new pages with max interest to the user. This is essentially a Web service design, to provide personalized service and improve the service quality of website.【总页数】4页(P40-42,63)【作者】韦相【作者单位】红河学院计算机科学与技术系,云南蒙自661100【正文语种】中文【中图分类】TP31【相关文献】1.Web用户访问模式挖掘系统框架模型研究 [J], 朱志国2.基于GSP算法的Web用户访问序列模式挖掘 [J], 王子卿;樊楠3.基于用户访问序列挖掘的站点路径优化分析 [J], 杨思4.基于模糊聚类的Web用户访问序列挖掘 [J], 韦相5.基于用户访问树的分布式Web日志挖掘算法 [J], 陈宝国;宋旸因版权原因,仅展示原文概要,查看原文内容请购买。
马尔可夫及隐马尔可夫模型在数据挖掘中的应用摘要: 随着用户对于数据挖掘的精确度与准确度要求的日益提高, 马尔可夫模型与隐马尔可夫模型被广泛用于数据挖掘领域。
本文阐述了马尔可夫模型和隐马尔可夫模型数据挖掘领域的应用, 以及隐马尔可夫模型可解决的问题, 以供其他研究者借鉴。
1 引言当前Internet 与数据库的高速发展, 信息以海量增长, 对于越来越多的数据, 如何寻找有用的信息是人们所关心的问题, 也是数据挖掘的任务。
数据挖掘( Data Mining, DM), 又称数据库中的知识发现(Knowledge Discovery in Database,KDD), 是从90 年代初兴起的一门数据库技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘是多学科交叉的产物, 结合了数据库、人工智能、统计学、机器学习、可视化等技术, 通过发现有用的新规律和新概念, 提高了数据拥有者对大量原始数据的深层次理解、认识和应用, 解决了―数据丰富, 知识贫乏‖的问题, 具有广泛的应用前景。
数据挖掘能从大量数据中抽取出隐藏在数据之中的有用信息, 从而为决策者进行决策提供重要的依据, 大大提高决策的科学性和减小决策的盲目性也可以帮助商业管理者更好地理解用户的行为, 制订相应的用户服务政策, 从而增加商业机会。
例如电信公司通过发现用户通话的规律, 制定更合理的优惠政策。
随着用户对于挖掘数据的精度与准确度要求的提高, 大量数据挖掘算法涌现。
其中, 数学模型—马尔可夫模型与隐马尔可夫模型应用在许多挖掘领域, 如: 语音识别、自动文本抽取、数据流分类等, 取得了较好的挖掘效果。
2 马尔可夫模型及隐马尔可夫模型简介马尔可夫模型(Markov Models, MM) 可来描述为: 如果一个系统有N 个状态, S1,S2, ⋯⋯, Sn , 随着时间的推移, 该系统从某一状态转移到另一状态, 系统在时间t 的状态记为qt。
隐马尔可夫模型攻略发表于2011-10-18 隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。
平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。
考虑下面交通灯的例子,一个序列可能是红-红/橙-绿-橙-红。
这个序列可以画成一个状态机,不同的状态按照这个状态机互相交替,每一个状态都只依赖于前一个状态,如果当前的是绿灯,那么接下来就是橙灯,这是一个确定性系统,因此更容易理解和分析,只要这些状态转移都是已知的。
但是在实际当中还存在许多不确定性系统。
在日常生活当中,我们总是希望根据当前天气的情况来预测未来天气情况,和上面的交通灯的例子不同,我们不能依靠现有知识确定天气情况的转移,但是我们还是希望能得到一个天气的模式。
一种办法就是假设这个模型的每个状态都只依赖于前一个的状态,这个假设被称为马尔科夫假设,这个假设可以极大简化这个问题。
显然,这个假设也是一个非常糟糕的假设,导致很多重要的信息都丢失了。
当涉及到天气的时候,马尔科夫假设描述为,假设如果我们知道之前一些天的天气信息,那么我们就能预测今天的天气。
当然,这个例子也是有些不合实际的。
但是,这样一个简化的系统可以有利于我们的分析,所以我们通常接受这样的假设,因为我们知道这样的系统能让我们获得一些有用的信息,尽管不是十分准确的。
LiXiang宁可抱香枝上老,不随黄叶舞秋风 谈到 HMM ,首先简单介绍一下马尔可夫过程 (Markov Process),它因俄罗斯数学家安德烈·马尔可夫而得名,代表数学中具有马尔可夫性质的离散随机过程。
该过程中,每个状态的转移只依赖于之前的 n 个状态,这个过程被称为1个 n 阶的模型,其中 n 是影响转移状态的数目。
基于隐马尔可夫模型(hmm)的模式识别理论报告人:时间:2020年4月21日地点:实验室概述基于隐马尔可夫模型(hmm)的模式识别方法在模式识别中有着广泛的应用。
如语音识别、手写字识别、图想纹理建模与分类。
hmm还被引入移动通信核心技术“多用户的检测”。
近年来,另外在生物信息可学、故障诊断等领域也开始得到应用。
近几年已经已被学者用于人脸识别的研究之中,是今年来涌现出来的优秀人脸识别方法之一。
经过不断改进,尤其是最近的嵌入式隐马尔可夫模型(ehmm)已经在人脸识别方面取得很大的进展,经过实验,识别率较高,有很好的鲁棒性等优点。
隐马尔可夫模型基本理论依据来源于随机过程中马尔可夫过程理论。
马尔可夫及其马尔可夫过程马尔可夫(A. Markov ,1856—1922)俄国数学家. 他开创了一种无后效性随机过程的研究,即在已知当前状态的情况下,过程的未来状态与其过去状态无关,这就是现在大家熟悉的马尔可夫过程.马尔可夫的工作极大的丰富了概率论的内容,促使它成为自然科学和技术直接有关的最重要的数学领域之一.在工程技术方面目前已被广泛用于通信,模式识别方面。
x(t)与马尔可夫过程相关的概念.随机变量与随机过程把随机现象的每个结果对应一个数,这种对应关系称为随机变量.例如某一时间内公共汽车站等车乘客的人数,电话交换台在一定时间内收到的呼叫次数等等,都是随机变量的实例.随机过程随机过程是一连串随机事件动态关系的定量描述.即和“时间”相关的随机变量。
一般记为x(t)。
比如在一天24小时,在每个整点时刻徐州火车站的旅客数量。
马尔可夫过程与马尔可夫链设x(t)是一随机过程,过程在时刻t0+1所处的状态与时刻t0所处的状态相关,而与过程在时刻t0之前的状态无关,这个特性成为无后效性.无后效的随机过程称为马尔可夫过程(MarkovProcess).举例:比如在万恶的旧社会流离失所的百姓在每天的饥饿程度是一个随机过程。
假如他们在t0时刻(今天)的饥饿状态是五分饱,他们在t0+1所(明天)的饥饿状态的概率取决于t0时刻(今天),而和t0时刻(今天)之前(昨天、前天。
基于隐马尔可夫模型的多摄像头人体对象的目标识别高鹏;郭立君;朱一卫;张荣【期刊名称】《计算机应用》【年(卷),期】2014(34)6【摘要】在非重叠多摄像机系统的人体对象目标识别中,针对基于单幅图片的识别算法不能较好处理对象表观和视角变化的问题,提出基于人体图像序列的算法.该算法用隐马尔可夫模型(HMM)融合多幅图片的特征,先考虑人体结构的约束,将人体图像在垂直方向上划分为多个相等的图像区域;然后采用多层阈值分割算法提取区域代表性颜色特征(SRC)和标准差特征(SSV);再用每个人体对象的多幅图片提取的特征数据集训练该对象的连续密度HMM;最后利用训练的模型实现人体对象的目标识别.该方法在两个公开数据集上进行的实验都获得了较高的识别率,提高了对摄像头视角变化、低分辨率的鲁棒性,且简单易实现.【总页数】7页(P1746-1752)【作者】高鹏;郭立君;朱一卫;张荣【作者单位】宁波大学信息科学与工程学院,浙江宁波315211;宁波大学信息科学与工程学院,浙江宁波315211;国家电网浙江省电力公司宁波供电公司,浙江宁波315099;宁波大学信息科学与工程学院,浙江宁波315211【正文语种】中文【中图分类】TP391.4;TP37【相关文献】1.隐马尔可夫模型下基于SIFT特征的局部遮挡目标识别 [J], 王惠宇;顾苏杭;吕继东2.基于耦合多隐马尔可夫模型和深度图像数据的人体动作识别 [J], 张全贵;蔡丰;李志强3.基于分水岭-隐马尔可夫模型联合的语义视频对象提取技术 [J], 杨树堂;汤志平4.基于连续密度隐马尔可夫模型的人体步态识别 [J], 王修晖;严珂5.基于隐马尔可夫模型的舰船辐射噪声目标识别 [J], 钟建;戴卫国因版权原因,仅展示原文概要,查看原文内容请购买。
基于EM的隐马氏过程随机迭代算法及其在生物序列启动子识别中的应用罗泽举;朱思铭【期刊名称】《计算机科学》【年(卷),期】2006(33)6【摘要】随着后基因组时代的到来,如何去揭示序列背后隐藏的生命信息已成为当前生命科学探讨的主题.而控制基因表达的正是启动子序列,如何去识别和预测序列的启动子区域是基因研究的重点课题.隐马尔可夫模型是最近几年研究基因最主要的模型.本文首先探讨了EM算法并提出了随机迭代算法,在初始状态分布和散发矩阵都随机假设,而转移矩阵由序列计算出的条件下对人类启动子序列进行识别,平均识别率达到了92.05%.改进了多分类问题中的"投票策略",提出了"一票决定"算法,使算法次数由O(N2)降到了O(N),由此对多个DNA家族进行分类,正确率达90.73%.从结果上看,在两类问题上,支持向量机比隐马尔可夫模型优越,但在处理多分类问题上隐马尔可夫模型却比支持向量机有更强的分类能力.【总页数】5页(P195-199)【作者】罗泽举;朱思铭【作者单位】中山大学数学与计算科学学院,广州510275;重庆工商大学计算机科学与信息工程学院,重庆400067;中山大学数学与计算科学学院,广州510275【正文语种】中文【中图分类】TP3【相关文献】1.基于时间序列分析的Kalman滤波方法在MEMS陀螺仪随机漂移误差补偿中的应用研究 [J], 李杰;张文栋;刘俊2.基于时间序列分析的Kalman滤波方法在MEMS陀螺仪随机漂移误差补偿中的应用研究 [J], 李杰;张文栋;刘俊3.基于Weka平台的分类算法在启动子识别中的应用 [J], 蒋璐凯4.改进的KMP算法在生物序列模式自动识别中的应用 [J], 戈晓斐;黄竞伟;胡磊5.基于Weka平台的分类算法在启动子识别中的应用 [J], 蒋璐凯;因版权原因,仅展示原文概要,查看原文内容请购买。
基于隐马尔可夫模型的并行多重序列比对的开题报告一、研究背景和意义:近年来,生物信息学在基因组学、蛋白质学和系统生物学研究领域中发挥着越来越重要的作用。
随着高通量测序技术和大规模生物实验数据的出现和发展,序列比对已经成为生物信息学研究的重要工具之一。
而多重序列比对是比对多条序列的一种方式。
与两条序列比对相比,多重序列比对能更全面地度量序列之间的相似性,可以对大量DNA或蛋白质序列进行比对,可以更准确地推断物种间的进化关系,这对于基因组学和进化生物学的研究具有重要意义。
目前,多重序列比对的算法大多都依赖于动态规划(DP)算法,虽然这些算法已经被广泛使用,但在大规模数据的情况下,计算时间和空间复杂度会急剧增加。
并且,在考虑单个序列的时候,最长公共子序列(LCS)和非最长公共子序列(N-LCS)的比对算法是一个有效的替代方法。
因此,基于隐马尔可夫模型(HMM)的并行多重序列比对算法可能会在计算时间和空间复杂度方面具有优势,并且可以同时处理最长公共子序列和非最长公共子序列。
二、研究内容和技术路线:本研究将基于HMM模型开发并行多重序列比对算法,主要工作包括:1.研究多重序列比对问题的形式化定义和HMM模型的基本思想,并实现一个基于HMM模型的简单多重序列比对算法;2.采用并行计算的思想,将HMM模型进行并行处理,提高多重序列比对的计算效率;3.实现对LCS和N-LCS的并行处理,能够充分利用现有的硬件资源;4.通过对比与其他算法的实验结果,验证算法的准确性和优越性。
技术路线:确定研究内容>收集相关文献>构建HMM模型>实现多重序列比对算法>实现并行计算>实现对LCS和N-LCS的并行处理>验证算法性能>撰写论文。
三、预期成果:本研究的预期成果包括:1.研究多重序列比对问题的基本思想和HMM模型,并在此基础上实现一个简单的多重序列比对算法;2.提出一种基于HMM模型的并行多重序列比对算法,并实现对LCS 和N-LCS的并行处理;3.通过对比实验与其他算法,验证本算法的准确性和优越性;4.撰写学位论文,并发表相关论文。
隐马尔科夫模型在多序列比对中的应用摘要:序列比对是生物信息学研究中的一个重要的方法, 是生物信息学的基础。
随着测序技术及生物信息学的高速发展,目前已经获得了大量的生物序列和数据结构,传统研究生物序列的方法已经无法再满足人们的需求,而隐马尔科夫模型(HMM)也渐渐在生物序列分析中脱颖而出。
隐马尔科夫模型是一个双重随机过程,具有一定状态数的隐马尔科夫链和显示随机函数集,该模型用于生物序列分析是生物信息学(Bioinformatics) 研究的新领域。
本文主要介绍了HMM在多序列比对中的应用。
关键词:隐马尔科夫模型(HMM);生物信息学;多序列比对1 生物序列比对的意义及概念序列比对是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。
序列比对的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。
研究序列相似性的目的之一是,通过相似序列的序列得到相似的结构或相似的功能。
序列比对的理论基础是进化学说。
许多生物学的事实表明:不同的核酸或蛋白质序列可能源于同一原始序列,经过序列内残基的取代、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
在残基-残基比对中,可以明显看到序列中某些残基比其他位置上的残基更保守,这些信息揭示了这些保守位点上的残基对序列的结构和功能是至关重要的。
因此,序列比对可用于蛋白质的功能域识别、二级结构预测、基因识别以及分子系统发育分析等方面的研究。
序列比对根据同时进行比对的数目分为双序列比对(Pair-Wise Sequence Alignment)和多重序列比对(Multiple Sequence Alignment)。
双序列比对是将两个序列的各个字符按照对应等同或者置换的关系进行对比排列,其结果是找出两个序列共有的排列顺序,这是学列相似程度的一种定性描述。
与序列两两比对不一样,多重序列比对研究的是多个序列的相似性。
隐马尔可夫模型在序列分析中的用途隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,被广泛应用于序列数据的建模和分析中。
隐马尔可夫模型在序列分析中具有重要的作用,能够有效地描述序列数据之间的潜在关系和规律。
本文将介绍隐马尔可夫模型在序列分析中的用途,并探讨其在不同领域的应用。
一、隐马尔可夫模型简介隐马尔可夫模型是一种用于描述时序数据的概率模型,由状态序列和观测序列组成。
在隐马尔可夫模型中,状态序列是隐藏的,而观测序列是可见的。
模型假设系统的状态是一个马尔可夫链,且每个状态生成一个观测值。
隐马尔可夫模型由初始状态概率分布、状态转移概率矩阵和观测概率矩阵三部分组成。
二、隐马尔可夫模型的用途1. 语音识别隐马尔可夫模型在语音识别领域得到了广泛应用。
通过将语音信号转化为特征向量序列,利用隐马尔可夫模型对这些特征向量序列进行建模,可以实现对语音信号的识别和理解。
隐马尔可夫模型能够有效地捕捉语音信号中的时序特性,提高语音识别的准确性和鲁棒性。
2. 自然语言处理在自然语言处理领域,隐马尔可夫模型常用于词性标注、命名实体识别、句法分析等任务。
通过将文本数据转化为标注序列,利用隐马尔可夫模型对标注序列进行建模,可以实现对文本数据的分析和处理。
隐马尔可夫模型能够考虑词语之间的依赖关系,提高自然语言处理任务的效果。
3. 生物信息学在生物信息学领域,隐马尔可夫模型常用于基因组序列分析、蛋白质结构预测等任务。
通过将生物序列数据转化为符号序列,利用隐马尔可夫模型对符号序列进行建模,可以揭示生物序列之间的相似性和差异性。
隐马尔可夫模型能够帮助研究人员理解生物序列的结构和功能。
4. 金融领域在金融领域,隐马尔可夫模型常用于股票价格预测、风险管理等任务。
通过将金融时间序列数据转化为观测序列,利用隐马尔可夫模型对观测序列进行建模,可以分析金融市场的波动性和趋势性。
隐马尔可夫模型能够帮助投资者制定有效的交易策略和风险控制方案。
隐马尔可夫模型的多序列比对研究
罗泽举;宋丽红
【期刊名称】《计算机工程与应用》
【年(卷),期】2010(046)007
【摘要】研究一种关于隐马尔可夫模型的多序列比对,利用值和特征序列的保守性,通过增加频率因子,改进传统隐马尔可夫模型算法的不足.实验表明,新算法不但提高了模型的稳定性,而且应用于蛋白质家族识别,平均识别率比传统隐马尔可夫算法提高了3.3个百分点.
【总页数】4页(P171-174)
【作者】罗泽举;宋丽红
【作者单位】重庆工商大学长江上游经济研究中心,重庆,400067;重庆工商大学计算机科学与信息工程学院,重庆,400067;重庆工商大学经济管理实验教学中心,重庆,400067
【正文语种】中文
【中图分类】TP391;TN95752
【相关文献】
1.基于隐马尔可夫模型对原核生物编码序列的识别 [J], 曹红艳;马靖;李治;张岩波
2.基才隐马尔可夫模型的蛋白质序列筛选算法 [J], 张毅;梅挺
3.基于隐马尔可夫模型的Web用户访问序列挖掘 [J], 韦相
4.部分状态可见的隐马尔可夫模型状态序列的估计方法 [J], 楼振凯;侯福均;楼旭明
5.基于自编码器和隐马尔可夫模型的时间序列异常检测方法 [J], 霍纬纲; 王慧芳
因版权原因,仅展示原文概要,查看原文内容请购买。
非对称DNA序列混合识别模型研究
罗泽举;宋丽红;李艳会;朱思铭
【期刊名称】《计算机科学》
【年(卷),期】2007(34)12
【摘要】建立了一种改进的不对称支持向量机(MISVM)和隐马尔可夫模型结合的混合学习模型,对于实际中具有的不对称样本数据集,采用调整Hessian矩阵对角参数的策略,增大数据量少的样本离超平面的距离,再结合隐马尔可夫谱变换,以达到更加精确地分离不对称样本的目的.实验发现,不能简单利用正负两类样本所占百分比或固定参数来改变核函数矩阵的对角参数,而必须加之以可调整的权系数才能控制错分的样本数;经改进后的混合不对称学习算法比标准SVM具有更高的分辨率,对启动子序列进行识别,平均识别率达到91.8%.
【总页数】4页(P207-210)
【作者】罗泽举;宋丽红;李艳会;朱思铭
【作者单位】重庆工商大学计算机科学与信息工程学院,重庆,400067;重庆工商大学实验实习中心,重庆,400067;中山大学数学与计算科学学院,广州,510275;中山大学数学与计算科学学院,广州,510275
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于小波分析和超级向量的非对称文本相关的说话人识别模型 [J], 雷磊;佘堃
2.基于小波分析和超级向量的非对称文本相关的说话人识别模型 [J], 雷磊;佘堃;
3.基于小波分析和超级向量的非对称文本相关的说话人识别模型 [J], 雷磊;佘堃;
4.岩土混合型滑坡识别模型研究
——以武汉市东湖高新技术开发区为例 [J], 王兵;姜祝强;李祖春;柴波;施星宇5.矿井涌(突)水源混合水识别模型研究 [J], 董东林;张健;林刚;高艺轩;刘鑫
因版权原因,仅展示原文概要,查看原文内容请购买。