基于条件随机场的中文分词方法_迟呈英
- 格式:pdf
- 大小:111.23 KB
- 文档页数:3
一种基于自动机的分词方法
吴建胜;战学刚;迟呈英
【期刊名称】《计算机工程与应用》
【年(卷),期】2005(041)008
【摘要】该文介绍一种简洁有效的快速分词方法,并通过理论分析和实验对比说明几种分词方法的效率差异,以说明文章所提出方法的有效性.
【总页数】3页(P81-82,85)
【作者】吴建胜;战学刚;迟呈英
【作者单位】鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044;鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044;鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044
【正文语种】中文
【中图分类】TP301.1
【相关文献】
1.一种基于特征嵌入神经网络的中文分词方法 [J], 王文涛;穆晓峰;王玲霞
2.一种基于字的多模型中文分词方法 [J], 张少阳;王裴岩;蔡东风;
3.一种基于双向LSTM的联合学习的中文分词方法 [J], 章登义; 胡思; 徐爱萍
4.一种基于LSTM的端到端多任务老挝语分词方法 [J], 郝永彬;周兰江;刘畅
5.一种基于分词和遗传算法的题库解析方法 [J], 夏德虎
因版权原因,仅展示原文概要,查看原文内容请购买。
I SSN 100020054 清华大学学报(自然科学版) 2009 年第49 卷第10 期39ƒ39 C N 1122223ƒN J T s ingh ua U n iv (Sci & Tech) ,2009, V o l. 49, N o. 10173321736基于条件随机场的古汉语自动断句与标点方法张开旭1 , 夏云庆2 , 宇航1(1. 清华大学计算机科学与技术系, 北京100084; 2.清华大学清华信息科学与技术国家实验室, 北京100084)摘要: 标点符号在现代汉语中扮演着重要的角色, 但古代汉语中却不含有任何标点。
这使得现代中国人阅读古代文献有严重的困难。
该文提出一个基于条件随机场(CR F) 的古汉语自动断句标点方法, 并引入互信息和t2测试差两个统计量作为模型的特征。
分别在《论语》与《史记》两个语料库上进行了充分实验, 该方法在《论语》断句处理F 1 分数上超出现有方法0. 124, 在《论语》标点和《史记》断句、标点处理上也取得了满意效果。
实验证明: 基于条件随机场的方法能较好解决古文自动标点处理问题; 层叠条件随机场策略亦优于单层条件随机场策略。
关键词: 计算机信息处理; 古汉语标点; 条件随机场(CR F)中图分类号: T P 391. 1文献标识码: A 文章编号: 100020054 (2009) 1021733204CRF-ba sed approach to sen tencesegm en ta t ion and punctua t ion foranc ien t Ch in ese proseZHANG Ka ixu1, X IA Yunq ing2, YU Ha ng1(1. D epartm en t of Com puter Science and Technology,Tsinghua U n iversity, Be ij ing 100084, Ch ina;2. Tsinghua National Laboratory for Inform a t ion Sc ie nce andTechnology, Tsinghua Un iversity, Beij ing 100084, Ch ina)Abstract: T hough punct uat ion is i m po rtant in modern Ch inese, punctuat ion m ark s w ere no t used in ancient Chinese. Thus, ancient Ch inese lit erature is very hard f o r modern Chinese to read. T his arti cle p resents a condit iona l random f ield (CR F) based app roach to autom ate anci ent Ch inese p r o se punctuat ion using the m utual inf o r m at ion and the t2test difference as f eatures. T ests on L uny u and S h ij i show that t he app roach outperfo r m s the state2of2the2a rt m ethod by 0. 124 on the F 1 sco re f o r sentence segm entat ion. Thus, th is app roach yields p rom ising result s f o r sentence punctuat ion analysis on bo th L uny u and S h ij i. The cascaded CRF app roach can deal w ith ancient Ch inese p ro se punctuat ion analysis mo re effectively than the single CR F.Key words: comput er inf o r m at ion p rocessing; punct uat ion m ark of anci ent Chinese; condit iona l random f ield (CRF)中国古代文献无标点, 不断句。
基于条件随机场方法的汉语专利文本介词短语识别(实用版4篇)目录(篇1)I.引言A.研究背景B.研究目的C.研究意义II.相关工作A.专利文本处理B.介词短语识别C.条件随机场方法III.方法介绍A.条件随机场模型B.介词短语特征提取C.模型训练与评估IV.实验设计A.数据集与预处理B.实验参数设置C.实验流程V.实验结果A.准确率对比B.F1得分对比C.时间消耗对比VI.分析和讨论A.结果解释B.方法优缺点分析C.未来工作展望VII.结论A.方法有效性验证B.方法在专利文本中的应用前景C.对相关工作的启示和影响正文(篇1)基于条件随机场方法的汉语专利文本介词短语识别是近年来受到广泛关注的研究领域。
介词短语在汉语中扮演着重要的语法角色,对专利文本的理解和分析具有重要意义。
本文提出了一种基于条件随机场方法来识别汉语专利文本中的介词短语。
首先,介绍了条件随机场模型的基本原理和专利文本处理的相关工作。
然后,详细阐述了如何提取介词短语的特征,并使用条件随机场方法进行训练和评估。
最后,通过实验对比了不同方法的准确率、F1得分和时间消耗,验证了本文方法的有效性。
目录(篇2)1.引言2.条件随机场方法介绍3.汉语专利文本介词短语识别方法4.实验与结果5.结论正文(篇2)一、引言随着人工智能技术的发展,自然语言处理成为其中的一个重要领域。
在自然语言处理中,词法分析是一个基本任务,而介词短语识别则是词法分析中的一个重要组成部分。
近年来,条件随机场方法在汉语词法分析中得到了广泛的应用。
本文将介绍基于条件随机场方法的汉语专利文本介词短语识别方法。
二、条件随机场方法介绍条件随机场(CRF)是一种基于概率模型的方法,用于处理序列标注问题。
它通过将序列中的每个标记视为一个条件概率来建模序列的联合概率分布。
在汉语专利文本介词短语识别中,条件随机场可以用于建模介词短语的识别。
三、汉语专利文本介词短语识别方法1.数据预处理:对专利文本进行分词、去除停用词等预处理操作,为后续的模型训练做准备。