基于互信息的中文术语抽取系统
- 格式:pdf
- 大小:172.99 KB
- 文档页数:3
基于互信息和信息熵的新词提取## Information Gain & Mutual Information-Based Term Extraction.Term extraction refers to the identification and extraction of essential words or phrases, known as terms, from a given text. These terms represent the salient concepts and topics discussed within the text, making them crucial for tasks such as information retrieval, text summarization, and natural language processing.Mutual information (MI) and information gain (IG) are two fundamental measures used in information theory to quantify the relationship between two events or variables. In the context of term extraction, these measures can be utilized to identify terms that are highly informative and relevant to the text.### Term Extraction Using Mutual Information.Mutual information measures the level of association or dependency between two events. In term extraction, it calculates the relationship between a candidate term and the presence of specific keywords within the text. A term with a high mutual information with the keywords is likely to be a relevant and informative term.Calculating Mutual Information.The mutual information between a term `t` and a keyword `k` is given by:MI(t, k) = P(t, k) log(P(t, k) / (P(t) P(k)))。
基于混合策略的高精度长术语自动抽取梁颖红;张文静;周德富【摘要】在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点.该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法.该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界.采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果.%For term recognition, the current precision of double word term has achieved 90.36% while the precision of multi word term is only 66.63%. To address the issue of multi word term recognition, this paper proposes a method of higher precision, which integrates the predominance of NC value parameter in long term recognition with the mutual information. The experimental result shows the precision, recall and F measure fo this method can reach 88.5%, 76.6% and 82.2%, respectively.【期刊名称】《中文信息学报》【年(卷),期】2009(023)006【总页数】5页(P26-30)【关键词】计算机应用;中文信息处理;术语抽取;NC-value;互信息【作者】梁颖红;张文静;周德富【作者单位】江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104;东北林业大学,信息与计算机工程学院,黑龙江,哈尔滨,150040;东北林业大学,信息与计算机工程学院,黑龙江,哈尔滨,150040;江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104【正文语种】中文【中图分类】TP391术语自动抽取技术是信息处理中的一个重要课题[1]。
基于术语自动抽取的科技文献翻译辅助系统的设计黄政豪;崔荣一【期刊名称】《延边大学学报(自然科学版)》【年(卷),期】2017(043)003【摘要】设计了一种中韩科技信息综合平台中的翻译辅助系统.首先,依据关键词确定的组词特证获取候选术语,并使用互信息评估候选术语以实现术语自动提取.其次,将已有术语、抽取到的新术语、术语译文和历史翻译记录等信息存储到系统数据库中建立术语库.最后,设计翻译工作者的用户接口,使其通过该接口获取已有术语的译文信息、新术语的相似译文信息和译文记忆库为基础的历史翻译数据.测试结果表明,本文设计的术语自动抽取功能和辅助译文生成功能达到了预定的设计目标,术语自动抽取算法召回率达到61.8%,结合优化方法进行优化后达到66.9%;辅助译文生成平均延时为0.031 s,MRR为0.951,测试结果满足用户需求.【总页数】5页(P259-263)【作者】黄政豪;崔荣一【作者单位】延边大学工学院计算机科学与技术学科智能信息处理研究室,吉林延吉133002;延边大学工学院计算机科学与技术学科智能信息处理研究室,吉林延吉133002【正文语种】中文【中图分类】TP391.41【相关文献】1.两岸三地科技术语的翻译与规范——基于计算机术语的个案研究 [J], 裘禾敏2.基于统计和规则相结合的科技术语自动抽取研究 [J], 刘豹;张桂平;蔡东风3.石油装备科技文献计算机辅助翻译记忆库及服务系统建设方案探讨 [J], 马艳萍;刘英立4.基于“NUTERM术语库”的中国艺术学术语系统英译研究——术语翻译的系统经济律视角 [J], 赵连振5.基于科技英语特性的Trados辅助翻译系统的设计与实现 [J], 赵足娥;吴年利;李培隆因版权原因,仅展示原文概要,查看原文内容请购买。
互信息改进方法在术语抽取中的应用杜丽萍;李晓戈;周元哲;邵春昌【摘要】为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法.首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果.理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点.在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性.【期刊名称】《计算机应用》【年(卷),期】2015(035)004【总页数】6页(P996-1000,1005)【关键词】术语抽取;专业术语;知识获取;互信息【作者】杜丽萍;李晓戈;周元哲;邵春昌【作者单位】西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;中央民族大学理学院,北京100081【正文语种】中文【中图分类】TP391.1术语抽取在中文信息处理领域中是一项重要的基础性研究课题。
随着科技、经济、文化的快速发展,各个学科领域中的术语也发生了很大变化,为了及时了解学科的发展动态,术语抽取的需求应运而生。
术语抽取方法总体上有两种:基于规则的方法和基于统计的方法[1-2]。
目前,主流方法是将两者结合起来使用,即基于统计与规则相结合的方法。
统计部分通常是通过计算字串间的结合强度来判定两个字串是否可以组成一个术语[3]。
基于AJAX技术的中文术语抽取系统的设计与实现张昭楠【摘要】From the perspective of the user needs to determine the design and realization of the Chinese Term Extraction Based AJAX technology technology, the user point level system will Feiwei three interrelated subsystems, namely Chinese term extraction, Chinese custom extraction and based on user feedback the self-learning system, and the functions and tasks were divided into three subsystems. It also uses two definitions of the terms corpus respectively for Chinese and Chinese extraction system terminology extraction system for a certain amount of testing, test results show that the accuracy of the system compared to the previous system upgrade by 40%to 63.75%, can recall It reached 78.84%, and in terms of humanization and human-computer interaction have gone to great innovation and improvement.%文中从用户需求的角度出发确定并设计实现了基于AJAX技术的中文术语抽取技术,在用户角度层面上将系统飞卫3个相互联系的子系统,即中文术语抽取、中文定义抽取和基于用户反馈的自学习系统,并且对3个子系统的功能和任务进行了划分。
一种基于统计技术的中文术语抽取方法刘剑;唐慧丰;刘伍颖【摘要】中文术语识别与抽取是中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。
文章以互信息和信息熵理论为基础,提出一种基于统计技术的中文术语半自动抽取方法,并且以互联网新闻话题数据为对象进行了实验验证,结果表明所提方法能够有效支持中文术语的抽取。
%Chinese terminology extraction is a fundamental issue in Chinese text information processing. It has been applied in many other fields, such as Chinese text indexing and retrieval, text mining, ontology construction, and latent semantic analysis. Based on mutual information and information entropy theory, we proposed a semi-automatic Chinese terminology extraction method by statistical technology, and experimental y verified this method using internet news topic data. Our results show that proposed method can effectively support Chinese term extraction.【期刊名称】《中国科技术语》【年(卷),期】2014(000)005【总页数】5页(P10-14)【关键词】互信息;信息熵;中文术语抽取【作者】刘剑;唐慧丰;刘伍颖【作者单位】解放军外国语学院,河南洛阳471003; 中国科学院计算技术研究所,北京100190;解放军外国语学院,河南洛阳471003;解放军外国语学院,河南洛阳471003【正文语种】中文【中图分类】TP311;NO4;HO83术语是用来刻画、描写领域知识的基本信息承载单元,术语识别与抽取是文本信息处理的基础,对于提高文本索引与检索、本体构建、文本挖掘、潜在语义分析等方面的处理精度有着重要的意义。
基于关系抽取的中文文本信息提取技术研究与应用近年来,随着互联网的快速发展和信息爆炸式增长,从大量海量的中文文本中提取有用的信息变得尤为重要。
基于关系抽取的中文文本信息提取技术应运而生,成为解决这一问题的关键方法。
本文将介绍基于关系抽取的中文文本信息提取技术的研究现状和应用。
首先,我们需要了解基于关系抽取的中文文本信息提取技术的基本原理和流程。
该技术主要从给定的中文文本中提取实体和它们之间的关系。
实体可以是人、地点、组织或事件等。
关系则是用来描述这些实体之间的连接、联系或互动。
关系抽取的主要任务就是从文本中识别出实体,并针对实体间的关系进行提取。
关系抽取的核心技术主要包括实体识别和关系分类。
实体识别是将文本中的实体定位并进行标注的过程,通常采用基于机器学习的方法,如条件随机场(CRF)和支持向量机(SVM)等。
而关系分类是对实体间的关系进行分类的过程,通常使用分类器或深度学习模型,如朴素贝叶斯分类器、最大熵模型、卷积神经网络(CNN)和循环神经网络(RNN)等。
在实际应用中,基于关系抽取的中文文本信息提取技术有广泛的应用前景。
以下是几个典型的应用领域:1. 情感分析:基于关系抽取的中文文本信息提取技术可以用于提取文本中的情感倾向和态度。
通过识别实体(人物、产品、事件等)和关系(例如情感评价、意见提及),可以分析文本的情感色彩,帮助企业进行舆情监测和产品推广等。
2. 事件提取:基于关系抽取的中文文本信息提取技术可以用于提取新闻报道、社交媒体等文本中的事件信息。
通过识别人物、地点、时间等实体,并提取它们之间的关系,可以实现对事件的自动化识别、分类和监测。
3. 知识图谱构建:基于关系抽取的中文文本信息提取技术可以用于构建知识图谱,将大量的中文文本转化为结构化的知识表示,方便后续的知识推理和应用。
通过实体和关系的抽取与链接,可以构建实体关系图谱,帮助人们更好地理解和利用信息。
除了上述应用外,基于关系抽取的中文文本信息提取技术还可以应用于舆情监测、社交网络分析、问答系统等领域。
基于语言特性的中文领域术语抽取算法
傅继彬;樊孝忠;毛金涛;余正涛
【期刊名称】《北京理工大学学报》
【年(卷),期】2010(30)3
【摘要】提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高.
【总页数】4页(P307-310)
【关键词】术语抽取;领域耦合性;领域相关性;领域一致性
【作者】傅继彬;樊孝忠;毛金涛;余正涛
【作者单位】河南财经学院计算机与信息工程学院;北京理工大学计算机学院;昆明理工大学信息工程与自动化学院
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于SVR模型的中文领域术语自动抽取研究——面向图书情报领域 [J], 蒋婷;孙建军
2.基于CRFs的冶金领域中文专利术语抽取研究 [J], 王密平;王昊;邓三鸿;吴志祥
3.基于领域中文文本的术语抽取方法研究 [J], 谷俊;王昊
4.基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用 [J], 赵若冰
5.基于登录词邻接关系的双条件概率的领域术语抽取算法 [J], 陈黎;于中华;王亚强;秦湘清
因版权原因,仅展示原文概要,查看原文内容请购买。