领域术语抽取方法与制作流程
- 格式:pdf
- 大小:138.28 KB
- 文档页数:14
领域词库的构建方法
领域词库是一个特定行业或领域所需要的专业术语和常用词语的集合。
构建领域词库的方法有以下几种:
1. 人工构建法
人工构建法是指通过专家的经验和知识来手动构建领域词库。
这种方法的优点是准确度高,可以涵盖行业中的特殊术语和用法。
但是,人工构建领域词库需要耗费大量的时间和精力,适用于数据量较小的领域。
2. 文本挖掘法
文本挖掘法是指利用自然语言处理技术对大量文本数据进行分析,从中提取出某一个领域的关键词汇,然后构建领域词库。
这种方法可以快速地获取大量数据,但是精确度较低,会漏掉一些特殊用法和术语。
3. 语料库分析法
4. 机器学习法
机器学习法是指利用机器学习算法对大量数据进行训练,从中识别出领域的关键词汇和语法规则,进而构建领域词库。
这种方法需要大量的数据和计算力,但是可以自动化地生成领域词库。
无论采用哪种方法构建领域词库,其目的都是为了提高专业术语的准确性和全面性,降低误判率和工作量,从而提高工作效率和准确度。
机器翻译中的术语自动抽取与翻译技术研究一、引言随着全球化的发展,语言是人们交流的基础。
然而,不同的语言之间的障碍成为了不同国家之间交流合作的难点。
机器翻译技术的快速发展解决了这个问题。
机器翻译技术充分利用机器学习算法,将源语言文本转化为目标语言文本,从而实现不同语言之间的有效沟通。
然而,在机器翻译的实现过程中,术语自动抽取和翻译技术成为了实现高质量机器翻译的重要因素。
本文将深入探讨机器翻译中的术语自动抽取和翻译技术,分析其技术原理和应用情况。
二、机器翻译中的术语自动抽取技术术语是某一特定领域内专业术语的统称,是一种语言特征。
术语的准确翻译对机器翻译的质量有着决定性的影响。
因此,在机器翻译过程中,术语自动抽取技术成为了一个非常重要的环节。
术语自动抽取技术是利用自然语言处理技术,在语料库中自动获取文本中的术语的技术。
其主要流程包括语料库收集、分词、词性标注、命名实体识别等步骤。
在这些步骤中,命名实体识别是术语自动抽取的关键部分。
命名实体识别是指通过模型和规则,自动识别和提取出文本中具有一定实体含义的词汇,包括人名、地名、组织机构名称、时间、数量、货币、专业术语等。
术语自动抽取技术的应用可以大大提高机器翻译的翻译质量。
例如,在医学领域,机器翻译需要准确翻译各种医学术语,而这些术语很难人为收集和整理。
如果采用术语自动抽取技术,可以自动从医学文献中抽取术语并进行翻译,从而提高机器翻译的准确性和效率。
三、机器翻译中的翻译技术翻译技术是机器翻译的核心部分,影响机器翻译的翻译质量和速度。
目前,机器翻译中常用的翻译技术有统计机器翻译技术和神经机器翻译技术。
下面将分别介绍这两种技术。
1. 统计机器翻译技术统计机器翻译技术是机器翻译的传统技术,其基本思想是将源语言与目标语言之间的映射关系表示为一个概率模型,并通过学习模型参数来实现机器翻译。
统计机器翻译技术分为基于短语和基于句子的方法。
基于短语的方法将句子分成若干短语,翻译其中每个短语,再整合翻译结果得到最终的翻译结果。
领域词库的构建方法
本文旨在介绍如何构建一个有效的领域词库。
领域词库是由专业性的词语组成的词汇表,为应用语言技术提供有效的信息来源。
建立一个有效的领域词库,需要考虑几个方面,包括:收集词语,词语过滤,词语标注等。
首先,我们要收集相关领域的词语。
这是一个比较耗时的过程,包括搜集文献,网络搜索,翻译相关领域的文献等。
这样,我们可以收集尽可能多的相关领域词语,构建完整的领域词库。
其次,需要过滤掉构建领域词库时误收集的词语,通常这些词语会被认为和领域没有关系。
在进行词语过滤时,考虑一些专业性的因素,比如某个词汇是否在具体的领域应用,对对应的领域应用是否有实用的价值,从而将无用的词语剔除。
最后,要对收集到的词语进行标注,以便于更准确地了解每个词语在词库中的定义、用途以及与其他领域词语之间的关系。
标注工作可以采用专业语言编程方案,针对单个词语添加含义、分类标签,使用法定词典提取和对比新词语,以及基于特定问题模型给出字典定义等。
此外,为了更好地处理大量的词语,构建有效的领域词库之前,需要进行相应的统计分析,获取词语出现的频率,确定词语的关联程度,以及考虑到词语在词库中的重要性等。
根据分析结果,可以更好地利用统计学技术,对不同领域的词语进行更准确地提取和分析处理。
综上所述,构建一个高效的领域词库,需要收集相关词语,过滤
冗余词语,以及在给定的词语上仔细的标注。
同时,应采用相应的统计学技术,对词语进行分析,以获取更多有效的信息,从而构建出一个完整的领域词库。
抽取式文本摘要生成方法、装置、设备及存储介质与流程随着互联网的进展,越来越多的信息被广泛传播和共享,这让我们面临着一个众所周知的挑战,即信息的过载。
当我们需要处理大量的信息时,有时很难快速且精准地了解整个信息内容。
为了应对这一技术挑战,抽取式文本摘要技术被广泛进展和应用。
本文将介绍一种抽取式文本摘要生成方法、装置、设备及存储介质与流程。
一、概述抽取式文本摘要(Extractive Text Summarization)是一种通过分析文本内容,从原始文本中抽出最紧要的信息构成摘要的技术。
相比于摘要内容的生成,抽取式技术更加精准和牢靠,由于生成的摘要内容是从原始文本中抽取的,不会显现误差和不精准的情况。
本文重要叙述的是抽取式文本摘要的生成方法以及相关的装置、设备和存储介质。
二、抽取式文本摘要的生成方法1、文本预处理首先,将文本依照句子进行划分,并对每个句子进行预处理,包括词性标注、命名实体识别、句法分析等处理。
2、词频统计进行词频统计,统计每个词在文本中显现的次数,并计算每个句子中的紧要性得分。
紧要性得分重要包括词频得分、位置得分、标题得分等。
3、句子排序将每个句子的紧要性得分进行排序,选取得分最高的前n个句子作为生成的文本摘要。
其中,n可以依据需求和文本长度进行调整。
三、装置和设备为了实现抽取式文本摘要的自动化生成和优化成果,需要结合传统的算法和新兴的数据分析技术,设计一种高效的装置和设备。
1、预处理器预处理器重要负责对原始文本进行分词、词性标注、命名实体识别等等处理。
预处理器包括:语言模块(该模块负责文本的预处理任务,包括对文本的拆分、去除停用词、命名实体识别、情感分析等),自然语言处理模块、推举处理模块等。
2、摘要生成器摘要生成器就是整个系统中的核心部分,重要由若干个子系统构成。
每个子系统都有其特定的运行程序和算法,重要包括:(1)句子紧要度计算模块。
(2)句子过滤模块。
(3)句子排序模块。
3、可视化输出模块为了便利用户观看和使用抽取式文本摘要生成的结果,需要使用一个可视化模块进行呈现。
双语术语提取算法双语术语提取算法(Bilingual Terminology Extraction Algorithm)引言:随着全球化的加深,多语言信息处理的需求也越来越迫切。
在这种背景下,双语术语提取算法成为了研究的热点之一。
通过提取两种语言中的术语,可以帮助人们更好地理解不同语言之间的关联,从而促进跨语言交流和信息处理的效率。
一、双语术语提取算法的定义双语术语提取算法是指通过对两种语言的文本进行分析和处理,从中提取出两种语言共有的术语。
这些术语是在不同领域中广泛使用的专业词汇,对于深入了解特定领域的文本非常重要。
1. 数据预处理在进行双语术语提取之前,首先需要对两种语言的文本数据进行预处理。
这包括去除标点符号、停用词等无关信息,并进行分词和词性标注等处理。
2. 术语候选项提取接下来,通过使用词频、互信息等统计方法,从预处理后的文本数据中提取出术语的候选项。
这些候选项是潜在的术语,需要进一步的筛选和验证。
3. 术语筛选与验证在候选项中,可能存在一些不是真正的术语,因此需要进行筛选与验证。
常用的方法包括基于词性、词义、语境等特征的术语识别算法。
这些算法可以帮助我们确定哪些候选项是真正的术语。
4. 双语术语对齐在确定了两种语言中的术语后,还需要对这些术语进行对齐。
通过比较两种语言中术语的相似性,可以找到它们之间的对应关系。
这个过程需要使用双语词典、翻译模型等工具。
5. 术语评估与优化需要对提取出的双语术语进行评估与优化。
可以使用专家评价、领域知识等方法来判断提取的术语是否正确和完整,并对算法进行改进和优化。
三、双语术语提取算法的应用领域双语术语提取算法在多个领域有着广泛的应用。
例如,在机器翻译中,通过提取源语言和目标语言中的术语,可以帮助改善翻译质量。
在自然语言处理中,双语术语提取可以用于构建双语词典、术语库等资源,为其他任务提供基础支持。
双语术语提取算法在跨语言信息检索、知识图谱构建、专业领域信息抽取等方面也有着重要的应用。
基于机器学习的领域专家抽取算法研究在当今的信息化时代,随着互联网的普及和数据的增多,如何快速、准确地从海量数据中提取出符合需求的专业领域专家信息成为了各行各业共同的难题。
针对这个问题,基于机器学习的领域专家抽取算法应运而生,成为了目前较为流行的解决方案之一。
一、什么是机器学习机器学习(Machine Learning)是一种快速发展的人工智能分支学科,是指一类计算机程序,通过利用数据及数学模型,使计算机从中快速学习并不断调整自身的行为方式和参数,从而使得计算机在未经人工干预的情况下,能够快速、准确地识别、分类和预测数据。
二、什么是领域专家抽取领域专家抽取(Expertise Extraction),指从指定领域内的众多专家中,通过固定的规则和特定的算法,自动抽取出符合指定条件的专家信息,包括姓名、相关论文、机构信息等,对于企业、科研机构等实体单位而言,领域专家抽取可以大大缩短信息搜集周期,快速获取专业领域内的人才信息。
三、基于机器学习的领域专家抽取算法针对领域专家抽取问题,目前有很多算法可供选择,其中,基于机器学习的算法由于其高效、准确的特点而备受推崇。
基于机器学习的领域专家抽取算法一般包括以下几个步骤:1. 特征提取:将文本信息转化为机器可读的特征向量形式,提取出评价专家水平的关键因素,如论文数量、引用数量、相似文章等。
2. 模型训练:通过已有的专家信息数据集和相应的标签信息,训练出可分类专家信息的机器学习模型。
3. 评估和调整:通过模型评估指标对构建的模型进行评估和调整,提高模型准确率和鲁棒性。
4. 数据匹配:将待抽取的领域信息同已构建好的模型进行数据匹配,输出符合条件的专家信息。
值得注意的是,基于机器学习的领域专家抽取算法不但需要机器学习专家和数据科学家的团队支持,还需要领域专家的支持,快速抽取领域专家的关键在于特征的提取过程,而该过程亟须领域专家的参与。
四、基于机器学习的领域专家抽取算法的应用场景目前,基于机器学习的领域专家抽取算法被广泛应用于企业人才招聘、大学资助项目申请、学术会议邀请等领域,可大大提高信息搜索的效率,并保证信息的准确性。
第一列为第一列原文(比如英文)第二列过程稿为记忆库处理后地过程稿原文中地“” “, ”等冠词一般不要提取,除非不提取含义出错.第一列原文中地“ ” 在第二列过程稿中翻译成了“为完成”,这显然不行,要不要提取呢?是不是直接提取“ ”呢?还是将“ ”作为一个整体提取呢?整个就要看判断和经验了,提取地原则是:你所提取地部分有代表性,如果新稿件中出现了类似地短句,不会有其他含义而产生错误,最好提取地该部分可以适用于很多情况,在这里我没有提取“ ”,因为我觉得这个短语价值似乎不是很大,但我提取了“”:资料个人收集整理,勿做商业用途完全资料个人收集整理,勿做商业用途因为这个词汇在新稿件中出现地可能性还不小.我还提取了“ ”,因为这个短语有代表性:由完全控制资料个人收集整理,勿做商业用途比如在新稿件中出现了 , 虽然和不同,但是地意思是一样地.提取公共部分.资料个人收集整理,勿做商业用途第一列原文中地“”在第二列过程稿中翻译成了“低”,这个没有翻译好,要不要提取呢?还是把“ ”作为一个整体来提取呢?或者把“ ”作为一个整体来提取呢?这里我只提前了“”,因为不需要翻译,在原记忆库中已经有了,不要重复提取,只需要提取“”,就可达到满意地效果.如下:资料个人收集整理,勿做商业用途逻辑资料个人收集整理,勿做商业用途第一列原文中地“ ”这一部分,在第二列过程稿中翻译成了“和”,这不对,这个部分要小心,因为在这里该部分地含义是“那个”,做连词了,表示那个,但是在其他稿件中“ ”可能有其他含义,比如两个单词组合起来还是连词,怎么办呢?这里可以将更多内容包括进来,就不会有几种不同地含义了,我提取为以下:资料个人收集整理,勿做商业用途该逻辑电路资料个人收集整理,勿做商业用途“”这个词在记忆库中已经有了,是“和”地意思,而且在第二列过程稿中也翻译出来了,为什么要改动呢?因为在这里如果翻译成“和”,显然是错误地.如果可以翻译成“和”,那当然不需要再重复处理了,资料个人收集整理,勿做商业用途在第三列译文中,该部分()翻译成了“此逻辑”,为什么提取时变了?因为第三列是手工翻译地,也不一定完全正确,当然,正确与否不是绝对地,因为我对该稿件比较熟悉,所以我改成了“该逻辑电路”,似乎更确切一些,如果某部分您没有把握,可以不提取改部分.可以漏提,不能提错,因为错了就麻烦了.没有提地话,以后还可以提取地.资料个人收集整理,勿做商业用途第一列原文中地“ ”在第二列过程稿中翻译成了“打开所有”,这显然不对,那改提取哪个呢?单独提取“”和“”还是只提取“ ”?还是都提取?或者是加入前后其他词汇提取?很明显,“”不是多义词,就一个含义“仅”,“”也就一个含义“允许”,因此这里可以单独提取“”和“”,如下:资料个人收集整理,勿做商业用途仅资料个人收集整理,勿做商业用途允许资料个人收集整理,勿做商业用途这里地“” 为什么不写成“仅仅”,而是仅呢?因为我们这里不是学校,我们是直接用于翻译稿件中.当然用“仅仅”也不差,但是,习惯上用一个“仅”即可.简练些.资料个人收集整理,勿做商业用途第一列原文中地“ ”,在第二列过程稿中翻译成了“运行”,“ ”则翻译成了“运行时”,我们在这里该采用“ ”还是“ ”呢?就是说,术语提取地长短如何确定?要根据含义,句子通顺,显然这里我们应该用“ ”,含义是“在时运行”,其中地空格一定要由三个单元空格组成,这里为什么不是“时运行”而是多了一个“在”字呢?因为考虑到译文地衔接问题.另外,表示三个空格地意思,表示这里需要填入内容地,而该内容可能需要从其他地方移动过来,因为英文和中文语序地不同.中间部分地空格不需要表示.提取如下:资料个人收集整理,勿做商业用途在时运行资料个人收集整理,勿做商业用途该直接提取“”吗?还是组合提取?我们知道“”是一个多义词,有几个含义,比如“电流”,“当前地”等,直接提取地话,用哪一个?不知道,换了稿件可能含义不同,因此这种多义词一定要小心,不然在这里是对地,在别地稿件中就可能是错地.这里我们可以组合提取地方式.有多个选项:“ ”,“ ”,“ ”等,甚至还有可能将后面地也一并组合进来,这里可看到第一列原文中地“”在第二列过程稿中也没有正确翻译出来,而是与后面地组合在一起翻成了“内部放置于”,这个显然不对,到底该提取多长地内容?包括哪些?这里我根据经验提取如下:资料个人收集整理,勿做商业用途蓄电池电流资料个人收集整理,勿做商业用途来自地蓄电池电流输入资料个人收集整理,勿做商业用途这样组合以后就不存在多个含义了,为什么不提取“ ”呢?因为“ ”可能有两个含义:“当前地输入”和“电流输入”,显然不能用.资料个人收集整理,勿做商业用途提取方式非常多,“ ”似乎也可以提取为:“来自地电流输入”,但根据经验,我没有提取,因为蓄电池不能排除在外.对于初学地您,如果不熟悉,没把握,可以不提取,千万不要随便乱提取. 资料个人收集整理,勿做商业用途第一列原文中地“”在第二列过程稿中翻译成了“保险丝”,这个不对,应该是“装有保险丝地”,因此提取如下:资料个人收集整理,勿做商业用途装有保险丝地资料个人收集整理,勿做商业用途这个词是单个很短地词汇,有没有多重含义呢?我觉得在本领域中似乎没有,因此采用了.第一列原文中地“”,在第二列过程稿中没有翻译,表示记忆库中没有收录这个词汇,我提取成如下:运行资料个人收集整理,勿做商业用途因为在本领域中似乎没有其他含义.似乎是安全地.完全资料个人收集整理,勿做商业用途由完全控制资料个人收集整理,勿做商业用途逻辑资料个人收集整理,勿做商业用途该逻辑电路资料个人收集整理,勿做商业用途仅资料个人收集整理,勿做商业用途允许资料个人收集整理,勿做商业用途在时运行资料个人收集整理,勿做商业用途蓄电池电流资料个人收集整理,勿做商业用途来自地蓄电池电流输入资料个人收集整理,勿做商业用途装有保险丝地资料个人收集整理,勿做商业用途运行资料个人收集整理,勿做商业用途您提取地不必要和我地一模一样,领会了提取地中心思想就行.但要杜绝明显、低级错误.没有把握地可以不提取.当然,开始难免会有错误发生,开始几次我都会审核地.希望您尽快掌握.资料个人收集整理,勿做商业用途“ ” 在第二列过程稿中翻译成了“位置车灯”,在第三列地手工译文中翻译成了“位置灯”,我觉得似乎应该是“定位灯”地意思,因此我将其提取出来了,如果您没有把握,可以不管,如果您觉得有问题,可以将相关部分标黄(注意:大小写不用区分,小写大写都无所谓):资料个人收集整理,勿做商业用途定位灯第一列原文中地“ ”在第二列过程稿中翻译成了“各”,这显然不对,我提取为如下:资料个人收集整理,勿做商业用途每次当为什么不是每次呢?加个当字干吗?因为考虑到译文衔接和通顺,而且加一个“当”字后,似乎也具有唯一性,在本领域中没有其他含义.资料个人收集整理,勿做商业用途第一列原文中地“ ” 在第二列过程稿中翻译成了“位置车灯指示器”,应该是“定位指示灯”,前面已经提取了其中地“ ”,那么现在要怎么提取呢?我根据经验提取如下:资料个人收集整理,勿做商业用途定位指示灯资料个人收集整理,勿做商业用途指示灯资料个人收集整理,勿做商业用途为什么提取了两个?因为前面已经提取了其中地“ ”,如果在新稿件中单独出现了“ ”,则记忆记忆库会翻译成“车灯指示器”,而其含义应为“指示灯”,因此加上了.做为初学者地您,没有把握时可以不提取,漏提取没关系,提错了就是致命问题.资料个人收集整理,勿做商业用途第一列原文中地“” 在第二列过程稿中翻译成了“信息从”,这个没有错,为什么原文少了一个空格?因为原文是由塔多思导出来地,格式问题,有时会出现此现象.如果需要提取出来,请加上空格.资料个人收集整理,勿做商业用途第一列原文中地“” 在第二列过程稿中翻译成了“内部异常”,这是错误地,说明记忆库中没有收录该词汇,我根据经验提取如下:资料个人收集整理,勿做商业用途,表明这里为什么带了个逗号呢?也是考虑到上下文地通顺与衔接.那么在新稿件中有没有不能有逗号地情况呢?我觉得加个逗号更好理解.资料个人收集整理,勿做商业用途第一列原文中地“ ” 在第二列过程稿中翻译成了“位置车灯”,注意这个,是复数,这表明原记忆库中只收录地单数,复数也需要录入地,因此提取如下:资料个人收集整理,勿做商业用途定位灯车灯为什么提取两个呢?当然,你不确定时也可以只提取一个,少提取没关系地.准确第一.第一列原文中地“ ” 在第二列过程稿中翻译成了“ 转动开启”,在第三列手工译文中翻译成了“已经开启”(注意其后地“时”字是属于前面地内地含义),我觉得不妥,综合各方面因素(包括含义地唯一性、长短合理、衔接等),提取如下:资料个人收集整理,勿做商业用途被开启待补充……。
本技术提供一种领域术语抽取方法,包括步骤:对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理;对当前格式化领域文本进行词频统计;采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集;根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,得到第二候选领域术语集;对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;对第三候选领域术语集进行通用词库过滤处理,得到领域术语。
本技术具有抽取效果较好的特点,可广泛应用于词语抽取领域。
权利要求书1.一种领域术语抽取方法,其特征在于,所述抽取方法包括如下步骤:步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理,对背景领域文本进行预处理、分词处理,分别得到当前格式化领域正文与格式化背景领域正文;步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计,分别得到带词性的词频数fd与不带词性的词频数fb;步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语,得到第一候选领域术语集;步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选,删除第一候选领域术语集中不符合成词度条件的候选领域术语后,得到第二候选领域术语集;步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理,得到第三候选领域术语集;步骤6、对第三候选领域术语集进行通用词库过滤处理,得到领域术语;步骤3具体包括如下步骤:步骤31、设定第二阈值γ、第三阈值δ,将带词性的词频数fd>γ或不带词性的词频数fb>γ的字或词语作为候选词;将候选词Xj作为当前中心词,设定临时候选领域术语S0=Xj、Sl0=Xj、Sr0=Xj,设置标志位flagl=true、flagr=true;其中,Xj为第j个候选词,γ>1,且j、γ为自然数;步骤32、获取当前中心词Xj与其左侧候选词Xj-1结合后的信息熵、当前中心词Xj与其右侧候选词Xj+1结合后的信息熵,分别如下:Entropyl(j-1)(X)=-∑LP(Xl(j-1)Xj|Xj)log2P(Xl(j-1)Xj|Xj),Entropyr(j+1)(X)=-∑RP(XjXr(j+1)|Xj)log2P(XjXr(j+1)|Xj);之后,并行执行步骤33、步骤34;步骤33、判别Entropyl(j-1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr =true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其左侧各候选词Xj-1共现的条件概率与IRCTlk=max{P(XlkXj|Xj)}确定组合XlkSl0后,令Sl0=XlkSl0、Xj=Xlk、Sr0=Sl0,并判定j=1是否成立:如果是,则判别是否满足flagl=true与flagr=true:若满足,则令flagl=false、Xj=S0,并执行步骤34;若不满足,则执行步骤35;如果不是,则返回步骤32;其中,k为自然数,且k=0、1、...、j-1;N(Xl(j-1)Xj)表示当前中心词Xj与其左侧各候选词Xj-1共现的次数,N(Xj)表示当前中心词Xj出现的次数;步骤34、判别Entropyr(j+1)(X)<δ是否成立:如果不成立,则判别是否满足flagl=true与flagr =true:若满足,则令flagl=false、Xj=S0,并执行步骤33;若不满足,则执行步骤35;如果成立,则根据当前中心词Xj与其右侧候选词Xj+1共现的条件概率与IRCTrm=max{P(XjXrm|Xj)}确定组合Sr0Xrm后,令Sr0=Sr0Xrm、Xj=Xrm、Sl0=Sr0,并判定m=j+n 是否成立:如果是,则判别是否满足flagr=true与flagl=true:若满足,则令flagr=false、Xj =S0,并执行步骤33;若不满足,则执行步骤35;如果不是,返回步骤32;其中,N(XjXr(j+1))表示当前中心词Xj与其右侧各候选词Xj+1共现的次数,n为Xj右侧字或词语的最大序数,m、n为自然数,且m=j+1、j+2、...、j+n;步骤35、将得到的扩展结果Sl0或Sr0组成的集合作为第一候选领域术语集。
2.根据权利要求1所述的领域术语抽取方法,其特征在于,所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。
3.根据权利要求1所述的领域术语抽取方法,其特征在于,步骤1中,所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤:步骤111、移除当前待抽取领域文本与背景领域文本中的无用项,分别得到当前待抽取领域正文与背景领域正文;步骤112、对当前待抽取领域正文与背景领域正文进行格式统一化处理,分别得到当前预处理格式化领域正文与预处理格式化背景领域正文。
4.根据权利要求3所述的领域术语抽取方法,其特征在于,步骤1中,所述去停用词处理具体包括如下步骤:步骤121、设定第一阈值ζ,确定当前格式化领域正文中的各词语或字,并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文所属领域语料库中出现的文本数pi、当前格式化领域正文所属领域语料库中所有领域文本总数q;其中,i表示当前格式化领域正文中各词语序号或各字序号,且为自然数;步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词:当pi/q>ζ时,则当前格式化领域正文中第i个词语或字为停用词;步骤123、从当前待抽取领域文本中去掉该停用词。
5.根据权利要求2所述的领域术语抽取方法,其特征在于,步骤4中,所述成词度条件包括词性搭配规则、边界信息概率规则;所述词性搭配规则包括候选术语组成结构及其对应的词性搭配组合,候选术语组成结构包括一元结构、二元结构、三元结构、四元以上结构;所述词性搭配规则具体如下:当候选术语组成结构为一元结构时,其对应的词性搭配组合为:名词、动词、动名词、不及物动词、形容词或者形容词性惯用语;当候选术语组成结构为二元结构时,其对应的词性搭配组合为:名词+名词、名词+动词、名词+动名词、动词+名词、动词+动名词、区别词+名词、动词+动词、形容词+名词、名词+不及物动词、形容词+动名词、区别词+动名词、名词+名词性语素、动名词+动名词语素、动名词+动名词、形容词+名形词、动名词+名形词、动名词+动名词、名词+名形词、数词+名词、不及物动词+动词、不及物动词+名词、形容词+动词或者动词+名词性语素;当候选术语组成结构为三元结构时,其对应的词性搭配组合为:至少包括名词、动词、动名词、形容词、区别词、名词性语素或副词之一;当候选术语组成结构为四元以上结构时,其对应的词性搭配组合为:首字或首词不为介词、量词、连词、助词或者后缀,尾字或尾词为名词、名词性语素动词、动词、动名词、不及物动词、动词性语素或者动量词,且不包含代词、语气词、助词、叹词、拟声词、处所词、状态词、方位词、字符串或者时间词。
6.根据权利要求5所述的领域术语抽取方法,其特征在于,所述步骤4具体包括如下步骤:步骤41、删除第一候选领域术语集中不符合所述词性搭配规则的候选领域术语;步骤42、设定第四阈值ω、第五阈值η;对于符合所述词性搭配规则的各候选领域术语,根据首字出现概率库,当候选领域术语首字在首字出现概率库中的概率小于第四阈值ω时,删除该候选领域术语;对于符合所述词性搭配规则的各候选领域术语,根据尾字出现概率库,当候选领域术语尾字在尾字出现概率库中的概率小于第五阈值η时,删除该候选领域术语;之后,得到第二候选领域术语集。
7.根据权利要求1所述的领域术语抽取方法,其特征在于,所述步骤5中具体包括如下步骤:步骤51、设定第六阈值步骤52、判断第二候选领域术语集中的各候选领域术语是否满足如下领域度筛选条件如果不满足,则删除该候选领域术语,得到第三候选领域术语集;其中,Su为第二候选领域术语集中的第u个候选领域术语,vb为领域文本的总字数,TF(Su,v)表示Su在b篇领域文本中的出现频次,w为背景领域文本数,DF(Su)表示背景领域文本库中Su出现的背景领域文本数。
技术说明书一种领域术语抽取方法技术领域本技术涉及抽取技术,特别是涉及一种领域术语抽取方法。
背景技术领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。
随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。
实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。
领域术语具有两个可统计度量的特性:一是成词度,即,单元性或语言完备性,其从词语结构出发衡量一个字符串是否能独立表达一个完整概念、是否具有符合词法规则的稳定结构;二是领域度,其从词语的隶属度出发衡量一个字符串与特定领域的相关程度。
从构词方式而言,领域术语可分为单词型领域术语与词组型领域术语。
单词型领域术语由一个单词构成,且此单词是不能再分解的最小独立组成单元;词组型领域术语是由两个以上的单词或语素按照一定语法结构组成的。
实际应用中,大部分领域术语属于词组型领域术语,故词组型领域术语是领域术语抽取的重点,同时也是难点。
目前,领域术语抽取方法概括而言主要分为三种:第一种是基于语言规则的方法,其根据领域术语的构词特征定制一系列规则模板,但由于无法实现用少量规则覆盖复杂的领域术语构成规律,故该方法抽取效果较差;第二种是基于统计的方法,其根据统计领域术语在大量文本中的出现特征抽取领域术语,该方法中的各统计策略各有优缺点和适用情况,至今还没有一种方法的效果能得到一致的认同;第三种是基于规则与统计相结合的方法,其弥补上述两种方法各自的缺陷,是领域术语抽取的方向,但是当前基于此方面的研究仍较少。
由此可见,在现有技术中,领域术语提取效果比较差。
技术内容有鉴于此,本技术的主要目的在于提供一种抽取效果比较好的领域术语抽取方法。
为了达到上述目的,本技术提出的技术方案为:一种领域术语抽取方法,包括如下步骤:步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理,对背景领域文本进行预处理、分词处理,分别得到当前格式化领域正文与格式化背景领域正文。
步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计,分别得到带词性的词频数fd与不带词性的词频数fb。