网络文本中的词汇自动识别
- 格式:doc
- 大小:49.00 KB
- 文档页数:4
结合链接结构和共现分析的同义词自动识别方
法
结合链接结构和共现分析的同义词自动识别方法是一种智能机器
学习算法,在语料库中表现自己,用来进行语义理解。
它结合了人工
智能两个相关技术:链接结构和共现分析。
该方法将上下文中的单词
以及它们之间的关系组织起来,并通过对共现词语的比较寻找出具有
相同或者相似意义的句子。
智能机器学习算法可以用来提取大量的潜在的、面向未来的、语
义正确的同义词,从而更好的理解语料库中的文本内容。
结合链接结
构和共现分析的同义词自动识别方法通过处理文本中的抽象数据表示,建立了文本中某个词汇对另一个词汇的关系,从而获得了共现率和链
接结构这两个重要的特征。
因此,该方法可以根据文本的共现率和链
接结构来判断某个词是否与另一个词具有同义词关系,从而在语料库
中发现有用的同义词。
结合链接结构和共现分析的同义词自动识别方法也可以用来改进
扩展性和语义正确性,从而更好的应对客户在不同情境中使用的不同
文本表达形式。
该方法可以帮助为新语料库构建语义正确的同义词,
从而提高AI系统的精确度。
此外,它还可以用来帮助语料库自动更新,追踪新发行的文本,以保持语料库中的结构更新、同义词更新。
nlp使用的技术自然语言处理(Natural Language Processing,NLP)是一门涉及计算机科学、人工智能和语言学的交叉学科,旨在使计算机能够理解、处理和生成自然语言。
在NLP领域中,有许多重要的技术和方法被广泛应用,下面将对其中一些常见的技术进行介绍。
1. 词法分析:词法分析是NLP中的基础技术之一,用于将自然语言文本分割成单词或词汇单元。
这是由于计算机无法直接理解文本,需要将文本转换为计算机能够处理的形式。
词法分析可以识别出文本中的词汇、标点符号和其他重要的语言单位。
2. 句法分析:句法分析是一种用于分析句子结构的技术。
它可以确定句子中的各个成分之间的关系,如主语、谓语和宾语等。
通过句法分析,计算机可以理解句子的语法结构,从而更好地理解句子的含义。
3. 语义分析:语义分析是NLP中的一个重要任务,旨在理解文本的含义和语境。
它可以通过分析词汇、短语和句子之间的关系来推断文本的含义。
语义分析可以帮助计算机进行文本分类、情感分析和问答系统等任务。
4. 信息抽取:信息抽取是从非结构化文本中提取结构化信息的过程。
它可以识别和提取文本中的实体、关系和事件等重要信息。
信息抽取可以应用于各种任务,如实体识别、关系抽取和事件抽取等。
5. 机器翻译:机器翻译是一种将一种语言翻译成另一种语言的技术。
它利用NLP技术将源语言文本转换成目标语言文本。
机器翻译可以应用于各种场景,如文档翻译、在线翻译和语音翻译等。
6. 文本生成:文本生成是一种通过机器自动生成文本的技术。
它可以应用于自动摘要、文本生成和对话系统等任务。
文本生成可以根据给定的输入生成相应的输出,从而实现自动化的文本生成。
7. 情感分析:情感分析是一种通过NLP技术对文本的情感进行分析和识别的技术。
它可以判断文本中的情感倾向,如积极、中性或消极等。
情感分析可以应用于舆情分析、情感检测和情感推断等任务。
NLP技术在自然语言处理中起着重要的作用。
热点词汇提取是指从文本数据中识别和提取当前最受关注或频繁出现的关键词汇。
这些词汇通常反映了社会的焦点、流行趋势、公共议题或媒体关注的事件。
提取热点词汇对于了解公众舆论、进行市场分析、监测社会动态等具有重要意义。
在信息爆炸的时代,网络上的数据量巨大,人们需要快速地获取关键信息。
因此,热点词汇的提取技术得到了广泛的应用和发展。
以下是一些常用的热点词汇提取方法:1. 词频统计法:这是最直接的一种方法,通过统计文本中各个词汇出现的频率,选取频率最高的词汇作为热点词汇。
这种方法简单易行,但可能会受到停用词(如“的”、“是”、“在”等常用词)的干扰。
2. TF-IDF算法:这是一种常用的文本挖掘技术,它考虑了词汇的词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)。
TF-IDF值越高,说明词汇对于文档的重要性越高,也就越可能是热点词汇。
3. 基于话题模型的方法:如LDA(Latent Dirichlet Allocation)模型,它可以从大量文档中发现隐藏的话题结构,进而提取与这些话题相关的热点词汇。
4. 基于机器学习的方法:利用分类、聚类等机器学习算法,可以对词汇进行智能分类,识别出热点词汇。
例如,可以使用支持向量机(SVM)、随机森林等算法进行训练和预测。
5. 社交媒体分析:社交媒体是热点词汇的重要来源之一。
通过对微博、推特、Facebook等社交平台上的帖子进行分析,可以快速捕捉到热点话题和相关词汇。
6. 自然语言处理(NLP)技术:结合分词、词性标注、句法分析等NLP技术,可以更准确地识别和提取热点词汇。
7. 实时监测工具:使用Google Trends、百度指数等工具,可以实时监测网络搜索趋势,从而提取热点词汇。
提取热点词汇的过程通常包括以下几个步骤:1. 数据收集:从新闻网站、社交媒体、论坛、博客等各种渠道收集文本数据。
2. 数据预处理:包括清洗、去噪、分词、去除停用词等,以提高分析的准确性。
文字检测常见算法在当代社会,文字检测算法被广泛应用于各种领域,如自然语言处理、信息安全、搜索引擎优化等。
文字检测算法的作用是检测给定文本中是否存在恶意、不当或违法的内容,并对其进行识别和处理。
本文将介绍常见的文字检测算法,探讨其原理和应用,并对其在相关领域中的意义进行分析。
首先,我们来介绍一种常见的文字检测算法——关键词匹配。
该算法通过事先设定一组关键词,然后在给定文本中搜索这些关键词的出现情况,从而判断文本是否包含不良内容。
例如,当我们需要检测一段文本是否含有辱骂词汇时,可以提前设定一个包含各种可能辱骂词汇的关键词列表,然后在文本中进行匹配。
这种算法的优点是实现简单,但缺点是容易被规避和误判。
其次,还有一种常见的文字检测算法是基于机器学习的方法。
这种方法将大量已标注的文本数据作为训练集,通过机器学习算法提取文本特征,并构建模型进行分类。
例如,可以使用支持向量机(SVM)、朴素贝叶斯(Naive Bayes)等算法进行分类。
这种算法的优点是可以自动学习和适应不同类型的文本,但也需要大量的标注数据和计算资源进行训练。
除了以上两种常见的文字检测算法,还有一些其他的算法被广泛应用于文字检测中。
如基于统计特征的方法,通过统计文本中的词频、长度、语法结构等特征,从而判断文本的性质。
还有基于深度学习的方法,通过构建深度神经网络模型,利用大规模的标注数据进行训练和预测。
这些算法各有优缺点,可以根据具体的应用场景选择合适的算法。
文字检测算法在各个领域中具有重要意义。
在自然语言处理领域,文字检测算法可以用于情感分析、文本分类等任务,帮助理解和处理大规模的文本数据。
在信息安全领域,文字检测算法可以用于检测和过滤含有病毒、恶意链接等威胁信息的文本。
在搜索引擎优化中,文字检测算法可以在搜索引擎的排名算法中起到重要作用,帮助筛选和过滤优质的内容。
总之,文字检测算法在当今社会的各个领域中发挥着重要的作用。
通过不断地研究和发展,我们可以不断改进算法的准确性和效率,提高文字检测的能力。
自然语言处理(Natural Language Processing, 简称NLP)是计算机科学领域的一个重要分支,它主要研究人类语言与计算机之间的交互问题。
NLP技术可以让计算机能够理解、分析、生成和处理人类自然语言的文字和语音信息,从而实现更加智能化的人机交互、信息检索和文本自动化处理等功能。
本文将介绍NLP的原理和常见应用。
一、NLP的基本原理1. 语言模型语言模型是NLP的基础,它用于描述语言中词汇的概率分布情况。
常见的语言模型有n-gram模型和神经网络语言模型。
n-gram 模型是基于统计的方法,它假设每个词的出现只与前面n个词有关系,根据历史数据算出每个词的概率分布情况。
神经网络语言模型则是利用神经网络对文本进行建模,通过反向传播算法训练网络参数,得到一个能够预测下一个词的概率分布模型。
2. 词法分析词法分析是NLP的重要步骤,它用于对文本进行分词、词性标注和命名实体识别等处理。
分词是将文本按照词汇单位进行划分,词性标注是对每个词汇进行分类,命名实体识别则是指识别文本中的人名、地名、机构名等固定概念。
3. 句法分析句法分析是对文本中句子的结构进行分析,包括依存关系分析和成分句法分析。
依存关系分析是指找出句子中各个词之间的依存关系,成分句法分析则是指将句子划分为主语、谓语、宾语等基本成分。
4. 语义分析语义分析是NLP的核心任务之一,它用于理解文本的语义信息,包括词义消歧、情感分析和信息抽取等技术。
词义消歧是指对同一个词在不同语境下的含义进行区分,情感分析是指识别文本中的情感倾向,信息抽取则是指从文本中提取出有用的信息。
二、NLP的常见应用1. 机器翻译机器翻译是NLP的典型应用之一,它可以将一种自然语言翻译成另一种自然语言。
机器翻译技术包括基于规则的翻译、统计机器翻译和神经网络机器翻译等方法。
2. 文本分类文本分类是指将文本按照类别进行分类,如新闻分类、情感分析等。
文本分类技术主要包括基于统计的方法和深度学习方法。
语义网中的概念抽取及其应用分析随着互联网的发展,网上信息呈指数级别的增长。
我们想要从中获取有价值的信息,必须对这些信息进行分类与整理。
然而,传统的文本分类技术一直存在着实际应用的困境,因为文本中的信息过于复杂,无法准确地表达出它们的本质。
为了解决这个问题,语义网的概念抽取技术应运而生。
语义网是一种跨越终端,实现多系统、多应用、多平台互联互通的信息共享平台。
而语义化抽取实际上是将非结构化数据处理为一种结构化的数据形式,方便终端设备能够自动化地识别数据内容,从而实现数据自动化处理和信息智能化利用。
语义化抽取的过程包括两个主要的步骤:实体识别和关系提取。
实体识别主要是指从文本中定位和识别出具有实体特征的词汇或短语。
而关系提取则是进一步将这些实体之间的关系提取出来,从而能够对实体的属性、类别、事件等更加深入地理解和分析。
那么,语义化抽取技术在实际应用中有哪些优势呢?首先,语义化抽取能够将信息精确地分类,提高了检索和排名的效果。
其次,语义化抽取能够自动地完成文本分类,大大减轻了人工分类的负担,让人们更加高效地利用时间。
第三,它能够帮助终端设备更好地理解信息,并进行智能推荐,提高了用户的体验感。
除了上述的优势,语义化抽取还应用广泛。
比如,在金融领域,语义化抽取可以帮助银行快速地识别客户需求,并推荐相应的产品和服务;在法律领域,语义化抽取能够自动化地分析法律文书,减轻了律师的负担;在医疗领域,它能够帮助医生定位病人的病症和病因,提供更加全面和准确的诊断服务。
可以说,语义化抽取技术是实现信息智能化利用的核心技术之一。
总的来说,语义化抽取技术有着广泛的应用前景和良好的应用效果。
尽管语义化抽取技术还存在着可扩展性和学习效率等问题,但是随着技术的不断发展和应用的推广,这些问题也逐渐被解决并得到优化。
相信未来语义化抽取技术将会在各个领域充分发挥其作用,实现信息智能化的利用,为社会发展和人类福利做出更大的贡献。
二恶英检测检测方法
二恶英检测是一种用于识别和屏蔽网络中的恶意、有害或敏感内容的方法。
以下是一些常见的二恶英检测方法:
1. 关键词过滤:通过使用事先确定好的关键词列表,检测文本中是否包含恶意、有害或敏感词汇。
例如,可以构建一个包含辱骂、歧视或色情词汇的关键词库,并对输入文本进行筛选。
2. 机器学习算法:利用机器学习算法对已标记好的数据进行训练,以建立对二恶英文本的模型。
常用的机器学习算法包括朴素贝叶斯、支持向量机和深度学习模型。
这种方法需要大量的标记数据进行训练,并且需要不断地更新模型以适应新的恶意文本。
3. 文本特征提取:提取文本中的特征,例如词频、词性、句法结构等,然后使用这些特征进行分类或聚类分析。
常见的特征提取方法包括TF-IDF(词频-逆向文件频率)和词嵌入等。
4. 社交网络分析:通过分析社交网络中的用户关系、传播模式和内容传播路径等,来识别可能包含恶意内容的用户或组织。
这种方法通常结合网络挖掘和数据分析技术来使用。
5. 人工审核:将可疑的文本提交给人工审核人员进行审核,以确认是否包含二
恶英内容。
这种方法通常用于检测高度敏感的内容,如恶意谣言或涉及重大安全威胁的文本。
需要注意的是,二恶英检测方法是不断发展和演进的,新的技术和算法将不断被引入。
同时,该方法仍然存在一定的误判率和漏判率,因此通常需要结合多种方法和技术来提高检测准确度。
文本敏感词识别流程
1. 数据准备,首先需要准备待识别的文本数据,这些数据可以是用户输入的文本、网页内容、社交媒体评论等。
这些文本数据需要经过预处理,包括去除特殊符号、分词等操作,以便后续的识别处理。
2. 敏感词库构建,构建一个包含敏感词汇的敏感词库是识别流程的关键。
这些敏感词可以包括涉黄、涉暴、政治敏感词汇等。
敏感词库可以通过人工整理、网络爬虫等方式进行构建和更新。
3. 敏感词识别,在这一步,程序会使用各种算法(如正则表达式、字符串匹配算法等)来对预处理后的文本数据进行敏感词的识别。
识别出的敏感词会被标记或者进行相应的处理,比如替换为特定符号或者进行屏蔽。
4. 处理结果输出,识别出的敏感词会被输出到相应的系统或者界面上,以便进行进一步的处理或者展示给用户。
5. 安全策略执行,识别出的敏感词可以根据具体的安全策略进行相应的处理,比如禁止发布、提醒用户等。
总的来说,文本敏感词识别流程是一个涉及文本处理、敏感词库构建和算法识别的复杂过程,需要综合运用计算机科学、自然语言处理等多个领域的知识和技术。
同时,为了提高识别的准确性和效率,还需要不断更新敏感词库和优化识别算法。
融合知识图谱和ESA方法的网络新词识别刘申凯;周霁婷;朱永华;高洪皓【摘要】随着互联网的高速发展,微博、微信等文本形式的使用量逐渐增多,对于这类文本的分析理解在自然语言处理领域形成了新的挑战,尤其是文本中的网络新词识别与语义理解方面.为了克服传统方法无法识别网络新词及其语义的缺点,提出了一种融合知识图谱和显性语义分析(explicit semantic analysis,ESA)方法的网络新词识别方法.该方法以短语的粗粒度对原文进行切分来保留词语间的逻辑关系,利用百度知识图谱Schema匹配短语的语义表达后,再逐步以ESA方法分解剩余文本并将短语的百科信息提炼出核心语义词汇来补充Schema无法识别的部分.实验结果表明,与已有新词识别算法相比,该算法仅需要少量的语料库作为底层知识支撑,大幅降低了人工规则制订的成本,并提高了网络新词识别正确率与词语理解准确率.%With the rapid development of the Internet, the use of Weibo, WeChat and other text forms is gradually increasing. The analysis and understanding of such texts has posed new challenges in the field of natural language processing, especially in the field of network neologism recognition and semantic understanding. In order to overcome the shortcomings of traditional methods that cannot identify network neologism and their semantics, we propose a new method of network neologism recognition by combining knowledge map and explicit semantic analysis methods, which segments the original text with the coarse-grained phrase to preserve the logical relationship between the words. After using the semantic expression phrase of the Baidu knowledge map Schema, the ESA method is used to gradually decompose theremaining texts and extract the phrase encyclopedia information into the core semantic vocabulary, supplementing the unrecognized part of the Schema. Experiment shows that compared with the existing neologism recognition algorithms, the proposed algorithm requires only a small amount of corpus, which reduces the cost of manual rules formulation and improves the recognition of network neologism and the accuracy of word comprehension.【期刊名称】《计算机技术与发展》【年(卷),期】2019(029)003【总页数】6页(P12-17)【关键词】语义识别;语义相关度;新词识别;知识图谱;显性语义分析【作者】刘申凯;周霁婷;朱永华;高洪皓【作者单位】上海大学, 上海 200072;上海大学, 上海 200072;上海大学计算机工程与科学学院, 上海 200444;上海大学计算机工程与科学学院, 上海 200444;上海大学计算中心, 上海 200444【正文语种】中文【中图分类】TP391.10 引言在互联网的高速发展下社交网络随之兴起,微信、微博等文本形式的使用量日益增多。
ik-analyzer原理IK-Analyzer是一款功能强大的文本分析工具,它能够通过对文本进行自然语言处理和深度学习,实现对文本的自动分类、情感分析、关键词提取等多种功能。
本文将详细介绍IK-Analyzer的原理,帮助您更好地了解该工具的工作方式。
一、文本预处理IK-Analyzer在处理文本之前,需要进行一系列的预处理步骤,包括去除停用词、词形还原、分词等。
这些步骤能够有效地提高后续算法的准确性和效率。
1. 去除停用词:停用词是指那些在文本中频繁出现,但对文本分析没有实质性帮助的词汇。
IK-Analyzer能够自动识别常见的停用词,并将其从文本中去除,以提高算法的准确性和效率。
2. 词形还原:在处理中文文本时,由于存在大量的同义词和同形词,需要进行词形还原,即将一些常见的缩略词、同形词等还原成完整的词汇。
3. 分词:分词是将文本拆分成一个个词语的过程。
IK-Analyzer采用了基于规则和统计的方法进行分词,能够得到更加精准的词汇结果。
二、特征提取特征提取是IK-Analyzer实现文本分析的重要步骤之一,它能够将文本中的信息转化为可被机器学习算法使用的特征向量。
IK-Analyzer采用了多种特征提取方法,包括关键词提取、TF-IDF权重、词性标注等。
1. 关键词提取:关键词提取是将文本中的重要词汇抽取出来,形成一组关键词的过程。
IK-Analyzer能够自动识别文本中的关键词,并将其提取出来。
2. TF-IDF权重:TF-IDF是一种常用的特征权重方法,它能够反映一个词汇在文本中的重要程度。
IK-Analyzer能够对提取出来的关键词进行TF-IDF计算,得到每个关键词的权重。
3. 词性标注:词性标注能够给每个词汇赋予一个词性标签,从而方便后续的文本分析。
IK-Analyzer能够对文本进行自动的词性标注,并将标注结果作为特征向量的一部分。
三、机器学习模型IK-Analyzer采用了多种机器学习模型进行文本分析,包括支持向量机、决策树、神经网络等。
网络文本中的词汇自动识别北京大学中文系教授、博士陈保亚等随着互联网时代的到来,人类进入了信息爆炸的时代,各种新事物、新现象层出不穷,反映到语言中就是词汇爆炸,新的词汇大量产生,令人目不暇给。
词汇爆炸对人的学习能力和记忆能力都是一个挑战,让人常常产生为潮流所抛弃的感觉,“不是我不明白,是这世界变化太快”。
新词汇的大量产生也给正处于蓬勃发展之中的中文信息处理工作带来了难题。
改革开放以来,中文信息处理技术突飞猛进,在理论和应用方面均取得了极大的成就。
但就当前而言,中文信息处理的主流技术仍然是基于词汇的,有的甚至以词汇为本位,将文本流切分成一个个离散的词语就成为第一道难关。
在这一背景下,新词汇的大量产生使得难关更难,险关更险,也为我们语言学工作者带来了一项严竣而有价值的课题。
中文信息处理属于自然语言理解,其理想目标是让机器理解自然语言,从而可以实现人工合成语言、人机对话、自动机器翻译等等。
但是几十年代的中文信息处理的实践表明,以词语切分和标注为起点的信息处理技术面临的一个主要难题就是未登陆词的处理问题,其中最具有挑战性的也就是新生词语的识别与处理问题。
我们应该而且能够较好的处理这一问题。
新词语的产生仍然遵循着原有的构词方式,只是由于受语言内部和外部因素的影响,一些不活跃的或者新产生的语素在短时间内迅速活跃起来,进入到构词过程之中,一些规则短语以各种方式词汇化,因而才大量产生新词语。
经过对大量词语的对比考察,我们发现词语之间在构成方式上存在着规则与不规则的对立,这一对立可以成为我们解决新词语问题的突破口。
我们在考察新词语的时候发现,有些词语的构成是有规则的,而有些词语的构成生是没有规则的。
比如下面两行字组:老张、老李、老王、老陈、老刘……老虎、老鼠、老鹰、老手、老师……从构词方式上看都是前附加构词,从语法意义上看第1组的“老”含有亲切的意思,第2组的“老”意义几乎完全虚化,因此可以对这两行字组的方式和语法意义做出描写:第1组:“老”放在单音节姓氏前,语气比较亲切。
第2组:“老”放在指人或动物的名词前,构成名称名词,“老”不表示年岁大。
这种描写能够通过字组的内部构造帮助语言学习者和计算机判定字组的语法意义,但这对自然语言理解来说是远远不够的,更重要的是区分规则和不规则的现象,并分别作出处理。
在上面两行字组中,尽管都可以给出构造方式和语法意义的描写,但性质并不一样。
第1组的描写可以作为严格的规则来类推,每一个单音节姓氏都可以形成“老X”的格式,无一例外。
第2组描写却没有这种严格性,不是所有指人或动物的字前面都可以加“老”。
我们把第1组字组称为规则字组。
第2组字组称为准规则的字组。
很显然,如果能找到这样的规则,对于新词汇的学习无疑可以起到事半功倍的效果。
从信息处理的角度看,如果我们把“老X”放在单位库(词汇库)中,会大量增加单位库中的记录。
类似的情况越多,计算机运行的负担越重。
如果我们不把这样一些有规则的字组放在单位库中,而只是在规则库中加一条规则,这样的处理就要经济得多。
随着网络的出现,新的字组用法迅速增加,哪些字组需要存放在单位库中,哪些只需要用规则解释,是提高计算机运行效率的迫切问题。
从词典的编纂角度看,如果我们把第1组中“老X”这样的规则字组放到词典中,词典会很厚,而且缺乏条理性、简单性;而如果我们只是提取“老+单音节姓氏”这样一条规则,词典的负担就会减轻许多,而且可收以简驭繁的效果,便于记忆和学习,这样的词典含金量也更高。
基于上述认识,我们设计了一个计算机软件,重点描写新词语产生的规律,并在此基础上通过一定的算法实现新词语的自动识别和归类定性工作,力图从理论和应用两个角度较好地解决新词语问题。
这个平台包括四个互动模块:(1)单位库;(2)规则库;(3)自动提取程序;(4)数据库管理程序。
它们各自的功能如何下所述:(1)单位库。
相当于词汇库,用于存储单字和不能用规则控制的字组(如“人、李、老虎、老鼠、铁路、白菜、学习、德国…”),并标注这些单位的语义信息,比如“李”后面会标注“姓氏”、“德国”后会标注“国家名”等等。
这类信息的标注是为了满足规则提取的需要。
(2)规则库。
存储字组的组合规则。
如“‘老’+单音节姓氏”、“国家名+‘化’”。
(3)自动提取程序。
这一模块以单位库和规则库为数据输入进行工作,工作后所产生的结果又成为单位库和规则库的输入数据。
它主要包含两个功能:第一个功能是新词识别,它就像个网路猎手,用单位库中的单位匹配网络文本,一旦有匹配不上的字组,就捉拿回来,如果规则库中的规则不能控制这个字组,即初步判定为新词,收入单位库;第二个功能是自动提取句法规则。
在发现一定规模的新词后,应用一定的算法从新词中提取可能的规则,通过人工鉴别后即可存入规则库。
此时仍不能为规则控制的新词即可存入单位库。
(4)数据库管理程序。
此模块为辅助性模块,它的主要功能包括:A、向单位库输入数据。
输入的数据主要是基本句法单位及其标注信息,包括增加新的属性字段。
输入方式可以是自动成批输入,也可以是手工输入。
B、向规则库输入规则。
规则可以是人工发现的,通过句法规则翻译器进入规则库;也可以是程序自动发现后通过人工鉴别后进入规则库.C、对单位库进行优化。
在发现新规则后对单位库中的数据进行优化,删除可以被规则控制的新词,同时向规则库输入新规则。
D、对规则库进行优化。
根据一定的原则合并或者拆分库中的规则,实现规则的数量与效率的平衡。
例如,要是将来双音节乃至多音节的姓氏前面都可以加“老”的话,“老+单音节姓氏”的规则就会上升为“老+姓氏”这样更高一层的规则。
下面是这个计算机平台的工作流程图:这个平台运转的初始状态是,我们已经有了含有一定数量单位的单位库、含有一定数量的规则的规则库和所需要的自动处理程序和数据库管理程序。
初始的单位库所收单位应尽量齐全,主要有两个来源,一是合并现有的语料库,目前有关汉语的语言知识数据库数量已颇为可观,大陆有代表性的即有“现代汉语语义词典”、“现代汉语语法信息词典”,“现代汉语语素库”、“现代汉语字词语法知识库”等,此外,香港、新加坡也有一些很好的产品,我们可以充分借鉴和利用这些成果,使之为我所用,同时再根据自己的需要加以选择和改造。
二是人工输入现有词典所收的词。
初始规则库里的规则都是人工发现,主要是利用语言学家现有的研究成果,加以形式化。
字组提取程序拿现有单位库中的单位去匹配网络文本中的语料,匹配不成功的字组就会被捉拿归案,收入单位库中。
此时,单位库提供单位属性,规则库提供规则,以此来判断被捉拿到的字组是否是能被现有的规则解释。
如果可以解释,就不收入到单位库中;如果不能解释,就作为一个新单位收入到单位库中,新词汇的自动识别成功。
举个例子来说,比如下面两组字组所辖实例都很多:A.花儿、把儿、心儿……B.美国化、德国化、韩国化……通常把“~儿”和“~化”都看成是后缀,但A组和B组的性质从规则角度看有很大的区别。
A组是准规则的,因为我们现在还不能解释哪些字或字组可以出现在“~儿”的位置,而B 组在“国家、地区”的语义条件下,都是严格有规则的,只要是表“国家、地区”的字(或字组)都可以出现在“~化”这个位置上,表示转变成某种性质或状态;除此之外的字(或字组)能否出现在“~化”的位置就不一定了。
所以我们可以提取“国家名、地区名+‘化’”这样一条规则放在规则库里。
如果自动提取程序这个网络猎手从网络文本中捉拿到“韩国化”这个字组,单位库中提供了“韩国”的标注信息“国家名”,而规则库中又提供“国家名+‘化’”这一规则,那么程序就判定“韩国化”是可控制的规则字组,不收入单位库。
如果自动提取程序从网络文本中捉拿到“集团化”这个字组,规则库中并没有提供相应的规则,那么“集团化”就会被作为一个新词存储到单位库中。
在整个处理流程中最关键的步骤是判断言语片断可否被句法规则解释,以及如何从积累的尚未找到规则的言语片断中提取规则。
至于另外一些技术,例如分词、短语标注等可以利用现有的较成熟的算法。
这个平台不断运转的结果是产生两个不断扩大、优化的库。
在文本方面,可以编纂一本包括单位和规则的手册。
这个平台的特色和创新之处何在呢?我们认为,本项研究最主要的特色在于既系统地充分地利用语言学研究成果,又立足于电子计算机强大的自动化处理能力,实现词库和规则库的互动。
具体而言表现在以下几个方面:(1)我们入手的策略是重点考虑规则和不规则现象的区别,不纠缠于术语和体系的差别。
以词和词组的区分为例,由于研究者的体系和标准不同,有不同的结果,比如“美国化”,有人看成是词,也有人看成是词组。
关于构词的性质,由于对“化”虚化程度的理解不同,也有分歧,比如“美国化”是附加构词还是复合构词,处理不一样。
但从规则和不规则的角度看,在国家、地名后面加“化”是规则行为,认识到这一点对语言习得和自然语言理解与生成是关键。
(2)系统充分地利用语言学研究成果。
我们的研究团队中有一批具备相当中文信息处理知识的语言学工作者,因此,我们可以有系统有目的地考察现有的语言学研究成果,并利用计算机辅助的方法去验证现有的成果,最终将可用的成果形式化,并增添到统一的规则库中。
当然语言学数十年传统,积淀深厚,我们只能是在力所能及的范围能进行这一工作。
(3)语法规则的自动提取和新词的自动识别。
充分利用计算机强大的自动处理能力,实现语法规则的自动提取和新词的自动识别。
由于搜集信息的过程是全自动的,在足够的硬件条件下可以由计算机快速、自动、准确的完成信息的收集和初加工的任务,甚至还可以进行信息的深加工。
而过去这一部分工作主要依靠人工手动处理,比如要在网络上找某个词的使用情况,目前普遍的做法是:打开浏览器,登陆到某一个搜索引擎,然后敲入关键词,等待结果,搜索者人工的去看结果,找到有用的资料,保存以备以后使用。
在这个过程中,计算机只是一个信息的录入,保存和简单计算工具。
而我们的软件是全自动的,只要输入一个关键词(当然还可以给出更细致的高级选项),它就会到网络上去找所需要的资料,按照平台规定的标准分门别类的存储,并且给出详细的报告。
更重要的是电脑可以连续运转,这样就可以经年累月地进行资料的搜索,既节省了人工,也保证了质量。
(4)句法规则翻译器。
数据库管理程序中包括“句法规则翻译器”的功能。
语言学家的研究成果通常能够为机器的自动学习增加更高级的指导,所以这个数据平台打算预留一个“句法规则翻译器”,为语言学家提供便利。
通常人们记录他们研究成果的方式是用自然语言,这种表达方式很容易被人们所理解,但却很难被机器所理解,机器能够理解的只是标准化的代码系统。
因此我们需要自己设计一套能够让机器理解的标准化指令系统来记录人工获得的语言学知识,而这个“语言学知识翻译器”正是用来把语言学知识翻译成用统一的元语言表示的规则。