论自然语言处理
- 格式:pdf
- 大小:1.39 MB
- 文档页数:1
自然语言处理技术的现状和发展趋势自然语言处理(natural language processing,NLP)是人工智能领域中的一个重要分支,其目标是使计算机能够理解、处理和生成人类自然语言的文本或语音。
随着人工智能技术的快速发展,NLP技术也得到了极大的发展,并在许多领域得到了广泛的应用,比如自动翻译、情感分析、智能客服、智能搜索等。
本文将就NLP技术的现状和未来发展趋势进行深入探讨。
一、NLP技术的现状近年来,NLP技术取得了巨大的进步,其中最大的推动力来自于深度学习技术的发展。
深度学习作为一种基于人工神经网络的机器学习方法,能够自动地从数据中学习特征,并取得比传统机器学习方法更好的效果。
在NLP领域,深度学习技术被广泛应用于诸如语言模型、命名实体识别、情感分析、机器翻译等任务,取得了显著的效果。
基于深度学习的方法使得NLP技术在许多任务上取得了突破性进展。
比如在语言模型任务上,出现了一系列效果出色的预训练模型,如BERT、GPT、XLNet等,在机器翻译任务上,Transformer模型的出现使得翻译效果得到了极大的提升,在情感分析任务上,使用深度学习方法可以更准确地识别文本中的情感倾向等。
这些进展极大地改善了NLP技术的性能,使得它能够被更广泛地应用到各个领域中。
另一方面,NLP技术也在不断地向着更加智能化的方向发展。
目前,已出现了一些基于深度学习的通用对话系统,如Google的Duplex、OpenAI的GPT-3等,这些对话系统能够比较自然地进行人机对话,并且在一些任务中表现出了非常高的智能水平。
此外,NLP技术还在知识图谱构建、信息检索和推荐系统等领域得到了广泛应用,进一步提高了NLP技术的智能化水平。
二、NLP技术的发展趋势1.深度学习模型的进一步发展目前,深度学习模型已经成为NLP领域的主流方法,未来这一趋势有可能会进一步发展。
随着计算能力的提高和算法的改进,我们可以预见更加复杂和强大的深度学习模型的出现,这些模型可以更好地理解和生成人类语言,从而使得NLP技术得到更大的提升。
论自然语言处理技术在智能图书馆中的应用自然语言处理技术(NLP)是一种人工智能技术,可以使计算机理解我们说的话、写的话,包括语音和文本。
我们已经在各种应用程序中见过NLP的运用,例如智能手机上的Siri或Alexa等智能音箱。
NLP技术在智能图书馆中也有极大的应用空间。
本文将探讨NLP在智能图书馆中的应用,以及NLP技术在未来的发展前景。
智能图书馆的定义首先,我们需要了解什么是智能图书馆。
智能图书馆不仅具备传统图书馆的特点,如可借阅的书籍和来自世界各地的期刊,而且还是一个连接学术和非学术研究者的交流平台。
它的特点是使用计算机技术为读者提供综合的读书和学术研究服务。
智能图书馆可以根据读者的需求,自动检索出符合要求的学术资源,并为读者提供全面、个性化的服务。
自然语言处理技术在智能图书馆中的应用智能图书馆需要面对各种类型的读者和书籍,包括专业学术文献和通俗读物。
如何处理这些文本数据是智能图书馆需要解决的重要问题。
NLP技术可以帮助智能图书馆实现语义分析、智能搜索和个性化推荐等功能。
语义分析语义分析可以帮助智能图书馆理解文本的含义。
根据读者提供的查询信息,智能图书馆可以自动分析查询对象,从文档中提取与查询相关的信息,并将结果返回给读者。
语义分析可以通过NLP技术为智能图书馆提供更精准、更快速的查询结果,使读者能够快速地找到自己需要的信息。
智能搜索智能图书馆需要提供高效的搜索功能,以快速定位和检索所需材料。
NLP技术可以帮助智能图书馆实现智能搜索功能。
在智能搜索过程中,NLP技术可以通过对自然语言请求进行分析和处理,从大量的文献中自动提取符合请求的文档,并为读者提供列表和索引。
这样,读者可以更快速地找到自己所需的信息,节省大量的时间和精力。
个性化推荐智能图书馆需要为不同的读者提供个性化的阅读推荐。
NLP技术可以通过分析读者的需求和兴趣,自动推荐相应的图书、文章和期刊。
例如,如果读者经常查询某个学科领域的内容,智能搜索可以自动调整优先级,为读者提供更相关的信息。
软件工程中的自然语言处理自然语言处理(Natural Language Processing,简称NLP)是软件工程领域中一个重要的研究方向,旨在让计算机能够理解、处理和生成自然语言。
随着人工智能的发展,NLP在各个应用领域都取得了显著的成果。
本文将介绍NLP的基本概念、应用场景以及现阶段的研究进展。
一、NLP的基本概念自然语言处理是一门综合了计算机科学、人工智能和语言学等多学科知识的交叉学科。
其目标是让计算机能够像人类一样理解自然语言,包括语义理解、语法分析、信息提取等任务。
NLP的基本概念包括语言模型、语义分析、机器翻译等。
1. 语言模型语言模型指的是对语言的概率分布进行建模,通过学习大量的语言样本,模型可以预测一个句子出现的概率。
常见的语言模型有n-gram模型、循环神经网络(RNN)模型等。
2. 语义分析语义分析是指通过理解语句的意义以及上下文关系,对文本进行深度分析。
语义分析技术包括词义消歧、命名实体识别、情感分析等。
3. 机器翻译机器翻译是指使用计算机将一种自然语言翻译成另一种自然语言的任务。
这是NLP应用中的一个重要方向,涉及到语言的语义、文化背景等多方面因素。
二、NLP的应用场景NLP在软件工程领域有着广泛的应用场景,下面列举几个常见的应用场景。
1. 文本分类文本分类是指将一篇文本分到特定的类别,如垃圾邮件过滤、情感分类等。
通过NLP技术,可以对文本进行特征提取和模式匹配,从而自动实现分类任务。
2. 智能客服智能客服系统利用NLP技术来处理客户提问,自动回答问题或将问题转接给相应的人工客服。
通过语义理解和问答系统等技术,智能客服可以更好地与用户交互,提高用户体验。
3. 信息抽取信息抽取是指从大量文本中提取特定的信息,如人名、地点、组织等。
NLP技术可以通过命名实体识别和关系抽取等方法,快速准确地提取信息,为后续的分析和应用提供基础数据。
三、NLP的研究进展近年来,NLP领域取得了许多重要的研究进展,为软件工程中的实际应用提供了有力支持。
自然语言处理研究内容随着人工智能技术的不断发展,自然语言处理(Natural Language Processing, NLP)逐渐成为人工智能领域的一个重要分支。
自然语言处理的目标是让计算机能够理解和生成自然语言,这对于人机交互、信息检索、机器翻译、语音识别等领域都有着非常广泛的应用。
本文将介绍自然语言处理的基本概念、发展历程以及主要研究内容。
一、自然语言处理的基本概念自然语言处理是一种涉及人工智能、计算机科学、语言学等多个学科的交叉领域。
其研究的主要对象是自然语言,即人类日常交流中使用的语言,包括口语和书面语。
自然语言处理的目标是让计算机能够理解和生成自然语言,实现人机之间的自然语言交互。
自然语言处理主要包括以下几个方面:1. 语言模型:语言模型是自然语言处理的基础,其目的是对自然语言的概率分布进行建模。
语言模型通常采用n-gram模型,即假设一个词的出现只与前面n个词有关。
通过语言模型,可以计算出一个句子的概率,从而判断其是否合理。
2. 词法分析:词法分析是将自然语言文本分解为单词或词汇单元的过程。
词法分析通常包括分词、词性标注、命名实体识别等任务。
分词是将连续的文本划分成词语的过程,词性标注是对每个词语标注其词性,命名实体识别则是识别文本中的人名、地名、组织机构名等实体。
3. 句法分析:句法分析是对句子的语法结构进行分析的过程。
句法分析通常采用句法树或依存句法分析来表示句子的结构。
句法分析可以帮助计算机理解句子的意思,从而实现自然语言理解。
4. 语义分析:语义分析是对句子的意义进行分析的过程。
语义分析通常包括词义消歧、情感分析、命名实体消歧等任务。
词义消歧是在一个上下文中确定一个词语的确切含义,情感分析是对文本的情感进行分析,命名实体消歧则是确定文本中一个实体的确切含义。
5. 文本生成:文本生成是指计算机能够自动地生成自然语言文本的能力。
文本生成可以应用于自动摘要、机器翻译、对话系统等领域。
自然语言处理的基本概念与技术栈自然语言处理(Natural Language Processing, NLP)是人工智能领域中一个很重要的分支,它应用于理解、处理和生成人类语言。
常见的应用场景包括语音识别、文本分类、机器翻译、问答系统等。
本文将介绍自然语言处理的基本概念和技术栈,让读者能够初步了解该领域的工作原理和技术。
1. 基本概念1.1 语料库语料库是指一种包含大量文本的数据集,通常用于自然语言处理任务的训练和评估。
语料库可以包括各种类型的文本,如新闻、小说、评论、社交网络等。
使用不同的语料库可以让模型更好地适应不同类型的文本。
1.2 标注标注是指将文本中的每个词或短语标记为具有特定含义或性质的任务,如词性标注、命名实体识别等。
标注工作通常需要人工的参与,需要耗费大量的时间和精力,但是标注数据对于训练模型非常重要。
1.3 分词分词是将文本拆分成词汇单元的过程。
相对于英文,中文的分词相对较为困难,因为中文没有像空格这样明确的分隔符。
可采用基于字典、基于统计、基于规则等不同的方法完成中文分词。
1.4 词性标注词性标注是将文本中的每个词标记为它们的词性(Part of Speech, POS)的任务。
通常使用的词性包括名词、动词、形容词、副词等。
词性标注对于词义消歧、句法分析等任务非常重要。
1.5 命名实体识别命名实体识别是将文本中的命名实体(Named Entity, NE)标注为人名、地名、机构名等任务。
命名实体识别对信息抽取、问答系统等任务非常重要。
2. 技术栈2.1 机器学习机器学习是自然语言处理中应用最广泛的技术之一。
各种自然语言处理任务可以用机器学习的方法来解决,通常使用的算法包括朴素贝叶斯、决策树、支持向量机等。
2.2 深度学习随着深度学习技术的发展,自然语言处理领域也开始广泛使用深度学习方法。
常用的深度学习模型包括循环神经网络(Recurrent Neural Network, RNN)、卷积神经网络(Convolutional Neural Network, CNN)、注意力机制(Attention Mechanism)等。
自然语言处理的定义
自然语言处理(NaturalLanguageProcessing,NLP)是一种涵盖语言学、计算机科学、数学、统计学等多个领域的交叉学科,旨在研究计算机如何理解人类语言以及如何利用计算机模拟人类语言的处
理过程,从而实现计算机自然语言理解和生成的能力。
简单来说,自然语言处理就是让计算机通过算法和模型来学习和理解人类语言,并能够对语言进行分析、处理和生成。
这种技术对于实现人机交互、智能客服、智能翻译、信息检索等应用具有非常重要的作用。
在自然语言处理中,最基本的任务就是语言的分词、词性标注、句法分析和语义分析。
其中,分词是将一句话分成一个个单独的词语;词性标注是标注每个词语的词性,比如名词、动词、形容词等;句法分析是分析句子的结构,如主语、谓语、宾语等;语义分析是理解句子的意思,如情感分析、实体识别等。
除了这些基本任务,自然语言处理还包括了很多其他的技术,比如机器翻译、问答系统、自动摘要、文本分类、信息抽取等。
这些技术都是基于大量语料库和各种算法和模型的学习和训练,而深度学习技术的发展则给自然语言处理带来了革命性的变化,使得计算机的自然语言处理能力不断提高。
在未来,自然语言处理将会在人机交互、智能客服、智能翻译、智能家居、智能医疗等领域得到广泛应用,这也使得自然语言处理的研究和应用变得更加重要和紧迫。
自然语言处理的应用方向自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解、处理和生成自然语言。
随着人们对大数据的需求不断增加,NLP的应用也越来越广泛。
本文将介绍几个目前在自然语言处理领域中被广泛应用的方向。
1. 机器翻译机器翻译是NLP领域最早被研究和应用的方向之一。
通过将源语言的句子转化为目标语言的句子,机器翻译可以帮助人们跨越语言障碍进行交流和理解。
在过去的几十年里,机器翻译的技术不断发展,从最早的基于规则的方法,到后来的统计机器翻译和神经网络机器翻译,取得了显著的进展。
现在,很多在线翻译工具和平台都采用了机器翻译技术,帮助用户进行跨语言的沟通。
2. 文本分类文本分类是NLP中的一个重要任务,其目标是将给定的文本分类到事先定义好的类别中。
文本分类可以应用于很多领域,如情感分析、垃圾邮件过滤、新闻分类等。
通过训练机器学习模型,可以自动将大量的文本进行分类,提高工作效率和准确性。
近年来,随着深度学习的发展,基于神经网络的文本分类方法取得了很好的效果,成为研究的热点之一。
3. 信息抽取信息抽取是从非结构化文本中自动提取结构化的信息的过程。
通过自然语言处理技术,可以从大量的文本数据中提取出关键信息,如实体识别、关系抽取等。
信息抽取在很多领域中都有广泛的应用,如金融领域的新闻事件提取、医疗领域的疾病诊断等。
通过自动化的信息抽取,可以大大提高人们处理大数据的效率和准确性。
4. 问答系统问答系统是一个通过自然语言与用户进行交互,回答用户提出的问题的系统。
问答系统可以应用于各种领域,如智能助理、在线客服等。
通过自然语言处理和知识图谱等技术,问答系统可以理解用户的问题,从大量的知识库中找到相关的答案,并以自然语言的形式返回给用户。
近年来,随着深度学习的发展,基于神经网络的问答系统取得了很好的效果,成为研究的热点之一。
5. 情感分析情感分析是对文本中的情感倾向进行判断和分类的任务。
自然语言处理导论教学大纲及教案一、课程简介本课程旨在介绍自然语言处理(Natural Language Processing,NLP)的基本概念、原理和技术,帮助学生了解和掌握NLP领域的最新进展和应用。
本课程将结合理论与实践,培养学生对NLP问题的分析和解决能力。
二、教学目标1. 了解自然语言处理的定义和研究范围;2. 掌握自然语言处理的常见任务和技术方法;3. 熟悉自然语言处理的应用领域和发展趋势;4. 培养学生的编程能力和实验设计能力。
三、教学内容第一章:自然语言处理概述- 自然语言处理的定义和基本任务- 自然语言处理的历史发展和应用场景- 自然语言处理的挑战和研究方法第二章:文本预处理与文本表示- 文本预处理的基本任务和技术方法- 词袋模型和TF-IDF模型- 词向量和文本向量表示方法第三章:中文分词与词性标注- 中文分词的基本任务和技术方法- 中文分词的评价指标和应用场景- 词性标注的概念和算法第四章:文本分类和情感分析- 文本分类的基本原理和方法- 情感分析的定义和应用领域- 基于机器研究和深度研究的文本分类方法第五章:信息抽取和命名实体识别- 信息抽取的任务和方法- 命名实体识别的定义和应用场景- 基于统计和规则的信息抽取方法第六章:问答系统和对话系统- 问答系统的基本原理和构成要素- 对话系统的定义和挑战- 基于知识库和神经网络的问答系统设计方法四、教学方法- 授课方式:理论讲解和案例分析相结合- 实践环节:编程实践和小组项目设计- 学生评价:作业和实验报告五、教学评估- 平时成绩:出勤、课堂参与和作业完成情况- 期中考试:理论知识的考核- 期末项目:结合课程内容进行实际应用设计六、参考教材1. 《自然语言处理综论》曹晨阳,机械工业出版社2. 《自然语言处理入门》 Jacob Eisenstein,清华大学出版社3. 《Python自然语言处理》皮耶罗-莫迪亚尼,机械工业出版社以上为《自然语言处理导论》的教学大纲及教案,仅供参考。
自然语言处理技术调研报告自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,旨在让计算机能够像人类一样理解、分析和处理自然语言。
随着大数据和深度学习的发展,NLP技术在各个领域得到了广泛应用,极大地改变了人们的生活和工作方式。
一、NLP的发展历程自然语言处理技术起源于20世纪50年代,诞生初期以规则为基础,通过手工编写规则的方法来实现自然语言的处理。
随着统计方法的引入,NLP技术得以快速发展。
21世纪以来,随着深度学习技术的兴起,NLP技术迎来了一次革命性的突破,包括机器翻译、文本分类、情感分析、问答系统等领域取得了巨大的进展。
二、NLP的关键技术1. 分词与词性标注分词是将连续的文本切割成一组单词的过程,词性标注则是对分词结果进行进一步的标记,例如名词、动词、形容词等。
分词与词性标注是NLP技术的基础,对其他任务的准确性和效率有着重要影响。
2. 语义理解语义理解是指让计算机能够理解文本所表达的实际意思。
这包括命名实体识别、情感分析、文本分类等技术。
通过深度学习方法,实现了对文本语义的高效处理,提升了NLP技术的智能化水平。
3. 文本生成文本生成是指通过计算机生成符合语法、语义规范的文本。
这项技术在机器翻译、自动摘要、对话系统等领域发挥着重要作用。
近年来,神经网络模型的出现,使得文本生成技术得到了极大的提升。
三、NLP的应用领域1. 机器翻译机器翻译是NLP技术的重要应用之一,通过计算机自动将一种语言的文字转化为另一种语言。
随着神经网络模型的引入,机器翻译的质量和效率得到了大幅提升。
2. 智能客服智能客服通过文本和语音的方式与用户进行沟通,帮助解决用户问题。
NLP技术的应用使得智能客服系统能够自动识别用户问题的关键信息,并给出准确的回答,提供了高效便捷的服务体验。
3. 情感分析情感分析是通过NLP技术来分析文本中所包含的情感倾向,为企业决策和公众舆情监控等领域提供参考。
“自然语言处理导论”课(语言知识部分)要点詹卫东 北京大学中文系 2018-11第1讲 第一部分 语言与语言学概述第二部分 汉语的构词法与中文文本自动分词中的问题1. 如何认识我们人类的自然语言?(1)语言的功用: 交际工具、思维工具 (语言是知识的载体)(2)语言的外在形式:有声语言(听觉系统)、书面语言(视觉系统)、体态语/手势语(视觉系统)(3)语言的内在性质:符号性(任意、理据)、结构性(离散、线性、层次、组合、聚合) → 稳定与变异2. 语言学:关于语言的知识系统观念变迁:(1)看作法律的语言学 → (2)看作生物学的语言学 → (3) 看作化学的语言学 → (4)看作数学的语言学 核心内容:(1)句法学 (2)语义学 (3)语用学两个任务:(1)观察语言现象(知其然) (2)解释语言现象(知其所以然)3. 汉语构词法:基本单位:语素(词根、词缀、词尾) 构词模式(17种):单纯词(7)、合成词(复合6、重叠2、附加2)造词形式:仿词、缩略、词语变形/语言游戏 (新词涌现:各类网络新词,合音、译音、谐音、拼音、缩略……) 词的内部层次(语素组)4. 中文文本自动分词中的问题词的定义(语法学定义、词典定义type 、语料库定义token )分词歧义(交集型歧义,组合型歧义),交集型歧义链长未登录词(专名、领域词/术语、新词、非汉语词/字母词)第2讲 汉语的句法结构系统与词类划分1. 词类划分的目的:词类(聚合关系) → 构建/表述语法系统(组合关系)2. 词类划分的依据: 意义、形态、句法功能√ 如何确定句法功能的框架?3. 现代汉语词类划分的具体操作:汉语的基本句法结构系统:主谓、述宾、述补、状中、定中、连谓、联合、的字、地字、所字、介宾、方位、数量 词类的层级划分与各类的鉴别标准(20个词类) 4. 词类划分中的若干问题(1)词的同一性:词形、词音、词义(2)词的多功能性(3)词的临时功能(活用)(4)词的兼类(5)词类的相对性 * 5. 现代汉语语法信息词典 词类 + 属性特征描述 (面向人的词类划分体系 vs. 面向计算机的词性标记集+特征描述)第3讲句法分析1. 句法分析任务:句法结构知识(语法模型)+ 分析算法(在语法模型中寻找正确的“树”)2. 句法结构的形式表示模型:上下文无关文法,依存文法3. 句法结构歧义:外显型歧义-内含型歧义真歧义-准歧义-伪歧义4. 句法分析算法:CYK算法、Earley算法、LR算法、GLR算法……5. 现代汉语句法结构系统:常规结构(每类结构的特点,包括成分间关系、形式特点)短语(词组)结构分析的原则:成分独立;功能约束;意义一致;系统普适非常规结构:易位、插入、省略第4讲语义分析1. 语义分析任务:给出句子的语义表示:谓词逻辑表达式、语义网络、概念依存图、框式图组合性原则(principle of compositionality): 词义+结构义2. 词汇语义:语义特征集、语义分类树、语义关系网基于词典释义的语义特征分析、基于句法格式等义变换的语义特征分析配价/论元结构理论、框架语义、生成词库论3. 语义知识与句法分析的融合特征结构、合一运算(Unification)、加入了合一运算的CYK算法第5讲语篇分析1.篇章的连贯性衔接手段:代词回指、零形回指、词语关联、结构关联、语义关联2.篇章结构分析篇章层级结构与篇章单元之间的关系(Rhetorical Structure Theory,RST:23种)Penn Chinese Discourse Treebank(11种)中文复句内部小句间关系(14种)3. 篇章指代分析指代语言成分(人称代词、反身代词、零形成分)指代实物(直指)面称/背称通指/专指语段中心成分理论(Centering Theory)forward-looking center / backward-looking center / preferred centerCentering transition state: continue / retain / smooth shift / rough shift附:自然语言理解中的语用因素指示语理论(deixis)会话含义理论(conversational implicature: Grice’s theory of implicature)言语行为理论(speech act)话语结构的语用分析(conversational structure)。
187
2010年5月刊
计算机教学信息化
信息与电脑
China Computer&Communication
自然语言是指人们日常使用的语言,如汉语、英语、日语、法语等,它是人类学习环境和互相通讯的工具。
在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。
就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。
所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。
根据可计算性理论,任一计算机的运算都是按一定程序,分步骤相继作用在离散对象之上所完成的,而这些对象又都以线性序列相邻接地排列组合所构成。
而自然语言具有的离散性、序列性和邻接性三个特征其具备了“可计算性”,为自然语言处理奠定了物质基础。
1. 自然语言处理概述
所谓自然语言处理,就是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
自然语言处理通常又叫自然语言理解,因为处理自然语言的关键是要让计算机“理解”自然语言。
但什么是“理解”呢?对于这个术语也存在着各式各样的认识。
如心理学家认为,理解是“紧张的思维活动的结果”,哲学家认为,理解是“认识或揭露事物中本质的东西”,而逻辑学家则认为理解是“把新的知识、经验纳入已有的认识结构而产生的”。
这样,自然语言的理解过程,实质上是把一种表达转换为另一种表达的过程,这种转换也可视为映射。
建立自然语言理解系统就是寻求映射的算法,使机器能够得到同人在理解上相当的输出。
判断机器是否理解语言的最直观的方法,当然是依据机器对你所提出问题的回答,来判定机器是否理解了你的问话。
2. 自然语言处理的发展历史
自然语言处理的研究大体上经历了三个时期,即60年代以关键词匹配为主流的早期,70年代以句法-语义分析为主流的中期, 和80年代开始走向实用化和工程化的近期。
2.1以关键词匹配为主流的早期历史
当通用计算机问世时,人们想到的第一件事就是用计算机把一种语言翻译成另一种语言。
在开始的15年(1950-1965年),机器翻译几乎成了所有自然语言处理系统的中心课题。
当时人们相信好的译文可以通过分别处理查词典和重新排列词序两步操作来得到。
于是那时的学者们普遍认为机器翻译包括两个基本过程,即查词典和语法分析。
即首先通过查词典,将源语文章的每个词的对应的目标词查找出来,然后再进行第二步,即语法分析——调整词序、词尾和形式等等。
2.2以句法-语义分析为主流的中期历史
进入70年代以后,一批采用句法-语义分析技术的自然语言理解系统脱颖而出。
这个时期的代表作是LUNAR ,SHRDLU 和MARGIE 系统。
这些系统的主要特点是在句法,语义的分析中采用了所需要的
知识表达形式和处理模型,尽管它还是局限在某个领域内,但在语言分析的深度和难度方面都比早期系统有了长足的进步,能够更好地理解自然语言,标志着自然语言处理进入了一个新的阶段。
下面以LUNAR 系统作为例子。
2.3走向实用化和工程化为特征的近期历史
自然语言的最大特点就是充满了歧义。
句法分析达不到令人满意的效果,是由于其不能很好地解决自然语言中的各种歧义现象。
因此语义分析就成了自然语言理解的研究主题。
其目的是根据上下文辨识一个多义词在指定句子中的确切意义,然后根据该句子的句法结构和各词的词义推导出这个句子的句义,并用形式化的方式表达出来,从而使计算机能够根据这一表示进行推理。
到80年代一批新的语法理论脱颖而出,具有代表性的有词汇功能语法(LFG )、功能合一语法(FUG )和广义短语结构语法(GPSG )等。
基于语料库的方法主要存在两个问题:首先,由于只是根据概率统计值来进行自然语言处理,因此缺乏对语言内部的深入理解,导致正确率受到极大的限制;其次,模型要求大规模语料库和人工标注工作量过大之间存在矛盾。
可以通过以下的方法来解决上述的问题:首先,是引入部分规则机制来弥补对语言理解的不足,也就是规则和统计相结合的汉语自动分词;其次,通过引入开放学习机制,不断修正统计数据,弥补语料统计数据的局限性。
3. 自然语言处理的应用
当前在计算机普及应用中,为了让计算机更方便地为人类服务,人们迫切希望用自然语言同计算机进行通讯的时代早日到来,这正是计算机科学家,语言学家,心理学家等寻求的目标。
自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。
在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究,而且也作为新一代计算机的核心课题来研究。
从知识产业的角度来看,自然语言处理的软件也占重要地位,专家系统,数据库、知识库,计算机辅助设计系统、计算机辅助教学系统、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人-机界面。
从长远看,具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘,自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。
参考文献:
[1] 孙艳峰,王建荣,冯志勇. Ontology 技术在自然语言理解中的应用.青海师范大学学报(自然科学版),2003(3)
[2]辛日华. 计算机自然语言处理. 呼伦贝尔学院学报,2003(2)[3] 邱君瑞.自然语言处理与信息检索系统.情报杂志,2002(3)[4] 隋然.自然语言与逻辑语言:人脑与电脑.外语与外语教学,2003(1)
[5]姚佳梅.基于自然语言理解技术的网络搜索.图书馆工作与研究,2003(2)
论自然语言处理
曹 佩 西安外国语大学,陕西西安 710128
摘要:自然语言处理是人工智能的一个重要应用领域。
它的主要目的是克服人机对话中的各种限制,使用户能用自己的语言与计算机对话。
本文介绍了自然语言处理的概念、发展历史和应用技术。
关键词:自然语言;自然语言处理
中图分类号:G4 文献标识码:A 文章编号:1003-9767(2010)05-0187-02。