语料库和知识库的研究现状
- 格式:doc
- 大小:69.00 KB
- 文档页数:10
专业的语料库与翻译记忆随着全球化的发展和各国交流的增多,翻译行业变得愈发重要。
在翻译过程中,一个专业的语料库和翻译记忆系统能够帮助翻译人员提高翻译质量和效率。
本文将重点探讨专业的语料库和翻译记忆系统的作用及其优势。
一、语料库的作用语料库是指收集和整理不同语种的文本资料,以供翻译人员参考和应用的工具。
专业的语料库能提供翻译人员更加准确和全面的词汇、短语、语法和句型等信息。
通过查阅语料库,翻译人员可以找到合适的翻译实例,从而更好地理解和应用。
首先,语料库能够为翻译人员提供大量的领域特定的译文例句。
不同领域有着各自特定的术语和表达方式,通过查阅语料库,翻译人员能够更好地掌握这些专业术语的翻译规范和惯用表达方式。
这样,翻译出的文本就更加准确和专业。
其次,语料库还能够帮助翻译人员提高翻译效率。
在传统的翻译过程中,翻译人员需要不断地检索词典和参考资料,而有了语料库,翻译人员可以更加方便地找到已有的翻译实例,减少重复劳动和时间消耗。
特别是在面对大量相似内容的时候,语料库可以自动识别重复部分并提供参考翻译,使得翻译人员可以更快速地完成工作。
最后,语料库还可以作为一个知识库,帮助翻译人员不断学习和进步。
通过翻阅语料库中的译文,翻译人员可以了解行业的最新变化和发展趋势,学习到其他优秀译者的经验和技巧,借鉴他们的翻译思路和策略。
这可以帮助翻译人员提高专业水平,不断提升自己的翻译能力。
二、翻译记忆系统的优势除了语料库,翻译记忆系统(Translation Memory,简称TM)也是翻译行业常用的工具之一。
翻译记忆系统能够存储之前翻译过的句子和段落,随后在新的翻译任务中进行匹配和应用。
这样的系统具有很多优势。
首先,翻译记忆系统可以帮助确保一致性和准确性。
相同的短语和句子在不同的上下文中可能会有不同的翻译。
通过翻译记忆系统,翻译人员可以检索到之前翻译过的句子,并查看它们的上下文和翻译结果。
这样可以避免再次犯同样的错误,同时也能保证文本的一致性和连贯性。
中文信息学报第17卷第1期JOURNAL OF CHINESE INFORMATION PROCESSING Vol.17No.1文章编号:1003-0077(2003)01-0046-08基于语义依存关系的汉语语料库的构建¹尤1,李涓子2,王作英1(11清华大学电子工程系,北京10008421清华大学计算机科学与技术系,北京100084)摘要:语料库是自然语言处理中用于知识获取的重要资源。
本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。
该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。
其突出特点在于将5知网6语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。
关键词:计算机应用;中文信息处理;语料库;语义依存关系;5知网6;动态角色与属性中图分类号:TP391文献标识码:AOn Construction of a Chinese Corpus Basedon Semantic Dependency RelationsYOU F ang1,LI Juan2zi2,WANG Zuo2ying1(11Dept.of Electronics Engineeri ng,T si nghua University,Beijing100084,Chi na21Dept.of C omputer Science Technol ogy,Tsinghua U niversity,B eiji ng100084,China)Abstr act:Cor pora are important resources for knowledge acquisition in the field of natural language processing.For t he pur pose of sentence understanding,we are constructing a Chinese large2scale2corpus based on semantic dependen2 cy relations.T his paper introduces the tagging formalisms we adopt,the tagging set we choose,t he tagging tool we develop,and the method we use to guarantee the good consistency of tagging.The corpus under discussion is at a scale of1million words.Each sentence in the corpus,which already had annotations of sense,is further tagged with its semantic structure using70semantic2dependency2relat ions.The highlight of this cor pus is its ability to effectively descr ibe various relations between Chinese words.All of these profited from using<HowNet>for reference and the combination with specific use of language.The construct ion of this corpus can definitely provide mor e knowledge sup2 ports for sentence understanding,content2based information retrieval,and so on.Key wor ds:computer application;Chinese information processing;corpus;semantic dependency relations;HowNet; Event Role&Features一、引言自然语言处理面临的最大障碍在于词汇、句法、语义等知识的匮乏,建立带有各类标注附加信息的大规模语料库正是解决这一瓶颈的有效方法。
ChatGPT技术对于知识库和信息检索的潜力与局限 随着人工智能技术的快速发展,ChatGPT成为自然语言处理领域的一项重要突破。ChatGPT是一种基于深度学习的语言生成模型,训练自大量的语料库数据,可以自动生成具有逻辑性和连贯性的对话。在ChatGPT的推出之后,人们对其在知识库和信息检索方面的潜力产生了浓厚的兴趣。本文将从潜力和局限两个方面探讨ChatGPT技术在知识库和信息检索领域的应用。
ChatGPT技术的潜力之一是其能够利用大规模语料库进行知识的提取和整理。ChatGPT通过训练大量的句子对,学习了丰富的语言模式和知识信息,可以从知识库中提取相关知识并进行自动化的分类和归纳。这使得ChatGPT成为一个理想的工具,用于构建知识库和信息检索系统。通过ChatGPT,我们可以从海量的知识中快速准确地找到我们需要的信息,极大地提高了知识获取的效率。
其次,ChatGPT技术还能够为知识库和信息检索系统提供更加智能化的交互方式。传统的知识库和信息检索系统大多以关键词检索为主,用户需要输入相关的关键词才能获取所需的信息。而ChatGPT技术则使得用户可以通过自然语言的方式与系统进行交互,提出问题、寻求帮助,甚至进行对话。这种交互方式更加符合人们的日常习惯和需求,使得使用者能够更加轻松地获取所需信息。此外,ChatGPT技术还可以利用上下文信息进行对话的理解和推理,提供更加智能化的回答。用户可以通过与ChatGPT的对话来得到更加有针对性的答案,获得更加个性化的服务。
然而,ChatGPT技术在知识库和信息检索领域也存在一些局限。首先是其对于语境的理解和推理能力有限。尽管ChatGPT能够利用上下文信息进行对话,但其对于长篇复杂文本的理解和推理能力相对较弱。在处理复杂问题时,ChatGPT可能会出现解读错误或产生不准确的回答。此外,ChatGPT还存在一定的偏见和不一致性。由于训练数据的局限性,ChatGPT模型可能会产生一些偏见和错误的判断。这对于知识库和信息检索系统来说是一个挑战,因为用户对于获取准确、全面、中立的信息有着很高的期望。
ChatGPT技术的语料库构建与优化方法近年来,自然语言处理技术取得了长足的进步,其中包括了人工智能领域中的ChatGPT技术。
ChatGPT能够通过机器学习和深度神经网络,在对话中生成连贯、实用的回答。
然而,要使ChatGPT具备较高的质量和智能,一个高质量和多样化的语料库是必不可少的。
本文将探讨ChatGPT技术的语料库构建与优化方法。
一、语料库构建构建一个高质量和多样化的语料库是训练ChatGPT模型的首要任务。
下面是一些常见的语料库构建方法:1. 文本抓取:通过网络爬虫和抓取工具,从互联网上抓取和收集具有多样性的文本数据。
这种方法需要注意合法使用和隐私保护,同时还需要处理不可靠的文本来源所造成的错误和噪声。
2. 众包:将任务发布给众多网络用户,要求他们提供句子、对话等文本数据。
这种方法可以覆盖各种领域和话题,并且能够借助人工智能平台对数据进行筛选和清洗。
3. 知识库利用:ChatGPT的设计初衷是为了提供实用的回答,因此可以利用已存在的知识库来训练ChatGPT。
这些知识库可以是百科全书、问答社区或是专业领域的知识库,这样可以提高ChatGPT回答的准确性和可靠性。
二、语料库优化构建语料库只是第一步,优化它则能改善ChatGPT生成回答的品质。
下面是一些常见的语料库优化方法:1. 数据清洗:对采集到的数据进行筛选和清洗,去除噪声、重复内容和不准确的信息。
可以利用自然语言处理工具和人工审核相结合的方式来清洗数据,确保数据的质量和一致性。
2. 数据增强:为了提供更加多样化的回答,可以通过增强数据的方式来扩展语料库。
例如,可以利用同义词替换、句子结构转换等技术对原始数据进行变换,生成新的句子和对话。
3. 样本均衡:为了保证ChatGPT生成回答的全面性和公正性,需要在语料库中保持不同类别和观点的样本均衡。
这样可以避免ChatGPT在回答问题时偏向某些特定观点或者类别。
4. 高质量样本强化:将在实际使用中ChatGPT生成的高质量回答作为新的样本,与训练数据集合并,以进一步提升模型的性能。
第12卷第1期燕山大学学报(哲学社会科学版)V ol.12No.1 2011年3月Journal of Yanshan University(Philosophy and Social Science Edition)Mar.2011一语料库自上个世纪70年代末以来在我国逐渐兴起、发展,取得了长足的进步。
从国内外形势来看,语料库语言学已经成为语言研究的主流。
古代汉语语料库与现代汉语语料库相比较而言,无论规模还是影响,都有明显的差距。
造成这种差距的原因是多方面的,随着计算机的发展和普及以及语言研究的需求,古代汉语语料库渐渐发展起来。
目前古代汉语语料库的类型主要有两种:一是文本型,一是数据库型。
文本型就是把纸质文献上的文字输入计算机,用文本软件自有或专用软件提供的搜索功能进行检索,它又可以分为平面型和层级型两种。
早期的文本型语料库从内容层级上讲只有一层,所以又被称为平面型语料库,它不分层,对原文与注疏合一的文本内容只能在同一个平面上共存,检索时无法指定内容范围是原文还是注或疏。
它的优点是制作相对简单,所以很多单位和个人都有不少的此类成果。
超文本技术使文本的构成由单层级发展为多层级,为区分原文和注疏提供了可能,尤其是XML语言的出现为制作多层级文本提供了方便、有力的工具。
华中科技大学尉迟治平老师制作的“数字化传统小学工具书”系列堪称目前古籍数字化的最佳代表,他们把多层级的古代语言学工具书制作成XML文档,能进行任一个层级的独立检索和多个层级的组合检索,这样可以把不同的人对同一原文的注疏随意检索,在《广韵》这样有很多又音、又切的多层级韵书中也可以随意指定层级进行检索。
XML的制作比前边纯粹的平面型文本要难一些,但是实现了多层级化。
文字数量不大的单本古籍XML检索速度还不错,如果文字数量大,XML就显得非常无力,因为它是文本,主要供阅读,毕竟与专门进行海量数据快速检索的数据库不同。
目前各种规模的流行数据库都支持与XML进行转换,使得XML文本的应用前景十分广阔。
“一带一路”背景下的韩汉双语新闻语料库建设思考作者:刘轩周晗李旋来源:《科学导报·学术》2020年第46期摘; 要:语料库作为新型的外语教学资源,语料库建设为语言教学带来了教学理念、教学方法和教学模式的变革。
与英语语料库相比,韩语语料库的建设发展较为滞后。
本文总结了以英语为代表的语料库的发展历程,对韩语语料库的研究现状进行分析,进而探讨韩汉双语语料库建设的发展前景,期望对韩汉双语,特别是在对韩汉双语语料库的进一步研究和建设提供科学依据。
关键词:韩汉双语;新闻;语料库;建设随着“一带一路”战略的发展,我国与韩国之间在文化﹑经济﹑科技、军事、文化、学术及旅游等各方面的交流将日益频繁。
由于韩中两国各领域交往的不断深入,语言交流、分析及掌握两国新闻的舆情动向有着重要的作用,作为两国信息交流的主要载体,及时有效发现两国关系的新闻话题及新闻话题的发展演化变得尤为重要,韩语新闻语料库的建设应运而生。
韩汉双语新闻语料库的建设将为语料库语言学、经验主义语言研究提供更加专业化、规范化的资源。
因此,韩汉双语新闻语料库的建设变成了重中之重。
一、语料库的发展历程语料库发展的历史最早可追溯至18世纪至20世纪50年代,即语料库的萌芽阶段。
随着时代的发展,到了20世纪80年代语料库进入到第二代电子语料库时期。
但自上世纪九十年代起电子语料库时期,即基于语料库的语言对比研究和语言本体研究时期在世界范围内蓬勃发展。
在短短的二十多年里,世界上的语料库语言学研究发展很快,尤其是英语语料库逐渐成熟。
美国当代英语语料库(COCA)、英国国家语料库(BNC)、美国国家语料库(ANG)、牛津英语语料库(OEC)、柯林斯英语语料库(BOE)等则为具有代表性的语料库。
二、中韩两国韩汉双语语料库建设研究的现状在韩国,一些高校(延世大学、釜山外国语大学、加图立大学等)和研究机构韩语语料库建设日趋成熟,韩语新闻语料库的建设研究仍然在发展中。
在我国,韩汉双语语料库的研究沉寂滞后,关注点单一且缺乏成熟的理论和实践经验。
语料库语言学与ChatGPT在翻译研究中的应用语料库语言学和ChatGPT都是自然语言处理领域的重要研究方向,它们在翻译研究中也有广泛的应用。
语料库语言学是指利用自然语言语料库进行语言学研究的方法。
通过收集和管理大量的语言数据,人们可以从中提取出各种有用的信息,比如语言结构、语法规则、词汇使用、语言习惯等等。
这些信息对于机器翻译来说尤为重要,因为它们可以被用来训练机器翻译模型,提高翻译的准确性和流畅度。
ChatGPT是一种基于TmnSfOrmer架构的神经网络模型,它可以通过大量的语言数据进行无监督学习,从而生成高质量的文本。
在翻译研究中,ChatGPT可以用来生成机器翻译结果的上下文,提高翻译的连贯性和自然度。
在实际应用中,语料库语言学和ChatGPT也经常被用来解决机器翻译的一些问题。
比如,当机器翻译遇到生词或固定搭配时,可以利用语料库语言学中的知识,通过上下文信息来推测其含义,从而更加准确地翻译。
另外,在机器翻译中,ChatGPT也可以用来生成对话式的翻译结果,让翻译更加灵活自然。
总之,语料库语言学和ChatGPT在翻译研究中具有非常重要的应用价值,可以帮助提高机器翻译的准确性、流畅度和自然度。
一、语料库语言学与ChatGPT的意义(一)语料库语言学的意义语料库语言学是指通过对自然语言的真实使用形成的大规模语言数据进行分析和研究,以便更好地理解语言现象和规律的学科领域。
语料库语言学的出现为语言研究提供了丰富而可靠的实证研究材料,尤其是在计算语言学和自然语言处理领域研究中得到了广泛应用。
通过语料库语言学的研究,可以获得领域特定的词汇、语法结构和文化背景等信息,进而提高机器翻译、文本分类、信息检索等自然语言处理任务的准确性和效率。
(二)ChatGPT的意义ChatGPT是由OPenAl团队开发的基于TranSformer编码器-解码器架构的生成式预训练语言模型。
该模型通过对大规模语料库数据进行训练,可以实现对自然语言的生成与理解任务,如问答、摘要生成、对话生成等。
抢答器国内外研究现状综述抢答器是一种用于自然语言问答的计算机辅助工具,其主要功能是在一定的知识库中查找并提供正确的答案。
在近年来,随着人工智能的发展,抢答器研究领域取得了巨大的进展。
本文将对抢答器的国内外研究现状进行综述。
目前,国内的抢答器研究主要集中在大学和研究机构中。
其中,清华大学自然语言处理与社会认知研究中心是国内抢答器研究领域的佼佼者之一,其研究方向包括中文问答系统、信息抽取、知识图谱等。
此外,中国科学技术大学、北京大学、上海交通大学等高校也都有相关的研究团队。
在技术方面,国内抢答器研究主要关注以下几个方面:1. 问答系统技术,包括自然语言理解、语音识别等;2. 知识库的构建和维护,这是保证抢答器能够准确提供答案的重要环节;3. 问题分类和答案匹配算法,这是抢答器的核心功能,需要采用一系列机器学习和深度学习等算法来提高准确率。
国外抢答器研究领域的代表性机构包括斯坦福大学人工智能实验室、IBM雅达利实验室、微软研究所等。
这些机构的研究重点包括NLP自然语言处理、机器学习、深度学习、图像处理等。
2. 大规模语料库的构建和维护,以支撑抢答器的高效工作;3. 知识图谱的搭建和维护,以增加抢答器的知识储备;4. 融入深度学习和深层神经网络的算法,以提升抢答器的准确率。
三、抢答器的未来发展随着人工智能技术的迅速发展,抢答器研究领域也将迎来更多的机遇和挑战。
未来,抢答器将更加注重对多语言、多媒体信息的处理和应用,也会更加注重对用户体验的优化,以及对人机交互的深度研究。
同时,不断提高抢答器在具体领域中的应用效果,如医疗问答、金融问答、法律问答等,也将是抢答器发展的重要方向。
【译界】21个国内外权威语料库翻译圈的小伙伴对语料库并不陌生,语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
今天译世界就来给大家推荐21个国内外优质语料库资源,链接亲测有效,都get起来!拿走不谢~~国内语料库资源01国家语委现代汉语语料库现代汉语通用平衡语料库现在重新开放网络查询了。
重开后的在线检索速度更快,功能更强,同时提供检索结果下载。
现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
02北京大学“《人民日报》标注语料库”《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。
其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
03北大语料库——北京大学中国语言学研究中心北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。
其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。
正在此基础上做汉英对照短语库,预计规模将达数十万条。
04北京语言大学高翻学院的“高翻记忆库”05中央研究院“现代汉语平衡语料库”专门针对语言分析而设计的,每个文句都依词断开,并标示词类。
语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。
现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
06中央研究院“近代汉语标记语料库”07中央研究院汉籍电子文献(瀚典全文检索系统)包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。
蒙古语语言知识库的建立与应用那顺乌日图【摘要】It's essentially important to build a comprehensive Mongolian language knowledge bank to support all kinds of Mongolian language processing systems. We have completed certain parts of the language bank, yet we still have many theoretical and technological issues to deal with. This paper introduces the main structure and contents of Mongolian language knowledge bank in the first section, and its applications and the problems we are confronted with are discussed in the following sections.%建立一个较为完整的、能够为自然语言处理系统提供知识支撑的语言知识库是蒙古文信息处理当务之急.目前蒙古语语言知识库建设已取得阶段性成果,知识库已初具规模,但也仍然存在一些亟待解决的理论和技术问题.该文对蒙古语语言知识库的主要结构和内容,蒙古语语言知识库的应用,尚待解决的问题进行介绍和探讨.【期刊名称】《中文信息学报》【年(卷),期】2011(025)006【总页数】4页(P162-165)【关键词】蒙古语;知识库;语言资源;语义信息;语义词典【作者】那顺乌日图【作者单位】内蒙古大学蒙古学学院,内蒙呼和浩特010021【正文语种】中文【中图分类】TP3911 引言建立一个较为完整的、能够为自然语言处理系统提供知识支撑的语言知识库是蒙古文信息处理当务之急。
语料库和知识库研究现状2015-12-9摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。
知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。
由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。
本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。
关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。
而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。
对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。
2研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。
语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。
在语言学研究领域,语料库为语言研究者和使用者提供了丰富而全面的研究素材,有助于研究者根据大量的语言素材实际得出客观正确的结论。
另外,语料库的现代化使得语言学家可以利用语料库分析软件实现语料检索和频率统计,帮助人们观察和把握语言事实,更为准确的得出结论。
在应用语言学领域,语料库技术与应用语言学的结合也产生了大量的实用成果。
比如,应用语料库产生一系列基于语料库的词典,应用语料库确定语言教学的教材提纲,提供外语教学与研究的良好平台等。
而知识库尤其是语言知识库,是帮助计算机了解人类语言的一个媒介和手段,也是让计算机逐渐智能起来的物质前提[3]。
知识库的构建对于自然语言处理的发展具有重要作用,可以满足其对语言句子语义知识的要求,在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面得到了广泛的应用。
鉴于以上介绍的语料库和知识库在当今研究中的重要作用,对于语料库和知识库发展现状的研究总结,可以帮助人们更好地了解语料库和知识库的现今已取得发展成果和尚未解决的问题,可以为人们对语料库知识库的进一步研究和应用提供一定的指导作用。
3国内发展现状语料库的发展与现状自1979年中国开始建立机器可读的语料库以来,国内语料库发展迅速,取得了相当一部分的成就。
(1)早期语料库早期在中国建立的机器可读语料库主要包括:1979年武汉大学建立的汉语现代文学作品语料库(527万字)、1983年北京航天航空大学建立的现代汉语语料库(2000万字)、1983年北京师范大学建立的中学语文教材语料库(106万8千字)以及1983年北京语言学院建立的现代汉语词频统计语料库(182万字)。
早期形成的这些语料库,基本都是手工方式建立的,成本高、效率低。
另外,在早期建立语料库时,只形成了初步的国家语料库的建立标准,在语料库建立的统一规范方面问题比较突出。
(2)国家级大型汉语语料库在1991年,为了推进汉语的词法、句法、语义和语用的研究,中国国家语言文字工作委员会开始建立计划规模达7000万汉字的国家级大型汉语语料库。
虽然该语料库当时在汉语语料库系统开发技术上具有国际领先水平,而且在语料的可靠和标注的准确方面等享有权威性,但是该语料库依靠纯手工建立,在选材方面也受到了一定的限制。
目前,该语料库已经具有2000万字的核心语料,经过人们的加工处理,其正在完成从生语料库到熟语料库的过度。
(3)大规模真实文本语料库随着技术的进一步发展,大规模真实文本语料库逐渐被建立起来。
研究大规模真实文本语料库的单位包括北京大学计算语言学研究所、清华大学、山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院软件研究所、中科院自动化研究所、香港城市大学以及台湾中央研究院等。
其中代表性成果有:北京大学计算语言学研究所从1992年开始开展对现代汉语语料库多级加工的研究,先后建成2600万字的1998年《人民日报》的标注语料库,2000万字汉字、1000多万英语单词的篇章级英汉对照双语语料库以及8000万字篇章级信息科学与技术领域的语料库等。
清华大学则在1998年建立了1亿汉字的语料库,它着重研究歧义切分的问题,如今建立的生语料库已达7-8亿字 [4]。
(4)双语语料库在20世纪90年代前后,随着外语教学的普及,先后出现了各种不同的双语语料库,比如:北大计算语言学研究所的双语语料库、哈尔滨工业大学的英汉双语语料库、东北大学的英汉双语语段库等英汉双语语料库,北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库、中国海洋大学语言文学院研制的《蝴蝶》德汉对照语料库以及复旦大学计算机系建立的汉日英分类熟语料库。
在该时期,中国语料库的发展进入到全新的蓬勃时期。
双语语料库的迅速发展为外语教学提供了丰富的可用资源,对于外语教学的发展起到了巨大的推动作用。
(5)少数民族语言语料库由于我国民族众多,民族语言资源丰富,所以近年来,少数民族语言语料库的发展得到了大家的重视。
比如,新疆大学从2002年起开始建设现代维吾尔语语料库系统,目前已有生语料800万词;新疆师范大学建立了200万词的维吾尔语语料库,拟发展到300万词;中国社会科学院民族研究所建立了500万藏语字符的藏语语料库;内蒙古大学建立了带有初步切分和标注的蒙古语语料库[5]。
虽然由于少数民族语言的特殊性,少数民族语料库的建设还存在一系列问题,但是少数民族语言语料库的建立足以说明到目前为止我国语料库的发展已经达到了一个新的高度。
知识库的发展与现状在国内,现今比较知名的知识库是HowNet(知网)、基于WordNet框架开发的中文概念词典(CCD)以及台湾中研院的Sinica Bow[6]等。
从上世纪末开始,董振东先生就带领一批专家学者开始建立知网(HowNet),它是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
知网的发展从1988年展开基础研究开始到2008年发布“知网在线”共经历了九个过程。
现如今,中国知网的发展比较成熟,已经成为中国知识资源的总库,提供了工业、农业等众多学科的知识。
它不仅为语言信息处理的研发提供了丰富的知识资源,而且提供了一个进行汉语言计算机处理的新思路,其在词义标注、词义消歧、信息过滤、词义相似度的计算等许多领域得到广泛的应用。
CCD是基于WordNet框架开发的,他不仅继承了WordNet的一部分方法技术,而且根据汉语的特点对WordNet进行了改进,经过多年的努力,CCD已包含十万左右的汉语同义词集[7]。
台湾中研院开发的Sinica Bow支持英汉双语查询;多重语义索引等,并且Sinica Bow还包括了不同层次的词汇知识,词汇的可用资源丰富而全面。
4国外发展现状语料库的发展与现状从20世纪60年代开始,语料库从第一代逐渐发展到如今的第三代,这么多年来,各国在语料库的发展方面都取得了不菲的成绩。
(1)第一代语料库20世纪60年代Francis和Kucera在美国Brown大学建立美国布朗语料库(Brown Corpus),它是世界上第一个根据系统性原则采集样本的标准语料库,主要代表当代美国英语的,具有100万词的规模。
70年代初,英国Lancaster大学、挪威Oslo大学与Bergen大学联合建立了与布朗语料库规模相当的 LOB 语料库,它主要代表当代英国英语。
LLC口语语料库(London-Lund Corpus of Spoken English)在1975年建成的,其规模为万词的并且带有详细的韵律标注。
总体来说,第一代语料库的规模比较小,基本采用系统的抽样方法并且基本都以语言研究为目的。
(2)第二代语料库COBUILD语料库(Collins Birmingham University International Language Database,科林斯英语语料库)是从20世纪80年代开始由英国伯明翰(Birmingham)大学和柯林斯(Collins)出版社合作建立的主要应用于词典编撰的一个大规模语料库,目前它固定在亿词的规模,并且提供在线检索。
同样在20世纪80年代朗文语料库委员会还建立了应用于英语学习词典编纂的Longman语料库(朗文语料库),目前其规模达5000 万词次。
由于技术的进步,第二代语料库采用交心的光电符号识别技术,拜托了手工建立的麻烦,节省了语料库建立的时间和成本,而且第二代语料库的规模与第一代语料库相比均有大幅度提高。
(3)第三代语料库美国计算机协会(ACL/DCI)倡议发起建立ACL/DCI语料库,其收集的语料来源广泛,而且采用了统一的标准通用标注语言和TEI文本编码倡议标准。
在20世纪80年代末90年代初,美国宾州大学开始对百万词级的语料进行句法和语义标注,把线性的文本语料库加工成为表示句子的句法和语义结构的树库,建立了宾州大学树库(PennTreeBank)。
到1993年已经完成了对300万词的英语句子进行了句法结构标注。
另外在2000年,其完成了约10万词、4185个句子的第一版中文树库。
随着发展,第三代语料库的语料从开始的单语种发展到多语种,规模从开始的百万级发展到亿级、万亿级,选取的文本从抽样发展到全文。
经过三个阶段,现如今除上述所列的语料库,国外还包括许多其他的语料库,总体来说,当今不仅中国的语料库发展迅速,在国外语料库也取得了巨大的发展成果。
知识库的发展与现状国外知识库的发展过程中,形成了以描写聚合关系为主的WordNet,以描写组合关系为主的FrameNet[8]。
本文将着重介绍WordNet,对于FrameNet不做详细叙述。