当前位置：文档之家› 基于语料库的词表创建原则及方法研究

基于语料库的词表创建原则及方法研究

语料库研究的优势及问题的理论解析

语料库语言学的理论解析摘要：本文试图剖析有关语料库语言学的几个理论问题，以期揭示语料库语言学的本质。第一：语料库语言学是不是独立的新兴学科？第二：语料库提供的数据到底可以给语言学家带来什么？第三：语料库语言学的真正任务是什么，它应该成为怎样一项研究？回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位，以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。关键词：语料库语言学；基于语料库的研究方法；理论架构；语料库数据；发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理（NLP）的研究，诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质，而是注重技术层面的研究，比方如何改进算法，如何完善词库的建设以实现技术上的突破。另一类就是语言学家，他们则希望借助这一强大的工具去揭示语言的本质这一学科目标，这正是本文所要关注的。本文缘起于语言研究者中的一种争论，即“语料库语言学”是否配得上这个名称，它是一种新兴的理论视角还是“暴发户造谱牒”？而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说，语言学家从语料库所提供的信息中到底可以获得什么？这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起，在国内也有相当数量介绍性和综述性文献涌现，为语料库语言学在我国的发展奠定了一定的理论基础。此外，一些语言学者和语言教师（包括外语教师和对外汉语教师）也设计、建立了一些自己的语料库以服务于教学科研。然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题，以期对语料库语言学的优势和不足有进一步的认识。第一：语料库语言学是不是独立的新兴学科？第二：语料库提供的数据到底可以给语言学家带来什么？第三：语料库语言学的真正任务是什么，它应该成为怎样一项研究？回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位，以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科？ 2.1 语料库语言学是一种理论架构完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如，Halliday（1991；1992；1993）指出，语料库语言学作为一种理论架构（theoretical construct），将语料收集和理论概括统一了起来，从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例（instance）的语言的本质。因为在Halliday的语言学思想当中，实际话语是语言系统的实例再现（instantiation）。而语言系统，或者说是语法体系是一种统计概率上（probabilistic）的自然结果。这一思想与所谓

语料库与语料库建设

语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库（corpus）是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前，语言学家对于语料库的定义不尽相同，如辛克莱（Sinclair）认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等（Atkins & Clear）认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努（Renouf）认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集；不同之处在于前两个定义指出语料库的设计是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究目的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设计与建设有系统的语言学理论指导，语料库的开发具有明确而又具体的目的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过计算机处理的，具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石，以概率统计为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克（R.Quirk）等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库，在此基础上完成的《现代英语语法》（ A Grammar of Contemporary English）和《英语语法大全》（A Comprehensive Grammar of the English Language）对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

语料库研究与综述.

语料库研究与应用综述一概述语料库通常指为语言研究收集的、用电子形式保存的语言材料，由自然出现的书面语或口语的样本汇集而成，用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实，分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous）：只收集同一类内容的语料；（3）系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized）：只收集用于某一特定用途的语料。除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。语料库建设中涉及的主要问题包括：（1）设计和规划：主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。（2）语料的采集：主要考虑语料获取、数据格式、字符编码、语料分类、文本描述，以及各类语料的比例以保持平衡性等。（3）语料的加工：包括标注项目（词语单位、词性、句法、语义、语体、篇章结构等）标记集、标注规范和加工方式。（4）语料管理系统的建设：包括数据维护（语料录入、校对、存储、修改、删除及语料描述信息项目管理）、语料自动加工（分词、标注、文本分割、合并、标记处理等）、用户功能（查询、检索、统计、打印等）。（5）语料库的应用：针对语言学理论和应用领域中的各种问题，研究和开发处理语料的算法和软件工具。我国语料库的建设始于80年代，当时的主要目标是汉语词汇统计研究。进入90年代以后，语料库方法在自然语言信息处理领域得到了广泛的应用，建立了各种类型的语料库，研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期，除了语言信息处理和言语工程领域以外，语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候，在自然语言理解和生成、机器翻译等研究中，分析语言的主要方法是基于规则的（Rule-based）。对于用规则无法表达或不能涵盖的语言事实，计算机就很难处理。语料库出现以后，人们利用它对大规模的自然语言进行调查和统计，建立统计语言模型，研究和应用基于统计的（Statistical-based）语言处理技术，在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面，语言信息处理技术的发展也为语料库的建设提供了支持。从字符

语料库与语料库建设

语料库与语料库建设语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。口前，语言学家对于语料库的定义不尽相同，如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究LI 的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设讣与建设有系统的语言学理论指导，语料库的开发具有明确而乂具体的U的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行

研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过讣算机处理的，具有资源优势和处理速度优势。5＞基于语料库的研究以量化研究为基石，以概率统汁为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，乂代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库，在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后，语言学研究主流从经验主义转向理性主义，乔姆斯基的语言能力说被广泛接受，转换生成语法学派批评语料库研究方法，认为，1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象，语料库收集的只是人们的语言运用，语言运用会因超语言因素的影响而发生变化，它并

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善 1.0引言语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

语料库常用统计方法

3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中，我们需要描述这些样本的出现和分布情况。此外，我们还经常需要观察不同语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。理论上说，几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化（normalization ）、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数（frequency, freq 或raw frequency ）。那么某词（如many ）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many 在第二个语料库中更常用呢？显然，不能因为105大于100，就认定many 在第二个语料库中更常用。这里大家很容易想到，两个语料库的大小未必相同。按照通常的思维，我们可以算出many 在两个语料库中的出现百分比，这样就可比了。这种情况下，我们是将many 在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。实例及操作频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency ）除以总体频数（通常为文本或语料库的总词数），这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中，我们通常会在此基础上乘以1千（1万、1百万）得到平均每千（万、百万）词的出现频率。即： 1000?=总体频数观测频数标准化频率（每千词）（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。）例如，more 在中国学生的作文里出现251次，在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外，我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如，可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库

Background Information 语料库的概念语料库是指按照一定的语言学规则，利用随机抽样的方法收集的有代表性的语言材料的总汇，它是语言材料的样本。语料库通常指为语言研究机构收集的，具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成，用来代表特定的语言或语言变体，或经过加工后带有语言学信息标注的文本的集合。语料库的分类按照语料库所涉及的语言种类，语料库课分为单语语料库，双语平行语料库(parallel corpus)和多语语料库(multilingual corpus)；按照语言涉及的题材，语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus)；按语料的来源，又可分为口语语料库和书面语语料库；按语料库是否被标注，语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

中国语料库研究的历史与现状

中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐渐创造了一整套完整的理论和方法，形成了一门新的学科——语料库语言学（corpus linguistics），并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来，机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。因此，在很长一段时间内，许多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言（sub- language）中获得一定的成功。为了摆脱困境，自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论，从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况，然后，比较详细地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在，美国Brown大学建立了BROWN语料库（布朗语料库），英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了 LOB 语料库。欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统 TAGGIT 来给布朗语料库的 100 万词的语料作自动标注，正确率为77%. 他们还设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注，根据统计信息来建立算法，自动标注正确率达 96%, 比基于规则的 TAGGIT 系统提高了将近 20%. 最近他们同时考察三个相邻标记的同现频率，使自动语法标注的正确率达到 99.5%。这个指标已经超过了人工标注所能达到的最高正确率。

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山，胡志军的介绍。是一个语料库中心词索引软件（concordancer）,加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发三部分：learners, researchers, teachers自我学习，研究，教师命题。特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索，但缺点是每次只能对一个文本加工。 2.BNC 2014年开始，免费获得，通过BYU的申请。 British National Corpus 一亿词，书面语90%，口语10%，共4124篇文本，从1980到1993年的语料英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库共有七类口语spoken,小说fiction，流行杂志magazine，报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码，用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿，1990-2007年间，美国国内各种语料口语spoken,小说fiction，流行杂志magazine，报纸newspaper和学术期刊academic共五类语料来源且持续更新中，每年以2000万词递增，目前到1990-2012，共4.5亿词 Display:显示方式，compare选项可以用来比较两个词的搭配区别，排列方式选择relevance 相关度标记了语料的时间，便于研究语言历时与共时的变化教学中相关用法查找同义词，如[=scold].[V*]表示查找所有scold的同义词

语料库整理要求及方法

一、需整理的多是ppt语料，也有些word文档的语料（见Boston Consulting-需做库-12.10文件夹）。整理要求如下： 1、利用Align Assist工具将ppt中原文译文提取出来，并根据中英文内容一句句对齐。如图： 2、利用Align Assist工具对ppt中的内容进行提取时，软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后，将对齐结果分别保存为tmx格式及aares格式，tmx为最终需要的语料格式，但无法修改且预览不便。aares为临时语料文件，可修改，可即时预览。因此，请大家对齐时两种格式都保存下来。保存方法见第二部分。二、整理方法： 1、安装Align Assist语料对齐工具（安装程序见AlignAssist_Setup_1.5.1文件夹）。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文，何为译文。例：project1-中到英，则中文文件为source file，英文文件为target file。源文本和译文本添加完成后，点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。（1）split：将一句话断开为两句

随意举例：将第六句原文“当前全球经济正经历深度调整，各国需联手培育新的经济增长点和竞争优势。”断为：“当前全球经济正经历深度调整，”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文，边框变黑。单击上方菜单split。进入下图界面。将第二小句内容剪切粘贴到cell 2部分，然后单击ok。即分句完成。

语料库的应用(最终)

语料库的应用语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学（以语料库方法为取向的研究语言的分支就被称为语料库语言学）已是高歌猛进，日新月异，新的语料库更是层出不穷，经过科学选材和标注，具有适当规模的语料库能够反映和记录语言的实际使用情况，人们通过语料库观察和把握语言事实，分析和研究语言系统的规律，极大地方便了语言研究者。军事语料库对信息化条件下的军事斗争具备潜在价值，积极开展军事语料库的研究和建设实践活动，并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视，对战场态势的综合信息捕捉、把握和利用的能力建设至关重要，但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。【一】、语料库成为语言学理论研究的基础资源语料库是计算语言学的基础。语料库对应的英文是corpus，复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为，语料库“指收集的一批语言学数据，或为书面文本或为言语录音的转写，可用作语言学描写的出发点，也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究，社会语言学研究，口语研究，词典编纂，语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。起初语料库主要用于语言学研究，而且建成的语料库多为通用语料库，服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入，各种专业领域语料库也相继建立，语料库的应用研究逐渐扩大到其他学科。我国在语料库的应用上还处于起步阶段，在计算语言学和语言信息处理领域，语料库主要用来为统计语言模型提供语言特征信息和概率数据，在语言研究的其他领域，多使用语料的检索和频率统计结果。目前国外已建成且较有影响的主要为以下的语料库：美国：布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆／卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

语料库

语料库、学习者语料库与外语教学 ① □李文中 0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。2)词典编纂。语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。3)语言学习与语言教学。早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。90年代初,包含英国书? 15?外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。C ornelis H.J.Vaes 寄来International Journal o f Corpus Linguistics 以供参考。M ike Scott 寄来有关索引软件M icroC oncord 使用手册。导师杨惠中教授阅读了初稿并提出了修改意见。在此一并致谢。

国家标准《建立术语研究用语料库的一般原则与方法》.

国家标准《建立术语研究用语料库的一般原则与方法》（征求意见稿）编制说明一、任务来源随着科学技术的发展，新术语、新概念层出不穷，为了更好的管理、规范日益增多的新术语，需要借助更先进的工具及方法。目前国内外已经建立了大量的术语数据库，为了更好的对大量术语资源进行研究就需要建立术语语料库，大规模真实语料库是术语研究的可靠基础和最主要的来源，建设与术语库相配合的、统一规范的精加工术语语料库，可以使我们对中文术语构成、术语专业分布、术语地域分布、术语来源以及术语发展等各种复杂现象获得更为直观、深刻的全面认识，进而为推动中文术语规范化和标准化的进程、促进语言信息处理技术的总体发展起到关键的作用。因此制定建立术语语料库的标准已经十分必要。 GB/T XXXX-XXXX《建立术语研究用语料库的一般原则与方法》项目由中国标准研究中心提出，于2002年列入国家质量监督检验检疫总局制、修订国家标准项目计划，项目编号：20020411-T-424。该标准由中国标准研究中心归口，计划于2002年底完成。二、工作情况： 1、标准起草小组的同志积极参与对《建立术语研究用语料库的一般原则与方法》国家标准的制定工作，在工作中深入的研究了术语语料库的功能，吸取国内外先进经验，制定出一套实用的术语语料库建立标准。 2、进行了广泛的调研工作，搜集了使用者的一些建议，同时争求了一部分专家的意见，作为本项目的重要参考。 3、在制定标准过程中，标准起草工作组根据实际情况制定工作计划，保证工作顺利进行。 4、标准起草工作组多次召开会议，反复研究了《建立术语研究用语料库的一般原则与方法》讨论稿，广泛征求了该专业领域的专家及用户的意见，对

文本分类概述

第一章绪论研究背景当今的时代，是一个信息技术飞速发展的时代。随着信息技术的飞速发展，科学知识也在短时间内发生了急剧的、爆炸性的增长。据1998年的资料显示[1]，70年代以来，全世界每年出版图书50万种，每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇，平均每天发表包含新知识的论文为万万篇；登记的发明创造专利每年超过30万件，平均每天有800-900件专利问世。近二十年来，每年形成的文献资料的页数，美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示，科学知识每年的增长率，60年代以来已从％增长到％，到80年代每年增长率达％。据说，一位化学家每周阅读40小时，光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2]，进入20世纪后全世界图书品种平均20年增加一倍，册数增加两倍。期刊出版物，平均10年增加一倍。科技文献年均增长率估计为13％，其中某些学科的文献量每10年左右翻一番，尖端科技文献的增长则更快，约2-3年翻一番。同时，伴随着Internet的迅猛发展，网站和网页数也在迅速增长，大约每年翻一番。据估计，目前全世界网页数已高达2000亿，而Google宣称其已索引250亿网页。在我国，中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查，统计结果显示，中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个，增长之快可见一斑[3,4]。从这些统计数字可以看出，我们被淹没在一个多么浩大的信息海洋里！然而信息的极大丰富并没有提高人们对知识的吸收能力，面对如此浩瀚的信息，人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的，知识是贫乏的”。如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务，一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加，但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前

中国语料库研究的历史与现状(一)

中国语料库研究的历史与现状(一) 语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐渐创造了一整套完整的理论和方法，形成了一门新的学科——语料库语言学（corpuslinguistics），并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来，机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此，在很长一段时间内，许多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言（sub-language）中获得一定的成功。为了摆脱困境，自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论，从

而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况，然后，比较详细地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在，美国Brown大学建立了BROWN语料库（布朗语料库），英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注，正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注，根据统计信息来建立算法，自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率，使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。现在，国外的主要语料库还有： London-Lund口语语料库：收篇目87篇，每篇5000词，共为43.4万词，有详细的韵律标注(prosodicmarking)。 AHI语料库：美国Heritage出版社为编纂Heritage词典而建立，有400万词。 OTA牛津文本档案库（OxfordTextArchive）：英国牛津大学计算中心建立，