当前位置：文档之家› 语料库

语料库

语料库与语料库建设

语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库（corpus）是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前，语言学家对于语料库的定义不尽相同，如辛克莱（Sinclair）认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等（Atkins & Clear）认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努（Renouf）认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集；不同之处在于前两个定义指出语料库的设计是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究目的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设计与建设有系统的语言学理论指导，语料库的开发具有明确而又具体的目的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过计算机处理的，具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石，以概率统计为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克（R.Quirk）等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库，在此基础上完成的《现代英语语法》（ A Grammar of Contemporary English）和《英语语法大全》（A Comprehensive Grammar of the English Language）对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

当汉语语料库文本分词规范草案

973当代汉语文本语料库分词、词性标注加工规范（草案）山西大学从1988年开始进行汉语语料库的深加工研究，首先是对原始语料进行切分和词性标注，1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改，2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果，并兼顾各家的词性分类体系，是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域，具有开放性和灵活性，以便适用于不同的中文信息处理系统。《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1．《信息处理用现代汉语分词规范》，中国国家标准GB13715，1992年 2．《信息处理用现代汉语词类标记规范》，中华人民共和国教育部、国家语言文字工作委员会2003年发布 3．《现代汉语语料库文本分词规范》（Ver 3．0），1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4．《现代汉语语料库加工规范——词语切分与词性标注》，1999年北京大学计算语言学研究所 5．《信息处理用现代汉语词类标记规范》，2002年，教育部语言文字应用研究所计算语言学研究室 6．《现代汉语语料库文本分词规范说明》，2000年山西大学计算机科学系山西大学计算机应用研究所 7．《資讯处理用中文分词标准》，1996年，台湾计算语言学学会一、分词总则 1．词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》（以下简称为“分词规范”）保持一致。本规范规定了对现代汉语真实文本（语料库）进行分词的原则及规则。追求分词后语料的一致性（consistency）是本规范的目标之一。 2．本规范中的“分词单位”主要是词，也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3．分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用，结构体能否扩展，组成成分的结构关系，以及结构体的音节结构；意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则，既要适应语言信息处理与语料库语言学研究的需要，又力求与传统的语言学研究成果保持一致；既要适合计算机自动处理，又要便于人工校对。 5．分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体，暂不切分。二、词性标注总则信息处理用现代汉语词性标注主要原则有三个： (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据，

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1，刘斌2 （1．南京大学, 江苏南京 210093； 2．解放军国际关系学院，江苏南京 210039）摘要：国际儿童口语语料库是目前世界上最完整的口语语料库之一，对开展口语语料库研究和语言习得研究具有重要价值，本文探讨该语料库的录写系统的赋码原则与具体操作问题，对促进我国英语口语语料库的建立和研究具有借鉴作用和启示意义。关键词：国际儿童口语语料库；英语口语语料；语料库语言学中图分类号：文献标识码：文章编号：The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093； 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES；English spoken corpus；corpus linguistics 1．引言新世纪的语言学研究已进入计算机时代，基于语料库的研究成果不断涌现，国际儿童口语语料库CHILDES（Child Language Data Exchange System）就是众多语料库中的一员，已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助，于1984年开始筹建，经过近20年的建设，已成为目前世界上最大的儿童口语语料库。到目前为止，该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.doczj.com/doc/1b13782297.html,/CHA T.html)语料。CHILDES语料库由三部分组成，第一部分是儿童英语口语语料库（DATA-BASE），第二部分为文本赋码系统（CHAT），第三部分为语料分析程序（CLAN），均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作，目的是对我国建设英语口语语料库提供借鉴与启示。 2．录写赋码系统的途径与原则

中国语料库研究的历史与现状

中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐渐创造了一整套完整的理论和方法，形成了一门新的学科——语料库语言学（corpus linguistics），并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来，机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。因此，在很长一段时间内，许多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言（sub- language）中获得一定的成功。为了摆脱困境，自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论，从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况，然后，比较详细地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在，美国Brown大学建立了BROWN语料库（布朗语料库），英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了 LOB 语料库。欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统 TAGGIT 来给布朗语料库的 100 万词的语料作自动标注，正确率为77%. 他们还设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注，根据统计信息来建立算法，自动标注正确率达 96%, 比基于规则的 TAGGIT 系统提高了将近 20%. 最近他们同时考察三个相邻标记的同现频率，使自动语法标注的正确率达到 99.5%。这个指标已经超过了人工标注所能达到的最高正确率。

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统（如果时间紧张，可直接跳到最后的举例部分！） 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上，点击相应的链接查看。比如： “作者列表”：列出语料库中所包含的文件的作者 “篇名列表”：列出语料库中所包含的篇目名 “类型列表”：列出语料库中文章的分类信息 “路径列表”：列出语料库中各文件在计算机中存放的目录 “模式列表”：列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色： ?支持复杂检索表达式（比如不相邻关键字查询，指定距离查询，等等）； ?支持对标点符号的查询（比如查询“？”可以检索语料库中所有疑问句）； ?支持在“结果集”中继续检索； ?用户可定制查询结果的显示方式（如左右长度，排序等）； ?用户可从网页上下载查询结果(text文件)；二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号查询表达式中可以使用的特殊符号包括8个： | $ # + - ~ ! : 这些符号分为四组： Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下：（一） Operator1: Operator1是二元操作符，它的两边可以出现“基本项”（关于“基本项”的定义见2.2）（1） | 相当于逻辑中的“或”关系。（二） Operator2：Operator2是二元操作符，它的两边可以出现“简单项”（关于“简单项”的定义见2.3）（2） $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number （3） # 表示它两边的“简单项”出现于同一句中，不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number （4） + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number （5） - 表示它左边的“简单项”出现于句子中，并且，在右边相隔Number个字的范围内，-号右边的“简单项”不出现。（6） ~ 表示它左边的“简单项”出现于句子中，并且，在左边相隔Number个字的范围内，~号右边的“简单项”不出现。（三）Operator3：Operator3是一元操作符。（7） ! 表示它后面的“简单项”是本次查询的主关键字符串，显示查询结果时以该“简单项”作为中心来进行定位。注意： Operator2后面的Number是必须的，不能省略。Number=0表示相邻,Number=1表示间隔1个单位，其余依此类推。（四）Delimiter：西文冒号 : 是分隔符（8） : 跟在 path，author，name，type，pattern 等关键字后面，用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”（见下面2.5）注意：上述特殊字符不能作为基本项在语料库中进行检索。path，author等关键字可以作为基本项进行检索。 2.2 基本项指不包含特殊符号和空格的连续字符串

语料库

关于语料库的三点基本认识：语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源; 在语言学中，语料库（Corpus）指大量文本的集合，库中的文本（称为语料）通常经过整理，具有既定的格式与标记，特指计算机存储的数字化语料库。语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。分类语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous）：只收集同一类内容的语料；（3）系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized）：只收集用于某一特定用途的语料。除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。目前已经累积了大量各种类型的语料库，如：葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务（SMS）语料)等。特征语料库有三点特征 1.语料库中存放的是在语言的实际使用中真实出现过的语言材料，因此例句库通常不应算作语料库； 2.语料库是承载语言知识的基础资源，但并不等于语言知识；

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符例如“I see a cat and a dog”类符6个，形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法，可以辅助说明文本的词汇难度。但是，文本中有大量功能词出现，文本每增加一个词，形符就会增加一个，但类符却未必随之增加。这样文本越长，功能词重复次数越多，TTR会越低。因此用TTR衡量词汇密度不合理，于是，出现了标准化类符/形符比，即STTR。例如，计算每个文本1000词的TTR，均值处理，得出STTR。Frequency（频率）例如每百万词、十万词中，某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量，用卡方检验或对数似然率进行对比，来确定两个库中该单词的使用是否有差异。 Wordlist词表根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目，词元比如go是lemma，对应各种屈折变化形式（inflections），go,goes,went,going,gone共5种屈折变化形式。在分析语言时，需要将它们全部归到go名下，这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引（KWIC 语境中的关键词key words in context）运用索引软件在语料库中查询某词或短语的使用实例，然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境，可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

语料库常用统计方法

3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中，我们需要描述这些样本的出现和分布情况。此外，我们还经常需要观察不同语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。理论上说，几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化（normalization ）、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数（frequency, freq 或raw frequency ）。那么某词（如many ）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many 在第二个语料库中更常用呢？显然，不能因为105大于100，就认定many 在第二个语料库中更常用。这里大家很容易想到，两个语料库的大小未必相同。按照通常的思维，我们可以算出many 在两个语料库中的出现百分比，这样就可比了。这种情况下，我们是将many 在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。实例及操作频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency ）除以总体频数（通常为文本或语料库的总词数），这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中，我们通常会在此基础上乘以1千（1万、1百万）得到平均每千（万、百万）词的出现频率。即： 1000?=总体频数观测频数标准化频率（每千词）（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。）例如，more 在中国学生的作文里出现251次，在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外，我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如，可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

中研院现代汉语标记语料库使用说明

「內容檢索」使用說明「內容檢索」的檢索條件詞設定，在於輸入檢索條件詞，在語料庫中將所有在「內容檢索」設定的檢索條件符合者，並在「自訂語料庫」設定範圍內，包含檢索條件詞的文句挑出並顯示。檢索的方式分兩種：一、單項條件檢索方式：一次設定一項檢索條件；二、多項條件檢索方式：一次設定一項檢索條件，包括「and檢索條件」，以及利用「續設條件」設定「or檢索條件」。檢索的對象分四種：1. 關鍵詞；2. 重疊詞；3.詞類；4. 特徵。 A.單項條件檢索：一次設定一項檢索條件 1.關鍵詞：將滑鼠移到「關鍵詞」的框框內，鍵入欲搜尋的關鍵詞，再將滑鼠移到「執行」按下。 ?關鍵詞可以由下列幾種符號組合而成： ?中文字 ?? ：表示一個任意字元 ?* ：表示零至無限多個任意字元 ?範例： ?鍵入「電話」，會搜盡包含「電話」的文句。 ?鍵入「電*」，會搜盡包含以「電」開頭的詞（單字詞、雙字詞、多字詞都包括在內，如：電、電話、電視機）的文句。 ?鍵入「電?」，會搜盡包含以「電」開頭的雙字詞的文句。 ?鍵入「*電」，會搜盡包含以「電」結尾的詞（單字詞、雙字詞、多字詞都包括在內）的文句。 ?鍵入「??電」，會搜盡包含以「電」結尾的三字詞的文句。 ?鍵入「*電*」，會搜盡出現過含有「電」的詞（單字詞、雙字詞、多字詞都包括在內）的文句。 ?鍵入「?電?」，會搜盡包含將「電」置於中央的三字詞的文句。 ?鍵入「?電*」，會搜盡包含將「電」置於第二字的詞（雙字詞、多字詞都包括在內）的文句。 ?鍵入「????」，會搜盡含有任何四字詞的文句。 2.重疊詞：將滑鼠移到「重疊詞」的框框內，鍵入欲搜尋的重疊詞種類，再將滑鼠移到「執行」按下。或者將滑鼠移到「重疊詞」框框旁的箭頭，按一下，即出現四種重疊詞種類，在所欲搜尋的重疊詞種類按一下，再將滑鼠移到「執行」按下。 ?重疊詞種類共分四種，如介面所示： ?重疊詞AAB－如：試試看、走走路 ?重疊詞ABB－如：試看看、亮閃閃 ?重疊詞AABB－如：高高興興、平平安安 ?重疊詞ABAB－如：高興高興、研究研究

语料库

语料库、学习者语料库与外语教学 ① □李文中 0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。2)词典编纂。语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。3)语言学习与语言教学。早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。90年代初,包含英国书? 15?外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。C ornelis H.J.Vaes 寄来International Journal o f Corpus Linguistics 以供参考。M ike Scott 寄来有关索引软件M icroC oncord 使用手册。导师杨惠中教授阅读了初稿并提出了修改意见。在此一并致谢。

现代汉语语料库加工规范

现代汉语语料库加工规范 ——词语切分与词性标注 1999年3月版北京大学计算语言学研究所 1999年3月14日 ⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范Ｖ1.0》。几年来已完成了约60万字语料的切分与标注，并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后，最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行，北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范Ｖ2.0》（征求意见稿）。因这次加工的任务超出词语切分与词性标注的范围，故将新版的规范改名为《现代汉语语料库加工规范》。制订《现代汉语语料库加工规范》的基本思路如下： ⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” （以下简称为“分词规范”）保持一致。由于现在词语切分与词性标注是结合起来进行的，而且又有了一部《现代汉语语法信息词典》（以下有时简称“语法信息词典”或“语法词典”）可作为词语切分与词性标注的基本参照，这就有必要对“分词规范”作必要的调整和补充。 ⑵ ⑵ 小标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类标记（名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w）外，增加了以下3类标记：①专有名词的分类标记，即人名nr，地名ns，团体机关单位名称nt，其他专有名词nz；②语素的子类标记，即名语素Ng，动语素Vg，形容语素Ag，时语素Tg，副语素Dg等；③动词和形容词的子类标记，即名动词vn（具有名词特性的动词），名形词an（具有名词特性的形容词），副动词vd（具有副词特性的动词），副形词ad（具有副词特性的形容词）。合计约40个左右。 ⑶ ⑶ 规范的多元性。既要适应语言信息处理与语料库语言学研究的需要，又要能为传统的语言研究提供充足的素材；既要适合计算机自动处理，又要便于人工校对。 ⑷ ⑷ 词组（短语）本位汉语语法体系的指导作用。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任；而具有确定词性的同一个词又可以充当不同的句法成分，形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的，其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布，特别是优势功能分布决定了它们的词性（即它们所属的词类）。在进行词性标注时，应当充分利用《现代汉语语法信息词典》，承接这个基本成果，避免仅根据词在所在的句子中充当的句子成分来决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见，在标记集中增加了名动词vn，名形词an，副动词vd，副形词ad。当然，增加这些标记并非只是缓冲不同意见，主要是为了给词的兼类研究提供计量根据，也为汉语词的概率语法属性描述作准备。 ⑸ 为了对新闻语料中大量存在的专有名词（地名、团体机构名称等）进行研究（从命名规律到自动识别），在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记（主要是nt，nz，还有少量的ns）。 ⑹ 不是孤立使用本规范。在使用本规范对语料库进行加工时，将与《现代汉语语法信息词典》等项研究成果密切配合。当现在的研究和将来的应用（中文信息检索、中文信息提取、汉外机器翻译等）相衔接时，就可以方便地利用词典中丰富的词语语法属性信息。而

语料库的应用(最终)

语料库的应用语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学（以语料库方法为取向的研究语言的分支就被称为语料库语言学）已是高歌猛进，日新月异，新的语料库更是层出不穷，经过科学选材和标注，具有适当规模的语料库能够反映和记录语言的实际使用情况，人们通过语料库观察和把握语言事实，分析和研究语言系统的规律，极大地方便了语言研究者。军事语料库对信息化条件下的军事斗争具备潜在价值，积极开展军事语料库的研究和建设实践活动，并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视，对战场态势的综合信息捕捉、把握和利用的能力建设至关重要，但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。【一】、语料库成为语言学理论研究的基础资源语料库是计算语言学的基础。语料库对应的英文是corpus，复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为，语料库“指收集的一批语言学数据，或为书面文本或为言语录音的转写，可用作语言学描写的出发点，也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究，社会语言学研究，口语研究，词典编纂，语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。起初语料库主要用于语言学研究，而且建成的语料库多为通用语料库，服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入，各种专业领域语料库也相继建立，语料库的应用研究逐渐扩大到其他学科。我国在语料库的应用上还处于起步阶段，在计算语言学和语言信息处理领域，语料库主要用来为统计语言模型提供语言特征信息和概率数据，在语言研究的其他领域，多使用语料的检索和频率统计结果。目前国外已建成且较有影响的主要为以下的语料库：美国：布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆／卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

语料库的类型

语料库的类型［作者：李文中转贴自：Corpora and the ELT点击数：97 文章录入：neilruan ］语料库来自拉丁词corpus，原意为“汇总”、“文集”等，复数形式为corpora或corpuses。语料库是“作品汇集，以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集，为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”(Sinclair，1986:185-203)。语料库是按照明确的设计标准，为某一具体目的而集成的大型文本库（Atkins and Clear，1992:1-16）。 Renouf认为，语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”（Renouf, 1987:1）。 Leech指出，大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础，“为获得必需的频率数据，我们必须分析足量的自然英语（或其它语言）文本，以便基于观测频率（observed frequency）进行合乎实际的预测。因此，就需要依靠可机读的电子文本集，即可机读的语料库”(Leech, 1987:2)。综上所述，语料库具有以下基本特征： 1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的，语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析，而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语，目的是进行美国英语和英国英语的对比分析和语法分析。 2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的，而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料（naturally-occurred data）。 3）语料库作为自然语言运用的样本，就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料，其结果必然存在偏差，缺乏代表性，“自然语料库存在如此严重的偏差，以至于对其所进行的描述将不过是一个词表而已”（Chomsky, 1962:159）。这种批评对任何以概率统计为基础手段的研究都是有价值的（McEnery, 1996:5）。但是，目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差，增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围，如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围i[i]；再就是确定语料的分层结构，进行分层抽样，如把语料按文类（genre）和信道（channel, 如书面语和口语等）进行分层，如图2.1所示。从各种语料的抽样比例上又可分为‘均衡抽样’（balanced）和‘塔式抽样’（pyramidal）。前者对各种语料按平均比例抽取，而后者对不同的语料进行不等比例抽取。 4）语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储在磁盘上，以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本（htm 或html）格式转换为纯文本。另外，语料库具有一定的容量。语料库的大小取决于语料库的设计原则和研究需求，以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机交互，这种交互方式随着语料库工具的发展而逐步加强其自动化特性。Leech认为这种人机交互有以下四种渐进的模式：（1）‘数据检索模式’。计算机以便利的形式提供数据，人进行分析。（2）‘共生模式’。计算机提供部分经过分析的数据，人不断改善其分析系统。（3）‘自我组织模式’。计算机分析数据并不断改善其分析系统，人提供分析系统参数及软件。（4）‘发现程序模式’。计算机基于数据自动划分数据范畴并进行分析，人提供软件（Leech，1991：19）。计算机自动处理包括自动词性附码（tagging）、自动句法分析（parsing）等。其基本处理和分析过程包括以下几个步骤：语音分析（phonetic analysis）指音段分析，主要用于语音识别和语音合成。正字分析（orthographic analysis）指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。形态分析（morphological analysis）即词性指定和附码。语料库自动附码软件通过概率统计和分析，对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性附码准确率一般在97%以上。句法分析（syntactic analysis）是指句子成分切分、句法关系识别、以及句法分析。语义分析（semantic analysis）和语用分析对语篇进行语义指定和意义解释。 5）基于语料库的研究以量化研究为基石，以概率统计为基本手段，以“数据驱动”为基本理念。其基本方法是通过对实际语言运用的抽样，确定其对语言整体的代表性，通过对样本特征的描述概括整体特征。在量化分析中，首先对特征进行分类，并统计各个特征的频率，通过建立复杂的统计模型对观测到的数据进行解释。分析结果可对研究对象总体进行概括。量化分析能够使我们发现在某一种语言或语言变体中哪些现象反映了语言的真实特征，那些现象仅属于偶然的个例。针对某一语言变体而言，我们还可以确切地知道某一语言现象的显著性，从而确认该现象是规范的还是异常的（McEnery，1997:3）。 6）语料库既是一种研究方法，又代表着一种新的研究思维，并以当代先进的计算机技术为技术手段。 7）语料文本是一连续的文本或话语片断(running text or continuous stretches of discourse)，而不是孤立的句子和词汇。在语料库研究中，对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提供的语境（context）进行的。语料库索引提供的语境可分为以下几种：（1）指定跨距，即使用者指定以搜索词为中心左右相邻的词数；（2）意元语境，即以某一意义单元结束为一微型语境，在语料库索引中意元的确定是以意义结束符号如“，；”等为标识的；（3）句子语境，即以句子终结符号如“. !”等为标识；（4）可扩展语境，即对搜索词所在语境可无限扩展。这对研究词汇的语法关系、词汇用法、词汇搭配、词丛（word cluster）、词汇在连续语篇中呈现的范型（pattern）、以及主题词汇之间的意义关系提供了可靠而方便的途径。如“necessarily”一词在《新英汉词典》中作为“necessary”词条下该词的副词形式，定义为“必定，必然”；Oxford Advanced Learner’s Dictionary of Current English把它列为一个单独的词条，给出的定义为“adv as a necessary result; inevitably”；各种英语教科书中对该词的定义和解释也大同小异。在上海交大科技英语语料库（以下简称JDEST）中搜索“necessarily”这个词，发现该词在全库中出现264次，频率最大的搭配词“not”出现在该词左边第一个位置，观察搭配频数为136。全库中出现5次以上的三词词丛有20组，同时含有“not”和“necessarily”的词丛有18组。通过索引行统计和词丛统计可以看出（见图2.4示例），“necessarily”一词最典型的用法是与“not”

英汉语料库汇总

1.英语学习者语料库（书面语及口语）中国学习者语料库 CLEC（100万）广外、上海交大 2.大学英语学习者口语语料库 COLSEC (5万) 上海交大 3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 4.中国英语专业语料库 CEME (148万) 南京大学 5.中国英语学习者口语语料库 SECCL (100万) 南京大学 6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大 7.硕士写作语料库 MWC (12万) 华中科技大学 9.平行语料库汉英平行语料库 PCCE 北外 10.南大－国关平行语料库南京大学 11.英汉文学作品语料库；外研社 12.冯友兰《中国哲学史》汉英对照语料库 13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 14.计算机专业的双语语料库；国家语言文字工作委员会语言文字应用研究所 15.柏拉图(Plato)哲学名著《理想国》的双语语料库 16.英汉双语语料库(15万对) 中科院软件所 17.英汉双语语料库：LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所 18.英汉双语语料库(100万)，网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学 20.双语语料库(5万多对) 北京大学计算语言学研究所 21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 22.平衡语料库(Sinica Corpus)；树图语料库(Sinica Treebank) 台湾 23.特殊英语语料库中国英语(China English)语料库河南师范大学 24.军事英语语料库(Corpus of Military Texts) 解放军外语学院 25.新视野大学英语教材语料库上海交通大学 26.汉语语料库汉语现代文学作品语料库(1979年，527万字) 武汉大学 27.现代汉语语料库(1983年,2000万字) 北京航空航天大学 28.中学语文教材语料库(1983年,106万8000字) 北京师范大学 29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院 30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会 31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所 32.大型中文语料库(5亿字,10分库) 北京语言文化大学 33.现代汉语语料库(1亿字) 清华大学 34.汉语新闻语料库；(1988年,250万字) 山西大学 35.标准语料库(2000年,70万字) 36.生语料库(3000万字)；《作家文摘》的标注语料库(100万字) 上海师范大学 37.现代自然口语语料库中国社会科学院语言所 38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所 39.北京大学汉语语言学研究中心的三个语料库