美英报刊英语标注语料库建设研究_郑志恒
- 格式:pdf
- 大小:374.20 KB
- 文档页数:7
基于语料库的中美英语新闻语篇立场标记语研究开题报告一、研究背景随着社交媒体和网络技术的不断发展,新闻信息的传播速度越来越快。
中美英语新闻的异质性和差异性逐渐凸显,其语言特点和立场表达方式也日益复杂。
在这种背景下,如何有效地理解和分析中美英语新闻中的语篇立场,成为了一个重要的问题。
语篇立场标记(stance markers)是用于表达说话者或作者的态度、情感、观点、偏见或政治取向的语言现象。
在新闻领域,语篇立场标记的研究具有实际应用和理论价值。
了解新闻语篇中的立场标记,可以帮助我们更准确地理解新闻事件的内涵,更好地进行新闻媒体的选择和评价。
二、研究目的和意义本研究旨在探讨中美英语新闻语篇中的立场标记,并对其进行分类和分析。
通过语料库的收集和语料分析的方法,选取中美英语新闻样本,结合文本分析和计量分析的方法,探究新闻语篇中的立场标记在中美英语语境中的异同和差异,以及其在新闻报道中的功能和意义。
本研究的意义如下:1. 为实现更好的新闻报道和媒体评价提供理论和方法支持。
2. 为加深中美英语语言和文化之间的交流和合作提供参考。
3. 为学术研究提供范例和启示,有助于深入理解语言学和跨文化交际领域的相关问题。
三、研究内容和方法本研究的主要内容和方法如下:1. 收集中美英语新闻语料,并对其进行预处理和整理。
2. 对新闻语料中的立场标记进行识别和分类。
3. 分析和比较不同语境中的立场标记使用情况和类型分布。
4. 探讨立场标记在新闻报道中的功能和表达意义。
5. 采用文本分析和计量分析的方法,对语料数据进行统计和图表展示。
四、研究预期结果1. 本研究将对中美英语语境中的立场标记进行全面的探究和分类,揭示出立场标记在不同语境下的功能和表达意义。
2. 通过对语料数据的分析和挖掘,本研究将为新闻媒体的选择和评价提供更为准确和全面的依据。
3. 本研究可以为学术研究提供范例和启示,为深入理解语言学和跨文化交际领域的相关问题提供参考。
语料库相关资源David Lee语料库研究书签Bookmarks for Corpus-based Linguists (David Lee).au/~dlee/CBLLinks.htm (/corpora)常用语料库资源链接汇集(语料天涯)/corpus/互动平台/forum/入门读物专著梁茂成、李文中、许家金,2010,《语料库应用教程》。
北京:外语教学与研究出版社。
Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)期刊论文中国期刊网EBSCO英文期刊数据库书店可以买到的语料库相关书籍Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进)Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St.Jerome Publishing. (外研社引进)Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999.Longman Grammar of Spoken and Written English. Longman Publications Group.(外研社引进)Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进)Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. & S. Petch-Tyson (Eds.). 2003. Extending the Scope of Corpus-based Research: New Applications, New Challenges. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. et al. (Eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies《基于语料库的语言对比和翻译研究》. Amsterdam: Rodopi. (外研社引进)Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进)Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)Kettemann, B. & G. Marko. 2002. Teaching and Learning by Doing Corpus Analysis.Amsterdam: Rodopi. (世界图书出版社引进)Meyer, Charles. 2002. English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press. (外教社引进)Mukherjee, J. 2001. Form and Function of Parasyntactic Presentation Structures. A Corpus-based Study of Talk Units in Spoken English. Amsterdam: Rodopi. (世界图书出版社引进)Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进)Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.(外教社引进)Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进)Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education《语料库与译者培养》.Manchester: St. Jerome Publishing. (外研社引进)蔡金亭,2003,《语言因素对英语过渡中使用——一般过去时的影响》。
学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——论文摘要指以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。
(国家标准GB 47) 学术论文摘要概括论文的主要信息,对研究的目的、方法、结果和最终结论有一个比较完整的说明,对于论文的发表、收录、检索及科研人员的学术交流等起着重要的作用。
当今时代,英语已成为国际交往的世界性语言,英文学术论文摘要的重要性日益显现。
近年来,不少中外学者(如Swales1990、段平2002、滕延江2008、邓军涛2013 等) 对论文摘要的语言特点与翻译进行了比较广泛深入的分析,其成果无疑有利于该领域的实践与发展。
然而,大多数相关研究都是基于研究者个人的经验,选取的例句和掌握的语料比较有限。
不少学习者和研究人员撰写及翻译摘要的能力还比较欠缺。
鉴于此,本课题组决定建设学术期刊论文摘要汉英双语语料库,一方面从大的语料基础上客观描述英文摘要的文体特征和进行汉英翻译研究,同时将该语料库用作翻译教学平台,试验并总结数据驱动的教学方法,推动学术研究与翻译教学共同发展。
一、学术期刊论文摘要汉英双语语料库的建设(一) 语料库与双语语料库语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库(杨惠中,2002) 。
语料库具有语料真实、丰富、代表性强以及融合了计算机技术等特点,在语言研究和教学方面具有较大的优势与应用价值。
按照语料的语种,语料库可以分成单语、双语和多语语料库。
双语和多语语料库还可分为平行语料库和可比语料库。
平行语料库收集原文与译文双语对照的文本,按设定的标准对语料进行句子或段落的对齐。
可比语料库收集具有可比性的语料,分别放置于不同的文本库,主要用于语言对比研究。
关于双语语料库的作用,不少专家从不同角度进行了探讨。
基于文化导向的英文报刊教学:历史、现状与未来【摘要】21世纪文化的全球性和多元化要求外语教学重视学习者文化素养和文化能力的培养。
英文报刊作为教学资料的重要价值被越来越多的人认识。
本文在阐述了国内外报刊教学的背景与现状的基础上,对我国英文报刊教学实践与研究现状进行了分析,指出了目前英文报刊教学存在的问题,提出文化导向教学是英文报刊教学发展的新方向。
【关键词】英文报刊;文化;语言;英语教学随着改革开放的深入和国际间交往的日益频繁,文化呈全球化、多元化特征。
外语教学担负起培养学习者文化素养的重任。
英文报刊教学因其复合性、实用性、时代性和发展性(端木义万,2005:39)而越来越受到人们的重视。
本文在阐述了国内外报刊教学的背景和现状的基础上,对我国英文报刊的教学实践与研究现状进行了分析,指出了它目前存在的问题,提出文化导向教学应成为英文报刊教学发展的新方向。
一、英文报刊教学的背景分析在国外,早在上世纪30年代,“报刊教育”(newspaper in education简称nie)的概念就被提出,其目的是通过报刊教育发展学习者的综合语言运用能力。
美国将“报刊教育”正式列入国家级研究项目已有几十年的历史。
美国的一项调查资料显示,“报刊教育”对少数民族和母语为非英语的学生效果特别明显。
英国学者保罗﹒桑德森列出八条理由指出报刊适合学生教学使用。
比利时也在20世纪90年代开始报刊教育国际项目,目前已有50多个国家开展报刊教育。
在国内,英文报刊作为教学资料的重要价值被越来越多的人认识。
英文报刊选读类课程由国家教委定为高校专业英语的选修课始于1990年,到2005年,已有80%的高校开设了英文报刊选读课程。
《高等学校英语专业教学大纲》(2000)和《大学英语课程要求》(2004)都明确将读懂英美报刊列为英语阅读水平的标准之一。
1998年,全国80多所高校联合成立“全国高校英文报刊教学研究会”并多次召开英文报刊教学研讨会,对英文报刊的教学与研究起了很大的推动作用。
英语语料库建设及应用研究:现状与趋势叶章勇【摘要】田野语言学(field linguistics)已取代沙发里的语言学(armchair linguistics)成为现代语言学研究的主流,语料库成为语言学研究及语言工程不可或缺的基础资源,国外在英语语料库研究方面起步较早,已形成完善的语料库研究规范,我国在借鉴国外经验的基础上结合我国国情及英语学习者实际对英语语料库建设、语料库语言学、语料库翻译学等方面开展了广泛的研究并取得丰硕成果.基于对国内外英语语料库建设现状及趋势的研究,我们应当在今后的英语语料库建设中更高程度地凸显其跨学科性,更多地关注语料库建设规范化、多模态化及智能化.【期刊名称】《宁波广播电视大学学报》【年(卷),期】2014(012)001【总页数】5页(P31-35)【关键词】英语语料库;现状;趋势【作者】叶章勇【作者单位】宁波职业技术学院浙江宁波315800【正文语种】中文【中图分类】H312一、引言自17世纪以来,由于受经验主义 (empiricism)影响,由内省法主导的传统“沙发里的语言学”(armchairlinguistics)(Charles J.Fillmore 1992:35)走入低谷,语言研究开始重视研究自然发生的语料,大量收集真实语言数据,在客观分析语言现象的基础上进行相关实证研究。
这种基于真实语料的语言研究在19世纪得到了进一步发展,人们尝试运用类似于自然科学研究方法收集真实语言数据,进行描述及探讨,重构语言之间的谱系关系。
20世纪初,受实证主义和行为主义思潮的影响,这种欧洲传统被美国结构主义语言学继承,经验主义在语言研究中逐渐占据主导地位。
经验主义认为:语言学研究的主要素材是语料,而大量收集某种语言中自然出现的语言实例,对研究该语言不仅是必要的,也是充分的 (Geoffrey Leech 1991:8)。
这种研究方法需要大量收集某种语言中的语句,组成一个语料库。
美国当代英语语料库(COCA)在词汇教学中的应用价值张仁霞【摘要】本研究介绍了美国当代英语语料库(COCA)在英语词汇教学中的利用价值:充实单词语义,建立图式;学习单词搭配,归纳语义偏好;培养学生语体意识,学会恰当使用单词;发现单词的同义词近义词;真实语料和语境中习得词汇,培养观察归纳思维能力。
COCA对于学生进行英语词汇网络自主学习是很有价值的语料库资源和工具。
【期刊名称】齐齐哈尔大学学报(哲学社会科学版)【年(卷),期】2015(000)004【总页数】4【关键词】语料库;COCA;词汇教学□学科教学研究近年来,计算机和网络技术的迅猛发展为英语教学创造了新的条件,大大提高了英语教学的效率。
教学中引入网络语料库手段,将极大丰富英语教学的手段。
COCA—美国当代英语语料库 (Corpus of Contemporary American English) 是美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
关于其系统介绍,可以参考《美国当代英语语料库(COCA)——英语教学与研究的良好平台》[1]专业语料库需要购买昂贵的软件或者注册费用,繁忙的教学使得教师们无暇自建语料库,所以提到语料库,很多英语教师望而却步,加上多数具有“技术恐惧症”,认为语料库望尘莫及。
英语教师和学习者要观察当今美语使用变化的情况,COCA 提供了在线免费使用的良好平台。
它是由杨伯翰大学 Mark Davies 教授开发的高达 4.5 亿词汇库容的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
其界面主要是为语言学家和语言学习者了解单词、短语以及句子结构的频率及进行相关信息比较而设计。
它具备了一个好语料库的三项最基本条件:规模、速度以及词性标注。
[2] 它收集的数据涵盖了最近22 年(1990 年到2012 年)美国的口语、小说、流行杂志、报纸和学术期刊五大类型的语料,并且每种类型基本呈均匀平衡分布。
值得一提的是,COCA 具有其它语料库不可企及的突出优势,它是一种动态的语料库资源,没有最后的版本,处于不断更新与发展中,每年约2000 万词汇,而且今后每年至少更新两次。
语料库标记与标注以中国英语语料库为例一、本文概述本文旨在探讨语料库标记与标注的重要性及其在中国英语语料库中的应用。
我们将简要介绍语料库的定义和类型,以及标记与标注在语料库建设中的作用。
接着,我们将以中国英语语料库为例,详细阐述语料库的标记与标注过程,包括标记符号的选择、标注规则的制定以及标注质量的控制等方面。
在此基础上,我们将进一步探讨语料库标记与标注对于语言研究、自然语言处理以及机器翻译等领域的影响和应用价值。
我们将总结当前语料库标记与标注研究中存在的问题和挑战,并展望未来的发展趋势和研究方向。
通过本文的阐述,我们希望能够加深对语料库标记与标注的理解,推动中国英语语料库的建设和发展,为相关领域的研究提供有益的参考和启示。
二、语料库的基本概念与分类语料库(Corpus)是以电子形式存储的语言材料的集合,通常包括文本、音频或视频等形式的语言数据。
语料库语言学是语言学的一个分支,专注于利用语料库进行语言研究。
在语料库语言学中,语料库被视为一种研究工具,可用于描述语言的实际使用情况,揭示语言的规律,以及评估语言教学和自然语言处理的效果。
语料库可以按照不同的标准进行分类。
按照语料库的来源,可以分为原生语料库(native corpus)和编译语料库(compiled corpus)。
原生语料库是直接收集的自然语言文本,如新闻报道、文学作品、社交媒体帖子等。
编译语料库则是由多个不同来源的文本经过整理、清洗和标注后形成的。
按照语料库的内容,可以分为通用语料库(general corpus)和专用语料库(specialized corpus)。
通用语料库包含各种类型的文本,旨在反映语言的整体使用情况。
专用语料库则针对某一特定领域或主题,如医学、法律、科技等领域的语料库。
按照语料库的处理程度,可以分为生语料库(raw corpus)和标注语料库(annotated corpus)。
生语料库是未经处理的原始文本,而标注语料库则对文本进行了各种形式的标注,如词性标注、句法标注、语义标注等。
2007年第2期总第102期外语研究Fo reig n Language s Research2007,№2Serial№102美英报刊英语标注语料库建设研究郑志恒(国际关系学院,江苏南京210039)摘 要:本文介绍了国外新闻英语语料库的研究现状,并着重探讨美英报刊英语标注语料库的建设原则和涉及的语料库理论、新闻学和统计学理论。
本文指出语料库建设并非是语料的堆砌,只有建立在相应理论的基础上并通过科学的统计方法建成的语料库才具有研究价值。
同时,本文初步探讨了报刊英语语料库的实际应用。
关键词:报刊英语;语料库;标识;索引中图分类号:H087 文献标识码:A 文章编号:1005-7242(2007)02-0032-071.引言最早的语料库是20世纪60年代初夸克(Randolph Quirk)等通过“Survey of English Usage”创建的现代英语语料库。
著名的《英语语法大全》(A Comprehensi ve Grammar o f the English Language,Longman1985)就建筑在这个语料库的基础之上,对英语语言学界产生了深远影响。
80年代之后,语料库语言学成为一门新兴语言学分支学科,在语言教学、二语习得、方言学、句法和语义、音系学、翻译研究和个人自主学习等方面开辟了广阔的发展前景。
改革开放后,计算机软硬件技术不断提高,国外引进的图书馆资源日益丰富。
充分发掘学术资源,采用计算机软件进行半自动化信息处理和人工干预校正的模式,自行创建一个适合个人研究需要的中型语料库已成为可能。
本文以笔者自行创建的100万词次的美英报刊英语标注语料库(N ewspaper English Corpus,N EC)为基础,探讨语料库建设中的理论应用、合理方法和具体步骤。
2.自建语料库的原因及意义2.1研究用途和目的不同英语报刊是杜撰新词的巨大工厂和消费新词的庞大机器(端木义万2000),其语言紧跟时代发展潮流,比较充分地反应了现代英语语言的发展特征和趋势。
所以,对现代美英报刊语言进行深入研究的语料应该来自最新的报刊英语语言构建的语料库。
而现阶段已建成的具有一定规模的语料库主要是通用语料库,取材范围远远超出报刊本身,不适合作为现代报刊英语语言研究的普遍性语料。
2.2研究方法存在局限在英美等国已建成的语料库都已打上了鲜明的知识产权标签,如BNC必须用SA RA进行检索。
这类现成的语料库引擎“在分析方法、输出类型、分析范围等方面存在许多局限,因此,许多语言学问题不可能或是很难通过现成的分析软件做出答案”(Biber1998:254)。
一个完善的语料库包括电子文库和检索引擎两大部分,自建语料库可以双管齐下,满足研究要求,避免上述多种局限性。
3.国外新闻英语语料库研究现状报刊英语语料库属于新闻英语语料库的一个重要分支,是根据统计学理论、语料库语言学理论和新闻学理论,运用科学的抽样方法(Sampling),收集报刊中(不包括杂志)自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。
从其本质上讲,报刊英语语料库实际上是通过对报刊中自然语言运用的统计学抽样,以一定大小的语言样本代表报刊英语中所确定的语言运用总体。
报刊英语语料库同报刊的大型电子文档(archives)有着最本质的区别。
“在当代语言学领域,语料库不能简单理解为任意话语的集合,它是依据科学的抽样原则而选择的有限话语集,语料库要以计算机可处理的形式储存,要具有代表性,而且要最大限度地反映研究对象的特点。
”(M cEnery&Wilson2001:33)目前国外已经建成分别针对不同研究用途的若干新闻英语语料库。
3.1路透社语料库(Reuters Co rpus)路透社语料库由英国路透社在2000年开发完成,收集了1996年8月20日至1997年8月19日路透社发布的新闻文本,总容量达984兆字节,规模达2亿词次。
收录新闻语篇样本806,791篇,包含了9,822,391个自然段,11,522,874个语句。
路透社语料库采用目前国际流行的通用标记语言体系XM L(the eXtensible M ake-up Language扩展标记语言,SGM L的子集),具有扩展性、开放性、结构化、互操作性和支持多国语言的特点。
文本类型从三个方面进行赋码界定:工业码(Industry Code)、区域码(Region Code)和主题码(T opic Code)。
路透社语料库的创建为英国通讯社语言的学术研究提供了参照。
3.2北美新闻文本语料库(N orth American New s Tex t Corpus)由美国宾夕法尼亚大学语言学数据协会(Linguistic Data Consortium,LDC)的David G raff组织开发完成的北美新闻文本语料库主要应用在信息检索和语言建模两方面。
该库采用世界通用的标准化标注语SGM L 体系(Standard Generalized M ake-up Language),规模达3亿5千万词次。
库样本主要来自《洛杉矶时报》、《华盛顿邮报》和《纽约时报》3.3罗斯托克英语报刊历史语料库(Rostock H isto rical English New spape r Corpus)德国罗斯托克大学的K ristina Schneider组织开发的罗斯托克英语报刊历史语料库主要用于英语新闻业的研究,如英语报刊、新闻写作方式的历时演变。
该库样本全部来源于60家英国报纸,从1700年至2000年,以大约相隔一代人的时间30年为间隔进行等距抽样。
库的结构分布以两条小报轴线(popular line:dow n-market papers&mid-market papers)和一条大报轴线(quality line:up-market papers)为标准,每条轴线上的每个时期分布20,000词次的样本,全库规模达600,000词次。
罗斯托克英语报刊历史语料库为英语新闻语言的原型研究(prototypical study)和不同时期不同报刊语言的平行比较研究提供了可靠依据。
3.4M ETER语料库(M Easuring TEx t Reuse Corpus)英国设菲尔德大学在英国工程物理科学研究会的资助下开发了M ET ER语料库,这是一个对比语料库(Comparable Corpus),用于研究通讯社新闻文本和英文报纸新闻文本之间的微妙关系以及新闻文本再使用的过程、原则、识别法则和自动量化方法。
该项目研究的意图是希望能够将“通讯社-英文报纸”这一文本转换的特定关系进行扩展并为文本语源和解释(text derivation and paraphrase)提供一定的参照。
库样本来源于英国报联社(British Press Association,PA)和9家采用PA原始通讯稿的英国全国性报纸。
语料库分两层标注,首先标注报纸文本和PA文本的关系,然后在400篇有再使用成分的文本中针对再使用程度标注到词汇层面。
除以上纯学术研究性质的新闻语料库外,还有美国国防部高级研究规划署(DA RPA)开发的用于连续语音识别系统(Continuous Speech Recognition Sy stem)研究的《华尔街日报》口语语料库和英国剑桥大学发布的剑桥版英国口音《华尔街日报》口语语料库。
4.NEC语料库的设计原则语料库的设计是语料库建设中最关键的阶段,因为这一步直接影响到语料库的科学性、语料库的研究目的和用途以及基于语料库所进行研究的结果的准确性。
4.1语料库的规模语料库的规模分为词次(tokens)、库文本数量(number of text s)、层间样本数量(number of samples)和库样本容量(sample size)四个层次。
(Biber et al1998&Kennedy1998)各层次间比例需要合理分配,保持平衡。
总体而言,10万词次的语料库可以满足音韵学研究,形态学研究的语料库需要达到50万词次,而句法学研究则需要50万到100万词次的语料库。
(Kennedy1998)早期的Brown和Lob语料库都是100万词的容量。
“百万词级的标准语料库,由于其语料的代表性、采样的随机性和各种语体比例的合理性,迄今仍然是语言研究的重要工具。
”(杨惠中2002:30)综合考虑库规模各层次间的合理配置,NEC语料库的规模被设定为100万词次的标准语料库,该规模足以满足报刊英语研究的绝大多数需求。
在规模方面另一个需要关注的是库样本容量。
根据Biber的系统研究,容量在2000-5000词次的样本对除语篇研究外的大多数语言学研究课题都适用。
(K ennedy1998)Brow n和Lob语料库就采用了2000词次的随机抽样。
报刊文本语篇容量远远小于杂志语篇容量,所以在大多数情况下样本容量将小于2000词次。
N EC 语料库对达不到2000词次的样本采取再次抽取同一份报纸上相同分类或者相同语体的文本进行弥补,使得样本容量在2500词次左右以达到语言学研究标准。
对少数超过3000词次的大容量样本,如重要事件的特稿,由于考虑到语料库的整体精确性,NEC语料库统一采取截尾处理。
4.2语料抽样乔姆斯基指出语料库永远无法解决无尽的语言事实和有限的语料样本之间的矛盾,而语料库研究方法就是用有限的语料代表整体语言事实。
要解决这个矛盾,在确定语料库规模的基础上需要根据统计学理论进行科学抽样,使建成的语料库达到总体效度的标准。
“总体效度是指一个实验的结果能被推广到实验样本所属的更大群体(即总体)的程度。
”(Gall et al1996:184)从语料库建设方面讲就是使语料库具有充分的代表性,使容量有限的语料库语料样本可以最大程度上代表容量无限的语言运用总体。
要达到总体效度有两方面要求,一是研究样本要有足够的抽取量,以“减少样本与作为样本来源的总体之间产生不同特征的概率”(同上);二是样本的抽取要根据一定的原则,以便可以使研究结果推广到总体。
也就是说影响语料库代表性的两个重要因素无非是语料库规模和抽样过程。
4.1部分已经讨论了第一方面的要求,即语料库需要具备适合研究的足够规模。
下面讨论第二方面要求,即如何使抽样步骤更加科学有效,以保证语料库的代表性。
4.2.1抽样范围NEC语料库的语料全部从英美8家主流全国性报纸中抽取。
由于语料库的建设目的是为主流标准英美报刊语言的研究提供数据,所以采取全国发行的大报(quality new spaper,也称“宽页”[broadsheet]或严肃报纸)中的语篇语料,对于小报(popular press或tabloid)和地区性报纸将不作考虑。