当前位置:文档之家› 语料库的应用(最终)

语料库的应用(最终)

语料库的应用(最终)
语料库的应用(最终)

语料库的应用

语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。

军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。

【一】、语料库成为语言学理论研究的基础资源

语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。

起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。

我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。

目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

国内在语料库建设方面虽然较晚,但已体现出较强的后发优势,个别语料库在世界上也形成了一定的影响。趋于领先地位的有广东外语外贸大学的中国英语学习者语料库(Chinese Learner English Corpus(CLEC)、中国社科院语言所的汉语情景会话口语库(北京地区)(Spoken Chinese Corpus of Situated Discoursein Beijing Area)以及上海交大的科技英语语料库(JDESt)近期由文秋芳等编著的中国学生英语口笔语语料库无疑是对以上的语料库的有效补充。

【二】、语料库在军事领域的应用

<一>、信息化条件下的军事语料库的应用背景

从世纪之交的几场局部战争来看,信息化战争已成为当代和未来战争的主要形式。信息化战争的核心是对信息资源的争夺与占有,信息匮乏或信息弱势的一方注定会成为战争的输家。不对称的战争中很大的不对称就是信息掌握和信息利用的不对称。要想实现信息化的部队,避免在战争中成为信息弱势的一方,和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。对于后者,军事语料库的建设正是针对实现这一目标的有力依靠和手段,具有不可低估的价值。首先,可以借助语料库对海量信息进行情报处理和分析外,从中生成重要的情报,为相关部门和专家提供决策辅助;还可以借助语料库的后台支持,开发出战场针对交战

对方或所在地的语言自动翻译和语音处理的软硬件,更好地服务于战场信息控制与掌握,提高战斗人员的生存能力,确保对敌的信息优势。

以美国为首的西方发达国家已经意识到军事语料库对信息化条件下的军事斗争所具备的潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。比如,利用语料库的资源支持,借助自然语言的处理技术,美军为驻伊拉克的美军部队开发和配备了一种“多语言自动讲话翻译机”,它能迅速将英语翻译成阿拉伯语,以解决美军与伊拉克人交流的问题。美国防高级研究计划局(DARPA)也正在着手开发新一代双路语音翻译技术,并采用该技术为驻伊部队开发英语和阿拉伯语的翻译系统。

美国的GALE(全球独立语言开发)计划通过构建多国语料库,运用语料库技术来处理库中多国语言的大量语音和文字材料,这些工作

包括采集、翻译、分析和解释这些材料,旨在消除对语言学家和分析学家的依赖,以适当的方式自动地向军事指挥官或其他人员提供相关、简洁、可操作的信息。此外,美国军方DARPA计划中,有很多项目涉及语料库基础上的计算机语言处理技术,其中包括机器自动翻译、跨语言情报侦测、情报抽取、情报摘要、特定事件情报追踪等方面。在以上系统的研制过程中,美国建立了大量的军事语料库,大大提高了信息收集与处理的效率,并积累了丰富的军事语料库开发经验。日本、俄罗斯、欧盟等其他发达国家和国际组织也不甘落后,在军事语料库研究与开发等方面投入大量资金,并取得了显著的效果。

我军未来面临的战争形势更为复杂,需要做好打赢“多战场”战争的准备,而且在情报电子对抗等方面面临的竞争更为激烈。“多战场”战争即意味着战争的多地域性、多语言性。这就要求我们研究与开发多种语言的军事语料库,并且开发多种载体的军事语料库,譬如文本、音频、视频等。同时,情报电子对抗领域竞争的加剧也要求我们开发多种专业的军事语料库,譬如心理战语料库、核情报语料库、各种尖端武器语料库以及对方重要军政领导人物的语言语料库等。<二>、军事语料库独特的发展空间

作为一种专业语料库,军事语料库具备语料库的共有的功能。这些功能可以归纳为军事语料库的一般应用;同时,在信息化条件下,军事语料库也有自身独特的发展空间和应用前景。

军事语料库是指由服务于军事甚至内容涉及军事的单一语种或多语种的文本所组成的语料库,也可以是含图片、语音、视频等媒体形式的语料库。根据具体用途不同可以有军事通用语料库,指的是即覆盖军事思想、政策与规定、科学研究、教育训练、装备与技术、作战与指挥等各领域的语料,也可以是单一用途或对象的语料库,如军事术语语料库、军事科技文献语料库、军事装备与技术语料库(可以含军事装备本体的研究)、军事情报语料库、舆论战、心理战语言素材语料库、军事文学语料库、军事外语教学语料库等。部分内容不涉及军事,但明显具有服务军事功能的语料库包括:对象国语言文化百

科知识语料库,对象国政情语料库,对象国自然资源语料库,对象国科技情报语料库,对象国经济情报语料库,对象国新闻报道语料库等等。

总的说来,军事语料库的建设、开发与研究对大多数国家来说仍然是刚刚起步的新鲜事物,美军在此方面的研究较早,具体应用方面已经取得了明显的突破,因此我国也应该加紧军事语料库的建设步伐。

1、军事语料库的一般应用

(1)革新军事语言研究方法,提高军事语言研究效率

军事语言研究主要集中在五个方面,即军事术语研究、军事书面语研究、军事口语研究、军用主题词研究、军事现象与语言现象共变理论等研究。这些方面的研究在局部已取得了令人振奋的成果,对军队建设发挥了积极的推动作用。但目前,这样的研究许多仍基于以往的传统研究方法,即依靠人力进行语料的收集、分类、提取和分析,不仅效率低下,而且研究结论的可信度容易引起人们的疑问。如果能借助于相关的军事语料库,军事语言的研究可以大大提高效率和准确度。其中,可以为军事词汇的研究提供军事运用中的全貌,常用军事用语也可以更符合语言应用的实际情况,对于语言结构的研究也可以更好地体现军事用语的分布、变化和来龙去脉。由于军事语料库具有

使用方便、查询科学、信息抽取准确的优点,因而还能够满足军事用语应用和研究的各类应急需要。

(2)加速各类军事辞典编纂,提高军事辞典应用价值

目前,国内已经有相当数量的针对我军和外军的军事词典,既有一般性的军语词典,也有专门性的术语词典,还有武器装备、科学技术词典和百科全书等。但这些词典由于多是用传统人工收集语料的编纂而成,词典的覆盖面较窄,选词的代表性不高,也不易体现符合军事语言实际使用的全貌。另外,由于选材的原因,军语和军事词汇的系统性较差,未能较好地体现当代语言使用的特点,也不能反映军语的历史变化和相互关系。具体说来,就是对新词的收集未能全面覆盖,未能准确反映国内外军事发展的新动态,对旧词的采用没有有力的依据,例句的使用也不能保证是否是军语使用的实际情况,因而,其结果是容易造成随意性的编撰。另一个突出的弱点是,几乎所有军语词典都没有考虑按照国际目前词典出版的新趋势去考虑,即配以语料库基础上生成的电子词典光盘版。实际上,创建军事语料库,将词典的整个编撰和使用建立在军事语料库基础上,将能够有效弥补传统军事辞典的上述缺憾,能够保证军事辞典的理据性、系统性、全面性、准确度和时效性,从而提高军事辞典的实际应用价值。

(3)创新语言战法研究,大力促进新军事变革

在新的国际斗争环境下,语言已成为当今军事斗争中的主要武器和媒介,其表现形式为信息战、心理战、舆论战、法律战等,作用和地位不断凸现。舆论宣传和心理攻击已经成为新的大规模杀伤武器。西方军队纷纷组建起大批专门从事上述作战形式的部队和研究机构。美军在各军种的指挥学院都开设了心理战的课程,专门的心理战部队更是花样繁多,不断加强心理战的作战样式和作战能力。对语言的巧妙运用是心理战的重要基础。传统的做法是,组织人员针对某一特殊情况临时编辑创作心理战和舆论战的文本和稿件,但由于工作量大,任务紧急,单一的人工做法很难满足信息时代快节奏行动的需要。因而,建立心理战、舆论战、法律战的语料库,利用语料库的快捷查询、数据准确、处理能力强、生成快捷的特点,可以定量和定性开展这方面的理论探索和应用研究,从而更好地发挥语言的实战作用,提高语言的杀伤力。这样做,才能真正做到针对信息战的“未雨绸缪”,“即需即用”。

(4)推动军事语料库辅助教学研究,提高军事外语教学水平军事语料库不但为军事语言研究提供了丰富的语言素材,为编写军事词典提供大规模的词汇源头,还可以为各种军事教材提供重要的依托和依据,而且在军事外语教学理论、内容、方法等方面也可以发挥重要作用。传统的军事外语教学主要是凭感觉进行主观设计,在经验下行事,往往在出现问题后再进行补救。而建立在军事语料库基础

上的军事外语教学,将实现对传统外语教学的变革与创新。总的说来,军事语料库可以在军事外语教学语言教学中从事以

下的主要活动:

(1)避免课堂授课内容与人们实际使用的军事语言之间的差距;

(2)发现过去被忽略的军事语言规律;

(3)理解军事词语在实际交际中的意义和用法;

(4)揭示和认清军事语域的特点;

(5)发现学习者使用军事语言时的问题;

(6)解决语言学习测试的有效性和合理性;

(7)实现语言学习错误的科学分析;

(8)提供军事语言学习的策略和辅助素材;

(9)帮助学生实现自主学习、自我检查和自我提高。

总之,军事语料库的建立,对传统的军事语言研究、词典编撰、舆论战和心理战的语言使用策略和战略以及语言教学会带来新的革命性的转变。

2、军事语料库在信息化条件下的创新应用

信息化条件下的战争对信息掌握、信息控制、信息处理和信息传递的能力提出了非同一般的要求,而各类军事语料库的建立,能更好地满足和适应这些能力的建设。

(1)推动军事情报检索发展,提高情报获取能力

我们处在一个信息大爆炸的时代,仅互联网上每秒传递的各类信息都很难以统计,无线电话的语音信息也是一个海量。这其中蕴藏着大量的有价值的情报,如果能有选择性地收集其中的信息,建成语料库,再利用语料库对信息进行过滤和筛选,就会为军事情报提供重要的参考和判断依据。如果直接收集敌方军事人员的各类电话和互联网信息,建立分门别类的语料库,其潜在军事价值就更为可想而知了。比如,为了针对特殊对象的信息收集、情报侦听、方位跟踪等,可以建立该人物群体的军事语音语料库。利用特定人物的语音样本,对相关人员的无线电话可以实现全球跟踪和定位。据传,美国在打击基地组织的关键人物中就采用了这一技术,这也就是为什么拉登很少使用手机的原因。值得指出的是,美国的GALE(全球独立语言开发)机构利用语料库的技术,结合计算机语言学的其他技术,已经开始研究并应用处理多国语言中的大量语音和文字材料,这些工作包括采集、翻译、分析和解释这些材料。通过计算机对大量语料的快速处理,自动地向军事指挥官或其他人员提供相关、简洁.可操作的信息。这样可以部分消除对语言学专家和信息分析专家的依赖。军事人员只用掌握简单的操作命令,就可以对某一信息或某一问题在当前海量信息中的权重或分量得出结论,从而对下一步采取何种应对措施和行动提供参照。当然,如果是情报分析专家来利用这套系统,对情报的掌握就更加全面和准确了。

(2)方便多国协同军事行动,实现战场实时军事翻译

当前国际多国多语种的联合演习、联合反恐、国际维和、军事谈判和军事交流日益扩大,范围也越来越广;另一方面,一国军队人员往往远程作战,对战斗地区和占领区的文化都缺乏了解,语言沟通就更加困难了,这对军事翻译提出了很强的需求。然而,单纯的人工现场翻译显然已经无法满足要求,也无法实现。在军事行动过程中,用人工进行实现翻译的代价也太高。因此开发自动翻译系统迫在眉睫,而机器翻译实现的重要基础就是语料库技术和方法。

目前开发类似于人类智能的通用机器翻译系统比较困难,然而对于特定领域的机器翻译,借助语料库的技术,还是可以实现的。比如,在多国协同作战中,由于涉及的词汇和用语较为简单,语句变化性小,战场用语单一,因此,对它们实现军语自动翻译是完全可能的。可以建立一定规模的语料库,然后通过计算机软硬件技术,尤其是自然语言的处理技术,对它们进行可信度较高的快速翻译,这也就是我们通常所说的机器翻译。机器翻译的基础就是语料库,而且是双语或多语种的语料库。

美军已经开始了这方面的探索和研究。由于美军在全球各地行动,并且经常在短时间内处于非英语的陌生环境。出于对安全和行动有效性的考虑,他们必须了解相当广泛的快速变化的新信息。然而,这些信息在第一时间经常只是以外语的形式出现。它可能包括当地居民的话语交流、广播电视、不同领导人对行动地区人民的讲话以及当地居民的反应。由于作战部队里具有能完全听懂当地语言的官兵相对

较少,再加上临时培训的代价又较高,而且语种繁多,一时间很难做很好的语言提高。这种情况下,收集并建立当地活的语言的语料库,在此基础上实现机器翻译,被美军认为是目前较好的可行方案。实际上,美军已在最近的两场局部战争中采用了这种技术。

驻伊拉克的美军部队配备一种“多语言自动讲话翻译机”,它能迅速将英语翻译成阿拉伯语,以解决美军与伊拉克人交流的问题。据路透社报道,开发这种翻译机的美国国际商用机器公司(IBM)已向驻伊美军交付了装有语音识别和翻译软件的笔记本电脑。这些电脑将首先配备给美军医务人员、特种部队和海军陆战队,目的是在需要医疗救援时能及时与伊拉克安全部队和伊平民沟通。其中一款就是下图所示的Babylon双语翻译机,涉及了阿拉伯语、汉语、英语、法语、德语、意大利语、日语、朝语等8种语言的相互对译,其内核中配有大量的实时言语交流的语料库数据,然后通过处理软件,对输入的话语信息进行数据比对和排错,最后输出认为最为合适的翻译结果。

报道说,尽管翻译机暂时还不会应用于冲突或作战环境中,因为这些紧急状况需要瞬间沟通和决策;但是,IBM的最终目标是让军队在翻译缺乏的真实战场环境下实现操不同语言者之间的有效交流。IBM研究翻译技术的技术高管纳哈默(David Nahamoo)说,使用装备了Mas-tor的笔记本电脑或掌上电脑,交谈一方对着麦克风说话,经软件识别和翻译后,电脑就会自动把翻译好的话读给另一方听。现在提供给美军的翻译机能翻译5万多英语单词和10万阿拉

伯语单词。纳哈默指出,这种翻译机与现有翻译软件最大不同在于,它并不局限于程序事先存人的语句,还可以在机器学习的基础上,进一步识别人们不同的文法、词序和句子结构。不过,由于任何翻译机都不可能达到准确无误,为了防止翻错,出现误会,Mastor先在屏幕上显示三种翻译方式,由使用者进行选择。

英国《防务系统日刊》2007年3月29日报道,美国防高级研究计划局(DARPA)授予Flu-ential公司一份价值120万美元的设计项目,开发新一代双路语音翻译技术,该技术将用于为驻伊部队开发英语和阿拉伯语的翻译系统。为了能够实现英语和阿拉伯语的同步双向语音交流,DARPA开展了战术用话音通信和翻译系统(TRANSTAC)项目。Fluential公司首席执行官俄萨尼(Farzad Ehsani)表示,DARPA要求开发一种能够进行快速、精确话音翻译的应用系统。作为DARPA合同的一部分,Fluential公司将开发一种能够用于多种任务的灵活系统,该系统将可以适应野外的工作环境。新系统将为队提供广泛的翻译能力,目前这些士兵缺乏与伊拉克平民、警察和士兵进行交流的能力。

从以上可以看出,建立在语料库技术至上的机器翻译已在美军中大行其道,颇受青睐。随着技术的进步,不久的将来,以语料库技术为支撑的战场实时翻译肯定会取得突破,并出现在战场上。

<三>、结论

综上所述,建立大规模的军事语料库,可以提高我军的军事语言研究水平,加速军事辞典编纂,提升舆论战、心理战的作战和研究水平,提高情报检索效率,推动军事行动中机器翻译发展,也能促进军事外语教学改革。尽管军事语料库研究在我国还处于初级阶段,但鉴于军事语料库的独特作用,加快各类军事语料库的建设已经刻不容缓。它既可以革新军事领域中的许多理念,促进相关科研和教学的提高,也能大大加快军队信息化的步伐,从而最终将大大提高我军信息化作战的战斗力和生存力。因此,我们需要抓住机会,以语料库语言学理论和相关的军事理论为指导,加大军事语料库的开发力度,为促进我军新军事变革、提高打赢未来信息化战争的能力做贡献

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库简单dye 第二讲

2008/7/31 语料库简单DIY 第二讲语料库软件初探-- 语料库软件初探--MonoConcPro 2.2 本软件是Athelstan开发小组https://www.doczj.com/doc/3216810450.html,/ ,于1996年开发的语料库比较检索工具。目前,我的服务器上提供学术性下载,下载地址: http://vu.flare.hiroshima-u.ac.jp/whistle/corpus/MoconcPro2. 2.rar (本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。请慎重下载,小心使用!!!) 功能介绍: 软件主界 面 基本功能: MonoConc Pro 2.2 的软件界面比较简单。适合语料库初学者和初级研究人员使用。 本软件据作者的研究,其内部主核使用UTF-8编码,基本支持欧洲几种主要语言。当然,其主要的应用领域还是针对英语。本软件主要处理的文本素材是以TXT结尾的记事本文件,当然,本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。不过,从DIY的角度来说,我们自己收集到的语料,为了免除格式,字体,行距等等文本要求,最好全部使用TXT文档,方便,省

事!用了都说好!(谁用谁知道) 我们按照自己的研究目的,研究方向,收集我们所需要的语料素材,具体的收集方法因人而异。可以从报纸杂志的电子文文档上直接下载,也可以从网站上直接下载整理好的TXT版本的小说,资料素材等,还可以直接从各大语料库中检索需要的语用素材,然后拷贝粘贴到TXT文本中。由于MonoConc Pro 强大的跨文档处理系统,一次可以同时导入多个TXT文档进行比较处理,所以我们可以把文章或者资料按照自己喜好的分类标准进行分类,然后存成不同的TXT文件名。检索的时候,只需要同时导入这些文件就可以了。(异常强大~)下载好软件,解压缩,然后打开MP22.EXE文件,你就可以看到上图那个简单的主界面了。 之后,选择File→Lord Corpus File(s),找到你需要导入处理的TXT文档,一个或者多个都可以,然后选择[打开]。指定的TXT文件就被全部导入进MonoConc Pro中了。 如果导入了过多的TXT文档,比如您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+毛泽东选+邓小平选.....(不能否认,真的有这样的朋友存在)。那么,为了方便您查询检索结果所出现的文章,你可以选择File→View Corpus File/URL,这样就能看到查询结果所在的文章,还可以删除不需要的文章,或者添加新的文章,非常简单。 *这里的URL,指的是在HTTP或者FTP上,可以直接打开的文字页面的链接。一般朋友们DIY的语料库都是存在本地硬盘上的,所以基本上可以无视这个选项。不过,将来我们的个人语料库要实现点对点,点对多的平台连接。连接后,我们就可以相互查询对方个人语料库中的资料,此时在导入对方语料库中的文档的时候,就要用这个了。(这个目前还很遥远,大家还是踏踏实实做自己的DIY语料库吧!) 当我们要删除所有的文章的时候,这个时候仅仅关闭文章的窗口,是不能实

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

语料库语言学综述

语料库语言学综述 作者:刘美良 作者单位:柳州铁道职业技术学院,广西,柳州,545001 刊名: 科技信息 英文刊名:SCIENCE & TECHNOLOGY INFORMATION 年,卷(期):2010,""(21) 被引用次数:0次 参考文献(19条) 1.Chomsky,N Syntactic Structure 1957 2.Sinclair.John Corpus.Concordance Collocation 3.Susan Hunstom Corpora in Applied Linguistics 2006 4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991 5.杨惠中语料库语言学导论 2002 6.何安平语料库在外语教育中的应用--理论与实践 2004 7.何安平谈语料岸研究 1997(5) 8.丁信善语料库语言学的发展及研究现状 1998(1) 9.李文中2003上海语科库语言学国际会议述评 2004(1) 10.粱旭红语料库语言学研究综述 2001(1) 11.粱燕近十年我国语料库实证研究综述 2004(6) 12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1) 13.潘永本梁语料库语言学的目的和方法 2001(3) 14.王建新语料库语言学发展史上的几个重要阶段 1998(4) 15.许家金语料库语言学的理论解析 2003(6) 16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4) 17.卫乃兴语料库语言学的弗斯学说基础 2008(3) 18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4) 19.吴菲国内外英语语料库的建设和发展述评 2007(6) 相似文献(4条) 1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全(学术版)2005,""(3) 书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效. 2.期刊论文孙丰果话语分析整合研究-聊城大学学报(社会科学版)2010,""(2) 近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开. 3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5) 第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见. 4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006 旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。在我国,旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。因此,旅游材料的翻译质量举足轻重。而目前旅游文本的翻译研究在中国还是一个比较新的话题,近年来主要是结合最新语言学

语料库的应用(最终)

语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。 军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。 【一】、语料库成为语言学理论研究的基础资源 语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。 起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。 我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

商务英语语料库的建设及应用

商务英语语料库的建设及应用初探 【摘要】语料库语言学作为一门新兴的语言学分支,其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中,发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力,既能提高学生商务词汇学习的效率和积极性,也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手,以期语料库语言学为商务英语教学带来更多成果。 【关键词】商务英语语料库地方课程 商务英语(business english)是指商务场景下所应用到的英语,作为特殊目的英语(english for specific purpose)具有很强的专业性。商务英语跟普通英语(english for general purpose)最大区别之一就是专业词汇的大量使用,因此,词汇教学在商务英语教学中的作用不容忽视。语料库(corpus)是语言素材的集合体,能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中,语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力,所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性,也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展 语料库可以概述为运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片断,并按照一定的语言学原则建成的具有

一定容量的语料体系。 语料库的发展大致经历了三个阶段:第一代语料库以20世纪60年代的brown corpus以及lob corpus为代表,由于是语料库发展的最初时期,所以规模都比较小,这个时期的语料库只能用来考查常用语言现象的频率,无法展现语言的全貌。第二阶段以20世纪80年代的birmingham collection of english language text以及longman/lancaster english为代表,这一时期的语料库建设以电子语料库的兴起为主要特征,语料库的容量不断扩大,种类不断增多。第三阶段从20世纪90年代至今,是语料库建设、研究与应用的迅猛发展阶段,功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现,语料库进入了发展的黄金年代。 2 商务英语词汇及其特征 商务英语源于普通英语,并基于普通英语的基本语法、句法结构和词汇语,有普通英语的一些语言学特征。与此同时,作为应用在商务场合的英语,商务英语又是英语语言知识和商务专业知识的综合,因而又具有独有的专业特征。 2.1 在文体风格上,商务英语词汇属于庄重文体(frozen style)。庄重文体,即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果,二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山,胡志军的介绍。 是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发 三部分:learners, researchers, teachers自我学习,研究,教师命题。 特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。 2.BNC 2014年开始,免费获得,通过BYU的申请。 British National Corpus 一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料 英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库 共有七类 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿,1990-2007年间,美国国内各种语料 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源 且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词 Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度 标记了语料的时间,便于研究语言历时与共时的变化 教学中相关用法 查找同义词,如[=scold].[V*]表示查找所有scold的同义词

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

语言学常用术语

语言学常用术语

A List of Commonly-used Linguistic Terminology 语言学常用术语表 Part I General Terms 通用术语 Acquisition 习得 Agglutinative language 粘着语Anthropology 人类学 Applied linguistics 应用语言学Arbitrariness 任意性 Artificial intelligence (AI)人工智能Behaviorism 行为主义Behaviorist psychology 行为主义心理学 Bilingualism 双语现象 Cognition 认知 Cognitive linguistics 认知语言学Cognitive science 认知科学Comparative linguistics 比较语言学Computational linguistics 计算语言学 Corpus-linguistics 语料库语言学Creole 克里奥耳语;混合语 Culture 文化 Descriptive linguistics 描写语言学Design features 识别特征Developmental psycholinguistics 发展心理语言学 Diachronic/historical linguistics历时语言学 Dialect 方言 Dialectology 方言学 Displacement 不受时空限制的特性Dualism 二元论 Duality 二重性 Epistemology认识论 Etymology 辞源学 Experimental psycholinguistics 实验心理语言学 Formalization 形式化 Formal linguistics 形式语言学Forensic linguistics 法律语言学Functionalism 功能主义General linguistics 普通语言学Grammaticality 符合语法性Ideography 表意法 Inflectional language 屈折语 Inter-disciplinary 交叉性学科的Isolating language 孤立语 Langue 语言 Macro-sociolinguistics 宏观社会语言学 Mentalism 心智主义 Micro-sociolinguistics 微观社会语言学 Montague grammar蒙太古语法Neuro-linguistics 神经语言学Orthography 正字法 Orthoepic 正音法的 Paradigmatic 聚合关系 Parole 言语 Pedagogy 教育学;教授法Philology 语文学 Philosophy 哲学 Phonography 表音法 Pidgin 皮钦语;洋泾浜语Polysynthetic language 多式综合语Prescriptive linguistics 规定语言学Psycholinguistics心理语言学Psychology 心理学 Semeiology 符号学 Sociology 社会学 Speech 言语 Sociolinguistics社会语言学Structuralism 结构主义 Synchronic linguistics 共时语言学Syntagmatic 组合关系 Theoretic linguistics 理论语言学Universal grammar 普遍语法Universality 普遍性 Part II Phonology 音位学 Ablaut 元音变化 Acoustic phonetics 声学语音学Affricate 塞擦音 Allophone 音位变体

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.doczj.com/doc/3216810450.html,/(备用) https://www.doczj.com/doc/3216810450.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.doczj.com/doc/3216810450.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.doczj.com/doc/3216810450.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.doczj.com/doc/3216810450.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.doczj.com/doc/3216810450.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.doczj.com/doc/3216810450.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.doczj.com/doc/3216810450.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.doczj.com/doc/3216810450.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.doczj.com/doc/3216810450.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.doczj.com/doc/3216810450.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.doczj.com/doc/3216810450.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.doczj.com/doc/3216810450.html,/cmsw/ Slang https://www.doczj.com/doc/3216810450.html,/ (American, English, and Urban slang) https://www.doczj.com/doc/3216810450.html,/slang/ (UK) https://www.doczj.com/doc/3216810450.html,/ https://www.doczj.com/doc/3216810450.html,/cybereng/slang/ https://www.doczj.com/doc/3216810450.html,/ https://www.doczj.com/doc/3216810450.html,/

相关主题
文本预览
相关文档 最新文档