当前位置:文档之家› 语料库常用术语

语料库常用术语

语料库常用术语
语料库常用术语

语料库常用术语

Type 类符

Tokens 形符

例如“I see a cat and a dog”类符6个,形符7个

Type/token ratio =TTR

TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率)

例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。

Wordlist词表

根据单词或词组在语篇中出现的频率大小而排列形成的列表。

Ranks

Lemma词目,词元

比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词Concordance 索引(KWIC 语境中的关键词key words in context)

运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配

搭配强度MI,T-score ,Z-score

Colligation类连接、语法搭配

semantic prosody语义韵

词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。

POS tagging 词性赋码

Regular expression regex 正则表达式

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

雅思王听力真题语料库的使用方法

哈喽宝宝们,今天给大家带来王陆老师语料库正确使用方法 首先说一下同学们雅思听力存在的问题,听到某些单词反应慢,或者拼写速度慢,或者写出来不正确,所以可能造成分数比想象的少个0.5 - 1分左右。 雅思听力7分以上要求更多的不常见单词写对,比如technician、secretary。雅思在2019年5月出现了一个新词,saliva(唾液,口水),这个估计很多同学反应不出来或者压根不会。 很多同学问,语料库对选择题有帮助吗?答案是肯定的,比如,给的选项是fruit、vegetables.假设听到的原文是asparagus,那么可能同学们不一定知道这个是芦笋。如果原文是cabbage,那么估计多数同学会选对。 这样来总结:听力想多分数,必须要增加一些会听会写,反应快的词汇! 语料库是一本学习雅思听力比较有帮助的词汇书。现在最新版的语料库是机考笔试综合版,通过雅思考试,我们可以看出语料库覆盖雅思考试中的听力词汇,请同学们一定要练习拼写和发音。 剑桥雅思系列4-14对于同学们考雅思熟悉题型有帮助,但是可能考试中出现的答案词同学在剑桥系列中没有见过,所以这就是语料库练习的好处了! 2020年的语料库重点章节:11章+5章+3章+4章 第11章和5章尤其重要。例如在2019年5月18日考试中,caravan出现在section 答案中,很多学生说多亏提前练习了,才能写对,今年1月18考试中也出现了这个词。 特别注意:同学可能3章正确率到95%,但是11章80%多,但是最后可能你遇到的答案词就是来源于不熟悉的11章。所以请同学们以最差章节正确率为自己的分数基准! 原因:可能有些人不会什么就考什么!!特别注意:只练习横向听力,不用练习纵向听力。 其中的预测试词汇重要度排第二位,在保证了普通词汇正确率95%之后或雅思听力7分之后再练习这些。(预测试单词很难,这些词来源于2016年雅思听力真题答案)所以,建议同学先保证普通的词汇听见能写对,再来预测试练习! 语料库第8章适合数字字母,地址等信息不能快速捕捉到的考生,这部分练习对于Section1想得分的同学尤其重要。 语料库听写的目标: 第3章第4章第5章+11章:单词加速1.6倍速度,95%正确率(5章不用加速)同学们会问,其它章节不重要吗?答案是重要重要重要。可是,如果练习时间不够,先把3、4、5、11章节练习好。 同学们只有在这四章听写正确率到了95%以上之后,才可以继续听写其它章节,这样听力分数提高更快。如果时间短,那么只能把这四章听写好。在练习这本书时,我们只需要听写横向听力就可以了,纵向听力不用练习(这是给雅思听力已经考到7分,又有时间准备,想到更高分数的同学准备)。其它同学不用练习纵向听力。 错误的学习方法: 很多同学觉得自己基础不好,所以听写完一个章节之后,立刻对答案,发现正确率太低,然后就猛背错词,然后就再重新刷,发现正确率高了之后又刷,来得到成就感,满足感,但是这样的方法存在的问题是你正确率高了,等刷到后面别的章节之后一两周再回来,正确率

语料库语言学综述

语料库语言学综述 作者:刘美良 作者单位:柳州铁道职业技术学院,广西,柳州,545001 刊名: 科技信息 英文刊名:SCIENCE & TECHNOLOGY INFORMATION 年,卷(期):2010,""(21) 被引用次数:0次 参考文献(19条) 1.Chomsky,N Syntactic Structure 1957 2.Sinclair.John Corpus.Concordance Collocation 3.Susan Hunstom Corpora in Applied Linguistics 2006 4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991 5.杨惠中语料库语言学导论 2002 6.何安平语料库在外语教育中的应用--理论与实践 2004 7.何安平谈语料岸研究 1997(5) 8.丁信善语料库语言学的发展及研究现状 1998(1) 9.李文中2003上海语科库语言学国际会议述评 2004(1) 10.粱旭红语料库语言学研究综述 2001(1) 11.粱燕近十年我国语料库实证研究综述 2004(6) 12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1) 13.潘永本梁语料库语言学的目的和方法 2001(3) 14.王建新语料库语言学发展史上的几个重要阶段 1998(4) 15.许家金语料库语言学的理论解析 2003(6) 16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4) 17.卫乃兴语料库语言学的弗斯学说基础 2008(3) 18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4) 19.吴菲国内外英语语料库的建设和发展述评 2007(6) 相似文献(4条) 1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全(学术版)2005,""(3) 书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效. 2.期刊论文孙丰果话语分析整合研究-聊城大学学报(社会科学版)2010,""(2) 近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开. 3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5) 第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见. 4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006 旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。在我国,旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。因此,旅游材料的翻译质量举足轻重。而目前旅游文本的翻译研究在中国还是一个比较新的话题,近年来主要是结合最新语言学

语料库检索分析在高级英语语篇教学中的应用_语料库检索

语料库检索分析在高级英语语篇教学中的应用_ 语料库检索 语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计,实现文本的语篇结构、文体风格、语言特征等的量化分析。语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件,以课文"Blackmail"为小型教学语料库,探索高级英语语篇教学的新途径。 关键词语料库检索分析;高级英语;语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程,其教学目标是"通过阅读和分析内容广泛的材料,扩大学生知识面,加深学生对社会和人生的理解,培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力,巩固和提高学生英语语言技能"1。鉴于此,围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注,如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。十多年来,随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展,高级英语课程改革成绩斐然,教学效果显著提高。然而,在语篇教学中不难发现,由于缺乏科学的文本分析手段和工具,学生对语篇的分析和欣赏"多来自

教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7,或者依赖于教学参考书籍上的注解,学习效果大打折扣,成为了困扰教师的一大教学瓶颈。语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持,对于解决教学中存在的难题有着重大的启示和意义。 2.语料库与语料库检索分析软件的应用20世纪90年代以来,语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8,而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。语料库语言学以真实的语言数据为研究对象,通过对大量语言事实进行分析,寻找语言应用的规律和模式。由于语料库研究中的统计数据以实际使用中语言现象的出现概率为依据,且基于语料库而得到的数据避免了偶然性,从而提升了分析结果的可信度。 因此,语料库语言学为语言研究和教学提供了一种全新的模式。 随着计算机信息技术的日新月异,语料库为语言研究提供了空前广泛的语言资料。目前,国际上影响较大的语料库有英国COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabas e)、BNC英语国家语料库(TheBritishNationalCorpus)、CIC 语料库CambridgeInternationalCorpus、ICE语料库

学为贵雅思:雅思备考资料

学为贵雅思给不同雅思水平阶段的考生推荐备考书籍 许多烤鸭对于雅思学习的教材有着各种各样的疑问:这本书写的是什么?我应该买什么书?今天小贵贵就为大家介绍一下咱们学为贵的雅思真经教材,并为不同阶段的你做一个修炼手册的推荐! 一.听力真经修炼手册 1.《雅思王听力真题语料库》 语料库是每个烤鸭的必备书籍,语料库中所有材料首先建立在对2015年之前所有的语言类书籍的研究成果,特别是对剑桥1-10计算机分析成果之上还包括广大考生所提供的考试回忆。 书里面归纳总结了许多的听力考点词包括:名词,动词,形容词,数词,字母,词组等,这些词都是雅思考试中会听到甚至需要写出类的单词。王陆老师独创的点听,复听,魔鬼跟读法在这本书上都有详细的使用说明和介绍。 本书适合听力基础比较薄弱,刚刚接触雅思的“小白”,建议没有考过雅思的考生先用语料库打好单词基础,在此之上再加入听力技巧的使用,并用剑桥真题来做考前模拟。 2.《剑桥雅思听力考点词真经(剑10版)》 所谓考点词就是在测试环节中表征测试目的的词汇。雅思听力考试题目的本质和雅思阅读一样,是考查考生的同义替换能力。而这本听力考点词真经就是总结了剑4到剑10真题中,所有题目所对应的同义替换词。这些同义替换是剑桥官方要求考生所必需掌握的听力词汇,也是雅思听力考试的精髓。 这本书在总结这些考点词的基础上还配有词汇的音频。本书有两种排列形式,一种是按照雅思真题的分类方式,一种是按照九宫格的方式排列。无论是哪一种排列方式,都可以作为考生记忆和自我测试的工具。 本书适合具备一定词汇量,并已经开始做雅思真题的烤鸭。建议在做完一套真题后,对照本书中这套题的考点词来进行归纳,总结。这样才算真正做完,做懂一套雅思真题。

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的 Annotate标注(动词) Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词) Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)(主题词的)联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本 (一句源语一句目标语对齐后的文 本) Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类(范畴)的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词;搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

陆陆教你语料库的正确打开方式

陆陆教你语料库的正确打开方式 写在前面的话 雅思王听力真题语料库是一本学习雅思听力比较有帮助的词汇书。当当,亚马逊,卓越都有卖的。现在最新版的语料库是剑10版,通过2016年1月的四场考试,我们可以得出结论,现在经常出现ABC卷,所以请同学们认真准备雅思,这样才能得到理想的雅思成绩。 很多同学可能认为语料库只对于听力填空题有帮助,但是各位同学学习久了就会发现,词汇是基础,没有单词,选择题很难做出正确的判断。同学们可以想象:文章由段落组成,段落由句子组成,句子由词组组成,词组由单词组成,所以反过来,如果单词有问题了,文章也很难理解。 特别注意:淘宝网有好多盗版的语料库,如果封面没有烫金字VOICE OF CAMBRIDGE, 那么就是盗版的,盗版是没有光碟的.目前有封面IELTS (旧版) 和剑10(新版)的。最佳版本:剑10是最新的,IELTS,2013也可以使用,但是2011,和2012封面的就是古董啦。中间加了很多词,建议大家使用最新版本(807听力非常有名,如果大家是网上下载的王陆807升级版,建议扔掉啦(因为那是我2006年录的,雅思变化太大了,已经无法跟上时代了)如果是807那本书,大家如果喜欢,可以继续使用,但是没有重点,必须1-9章

都听写好)2016年语料库重点章节重点章节为:5章,11章,3章,4章。如果数字字母等第一部分的基本功有问题,推荐每周练习1-2次8章,这个尤其在有干扰的情形下练习效果最好了。5章:就是词组搭配比较多的章节,也是吞音连读的章节。这些词组就是雅思考试中的神组合,意思就是经常出现的搭配,如果在考试题目要求中看到了NO MORE THAN THREE WORDS, 那么一定要注意听词组搭配,尤其是同学们不太熟悉的搭配,例如,hall of residence (学生宿舍),blue folder (蓝色文件夹)这样的不常用搭配,另外,也要注意guided tour,有下划线的代表容易漏写的,请小心。1月9日考试的3,4部分答案大量来自于这个章节。例如,unsocial hours, internal clock, articles from journals, photocopies of notes等。11章:2014-2015年的雅思听力新增词汇,按照四个部分排列的,其中很多单词都是首次出现在雅思听力考试中,请同学们一定要加强练习,这个部分在1月23,30日的考试中出现在1,4部分。 最后的目标:单词1.6倍速,词组原速,正确率达到95%。经过基于大量数据基础上的统计,语料库听写正确率与听力分数的关系是这样的 通过4年的统计,大量数据表明: 语料库听写正确率20%左右,听力考试实际分数3.5.语料库听写正确率70%左右,听力考试实际分数5.0.语料库听写正

在美国当代英语语料库(COCA)如何查词

在美国当代英语语料库(COCA)如何查词.doc 在美国当代英语语料库(COCA)如何查词 摘要:美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容 量在4.5亿,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库。该语料库的语料来自1990-2012年,每年更新,检索功能强大,是最佳的英语学习助手。本文以sorry为例介绍了如何在美国当代英语语料库中查询单词及对单词sorry的检查与研究结果。 关键词:美国当代英语语料库,平衡语料库,sorry Abstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark avies of Brigham Young University,and it is used by tens of thousands of sers every month (linguists,teachers,translators,and other searchers).COCA is also related to other large corpora that we have created. The corpus contains more than 450 million words of text and is qually divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012. Key words: the Corpus of Contemporary American English,parallel corpus,sorry 中图分类号:H319.3文献标识码:A文章编号:1006-026X(2013)12-0000-02 一、引论

基于语料库的海明威作品《雨中的猫》分析

基于语料库的海明威作品《雨中的猫》分析 ——以写作风格和小说主题为例 王树振 (天津师范大学外国语学院,天津, 300387) 【摘要】美国著名作家厄内斯特·海明威的短篇小说《雨中的猫》(1922),自发表以 来便引起文学评论界的极大关注。在作品中,通过对一个日常生活片段的叙述,作者 揭示了女性生存困境的主题。而基于语料库的文学研究,则是通过利用语料库检索软 件来考察作者的写作风格、解读作品的主题。在前人研究的基础之上,笔者拟运用语 料库语言学的方法对这部小说进行更深入的研究。通过使用Wordsmith和AntConc等 语料库检索软件,笔者拟对《雨中的猫》进行词语、句子及篇章结构进行统计分析, 最后不仅能够分析得出海明威用词简单、句子简短的写作风格,还能利用关键词检索 和自动生成的语境,来了解小说的主要内容和人物形象的塑造,这为解读小说的主题 提供了新的研究方法和途径。 【关键词】语料库检索;写作风格;主题 近年来, 国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件对文本进行分析, 如Sinclair(1991)、Biber(2000)、张厚振(2004)、肖普勤(2005)等。他们的研究大胆创新,为后来的文学研究者带来很大的启示。正如Sinclair(1991: 36)所论述的那样,“(语料库检索)最激动人心的方面不是对描述进行直观的分类,而是为找到新的方法、新的证据以及新的描述提供可能。在这里,计算机技术的客观性和表面的正当性变成了一种优势,而不是没有放弃直觉前提下的一种责任。当然,我们要尽力找到符合证据的解释,而不是为了迎合现有的解释而去修改我们的证据。” 《雨中的猫》是美国著名小说家海明威的著名短篇,故事情节主要围绕一只雨中的猫展开,叙述了旅居意大利的一对美国夫妻的一段生活场景。本文用Wordsmith及AntConc的Wordlist、Concordance和Keyword对《雨中的猫》的文本特征、主要内容、人物形象和文本主题进行分析,以展示语料库检索软件在文学分析方面的强大功能。 一、基于词表的文本总体特征分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。Wordsmith软件中的Wordlist工具可以对文本的基本信息进行统计,自动生成词表(图1)。它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。

王陆雅思王听力真题语料库名词Test paper 1

Test paper 1 ability abstract accountant accuracy 能力概述会计准确性 acid action activity actor 酸行动活动男演员 adult adventureadvertisement advertising 成人冒险广告,宣传广告 advice age agency agreement 建议年纪代理机构同意 agriculture aidaim air 农业帮助瞄准,对准,目标空气allergy alley allowance alteration 过敏小巷津贴改变 altitudeambition ambulance amount 海拔高度野心报复救护车数量 analysis analyst anger animal 分析分析家生气动物 ankle answerAntarcticape 脚踝回答,答案南极洲猿 appearance architect architecture area 外貌建筑师建筑学地区 argument aristocrat army art

论证贵族军队艺术 article aspirin assignment atlas 文章阿司匹林作业地图册 audience auditorium author authority 观众礼堂作者权威 average awardbachelorbackground 平均奖励学士,单身汉背景 bacteria badge badminton backpack 细菌徽章羽毛球肩背包自助旅行baldness band bandage bands 秃头乐队绷带乐队(复数) bank banquet base basement 银行宴会基础地下室 bases basis bath batteries 基地基础洗澡电池(复数) battery beachbeard beats 电池海滩胡子调动的次数 beauty bed bedroom bedsheet 美女床卧室床单 bedsit behaviour belt benefit 小套房行为带子优势 beverage bibliographybicycle bill

chapter 3雅思王听力特别名词语料库

Test Paper 1 ability abstract accountant accuracy acid action activity actor adult adventure advertisements advertising advice age agency agreement agriculture aid aim air allergy alley allowance alteration altitude ambition ambulance amount analysis analyst anger animal ankle answer Antarctica ape appearance architect architecture area argument aristocrat army art article aspirin assignment atlas audience auditorium author authority average award bachelor background bacteria badge badminton backpack baldness band bandage bands bank banquet base basement bases basis bath batteries battery beach beard beats beauty bed bedroom bed sheet bedsit behaviors belt benefit beverage bibliography bicycle bill biologist bird birth blanket blast block blouse board boarder boat bone bowl bowling branch breakfast brick bridge brochures building bungalow burger burglar bus cab

(完整版)语言学专业词汇中英文对照版

语言学术语(英-汉对照)表 A abbreviation 缩写词,略语ablative 夺格,离格 accent 重音(符) accusative 宾格 achievement test 成绩测试acoustic phonetics 声学语音学acquisition 习得 acronym 缩略语 action process 动作过程 actor 动作者 address form 称呼形式addressee 受话人 addresser 发话人 adjective 形容词 adjunct 修饰成分附加语 adverb 副词 affix 词缀 affixation词缀附加法 affricate 塞擦音 agreement 一致关系 airstream 气流 alliteration 头韵 allomorph 词/语素变体 allophone 音位变体 allophonic variation 音位变体allophony音位变体现象 alveolar ridge 齿龈 alveolar 齿龈音 ambiguity 歧义 analogical creation 类推造字anapest 抑抑扬格 anaphor 前指替代 anaphoric reference 前指照应animate 有生命的 annotation 注解 antecedent 先行词前在词anthropological linguistics 人类语言学 anticipatory coarticulation 逆化协同发音 antonomasia 换称代类名antonym 反义词 antonymy 反义(关系) appellative 称谓性 applied linguistics 应用语言学applied sociolinguistics 应用社会语言学 appropriacy 适宜性appropriateness 适宜性得体性 approximant 无摩擦延续音 aptitude test 素质测试 Arabic 阿拉伯语 arbitrariness 任意性 argument 中项中词主目 article 冠词 articulation 发音 articulator 发音器官 articulatory phonetics 发音语音学 artificial speech 人工言语 aspect 体 aspirated 吐气送气 assimilation 同化 associative 联想 associative meaning 联想意义 assonance 准压韵半谐音 attributive 属性修饰语定语 auditory phonetics 听觉语音学 authentic input 真实投入 authorial style 权威风格 authoring program 编程 autonomy 自主性 auxiliary 助词 auxiliary verb 助动词 B babbling stage 婴儿语阶段 back-formation 逆构词法 base component 基础部分 behavioural process 行为过程 behaviourism 行为主义 bilabial 双唇音 bilabial nasal 双唇鼻音 bilateral opposition 双边对立 bilingualism 双语现象 binary division 二分法 binary feature 二分特征 binary taxonomy 二分分类学 binding 制约 binding theory 制约论 blade 舌叶舌面前部 blank verse 无韵诗 blending 混成法 borrowing 借用借词 bound morpheme 粘着语素 bounding theory 管辖论 bracketing 括号法 brevity maxim 简洁准则 bridging 架接 broad transcription 宽式音标 broadening 词义扩大 Brown corpus 布朗语料库 C calculability 可计算性 calque 仿造仿造词语 cancellability 可删除 cardinal numeral 基数 cardinal vowel 基本元音 case 格 case grammar格语法 case theory格理论 category 范畴 categorical component 范畴成分 causative 使役的使投动词 center 中心词 central determiner 中心限定词 chain relation 链状关系 chain system 链状系统 choice 选择 choice system 选择系统 circumstance 环境因子 class 词类 class shift 词性变换 clause 小句从句 click 吸气音咂音 clipping 截断法 closed class 封闭类 closed syllable 闭音节 cluster 音丛 coarticulation 协同发音 coda 结尾音节符尾 code 语码信码 cognitive psychology 认知心理学 cognitive system 认知系统 coherence 相关关联 cohension 衔接 co-hyponym 同下义词 colligation 类连结 collocative meaning 搭配意义 color word 色彩词 color word system 色彩词系统 command 指令 common core 共核 common noun 普通名词 communication 交际 communicative competence 交际能 力 communicative dynamism, CD 交际 性动力 communicative language teaching, CLT

中医药术语汉英双语平行语料库的创建和应用 探讨

Modern Linguistics 现代语言学, 2019, 7(2), 207-211 Published Online April 2019 in Hans. https://www.doczj.com/doc/313878133.html,/journal/ml https://https://www.doczj.com/doc/313878133.html,/10.12677/ml.2019.72027 Construction and Application of Chinese-English Bilingual Corpus for TCM Terminologies Xiao Ye1*, Ling Tong2 1Humanities and Management College, Zhejiang Chinese Medical University, Hangzhou Zhejiang 2College of Health Science, University of Wisconsin Milwaukee, Milwaukee USA Received: Apr. 1st, 2019; accepted: Apr. 16th, 2019; published: Apr. 23rd, 2019 Abstract In order to solve the problem of the confusion of English translation of terminology of traditional Chinese medicine (TCM) in the world, experts and scholars from several domestic and foreign au-thoritative organizations have tried to establish an international unified standard for it. However, due to the complexity of the English translation of TCM terminology, plus factors such as the history, economy, culture, and national discourse rights, many domestic and international standards for TCM terms have not been widely promoted and uniformly recognized in the world, resulting in ob-stacles of international exchanges. Under this circumstance, the author believes that by collecting and arranging various versions of TCM terminology translation standards at home and abroad, and applying corpus technology, the function of looking up multiple English versions of TCM terms can be achieved by one click. It can not only largely solve the problem of communication, but also make people understand more about the various meanings of the TCM terms and the situation in multiple versions of English translation. This article is to give some introductions and useful endeavors on the establishment and application of the Chinese-English bilingual corpus of TCM terminologies, hoping to contribute to TCM’s international exchanges and “One Belt One Road” services. Keywords Traditional Chinese Medicine (TCM), Terminology, English Translation, Corpus 中医药术语汉英双语平行语料库的创建和应用探讨 叶晓1*,童凌2 *通讯作者。

相关主题
文本预览
相关文档 最新文档