美国当代英语语料库 COCA 使用介绍
- 格式:ppt
- 大小:662.00 KB
- 文档页数:34
COCA与《中式英语之鉴》作者:岑秀文张尚莲姚爽孙乃荣来源:《现代商贸工业》2015年第18期摘要:基于教学实践,从词语搭配方面,部分描述以当代美语语料库(COCA)为工具,对平卡姆女士杰作《中式英语之鉴》译例修改稿的查证结果。
实践表明,COCA和《中式英语之鉴》结合使用,能够很好克服中式英语现象,同时也能辩证使用这一汉英翻译领域极具参考价值的力作。
关键词:当代美语语料库;《中式英语之鉴》;搭配;结合使用;学生验证举隅中图分类号:G4文献标识码:A文章编号:16723198(2015)180151021 问题的提出美国当代英语语料库(Corpus of Contemporary American English,COCA)是Mark Davies 教授开发的高达3.6亿词汇的美国最新当代英语语料库,也是当今世界上最大的英语平衡语料库,可以免费在线使用。
自2008年上线以来,越来越多英语教师和学习者从COCA的知识海洋中受益。
《中式英语之鉴》(以下简称《中》)由中美资深翻译专家联手打造(姜桂华老师审校),众多业内知名人士倾情推荐,同时作为多年来北京外国语大学考研参考书目,该书在业界的权威性和认可度可见一斑。
作者琼·平卡姆女士毕生从事翻译工作,曾先后在中国外文出版社和中央编译工作过8年,专门给中国译者修改润饰英译文。
她在书中理论与实践紧密结合,将大量典型中式英语实例分门别类、逐一修改并加以分析。
河北工业大学2010级英语专业“英汉对比与翻译”课程部分以《中》为教材进行教学,同时用COCA进行辅助学习。
身为地道美国人的作者平卡姆于书中针对中式英语存在的问题提出修改建议,虽然在很多时候都对其改译本进行了详细的解释说明,但英语毕竟不是中国学习者母语,教学中我们发现学生对教材的修改建议仍然存在很大的困惑甚至怀疑,于是借助COCA这一强大的数据驱动工具来相互补充和验证,效果令师生满意。
正如佟颖同学所说,在学习《中》时,COCA帮了很大的忙,书中很多的改动都跟我们现实中的用法非常违背,而COCA则恰好能够支持书中的结论。
1.打开浏览器,输入网址:/coca/2.进入后点击 enter 键3.注册输入自己的电子邮箱,和密码,然后按 register键进入注册页面,选择自己的名字,邮箱和密码,同时还要选择自己属于研究者还是学生,大家可以选择 student(undergraduate)然后点击 submit 就可以提交自己的材料了。
4.查询最左边界面上是查询界面(1)查询界面最上面一列DISPLAY是查询结果的显示方式,可以选择LIST—列表显示, 也可以选择CHART—图表显示,COMPARE—单词比较,以及KWIC—按照字母排序。
LIST, 是该语料库默认的显示方式。
当我们需要查询一个单词的用法或者与它相关的搭配是可以直接在WORDS一栏输入所要查询的词汇。
例如,我们要查询independent的用法,可以直接输入。
右上方会出现这个对话框。
之后点击INDEPENDENT就可以查询到它的具体用法。
随着鼠标的移动刚才那个对话框就会变小,左边的对话框也会变小,界面上主要显示的就是有关independent的例句。
CHART,按照图表来显示这个词在某个方面的使用频率。
(2)SEARCH STRING字串查询在这个界面中,COLLOCATE 和POS LIST后面的选项都是被隐藏的,把光标放在这两个选项上面,点击后面的选项就会出现。
COLLOCATES这里面可以输入你所要查询的搭配POS LIST 是词性列表其下拉框中共有39中词性,也包括了一些标点符号。
例如我们要查找与independence搭配的常见动词,可以再POS LIST 下拉框中选择动词,就会发现与independence 最常见的搭配的是declare, gain, achieve, maintain等。
可以点击每个单词查看它的例句。
这样就能有效地帮助大家避免搭配上的错误。
POS LIST下面的选项框是隐藏的,拉开后下面有39词性分类,其中包括标点符号。
(3)SECTIONS 语料库分区通常情况下语料库的默认状态为IGNORE,即忽略语料库和时段的分类,所有语料库中查询。
COCA语料库对英译汉语新词的实证性研究——以《新世纪英汉大词典》(第二版)为例摘要:本文借鉴巴斯奈特文化翻译观理论,以回译、意译和直译等三种汉语新词英译原则为标准,以外研社新出版的《新世纪英汉大词典》(第二版)中的19个英译汉语新词为例,在COCA语料库中对这些词进行检索分析,并结合英语国家的权威媒体报道和词典综合考量,探讨其译法在英语国家的可接受度和合理性,对英译汉语新词进行科学实证,提高英译汉语新词的准确性。
关键词:新世纪英汉大词典(第二版);英译汉语新词;COCA;科学实证COCA Corpus Empirical Research about English Translation of Chinese Neologisms ——Take the New Century English-Chinese Dictionary (Second Edition) as an ExampleAbstract:This article based on the theory of cultural translation of Bassnett and followed the principles of reductive translation, significant translation and direct translation of Chinese neologisms.Nineteen Chinese neologisms in the New Century Chinese-English Dictionary (second edition) published by CNP were tested by COCA corpus. It combined authoritative media reports and dictionaries in English-speaking countries to meke a scientific demonstration of English translation of Chinese neologisms and improve its accuracy.Key Words:New Century English-Chinese Dictionary (Second Edition); English translation of Chinese neologisms;COCA; Scientific Demonstration1 引言词汇是语言要素中变化最快的一个。
2024年第1期现代商贸工业Modern Business Trade Industry基金项目:西安石油大学2021年度研究生教育综合改革研究与实践课题 石油特色翻译课程案例教学模式研究及案例库建设(2021-X -YJG -020)㊂作者简介:陈佳鑫(1997-),女,硕士研究生,研究方向:笔译㊂基于COCA 语料库的英语近义词对比研究以Leak 和Leakage 为例陈佳鑫㊀高鹏鹏(西安石油大学外国语学院,陕西西安710000)摘㊀要:美国当代英语语料库COCA (Corpus of Contemporary American English )由美国杨伯翰大学Mark Davies 教授开发,是当今世界上最大的英语平衡语料库,库容量超过10亿单词的美国英语语料库㊂英语词汇中存在着在数量众多的词义相近的词汇,在石油科技类文本的翻译过程中,为了确保译文用词准确,借助COCA 语料库其广泛的语料范围,再现目的语母语者的真实使用情况,为学者们研究近义词的辨析理解提供了极其有效的帮助㊂本次将以Leak ㊁Leakage 为例,借助COCA 语料库对其从词频㊁语域㊁搭配和这三方面来进行对比分析,研究两者之间的区别㊂关键词:COCA 语料库;近义词;语域;搭配中图分类号:F74㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀㊀doi:10.19311/ki.1672-3198.2024.01.0181㊀研究设计1.1㊀研究问题Leak 和Leakage 在COCA 语料库中的用法研究㊂1.2㊀研究工具COCA 在线语料库1.3㊀研究步骤在COCA 语料库中分别搜索Leak 和Leakage 在不同语域中的词频差异和二者的搭配进行分析㊂2㊀基于COCA 语料库的Leak 和Leakage 对比分析2.1㊀语域对比研究语域 这一概念由Raid 在1956年研究双语现象时提出,后经Halliday 等人进一步完善,语域理论成为系统功能语言学的核心理论㊂语域是指人们在实际的语言交流活动中,由于所从事的职业差异,或由于对话的场景㊁对象㊁所处地点㊁话题等的不同,反映为语言的不同语体风格而产生的一种语言变体㊂表1㊀Leakage 在COCA 语料库中的不同语域的分布情况Section All Blog WEB TV /M SPOK FIC MAG NEWS FREQ143815913966756230262WORDS(M)993128.6124.3128.1126.1118.3126.1121.7PER MIL 1.45 1.24 1.120.520.590.52 2.400.51表2㊀Leak 在COCA 语料库中不同语域的分布情况Section All Blog WEB TV /M SPOK FIC MAG NEWS FREQ 87531028922161116709181209911WORDS(M)993128.6124.3128.1126.1118.3126.1121.7PER MIL 8.817.997.4212.5813.247.769.597.48㊀㊀因此,在进行近义词的比较研究时,语域研究是必不可少的一部分,这对辨析近义词具有极其重要的指导作用㊂近义词在不同语域下的用法有显著区别,使用COCA 语料对两个词的语域进行对比分析后,就能清楚地掌握它们的使用区别㊂通过在COCA 语料库中List 板块检索中我们可以看出,Leak 的使用频率高达8000多次,而Leakage 的使用频率仅有1000多次,两个词的使用频率相差了6倍多㊂前者的使用频率远高于后者,说明其适用的语域更广㊂Leakage 在学术期刊中出现的频率最高为573次,作为书面语在学术期刊和杂志中的使用频率远高于其他语域,这可以说明在特定语域中其的正式程度高于Leak㊂㊃35㊃现代商贸工业Modern Business Trade Industry2024年第1期值得注意的是Leak在演讲中使用频率最高,较口语化,除学术期刊外其他语域的使用频率均高于Leak-age,不同于前者的极端使用现象,Leak在各语域使用频率较为均衡㊂2.2㊀搭配差异对比研究搭配是指在文中实现一定的非成语意义,并按一定的语法形式因循组合而使用的一系列词语㊂词语搭配的学习对于习得者来说词汇量的提升作用和指导意义都很大㊂我们可以通过搭配词之间的Mutual Information Value(互相信息值),MI值越大则两个词搭配的频率越高㊂在COCA语料库 SEARCH 界面中Word一栏中搜索Leak和Leakage,并在Collocats中查询Leakage和名词条件下的Leak的搭配词,本次将最低MI值设为3,选取排列前10的搭配词,按照降序排列,借此来了解词的搭配频率,并由此分析出搭配词的特点:表3㊀Leak在COCA中搭配一览表序号MI+NOUN MI+ADJ MI+VERB MI+ADV 19.39perilymph9.15cerebrospinal8.35caulk 6.29catastrophically 28.83coolant7.87Intra-abdominal7.71spring 5.71harmlessly 38.43tritium7.86plagued7.44dowse 5.07disastrously 48.22earmold7.83Solid-fuel7.40plug 4.62poignantly 57.91ductwork7.80unaired 6.99depressurize 4.51skeptically 67.89mooch7.65Non-flammable 6.96jeopardise 4.22perilously 77.80pneumothorax7.58gushing 6.61cork 4.18gleefully 87.83cleanout7.17classified 6.53unclip97.78toiler7.16Out-of-context 5.93purvey107.58clotting7.10unsourced 5.85entomb表4㊀Leakage在COCA中搭配一览表序号MI+NOUN MI+ADJ MI+VERB MI+ADV 111.75disaggregation12.12circumferential10.01grain8.10catastrophically 211.62perilymph11.37carbon-intensive9.50treble8.00unacceptably 311.49fluorescein11.06sectoral8.53feminize 6.49oft 410.70transaminase10.75refrigerant8.52turbocharge 6.38onwards 510.56Post-processing10.67pre-event8.51miniaturize 6.07surgically 610.42stoma10.62unaccounted-for7.68disclaim 6.04ecologically 710.37lamplighter10.55Blood-brain7.54decompose 5.92ategorically 810.29earmold10.32Water-supply 6.91spatter 5.73ie 910.20inductance9.92Ever-higher 6.87sap 5.42unilaterally 1010.05spillage9.85cerebrospinal 6.80home 4.92markedly㊀㊀根据表3和表4发现同为名词条件下的两词的搭配词汇中,词汇领域大致相同,但Leakage与各类词汇的MI值均高于Leak,例如:Perilymph淋巴液㊁earmold耳模㊁cerebrospinal脑脊髓的㊁catastrophically灾难性地,这4个单词,表明母语者在名词条件下更倾向于使用严谨度和正式程度较高的Leakage㊂2.3㊀Leak和Leakage搭配分析在COCA语料库 SEARCH 功能中的Collocates一栏中分别输入固定结构[leak]from/in和[Leakage] from/in,得到与其搭配词的数据:根据表5中的数据可以发现,与Leak from搭配MI 值较高的词汇包含机构名(UEA),地点(Fukushima)等普通词汇,这些词汇大多在新闻㊁电视㊁网络及博客一类的传播媒介语域中使用,由此可以发现与Leak搭配的词汇更贴近日常生活㊂而Leakage from的搭配词多为专业性较强的词汇,例如:zwitterionic(两性离子)㊁astro-cytes(星形胶质细胞)等词汇多用于学术期刊中,正式程度较高㊂从表6中的数据可以发现,两者搭配词中都出现了pipes和attic,但是leakage in与两词的MI值均高于Leak in,表明母语使用者在表达泄露时更倾向于使用Leakage,用Leakage强调结果,泄露这个结果中包括发生的泄露这个动作状态㊂两者中都出现了地名词汇,但是两者的MI值有一定差距,同地名搭配时,母语使用者偏向于Leak㊂Leakage in搭配的词汇中出现了数量词,Leak in中并未出现,这说明母语使用者在表达某一准确数量时会选择Leakage,从而体现其严谨性和准确性㊂此外,作者㊃45㊃2024年第1期现代商贸工业Modern Business Trade Industry在剑桥词典中查询两词后得到以下结果:Leak:(Of a liquid or gas)to escape from a hole or crack in a pipe or container;(of a container)to allow liquid or gas to escape. Leakage:The act of leaking or the leak itself.表5㊀[Leak/Leakage]from搭配情况表Leak from Leakage from序号搭配词MI序号搭配词MI 1UEA12.281zwitterionic18.31 2orifice10.872Waterbath17.89 3Fukushima10.733precharge17.37 4corroded10.564backlighting14.43 5derdged10.415licit14.35 6UST10.106impoundment14.10 7Anus9.907astrocytes13.62 8seafloor9.888decommissioned13.08 9closed-door9.849slop12.39 10spindle9.8110thoracic12.35表6㊀[Leak/Leakage]in搭配情况表Leak in Leakage in序号搭配词MI序号搭配词MI 1Bhopal12.591toolong18.94 2ductwork12.28296.1%18.82 3dike10.653Blood-brain16.63 4coolant10.234subzero14.61 5radiator10.145superconducting13.16 6ducts10.006wetter13.15 7coils9.327multiplier12.48 8piping9.068envelopes11.23 9roof8.609discreet11.18 10pipes8.0510landfill10.92 11gulf8.0111bladder10.63 12containment7.8812drying10.32 13ceiling7.8013attic10.13 14embargo7.7314hull9.74 15basement7.5815pipes9.66 16stove7.1516absolute9.48 17cooling7.0917static9.33 18brake 6.9818Palstine9.29 19distorted 6.9519488.98 20attic 6.9320drain8.84㊀㊀根据Cambridge Dictionary的解释可以发现Leak强调泄露的动作,Leakage强调泄露的 事件 ,这两个词的意义侧重点有明显的差异,从语用角度来说,一般一个 泄露事件 可以包括很多 泄露动作 ,侧面也可以认为Leakage表意更加宏观,使用频率较小,而Leak的表意更加微观,所以使用频率较高㊂3㊀结语本文借助COCA语料库大量而真实的语料帮助下,研究发现Leak的总体使用频数高于Leakage㊂前者较多搭配与人们工作生活息息相关的名词,多使用在正式程度较低的语域中,表意较微观,日常使用的频率较高,而后者则是主要使用于正式程度或专业性较高的语域中,表意较宏观㊂研究结果表明,相比于单从词典查询或模糊的传统语感的近义词辨析法,利用COCA语料库作为研究工具,所展示的数据更加准确且有说服力㊂因此,在日常英语学习和教学过程中,应该积极使用COCA语料库作为辅助手段,更加准确地了解和运用近义词,避免误用,从而确保翻译质量㊂参考文献[1]曾毅.基于COCA语料库探讨英语中近义名词的辨析 以reaction和response为例[J].海外英语,2022, 469(09):77-78.[2]刘莹莹.基于COCA语料库的英语近义词分析 im-prove和promote用法辨析[J].现代商贸工业,2021,42(34):134-135.[3]刘辉,龚芳霞.基于COCA语料库的英语近义词对比分析 以 vice 和 associate 为例[J].中国石油大学胜利学院学报,2020,34(04):63-66.[4]佟玉平,宋雪童.基于COCA及BNC语料库的同义词辨析 以displace㊁replace和substitute为例[J].校园英语,2020(26):239-240.[5]刘倩倩.基于COCA语料库的近义词辨析 以fully和totally为例[J].海外英语,2021(21):108-109.[6]姜敏,黄蕾.基于COCA㊁BNC语料库的近义词辨析 以raise和rise为例[J].长春教育学院学报,2018,34(06): 39-41+46.[7]赖康生.基于COCA语料库的英语近义词辨析 以a-bolish㊁cancel和repeal为例[J].萍乡学院学报,2022,39(01):84-88.[8]迟红丹.基于语料库COCA的英语近义词辨析研究[J].对外经贸,2023,No.346(04):64-68.[9]丁成顺.基于COCA语料库的近义词研究 以reduce和decrease为例[J].汉字文化,2020,(07):11-14.㊃55㊃。
美式英语中Like作为连词的用法:一项基于美国当代英语语
料库(COCA)的研究
白云
【期刊名称】《海外英语(上)》
【年(卷),期】2010(000)008
【摘要】Like一般作为介词和动词在英语中使用,然而是否还有别的用法呢?该文从美国当代英语语料库(COCA)中对like进行检索,考察其作为连词时候的使用情况.分析结果表明:首先,like作为连词的意思大概可以分为三种情况.其次,like作为连词的使用频率明显低于其作为介词和动词时的使用频率;再词,like作为连词的普遍度在最近十年内呈上升趋势,在口语中的出现最多.希望通过该文能够对英语学习者和研究者有所启发.
【总页数】2页(P181-182)
【作者】白云
【作者单位】国防科学技术大学,人文与社会科学学院,湖南,长沙,410073
【正文语种】中文
【中图分类】G633
【相关文献】
1.美国当代英语语料库(COCA)在词汇教学中的应用价值 [J], 张仁霞
2.基于COCA语料库的globalization在美式英语中的语义韵研究 [J], 肖寒
3.Try的搭配用法浅析——基于COCA语料库对try to和try and的用法研究 [J],
柴萌
4.从语义韵看《道德经》中\"玄\"之英译——基于《道德经》英译本语料库和美国当代英语语料库的分析 [J], 马嘉欣;吕长竑
5.美国当代英语语料库(COCA)——英语教学与研究的良好平台 [J], 汪兴富;Mark Davies;刘国辉
因版权原因,仅展示原文概要,查看原文内容请购买。
常用的英语语料库有以下几个:
英国国家语料库(BNC):是目前世界上非常有代表性的当代英语语料库之一,收录了1亿字的电子资源,涉及口语和书面英语。
美国当代英语语料库(COCA):是目前最大的免费英语语料库,包含5.2亿词的文本,由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。
密歇根大学学术口语语料库(MICASE):专注于学术口语,收集了大量学术讨论和讲座的语音转录。
密西根高阶学生论文语料库(MICUSP):主要收录高年级学生的论文,对于研究学术写作风格和习惯很有帮助。
台湾清大自然语言处理语料库(Linggle):结合大数据分析,提供了丰富的语料和语言统计信息。
这些语料库各具特色,可以根据具体的研究需求选择合适的语料库。
美国当代英语语料库在英语词汇学习中的应用
迟秋玲
【期刊名称】《科技信息》
【年(卷),期】2013(000)004
【摘要】本文从词汇的扩展、搭配以及同义词查询和语体查询几个角度简单介绍
了美国当代英语语料库的使用,阐明学习者通过观察和分析大量客观真实的语料,能发现语言语法规则、意义表达及语用特征,能培养学习者的思考、推理能力,减少语用失误,有助于学习者习得地道纯正的美语。
【总页数】2页(P241-241,242)
【作者】迟秋玲
【作者单位】青岛农业大学
【正文语种】中文
【相关文献】
1.美国当代英语语料库(COCA)在词汇教学中的应用价值
2.语料库在大学生英语词
汇学习与写作中的应用3.美式英语中Like作为连词的用法:一项基于美国当代英语语料库(COCA)的研究4.从语义韵看《道德经》中\"玄\"之英译——基于《道德经》英译本语料库和美国当代英语语料库的分析5.语料库在大学生英语词汇学习与写
作中的应用
因版权原因,仅展示原文概要,查看原文内容请购买。
语言学常用语料库
以下是一些语言学常用的语料库:
- Brown语料库:这是一个基于英语的语料库,包含了1961年至1979年间推广的1,000,000个单词的样本,覆盖了各种文体和题材。
- COCA(Corpus of Contemporary American English):这是一
个覆盖美国当代英语的语料库,包含了1990年至今的一亿多
个单词样本。
- BNC(British National Corpus):这是一个覆盖英国英语的
语料库,包含了1980年代至1993年间的一亿个单词样本。
- CHILDES(Child Language Data Exchange System):这是一
个收集婴儿和儿童语言数据的数据库,用于研究儿童语言发展。
- Penn Treebank:这是一个标注了句法和语义信息的英语语料库,用于自然语言处理研究。
- EuroParl语料库:这是一个包含欧洲议会会议记录的多语言
语料库,可以用于研究多语言对比和机器翻译。
- COrE(Corpus of English):这是一个以英语为基础的多样
化语料库,包含了来自不同国家和地区的语言样本,用于研究语言变体和语言接触。
- WALS(World Atlas of Language Structures):这是一个收集了世界各地不同语言结构的数据库,可以用于跨语言比较和语言学理论研究。
这些语料库可以通过在线平台或特定的研究机构访问和获取。
使用语料库可以帮助语言学家进行语言研究、语言分析和理论构建。
2021年34期总第578期ENGLISH ON CAMPUS【摘要】语言与思维的关系一直都是二语习得研究中的基础。
“萨丕尔—沃尔夫假说”论述了语言与思维相互影响的概念,引发广泛关注。
本文借助COCA语料库,主要分析两组弱势动词,give, make和keep, feel搭配使用情况的频率分布,以观察研究英语静态思维特征,并与中文动态表达思维作对比,通过中英动静思维差异分析,让二语习得者在学习语言知识的同时,更加注重思维差异,避免中式英语。
【关键词】语言;思维;弱势动词;静态表达【作者简介】张静(1996.09.08-),女,汉族,黑龙江哈尔滨人,沈阳化工大学,硕士研究生在读,研究方向:外国语言文学。
一、“萨丕尔—沃尔夫假说”下语言与思维的关系语言与思维密切相关,在二语习得过程中, 中西方思维差异无疑是造成我们难以习得地道英语的重要原因。
语言与思维关系的相关研究发展至今,“萨丕尔—沃尔夫假说”引起了很大的讨论。
这一理论有两种表述形式:一是强式“假说”——“语言决定论”认为语言对思维有决定性的作用;二是得到更多学者认可和赞同的弱式“假说”——“语言相对论”认为语言对思维产生影响,但并非是决定性的。
在人们习得语言形成对世界的认知的过程中,语言与思维相互影响相互依赖。
不同的语言会导致语言使用者形成不同的思维模式,这种思维差异会阻碍二语习得者后天的语言学习。
因此在二语习得过程中,先了解语言的思维模式特点,再根据其思维方式习得语言,可降低由于中西方思维差异而造成的母语负迁移。
本文通过语料库具体分析英语弱势动词以研究其静态表达思维,从这一思维角度映射中西方思维差异。
对于语言的研究,语料库可以很好地帮助我们明晰的归纳出语言表达使用情况,便于剖析思维特点。
二、 基于语料库分析弱势动词1.研究所涉及的语料库。
美国当代英语语料库(Corpus of Contemporary American English,COCA)是由美国杨伯翰大学(Brigham Young University)Mark Davies教授开发的免费在线美国英语语料库,同时也是当今世界上最大的英语平衡语料库。
- 217 -校园英语 / 语言文化研究基于COCA语料库英语同义词辨析——以Compulsory和Mandatory为例成都理工大学外国语学院/郭齐园 金铠【摘要】本文基于语料库的研究方法,以compulsory和mandatory为例,利用美国当代英语语料库COCA从不同语域的词频分布、搭配特征、句法结构等方面,结合定性和定量的方法,辨析英语同义词。
本研究对英语教学和实践提供了一种有效的手段和视角,以语料库为基础的英语同义词教学有一定的借鉴意义。
【关键词】COCA语料库 同义词 搭配特征 类连接统计数据表明,同义词占到所有英语单词的60%以上。
传统方法是词典学习,老师自身经验,学生内化。
此类学习方法宏观,不具体。
而COCA 语料库在辨析同义词,微观,具体。
一、语料库语言学背景20世纪中后期,语料库语言学对于辨析同义词的研究成为一种新的方法,具有语言真实,数据量大,检索快速。
在语言学中,语料库即大量文本的集合,库中的文本(称为语 料),通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。
应用于词典编纂、语言教学、传统语言研究、自然语言处理中基于统计或实例的研究等方面。
语料库可分成四种类型:(1)异质的:没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的:只收集同一类内容的语料;(3)系统的:根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的:只收集用于某一特定用途的语料。
COCA 是当前重要的语料库工具之一,全称为美国当代英语语料库,可免费在线使用且分布均匀,其涵盖SPOK ,FIC ,MAG ,NEWS ,ACAD 五个部分。
二、研究对象及工具1. compulsory 和mandatory 在字典中的定义。
《牛津高阶英汉双解词典,(7th Edition)》中,compulsory 解释为:that must be done because of a law or a rule (因法律或规则 而)必须做的,强制的,强迫的;短语和例句有:Compulsory education / schooling 义务教育、Compulsory redundancies 强制裁员等。
2024年第10期现代商贸工业Modern Business Trade Industry作者简介:王艳艳(2000-),女,汉族,河南周口人,西安石油大学研究生,研究方向:翻译;于艳英,女,汉族,西安石油大学外国语学院院长㊁教授(通讯作者)㊂基于COCA 语料库的近义词辨析以size 和measure 为例王艳艳㊀于艳英(西安石油大学,陕西西安710000)摘㊀要:在英语学习中,近义词的辨析一直是英语学习的难点和重点㊂该文以美国当代英语语料库COCA 为研究工具,以近义词size 和measure 为例,通过检索size 和measure 在COCA 语料库的使用情况,从词频㊁语域和搭配这几个方面来分析他们的异同,旨在用真实的语料分析这组近义词的含义以及用法,提升英语学习者对近义词的辨析能力㊂关键词:COCA 语料库;近义词;词频;语域;搭配中图分类号:F74㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀㊀doi:10.19311/ki.1672-3198.2024.10.0181㊀研究背景英语作为世界上使用最广泛的语言之一,其词汇量极其庞大,近义词的出现频率也很高㊂据统计,英语语言中同义词㊁近义词的数量约占总词汇量的60%以上㊂由此可见,近义词的辨析对英语学习者尤为重要㊂ size 和 measure 作为名词都有 尺寸 的词典释义, size 在‘牛津高阶英汉双解词典(8th Edition )“的解释为 how large or small a person or thing is ㊂其中解释有7个:1.official action 正式行动;2.unit of size /quan-tity 度量单位;3.amount 程度;4.instrument for measuring 测量仪器;5.way of showing /judging 展示方式/判断方法;6.suggested new law 法案;7.in music 音乐㊂对于第2个的扩展释义有 the size,length,or amount of sth(某物的)尺寸,长度,数量 短语有 to take sbᶄs waist measure 量某人的腰围㊂ 从中可以看出 size 和 measure 虽然都有和尺寸相关的含义,但measure 在词典中的尺寸含义更为隐含㊂两个词的含义和例句没有明确的区别,会使学习者在运用过程中过于纠结㊂这时需要一种方法区别这两个近义词,以提高这些词的准确使用率㊂2㊀基于COCA 语料库对 size 和 measure 进行数据分析美国当代英语语料库(简称COCA)是当今世界上最大的英语平衡语料库㊂COCA 语料库规模大㊁速度快㊁词性标注明确㊂该语料库使用模块包括:简单查询㊁相互信息值查询㊁语义查询㊁语体及搭配用法查询㊁谚语查询等㊂以COCA 语料库为工具,在词频㊁语域和搭配方面对 size 和 measure 进行研究分析㊂2.1㊀词频分布&分析表1为size 和measure 在COCA 语料库中词频分布表㊂表1㊀size 和measure 在COCA 语料库中词频分布表Word Freqsize115388measure 93952㊀㊀通过在COCA 语料库中的List 板块检索,数据显示两个词的使用频率相差2万多(表1)㊂其中,size 的使用频率明显高于measure,高达11万次;而measure 的使用频率有9万多次㊂size 在59160篇文本中出现,sizes 的次数出现14900,占总频次的约12.9%㊂measure 在41586篇文本中出现,measures 的次数出现50892,占总频次的约54.1%㊂由此得出,在八大类型的语料库中,size 常以单数出现,而measure 单复数使用频率相近;对于近义词size 和measure,size 的应用更为频繁㊂2.2㊀语域分布差异语域是指人们在实际的语言活动中,出于交际的需要,或因其从事的职业和兴趣不一样,又或者是因其话语发生的场景㊁说话的对象㊁地点和话题的不同而产生的一种语言变体,体现为语言的不同语体风格㊁用语格调等㊂所以语域对于近义词辨析具有一定的意义,在辨析近义词时,结合语域可以直观地观察到两者的差别㊂通过在COCA 语料库的Chart 板块分别输入size 和measure 可以得到表2size 和measure 在COCA 语料库中不同语域的词频分布情况和表3size 和measure 在CO-CA 语料库的历史发展轨迹㊂㊃35㊃现代商贸工业Modern Business Trade Industry2024年第10期表2㊀size和measure在COCA语料库中不同语域词频分布表Word BLOG WEB TV/M SPOK FIC MAG NEWS ACADmeasure Freq727490241288442128078999832722016 Per mil56.5672.6310.0635.0523.7271.3768.40183.79size Freq1270614832574262328883195621050222474 Per mil98.79119.3744.8349.4175.07155.1486.26187.61㊀㊀从表2可以看出,无论是在口语㊁小说㊁杂志㊁新闻和学术期刊中的使用频率,size在八大文体的词频都高于measure㊂其中在学术期刊中出现的频率是最高的,这也说明两个词更多的是用于文本写作㊂上述数据表明,size和measure在口语㊁新闻㊁学术的使用频数差别不大㊂使用频数最为显著的是在博客㊁网站㊁杂志和小说中㊂比较之下measure更多地用于杂志㊁报纸和学术领域,而size可以广泛用于除杂志㊁报纸和学术之外的博客㊁小说㊁网站㊁电视电影和口语领域㊂表3㊀size和measure在COCA语料库中的历史发展轨迹Size MeasureFreq Per mil Freq Per mil 1990-199********.34755762.40 1995-9913118104.77765161.11 2000-041239799.47795863.86 2005-0912315100.08768262.43 2010-1412478101.16904273.30 2015-191141993.03796864.91㊀㊀通过分析COCA语料库数据显示的发展轨迹(表3),size的使用频率保持着较为均衡的状态,总体呈现略微下降的趋势㊂而measure的使用频率,大体上呈上升趋势,说明measure一词的使用在逐渐增加㊂2.3㊀搭配分析通过数据化分析搭配词的搭配强度,可以总结出词的特征㊂这一搭配强度可以用MI值(相互信息值)来判断,如果词与词的搭配度越高,那么MI值越大㊂利用COCA语料库在size和measure的左右两侧3个词的跨距内检索MI值大于等于3的搭配词,最终选取COCA 语料库中两词的前20个相互信息值较高的显著搭配词作为示例(表4)㊂以measure为节点词,在跨距-3/+3内检索MI> 3的搭配词,按照搭配频次列举前20个搭配词(表4所示):used㊁success㊁large㊁designed㊁ballot㊁performance㊁pas-sed㊁tape㊁measure㊁equal㊁progress㊁outcome㊁quality㊁dis-tance㊁effectiveness㊁tests㊁accurately㊁approved㊁achieve-ment㊁items㊂查看这些词的共现行,不难发现这些词与measure搭配时,measure大多体现的是抽象引申义,而没有 测量 尺寸㊁大小 的本意㊂由此可见,与meas-ure搭配的大多是抽象概念的名词,而measure常在前面修饰这些名词㊂表4㊀size和measure在COCA语料库中的显著搭配词表搭配词FREQ MI measureused1619 3.10success857 4.42large760 3.11designed586 4.28ballot569 6.46performance495 3.51passed467 3.66tape435 4.81measure399 4.00equal370 4.27progress359 3.96outcome344 4.77quality330 3.00distance309 3.77effectiveness301 5.46tests268 3.71accurately259 5.79approved248 4.41achievement225 4.31items213 3.08 sizesample3248 6.76small3021 3.93effect2108 4.72shape1761 5.67large1330 3.26population1086 4.00class1053 3.35average988 3.81twice984 4.71increase939 3.74larger924 4.34smaller894 4.67depending702 5.30weight683 3.70reduce677 4.23roughly614 5.16size542 3.14range509 3.17sheer508 6.01screen502 3.60㊀㊀同样地,以size为节点词,在跨距-3/+3内检索MI>3的搭配词,前20个搭配词如下:sample㊁small㊁effect㊁shape㊁large㊁population㊁class㊁average㊁twice㊁in-crease㊁larger㊁smaller㊁depending㊁weight㊁reduce㊁roughly㊁size㊁range㊁sheer㊁screen㊂查看这些词的共现行,这些词大都为形容词修饰size;还有与size搭配的名词,像样本㊁人口这样的名词,这些都能看出size和measure有很大的区分,size大都用自己的本意 尺寸㊁大小 ㊂㊃45㊃2024年第10期现代商贸工业Modern Business Trade Industry基金项目:教育部人文社会科学青年基金项目 新疆旅游舆情指数构建与旅游减贫效应研究 (18YJC630041)㊂作者简介:王冠青(1993-),男,汉族,四川安岳人,天津工业大学硕士研究生,河北冀工胶管有限公司财务总监,注册会计师,研究方向:资本市场财务与会计㊁管理会计㊁公司治理;郜攀峰(1994-),男,汉族,安徽濉溪人,合肥工业大学硕士研究生,注册会计师,研究方向:资本市场与公司财务㊁公司治理㊂3㊀结束语基于COCA 语料库,从3个方面对size 和measure 分别进行有关词频,语域和搭配的对比分析:(1)通过检索该组近义词的词频,size 比measure 应用更为频繁㊂(2)通过检索两词的语域,以及size 和measure 在COCA 语料库中的历史发展轨迹,总结出measure 更多地用于杂志㊁报纸和学术领域,而size 可以广泛用于博客㊁小说㊁网站㊁电视电影和口语领域,从而可以看出measure 的使用较size 相比更为正式㊂历史角度的数据显示,size 的使用频率基本没有明显的变化,而measure 的使用频率则有些变化,大体上呈上升趋势㊂(3)通过分析搭配词,可以明显看出两词在使用上的区别,size 更多应用词的原本义,measure 则较多应用词的引申义,修饰抽象词汇㊂参考文献[1]贺晓东.英汉双解英语同义词词典[M ].北京:商务印书馆国际有限公司,2003.[2]方玲,汪兴富.美国当代英语语料库(COCA )的自主学习应用[J ].中国外语,2010,(6):79-84,91.[3]杨惠中.语科库语言学导论[M ].上海:上海外语教育出版社,2002.企业数字化转型分析师盈余预测与资本市场定价效率基于股价同步性的分析王冠青1,3㊀郜攀峰2(1.天津工业大学经济与管理学院,天津300387;2.合肥工业大学管理学院,安徽合肥230009;3.河北冀工胶管有限公司,河北衡水053000)摘㊀要:本文选取2012 2021年沪深两市A 股上市公司为研究对象,基于股价同步性的视角实证检验了分析师盈余预测对资本市场定价效率的影响,并检验了企业数字化转型对两者之间关系的影响㊂研究结果表明,分析师盈余预测质量对资本市场定价效率具有显著的正向影响㊂进一步研究发现,企业数字化转型能够降低分析师盈余预测质量对资本市场定价效率的正向影响㊂上述研究结果在替换主要变量以及使用倾向得分匹配法(PSM )与工具变量法克服内生性问题后依然稳健㊂本文从分析师与数字化转型联动的角度丰富了资本市场定价效率影响因素的相关研究,并为推动企业进行数字化转型升级提供了新的启示㊂关键词:数字化转型;分析师预测;资本市场;信息效率;股价同步性中图分类号:F27㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀㊀doi:10.19311/ki.1672-3198.2024.10.0190㊀引言资本市场定价效率是指股票价格是否能够对资本市场中的信息作出及时㊁充分㊁准确的反应,主要反映的是资本市场的信息效率㊂资本市场定价效率可以通过股价同步性来体现,股价同步性衡量了个股与市场收益之间的关联性,反映了股票之间的同涨同跌现象,其形成的主要原因在于市场参与者缺乏公司特质信息,导致投资者与公司之间存在信息不对称现象㊂股价同步性具有双重性,即 信息效率 和 非理性噪声 ㊂股价同步性 信息效率 的观点认为,较低的股价同步性主要是由于有更多的公司特质信息有效反映在公司股票价格当中,从而提高资本市场的信息效率与资本的配置效率; 非理性噪声 的观点认为在新兴资本市场中,较低的股价同步性是因为股票价格中包含了更多的 噪声 ,使公司特质信息无法有效反映,从而降低了资本市场的信息效率㊂股价同步性的差异具体表现为公司特质信息还是非理性噪声,目前还没有统一的结论㊂作为资本市场上重要的信息中介,证券分析师在信息传播中扮演着关键角色㊂分析师通过自身信息挖掘㊁信息解读以及盈余预测的专业能力对公司特质信息进行分析,将有价值的公司特质信息传递给资本市场,从而降低投资者与公司之间的信息不对称,对提高资本市场的运行效率和实现社会资源的优化配置起着至关重要的作用㊂但是,也有学者指出分析师作为公司的 外部人 ,无法及时㊁㊃55㊃。
国外个主流语料库使用参考期刊网上刘玉山,胡志军的介绍。
这是一个语料库标题索引软件(一致性),由魁北克大学蒙特利尔分校(UQAM),加拿大魁北克大学的汤姆科布开发。
三部分:learners,researchers,teachers自我学习,研究,教师命题。
它可以同时提供多个语料库的在线搜索,但缺点是一次只能处理一个文本。
2.bnc从2022起,将通过BYU的申请免费获得。
britishnationalcorpus从一980年到1993年,有1亿字,90%是书面的,10%是口头的,4124篇文本英国牛津出版社p朗文出版公司p钱伯斯―哈洛普出版公司p牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库共有七类口头演讲、小说、流行杂志、报纸和学术期刊,以及两类非学术、杂项,不包括在古柯分类中secondeditionbncworld(2001)thirdeditionbncxmledition(2021)摘自国际和国内报纸、专家、期刊和期刊、兴趣爱好、学术书籍和出版物,发表在丹东出版社和memranda,学校和大学论文,以及许多其他类型的文本。
通常可以访问的链接是杨百翰大学提供的BYUbyu大学在2021年对语料库经行了重新附码,用的claws73.Coca:当代美式英语杨百翰大学语料库3.6亿,1990-2021年间,美国国内各种语料语料库来源有五种:口语、小说、通俗杂志、报纸和学术期刊且持续更新中,每年以2000万词递增,目前到1990-2021,共4.5亿词它标志着语料库的时间,便于研究语言的历时和共时变化以及相关的教学用法查找同义词,如[=scold].[v*]表示查找所有scold的同义词找到一个主题的词汇,比如花[n*]的意思是找到与花有关的单词。
如果你需要找到更专业的词汇,使用相互信息。
找出一个词的风格分布查找词汇的搭配如[head].[v*]up表示head作为动词搭配up4.同时,BYU还提供了其他在线搜索语料库,如《时代》杂志语料库、美国语料库和谷歌图书语料库,这些语料库可以在未来进一步研究。
2021年了,你还只会查词典吗:推荐几个好用的语料库展开全文一、为何要使用语料库?在传统印刷术时代,词典是我们学习英语的重要资源。
当代最全面、最权威的英语词典,一般认为是《牛津英语词典》。
这部词典被称为英语世界的金科玉律,1989年出版第二版,共收录301,100个主词汇,总二十卷,21,728页。
词典虽然权威,但更新缓慢,查找不便,费用高昂(全套词典定价759.00英镑),受制于存储材料和技术的限制,其卷帙纵使再浩繁十倍,收录的语料也非常有限。
在当今时代,得益于技术的发展,全面突破这些限制的新型资源早已出现,这就是语料库(corpus)。
语料库是经科学取样和加工的大规模电子数据库,储存的是母语人士实际用过的真实语言。
与词典等搜索工具相比,语料库由于不受存储规模限制,可以提供完整的语篇,而不是孤立的一词一句,显示词的使用频率、搭配以及相关句式,帮助使用者确定每一个词的使用场景,并可按句法、语义或词性等条件检索,提供个性化的查询结果。
二、COCA的优势在众多语料库中,美国当代英语语料库(COCA,)是个中翘楚。
COCA是目前使用最广泛的免费英语语料库,也是唯一均衡覆盖各类文体的美式英语语料库。
COCA从1990年开始收录词条,每年更新。
新版COCA(2020年3月版)的词条超过10亿条,涵盖口语、小说、流行杂志、报纸、学术文章、影视字幕、博客、网页八种文体。
与其他语料库相比,COCA有五大优势:(1)词条规模大,超过10亿条;(2)每年更新,实时性强;(3)均衡覆盖各类文体;(4)每年更新各类文体;以及(5)可显示、对比单词在不同时期、不同文体的使用频率。
三、COCA的主要功能(1)了解词频COCA词频表收录了60,000个高频词,前17,634个单词就涵盖了99% 的常用词汇。
词频表可以下载,可按个人需求编辑。
通过Chart,可以了解单词/词组在不同文体和年代的使用频率,确定惯用搭配。
通过Frequency,可以了解单词/词组在COCA语料中出现的次数,确定惯用搭配。
英语文化课堂教学的在线语料库数据驱动任务式教学模式——以美国当代英语语料库 (COCA) 为例
刘海瑛
【期刊名称】《外国语文(四川外语学院学报)》
【年(卷),期】2012(000)003
【摘要】本文分析了语料库数据驱动任务式学习方法的系列概念,讨论把此法运用在英语文化教学中的系列具体途径.此教学模式有助于改变以往教师单一灌输式传
授知识的方式,对以教师为中心的传统教学方法向以学生为中心方法的转变具有较
好的推动作用.在课堂教学中,运用在线大型语料库来加强英语文化任务式、探索式、研究式、自主式学习,能使学生获得较好的学习效果.
【总页数】5页(P122-126)
【作者】刘海瑛
【作者单位】重庆文理学院外国语学院,重庆402160
【正文语种】中文
【中图分类】H319.3
【相关文献】
1.美国当代英语语料库(COCA)在词汇教学中的应用价值 [J], 张仁霞
2.基于美国当代英语语料库的中式英语文化词汇的模因分析 [J], 刘娇;常世财
3.美式英语中Like作为连词的用法:一项基于美国当代英语语料库(COCA)的研究[J], 白云
4.基于美国当代英语语料库的中式英语文化词汇的模因分析 [J], 刘娇;常世财
5.美国当代英语语料库(COCA)——英语教学与研究的良好平台 [J], 汪兴富;Mark Davies;刘国辉
因版权原因,仅展示原文概要,查看原文内容请购买。
普通人也能用的9个语料库网站,做研究、学外语的来看看提到语料库,很多人脑中浮现出这样的画面——或者这样的——但其实,语料库可以是我们做(语言)研究、学外语的好帮手。
比如,你可以在某些语料库查到最地道的英语表达,也可以听到世界各地的英语口音。
今天就为大家介绍9个语料库网站——1. 语言结构世界地图集Word Atlas of Language Structure知道阿伯卡茨语有多少元音和辅音?波罗罗语的词缀有几种形态?恰卡通戈米斯特克语有几种声调?想回答这些问题?你需要的只是登陆这个名为The World Atlas of Language Structures Online(语言结构世界地图册,简称WALS)的网站这里有各类语言分布的详细地图,有对于世界上2600多种语言192个语言学特征的详细记录,非常适合语言爱好者。
嗯,妈妈再也不用担心我被多语狂魔们实力嘲讽了,随便选出一个语言了解一下,足以技惊四座!详细的使用指南以及更多精彩内容,午餐早已备好,我不会这门语言,但我可以查到关于它的一切 | 语言学午餐2. 语言口音档案馆the Speech Accent Archive大家学英语这么多年,基本上属于身经百战了,哪个地方的英语口音没听过,什么纯正伦敦音,印度咖喱腔,苏格兰懵逼腔,布鲁克林街头腔,那是如数家珍。
但是,你听过刚果金非洲小哥的英语口语嘛?你了解玻利维亚大妈的英语口音嘛?喏,这个名为the Speech Accent Archive 的网站绝对可以满足各位英语语音控的猎奇愿望。
该数据库搜集了几百名来自世界各地,不同民族语言背景的人们针对同一段文字的录音资料,每段录音都详细记录了音频提供者的详细背景资料,每段语音也很详细的进行了转写。
对于研究者来说,可视之为研究英语使用者发音特征的独门利器;对普通人来说,则是一个了解各地英语口音的难得窗口。
3. 当代美国英语语料库COCA想知道某个单词在新闻和小说中的使用有什么差异?英文写作的时候想知道自己写出来的英语搭配够不够地道?想知道背下多少单词就可以流利阅读各类小说报纸?嗯,你需要的只是一个语料容量巨大的英语语料库,COCA恰好可以满足你的这些需求。