当前位置:文档之家› 语料库的类型

语料库的类型

语料库的类型
语料库的类型

语料库的类型

[作者:李文中转贴自:Corpora and the ELT点击数:97 文章录入:neilruan ]

语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集,为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。语料库是按照明确的设计标准,为某一具体目的而集成的大型文本库(Atkins and Clear,1992:1-16)。

Renouf认为,语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf, 1987:1)。

Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须分析足量的自然英语(或其它语言)文本,以便基于观测频率(observed frequency)进行合乎实际的预测。

因此,就需要依靠可机读的电子文本集,即可机读的语料库”(Leech, 1987:2)。综上所述,语料库具有以下基本特征:

1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的,语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。

2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料(naturally-occurred data)。

3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性,“自然语料库存在如此严重的偏差,以至于对其所进行的描述将不过是一个词表而已”(Chomsky, 1962:159)。这种批评对任何以概率统计为基础手段的研究都是有价值的(McEnery, 1996:5)。

但是,目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围,如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围i[i];再就是确定语料的分层结构,进行分层抽样,如把语料按文类(genre)和信道(channel, 如书面语和口语等)进行分层,如图2.1所示。从各种语料的抽样比例上又可分为‘均衡抽样’(balanced)和‘塔式抽样’(pyramidal)。前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。

4)语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储在磁盘上,以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本(htm 或html)格式转换为纯文本。另外,语料库具有一定的容量。语料库的大小取决于语料库的设计原则和研究需求,以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机交互,这种交互方式随着语料库工具的发展而逐步加强其自动化特性。Leech认为这种人机交互有以下四种渐进的模式:(1)‘数据检索模式’。计算机以便利的形式提供数据,人进行分析。(2)‘共生模式’。计算机提供部分经过分析的数据,人不断改善其分析系统。(3)‘自我组织模式’。计算机分析数据并不断改善其分析系统,人提供分析系统参数及软件。(4)‘发现程序模式’。计算机基于数据自动划分数据范畴并进行分析,人提供软件(Leech,1991:19)。

计算机自动处理包括自动词性附码(tagging)、自动句法分析(parsing)等。其基本处理和分析过程包括以下几个步骤:

语音分析(phonetic analysis)指音段分析,主要用于语音识别和语音合成。

正字分析(orthographic analysis)指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。

形态分析(morphological analysis)即词性指定和附码。语料库自动附码软件通过概率统计和分析,对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性附码准确率一般在97%以上。

句法分析(syntactic analysis)是指句子成分切分、句法关系识别、以及句法分析。语义分析(semantic analysis)和语用分析对语篇进行语义指定和意义解释。

5)基于语料库的研究以量化研究为基石,以概率统计为基本手段,以“数据驱动”为基本理念。其基本方法是通过对实际语言运用的抽样,确定其对语言整体的代表性,通过对样本特征的描述概括整体特征。在量化分析中,首先对特征进行分类,并统计各个特征的频率,通过建立复杂的统计模型对观测到的数据进行解释。分析结果可对研究对象总体进行概括。量化分析能够使我们发现在某一种语言或语言变体中哪些现象反映了语言的真实特征,那些现象仅属于偶然的个例。针对某一语言变体而言,我们还可以确切地知道某一语言现象的显著性,从而确认该现象是规范的还是异常的(McEnery,1997:3)。

6)语料库既是一种研究方法,又代表着一种新的研究思维,并以当代先进的计算机技术为技术手段。

7)语料文本是一连续的文本或话语片断(running text or continuous stretches of discourse),而不是孤立的句子和词汇。在语料库研究中,对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提供的语境(context)进行的。语料库索引提供的语境可分为以下几种:(1)指定跨距,即使用者指定以搜索词为中心左右相邻的词数;(2)意元语境,即以某一意义单元结束为一微型语境,在语料库索引中意元的确定是以意义结束符号如“,;”等为标识的;(3)句子语境,即以句子终结符号如“. !”等为标识;(4)可扩展语境,即对搜索词所在语境可无限扩展。这对研究词汇的语法关系、词汇用法、词汇搭配、词丛(word cluster)、词汇在连续语篇中呈现的范型(pattern)、以及主题词汇之间的意义关系提供了可靠而方便的途径。如“necessarily”一词在《新英汉词典》中作为“necessary”词条下该词的副词形式,定义为“必定,必然”;Oxford Advanced Learner’s Dictionary of Current English把它列为一个单独的词条,给出的定义为“adv as a necessary result; inevitably”;各种英语教科书中对该词的定义和解释也大同小异。在上海交大科技英语语料库(以下简称JDEST)中搜索“necessarily”这个词,发现该词在全库中出现264次,频率最大的搭配词“not”出现在该词左边第一个位置,观察搭配频数为136。全库中出现5次以上的三词词丛有20组,同时含有“not”和“necessarily”的词丛有18组。通过索引行统计和词丛统计可以看出(见图2.4示例),“necessarily”一词最典型的用法是与“not”

搭配使用,表示含有否定意义的主观评价,意为“未必”,“不一定”。如果把这个词看成是一个孤立词条并确定其定义,很难概括该词在用法中的真实行为和典型特征。

除此之外,现代计算机语料库还具有以下重要优势:1〕资源优势。可获得的语料资源丰富,获得渠道方便。传统的语料库建设,语料输入工作极为浩繁,基本输入手段要靠手工键盘输入以及扫描输入。靠这种输入方式收集的语料存在大量输入错误,需进一步人工校对。如今大量的在线语料资源,光盘资料,因特网资源,包括新闻、邮件列表、电子邮件等使得语料库的建设和扩充变得非常快捷方便。2〕速度优势。早期的语料库是通过手工处理来完成分析过程的,不仅费时费力,而且误差很大,严重影响分析结果的可靠性。后来出现了在DOS环境中运行的语料库软件,提高了语料处理的自动化。但每次处理语料量受到限制,且不易操作。另外,传统的语料库软件大多与库本体集成开发,软件不易剥离,且适用平台少。如今,不少语料库索引软件可以在不同的操作环境中运行,且每次处理的语料量不受限制。通过专用索引软件,使得大型语料库计算机分析更加快捷。例如,只能在DOS 环境中运行的索引分析软件TACT2.1每次只能处理1兆字节左右的语料,而如今在WINDOWS环境中运行的WORDSMITH TOOLS可以同时处理的语料量只受计算机硬件的限制,即内存和硬盘的大小以及CPU的速度。3〕精确度提高。现代语料库索引软件内嵌各种统计和检验功能,使各种统计误差更精确地体现出来

文章来源:中国计算机辅助语言教学研究

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

2020年雅思写作语料库:科技时代传统教育是否还有价值

2020年雅思写作语料库:科技时代传统教育是否还有 价值 考试真题(2020年9月12日): Some people think that students at schools and universities learn far more from teachers than from other resources(the Internet or television). To what extent do you agree or disagree? 有人认为:对于其他的学习渠道,例如网络教育 或者电视教育,学生在学校和大学能够和老师学习更多,是否认同? 【类似题目】: Some people think that computers and the Internet are more important for a child's education than going to school. But others believe that schools and teachers are essential for children to learn effectively. Discuss both views and give your own opinion. 有人认为计算机和互联网对于孩子的教育比 去学校有效,有认为老师和学校对于孩子的高效学习更加重要,讨论 两种观点? 【薛鹏点评】: 如果雅思备考仅练习一篇文章,本题首选,关于网络教育和课堂 教育的比较,每年必考。练习本篇,教育类话题融会贯通。 【薛鹏感言】: 我是如何做出预测的:对20年考试题库的整理、分类、考频统计。归类考题类型、核心母题、边缘考题。无论考试如何变化,我相信热 题恒热、遗漏太久、必然回补。网络教育和课堂教育每年的考频1-2次,必然会考,意料之中。仅仅,不知你是否还信赖小鹏哥:惯性阅

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

雅思写作词句语料库(双页)

adolescent(s)/juvenile(s)/youngster(s)/youth(s) n.青少年 adolescent adj.青春期的 parenting/upbringing n.家庭教育,教养 schooling n. 学校教育 aptitude/talent (for) n.(有……的)天赋 cultivate/foster/nurture v. 培养 specialist n.专才 generalist n.(有多方面知识和经验的)通才 all-rounded/well-rounded/versatile adj.全面的,多面的,多才多艺的awareness/sense/recognition n.意识 the development of students’personality and values 学生个性和价值观的发展mould (or mold美式拼写) one’s character塑造某人的性格 mould (or mold美式拼写) sb. into sth. 把某人塑造成…… a (or the ) sense of responsibility (or duty/obligation)责任感 improve moral standard 提高道德标准

小、

,例如色情和

delete/eliminate/excise v. 删除evaluate v. 评价、评估 the evaluation on 对……的评价或评估 be ?ooded (or ?lled/awash/saturated/inundated) with... 充斥着 excessive and gratuitous violent and pornographic contents 过多的、无端的暴力与色情内容 at the expense/cost of 以……为代价 media hype 媒体炒作advertising hype 广告炒作 hype n. 炒作,大肆吹捧 v. 对 ……大肆宣传,吹捧commercial(s) n. 商业广告public service advertising 公益广告 evoke (or stimulate) impulse buying 刺激冲动性购物shopaholic(s) n. 购物狂promotion n. 促销 marketing tool 市场营销手段 induce sb. to do sth. 诱导或引诱某人做某事 target audience 目标受众sensationalise (or sensationalize 美式拼写) /exaggerate v. 耸人听闻地夸大某事,大肆渲染 over-report...to hook viewers and maximise pro ?ts 为了利益最大化,从而过度报道……来吸引公众的眼球 道德规范(尤指职业的) 良好的/较强的/无懈可击的职业道德adj. 无所不在的,普遍存在的……的流行或盛行对……有着深远的影响 揭露社会问题 监督非常详尽地报道…… 如实的描述、报道adj. 有新闻价值的,有报道价值的adj. 最新的,及时的adj. 客观公正的adj. 不客观的,有偏见的 adj. 可信的,可靠的 adj. 令人误导的,不如实报道的,曲解的adj. 虚假的adj. 欺骗性的 adj. 信息量大的,增长见闻的adj. 娱乐性的,令人愉快的 v. & n. 审查n. 审查制度 对……实施审查 v. 影响,左右 (e.g. sway sb./sb. be swayed by... 影响某人或者某人受到影响)

雅思写作语料库--小组学习和自己学习

Some people believe that students should study in groups. Others think that they should study alone. What are the benefits of studying in groups and studying alone? Which way is more effective? 有人认为学生们应该小组学习,有人认为学生们应该自己学习,小组学习和自己学习利好各在哪里,你认为何种方式有效? 【思路拓展】 小组学习的利好: 1. 小组讨论,集思广益,例证展开:小组讨论数学题的解题思路,小组讨论作文的头脑风暴。 2. 有良好的学习氛围,可以帮助缺乏自律性的孩子们专注于学习,提高学习效率。 3. 有效的方式结实新朋友,锻炼人的口才,交流能力以及团队精神。 自己学习的利好: 1. 培养了自己的独立思考以及解决问题的能力,学习上不会对他人产生过度的依赖。 2. 小组学习更加容易培养人的分析性思维,理性思维和辩证思维的能力。 点评:论据支持可以学习历史和哲学,以及中学生学习国际新闻 【作者立场】

小组学习和自己学习各有优势,选择应该由个人做出,我过去常常一个人学习,虽然可以独立思考,但是未能感知小组讨论和交流的乐趣,因此,有机会,我更加渴望小组学习。 点评:主题观点是模仿雅思考官男女分校的范文 【原创语料库】 1. group study 小组学习 2. to study with a group of fellow classmates 和同龄人一起学习 拓展:a group of fellow classmates = peers 同龄人 3. focus on self-improvement 专注于自我提高 4. zero in on academic study = concentrate on learning专注学习(写作亮点) 5. a great many self-leaner 很多的自学者 6. achieve academic success 取得学习的成功 7. enhance the efficiency of learning 提高学习效率 8. face-to-face communication could …… 面对面交流可以…… 9. positive interaction w ith …… 和…… 积极的互动

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学? 2. 语料库翻译学的理论基础? 3. 语料库翻译学的研究内容? 4. 什么是翻译共性? 根据研究课题的来源,语料库翻译学的研究领域分为三类。 第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。 基于语料库的文学翻译研究以文学翻译作品的文本分析为基础,研究文学翻译理论与实践的相关课题。这些课题具体为: 1) 意象和人物形象的再现与变形,2) 文学风格的再现与重构,3) 文学翻译的创造性,4) 译者风格,5) 文学作品空白和未定性的翻译,6) 文化负载词的翻译,7) 误译和漏译研究。 基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析,揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于翻译规范和历史语境关注不够。事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。此外,翻译是一种特殊的社会文化行为,受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法( contextualization) 的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。 以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术,建设具有海量信息的知识库,以满足机助翻译或自动翻译的需求。 基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征,研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究,既有理论层面的探讨,也有实践层面的分析。 第二类研究领域源自描写性译学研究,涵盖翻译共性、翻译规范和批评译学等领域的研究。 翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征,与源语和目的语之间差异无关,具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过程正确性的规范,体现了具体某一社会或历史时期关于翻译的价值观和行为原则”。翻译规

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的 Annotate标注(动词) Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词) Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)(主题词的)联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本 (一句源语一句目标语对齐后的文 本) Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类(范畴)的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词;搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

2020雅思写作语料库教育类:是否全部父母都该学习育儿课程

2020雅思写作语料库教育类:是否全部父母都该学习 育儿课程 教育类: Caring for children is probably the most important thing of the society. It is suggested that all mothers and fathers should be required to take the childcare training courses. To what extent do you agree or disagree with the statement? 教育的孩子很重要,有人认为,所有的父母应该学习育儿课程,是否认同?(2020年1月19日雅思题目) 题目解析:提问中有典型的错误信息,即所有的父母,所以,本文写作策略为让步反驳,即为三分让步,七分反驳。 雅思小鹏哥让步反驳话题布局图: 首段:背景介绍 + 争议焦点 + 作家立场 二段:第一次支持作家立场以及细节或例证的展开 三段:第二次支持作家立场以及细节或例证的展开 四段:让步不支持的观点的合理性 + (加以反驳 ) 尾段:再次亮明观点 + (总结理由) 作家立场: 虽然我们不能低估亲自学习育儿课程可能带来的价值,但是不是所有的父母都能够亲自学习育儿培训课程。 雅思小鹏哥头脑风暴导言: 1. 小鹏哥喜欢看芒果台的《变形记》,有一集描述的是贵州贫困地区的留守儿童,他们的父母都在城市里打工,家庭贫困,父母辛苦

赚钱仅仅是维持孩子的基本生活和让孩子有机会接受更好的教育。这些父母,不可能有经济成本去专门学习育儿培训课程。 2. 对于很多社会精英来说,即使他们有经济实力参加育儿培训课程,但是,他们又没有时间和精力,所以,让他们专门学习育儿培训课程也是不现实的,即使他们可能有学习的愿望。 是否同意一种观点提问标志: Some people think that …… to what extent do you agree or disagree? 雅思小鹏哥全文布局图: 首段:背景介绍 +(争议焦点)+作家立场 父母是孩子们最初的老师,他们对于孩子们的性格培养以及精神成长有潜移默化的影响,所以,良好的教育方法是每个父母都应该学习的。我认为,虽然不能低估亲自学习育儿课程对于家长可能带来的利好,但是,不是所有的父母都能够亲自学习育儿培训课程。 二段:第一次支持作家立场 对于很多社会精英来说,例如,繁忙的企业家或文体明星,他们多数忙于事业发展,没有时间和精力去专门学习育儿课程。但是,他们能够努力赚钱,聘请专业的育儿老师来教育孩子,所以,父母的努力同样有助于孩子们的健康成长。 三段:第二次支持作家立场 对于贫困家庭来说,父母的可支配收入有限,学习育儿课程虽有利好,却会增加父母的经济负担,在现实生活中很难实现。例如,我喜欢看芒果台的《变形记》(一部纪录片),有一集描述的是贵州贫困地区的留守儿童,他们的父母都在城市里打工,孩子们的生活非常贫困和艰苦,父母辛苦工作仅是维持孩子的基本生活和让孩子们接受良好教育。这些父母,不可能有经济成本去专门学习育儿培训课程。

雅思写作小作文必备语料库

雅思写作小作文必备语料库 动态图形词汇 上升 -rise, increase, grow, climb, jump,go up, an upward trend shoot up (informal),ascend -rocket, soar, swell, surge, skyrocket, mushroom, escalate, on the rise,on the increase 相关单词用法 下降 -drop, decrease, go down, decline, fall, descend, sink, dip, an downward trend., -plummet, Plunge, slump, dive, nosedive 相关单词用法 不变、平稳等 -keep/remain/stay stable/steady/unchanged/constant(不变) -maintain the same level -experience a stable trend, -level off at(上升或下降之后)/ level out at(上升之后)/ -hover at/ stabilize at/ reached a plateau at 波动 fluctuate/rise and fall, vary, undulating; be volatile/ variable; 高点、低点: ?reach the highest point,reach(arrive at/hit) a peak(summit) at+数字(用hit 时动作较剧烈),peak at+数字 ?reach/fall to/arrive at/hit the bottom/the lowest point at数字,bottom out at数字,(用hit时动作较剧烈) 其他点 ?起始点: n. starting point v. start/begin/end at ?交叉点: It is worth/deserves mentioning that 1).A和B在...处拥有相同数值 A and B share the same amount/number in 2).A在...处超过B A outstrip/overtake/outnumber/go beyond B in... ?表示达到了多少数量的及物动词或词组 Reach/arrive at/ amount to / hit/ register/ stand at

雅思写作语料库

A routine of exercise and diet designed to make the body appear muscular. Training routines usually reduce fat levels and, if performed properly, can improve flexibility, particularly of the shoulders, hips, and trunk. When combined with aerobic fitness training, body building can be beneficial to health. A form of exercise and competitive sport in which the primary aim of participants is to develop muscularity and body mass, and to produce symmetry and harmony between different body parts. Well-trained body-builders are characterized by having lean and muscular bodies with enhanced muscular strength and power. Good nutrition can help prevent disease and promote health. Good nutrition helps individuals achieve general health and well-being. There are six categories of nutrients that the body needs to acquire from food: protein, carbohydrates, fat, fibers, vitamins and minerals, and water.

中医药术语汉英双语平行语料库的创建和应用 探讨

Modern Linguistics 现代语言学, 2019, 7(2), 207-211 Published Online April 2019 in Hans. https://www.doczj.com/doc/407677005.html,/journal/ml https://https://www.doczj.com/doc/407677005.html,/10.12677/ml.2019.72027 Construction and Application of Chinese-English Bilingual Corpus for TCM Terminologies Xiao Ye1*, Ling Tong2 1Humanities and Management College, Zhejiang Chinese Medical University, Hangzhou Zhejiang 2College of Health Science, University of Wisconsin Milwaukee, Milwaukee USA Received: Apr. 1st, 2019; accepted: Apr. 16th, 2019; published: Apr. 23rd, 2019 Abstract In order to solve the problem of the confusion of English translation of terminology of traditional Chinese medicine (TCM) in the world, experts and scholars from several domestic and foreign au-thoritative organizations have tried to establish an international unified standard for it. However, due to the complexity of the English translation of TCM terminology, plus factors such as the history, economy, culture, and national discourse rights, many domestic and international standards for TCM terms have not been widely promoted and uniformly recognized in the world, resulting in ob-stacles of international exchanges. Under this circumstance, the author believes that by collecting and arranging various versions of TCM terminology translation standards at home and abroad, and applying corpus technology, the function of looking up multiple English versions of TCM terms can be achieved by one click. It can not only largely solve the problem of communication, but also make people understand more about the various meanings of the TCM terms and the situation in multiple versions of English translation. This article is to give some introductions and useful endeavors on the establishment and application of the Chinese-English bilingual corpus of TCM terminologies, hoping to contribute to TCM’s international exchanges and “One Belt One Road” services. Keywords Traditional Chinese Medicine (TCM), Terminology, English Translation, Corpus 中医药术语汉英双语平行语料库的创建和应用探讨 叶晓1*,童凌2 *通讯作者。

HSK动态作文语料库代码说明

“HSK动态作文语料库”语料标注及代码说明 “HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。 1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。 [F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。 例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。 例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。 把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。 例如:首先{CC先首}、众所周知{CC众所知周}。 2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。 例如: 虽然现在还没有实现{CC实践},…… 它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。 3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

雅思写作语料库--政府买单

政府类: Some people say that the government should pay for the health care and education of its citizens,to what extent to you agree or disagree? 有人认为政府应该给公民的教育和医疗买单, 你是否同意这个观点? 相关题目: Some people say that the government should pay for the health care and education of its citizens, but other people say that it is not the government’s responsibility. Discuss the two opinions and give your views. 有人认为政府应该给公民的教育和医疗买单,有人认为这不是政府的责任,讨论两种观点,给出你的意见? 作家立场:政府应该给教育和医疗买单,同时,政府应该合理地分配教育和医疗预算。 写作布局:让步反驳 思路拓展: 政府给教育医疗买单的理由: 1. 公民是纳税人,有享受教育和医疗的权利。政府是人民利益的代表,普及免费的教育和医疗可以换利于民。

2. 教育的发展可以培养更多的高端人才,提高国民的基本素质,增强一个国家在国际舞台的竞争力。 3. 政府的医疗上的援助可以使得很多患病的,同时来自贫困家庭的人得到及时的治疗,这有助于提高政府的威信,以及增强民众的民族自豪感。 反对政府给教育和医疗买单的理由: 1. 政府的财政有限,但是,要解决的民生问题是无穷的,完全的教育医疗买单会增加政府的经济压力。 2. 对比给教育和医疗买单,政府还要解决更重要的民生问题,例如改善环境和加强基础设施建设,这些更加需要政府经济援助。 【语料库】: 1. free higher education = free college education n免费的高等教育 2. medical care = medical treatment n 医疗 3. popularize v 普及 4. subsidize = sponsor = finance v 提供经济援助 5. provide sb with financial aid v给某人提供经济援助 6. to do sth is highly recommended 做…… 是被高度推荐的

相关主题
文本预览
相关文档 最新文档