当前位置:文档之家› 汉语语料库词性标注自动校对方法研究

汉语语料库词性标注自动校对方法研究

汉语语料库词性标注自动校对方法研究
汉语语料库词性标注自动校对方法研究

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

现代汉语词性专题练习资料

现代汉语词性专题练 习

现代汉语词性专题练习 一、选择题 1.能带宾语的是()A名词 B动词 C形容词 D副词 2.“上来”是()A助动词 B判断动词 C趋向动词 D及物动词 3.“不、没”都是()A程度副词 B时间副词 C范围副词 D否定副词 4.“很、挺、十分”是()A程度副词 B范围副词 C语气副词 D情态副词 5.“我、你、他”是()A指示代词 B疑问代词 C人称代词 D名词 6.“他在黑板上写字”的“在”是()A动词 B副词 C介词 D方位词 7.“哎哟”是()A拟声词 B语气词 C叹词 D助词 8.代词包括()A人称代词 B指示代词 C疑问代词 D代名词 E代动词 9.虚词包括()A介词 B副词 C连词 D助词 E语气词 10.“报告”一词兼()A名词 B动词 C形容词 D连词 E代词 11.“和、跟、同、与”兼()A动词 B连词 C介词 D副词 E助词 12.下列语句中的“在”不属于介词的是() A我在家 B他在黑板上写字 C把东西放在桌子上 D他在看书 E在家要孝顺父母 13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的 B你跟他要 C谁跟谁都没关系 D你抽空跟他谈谈 E你快跟着我走 二、指出下列词的词性:非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然 ()简直()才()半夜()除了()很多()勇敢()思想 ()啊()或许()只好()二万()迅速()进来()仅仅 ()立刻()

热爱()十几棵()喜欢()大约()次()哗啦()下去() 斟酌()怎样()起来()晚上()亩()前面()或者() 对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该() 按照()回来()喂()马上()消失()飞机()许多() 简直() 三、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)()(4)自行车他骑出去了。(出去)() (5)我拿着—本书。(着)()(6)你吃了饭再走。(了)() (7)他是外国人吗?(吗)()(8)你应该努力学外语。(努力)()(9)他刚才来过。(刚才)()(10)最好听的是这首歌。(最)()(11)房子上面铺着瓦。(上面)()(12)这是一本袖珍词典。(袖珍)() (13)老张请我吃饭。(请)()(14)幸亏他来。(幸亏)() (15)我忽然想起来了。(忽然)()(16)这件事很突然。(突然)()(17)无论谁都说好。(无论)()(18)他连忙说不行。(连忙)()

现代汉语常用词表

现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008 个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则 本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初

秋”“初夏”,但对于“‘晚'+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残'+季节”的词语,只收录“残冬”未收录“残春”“残 秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况。 4.2 本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年?2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。总共 2.5 亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181 个,双音节词语40 351 个,三音节词语 6 459个,四音节词语 5 855个,五音节和五音节以上词语 162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

现代汉语词性专题练习

现代汉语词性专题练习 指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百() 美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 现代汉语词性专题练习答案 一、副、代、名、形、代、副、副、副、动、拟声、助、形、副、副、连、名、副、形、形、名、叹、副、副、数、副、动、副、副、动、数量、动、副、量、拟声、动、动、代、动、名、量、名、副、介、介、动、数、形、拟声、名、名、代、动、助、语气、形、动、动、副、代、形、介、名、动、形、副、动、动、动、副、动、名、数、副

二、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)() (4)自行车他骑出去了。(出去)() (5)我拿着—本书。(着)() (6)你吃了饭再走。(了)() (7)他是外国人吗?(吗)() (8)你应该努力学外语。(努力)() (9)他刚才来过。(刚才)() (10)最好听的是这首歌。(最)() (11)房子上面铺着瓦。(上面)() (12)这是一本袖珍词典。(袖珍)()(13)老张请我吃饭。(请)() (14)幸亏他来。(幸亏)() (15)我忽然想起来了。(忽然)() (16)这件事很突然。(突然)() (17)无论谁都说好。(无论)() (18)他连忙说不行。(连忙)() (19)问题要彻底解决。(彻底)() (20)我们应该历史地分析。(历史)()(21)我们又继续战斗了。(继续)()(22)屋里有一扇门。(扇)() (23)我们要辩证地看问题。(辩证)()(24)所有人都不得离开。(所有)()(25)这种情况是很正常的。(正常)()(26)我们要不断改进服务态度。(不断)()(27)共产党员要加强自我修养。(修养)()(28)他作了一个报告。(报告)() (29)我们要赶快行动。(行动)() (30)工程刚刚开始。(刚刚)() (31)所谓“大师”其实是骗子。(所谓)()(32)这件事让他感慨万分。(感慨)()(33)这部影片儿童不宜观看。(不宜)()(34)你有什么擅长?(擅长)() (35)我不敢再奢望什么。(奢望)()(36)敌人企图拿下这个山头。(企图)()(37)然后再看你喜欢什么。(然后)()(38)他这个人很勇敢。(勇敢)() (39)这个小孩真可爱。(可爱)() (40)这两个方案是—样的。(—样)()

现代汉语词性及专题训练、答案

现代汉语词类专题练习 一、选择题 1.能带宾语的是()。A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词 3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 7.“哎哟”是()A拟声词B语气词C叹词D助词 8.代词包括()A人称代词B指示代词C疑问代词D代名词E代动词 9.虚词包括()A介词B副词C连词D助词E语气词 10.“报告”一词兼()A名词B动词C形容词D连词E代词 11.“和、跟、同、与”兼()A动词B连词C介词D副词E助词 12.下列语句中的“在”不属于介词的是() A我在家B他在黑板上写字C把东西放在桌子上 D他在看书E在家要孝顺父母 13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的B你跟他要C谁跟谁都没关系 D你抽空跟他谈谈E你快跟着我走 二、指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 三、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)()(4)自行车他骑出去了。(出去)()

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

现代汉语词性及专题训练答案

现代汉语词性及专题训 练答案

现代汉语词性及专题训 练答案 Pleasure Group Office【T985AB-B866SYT-B182C-BS682T-STT18】

现代汉语词性 一.名词 表示人和事物的名称叫。如:黄瓜、猪、羊、白菜、拖拉机、计算机。 1、表示专用名称的叫做专用名词,如云南、上海、、白居易,中国。 2、表示抽象事物的名称的叫做抽象名词,如范畴、思想、质量、品德、品质、友谊、方法。 3、表示方位的叫做方位名词,如上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间等。 二.动词 表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如来、去、说、走、跑、吼、叫、学习、起飞、审查、认识等。 2、有的动词表示心理活动,如想、重视、注重、尊敬、了解、相信、佩服、惦念等,这样的动词前面往往可以加上"很、十分"。 3、有的动词表示能够、愿意这些意思,叫做,它们是能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须,这些能愿动词常常用在一般的动词前面,如得去、能够做、可以考虑、愿意学习、应该说明、可能发展等 4、还有一些动词表示趋向,叫做趋向动词,如来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起,它们往往用在一般动词后面表示趋向,如跳起来、走下去、抬. 5、"是、有"也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 表示事物的形状、性质、颜色、状态等,如多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色…… 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 是表示事物数目的词。如一、二、两、三、七、十、百、千、万、亿、半……五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇等; 度量量词表示事物的度量,如寸、尺、丈、斤、两、吨、升、斗、加仑、、欧姆、立方米等。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如次、下、回、趟、场… 六.代词 能代替实词和。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种性状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、:代替人或事物的名称。如我、你、您、他、她、它、我们、你们、他们、她们、它们、咱们、自己、别人、大家、大伙……(自己能和其他代词连用,起强调作用。例如:我自己、你们自己、大家自己等)

现代汉语词性专题练习 (2)

现代汉语词性专题练习 一、选择题 1.能带宾语的是()A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词 3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 7.“哎哟”是()A拟声词B语气词C叹词D助词 8.代词包括()A人称代词B指示代词C疑问代词D代名词E代动词 9.虚词包括()A介词B副词C连词D助词E语气词 10.“报告”一词兼()A名词B动词C形容词D连词E代词 11.“和、跟、同、与”兼()A动词B连词C介词D副词E助词 12.下列语句中的“在”不属于介词的是()A我在家B他在黑板上写字 C把东西放在桌子上D他在看书E在家要孝顺父母 13.下列句子中不属于介词“跟”的有()。A我跟他一起去的B你跟他要 C谁跟谁都没关系D你抽空跟他谈谈E你快跟着我走 二、指出下列词的词性:非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻() 热爱()十几棵()喜欢()大约()次()哗啦()下去() 斟酌()怎样()起来()晚上()亩()前面()或者() 对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该() 按照()回来()喂()马上()消失()飞机()许多() 简直() 三、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)()(4)自行车他骑出去了。(出去)() (5)我拿着—本书。(着)()(6)你吃了饭再走。(了)() (7)他是外国人吗?(吗)()(8)你应该努力学外语。(努力)() (9)他刚才来过。(刚才)()(10)最好听的是这首歌。(最)() (11)房子上面铺着瓦。(上面)()(12)这是一本袖珍词典。(袖珍)() (13)老张请我吃饭。(请)()(14)幸亏他来。(幸亏)() (15)我忽然想起来了。(忽然)()(16)这件事很突然。(突然)() (17)无论谁都说好。(无论)()(18)他连忙说不行。(连忙)() (19)问题要彻底解决。(彻底)()(20)我们应该历史地分析。(历史)() (21)我们又继续战斗了。(继续)()(22)屋里有一扇门。(扇)() (23)我们要辩证地看问题。(辩证)()(24)所有人都不得离开。(所有)()(25)这种情况是很正常的。(正常)()(26)我们要不断改进服务态度。(不断)()(27)共产党员要加强自我修养。(修养)()(28)他作了一个报告。(报告)()

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

现代汉语词性专题训练答案

现代汉语词性专题训练、答案. 现代汉语词性专题练习 一、选择题 1.能带宾语的是()。A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词

3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 D助词7.“哎哟”是()A拟声词B语气词C叹词 8.代词包括()A人称代词B指示代词C疑问代词ED代名词代动词 C连词B副词9.虚词包括()D助词E语气词A介词 10.“报告”一词兼()A名词BE动词C形容词D连词 代词D副词11.“和、跟、同、与”兼()A动词B连词C介词 助词E12.下列语句中的“在”不属于介词的是() A我在家B他在黑板上写字C把东西放在桌子上 D他在看书 E 在家要孝顺父母

13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的B你跟他要C谁跟谁都没关系 E你快跟着我走你抽空跟他谈谈D二、指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 三、.指出下列句子中加标记词所属的词类。 )((渐渐))天渐渐冷起来了。2()((过))这件事已经讨论过了。1(. ))(4)自行车他骑出去了。(出去)((3)他正在教室里看书。(正)( )6)()你吃了饭再走。(了)((5)我拿着—本书。(着)( )(8)你应该努力学外语。(努力)((7)他是外国人吗?(吗)())10)最好听的是这首歌。(最)((刚才)(9)他刚才来过。()()12)这是一本袖珍词典。(袖珍)((11)房子上面铺着瓦。(上面)()

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工 国家语委语料库科研成果简介 教育部语言文字应用研究所计算语言学研究室 一、国家语委现代汉语语料库介绍 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。 国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。 国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下: 1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

现代汉语词性及专题训练答案汇编

学习-----好资料 现代汉语词性 一.名词 表示人和事物的名称叫名词。如:黄瓜、猪、羊、白菜、拖拉机、计算机。 1、表示专用名称的叫做专用名词,如云南、上海、李白、白居易,中国。 2、表示抽象事物的名称的叫做抽象名词,如范畴、思想、质量、品德、品质、友谊、方法。 3、表示方位的叫做方位名词,如上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间等。 二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如来、去、说、走、跑、吼、叫、学习、起飞、审查、认识等。 2、有的动词表示心理活动,如想、重视、注重、尊敬、了解、相信、佩服、惦念等,这样的动词前面往往可以加上很、十分。 3、有的动词表示能够、愿意这些意思,叫做能愿动词,它们是能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须,这些能愿动词常常用在一般的动词前面,如得去、能够做、可以考虑、愿意学习、应该说明、可能发展等 4、还有一些动词表示趋向,叫做趋向动词,如来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起,它们往往用在一般动词后面表示趋向,如跳起来、走下去、抬. 5、是、有也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色…… 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如一、二、两、三、七、十、百、千、万、亿、半…… 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇等; 度量量词表示事物的度量,如寸、尺、丈、斤、两、吨、升、斗、加仑、伏特、欧姆、立方米等。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如次、下、回、趟、场… 六.代词 代词能代替实词和短语。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种性状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、人称代词:代替人或事物的名称。如我、你、您、他、她、它、我们、你们、他们、她们、它们、咱们、自己、别人、大家、大伙……(自己能和其他代词连用,起强调作用。例如:我自己、你们自己、大家自己等) 2、疑问代词:用来提出问题。如谁、什么、哪(问人或事物)、哪儿、那里(问处所)、几 多(问数量)、多、多么(问程度)、怎么、怎样、怎么样(问性质状态)、什么、怎样、什么样

现代汉语的词性分类

现代汉语的词可以分为两类12种词性。一类是实词:名词、动词、形容词、数词、量词和代词。一类是虚词:副词、介词、连词、助词、叹词和拟声词。 实词 一.名词 表示人和事物的名称叫名词。如“黄瓜、猪、马、羊、白菜、拖拉机、计算机”。 1、表示专用名称的叫做“专用名词”,如“云南、上海、李白、白居易,中国”。 2、表示抽象事物的名称的叫做“抽象名词”,如“范畴、思想、质量、品德、品质、友谊、方法”。 3、表示方位的叫做“方位名词”,如“上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间”等。二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、吼、叫、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如“想、重视、注重、尊敬、了解、相信、佩服、惦念”等,这样的动词前面往往可以加上“很、十分”。 3、有的动词表示能够、愿意这些意思,叫做“能愿动词”,它们是

“能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须”,这些能愿动词常常用在一般的动词前面,如“得去、能够做、可以考虑、愿意学习、应该说明、可能发展”。 4、还有一些动词表示趋向,叫做“趋向动词”,如“来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起来”,它们往往用在一般动词后面表示趋向,如“跳起来、走下去、抬上来、跑过去”。 5、“是”“有”也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如“多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色”。状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如“一、二、两、三、七、十、百、千、万、亿、半”。 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。单位量词表示事物的单位,如“个、张、、只、支、本、台、架、辆、颗、

现代汉语常用词表

现代汉语常用词表(草案) 现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则

本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。 4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。总共2.5亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

相关主题
文本预览
相关文档 最新文档