语料库语言学的方法在《现代汉语常用实词搭配词典》中的应用
- 格式:doc
- 大小:107.00 KB
- 文档页数:6
双语语料库在英汉翻译中的应用外语学院09.3班侯义茹摘要:本文介绍双语语料库的发展历程和现状及其研究价值,阐述了基于双语语料库的英汉翻译教学及研究,讨论了计算机辅助翻译的重要性和应用。
随着国与国之间密切的往来,语言获得日新月异的发展,双语语料库也以其大量的对译材料为语言和翻译研究提供了新途径,基于双语语料库开展的英汉翻译研究日益广泛和实用。
关键词:双语语料库;翻译研究;教学;语言交流The Usage of Bilingual Corpus in English - ChineseTranslationHou Yiru Class 3, Grade 09 Foreign Language DepartmentAbstract:This paper introduces the development and value of bilingual corpus. At the same time, it tells us English - Chinese translation studies based on bilingual corpus and it discusses the importance and application of computer-aided translation. With the intimate contractions between countries, languages develop day by day, so bilingual corpus open up a new way to language and translation studies. English - Chinese translation studies based on bilingual corpus is wide and practical.Key words:bilingual corpus,translation studies,teaching,language exchange一、引言“语料库几乎在语言学所有的领域引发了一场革命”。
专业的语料库利用技巧语料库(Corpus)是指收集而成的大规模文本数据库,其中包含了各种语言的实际语言数据。
语料库是语言学研究、自然语言处理以及其他相关领域的重要资源。
在现代信息时代,语料库的利用技巧对于深入理解语言以及提高语言能力至关重要。
本文将介绍一些专业的语料库利用技巧,帮助读者更好地利用语料库进行学习与研究。
一、选择适合的语料库语料库有很多种类,包括通用语料库、专业领域语料库以及特定语言的语料库等。
在利用语料库之前,确保选择适合自己需求的语料库非常重要。
比如,如果你是英语学习者,可以选择通用的英语语料库,如British National Corpus(BNC)或者Corpus of Contemporary American English(COCA)。
如果你是专业翻译或者研究某一领域的学者,可以选择相关专业领域的语料库,如生物医学语料库或金融领域语料库。
二、设定查询限定条件在利用语料库进行查询时,设定合适的查询限定条件可以提高查询的准确性。
比如,设定查询单词的所在位置、所属文本类型、词性等条件,可以帮助你找到更精准的语料示例。
另外,一些语料库还提供强大的高级查询功能,如模糊搜索、正则表达式和语法查询等,这些技巧可以帮助你更好地操纵语料库,找到所需数据。
三、分析语料示例对于查询得到的语料示例,要进行仔细的分析和解读。
首先,注意上下文,观察单词的用法和搭配情况。
其次,关注词组、短语或句式的使用,这些都是丰富自己语言表达的重要资源。
同时,注意语境中的语法结构、语气和修辞手法等,这些都有助于提升自己的语言能力。
四、比较语料示例利用语料库进行比较分析,可以深入探究语言的变化和差异。
比如,可以比较不同时间段、不同地域或不同语言之间的语料示例,找出共同点和差异。
这种比较分析有助于揭示语言的演变规律和文化差异,对于学术研究和翻译工作都非常有价值。
五、利用频率统计语料库可以提供单词、短语、句式等的频率统计数据,帮助我们了解语言的使用规律和常用表达方式。
基于语料库的现代汉语研究方法综述一、绪论正如Sinclair所言:语料库所提供的海量语料使研究者系统地对大量文本语料进行审视,使我们有可能发现一些新的未发现的语言事实。
语料库在语言研究中能提供空前广泛的语言资料,使得对语言多方面、多层次的研究成为可能。
本文以2000年以来基于语料库的现代汉语研究的文献为依托,深入分析文献中基于语料库的研究方法,并从借助的语料库类型进行具体综述,据此对研究中存在的问题进行了分析。
二、借助的语料库类型语料库为语言描述提供了丰富的数据资源,在基于语料库的语言研究中,语言学家利用机储数据库去描写语言的词汇和语法。
基于语料库的研究方法,方便研究者统计数据,并在已有成果基础上,深化对某一类词群的研究。
然而,语料库种类众多,现代汉语研究方向也是多方面的,选择与研究内容相适应的语料库类型才能更好地提高研究效率,取得更佳的研究成果。
笔者通过归纳2000年以来基于语料库的现代汉语研究的文献,总结以下几种常用的语料库类型。
(一)基于标注语料库的研究标注就是使语料的某些单位(词、句、段等)和表示对这些单位的某种层次的理解的知识信息(标记符)相关联。
标记语料库即含有这些加工者添加其对语料的理解信息的语料库。
这样的语料库可以作为句法规律研究的重要参考。
孙建功等,基于标记语料库对单句句型句模对应关系进行研究,归纳总结出现代汉语单句句型和句模对应关系的主要特点。
杜婷借助《国家语委现代汉语通用平衡语料库》的标注语料库(在线提供免费检索的语料约2000万字),对现代汉语中小类词口部动词的频度进行了统计,进而发现其语法语用规律。
对语料库的标注工作,既是语料库建设中的一个重要环节,也丰富了语料库的利用价值,使其在句型、词汇等方面的研究中可以发挥出更大的作用。
(二)基于静态语料库的研究静态语料库是收集某一固定时期的共时语言使用样本构成的语料库,属于共时语料库的一种。
现有的许多类型的词典,被众多语言研究者运用到语言学研究中,形成基于静态语料库的现代汉语研究范式。
专业的语料库语言分析语料库是指大量收集并整理起来的自然语言文本资源的集合。
在语言学和计算机科学领域,语料库是进行语言学研究和自然语言处理的重要基础。
语言分析是对语料库中的文本进行系统地处理和研究的过程。
本文将探讨专业的语料库语言分析的方法和应用。
一、语料库的构建与特点语料库的构建是一个相对复杂的过程,需要采集、整理、标注和存储大规模的文本数据。
常见的语料库类型包括平行语料库(Parallel Corpus)、单语语料库(Monolingual Corpus)和特定领域语料库(Specialized Corpus)等。
语料库的特点有多样性、真实性和大规模性。
多样性指语料库中的文本来自于不同的语言、文体和主题领域,能够涵盖各种文本类型的特征。
真实性指语料库中的文本是真实的语言数据,具有一定的时效性和可靠性。
大规模性指语料库中包含大量的文本数据,可以提供足够的样本数量进行分析和研究。
二、语料库语言分析的方法专业的语料库语言分析需要结合语言学和计算机科学的方法和技术。
以下是一些常用的语料库语言分析方法:1.词汇频率分析通过统计语料库中词汇的频率和分布情况,可以了解到不同词汇在语言中的重要性和使用情况。
词汇频率分析可以对文本进行关键词提取、词汇排序和热点话题挖掘等。
2.搭配分析搭配是指一组词在语境中经常一起出现的现象。
通过对语料库中的搭配进行分析,可以了解到词汇之间的搭配规律和固定搭配的使用频率。
搭配分析可以帮助改进词汇的搭配选择和提高语言表达的准确性。
3.句法分析句法分析是对语料库中句子结构和语法关系的分析。
通过句法分析,可以了解到句子的句法结构、成分之间的关系和句法规则的应用情况。
句法分析可以帮助理解句子的语法结构和语义含义,对翻译、文法教学和机器翻译等领域具有重要意义。
4.样式分析样式分析是对语料库中文本样式和表达方式的分析。
通过样式分析,可以了解到文本的体裁和风格特点、修辞手法和篇章结构等。
样式分析可以帮助提高写作能力和文本理解能力,对文学研究和科技写作等领域具有重要价值。
《当代汉语学习词典》配例分析汉语作为当代最被广泛使用的语言,是一门文化语言精英最重要的工具。
汉语词典,特别是配例分析汉语词典,对于语言精英来说是一个极其重要的学习资料,也是普及汉语的重要资料。
当代汉语学习词典的配例分析,又叫词典例句,是指在汉语词典中,将词义做出全面的解释,并且举出各种例子来辅助解释的分析方法。
当代汉语学习词典的配例分析也有很多种类,但是不管是哪种类型,都有一个共同的功能,就是为语言精英提供一个例句有益的学习环境,从而提高其正确使用汉语词汇的能力。
首先,当代汉语学习词典的配例分析可以帮助语言精英更好地理解汉语词汇的含义。
在汉语词典中,词义往往是用一句很短的句子来表达的,但是,有时候单纯的一句话可能不能完全表达清楚汉语词汇的含义,这时候,当代汉语学习词典的配例分析就显得尤为重要了,词典例句可以把汉语词汇的含义表达更加清楚明确,这样,语言精英就可以通过更多的例句来更好地理解汉语词汇的含义。
其次,当代汉语学习词典的配例分析可以帮助语言精英掌握汉语词汇在不同情景下的正确使用。
汉语词汇在不同情景下会有不同的使用方法,如果想要正确使用汉语,就需要知道汉语词汇在什么情景下能够使用,以及词汇如何被使用。
当代汉语学习词典的配例分析就可以帮助语言精英更加熟练地掌握汉语词汇的正确使用方法,以期能够正确无误地使用汉语词汇。
最后,当代汉语学习词典的配例分析还可以帮助语言精英掌握汉语语法以及汉语词汇的组合使用方法。
汉语语法是一门极其复杂的学科,要掌握汉语语法,就需要熟练掌握汉语词汇的正确使用方法,以及汉语词汇的组合使用方法。
当代汉语学习词典的配例分析可以让语言精英更好地理解汉语词汇的组合使用方法,从而让语言精英更加熟练地掌握汉语语法。
综上所述,当代汉语学习词典的配例分析对于语言精英来说是极其重要的学习资料,它可以帮助语言精英更好地理解汉语词汇的含义,更加熟练地掌握汉语词汇的正确使用方法,以及汉语语法的组合使用方法。
基于词典语料库的介词注释模式研究本文以《商务馆学汉语词典》和《现代汉语常用词用法词典》中的介词为研究对象,采用语料库技术,对《商务馆学汉语词典》和《现代汉语常用词用法词典》的介词词条注释语言进行标注,分析了两本对外学习词典在收录介词词目上的情况,并通过对词典中注释语言的分类和分析构拟了两本词典介词的注释模式以及理想的学习词典介词注释模式。
标签:介词对外学习型词典收词注释模式汉语在语法方面的最大特点就是缺乏表示语法意义的明显的词形变化,语序和虚词是汉语表达语法意义的主要手段。
介词属于虚词范畴,在汉语语法中主要起介引功能,往往需要依附其他词语,组成介词短语来充当句法成分。
介词在汉语词类中表现出的独特性和复杂性使外国学习者在掌握和运用汉语介词方面容易出现使用偏误。
对外学习型词典是学习汉语的重要工具,学习词典收词是否充分、注释结构是否合理、用法解释是否恰当等等都直接影响着汉语学习者的查阅效果和学习效果。
基于上述现状,我们选择有较大影响力的两本学习词典——《商务馆学汉语》(以下简称《学汉语》)和《现代汉语常用词用法词典》(以下简称《用法》)建设语料库,按词类分类提取注释语言。
通过建立两本字典中所有介词词条的语料库,对二者进行收词、注释模式的对比研究。
一、《学汉语》和《用法》收录介词词目情况根据《学汉语》和《用法》中对词性的标记,我们将所有标注有“(介)”,即标明介词词类简称外加括号的条目全部抽取出来,穷尽提取后,分别得到介词条目62个、64个。
利用Access对《学汉语》和《用法》所收词条进行统计,统计出《学汉语》中的介词词条共62个,《用法》中的介词词条共64个。
两本字典共有的介词条目有:把、被、比、朝、从、当、对、给、跟、和、叫、通过、往、为(wei2)、为(wei4)、为了、在、按、按照、趁、对于、关于、将、就、随、替、同、沿、以、由、由于、于、与、照、自、自从、冲、除、据、凭、奔、乘、根据、连、拿、让、依、至于,共48个。
谈对外汉语词典被释词的搭配原则在对外汉语词典编纂过程中,语料库的运用显得日益重要。
一部好的词典应该充分利用语料库,注重体现被释词的常规搭配和高频搭配,注重常用搭配的分布和语法搭配的框架等。
“名词+交流”和“交流+名词”的结构占了“交流”搭配的60%左右。
因此,在对外汉语词典编纂中应该大幅增加这两类搭配的举例,并且描绘和提供常用高频搭配下的实际例句,以提高非母语学习者的语感,增强其学习效果。
标签:对外汉语词典词语搭配语料库一、被释词搭配的语料库原则在语言研究中,语料库是一个由大量的真实语言信息组成,专供语言研究、分析和描述的语言资料库。
当今我们谈及词典编纂的语料库时,一般都指电子语料库。
这种语料库一般由大量不同来源的词语、句子、段落等组成,而这些材料又都是通过词语切分、属性标注等方式存入语料库的。
研究者利用计算机可以从数百万、千万乃至上亿字的语料中调出某个词、短语或者句子的实例。
所以,使用语料库可以快速针对某一个词汇搜索出海量的句子,这些句子涉及面广、内容真实、题材多样、表达自然,如能恰当使用,应该能满足对外汉语词典编纂对于例句的需求。
语料库技术在对外汉语词典编写中的地位和作用越来越突出,可以说今天的词典编纂工作在某种程度上已经离不开语料库了。
随着语料库规模的扩大、类别的增多以及功能的日益完善,可以为对外汉语词典编纂提供的素材和参考内容越来越丰富。
很难想象如果词典编纂者还像过去那样靠主观语感、人为造句来编写词典,其科学性、实用性、适用性、准确性等如何得到保证。
语料库技术的应用早在上世纪七八十年代已有相关研究,而利用语料库编纂对外汉语词典的研究则是近些年的事情。
靳光瑾[1]、郑艳群和刘亚非[2]、郭曙伦[3]、季瑾[4]等都提出了语料库技术在对外汉语词典编写中的一些应用设计和设想,并在这方面进行了有益的探索。
一部词典包含三个最重要的构成因素,它们分别是被释词、释义与例句。
其中被释词是一部词典的基础和核心,任何一部词典都要选定其收词范围、收词条目。
一、概述现代汉语分词技术在自然语言处理领域具有重要的地位,而大规模现代汉语分词语料库的构建与应用则对分词技术的发展和应用具有重要意义。
本文将探讨大规模现代汉语分词语料库的构建及其在自然语言处理领域的应用,并对其发展前景进行展望。
二、大规模现代汉语分词语料库的构建1.背景现代汉语分词是自然语言处理中的核心技术之一,其准确性直接影响着文本理解、信息检索、机器翻译等应用的质量。
而构建大规模的现代汉语分词语料库是提高分词技术准确性的重要途径之一。
2.方法构建大规模现代汉语分词语料库的方法主要包括人工标注、自动标注和半自动标注三种。
人工标注需要大量的人力物力成本,但标注的准确性较高;自动标注虽然效率高,但准确性较低;半自动标注则是综合了人工标注和自动标注的优点,是当前较为常用的方法。
3.技术挑战构建大规模现代汉语分词语料库的过程中,面临着标注准确性、标注一致性、标注成本等一系列技术挑战。
如何有效解决这些技术挑战,成为了构建大规模分词语料库过程中的重要问题。
三、大规模现代汉语分词语料库的应用1.自然语言处理大规模现代汉语分词语料库在自然语言处理中具有广泛的应用,包括信息检索、文本分类、情感分析、机器翻译等多个领域。
分词语料库的质量直接影响着这些应用的效果。
2.人工智能随着人工智能技术的发展,大规模现代汉语分词语料库也成为了训练智能模型的重要数据源。
优质的分词语料库有助于提高人工智能系统的准确性和鲁棒性。
3.文本挖掘大规模分词语料库可以帮助研究人员发现文本中的关键信息、模式和趋势,对于文本挖掘研究具有重要意义。
四、大规模现代汉语分词语料库的发展前景1.深度学习技术的应用随着深度学习技术的发展,将其应用于大规模现代汉语分词语料库的构建和应用成为了一个新的趋势。
深度学习技术能够提高分词语料库的准确性和效率,对于解决分词技术中的一些难题具有重要作用。
2.跨领域融合大规模现代汉语分词语料库的应用领域将不断扩展,与其他领域的融合也将成为发展趋势。
语料库语言学的方法在《现代汉语常用实词搭配词典》中的应用作者:刘凤芹来源:《现代语文(语言研究)》2008年第04期摘要:语料库语言学的方法在词典编纂中的应用已有三十年的历史了,但汉语研究中对其应用仍显不足。
《现代汉语常用实词搭配词典》的编纂,是对语料库语言学方法应用的一种尝试。
由于这部词典是以第二语言学习者为对象的,所以选词范围限制在《汉语水平词汇与汉字等级大纲》的8822词中的实词,释义尽量简明、有代表性。
采用的是基于语料库数据的方法,即从语料库出检索出某一实词的所有搭配结构,并且在人工干预下描绘出它的搭配词的语义类别,并举出其有代表性的搭配结构和范围。
关键词:语料库搭配关键词搭配词一《现代汉语常用实词搭配词典》①是一部专门为第二语言学习者学习汉语编纂的实用型词典。
由于第二语言学习者缺乏汉语语感,再加上不同的词语有不同的搭配词,搭配中有词性、词义、词形和语用等制约因素,所以有时学生即使明白了词义,在使用中也常常会出现搭配不当的现象。
对外汉语教学工作的实践证明,相当多的语句偏误出现在搭配上,这种搭配不仅表现为语法搭配,更表现为语义搭配。
现有的几部搭配词典,虽然介绍了语法搭配,列举了搭配词条,但对于搭配词的语义类别没有概括,举例代表性不够,所以留学生在学习中没有很好的参考工具,因此,编写一部适用于以汉语为第二语言的学习者的搭配词典,就显得尤为重要。
在这部词典中,不仅指出了某个词常常和哪类词搭配,而且概括出搭配词的语义类,然后再列举其有代表性的结构。
同时对有些词还概括出语音搭配,即两个搭配词的音节和谐问题。
另外,在语用方面也有所兼顾,如有的词书面语色彩突出,在词典中都有说明。
因为词典的使用群体是留学生,所以收词范围、释义等都以《汉语水平词汇与汉字等级大纲》8822个词为参照。
具体特点如下:(一)收词和释义:词典以汉语水平考试大纲中的8000多个词为基础,剔除虚词、单纯的构词成分以及个别搭配特点不明显的实词。
释义可参考各类工具书和各种对外汉语教材,尽量适合以汉语为第二语言学习者学习阶段的水平,力求浅显简约,使用最常用最基本的少量核心词,具体标准就是将释义用词的范围控制在汉语水平考试大纲中的3000余个甲、乙级词语范围之内。
(二)搭配结构的选择:考虑到外国人学习汉语的需要,本词典不反映词目的全部语法功能,所收词目不列举其全部搭配结构,只选收外国人学习汉语时容易出现问题的搭配结构和代表性的结构,并概括出搭配词的语义类。
(三)搭配结构的排列:词典分义项列举词目的搭配情况首先根据词语的搭配能力,分别列举词目与不同类词语的自由搭配情况。
自由组合尽量指明搭配范围(即概括出搭配词的义类),并举例列举(列举搭配词语有代表性),有一定限制性的组合尽量列举全部搭配词语。
例句基本不出现。
(四)不能搭配的结构:搭配项列举完后,可根据留学生使用词语的情况,注明词目不与哪类词语搭配以及其他需要注意的事项,以▲标出。
②二在词典编纂过程中,拟采用语料库数据支持的方法,主要有基于语料库数据的方法(data-based approach)和语料库数据驱动的(data-driven approach)方法。
这两种方法从语料库语言学的兴起开始,已经有30年的历史了,其中卓有成效的研究有(Jones & Sinclair,1974;Sinclair 1987、1991、1996;Kjellmer,1984、1987、1991;Kennedy,1990)。
之所以采用语料库语言学的方法,是因为词语搭配中呈现出共现性、相对稳定性和不可解释性,这些特征有的可以从语法、语义的角度加以解释,但有些是人们长期习用的结果,表现出一些统计学特征,统计学特征就需要语料库证据的支持,才能更全面。
因此,有了合适规模的语料库,就可以全面、准确、快速地完成编纂任务,再也不用像《English Collocation Dictionary》那样历时二十年才编纂成书了。
语料库的建设,这是编纂搭配词典的基础平台。
目前语料库建设已经完成,建库时既利用了现有的语料库成果,又增加了一些适用于留学生的语料,其中既有各类学校编写的对外汉语教材,又有现当代汉语语料。
题材、各类语料的比例力求科学合理。
有了语料库以后,具体方法的运用主要采用基于语料库数据的方法。
类联接是词语搭配研究中的一个重要概念,是“语法范畴在句法结构上的相互关系”(Tognini Binelli 2001:5)。
它不是指具体词与词的搭配,而是词的语法类别之间的搭配,如V+N、ADV+AD、N+N等都是类联接。
在此搭配词典中,是以词项为中心,将要研究其搭配结构的词项称为关键词,参照类联接框架,观察、概括和描述词项的搭配。
索引(concordance),是语料库中含有所研究的关键词的句子。
采用索引软件即可进行索引。
将要研究的关键词输入计算机,计算机就会按照编好的程序列举出索引。
目前,国外的Brown、COB等语料库都可以利用索引软件直接查询。
国内有北京大学汉语语言学研究中心的现代汉语、古代汉语、汉英双语语料库。
三语料库建设完成以后,可用索引软件从语料库中寻找含有某一关键词的所有索引,从索引中寻找搭配结构。
关键词有词性的区别,可按照词性将索引进行粗分类,将同一词性的视为一类,然后按类归纳。
同一词性的词有单义与多义之分,对于多义词可以按照义项再分类,同一个义项的归为一类,并对索引进行归类,单义词不存在再分类的问题。
按词性、义项分类完毕以后,检查关键词与它的左右搭配词,看其左右搭配词中实词结合的紧密程度,虚词剔除。
如和左搭配词更能构成一个完整的结构,就提取关键词和左搭配词,如和右搭配词更能构成一个完整的结构,就提取关键词和右搭配词。
有时根据意义同时提取左右搭配词,视情况而定,但要以表达一个完整的意义为准。
搭配词也存在词性问题,根据词性,就可提取出类联接。
再归纳同一类联接的搭配词的义类,从而列举出某一关键词的搭配范围。
归纳义类不是随意而为的,参照了《同义词词林》的义类划分标准,并在确保意义准确的情况下尽量用浅显的语言概括出来,在搭配范围后列举典型例证,兼顾到所有的搭配范围。
这就是基于数据的方法,用这种方法,研究者凭借丰富的资源,可对关键词的搭配情况和搭配特点进行较为扎实的概括,如果语料库容量比较大,且有一定的代表性,那么研究结果就有较高的效度。
由于这部词典收词选取的是有代表性的搭配结构,而不是所有的自由组合都不加取舍地收进来。
所以,在索引中就有一个进一步取舍的问题。
对于在语料中偶然出现的搭配,不是仅靠直觉,而是计算出关键词和搭配词的共现频率。
在用检索软件检索关键词后,将所有的搭配词按降频排列,非常低的共现频率不予考虑,这样就可避免偶然搭配,很好地体现编写体例中的代表性特征。
我们从北大CCL现代汉语语料库中查到的“选拔”一词的索引有3804条,下面是部分索引:(1)国统考是我国选拔硕士生的主要方式,它分为初试和复试。
(2)在98MBA联考的考生中选拔,而不再组织统考或单考。
(3)主要的原因是美国大多数商科院校不懂得如何选拔那些清楚如何在中国做生意的大陆中国人做留学生。
(4)要论上阵打仗的本领,你不如我;至于选拔人才,任用贤人,我比不上你。
(5)朝廷设置官员,为的是治理国家,应该选拔贤才,怎么能拿关系来作选人的标准呢?(6)有一年,长安举行考试,选拔能够直言敢谏的人才。
(7)考官看了卷子,认为这两个人符合选拔的条件,就把他们推荐给唐宪宗。
(8)样样精通,加上胆壮力大,后来被选拔做了小军官。
(9)他认为这正是他选拔人才、改革文风的好机会。
(10)国际水平的定期杂志,而且还承担了选拔诺贝尔物理、化学、经济三个领域的获奖者的任务。
(11)就是通过全国竞赛和不列颠数学奥林匹克选拔的。
(12)实际上也是从中选拔人才,任用做官。
(13)一些政治开明的统治者从被统治者的最下层选拔出个别突出的人才,破格委以重任。
(14)希望通过新制度不拘一格选拔人才,壮大封建地主阶级的力量。
(15)孔子认为选拔人才的标准是“志于道、据于德、依于仁、游于艺”。
(16)这时,过去通过军功、养士选拔人才的办法已经不能适应现实的封建中央集权制度(17)曾下诏强调要以“四科”辟士,这是指选拔人才应该掌握的四方面标准。
(18)评价教育质量、选拔专业人材、诊断病人,鉴别超常、低常儿童……(19)通过国家考试结合平时的考核成绩选拔优秀的学生进校学习。
通过分析可知,“选拔”的对象一般为从事某种职业的人或某类人才,这类有3733条记录,极少和表示作品的词搭配,在我们的统计中只发现71条记录。
高频搭配词见表1。
另外,在词语搭配研究中还有语料库数据驱动的方法,这种方法没有先入为主的观念,完全由统计数据驱动。
这种方法有一套完整的概念:节点词(node)、跨距(span)和搭配词(collocate)等。
节点词即关键词,跨距是节点词在其左右的作为其语境的词的数目,一般为-5/+5或-4/+4,即在节点词左右各取5个或4个词为其语境。
将跨距内所有的搭配词与节点词的共现情况进行计算,根据公式,计算出T值(判断词项间预见和吸引程度的尺度)或MI 值(判断词语间搭配强度),目的是计算搭配词与节点词的共现频率,寻求典型搭配。
这种方法适用于大型语料库研究,也有利于发现新的语言现象。
四《现代汉语常用实词搭配词典》的服务对象决定了语料的选择、搭配结构和搭配范围的确定,这只是语料库语言学的方法在词典编纂中的一个尝试,在语料库详实全面的材料、完善的检索统计功能和合理的人工干预下,相信这部词典定会准确、全面、科学而又实用。
附注:①《现代汉语常用实词搭配词典》是河北师范大学杨同用教授正在研制的一部词典。
②参照杨同用《关于编纂的设想》,未公开发表。
参考文献:[1]卫乃兴.搭配研究50年:概念的演变与方法的发展[J].解放军外国语学院学报,2003,(3).[2]卫乃兴.基于语料库和语料库驱动的词语搭配研究[J].当代语言学,2002,(2).[3]邓耀臣.词语搭配研究中的统计方法[J].大连海事大学学报,2003,(12).[4]林杏光.论词语搭配及其研究[J].语言教学与研究,1994,(4).[5]王建新.语料库语言学发展史上的几个重要阶段.外语教学与研究,1998,(4).[6]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002.[7]John Sinclair.Corpus Concordance Collocation[m].上海:上海外语教育出版社,1999.(刘凤芹,青岛大学汉语言学院)。