语料库的发展历程
- 格式:pdf
- 大小:1.25 MB
- 文档页数:65
语料库语言学简史语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。
以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。
1 早期的语料库语言学利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。
早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。
Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。
Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。
英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。
(王建新,1998:52)20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。
只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。
下面是早期语料库语言学的一些主要研究领域:1.1 语言习得研究19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。
这些研究都基于父母对幼儿话语及时记录的日记材料。
即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。
在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。
尊敬的各位领导、各位老师、亲爱的同学们:大家好!今天,我很荣幸站在这里,与大家共同探讨语料库分析这一激动人心的研究领域。
语料库,作为语言研究的宝库,为我们提供了前所未有的研究机遇。
接下来,我将从语料库的定义、发展历程、应用领域以及未来展望等方面,为大家展开一场关于语料库分析的盛宴。
一、语料库的定义与起源首先,让我们来了解一下什么是语料库。
语料库,顾名思义,就是收集了大量语言数据的数据库。
这些数据可以是文本、语音、图像等多种形式,它们涵盖了人类语言使用的各个方面。
语料库的起源可以追溯到20世纪50年代,当时,随着计算机技术的飞速发展,人们开始尝试将语言数据存储在计算机中,以便于进行语言研究和教学。
二、语料库的发展历程1. 初创阶段(20世纪50-70年代):这一阶段的语料库主要是以人工收集和整理为主,规模较小,应用范围有限。
2. 发展阶段(20世纪80-90年代):随着计算机技术的进一步发展,语料库的规模和种类不断扩大,应用领域也日益广泛。
这一阶段,语料库的收集和整理开始采用自动化手段,提高了语料库的构建效率。
3. 成熟阶段(21世纪至今):如今,语料库已经成为语言研究的重要工具,其应用领域不断拓展,包括自然语言处理、机器翻译、语言教学等。
三、语料库的应用领域1. 自然语言处理:语料库为自然语言处理提供了丰富的语言数据,有助于提高语言模型的准确性和效率。
2. 机器翻译:语料库为机器翻译提供了大量的双语语料,有助于提高翻译质量。
3. 语言教学:语料库为语言教学提供了丰富的教学资源,有助于提高教学效果。
4. 语言学研究:语料库为语言学研究者提供了大量实证数据,有助于揭示语言现象的规律。
5. 社会语言学:语料库为研究社会语言现象提供了有力支持,有助于揭示语言与社会之间的关系。
四、语料库的未来展望1. 语料库规模将进一步扩大:随着互联网和大数据技术的不断发展,语料库将收集到更多、更丰富的语言数据。
2. 语料库种类将更加多样化:除了传统的文本语料库,还将出现语音语料库、图像语料库等多种类型的语料库。
国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。
通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。
本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。
关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。
自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。
近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。
本文将重点探讨国内语料库研究的现状、成果及未来研究方向。
研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。
随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。
目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。
2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。
在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。
在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。
在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。
然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。
例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。
此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。
3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。
国内基于语料库的批评话语分析研究综述一、本文概述随着语言学研究的深入发展,批评话语分析(Critical Discourse Analysis, CDA)作为一种重要的语言学研究方法,在国内语言学界逐渐受到广泛关注。
本文旨在综述国内基于语料库的批评话语分析研究的现状和发展趋势,以期为相关研究提供有益的参考和启示。
本文将简要介绍批评话语分析的基本理论框架和研究方法,阐述其在语言学研究中的重要地位和作用。
本文将重点回顾和分析国内基于语料库的批评话语分析研究的主要成果和贡献,包括研究主题、研究方法、研究数据等方面的内容。
在此基础上,本文将探讨当前研究中存在的问题和不足,并展望未来的研究方向和发展趋势。
通过本文的综述,我们希望能够为国内批评话语分析的研究者提供全面的研究视角和深入的理论思考,推动国内批评话语分析研究的进一步发展。
本文也期望能够引起更多学者对批评话语分析的关注和兴趣,共同推动语言学研究的深入和创新。
二、国内批评话语分析的发展历程批评话语分析(Critical Discourse Analysis, CDA)作为一种语言学研究方法,自20世纪70年代末在西方兴起以来,逐渐受到国内外学者的关注。
在中国,批评话语分析经历了从引进介绍到自主研究的发展历程,成为语言学领域的一个研究热点。
早期的研究主要集中在翻译和介绍西方的批评话语分析理论和方法,如Fairclough的三维分析框架、Wodak的话语-历史分析方法等。
这些研究不仅为国内学者提供了理论支撑,也为后续的实证研究奠定了基础。
随着研究的深入,国内学者开始结合中国的社会文化背景,对批评话语分析进行本土化改造。
他们运用批评话语分析的理论框架,分析中国的社会问题,如贫富差距、性别歧视、环境污染等。
这些研究不仅揭示了社会问题的语言表征,也提出了相应的解决策略。
近年来,随着语料库语言学的发展,基于语料库的批评话语分析逐渐成为国内研究的新趋势。
学者们利用大规模语料库,对特定话题或事件进行定量和定性分析,揭示其背后的社会、政治和文化因素。
二语习得研究与日语学习者语料库-日语论文-语言学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——二语习得研究开始于20 世纪60 年代,经历了语言对比分析研究、错误分析研究,直至70 年代中介语理论的提出,使得二语习得领域有了的研究方向,标志着一门学科的形成。
以欧美语言,特别是英语语言学习者为对象的习得研究经过50 多年的蓬勃发展,无论从理论体系的构建,还是研究方法的多样化、研究内容的深度广度上都取得了丰硕成果。
尤其是近年来,国内外大型英语学习者语料库相继建立,基于学习者语料库开展对学习者语言特征的研究越来越多,成为二语习得研究的新兴领域。
而与英语相比,日语二语习得研究、学习者语料库的建设与应用都存在不足,本文对此进行探讨,希望能为日语教学与相关研究提供一些启示。
一、日语二语习得研究的历程和特点《日本语教育》( 日本日语教育研究界的权威学术杂志) 在20 世纪70 年代初刊载了错误分析的专题研究,这被认为是日语二语习得研究的开端。
毛文伟曾对《日本语教育》中发表的二语习得相关论文做过统计分析,他指出,日语二语习得研究的发展历程是: 20 世纪70 年代之前,二语习得类论文很少,日语本体研究与教学研究占主导。
70 年代以后,以日本在全世界范围内推广日语教育为契机,二语习得类论文不断增加,但长期停留在语言对比研究及学习者语言错误分析阶段。
而此时欧美二语习得研究已逐渐将学习者语言看做是向目标语言不断发展的独特的语言体系,从学习者错误分析研究步入中介语研究阶段。
在日本,直到90 年代后,中介语理论才得到普遍认可与应用,各个领域的二语习得研究也逐渐增加。
从以上分析可以看出,日本的二语习得研究虽然起步并不算晚,但与欧美的二语习得研究呈现出不同的特点。
欧美语言学界非常注重研究的理论背景与方法论,而日本语言学界的普遍做法是针对某一具体语言现象进行深入分析与细致探讨。
日语二语习得研究受这种传统理念影响,注重个案考察,缺少理论类研究,因此,日语二语习得研究发展较慢。
语料库语言学文献全文共四篇示例,供读者参考第一篇示例:语料库语言学是语言学的一个重要分支,它利用大量真实语言数据进行语言分析,并从中发现语言规律和模式。
语料库语言学的研究对象是语料库,即语言学研究的基本数据集合。
语料库语言学已逐渐成为现代语言学研究的重要工具和方法。
语料库语言学的发展语料库语言学最早起源于20世纪之初的语言学研究。
随着计算机技术的发展,语料库的规模和种类不断扩大,为语言学研究提供了丰富的语言数据。
现代语料库语言学借助计算机技术和大数据分析技术,可以快速、准确地处理大规模的语言数据,并从中提取有关语言规律和结构的信息。
语料库语言学的研究方法主要包括:1. 语料库构建:收集和整理大规模语言数据,并建立相应的语料库。
语料库包括不同类型的语言数据,如文本、口语数据、多媒体数据等。
2. 语料库查询:利用语料库查询工具对语料库进行检索和分析,提供找到所需语言数据的检索功能。
3. 语言统计分析:利用统计分析方法对语料库中的语言数据进行定量分析,发现语言规律和模式。
4. 语言信息提取:利用自然语言处理技术,从语料库中提取有关语言结构和语言使用的信息。
语料库语言学在语言学研究、教学、翻译等领域都有重要的应用价值。
在语言学研究方面,语料库语言学可以为语言规律的发现和理论建构提供实证依据。
在教学方面,语料库语言学可以帮助教师根据实际语言使用情况设计教学内容。
在翻译领域,语料库语言学可以提供语言使用的实例和参考,辅助翻译工作者更准确地理解和翻译文本。
随着云计算、人工智能和大数据技术的快速发展,语料库语言学将进一步发展和演进。
未来,语料库语言学将更加注重多模态语言数据的整合和分析,更好地理解和解释语言的多样性和复杂性。
语料库语言学也将更加注重跨学科合作,与计算机科学、心理学、社会学等学科融合,共同推动语言研究的发展。
总结第二篇示例:语料库语言学是一门研究自然语言现象的学科,通过对大量语言材料的分析和统计,揭示语言的规律和特点。
大语言模型的发展历程1. 早期语言模型的发展:在计算机科学的早期阶段,研究人员开始探索如何构建能够理解和生成自然语言的模型。
这些早期的语言模型主要基于规则和规则集,利用先验知识和语法规则来分析和生成文本。
2. 统计语言模型的兴起:统计语言模型引入了概率论的概念,通过统计大规模语料库中词语出现和组合的频率来预测下一个词语的概率。
这种基于数据的方法比起传统的基于规则的方法更为灵活和准确,使得语言模型在自然语言处理任务中得到了广泛应用。
3. n-gram模型的提出:n-gram模型是一种基于统计的语言模型,它假设一个词出现的概率只依赖于前面n个词。
通过计算词语的n-gram概率,可以对下一个词的出现进行预测。
n-gram模型简单高效,是语言模型的经典方法之一。
4. 神经网络语言模型的兴起:随着神经网络的发展,神经网络语言模型也开始崭露头角。
这些模型利用深度学习的方法,将语言模型表示为神经网络结构,通过训练大规模的文本数据,使得模型能够学习到词语之间的语义关系和语法规律。
神经网络语言模型具有较好的表示能力和泛化能力,能够更准确地预测下一个词语的概率。
5. Transformer模型的出现:Transformer模型是一种基于注意力机制的神经网络模型,由Vaswani等人在2017年提出。
Transformer模型在机器翻译和语言建模任务中取得了很好的效果,其自注意力机制能够更好地捕捉上下文信息,提高语言模型的预测能力。
Transformer模型成为了现代大语言模型的基础架构,后来的GPT、BERT等模型都是在Transformer的基础上进行改进和扩展。
6. 大规模预训练语言模型的兴起:随着计算能力和数据量的大幅增加,研究人员开始利用海量数据对语言模型进行预训练。
这些大规模预训练语言模型通过自监督学习的方法,先在未标注的数据上进行预训练,再在特定任务上进行微调,取得了惊人的性能。
其中,OpenAI的GPT系列和Google的BERT模型成为了代表性的大语言模型。
语法的演变与发展历程语法是语言中的重要组成部分,它规范了词汇的搭配和句子的构造,使得人们能够有效地沟通和表达思想。
作为一门学科,语法经历了漫长的发展历程,并逐渐形成了各种不同的体系。
本文将从古代语法体系的起源,到现代语法理论的演变,探讨语法的发展历程。
一、古代语法体系的形成在人类语言的早期发展阶段,语法并不以结构化的方式存在。
早期人类主要依靠语音、手势和图画等方式进行交流,语法规则还未形成。
然而,随着人类思维的发展和社会的进步,语法开始逐渐形成。
古代语法体系最早可以追溯到古代的文言文期间。
在古代中国,汉语的语法主要注重句子的结构、字句的搭配和词的用法。
各种典籍和经典作品中都有详细的语法描述,如《诗经》中的格律、《论语》中的断句等。
这些文献为后来的语法研究提供了重要的基础。
在欧洲,古希腊和古罗马时期也有类似的语法体系。
古希腊的语法研究主要集中在名词、动词和形容词等词类的变化和搭配规则上,而古罗马则进一步发展了语法的研究方法和分类体系。
著名的拉丁文法家奎因提尔斯对拉丁语的语法进行了系统的归纳总结,奠定了古代语法研究的基础。
二、语法理论的演变与发展随着语言学的兴起,对语法的研究也逐渐成为一门独立的学科。
在18世纪,法国启蒙运动期间,语法研究开始注重对语言规则和结构的描述和解释。
一些语法理论家提出了不同的语法体系,如笛卡尔的分析方法和西门·德·萨西尔的综合方法。
到了19世纪,语言学界出现了形式语法(形式主义)和功能语法(功能主义)两大流派。
形式语法侧重于语法规则的推导和形式化表示,如词法分析和句法分析。
而功能语法则重视语言的实际应用和交际功能,关注语言的意义和功能。
功能语法的代表性学派有结构主义和生成语法。
20世纪,随着计算机和语料库的发展,语言学研究进入了数量化的阶段。
生成语法学派在这个时期提出了更为复杂和精确的语法模型,如普遍文法理论和转换生成文法。
这些模型通过算法和规则来描述和分析句子的结构和语法。
corpora名词解释摘要:1.引言:介绍corpus 的背景和重要性2.定义:解释corpus 的含义和构成3.分类:介绍corpus 的主要类型4.应用:说明corpus 在自然语言处理和语言学研究中的应用5.发展:概述corpus 的发展历程和前景6.结论:总结corpus 的重要性和未来发展趋势正文:【引言】在自然语言处理和语言学研究领域,corpus 起着至关重要的作用。
corpus,即语料库,是一个庞大且具有代表性的文本集合,用于研究自然语言及其规律。
随着计算机技术、人工智能和机器学习等领域的飞速发展,corpus 在学术界和工业界中的地位日益显著。
本文将介绍corpus 的定义、分类、应用和发展趋势。
【定义】corpus 是一个包含大量文本的集合,这些文本来自于不同的来源,如书籍、报纸、网站、电子邮件等。
它们按照一定的标准和比例被筛选、整理和存储,以供研究人员进行自然语言处理、语言学分析和机器学习等应用。
语料库中的文本通常被“tokenize”成词汇或句子,并附加上诸如词性、句法结构、语义信息等注释,以便研究人员进行高效的分析和处理。
【分类】根据来源和用途的不同,corpus 可以分为以下几类:1.通用语料库:包含多种类型的文本,如新闻、书籍、社交媒体等,用于一般的自然语言处理和语言学研究。
2.专用语料库:针对某一特定领域或话题的文本集合,如医学、法律、政治等,用于深入研究和专业领域的应用。
3.平衡语料库:确保各类文本在语料库中的比例适中,以避免分析结果受到偏差的影响。
4.标注语料库:文本中包含详细的注释信息,如词性标注、句法结构标注等,便于研究人员进行精确的分析和处理。
【应用】corpus 在自然语言处理和语言学研究中具有广泛的应用,包括但不限于以下几个方面:1.词汇和语法分析:通过分析语料库中的文本,研究人员可以了解词汇和语法的规律和分布,从而为自然语言处理提供基础数据。
2.机器翻译和语音识别:corpus 为机器翻译和语音识别等应用提供了大量的训练数据,以提高模型的准确性和性能。
近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。
随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。
它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。
国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。
研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。
同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。
近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。
总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。
未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。
1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。
它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。
近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。
语料库语言学的定义在于其研究方法和数据基础。
其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。
语料库概念与语料库语言学基础知识语料库语言学是以语料库为基础的语言学研究方法。
语料库指的是大量真实语言使用情况的集合,可以包含各种类型的语言材料,例如口语、书面语和专业语言等。
语料库语言学主要涉及以下几个方面:1、语言描述和分析:通过对语料库中的语言数据进行收集、注释和分析,得到关于语言结构和功能的描述和分析。
2、语言学习和教育:通过语料库分析和应用,为语言学习者提供更真实、生动和有效的语言学习材料,同时也可以开发出更优质的语言教学软件。
3、自然语言处理:语料库作为自然语言处理技术的基础数据,能够为机器翻译、文本分类、信息检索等领域提供重要支持。
4、语言变化研究:通过比较不同时间段、地区和社会群体的语料库,可以研究语言变化的规律和特点。
在实际应用中,语料库语言学能够促进语言技术的发展,提高语言学研究的精度和可靠性,同时也给我们带来了更深入的语言理解和认知。
标题:语料库语言学研究的重要性一、语料库语言学的概念及发展历程语料库语言学,是指使用语料库进行研究的语言学分支,其研究对象是自然语言。
语料库是一个按照某种原则建立的、用于语言研究的庞大数据集合。
语料库语言学的理论基础是结构主义语言学、生成语法和实证语言学。
随着计算机技术的飞速发展,语料库规模越来越大,语料质量也越来越高,语料库语言学得以迅速发展。
二、语料库语言学的重要性1、提高语言教学效果语料库语言学可以通过收集大量语言数据来提高语音、词汇、语法和语用的教学效果。
比如,通过语料库分析来确定常见的语言错误类型,帮助学生避免这些错误;通过语料库调查来了解实际使用情况,让教学更接近实际使用。
2、推动语言研究发展语料库语言学以语料为基础,通过数据驱动的方法对语言进行分析,可以帮助我们更好地理解语言的本质和变化规律。
语料库语言学可以帮助我们更好地研究语音、词汇、句法和语用等多个方面,也能够关注不同社会群体间语言使用的差异,因此为语言研究提供了新的视角。
3、促进跨学科研究语料库语言学的方法论在不同领域都有应用。
语料库文体学文学文体学研究的新途径一、本文概述《语料库文体学:文学文体学研究的新途径》这篇文章旨在探讨语料库文体学在文学文体学研究中的应用及其所带来的新视角和新方法。
本文将首先概述语料库文体学的基本概念、发展历程及其在文学研究领域的重要性。
接着,文章将分析传统文学文体学研究的局限性和挑战,以及语料库文体学如何克服这些问题,为文学研究提供新的路径。
本文将总结语料库文体学的优势与局限性,并展望其在未来文学研究中的潜力和发展方向。
通过本文的阐述,我们期望能够推动语料库文体学在文学研究领域的应用,为文学研究注入新的活力。
二、语料库文体学的基本原理和方法语料库文体学,作为一种新兴的文学研究方法,其基本原理和方法主要基于大规模语料库的建设和分析。
其核心理念在于,通过对大量真实文本的统计和比较,揭示出语言的实际使用情况和文学作品的文体特征。
语料库文体学的基本原理在于,语言的使用是动态的、变化的,而非静态的、固定的。
因此,通过收集和分析大量的真实语料,可以更准确地揭示出语言的实际使用情况,以及文学作品中的文体特征。
这种基于大规模语料库的研究方法,不仅可以避免传统文学研究中的主观性和片面性,还可以提高研究的科学性和客观性。
语料库文体学的研究方法主要包括语料库的构建、语料的处理和分析、以及结果的解释和应用等方面。
在语料库的构建过程中,需要选择合适的语料来源,进行清洗、标注和分类等处理,以保证语料的质量和可靠性。
在语料的处理和分析方面,需要运用统计学、语言学和计算机科学等多学科的知识和方法,对语料进行深入的挖掘和分析。
在结果的解释和应用方面,需要结合具体的文学作品和语境,对分析结果进行解释和说明,以揭示出文学作品的文体特征和文学价值。
语料库文体学的基本原理和方法是基于大规模语料库的建设和分析,通过运用多学科的知识和方法,揭示出语言的实际使用情况和文学作品的文体特征。
这种方法不仅可以提高文学研究的科学性和客观性,还可以为文学批评、文学翻译和文学教学等领域提供新的思路和方法。
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况现在,国外的主要语料库还有:london-lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodic marking)。
ahi语料库:美国heritage出版社为编纂heritage词典而建立,有400万词。