国内主要语料库总汇
- 格式:docx
- 大小:54.13 KB
- 文档页数:3
国家语委现代汉语语料库介绍国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。
国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。
国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。
一、国家语委语料库的组成国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。
具体类别如下:1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律。
(2)历史:历史、考古、民族。
(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗。
(4)经济:工业经济、农业经济、政治经济、财贸经济。
(5)艺术:音乐、美术、舞蹈、戏剧。
(6)文学:小说、散文、传记、报告文学、科幻、口语。
(7)军体:军事、体育。
(8)生活2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。
3.综合类语料由应用文和难于归类的其他语料两部分组成。
应用文使用很广泛,主要及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等(3)司法文书:诉讼、辩护词、控告信、委托书等(4)商业文告:说明、广告、调查报告、经济合同等(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等(6)实用文书:请假条、检讨、申请书、请愿书等。
国家语委现代汉语语料库的数据量包括新增的1000万字新语料已经达到了1亿字,已经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料以及1992~2002时间段的部分语料。
二、国家语委语料库建设的主要科研成果如下:1)5000万字带有分词和词性标注的汉语语料2)语料库加工规范3)1000万字新语料,语料库总规模达到1亿字4)词语切分和词性标注软件5)100万字(5万句)句法树库6)树库加工规范8)树库标记集规范9)语料库词语切分和词性标注软件10)语料库校对加工工具软件11)语料库质量检查工具软件12)语料库例句检索工具软件13)语料查询与统计工具软件14)语料库管理工具软件15)树库句法分析器软件16)树库校对软件17)相关研究论文三、国家语委语料库的应用目前,国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部863计划课题智能中文信息处理平台、中文信息处理应用基础研究项目以及973计划课题中文语音语言资源联盟项目等多个科研项目提供了支持,为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务,也为东芝(中国)研发中心、富士通研究院等企业提供了高质量的汉语语料资源。
国内汉语语料库概况国内汉语语料库概况【摘要】本文概述了语料库的起源和开展的历史,着重从中国语料库的建设与开展出发,列举近二十年常用的大型语料库,并对中国语料库语言学研究存在的问题和开展趋势等方面进行了分析,为语料库的建设和语言学研究提供参考建议。
【关键词】汉语;语料库;语言学0 引言自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为根底的语言学研究中,随着计算机技术的迅速开展,世界各国在语料库的建设上成绩显著。
不同语言、不同类型、不同规模的语料库越来越多。
语料库的广度越来越大,开发加工的深也日益加深。
语料库在语言学研究和自然语言处理中发挥的作用越来越大。
自第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多年的历史。
而国内的语料库研究也有30多年的历史,并在上世纪90年代得到飞速开展,语言学与计算机技术加速融合,不同的学者和专家秉着不同的出发点,在各种角度和各种层次上进行了大量实证研究,这使得我国的语料库语言学迅速开展繁荣。
1 语料库和语料库语言学1.1 语料库和语料库语言学的定义语料库:是指按照一定的语言学原那么,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。
语料库语言学:在文本语料的根底上进行语言研究的一门学科。
语料库语言学通过语言现象出现的概率对语言材料进行研究。
这里的语言材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观性,研究结果更加真实可靠。
1.2 语料库在语言学研究领域的应用语料库应用对语言学研究的主要改良有:保证了语料的客观真实性,排除了语言学家的主观性;借助计算机的储存能力,提高了研究的广度和深度;提高了工作效率,减少了人工误差;使语料资源具有共享性。
语料库在语言学研究中主要的应用领域有:词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研究;方言研究等等。
CLEC中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计 1070602言语失误标注原则1. 简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2. 分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past,[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误people are 之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
GPT的中文语料库可以包括各种中文文本,例如新闻报道、小说、散文、科技文章、论坛讨论、博客文章等等。
以下是
一些中文语料库的例子:
1. 人民日报:人民日报是中国的主要官方媒体,其报道
的内容涵盖了政治、经济、文化、社会等各个领域,具有很
高的权威性和影响力。
2. 互联网电影资料库(IMDb):IMDb是一个国际知名的
电影数据库,其中包含了大量的中文电影信息,包括影片简介、演员阵容、导演信息等等。
3. 维基百科(Wikipedia):维基百科是一个国际性的百
科全书网站,其中也包含了大量的中文词条和文章,涵盖了
各种主题和领域。
4. 知乎:知乎是一个中文问答社区,其中包含了大量的
中文问题和答案,涵盖了科技、人文、社科等各个领域。
5. 百度百科:百度百科是一个中文百科全书网站,其中
包含了大量的中文词条和文章,涵盖了各种主题和领域。
需要注意的是,不同的语料库具有不同的特点和用途,需
要根据具体需求进行选择和使用。
语言学常用语料库
以下是一些语言学常用的语料库:
- Brown语料库:这是一个基于英语的语料库,包含了1961年至1979年间推广的1,000,000个单词的样本,覆盖了各种文体和题材。
- COCA(Corpus of Contemporary American English):这是一
个覆盖美国当代英语的语料库,包含了1990年至今的一亿多
个单词样本。
- BNC(British National Corpus):这是一个覆盖英国英语的
语料库,包含了1980年代至1993年间的一亿个单词样本。
- CHILDES(Child Language Data Exchange System):这是一
个收集婴儿和儿童语言数据的数据库,用于研究儿童语言发展。
- Penn Treebank:这是一个标注了句法和语义信息的英语语料库,用于自然语言处理研究。
- EuroParl语料库:这是一个包含欧洲议会会议记录的多语言
语料库,可以用于研究多语言对比和机器翻译。
- COrE(Corpus of English):这是一个以英语为基础的多样
化语料库,包含了来自不同国家和地区的语言样本,用于研究语言变体和语言接触。
- WALS(World Atlas of Language Structures):这是一个收集了世界各地不同语言结构的数据库,可以用于跨语言比较和语言学理论研究。
这些语料库可以通过在线平台或特定的研究机构访问和获取。
使用语料库可以帮助语言学家进行语言研究、语言分析和理论构建。
三个汉语中介语语料库对比分析随着汉语在全球的普及和影响力的提升,汉语中介语语料库的发展也日益受到人们的。
中介语语料库是第二语言习得研究的重要工具,能够反映出第二语言学习者在习得过程中的语言使用情况和特点。
本文将对三个汉语中介语语料库——国家社科基金语料库、国家汉语水平考试中心语料库和北京大学汉语中介语语料库进行对比分析。
国家社科基金语料库是由北京语言大学牵头建设的大型汉语中介语语料库,涵盖了不同汉语水平的学习者在不同学习阶段所使用的语言材料。
该语料库包含了书面语和口语材料,其中书面材料包括作文、翻译、阅读等,口语材料包括口语表达、口语考试等。
该语料库的特色在于对不同水平的学习者进行了标注和分类,有利于针对不同水平的学习者进行深入研究。
国家汉语水平考试中心语料库是国家汉语水平考试中心建设的大型汉语中介语语料库,主要涵盖了中高级水平学习者的语言材料。
该语料库以测试和模拟试题为主,包括听力、阅读、写作等部分。
该语料库的特色在于其试题均来自国家汉语水平考试的真实考题,具有较高的真实性和可靠性。
北京大学汉语中介语语料库是由北京大学对外汉语教育学院建设的中级汉语学习者使用的中介语语料库,主要涵盖了中高级水平学习者的语言材料。
该语料库包含了各类写作材料,包括日记、作文、翻译等,同时也包括口语表达和口语考试等材料。
该语料库的特色在于对学习者的各类写作材料进行了细致的标注和分类,有利于针对不同类型的学习者进行深入研究。
国家社科基金语料库和国家汉语水平考试中心语料库均属于大型中介语语料库,但两者的语料来源和规模存在一定差异。
国家社科基金语料库的书面材料来源广泛,包括作文、翻译、阅读等,而国家汉语水平考试中心语料库则主要来源于真实的考试试题。
在规模方面,国家社科基金语料库的口语材料相对较多,而国家汉语水平考试中心语料库的书面材料则更为丰富。
北京大学汉语中介语语料库相对较小,但也有一定的代表性。
其材料来源相对较为集中,主要涵盖了中高级学习者的各类写作材料。
中文通用语料集
以下是一些中文通用语料集的示例:
1. 中文维基百科语料库:包含了维基百科上的中文文章,涵盖了各个领域的知识和信息。
2. 中文新闻语料库:包含了新闻报道的文本,涵盖了政治、经济、文化、体育等各个方面的新闻事件。
3. 中文论坛语料库:包含了各种中文论坛上的帖子和评论,可以用于研究用户观点、情感分析等。
4. 中文微博语料库:包含了微博上的用户发布的短文本,可以用于研究社交媒体上的话题和趋势。
5. 中文电影字幕语料库:包含了电影的中文字幕,可以用于研究电影对话和情感表达。
6. 中文小说语料库:包含了中文小说的文本,可以用于研究文学作品和文本生成。
这些语料库可以在互联网上找到,或者通过一些语料库平台和研究机构获取。
请注意,使用语料库时应遵守相关的版权和使用规定。
语言翻译必备:国内外23个语料库推荐语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
下面推荐一些优质的语料库资源。
国内语料库资源1. 国家语委现代汉语语料库 现代汉语通用平衡语料库现在重新开放网络查询了。
重开后的在线检索速度更快,功能更强,同时提供检索结果下载。
现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
2. 国家语委古代汉语语料库 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。
同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
3. 北京大学“《人民日报》标注语料库”4. 北大语料库——北京大学中国语言学研究中心 北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。
其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。
正在此基础上做汉英对照短语库,预计规模将达数十万条。
(汉英双语语料库目前仅对北大校内用户开放)5. 北京语言大学高翻学院的“高翻记忆库”6. 清华大学汉语均衡语料库TH-ACorpus7. 中央研究院“现代汉语平衡语料库” 专门针对语言分析而设计的,每个文句都依词断开,并标示词类。
语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。
现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
8. 中央研究院“近代汉语标记语料库”9. 中央研究院汉籍电子文献(瀚典全文检索系统) 包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。
四大方言语料库转让价格说明一、语料库简介RASC863(863 annotated 4 regional accent speech corpus)是863四大地方(上海、广州、重庆合厦门)普通话语音语料库。
每个方言点的发音人为200人(100男+100女),共800人。
RASC863对所有800人的录音数据均做了语音学标注,称为“粗标注”;并在每个方言点挑选出20人(共80人)的语音数据做了“精细标注”。
(详见语料库标注规范)二、语料库转让价格说明RASC863语料库的转让价格,可以根据需求的不同而不同。
比如,可以需要粗标库(含语音和标注)、细标库,或者仅需要语音数据等。
另外,转让价格根据研究和商用的目的不同,价格也不同,下面是用于研究的具体转让价格:1、粗标库价格粗标库:含有“口语独白部分”和“其他部分”的语音和标注数据。
以每个方言区每个发音人为例,详见下表。
表中,份指每人的数据,每个方言点有200份。
所以,每个方言点语料价格如下:口语独白部分:声音价格2000元,标注价格6000元,合计8000元;●其它部分:声音价格8000元,标注价格4000元,合计12000元;●每个方言点“粗标库”的总价格:2万元,单买声音部分1万元。
当然也可以不买“口语独白部分”,具体价格根据需求定。
2、精标库价格精标库:每个方言点中选20个人的数据进行精标。
以每个方言区每个发音人为例,详见下表。
每个方言点有20个人的精标数据,所以,每个方言点语料价格如下:●声音价格800元,标注价格2400元,共计3200元。
注:精标库部分的所有声音数据来源于粗标库,所以如果已经购买了粗标库,此处只买精标的标注部分即可。
3、数据库价格的其他说明●每个方言点的总价格为:20000 + 2400=22400元。
●全部四个方言点的价格分别以上述价格乘4即可。
●企业购买,用于商业目的,其价格为上述价格的5~8倍。
●后附RASC863语音部分的数据量。
普通人也能用的9个语料库网站,做研究、学外语的来看看提到语料库,很多人脑中浮现出这样的画面——或者这样的——但其实,语料库可以是我们做(语言)研究、学外语的好帮手。
比如,你可以在某些语料库查到最地道的英语表达,也可以听到世界各地的英语口音。
今天就为大家介绍9个语料库网站——1. 语言结构世界地图集Word Atlas of Language Structure知道阿伯卡茨语有多少元音和辅音?波罗罗语的词缀有几种形态?恰卡通戈米斯特克语有几种声调?想回答这些问题?你需要的只是登陆这个名为The World Atlas of Language Structures Online(语言结构世界地图册,简称WALS)的网站这里有各类语言分布的详细地图,有对于世界上2600多种语言192个语言学特征的详细记录,非常适合语言爱好者。
嗯,妈妈再也不用担心我被多语狂魔们实力嘲讽了,随便选出一个语言了解一下,足以技惊四座!详细的使用指南以及更多精彩内容,午餐早已备好,我不会这门语言,但我可以查到关于它的一切 | 语言学午餐2. 语言口音档案馆the Speech Accent Archive大家学英语这么多年,基本上属于身经百战了,哪个地方的英语口音没听过,什么纯正伦敦音,印度咖喱腔,苏格兰懵逼腔,布鲁克林街头腔,那是如数家珍。
但是,你听过刚果金非洲小哥的英语口语嘛?你了解玻利维亚大妈的英语口音嘛?喏,这个名为the Speech Accent Archive 的网站绝对可以满足各位英语语音控的猎奇愿望。
该数据库搜集了几百名来自世界各地,不同民族语言背景的人们针对同一段文字的录音资料,每段录音都详细记录了音频提供者的详细背景资料,每段语音也很详细的进行了转写。
对于研究者来说,可视之为研究英语使用者发音特征的独门利器;对普通人来说,则是一个了解各地英语口音的难得窗口。
3. 当代美国英语语料库COCA想知道某个单词在新闻和小说中的使用有什么差异?英文写作的时候想知道自己写出来的英语搭配够不够地道?想知道背下多少单词就可以流利阅读各类小说报纸?嗯,你需要的只是一个语料容量巨大的英语语料库,COCA恰好可以满足你的这些需求。
如果你也搞语言,你会用到的语料库~~中央研究院现代汉语标记语料库(现代汉语平衡语料库):.tw/SinicaCorpus/这是首页。
进入中文版,就是这个:.tw/ftms-bin/kiwi1/mkiwi.sh中央研究院近代汉语标记语料库:.tw/Early_Mandarin/或.tw/cgi-bin/kiwi/pkiwi/pkiwi.sh中央研究院汉籍电子文献(瀚典全文检索系统).tw/ftms-bin/ftmsw3国家现代汉语语料库:http://124.207.106.21:8080/(不知道是不是网络的原因我没打开)国家语委现代汉语语料库:/retrieval/index.html(同上,也没打开~~~~(>_<)~~~~ 不知道这俩一样不)树图数据库:.tw/北京大学中国语言学研究中心,简称CCL语料库检索系统(包括:现代汉语语料库、古代汉语语料库、汉英双语语料库)/Yuliao_Contents.Asp北京大学《人民日报》标注语料库:北京语言大学的语料库:/kych/H.htm清华大学的汉语均衡语料库TH-ACorpus:/ainlp/source.htm山西大学语料库/homepage/cslab/sxuc1.htm台湾南岛语典藏:.tw/Formosan/闽南语典藏:.tw/香港城市大学的LIVAC共时语料库:.hk/livac/或浙江师范大学的历史文献语料库: /xueke/hyywzx/xkjj.htm中国科学院计算所的双语语料库:/corpus/query_process.php 中文语言资源联盟:/xyzy.htm红楼梦汉英平行语料库:.sg/hlm/index.htm#SKETCHENGINE多语言语料库:每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。
其中汉语语料库是没有加工的生语料库,使用价值不大。
关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。
国家语委现代汉语通⽤平衡语料库国家语委现代汉语通⽤平衡语料库标注语料库数据及使⽤说明1. 国家语委现代汉语通⽤平衡语料库1.1 语料库全库国家语委现代汉语通⽤平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为⼿⼯录⼊印刷版语料;1997之后的语料约为3000万字符,⼿⼯录⼊和取⾃电⼦⽂本各半。
语料库的通⽤性和平衡性通过语料样本的⼴泛分布和⽐例控制实现。
语料库类别分布如下所⽰:1.2 标注语料库标注语料库为国家语委现代汉语通⽤平衡语料库全库的⼦集,约5000万字符。
标注是指分词和词类标注,已经经过3次⼈⼯校对,准确率⼤于>98%。
语料库全库按照预先设计的选材原则进⾏平衡抽样,以期达到更好的代表性。
标注语料库在样本分布⽅⾯近似于全库,不破坏语料选材的平衡原则。
标注语料库类别分布如下所⽰:标注语料库与全库的样本分布⽐较如下所⽰:(蓝⾊曲线为语料库全库;红⾊曲线为标注语料库)2. 国家语委现代汉语通⽤平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材⼤体作如下分类:(下⽂字数为建库时数据)2.1.1 教材⼤中⼩学教材单作⼀类,约2000万字。
2.1.2 ⼈⽂与社会科学的语⾔材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、⼼理、语⾔、教育、⽂艺理论、新闻学、民俗学等);·经济;·艺术(含⾳乐、美术、舞蹈、戏剧等);·⽂学(含⼝语);·军体;·⽣活(含⾐⾷住⾏等⽅⾯的普及读物)。
2.1.3 ⾃然科学(含农业、医学、⼯程与技术)的语⾔材料,应涉及其发展的各个领域。
拟从⼤、中、⼩学教材和科普读物中选取。
其中,科普读物约占6%,共300万字。
教材字数另计。
2.1.4 报刊。
以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。
国家知识库语料库
国家语料库依据平衡性原则选择语言原材料,它为我们的时代保存了反映中国20世纪现代汉语整体发展情况的语言材料。
世界上第一个标准语料库是1961年建立的美国Brown语料库,随着各国对语言作为一种国家资源的认识的深化,各国政府和学术机构都开始投资建设大型语料库。
1980年到1993年,欧美国家建设有超过50个语料库并投入使用。
上世纪90年代初期,随着计算机技术在中国兴起,国家语委于1992年12月提出建设现代汉语语料库项目。
该语料库采用小样本抽样的方法,以文体、时间和地区三个方面的平衡性为选材原则,最终确定了人文与社会科学类、自然科学类和综合类三大分类,每一大类下又分了若干小类,样本一共分布在37类里。
这37类并不是一成不变的,进入21世纪后,信息技术和电子科技的研究成为后起之秀,37种分类也为这些新出现的科目做出调整,自然科学类调整较大,增加了信息技术等方面的分类。
国家语料库的建立对于语言研究、语言教学、自然语言处理和文本挖掘等领域都具有重要意义。
它为我们深入了解语言的发展和变化提供了重要的数据支持,也为相关领域的研究提供了重要的资源。
国家语委现代汉语语料库
国家语委现代汉语语料库是国家语言文字工作委员会社会科学部
于20XX年创办的在线语料库,是中国唯一官方公开出版的现代汉语语
料库,也是世界上首个发布现代汉语语料库。
这个语料库收录了大量来自社会和文化各领域的信息,如报纸,
杂志等,这些信息其语言类型涉及白话文,俗话,文言文,广播,口
语等。
此外,语料库也收录了从2012年至今的所有现代汉语信息,充
实系统庞大的语料库。
语料库的成立极大地丰富了中国语言文学研究的数据来源,也帮
助语言研究者们发现和探索大量的语言风格变化。
因此,它已成为不
少语言学家、翻译人员、语言教育者、学者等有参考价值的资源。
语料库所收录的信息,其鉴别特点特殊,完全符合国际上对现代
汉语语料的最新要求。
它保证了语料库的翻译文本的精确性和可读性,使得语料库的最终使用能够达到国际质量水准。
国家语委现代汉语语料库的出现不仅使中国研究者有了方便实用
的工具,同时也为世界范围内研究中文语言文字提供了一个规范、全面、客观、准确的科学参考资料。
它对现代汉语的普及和发展具有极
大的促进作用,是中国现代语言文学研究的宝贵财富。