国家语委现代汉语语料库介绍
- 格式:pdf
- 大小:1.49 MB
- 文档页数:44
国家语委现代汉语语料库介绍国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。
国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。
国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。
一、国家语委语料库的组成国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。
具体类别如下:1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律。
(2)历史:历史、考古、民族。
(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗。
(4)经济:工业经济、农业经济、政治经济、财贸经济。
(5)艺术:音乐、美术、舞蹈、戏剧。
(6)文学:小说、散文、传记、报告文学、科幻、口语。
(7)军体:军事、体育。
(8)生活2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。
3.综合类语料由应用文和难于归类的其他语料两部分组成。
应用文使用很广泛,主要及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等(3)司法文书:诉讼、辩护词、控告信、委托书等(4)商业文告:说明、广告、调查报告、经济合同等(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等(6)实用文书:请假条、检讨、申请书、请愿书等。
国家语委现代汉语语料库的数据量包括新增的1000万字新语料已经达到了1亿字,已经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料以及1992~2002时间段的部分语料。
二、国家语委语料库建设的主要科研成果如下:1)5000万字带有分词和词性标注的汉语语料2)语料库加工规范3)1000万字新语料,语料库总规模达到1亿字4)词语切分和词性标注软件5)100万字(5万句)句法树库6)树库加工规范8)树库标记集规范9)语料库词语切分和词性标注软件10)语料库校对加工工具软件11)语料库质量检查工具软件12)语料库例句检索工具软件13)语料查询与统计工具软件14)语料库管理工具软件15)树库句法分析器软件16)树库校对软件17)相关研究论文三、国家语委语料库的应用目前,国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部863计划课题智能中文信息处理平台、中文信息处理应用基础研究项目以及973计划课题中文语音语言资源联盟项目等多个科研项目提供了支持,为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务,也为东芝(中国)研发中心、富士通研究院等企业提供了高质量的汉语语料资源。
国家语言资源监测语料库介绍何婷婷杨尔弘侯敏华中师范大学计算机科学系国家语言资源监测与研究中心网络媒体语言分中心北京语言文化大学国家语言资源监测与研究中心平面媒体语言分中心中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心2005年,教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测中心,其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。
这三个分中心分别建设了平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库,它们共同构成国家语言资源监测语料库。
语料库包括网页、纯文本,并采用中科院自动化所的自动分词工具做了自动分词。
欢迎各界同仁共同开发、建设使用该语料库。
1、语料库现状1.1 平面媒体动态流通语料库(DCC)平面媒体语言分中心自2001年以来,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸的内容,作为平面媒体动态流通语料库的语料采集内容,目前,已经形成了近30亿字的语料库。
语料进行了元数据的标注、自动分词标注,语料库提供了生语料、分词标注语料的检索功能,并能够历时地查询词语使用的情况。
网址/。
根据网页栏目的分类体系,所有语料进行了分类。
类别包括15类:娱乐,游戏,文艺,体育,时政新闻_社会,时政新闻_军事,时政新闻_国内,时政新闻_国际,生活男女,汽车,旅游,科技,经济,教育,房产。
为实现语料库中的文本分类,建立了60万个文本的训练语料,语料规模约6亿字次。
1.2有声媒体监测语料库有声媒体语言分中心自2001年开始语料库的建设。
到目前为止,已建起一个多功能的、跨媒体的汉语传媒有声语言语料库。
每年以收视率为基本条件,综合考虑了“传播媒介(广播、电视)、媒体级别(中央、地方)、播出时间(黄金时间、非黄金时间)、节目样态(独白、对话、综合)、文本现存(是否有转写好的文本)”五个因素,采集了电台、电视台播出的有声节目的录音或录像及由其转写成的文本语料。
/yingyong/courses/corpusbase.htm语料库研究与应用综述语料库研究与应用综述 一 概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous ):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous ):只收集同一类内容的语料;(3)系统的(Systematic ):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized ):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual )、双语的(Bilingual )和多语的(Multilingual )。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:(1) 设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。
欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。
国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。
通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。
本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。
关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。
自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。
近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。
本文将重点探讨国内语料库研究的现状、成果及未来研究方向。
研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。
随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。
目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。
2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。
在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。
在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。
在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。
然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。
例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。
此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。
3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。
语料库简介及国内的语料库建设摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。
本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。
关键词:语料库;国内语料库;语料库语言学1、语料库发展综述语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
下面对语料库发展的四个时期进行分别介绍。
1.1手工语料库时期18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。
涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。
他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。
但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。
这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。
他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。
代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。
1.2 第一代电子语料库时期20世纪五十年代到80年代,出现了机器可读的语料库。
语料库来到了电子或电脑化的时代。
在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。
语料均为书面语,缺乏口语和手稿。
这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。
这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。
汉语语料库对对外汉语教学中语法研究的作用汉语语料库对对外汉语教学中语法研究的作用语料库是存放语言素材或语料文本的仓库,是按照语域分类收集并经过特殊编码的自然语篇总集,编码即对词语进行类别和功能的定义以及对以小句为单位的文法结构进行分析。
这些由大量实际使用的语言信息组成的真实材料,是语言统计的基础,是分析和研究语言规律和特征,开发软件,编纂辞书的可靠依据,更是语言教学中绝好的第一手资料。
对外汉语教学是将汉语作为外语或第二语言的教学,是一门新兴的边缘交叉学科,需要不断地从相关学科中汲取研究方法和应用成果以丰富自身的学科理论,促进学科发展。
由于计算机技术的飞速发展,其存储容量越来越大,速度也越来越快。
在这种条件下,以计算机存储的语料为基础的语言研究方法,便成为当今语言学任何分支学科研究的一种自然的、现代化的、甚至是不可或缺的辅助方法。
语法教学是对外汉语教学中的重点和难点,也是留学生如何把已知的词、词组组成句子、篇章的关键。
本文着重探讨这种将语料库作为主要信息来源,用统计来获取语言中的规律的方法对对外汉语教学中语法研究的作用和意义。
一、为对外汉语语法教材的编写提供真实的语言素材和科学的参考依据教材是教学过程中的重要依据,是教学和学习的资源,教材的内容要符合学习者的认知规律和学习需要。
20世纪80年代中期以前,现代汉语语法研究基本上或主要是对汉语语法现象、语法规则的描写说明,为了说明规则是什么而编写例句,甚至有些例子是编者依靠经验,按照语法规则演绎编造出来的。
英国语言学家Quirk曾说:从这些自己编写的例证出发,把材料仅仅当作例证来使用,用来证明先验的,或者是语法学传统规定的、甚至是凭直觉认定的某些语法上的区别和结构,而不是从大量自然语言材料中归纳的这些语法上的差别,这只能是一种很不令人满意的权宜之计。
基于语料库中大量口头和书面语的真实语言素材,要求语法研究更注重对语法现象、语法规则的解释,说明例句为什么这么说。
【译界】21个国内外权威语料库翻译圈的小伙伴对语料库并不陌生,语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
今天译世界就来给大家推荐21个国内外优质语料库资源,链接亲测有效,都get起来!拿走不谢~~国内语料库资源01国家语委现代汉语语料库现代汉语通用平衡语料库现在重新开放网络查询了。
重开后的在线检索速度更快,功能更强,同时提供检索结果下载。
现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
02北京大学“《人民日报》标注语料库”《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。
其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
03北大语料库——北京大学中国语言学研究中心北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。
其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。
正在此基础上做汉英对照短语库,预计规模将达数十万条。
04北京语言大学高翻学院的“高翻记忆库”05中央研究院“现代汉语平衡语料库”专门针对语言分析而设计的,每个文句都依词断开,并标示词类。
语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。
现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
06中央研究院“近代汉语标记语料库”07中央研究院汉籍电子文献(瀚典全文检索系统)包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。
国家语委现代汉语语料库
国家语委现代汉语语料库是国家语言文字工作委员会社会科学部
于20XX年创办的在线语料库,是中国唯一官方公开出版的现代汉语语
料库,也是世界上首个发布现代汉语语料库。
这个语料库收录了大量来自社会和文化各领域的信息,如报纸,
杂志等,这些信息其语言类型涉及白话文,俗话,文言文,广播,口
语等。
此外,语料库也收录了从2012年至今的所有现代汉语信息,充
实系统庞大的语料库。
语料库的成立极大地丰富了中国语言文学研究的数据来源,也帮
助语言研究者们发现和探索大量的语言风格变化。
因此,它已成为不
少语言学家、翻译人员、语言教育者、学者等有参考价值的资源。
语料库所收录的信息,其鉴别特点特殊,完全符合国际上对现代
汉语语料的最新要求。
它保证了语料库的翻译文本的精确性和可读性,使得语料库的最终使用能够达到国际质量水准。
国家语委现代汉语语料库的出现不仅使中国研究者有了方便实用
的工具,同时也为世界范围内研究中文语言文字提供了一个规范、全面、客观、准确的科学参考资料。
它对现代汉语的普及和发展具有极
大的促进作用,是中国现代语言文学研究的宝贵财富。
国家语委现代汉语通用平衡语料库标注语料库数据及使用说明肖航教育部语言文字应用研究所1. 国家语委现代汉语通用平衡语料库1.1 语料库全库国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。
语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。
语料库类别分布如下所示:1.2 标注语料库标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。
标注是指分词和词类标注,已经经过3次人工校对,准确率大于>98%。
语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。
标注语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。
标注语料库类别分布如下所示:标注语料库与全库的样本分布比较如下所示:(蓝色曲线为语料库全库;红色曲线为标注语料库)2. 国家语委现代汉语通用平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材大体作如下分类:(下文字数为建库时数据)2.1.1 教材大中小学教材单作一类,约2000万字。
2.1.2 人文与社会科学的语言材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、心理、语言、教育、文艺理论、新闻学、民俗学等);·经济;·艺术(含音乐、美术、舞蹈、戏剧等);·文学(含口语);·军体;·生活(含衣食住行等方面的普及读物)。
2.1.3 自然科学(含农业、医学、工程与技术)的语言材料,应涉及其发展的各个领域。
拟从大、中、小学教材和科普读物中选取。
其中,科普读物约占6%,共300万字。
教材字数另计。
2.1.4 报刊。
以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。
语料库概念与语料库语言学基础知识语料库语言学是以语料库为基础的语言学研究方法。
语料库指的是大量真实语言使用情况的集合,可以包含各种类型的语言材料,例如口语、书面语和专业语言等。
语料库语言学主要涉及以下几个方面:1、语言描述和分析:通过对语料库中的语言数据进行收集、注释和分析,得到关于语言结构和功能的描述和分析。
2、语言学习和教育:通过语料库分析和应用,为语言学习者提供更真实、生动和有效的语言学习材料,同时也可以开发出更优质的语言教学软件。
3、自然语言处理:语料库作为自然语言处理技术的基础数据,能够为机器翻译、文本分类、信息检索等领域提供重要支持。
4、语言变化研究:通过比较不同时间段、地区和社会群体的语料库,可以研究语言变化的规律和特点。
在实际应用中,语料库语言学能够促进语言技术的发展,提高语言学研究的精度和可靠性,同时也给我们带来了更深入的语言理解和认知。
标题:语料库语言学研究的重要性一、语料库语言学的概念及发展历程语料库语言学,是指使用语料库进行研究的语言学分支,其研究对象是自然语言。
语料库是一个按照某种原则建立的、用于语言研究的庞大数据集合。
语料库语言学的理论基础是结构主义语言学、生成语法和实证语言学。
随着计算机技术的飞速发展,语料库规模越来越大,语料质量也越来越高,语料库语言学得以迅速发展。
二、语料库语言学的重要性1、提高语言教学效果语料库语言学可以通过收集大量语言数据来提高语音、词汇、语法和语用的教学效果。
比如,通过语料库分析来确定常见的语言错误类型,帮助学生避免这些错误;通过语料库调查来了解实际使用情况,让教学更接近实际使用。
2、推动语言研究发展语料库语言学以语料为基础,通过数据驱动的方法对语言进行分析,可以帮助我们更好地理解语言的本质和变化规律。
语料库语言学可以帮助我们更好地研究语音、词汇、句法和语用等多个方面,也能够关注不同社会群体间语言使用的差异,因此为语言研究提供了新的视角。
3、促进跨学科研究语料库语言学的方法论在不同领域都有应用。