基于动态流通语料库的_动态词典_编纂
- 格式:pdf
- 大小:601.88 KB
- 文档页数:11
基于动态流通语料库(DCC)的新词语监测
刘长征
【期刊名称】《长江学术》
【年(卷),期】2008(000)001
【摘要】新词语监测是语言监测研究的重要内容之一.本文以动态语言知识更新理论为指导,探讨了利用动态流通语料库进行新词语监测研究的基本思路和基本方法,对语言监测意义上的新词语及相关概念进行了界定,并报告了初步的实验结果.【总页数】5页(P10-14)
【作者】刘长征
【作者单位】北京语言大学应用语言学研究所
【正文语种】中文
【相关文献】
1.基于微博语料库的网络新词语义变异现象研究 [J], 沈颖
2.基于双语新闻平行语料库的汉语新词语俄译规律研究 [J], 朴哲浩;林立娟;严文颖
3.基于网络语料库的新词语研究方式 [J], 李楠
4.基于动态语料库的新词语监测 [J], 李楠
5.基于动态语料库的新词语监测 [J], 李楠
因版权原因,仅展示原文概要,查看原文内容请购买。
关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;在语言学中,语料库(Corpus)指大量文本的集合,库中的文本(称为语料)通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。
应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
分类语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
目前已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务(SMS)语料)等。
语料库与词典编纂的接口——词典编纂辅助工具SketchEngine剖析陈国华;梁茂成;Adam;Kilgarriff【期刊名称】《广东外语外贸大学学报》【年(卷),期】2005(016)B11【摘要】一、Sketch Engine开发的背景在词典编纂的过程中,人们需要对语料库中的词汇使用实例进行归纳,抽象出词义并写入词典。
大型语料库为词典编纂提供了可靠的语言信息。
然而,对语料库中常用词汇及其搭配方式进行检索时,常常会生成数目庞大的检索行(concordance lines),这些检索行有时多达几百甚至成千上万,检索行数目的繁多给人们发现语言使用规律带来了极大的不便。
面对这种“信息过载”(information overload),词典学家的工作费时费力,效率低下。
这种工作方式与现代技术的发展十分不相称,依靠新的自然语言处理技术开发高效牢的语言信息提取工具成为当今词典编纂中的一项重大任务(Kilzarriff&Rundell 2002)【总页数】5页(P116-120)【作者】陈国华;梁茂成;Adam;Kilgarriff【作者单位】北京外国语大学,北京100089【正文语种】中文【中图分类】H164【相关文献】1.试论语料库介入词典编纂的优势及相关问题r——以常用词"发酵""神话""厉害"为例 [J], 苗宁;刘欣彤2.Sketch Engine在商务英语学习词典编纂中的作用 [J], 石静;何家宁3.基于语料库的定性定量分析在阿育吠陀词汇梵-拉-英-汉四语词典编纂中的翻译应用 [J], 程树华;王山;王张;王杭4.基于历时语料库的在线词典编纂系统设计 [J], 吴先;胡俊峰5.基于语料库翻译的词典编纂研究述评 [J], 崔景日;赵婧因版权原因,仅展示原文概要,查看原文内容请购买。
国务院关于公布《通用规范汉字表》的通知【法规类别】机关工作综合规定【发文字号】国发[2013]23号【发布部门】国务院【发布日期】2013.06.05【实施日期】2013.06.05【时效性】现行有效【效力级别】国务院规范性文件国务院关于公布《通用规范汉字表》的通知(国发〔2013〕23号)各省、自治区、直辖市人民政府,国务院各部委、各直属机构:国务院同意教育部、国家语言文字工作委员会组织制定的《通用规范汉字表》,现予公布。
《通用规范汉字表》是贯彻《中华人民共和国国家通用语言文字法》,适应新形势下社会各领域汉字应用需要的重要汉字规范。
制定和实施《通用规范汉字表》,对提升国家通用语言文字的规范化、标准化、信息化水平,促进国家经济社会和文化教育事业发展具有重要意义。
《通用规范汉字表》公布后,社会一般应用领域的汉字使用应以《通用规范汉字表》为准,原有相关字表停止使用。
国务院2013年6月5日通用规范汉字表目录说明一级字表二级字表三级字表附件:1.规范字与繁体字、异体字对照表2.《通用规范汉字表》笔画检字表说明一、为了贯彻《中华人民共和国国家通用语言文字法》,提升国家通用语言文字的规范化、标准化水平,满足信息时代语言生活和社会发展的需要,教育部、国家语言文字工作委员会组织制定《通用规范汉字表》。
二、本表收字8105个,分为三级:一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字需要。
二级字表收字3000个,使用度仅次于一级字。
一、二级字表合计6500字,主要满足出版印刷、辞书编纂和信息处理等方面的一般用字需要。
三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字。
主要满足信息化时代与大众生活密切相关的专门领域的用字需要。
三、本表在整合《第一批异体字整理表》(1955年)、《简化字总表》(1986年)、《现代汉语常用字表》(1988年)、《现代汉语通用字表》(1988年)的基础上制定。
基于动态流通语料库三年高频词语的历时考查*(E-mail:xiaobingzeng@)摘要:本文以动态流通语料库2006年-2008年使用率排序前15000的词语作为研究对象,在前人对词语的共时研究基础之上,采用共时与历时相结合的方法描绘了各个词语的动态变化曲线图。
进而,将各个词语在历时上的使用情况及分布特征进行统计学上的数据分析,利用K—means方法进行聚类,从而考查了这15000个词语在历时层面上使用率的变化趋势,尝试对研究对象进行更精确的分类与分离,并提出自己的认识与思考。
关键词:共时历时词汇曲线聚类A synchronic research of high-frequency Chinese words that based on a three-year observation of DynamicCirculation CorpusZengxiaobingApplied linguistic institution at BLCU, Beijing 100083Abstract: This paper takes the top 15000 words through a large-scale Chinese Dynamic Circulation Corpus between 2006 and 2008 years as research subjects. In addition to the synchronic analysis which the former research used, diachronic methods are also employed in this paper to describe the different types of the lexical curve. By analyzing the lexical usage and distribution features of each word and clustering the words by K-means methods, we hope to give a thorough description of the diverse trend and form of the words and attempt to carry out a classification more exactly, also propose our understanding and thinking about it.Keywords: Synchronic;diachronic;type of the lexical curve;Cutler一 引言国家语言资源监测与研究中心已经在共时的基础上连续发布了三年(2005-2007)的年度《中国语言生活状况报告》,引起了社会的关注。
论基于语料库探究作家写作风格转变的可行性一、引言语料库语言学是一种基于大量真实语料构建语料库对语言进行研究的学科。
《语料库语言学》是一本介绍语料库语言学研究方法和语料库在各个语言研究领域应用实例的书籍,由美国语言学家Douglas Biber、Susan Conrad和Randi Reppen所著,刘颖和胡海涛翻译,2012年在清华大学出版社出版。
该书从三大方面展开论述,即语料库语言学的介绍及研究方法、语料库在语言学各个研究领域的应用以及语料库语言学的方法论框架。
基于语料库进行的语言研究分为词典编纂、语法研究、词汇和与语法的联结研究、语篇结构特征研究、语域变异、语言习得与发展以及语言的历时研究与风格研究七个部分。
Douglas Biber等人在《语料库语言學》一书中提出了多种基于语料库进行语言研究的方法和实例。
笔者在对该书的基本内容进行梳理和思考后,基于书中提出的“从语料库探究文本风格”的理论和方法,提出“基于语料库探究作家写作风格转变具有很强的可行性”,并以中国现当代作家余华前后三个时期的小说文本构建语料库,简要阐明基于语料库探究余华写作风格转变的研究方法和切入视角。
二、语料库语言学的介绍及研究方法(一)语料库语言学的基本介绍语料库语言学是一门以语料库为手段,研究语言的学科。
相比于其他研究方法,基于语料库的语言研究主要采用定量和定性相结合的方法。
语料库语言学研究涉及语料库的构建和对语料进行数据统计分析两部分。
在语料库构建上,语料库的语料不是漫无目的、随意收集的,而是要在明确研究目的后,基于特定目的收集的。
研究者可以根据研究课题的要求,采取科学的方法收集有代表性的语料,如比例抽样和分层抽样等。
依据所代表媒体形式的不同和设计结构、语料来源、语料时效、语料处理方式的不同,语料库有不同分类。
语料库的构建可以基于研究目的,自我设计构建,也可以借用数据库软件执行命令构建。
在数据统计分析上,书中提出了频率统计标准化方法,即原始频率数÷该文本的词汇量×标准基数=标准频率(标准基数依文本的长短而定)。