低频词的中文词性标注研究
- 格式:pdf
- 大小:386.27 KB
- 文档页数:4
浅谈《现代汉语词典》(第五版)词性标注的几个问题摘要:本文主要从功能的角度对《现代汉语词典》(第五版)的词性标注进行了初步的探索,主要涉及词性标注及其与释义和配例相一致、兼类词的释义等几个方面的问题,对《现汉》(五)的成功和不足之处作了一定说明。
关键词:《现代汉语词典》(第五版)词性标注释义《现代汉语词典》是目前国内最有影响的语文辞书之一。
对现代汉语词典质量产生影响的根本性因素,是词典的释义问题。
一、《现代汉语词典》(第五版)词性标注现代汉语词典标注词性,给汉语教学、用户的学习和使用和中文信息处理等带来了很大的方便。
标注词性必须要对词类系统和词与非词进行界定。
科学的给词归类,主要根据词的语法功能。
陆俭明提出的词类划分标准是:1、词充当句法成分的功能,2、词跟词结合的功能,3、词表示类别的功能,即语法意义。
《现代汉语词典》(第5版)依据的词类是中学语文课本的教学词类系统,是比较科学的。
如:集成:【动】同类著作汇集在一起(多用做书名):《丛书~》|《中国古典戏曲论著~》。
(《现汉》(五)p592)集锦:【名】编辑在一起的精彩的图画、诗文等(多用做标题):图片~|邮票~。
(《现汉》(五)p593)《现代汉语词典》(第5版)中的“集成”与“集锦”根据配例来看,“丛书集成”、“图片集锦”、“邮票集锦”,二者看似相同,但是语法意义不同。
根据“语料库在线”的检索结果,“集成”66条例句中,17个做谓语例句,13个做定语例句,且能带宾语;“集锦”6条例句中5个做中心语。
前者语法意义表示事物的动作、行为或变化、存在,后者的语法意义表示事物名称。
所以二者词性标注不同。
另外,在根据功能判断词性的基础上,也不能完全脱离意义。
“集成”与“集锦”词汇意义也不同,“集:1.集合;聚集”(《现汉》(五)p639),“成:3.【动】成为;变为”(《现汉》(五)p171),“集成”有“汇集成为”的意思,释义行文体现为动词性。
“锦:有彩色花纹的丝织品”(《古汉语常用字字》p150),这里应为比喻义,指美好的东西,所以“集锦”释义行文应体现为名词性。
《现代汉语词典》(第7版)词性标注商榷
苏矗
【期刊名称】《新乡学院学报:自然科学版》
【年(卷),期】2018(035)002
【摘要】《现代汉语词典》是我国的一部汉语规范词典,从第5版开始其对所收条目做了全面的词性标注。
第7版的修订使《现代汉语词典》的词性标注已逐步趋于完善。
但《现代汉语词典》(第7版)在词性标注方面似乎仍存在一点可商榷之处:一些已标注动词、形容词的条目配例不确,其中出现了“名物化”现象,将这种有争议的现象列入词典会带来误解。
【总页数】4页(P51-53)
【作者】苏矗
【作者单位】河南师范大学文学院河南新乡453007
【正文语种】中文
【中图分类】H042
【相关文献】
1.《中韩词典》词性标注问题探索——与《现代汉语词典》对比 [J], 颜湘茹;Kim Sun Ah
2.《现代汉语词典》与《现代汉语规范词典》词性标注差异研究 [J], 雷莉;鲜丽霞
3.论《现代汉语词典》(第6版)词性标注与例句不一致问题 [J], 胡静书
4.《现代汉语词典》(第7版)词性标注商榷 [J], 苏矗
5.《现代汉语词典》(第6版)词性标注与例证不相配的类别 [J], 冯桂华
因版权原因,仅展示原文概要,查看原文内容请购买。
《现代汉语词典》标‚书‛词研究(上)一、序言书语词是现代汉语中常出现于书面语,带有典雅、正式、庄重色彩的一类词。
《现代汉语词典》(1996年版;下同;以下简称《现汉》)用‚‛对这类词作了标示,‚凡例‛的说明是:‚一般条目中,标的表示书面上的文言词语。
‛如:‚学子:学生:莘莘(shēnshēn)~(很多学生)。
‛‚嘉许:夸奖;赞许:品学兼优,深得师长~‛‚凡例‛显示标‚‛的词具有两个特点:一是它的使用范围是书面语,即口语中一般不会用到。
二是它的来源是文言词语。
为了在行文时加以区分,本文用‚书语词‛表示一般意义的书面用词语,用标‚书‛词指《现汉》中作了‚‛标示的词。
对词的语体色彩进行标示,是《现汉》的一个重要创举。
它还对另两类词语也作了语体色彩标示,‚标的表示方言‛,‚标的表示古代的用法‛。
这些标示对加强语言分析和理解的准确性,对提高人们使用语言的水平都是有积极作用的。
《现汉》的标‚书‛词有5570条,占全书词目的近十分之一,这个比例是相当大的。
那么这数量众多的标‚书‛词是些什么样的词,它们表达了怎样的意思?传递着怎样的语言交际信息,在汉语词汇体系中居于什么样的地位?这都是值得探讨的问题。
值得进一步探讨的是,标‚书‛词与标了‚‛的词如何区分?《现汉》的释义中还存在着‚旧词语‛,用来表示那些正在逐步退出现代汉语使用的词语;还有指称古代事物的词语,即历史词。
标‚书‛词与它们之间又有着怎样的关系?相互之间如何区分?这些都是很值得探讨的问题。
最终,当然也就可以回答‚标书词‛是不是都是‚书语词‛的问题。
这种探讨不仅跟词汇学有关,而且进入了词典编纂学的范围。
在词汇学上它将能帮助我们认识汉语词汇系统的内部成分及其关系,在词典学上将有助于词典编纂水平的提高,有助于提高使用者正确运用词语的水平。
二、标‚书‛词的分布与归类《现汉》共有标‚书‛词5570条。
现在先来看看这些标‚书‛词的构成。
根据‚‛标注的词目单位的大小,可分出义项标示与整词标示两类。
词性标注实验报告词性标注实验报告引言:词性标注是自然语言处理中的一项重要任务,它的目标是将给定的文本中的每个词语赋予相应的词性。
词性标注在许多自然语言处理任务中起着关键作用,如文本分类、机器翻译、信息检索等。
本文将介绍我们进行的词性标注实验,包括实验设计、数据集选择、模型选择和实验结果分析等。
实验设计:为了进行词性标注实验,我们选择了一份中文新闻语料作为实验数据集。
该数据集包含了大量的新闻文本,涵盖了各种不同的主题和领域。
我们将数据集按照80%的比例划分为训练集和20%的比例划分为测试集。
在实验中,我们采用了基于深度学习的词性标注模型进行实验。
数据集选择:选择合适的数据集对于实验的准确性和可靠性至关重要。
我们选择了这份中文新闻语料作为我们的实验数据集,原因有以下几点:首先,新闻语料通常具有较高的质量和丰富的领域覆盖范围,能够有效地评估模型的泛化能力。
其次,中文新闻语料在词性分布上具有一定的规律性,有助于模型学习和预测。
最后,该数据集的规模适中,既能满足实验需求,又能保证实验的可行性。
模型选择:在词性标注任务中,我们选择了基于深度学习的模型进行实验。
深度学习在自然语言处理领域取得了显著的成果,其强大的模型表达能力和自动特征学习能力使得其在词性标注任务中具有优势。
我们选择了基于循环神经网络(RNN)的模型,因为RNN能够有效地处理序列数据,并且能够捕捉到词语之间的上下文信息,有助于提升词性标注的准确性。
实验结果分析:我们使用了准确率作为评估指标来评估我们的词性标注模型的性能。
在实验中,我们得到了约90%的准确率,这表明我们的模型在词性标注任务上取得了较好的效果。
通过对实验结果的分析,我们发现模型在一些常见的词性上表现较好,如名词、动词等,但在一些特殊的词性上表现较差,如助词、连词等。
这可能是因为这些特殊的词性在数据集中的分布较少,导致模型学习不充分。
因此,在未来的研究中,我们可以考虑增加这些特殊词性的样本数量,以提升模型在这些词性上的性能。
自然语言处理中的词性标注与句法分析自然语言处理(Natural Language Processing,简称NLP)是人工智能领域中的一个重要分支,主要研究如何让计算机能够理解、处理和生成人类语言。
在NLP领域中,词性标注与句法分析是两个重要的任务,它们可以帮助计算机更好地理解和处理自然语言。
本文将介绍词性标注与句法分析的基本概念、常见方法以及应用场景,并探讨它们在NLP领域的意义和作用。
一、词性标注词性标注(Part-of-Speech Tagging,简称POS Tagging)是NLP领域中的一个基础任务,其主要目标是为一个句子中的每个单词确定其词性。
词性标注可以帮助计算机理解句子的结构和含义,从而更好地进行后续处理和分析。
词性标注通常使用词性标记集合(如标注集)来标注每个单词的词性,常见的标注集包括Penn Treebank标注集、Universal标注集等。
词性标注的方法主要包括基于规则的方法和基于统计的方法。
基于规则的方法通过定义一系列的语法规则和模式来确定单词的词性,但这种方法需要大量的人工设置和维护规则,且适用性有限。
而基于统计的方法则是通过学习语料库中单词与其词性之间的统计关系来确定单词的词性,常见的统计方法包括隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF)等。
词性标注在NLP领域中有着广泛的应用,例如在文本分类、信息检索和机器翻译等任务中都需要对文本进行词性标注来帮助计算机理解和处理文本。
此外,词性标注也可以作为更复杂的NLP任务的预处理步骤,如句法分析、语义分析等。
二、句法分析句法分析(Syntactic Parsing)是NLP领域中的另一个重要任务,其主要目标是确定一个句子的句法结构,即句子中单词之间的语法关系。
句法分析可以帮助计算机理解句子的结构和含义,从而更好地进行后续处理和分析。
汉语频度副词研究作者:米迪来源:《青年文学家》2014年第05期注:本文由天津师范大学青年基金项目支持,项目名称为《大样本汉语儿童语言习得研究》,项目编号 52WM14。
摘要:在汉语虚词研究中,“总是”和“很少”都属于表示频率的时间副词,但差别在于“总是”属于高频副词,而“很少”属于低频副词。
但汉语研究往往就仅限于将这两个虚词按照以上区别进行归类,并描述他们的使用语境,但就其标记性很少提及。
关键词:频度副词;标记性作者简介:米迪,天津师范大学外国语学院讲师。
[中图分类号]: H136 [文献标识码]:A[文章编号]:1002-2139(2014)-05--02一、频度副词1.1频度副词的分类汉语研究者起初将频度副词划为时间副词类,隨着研究的深入,学者逐渐认识到频度副词有别于时间副词,最终将频度副词单独列出,与时间副词、程度副词、范围副词、否定副词、否定副词等并列为副词次类(参见刘月华1983,邢公畹1992,周小兵、赵新2002)。
所谓频度副词,是指表示事情、行为、动作等发生的频率。
张谊生(2004)与周小兵、赵新(2002)均将汉语频度副词划分为高频、中频与低频三大类:1、高频副词。
指某个事件在一个单位时间内持续不断或者频繁出现的一种状态。
常见的高频副词有:老、总、老是、总是1、始终、成天、整日、彻夜、通常、不停、时刻、一向、向来、历来2、中频副词。
中频是相对高频而言,频度较次于高频的副词,指某个事件在一个单位时间内发生的状态。
常见的有:时、常、频、屡、渐、逐、连、经常、常常、时常、往往、时时、屡屡、频频、每每、渐渐、连连、逐渐、逐步、日渐、不断、不时、随时3、低频副词。
低频副词是频度副词汇总频率强度最弱的,是指某个事件在一个单位时间内很少地或偶然地发生或出现。
常见的有:偶、偶尔、偶尔、间或、偶或、一时、一旦、万一、有时1.2 “很少”表低频含义在上述分类中,学者们并没提及“很少”。
吕叔湘(1980)的书中包含副词“很”和动词、形容词“少”,也没有“很少2”一词。
《十三经辞典》词性标注问题白玉林【期刊名称】《辞书研究》【年(卷),期】2000(000)006【摘要】多年来,通过编写《古汉语虚词用法词典》、《大中学生古汉语常用多义字词典》、《古文观止词典》,特别是《十三经辞典》,我们认为给汉语语文词典标注词性是十分必要的,也是可行的。
但同时,它又是一项非常复杂的工作,还存在许多问题有待进一步研究解决。
在这里,把我们编纂《十三经辞典》(以下作《辞典》)的实践和困惑同大家作一交流,以期更好地完善这一工作。
一、确立实用的、科学的语法体系这是为语文词典标注词性首先要解决的问题,也是我们在70年代中期编写《古汉语虚词用法词典》时遇到的问题。
虚词的功用在于它的语法作用,也就是它在组词造句方面的作用,这就不得不涉及语法系统。
而学界对古汉语语法系统是有争论的。
词典不是专著,词典也不能兼收并蓄或引入争论。
为此,我们研究了各家关于古汉语语法的专著和论文,研究了“暂拟汉语教学语法系统”,制定出一个突出古汉语语法特征的《古汉语语法提纲》。
后来在《提纲》的基础上,编成了《古代汉语语法》,1992年由陕西人民出版社出版。
这就成为我们编写《十三经辞典》标注词性的依据。
这个语法体系,随着学术事业的发展,肯定还会不断修订,不断充实,但是作为标注词性的依据是可行的。
二、明确划分词类的标准判断词性,划...【总页数】6页(P)【作者】白玉林【作者单位】【正文语种】中文【中图分类】H16【相关文献】1.《十三经辞典》的编纂历程 [J], 迟铎;白玉林2.《十三经辞典·春秋左传卷》人名词条处理的原则 [J], 曹强3.从《十三经辞典》谈专书辞典的编纂 [J], 白玉林4.古典文献专书辞典编纂原则与方法的有益实践--评《十三经辞典》 [J], 王鸿滨5.古典文献专书辞典的词性标注问题 [J], 周淑萍因版权原因,仅展示原文概要,查看原文内容请购买。
论汉语字词的语用频率及其分布规律汉语的发展史,可以追溯到春秋时期,作为中国最主要的语言,汉语已经历了大量的变化和演变,其结构更加复杂,字词也以繁多的形式出现在我们的声明中。
语词是表达思想和交流意义的基本单位,它与形态语言文字构成了汉语的三位一体,并且影响着语法结构、句法结构及口语表达等各种方面。
因此,研究汉语字词的语用频率及其分布规律,对于深入理解汉语的发展历史、促进汉语教学和研究具有重要意义。
一、汉语字词库的概念汉语字词库是一个汉语字词收集体系,它将汉语字词根据用法、音译、义项、拼音、字形等整理分类,汉语字词库不仅仅是一个汉语字词收集体系,还包括汉语字词库的词语属性,比如音序、字迹、繁体字、简体字等,是汉语字词库属性的总称。
二、汉语字词的语用频率汉语字词的语用频率,也称为词频,是指词汇在实际应用中出现的次数,其中常用字词出现次数较多,而不常用字词出现次数较少,总体而言,字词的词频越高,出现的次数也就越多。
因此,汉语字词的语用频率可以作为衡量汉语字词使用的重要指标,可以根据词频的大小,将字词分为高频词汇、中频词汇和低频词汇等三级。
高频词汇是指汉语字词使用频率较高的词语,这类字词占据着汉语的主流词汇,通常出现在日常交流中,它占据汉语口语和文字中绝大部分的词汇。
中频词汇是指汉语字词使用频率介于高频词汇和低频词汇之间的词语,这类字词在一定范围以内使用比较广泛,但是不像高频词汇那样多见。
低频词汇是指汉语字词使用频率低的词语,这类字词在日常生活中几乎没有使用,这些字词的出现比较少,因此也叫作“稀有字词”。
三、汉语字词的分布规律汉语字词的分布规律,指的是汉语字词按照一定的规律出现在句子或文章中的次数、频率。
例如,一个句子中最常用的词汇往往是名词,而最不常用的词汇则是动词等。
汉语字词的分布规律可以大致分为三类:第一类是汉语字词分布的频率规律,即汉语字词在句子或文章中出现的频率如何分布;第二类是汉语字词分布的结构规律,即汉语字词在句子或文章中的出现是如何组织的;第三类是汉语字词分布的空间规律,即汉语字词分布出现的地点,如何影响它们的语句结构等。
频率副词的语义韵研究
频率副词是一类用于描述动作或状态发生频繁程度的副词,包括常见的always、often、sometimes、rarely、never等。
这些副词在汉语中有相应的译词,但其语义韵往往与英文略有差异。
以always和常常为例,英文always强调事情一直都存在,没有变化;而中文的常常则侧重于发生频率高,但不代表一直都是如此。
同样,英文often和中文的经常在强调程度上也略有不同,英文often强调的是高频率,而中文的经常可以包含一定程度的随意性和不确定性,可能不一定发生在每一次。
频率副词的语义韵也与具体语境有关。
比如,在谈论季节、天气等自然现象时,常用频率副词表达出一定的规律性或预测性,例如It always snows in January. 在谈论个人习惯或爱好时,常用频率副词表达个体情感和态度,例如I often go to the gym. 在表述抱怨或挑剔时,频率副词可能带有负面情感,例如He always talks too loudly.
然而,在不同的语境中,频率副词也可能具有不同的语义韵。
例如,在一个团队协作的环境中,频率副词的语义韵还可能涉及到合作与信任。
一个团队成员如果说自己always 做某事,就表明其在团队中具有高度的可靠性和非凡的付出精神。
而如果一个团队成员说自己never做某事,就可能表明其在团队中存在一定的不合作或不信任状态。
总的来说,频率副词的语义韵与其所表达的频率程度、具体语境等诸多因素有关。
对于学习和使用英语的人来说,掌握频率副词的语义韵可以更准确地表达自己的意思,同时也有助于更好地理解英语原文。