现代汉语词语切分研究
- 格式:pdf
- 大小:230.67 KB
- 文档页数:39
第一章词类研究词类是指词的语法分类。
所谓“词的语法分类”,是说语法研究中的词类是词按照其各自语法功能的不同而分出来的类别。
对于划分词类,前人曾提出过三种依据:词的形态,词的语法意义,词的语法功能。
但就划分汉语词类来说,最佳的依据是词的语法功能。
如果按照词的形态来进行词的语法分类,适用于印欧语系那样有形态标志和形态变化的语言,但不适合于汉语,因为汉语没有严格意义的形态标志和形态变化。
如果根据词的语法意义来划分,词的意义优两种,一种是概念义(认知义),一种是语法意义(语法范畴义),理论上来说是可行的,但是语法意义层面太多,极为复杂,具体划分起来难易操作(如“事物”与“什么”指的事物,外延很大。
)所以,从现实来说,还是需要根据词的语法功能来划分词类:(1)吕叔湘先生说过“区分词类,是为的讲语法的方便、为了讲语句组织。
”陈望道先生也曾指出“划分词类就是‘为了研究语文的组织,为了把文法体系化,为了找出语文组织跟词类的经常而确切的联系来。
’”是的,划分词类确实就是为了研究语法、讲解语法,如“小王吃苹果”体现了“名词+动词+名词”这种词类序列。
(2)从词的二维关系来看,组合关系/配置关系(横向)和聚合关系/会同关系(纵向),词类确实是按照词在句法结构中起的作用(即词的语法功能)所分出来的类。
(3)依据词的形态分类,实质上就是依据词的语法功能分类。
英语中加后缀s表复数,虽然形态变化,但是在句子里的语法功能是一致的,同时也有单复同形的词语,虽然没有形态变化但功能依旧一样。
我们能根据形态划分词类,是因为形态反映了功能。
形态不过是功能的标志(朱德熙)。
词的语法功能是词的语法意义的一种外在表现,而词的形态又是词的语法功能的外在表现形式。
划分依据:①词充当句法成分的功能,如作主语、谓语等;②词跟词结合的功能,如前加“不、很”或后带“了、着”等;③词所具有的表示类别作用的功能,实际就是词的语法意义,如计数功能、指代功能、连接功能等。
中文分词与词性标注技术研究与应用中文分词和词性标注是自然语言处理中常用的技术方法,它们对于理解和处理中文文本具有重要的作用。
本文将对中文分词和词性标注的技术原理、研究进展以及在实际应用中的应用场景进行综述。
一、中文分词技术研究与应用中文分词是将连续的中文文本切割成具有一定语义的词语序列的过程。
中文具有词汇没有明确的边界,因此分词是中文自然语言处理的基础工作。
中文分词技术主要有基于规则的方法、基于词典的方法和基于机器学习的方法。
1.基于规则的方法基于规则的中文分词方法是根据语法规则和语言学知识设计规则,进行分词操作。
例如,按照《现代汉语词典》等标准词典进行分词,但这种方法无法处理新词、歧义和未登录词的问题,因此应用受到一定的限制。
2.基于词典的方法基于词典的中文分词方法是利用已有的大规模词典进行切分,通过查找词典中的词语来确定分词的边界。
这种方法可以处理新词的问题,但对未登录词的处理能力有所限制。
3.基于机器学习的方法基于机器学习的中文分词方法是利用机器学习算法来自动学习分词模型,将分词任务转化为一个分类问题。
常用的机器学习算法有最大熵模型、条件随机场和神经网络等。
这种方法具有较好的泛化能力,能够处理未登录词和歧义问题。
中文分词技术在很多自然语言处理任务中都起到了重要的作用。
例如,在机器翻译中,分词可以提高对齐和翻译的质量;在文本挖掘中,分词可以提取关键词和构建文本特征;在信息检索中,分词可以改善检索效果。
二、词性标注技术研究与应用词性标注是给分好词的文本中的每个词语确定一个词性的过程。
中文的词性标注涉及到名词、动词、形容词、副词等多个词性类别。
词性标注的目标是为后续的自然语言处理任务提供更精确的上下文信息。
1.基于规则的方法基于规则的词性标注方法是根据语法规则和语境信息,确定每个词语的词性。
例如,根据词语周围的上下文信息和词语的词义来判断词性。
这种方法需要大量的人工制定规则,并且对于新词的处理能力较差。
第一章词和词汇第一节什么是词第一节主要是讲什么是词。
对词的定义:词是最小的有相对固定的语音形式和适度词长的能独立运用的语音单位。
第二节是讲词的离散性问题,最早提出这个问题的是前苏联学者彼施考夫斯基,之后就是斯米尔尼兹基。
第二部分是关于如何区分词和语素。
语素,一般定义为语言中最小的音义结合体,是构词的材料。
关于词和语素的区别,国内学者普遍接受的观点是词是可以在语言片段中单独出现或独立运用的一种语言单位词在句子层面具有离散性;而语素则不能独立运用于语言片段中,语素的离散性是属于词汇层面——发生在词的内部,而不是句子层面的。
第三部分是如何区分词和短语。
词一般具有结构的完整定型性、意义的整体性、不可扩展性以及适度的词长等特征,而短语则一般不具街这些特征。
关于不可扩展性,陆志韦先生提出了“扩展法”但并非万能的。
第三节词位和词位变体一,词位的含义:一个词项可以是一个间,也可以是两个或两个以上的词,而其中“等于一个词的词项叫词位。
如“成语就是一种特殊的词位”,“等于两个或两个以上词的词项”则叫“超词位,如“打长工”。
词位”实际上是同一个词的具体表现形式,“它表明了是一个可能包含有不同变异状态的、统合的单位。
”二、讲词位变体。
关于词位变体有四种情形:1.词的语音形式的变异会形成词位变体。
其中一种变异是由异读引起的,如:露[lòu] ——露[lù] 结[jiē]——结[jié];另一种变异是由变调引起的:不(bú)——不bù。
有些词的语音形式发生变异后,词义也随之发生了变化,这就形成了不同词位的词位,而非间位变体。
如:倒[dǎo]——倒[dào]。
还有儿化现象,如:唱片一唱片儿,中间一中间儿2.。
词的书写形式的变异也会形成变体。
如:绝招一绝着,龟裂一皲裂。
3. 词的语法形式的变异也会形成词位变体。
有些同伴随语法意义的变化的还有词的语音形式、词汇意义的变化,如:1.好[hǎo]2.好[hào]。
现代汉语二分法
现代汉语二分法(也称二元切分法),是一种常见的自然语言处
理技术。
其基本思想是将一个汉字组成的串按照两个汉字一组进行划分,从而得到一系列的“词语”。
这些“词语”是由连续的汉字组成的,可以代表一些常见的实际对象、抽象概念、动作行为等,具有一
定的语义意义。
具体而言,二分法会依次对输入文本的每一对相邻汉字进行匹配,判断它们是否可以构成一个常见的“词语”。
如果可以,则将这个
“词语”加入到分词结果中,并从新的位置重新开始寻找下一个“词语”。
如果不能,则将第一个汉字作为单独的词语加入到分词结果中,并从下一个位置重新开始匹配。
这样一直重复,直到所有的汉字都被
扫描过,得到完整的分词结果。
二分法算法简单、效率高,因此在汉语分词中广泛应用。
但是,
由于有些词语并不符合常见的组合方式,二分法分词结果可能存在一
定的局限性和错误率,需要结合其他技术进行优化和修正。
“现代汉语”课中词汇部分的教学要点和难点“现代汉语”课中词汇部分的教学要点和难点摘要:“词汇”是高校基础课程“现代汉语”的重要组成部分,但这部分内容的教学较为薄弱。
词汇教学的主要目的是通过讲授词汇学基础知识,使学生掌握词汇的分析方法,提高词汇的分析能力,在此基础上提高词汇的运用能力。
词汇教学应以词汇分析方法的介绍为主线,词汇的分析对象、词汇的划分方法、词的构造分析、词义的分析、词汇系统的分析等是词汇教学的要点。
要解决词义分析这一难点,可尝试介绍新的词义分析方法。
关键词:现代汉语;词汇教学;目的;要点;难点一、引言《咬文嚼字》杂志社曾公布2014年社会上的十大语文差错。
这“十大语文差错”包括:(1)“两会”报道中的常见用词错误:“议案”“提案”混淆。
(2)中央巡视工作报道中的常见用字错误,“入驻”误为“入住”。
(3)国家计生新政宣传中的概念错误:“单独二孩”误为“单独二胎”。
(4)APEC会议报道中的一个病态词语,“国际间”。
五、马航MH370失联事件报道中用词滞后,“通信”误为“通讯”。
(6)明星“污点”事件报道中的常见用词错误,“拘留”误为“逮捕”。
(7)经济新闻报道中的常见数字用法错误,阿拉伯数字和“几”连用。
(8)清明纪念活动报道中的常见知识错误,“碑文”误为“墓志铭”。
(9)影视作品中的常见繁体字使用错误。
“松树”误为“?树”。
(10)文体新闻报道中的用典错误:“折桂”误为“折桂冠”。
这十大错误中,除“松树”误为“?树”、阿拉伯数字和“几”连用错误是与汉字书写有关的错误外,其他八个都是词语使用错误,可以说,社会上绝大多数语文差错都与词汇相关。
高校为提高学生的语文水平,一般在大学一年级的时候开设现代汉语课程,讲授现代汉语语法、语音、词汇和文字等方面的知识。
词汇在语言中的重要性不言而喻。
但目前高校现代汉语课程的现状是,相对现代汉语课程中语法教学、语音教学,词汇部分的教学却较为薄弱,教师对词汇部分的教学安排课时较少,有关词汇教学的研究也明显不足。
“现代汉语”课中词汇部分的教学要点和难点摘要:“词汇”是高校基础课程“现代汉语”的重要组成部分,但这部分内容的教学较为薄弱。
词汇教学的主要目的是通过讲授词汇学基础知识,使学生掌握词汇的分析方法,提高词汇的分析能力,在此基础上提高词汇的运用能力。
词汇教学应以词汇分析方法的介绍为主线,词汇的分析对象、词汇的划分方法、词的构造分析、词义的分析、词汇系统的分析等是词汇教学的要点。
要解决词义分析这一难点,可尝试介绍新的词义分析方法。
关键词:现代汉语;词汇教学;目的;要点;难点一、引言《咬文嚼字》杂志社曾公布2014年社会上的十大语文差错。
这“十大语文差错”包括:(1)“两会”报道中的常见用词错误:“议案”“提案”混淆。
(2)中央巡视工作报道中的常见用字错误,“入驻”误为“入住”。
(3)国家计生新政宣传中的概念错误:“单独二孩”误为“单独二胎”。
(4)APEC会议报道中的一个病态词语,“国际间”。
五、马航MH370失联事件报道中用词滞后,“通信”误为“通讯”。
(6)明星“污点”事件报道中的常见用词错误,“拘留”误为“逮捕”。
(7)经济新闻报道中的常见数字用法错误,阿拉伯数字和“几”连用。
(8)清明纪念活动报道中的常见知识错误,“碑文”误为“墓志铭”。
(9)影视作品中的常见繁体字使用错误。
“松树”误为“?树”。
(10)文体新闻报道中的用典错误:“折桂”误为“折桂冠”。
这十大错误中,除“松树”误为“?树”、阿拉伯数字和“几”连用错误是与汉字书写有关的错误外,其他八个都是词语使用错误,可以说,社会上绝大多数语文差错都与词汇相关。
高校为提高学生的语文水平,一般在大学一年级的时候开设现代汉语课程,讲授现代汉语语法、语音、词汇和文字等方面的知识。
词汇在语言中的重要性不言而喻。
但目前高校现代汉语课程的现状是,相对现代汉语课程中语法教学、语音教学,词汇部分的教学却较为薄弱,教师对词汇部分的教学安排课时较少,有关词汇教学的研究也明显不足。
现代汉语文本的词语切分技术一、引言1、汉语自动分词的必要性汉语自动分词是对汉语文本进行自动分析的第一个步骤。
可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符都去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,此过程的主要问题是对大量歧义现象的处理。
切词体现了汉语与英语的显著的不同。
英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串。
把字串分隔成词串,就是自动分词系统需要做的工作。
词是最小的、能独立活动的、有意义的语言成分。
计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库。
汉语信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。
例如汉字的拼音-字转换、简体-繁体转换、汉字的印刷体或手写体的识别、汉语文章的自动朗读(即语音合成)等等,都需要使用词的信息。
切词以后在词的层面上做转换或识别,处理的确定性就大大提高了。
再如信息检索,如果不切词(按字检索),当检索德国货币单位"马克"时,就会把"马克思"检索出来,而检索"华人"时会把"中华人民共和国"检索出来。
如果进行切词,就会大大提高检索的准确率。
在更高一级的文本处理中,例如句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息。
2、汉语自动分词中的困难在过去的十几年里, 汉语自动分词工作虽然也取得了很大成绩,但无论按照人的智力标准,还是同实用的需要相比较,差距还很大。
我们首先需要对这一工作的困难有充分的认识。
1).分词规范的问题(1)汉语词的概念汉语自动分词的首要困难是词的概念不清楚。
书面汉语是字的序列,词之间没有间隔标记,使得词的界定缺乏自然标准,而分词结果是否正确需要有一个通用、权威的分词标准来衡量。