新词发现综述
- 格式:pdf
- 大小:32.87 KB
- 文档页数:5
10年来的汉语新词语研究中国语言学研究发展到今天,已经走过了50多个春秋,经历了30多年的沉寂,从80年代初期开始又有了发展和变化。
新词语的出现是这些变化的重要内容。
特别是80年代后半期以来,新词语以平均每年200多个的速度不断地涌现,与社会的政治、经济生活的关系日益密切,成为一种广泛使用的重要词汇资源。
近10年来,新词语的研究引起了语言学界极大的关注,取得了令人瞩目的进展。
本文将回顾这一时期汉语新词语研究的进展情况,探讨其发展规律,并提出今后的研究方向。
当然,任何研究都有一个由不成熟到成熟的过程,新词语研究也是如此。
我们看到,对于新词语的研究,我们并没有达到预想的目标。
这主要是因为研究者的立场、角度不同造成的。
有人认为,词典编纂者应该对词语作出科学的解释;而在另外一些人那里,则认为是词典编纂者把字典编好就行了。
笔者是赞同前者的,但却也认为,研究者的观点对某一问题的正确解决,并不能完全忽视。
我们知道,词语是在使用中产生的,词语的使用与所依托的文化背景、思维方式等密切相关,词语的产生有着自身的规律。
比如,我们虽然对早期汉语中的某些词语已经有了明确的界定,但后来在不同历史条件下产生的新词语却很难加以说明。
当然,新词语研究中也存在一些值得商榷的地方。
主要是:一些著作在引证中仅以“带”为单位,这样的引证显得比较粗疏;有的研究者在论述中仍然停留在意义分析层面上,没有看到研究的目的在于揭示规律;在词语引证方面,尽管已经有一些专门论著的出版,但仍存在一些错误,其中一些是非常低级的,甚至可以归入错误的范畴。
我们应该正视这些问题,努力改善它们。
这里只是指出一些具体的失误,希望能够促使大家去进行深入的研究。
新词语研究中,有许多是可以互相借鉴的。
比如在词义分析方面,比较词义学已经积累了许多成果,它们都可以成为我们有益的借鉴。
还有一个值得重视的方面是,对词语和表达法的研究往往有密切的联系,如果我们能够抓住词语和表达法之间的这种密切联系,有时候可以使研究工作大大简化,从而节省更多的时间和精力。
现代汉语新词语研究综述作者:刘明阳曾立英来源:《汉字文化(教育科研卷)》2017年第15期【提要】新词语是社会发展的集中体现,对现代汉语新词语的研究有助于把握语言生活状况和汉语语言面貌。
本文通过对现代汉语新词语研究文献的梳理和总结,回顾了新词语研究的发展历史,分析了新词语研究的发展阶段,对新词语的研究现状进行了全面的归纳,肯定了新词语的研究价值,对预测新词语的研究趋势具有一定价值。
【关键词】现代汉语新词语发展历史研究现状词汇在语言各个要素中是最活跃的,它无时无刻不处于变化的状态,尤其是在社会发生重大变革的时代。
每次社会重大的变化都促使一批新词的出现,有的词有了新的形式,有的有了新的意义,有的有了新的用法,也有的词不再使用。
词汇上的这些变化都和社会的发展息息相关。
新词语的认定是相对的,五四时期涌现的新词相对于古代汉语、近代汉语来说是新的,相对于建国以后涌现的新词又属于旧词,而建国初期的词跟改革开放以来的新词比起来却也算是旧词了。
改革开放以来,我国社会经济、科学技术、人民生活等各方面都发生了翻天覆地的变化,特别是今天——在互联网普及的信息时代,一批又一批带有着时代特征的新词涌现,既是汉语词汇系统不断发展的体现,又带有社会变革和时代变迁的烙印。
新词语的大量出现逐渐引起了语言文字工作者的重视,而有关新词语资源的深入挖掘也已经上升到了国家层面。
我国教育部及国家语委于2007年8月16日举行新闻发布会,首次向社会发布了《中国语言生活状况报告(2006)》,至今已经连续十多年公布年度新词语,这一现象得到了语言学界和社会各行业的广泛关注。
近年来,新词语在人民的日常生活、文化传播、网络社交等领域中使用频率逐渐提高,在学术界掀起了多次热烈的讨论,关于新词语的研究持续升温。
一、新词语研究发展阶段现代汉语新词语研究发端于20世纪50年代,由于各种客观原因,一直处在缓慢发展的状态。
1984年,吕叔湘先生发表了《大家来关心新词新义》,从新词语的产生途径、构成、旧词新义等方面进行探讨,开启了新词语研究的高潮。
新词新语的发展趋势
新词新语的发展趋势主要体现在以下几个方面:
1. 网络新词的快速涌现:随着互联网的普及和发展,网络新词不断涌现。
这些词汇往往与网络文化、网络行为和网络技术密切相关,如“刷屏”、“梗”、“表情包”等。
由于网络的高速传播速度和信息传递的便利性,网络新词往往能够在短时间内迅速流行起来。
2. 流行语的频繁更迭:流行语是指一段时间内在社会上广为流传的、使用频率较高的词语。
流行语具有时效性和代表性,常常体现着当下社会的热点、关注点和价值观念。
随着社会发展的变化,流行语的更迭频率也越来越快,容易在短时间内被取代。
3. 外来词语的日益增多:随着全球化的加深,国际交流与合作的频繁进行,外来词语在日常生活中的使用越来越多。
一方面,外来词语丰富了语言的表达方式,满足了人们多样化的沟通需求;另一方面,外来词语也带来了语言文化的冲击和影响,需要适应和应对。
4. 专业术语的不断推陈出新:随着科技的发展和学科的深化,各个领域的专业术语不断涌现和演变。
专业术语的发展趋势往往与相关领域的研究进展和技术创新密切相关。
新词新语的增加丰富了专业领域的语言表达,也促进了专业知识的传播和交流。
总之,新词新语的发展趋势主要表现为网络新词的快速涌现、流行语的频繁更迭、外来词语的增多以及专业术语的不断推陈出新。
这些趋势既反映了社会的变化和发展,也推动了语言的更新和丰富。
新词汇分析中文版1.新词汇出现原因分析(一)互联网是新词汇传播的重要传播媒介任何文化的传播必定都需要有一定的载体作为其传播的形式。
当今社会文化传播的重要的媒介之一是互联网。
根据中国互联网络信息中心(CNNIC)数据显示:截至.2015年12月,中国网民规模达到6.88亿,互联网普及率达到50.3%,半数中国人已接入互联网。
这意味着在大多数人的心中认可了互联网这种传播媒介。
而互联网本身传输速度快、范围广、时效性高等特点,使其具备其他媒体无法比拟的优势,所以诞生一个新的语词要迅速被人所知晓并最终认同,互联网平台无疑是最佳选择。
另外由于网络自身的特点,具有一定的私密性,因为隔着计算机不用面对面,可以让普通人在相对隐蔽的环境中畅所欲言,表达他们的观点,人们更乐意在网络平台交流,也由此带动了大批新词汇的产生和发展。
(二)新词汇与当今的社会热点越来越紧密相连任何一个新词汇都是当代社会的产物。
由于社会经济的发展,政治制度的不断完善,人们参与意识不断增强。
再加上网络平台的兴起,使人们能快速了解到许多新鲜的事件,进一步扩展了人们的视野,给在热门事件下产生新词汇创造了良好的条件。
从分析的新词汇增加情况来看,大多的新词汇来自于网络文化。
(三)新词汇及时反映民意任何一种语言都是一种意愿的表达,有些新词汇的出现可能仅仅只表示一种娱乐和玩笑,但随着社会的进步更成为了一种民意表达的工具。
他们往往是以社会事件或热点问题为素材,表达自己的参与意识、舆论意识和批判精神。
如一些网络新词汇已经形成一种尖锐的讽喻说话方式,它们的特点是极其简短,对轰动性的新闻或不正常的事情进行高度概括,以表达网民对其事件的看法与态度。
(四)新词汇是人们求新、求奇的结果当今的社会人民不再只是人云亦云,更多的是追求个性的表达,希望能制造出"具有创新性的艺术语言和充满诗意和哲理的生活语言"[6]。
语言的诸多要素中词汇是变化最快的,新词汇就成为了最佳选择。
浅析现代汉语发展过程中的新词现象
现代汉语发展过程中的新词现象令人称奇,新词种类繁多,出现的频率也越来越高。
除了外来语拼接出的词外,特别是社会经济发展的诸多新概念所致,更是加速现代汉语新词的诞生率,丰富了汉语的词汇储备。
2019年,37个新词更新到学术新词词典。
包括‘小龙虾肿瘤’,专指一种瘤状微生物寄生在虾体表层的寄生虫病;‘飞马号’,指由中国地震局研制的震源机器人,其通过无人机专业传感器装备生态监测;还有‘非礼之仇’,形象比喻指不容任何性侵、性虐等非礼行为,要维护有关的司法秩序,保护受害者的权利。
另外,一些俗语或表情话、引申义也逐渐成为现代汉语中的新词。
比如,‘商
场盲流’,指因买东西精英购物症状而变得无法自拔;‘成长股’,指越往后期产品和服务越成熟,收入能力更强大的公司;‘互联网+’,指通过互联网技术支持,实现
了信息、知识、人员、资源和服务的融合,为传统行业提供新的模式、产品及服务。
要正确运用新词,学习者除了要掌握词语的含义、用法外,还要特别注意语境的作用,特别是特殊场合(比如正式场合)不能随意使用俗语或表情话。
新词更有助于汉语中的科技术语的修辞,丰富表达准确的语言修辞手段,更助于汉语的发展。
综观新词现象,社会经济发展带来的新概念促成习语演变,汉语开始结合部分外来语,以及利用新词特别是表情语将熟悉的词语丰富,从而使汉语得以更加丰富多采。
现代汉语新词语的产生原因及特点语言是一种社会文化现象,是人类社会最重要的交际工具。
词汇作为语言中最活跃的因素,敏感地反映着社会发展和语言发展的状况,也标志着人们对客观世界认识的广度和深度。
语言的发展总是紧跟时代步伐,全面、真实、生动地展现社会生活的全貌。
本文试图通过分析近年来出现的一些新词新语来揭示现代汉语新词产生的原因及其在语义、语法和语音等方面的特点。
一.新词语产生的原因语言是人类社会最重要的交际工具,与人类社会的发展息息相关。
因此,语言的发展受社会发展变化的影响很大。
在语言三要素中,词汇是最活跃、最敏感的部分,它的发展变化是语言文字反映社会发展进程的一面镜子。
新词语大量涌现的原因是多方面的,归纳起来,主要是以下两个方面:(一)社会的因素1.社会生活的深刻变化,表现在政治、经济、文化、教育、医疗卫生和科学技术等各个方面,新事物不断涌现,新思想和新思维也不断推动新词的诞生。
2.传媒的普及和多样化对方言词语的跨地域流行起了关键性的作用,网络时代的到来也加快了网络新词的传播。
(二)语言的因素1.语言交际因素语言作为人类最重要的交际工具,要满足不同时期、不同交际主体的心理要求。
语言使用者的多元性决定了为社会服务的语言形式的多元性,为了适应不同的交际目的和交际方式,新词新义的创造就变得不可避免。
2.语言内部因素语言的发展具有渐变性,这一特点要求新词语的产生不能脱离原有语素,否则造成的新词势必难以被人们快速理解和接受。
"类推机制"是语言中广泛存在的一种机制,在新词语的生成过程中起到非常重要的作用。
很多新词语都是运用这种方式创造出来的,如"换客、拼客、晒客","车奴、房奴、白奴","监控门、解说门、艳照门、虎照门","被就业、被增长、被代表、被自愿"等等。
使用类推机制大量仿造新词,反映了人们在创造新词语时追求简洁的"经济原则"。
新词发现综述廖先桃摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,而随着新词的不断出现,它使中文分词结果中出现过多的“散串”,影响了分词的准确率。
因此,新词识别已经成为中文自动分词的一个难点和瓶颈问题。
本文从新词的概念出发,讨论了新词发现的技术及发展。
关键词:新词发现 中文分词1 引言在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。
但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。
据中国语言文字工作委员会专家曾做的一个保守统计,中国自改革开放的20年来平均每年产生800多个新词语[1][2]。
新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率。
最近的研究还显示,60%的分词错误是由新词导致的[20]。
因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
2 新词的概念目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。
很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。
通常,未登录词被定义为未在词典中出现的词[3][4][5]。
(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括(a) 缩略词(abbreviation),如“中油”、“日韩”;(b) 专有名词(Proper names),主要包括人名、地名、机构名。
如“张三”、“北京”、“微软”;(c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”;(d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”;(e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。
新词语研究报告1. 引言本报告旨在对新词语进行研究,并探讨其对语言和文化的影响。
新词语的出现和流行在现代社会中非常普遍,对于语言学家、社会学家以及文化研究者来说具有重要的意义。
本报告将对新词语的定义、产生原因、传播途径以及影响进行分析和讨论。
2. 新词语的定义新词语是指在现代语言中新出现的、经过社会认同且具有一定使用频率的词汇。
这些新词语通常反映了社会和文化的变化,并且与新兴技术、潮流、社会事件和团体等紧密关联。
新词语的出现不断丰富着语言表达方式,反映了当代社会和文化的发展。
3. 新词语的产生原因3.1 技术进步随着科技的不断发展,新的科学名词和词汇不断涌现。
例如,随着互联网和智能手机的普及,出现了“网红”、“云计算”、“APP”等新词语。
3.2 社会变迁社会变迁带来了新的社会现象和概念,从而引发了新词语的出现。
例如,随着社交媒体的流行,一些新的网络用语如“刷存在感”、“打卡文化”等迅速传播开来。
3.3 文化融合文化的多元化和融合也是新词语产生的原因之一。
不同地域和民族之间的交流和融合促进了新词语的生成,如“菜单型”、“高街潮”等。
4. 新词语的传播途径4.1 社交媒体社交媒体是新词语传播的主要平台之一。
用户通过分享、转发和评论,迅速扩散新词语。
社交媒体的快速传播速度使得新词语的流行范围更广。
4.2 传统媒体传统媒体如电视、电台和纸质媒体也在新词语的传播中发挥重要作用。
新词语可以通过新闻报道、电视节目等媒介进入大众的视野。
4.3 口口相传一些新词语通过口碑传播的方式流行起来。
人们在社交场合或日常生活中使用新词语,引起他人的兴趣,并通过口传扩散。
5. 新词语对语言和文化的影响5.1 丰富了语言表达方式新词语丰富了语言的表达方式,促进了语言的发展和演变。
它们使得句子更生动有趣,同时也加强了语言的表达力。
5.2 反映社会和文化变迁新词语的出现反映了社会和文化的变迁。
它们诠释了社会的新现象、新概念和新趋势,成为了了解当代社会和文化的重要窗口。
现代汉语新词语产生途径及特点述要近二十年来,随着经济和社会发展的加快,以及信息技术的迅猛发展,新兴语言文化环境中出现了大量新词语。
新词语不仅是社会发展的需要,更是汉语传播的标志。
本文就新词语的产生途径及其特点进行述要,以供研究者参考。
一、新词语的产生途径新词语的产生有多种途径,主要可分为以下几种:(1)外来语转化。
即把外来语翻译成中文,或用相近的字母组成的词语来表达。
例如“时尚”,这个词语源自法语“fashion”,经过翻译而成为新词语;“网络”源于英文“network”,是一个相近的字母组合形式而成为新词语。
(2)现有语言词语发展变化。
比如“酷”,这个词语本表示“痛苦”,后来变成“形容有趣”的意思,再后来指“非传统的、时髦的”的概念;“拖延”,也就是“推迟”的意思,后来发展成“无意义的犹豫不决”的概念。
(3)新科技新活动产生。
随着科技发展和新活动出现,也会产生大量新词语。
例如网络用语中的“网络营销”,有关无线通讯技术的“3G”等。
二、新词语的特点新词语的特点是形式简单、词义复杂,同时具有“新颖性、时尚性、带有语言研究意义”的特点,即“新颖时尚、研究价值”的特点。
(1)新颖时尚的特点。
新词语的词语本身带有新颖性,它代表着超越以往汉语文化的范围,它反映了一种新的、时尚的流行文化观念,具有高度的时尚性。
(2)有研究价值的特点。
新词语也具有丰富的研究价值,它反映了新的社会状况,反映了新的语言文化观念,如果能够系统地研究它们,可以让我们更加深入地了解和掌握新兴社会最新的变化规律。
总结从以上我们可以得出,新词语的产生有许多途径,它们具有新颖时尚的特点,也具有高度的研究价值,新词语不仅是社会发展的需要,更是汉语传播的标志。
汉语新词产生的途径当代生活的变化比以往任何时候都要快。
语言,尤其是词汇,迅速而忠实的记录了这些变化与发展,因而随着社会的发展会不断涌现大量的新词语。
现在,就让我们新词新语的产生途径做一番检视与探究。
据统计,每年有1000多个新词产生,并且随网络普及不断增加。
当代汉语新词新语的爆发式产生不仅极大地丰富了汉语词汇,使汉语充满了勃勃生机,同时也给汉语词汇系统带来了巨大的冲击。
语言中的词汇,对社会的变化最为敏感。
加强对新词新语的形式特点、产生来源、消长原因等方面的分析和研究,将会为当代汉语词汇理论的建构、认知理解、提供一些有益参考。
新词新语已经形成了一个庞大的家族,其家族成员来自不同的“族群”,因此由于其成员性质或身份的不同,新词新语呈现为以下几种主要的类型。
(一)新造的词语。
这类新词新语是指运用汉语固有的造词材料和结构方式,对新事物、新概念、新观念进行指称、描写而创生的新词和短语。
政治、经济、科技、文化等方面的热点问题以及新闻事件,通过广播、电影电视、报刊杂志、畅销书籍(含各种文艺作品)等大众传媒的传播,是引发新词新语产生、流行的一个重要来源。
如“两个凡是、南巡、改革开放、万元户、与时俱进、退耕还林、八荣八耻、和谐社会、文化、台独”等一批新词新语生发、传播、流行和消隐几乎都是伴随某个政治性运动、问题或新闻事件的始终而消长变化的。
当前,大家印象最深的词汇变化现象应是一批文革新词(如“上山下乡、走资派、臭老九”)的废弃和“酷”等一些当代流行语(如“很S”代替说话“拐弯抹角”)的退热等。
又如,电视综艺节目“开心辞典”、大众娱乐节目“超级女声”等皆因其节目的热播而催生了一大批新词新语;另如“尘埃落定”、“痛并快乐着”、“谁动了我的奶酪”因畅销书籍而流行。
此外,由于影视新闻报导往往力求用最新异的刺激来吸引受众的眼球,因而像“门槛”、“大使”、“铿锵玫瑰”、“PK”等反映时事热点的新词新语在新闻报导中频繁出现,由此也推动了一些新词、新义和新用法的迅速扩展和流行。
浅析近三年新词语产生的来源和原因近三年出现的新词新语丰富了汉语词汇,极大的影响了人们的日常生活。
新词新语的来源有普通话新创词语、吸收方言词语、借入外来语等等,新词新语的原因有社会原因、语言因素、科技文化因素以及认知心理的影响等。
标签:新词新语;来源;原因词汇在语言要素中发展最快,最活跃,最敏感,最具有时代性。
新词新语正好充分显示了这一特点。
加强对新词新语的研究分析,将对汉语词汇的理论构建、语言的认知理解及字典辞书的编撰提供有益的参考。
本文拟对2011年到2013年新词新语产生的来源和原因作一探讨,望方家正之。
一、新词新语的来源1.普通话新创词语普通话中新创不少新词语,用来形容新现象、新状态或者命名新事物、新事件。
这类新词包括两小类:一类是复合词,如:“超级月亮”属于偏正结构的新词语,指月亮在距离地球较近距离时看上去又大又圆的状态。
该词2012年出现,如《南国都市报》2012年12月30日中的《肉眼可见大彗星超级月亮》一文。
“成功锚”属于偏正结构的新词语,指一种自我激励的方式,通过回想以前美好、成功的事情来应对当前的挫折一种自我激励的方式。
该词2011年出现,如《东方卫报》2011年11月8日中的《成功锚》一文。
另一类是派生词,如:(1)“体”类以“体”为词缀的新词语,迅速在汉语普通话中窜红,得到广泛使用,在报刊上频繁出现。
例如从2012年春节后开始,南方许多城市大雨连绵。
网友忍不住在网上吐槽,说:“下雨是因为白素贞找不到许仙”。
于是很多网友在微博大呼“许仙真的不在我们这里,别再下雨啦!”被网友称为“白素贞体”。
该新词2012年出现,可参看《白素贞体横空出世》〔1〕。
类似的“体”类新词语还有很多,如“厕所体”是针对2012年的到来而写出的一种网络文体,其目的是为了提醒大家在新的一年中多做快乐事,少做烦心事。
“甄嬛体”则是模仿2012年4月热播电视剧《后宫甄嬛传》的台词而创造的一种网络文体,其特征是语言复古、略带古韵,接近红楼体的特点。
近十年新词语研究报告近十年新词语的研究报告一、研究背景随着社会的发展和科技的进步,新词语不断涌现,它们往往反映了社会变革、科技进步和人们的生活方式。
对于研究新词语的出现趋势、意义和影响,有助于我们更好地理解新时代的语言现象和社会发展。
二、研究目的本报告旨在分析近十年新词语的出现趋势和影响,以提供对于新时代语言现象的理解和洞察。
三、研究方法本次研究采用了以下方法:1. 文献资料收集:收集近十年的学术文献和相关报道,了解新词语的出现和背后的社会背景。
2. 调查问卷:设计调查问卷,针对不同年龄、性别、职业和地区的人群,了解他们对于新词语的认知和使用情况。
3. 统计分析:对收集到的文献资料和调查问卷数据进行统计分析,探讨新词语的出现趋势和影响。
四、研究结果经过对收集到的文献资料和调查问卷数据的分析,得出以下研究结果:1. 出现趋势:近十年新词语的出现数量呈逐年增加的趋势。
这主要受到社会变革、科技进步和人们生活方式的影响。
2. 影响因素:新词语的出现受到多种因素的影响,包括科技发展、社会发展、文化传播以及年轻人的思维方式等。
3. 社会影响:新词语的出现和流行,往往会对社会产生一定程度的影响。
它们既是社会变革和青年文化的表现,也反映了人们生活方式的改变。
五、研究结论根据以上研究结果,我们可以得出以下结论:1. 近十年新词语的出现呈逐年增加的趋势,反映了社会发展和人们生活方式的变化。
2. 科技发展和社会发展是新词语出现的重要推动因素。
3. 新词语的出现和流行对社会产生一定程度的影响,它们不仅是语言现象,也涉及到文化、思维方式和社会变革等方面。
六、研究展望本次研究只对近十年新词语进行了初步探讨,对于新词语的出现规律和影响因素还需进一步深入研究。
未来的研究可以从更多维度和更大样本的角度进行,以便更全面地了解新词语的现象和意义。
此外,也可以对新词语的语义演变和传播方式进行进一步研究,以拓宽研究领域。
新词发现新词发现定义新词发现就是识别特定预料中不在字典中的词,所以新词⼜被称为「未登录词」,⽐如微博语料中的⽹络流⾏语,⿊产语料中的⿊话。
⼀般的做法是不依赖字典做⽆监督分词,分好的词减去已知字典,得到的就是新词。
这样新词发现就被转换为分词任务,或者说是⼀个识别预料中的词的任务。
下⾯介绍⼏种基于统计的判断是否成词的指标1、词频对语料完整切词,⽐如对于⼀句话 "明天可能要下⾬",以2grams, 3grams, 4grams 的⽅式切词2grams 切分为:明天,天可,可能,能要,要下,下⾬3grams 切分为:明天可,天可能,可能要,能要下,要下⾬4grams 切分为:明天可能,天可能要,可能要下,能要下⾬统计上词出现的次数,词频越⾼,越可能成词。
2、凝固度有⼀个两字词 xy ,P (xy ) 代表词 xy 出现的概率,凝固度的计算如下P (xy )P (x )P (y )假如 x 和 y 相互独⽴,那么 P (xy )=P (x )∗P (y ) ,凝固度接近于 1,当 xy 越容易成词,P (xy ) 相⽐于 P (x )∗P (y ) 会更⼤,凝固度就更⼤。
对于三字,四字词呢,⼀般⽤多种分割⽅式的最⼩值作为多字词的凝固度min P (xyz )P (x )P (yz ),P (xyz )P (xy )P (z )⼀般使⽤中会对概率⽐值取对数,就变成点间互信息的概念PMI (xy )=log 2P (xy )P (x )P (y )当然取不取对数,在实际使⽤中区别不太⼤,都可以卡⼀个阈值来判断凝固度是否达标。
3、左右熵熵:代表信息的混乱程度,熵越⼤,代表越混乱,信息量越⼤当前词的左熵是指,当前词的左侧出现的字的熵,也就是当前词都可以应⽤在哪些字后⾯,应⽤越⼴泛,越像⼀个词。
⽐如"被⼦"这个词,左侧有可能是"叠、盖、买、晒、晾",统计这些前置字出现的频率,计算熵值,结果我们可知"被⼦"的熵值就挺⼤的再⽐如 "⽇梦"的左侧出现的字可能⼤概率就是"⽩",左熵较⼩,那么就认为"⽇梦"可能不容易单独成词,实际情况我们知道"⽩⽇梦"更适合做⼀个词右熵类似计算左右熵衡量的是⼀个词在外部的应⽤场景是否⼴泛,熵越⼤,应⽤场景越多,越有可能成词。
《近五年网络新词语统计与词义分析报告》7400字近五年,网络新词语的出现此起彼伏,在社会的发展进程中发挥着重要的作用。
它们不仅能反映社会热点,更是用以表达人们一些情绪、思想、生活状态的一种语言。
本报告统计了近五年来出现的网络新词语,观察其变化趋势,并分析了词义的发展特点。
随着网络技术的飞速发展,网络新词语也不断出现,反映了社会新发展、新事物的变化。
进入21世纪以来,这种变化速度更加明显,每种新词语能反映社会的某种发展趋势。
从2009年至今,网络新词的出现给我们的生活和思维模式带来了很大的改变,表现在词义上也是如此。
从2009年至今,共出现了数以千计的网络新词语,分为两类:一类是以新生事物为提示词,例如“奇葩”、“丝”等;另一类是以旧事物为提示词,例如“萌宠”、“晚安”等。
前者词义的变化非常明显,往往以新事物的变化为依据而出现,含义变化主要在扩大和增强某些方面,可以说是在老词新义、丰富字义的过程中实现的。
而后者的变化往往不太明显,在一定程度上仍是旧词义,但由于某些文化背景的变化,可以在原有基础上有所拓展或不同程度的转化,已达到新义新用途的要求。
从变化趋势来看,网络新词语的出现速度持续上升,而新词的存活率越来越低,说明它们绝大多数都是有限的、短暂的流行现象,他们的热度很快就会消退。
同时,也要注意到网络新词语的种类正在发生变化,以正面词语为主,含义偏向提升和表扬,说明网络新词语有助于社会进步,也极大地增加了人们的生活愉悦感。
综上所述,近五年来网络新词语的出现给当今社会带来了变化,其变化趋势表明,新词语无论在词义上还是变化趋势上,都可以反映出当前社会的发展,它们把不同的语言整合在一起,极大地拓展了语言的表达能力,为新的社会价值观提供了重要的参考依据,为本地区的语言文化发展奠定了基础。
大数据时代下的新词发现在大数据时代的今天,人们处理数据的方式和方法已经发生了很大的变化,大数据的存在让我们能够深入了解人们生活的方方面面,并将这些数据用于更加有意义、更加有效的领域。
新词的发现也成为了大数据时代下的一个重要议题,这项工作需要有专业的人才和一套完整的方法。
一、什么是新词发现新词发现是指在海量的语料库中,通过计算机程序的自动分析、人工筛选等方式,寻找出一些新词或者新词组合。
这些新词可以是颠覆性的、时髦的、双关语般的、缩写词等等。
这些新词的发掘,对保持语言的活力和时尚性有一定的推动作用。
二、新词发现的难点在实践中,新词发现面临诸多难点。
首先是语料库的选择,语料库的质量将直接影响新词发现的结果。
其次是新词本身的特性,一些新颖、双关语等能否为人接受,有时需要一定的文化和社会背景,否则可能被人们误解。
除此之外,新词发现中还存在一些技术上的难点。
例如,新词的得分计算、词义的分离、计算机模型的构建等方面都需要有深入的研究和创新。
三、新词发现的方法为了解决新词发现的难点,研究人员提出了各种各样的方法。
下面列举一些常用的方法。
(一)基于统计的方法。
基于统计的方法不需要太多的语言专业知识,它主要是针对新词的频率、长度、层次等规律进行分析。
根据新词的频率和其他相关指标计算新词得分,进而判断其是否为新词。
这种方法适用于包含海量数据并要快速处理的场合,但它无法准确地区分新词和旧词,因此在实际操作中需要综合使用其他方法。
(二)基于机器学习的方法。
这种方法通常是采用分类方法,将海量的语料库分为多个类别,通过给定的学习算法,可以学习得到新词的特征,并对词进行分类。
这种方法对于具有需要较少次观察得到的特征的新词发现很有用。
(三)基于语境的方法。
人们发明了一种基于句子的加权算法,通过识别某单个单词在一定语境中的含义,为每个单词附加各种句子权值,从而实现新词发现。
这种方法提高了单词的区分度,有效地发现了一些新词和短语。
新词发现综述廖先桃摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,而随着新词的不断出现,它使中文分词结果中出现过多的“散串”,影响了分词的准确率。
因此,新词识别已经成为中文自动分词的一个难点和瓶颈问题。
本文从新词的概念出发,讨论了新词发现的技术及发展。
关键词:新词发现 中文分词1 引言在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。
但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。
据中国语言文字工作委员会专家曾做的一个保守统计,中国自改革开放的20年来平均每年产生800多个新词语[1][2]。
新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率。
最近的研究还显示,60%的分词错误是由新词导致的[20]。
因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
2 新词的概念目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。
很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。
通常,未登录词被定义为未在词典中出现的词[3][4][5]。
(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括(a) 缩略词(abbreviation),如“中油”、“日韩”;(b) 专有名词(Proper names),主要包括人名、地名、机构名。
如“张三”、“北京”、“微软”;(c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”;(d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”;(e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。
新词虽然也是未在词典中出现的词,属于未登录词,但它和未登录词还是不同的。
(周,et al.,2004)认为应该从两个方面把握新词的定义,(1)从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语[6]。
即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。
(2)从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形、新词义或者新用法的词汇[7]。
从语言学角度来讲,汉语中的新词语按照来源大体可以分为以下几类[2][6]:(1) 命名实体:包括人名、地名、商品名、公司字号、机构名等;(2) 缩略语:如“非典”、“计生委”等;(3) 方言词:如“靓”、“埋单”等;(4) 新造词:如“伊妹儿”、“美眉”等;(5) 专业术语:如“非典型肺炎”、“蓝光光盘”等;(6) 音译词:如“酷”、“秀”、“克隆”等;(7) 字母词:如WTO、APEC等;(8) 词义、用法发生变化的旧有词语:如“下课”、“充电”等。
其中还包括一种“旧词新用”的语言现象,比如“高就”、“赏光”等,很长时间不用了,最近又重新出现在语言中。
当然,根据实际的需要,新词的定义也有所不同,如(Wu,2000)中识别的新词是指最近出现的词、偶然出现的词、以及其他很少使用的词,这些词既不能在词典中找到,也不能通过识别系统的规则识别出来,如“冷射”、“球痞”、“鲜丽”等。
本文中讨论的新词主要是指(周,2004)中定义的除命名实体之外的新词。
从上面的新词的含义及分析来看,新词发现技术存在着以下难点:(1) 由于中文词语定义的模糊性,新词没有统一的定义标准,且涵盖面广,很难找到一种通用的有效的方法;(2) 新词尤其是非命名实体,在构成方面没有普遍的规律;(3) 对于低频新词由于数据稀疏,识别难度很大;(4) 很难根据词语的词形、词义和词语用法的变化以及利用时间信息发现新词。
3 国内外研究现状3.1 新词的研究领域语言随着社会的发展而发展,在词汇中的一大表现就是新词语的出现。
新词的产生引起了语言学者的特别关注,自80年代以来,学者们对汉语新词语进行了较多的研究,这种研究呈现出了多方位,多角度,多层次和立体化的趋势[9]。
主要包括:新词语的界定,新词语的产生与社会、文化的关系,新词语产生的途径,新词语的结构形式特点,新词语的词义发展特点等[9][10][11]。
为了便于计算机研究新词,(亢,2002)从2001年开始开发可机读的新词电子词典——《现代汉语新词语信息电子词典》,已收录新词近四万个。
除了语言学家对新词进行研究之外,自然语言处理领域的专家也一直尝试不同的方法借助计算机从大规模的文本中自动抽取新词。
新词的识别已经是自然语言处理领域一个重要的研究课题。
目前国内的研究单位主要有微软亚洲研究院、富士通研究中心、华中师范大学计算机系、中科院计算技术研究所、北京语言大学语言信息处理研究所、山西大学计算机系等单位,他们在新词识别算法以及对新词结构特征研究等方面做了有益的尝试。
国外的马萨诸塞州大学计算机系彭富春等人对新词识别做了研究,另外还有日本奈良工业大学的Chooi-Ling Goh[21] ,加拿大的Jianyun Nie[4]等对未登录词识别做了很充分的工作。
3.2 新词发现的主要方法在新词发现方法方面,目前主要有基于规则和基于统计两种方法。
基于规则的方法其主要思想是根据新词的构词特征或外型特点建立规则库、专业词库或模式库,然后通过规则匹配发现新词。
基于统计的方法,一般是利用统计策略提取出候选串,然后再利用语言知识排除不是新词语的垃圾串。
或者是计算相关度,寻找相关度最大的字与字的组合。
规则的方法主要缺点在于局限于某个领域,并且需要建立规则库等。
而统计的方法,一般都是限于查找较短的新词语。
(郑,2002)完全采用规则的方式识别新词,一方面以新词的构词知识为基础建立新词识别的常用构词库,另一方面从网上词语的特征出发建立特殊构词规则库。
并按照规则所取的作用分为“互斥性子串”过滤规则、常规构词规则、特殊构词规则。
利用这些规则过滤并确定新词。
封闭测试准确率为91.2%,召回率95%。
规则的方法准确率较高,但是总结规则费时费力且受领域限制。
另外,本文抽取的规则形式较单一,不能描述所有的情况。
动态流通语料库是指面向媒体(如报纸等)采集到的语料库,由于实时性强,领域广,常含有很多新词。
(颜,2003)提出利用动态流通语料库的VSM新词识别方法。
首先对新词现象做了系统分析,再根据新词特点利用动态流通语料库构建一个含有M个属性的语素属性库,即建立VSM模型,然后通过计算空间向量的相似度的方法发现新词。
这种方法比较简单,但是由于建立VSM模型时属性只用0和1表示,区分度不大,故容易引入噪音。
由于建立规则的过程需要对新词的特点进行细致的分析,而且规则常与领域相关,不易移植,于是越来越多的研究者开始借助统计方法获取新词信息,并将统计和规则结合识别新词。
(Chen,2003)在识别数字、时间、人名等新词时利用了语言学触发规则,如后缀词、姓用字、名用字等。
同时对其他新词,作者计算了一个单字的成词概率,当相邻的两个单字的概率的乘积大于某个事先预定的概率时,则认为这两个字组成一个新词。
这种识别新词的方法存在明显的缺陷,一是只考虑了由两个字组成的新词,二是仅利用概率条件,过于简单。
将新词识别加入分词模块之后,R oov和F值分别提高11%和0.08%。
(Wu,2000)是在规则系统中加入了统计信息以提高新词总体的识别效果。
首先对文本进行分词以及NE、数字等识别,然后对句子中的散串计算单个汉字的IWP(c)和多个汉字串的IWP(s),并设定域值挑选新词候选字串。
另外再由候选字串的词性与位置、词长之间的关系假设,计算P(Cat,Pos,Len)概率值,并根据域值判断候选串是否是新词。
测试的F值为56%。
该方法通过统计加入了词的内部成词信息,也考虑了分词等外部信息,但是它没有利用新词本身的语言特性。
另外,由于假设条件的限制,只能识别长度为2到4个汉字的新词。
(贾,2004)提出采用基于概率统计技术和规则方法的新词发现方法。
作者从网上获得大规模待处理的文本,预处理之后进行分词和词性标注,然后建立二元统计模型。
此时利用统计方法选出共现频次在均值之上的词汇组合作为候选词串,对候选结果再利用规则——单字组合词规则、多字组合词规则等过滤,最后由人工选择确定最终的新词结果。
该方法虽然加入了统计信息,加快了从大规模语料中获取信息的速度,但是统计的方法会受数据稀疏问题的影响,不利于低频新词和含汉字较多的新词的发现。
另外规则过滤的效果也依赖规则的获取和完备性。
最终的人工干预也降低了新词发现的效率。
针对多字新词抽取精度不高的情况,研究者提出基于质子串分解的新词发现技术[18]。
他们对从Internet上采集的网页,使用改进的互信息参数(F-MI)抽取结构简单的词汇(质词),在此基础上,再用质子串分解的方法,将长串分解为更短的子串,然后通过子串之间的关联程度来评估长串成为新语的可能性。
从而提高了长串的抽取精度。
(周,2004)中新词识别方法,首先大规模处理网页,对于切分后的网页内容,用重复串查找寻找新词语。
接着根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合,这个集合里面不仅包括了大部分已有的词语,还包括了噪音和固定搭配。
然后作者在这个背景词串集合的基础上,通过评价函数对于给定时间以后的词和串进行比较和评价,从中得到新词语候选。
最后用过滤规则对新词语候选进行过滤,得到最终的新词语结果。
新词发现精确率30%以上,召回率90%以上。
本文的不同之处在于,他们利用了新词构成特征以及时间特征,同时将统计与规则很好的结合,可以寻找某一时间点后首次出现的不限领域和长度的任意新词语。
但他们总的识别效果不是太好。
前边用到的统计方法大都是用作规则的辅助策略。
(Peng,et al.,2004)则完全采用统计的方法。
作者将分词和新词发现作为一个统一的过程,利用CRF(Conditional Random Fields)模型,将词汇特征和领域知识等很好的融入到模型中。
同时,发现的新词会加入到词典中改善分词器的性能,改善后的分词系统又能更好的识别新词,两者互相促进,达到了很好的识别效果。
(Li,2004)主要研究了两种类型的新词:NW11(由两个汉字组成)和NW21(由一个二字词后跟一个单字组成)。
作者将新词识别问题看作一个二元分类问题,对NW11和NW21分别选用不同的特征并利用SVM分类器进行分类。
NW11和NW21的F值分别为64.4%和54.7%。