一种基于词聚类信息熵的新闻提取方法
- 格式:docx
- 大小:2.83 MB
- 文档页数:16
一种融合 K-means 和快速密度峰值搜索算法的聚类方法盛华;张桂珠【摘要】K-means 算法的初始聚类中心是随机选取的,不同的初始中心输入会得出不同的聚类结果。
针对 K-means 算法存在的问题,提出一种融合 K-means 算法与聚类的快速搜索和发现密度峰算法的聚类算法(K-CBFSAFODP)。
该算法是这样考虑的:类簇中心被具有较低局部密度的邻居点包围,且与具有更高密度的任何点都有相对较大的距离,以此来刻画聚类中心;再运用 K-means算法进行迭代聚类,弥补了 K-means 聚类中心随机选取导致容易陷入局部最优的缺点;并且引入了熵值法用来计算距离,从而实现优化聚类。
在 UCI 数据集和人工模拟数据集上的实验表明,融合算法不仅能得到较好的聚类结果,而且聚类很稳定,同时也有较快的收敛速度,证实了该融合算法的可行性。
%The initial clustering centre of K-means algorithm is selected randomly,different initial centre inputs will get different clustering results.Aiming at this problem of K-means algorithm,we proposed a clustering algorithm which combines K-means algorithm and clustering with the fast density peaks search and finding algorithm (K-CBFSAFODP).This algorithm has the following considerations:the class cluster centre is surrounded by neighbour points with lower local density,and has relatively larger distance to any point with higher density,this is used to depict the cluster centre;then the K-means algorithm is employed for iterative clustering,this makes up the defect that to randomly select K-means clustering centre leads to falling into local optima easily.Moreover,the algorithm introduces entropy method to calculate the distance,thereby realises the optimisation of clustering.It isdemonstrated by the experiments on UCI datasets and artificial simulation dataset that this combination algorithm can get better clustering results,and the clusters is very stable as well;meanwhile it also has fast convergence speed.These confirm the feasibility of the combination algorithm.【期刊名称】《计算机应用与软件》【年(卷),期】2016(033)010【总页数】6页(P260-264,269)【关键词】聚类;K-means算法;CBFSAFODP算法;初始聚类中心;密度;信息熵【作者】盛华;张桂珠【作者单位】江南大学物联网工程学院江苏无锡 214122;江南大学轻工过程先进控制教育部重点实验室江苏无锡 214122【正文语种】中文【中图分类】TP18聚类分析是一种无监督的机器学习方法,是数据挖掘中的重要研究方向之一[1]。
基于信息熵的FCM聚类算法
邢婷;邢治国;王凤领
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)023
【摘要】针对模糊聚类存在的数据收缩问题的不足,提出了一种改进现有模糊聚类算法的方法,并进行仿真实验研究.模糊C-均值(FCM)算法主要通过目标函数的迭代优化来实现集合划分,以信息熵作为模糊C-均值算法的约束条件,给出改进算法的推导过程,得出改进后的模糊C-均值算法的隶属度和聚类中心,实现了模糊C-均值的改进算法.实验结果可以表明,改进的模糊C-均值算法是有效的,能够表现出比模糊C-均值算法更好的性能,在实际应用中可以取得较好的聚类效果.
【总页数】4页(P5092-5095)
【作者】邢婷;邢治国;王凤领
【作者单位】哈尔滨德强商务学院计算机与信息工程系,黑龙江,哈尔滨,150025;三锐系统株式会社事业统括部,日本,东京,101-0021;哈尔滨德强商务学院计算机与信息工程系,黑龙江,哈尔滨,150025
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于信息熵原理与FCM算法的市场细分方法 [J], 林盛;吕红艳
2.一种基于信息熵约束的快速FCM聚类水下图像分割算法 [J], 王士龙;徐玉如;万
磊;唐旭东
3.基于信息熵加权的FCM交通状态识别研究 [J], 曹洁;张丽君;侯亮;陈作汉;张红
4.基于PSO-TVAC的中心自适应权的FCM聚类算法 [J], 胡建华;尹慧琳
5.基于FCM聚类算法的多分组和分层的协作缓存策略 [J], 胡昌桂;王翊;欧梦添;许耀华;黄林生
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于信息熵的传感器数据异常检测方法田黎明;张冬梅【摘要】传感器数据采集作为系统感知信息和获取数据的重要手段,其数据的真实性和可靠性至关重要,数据异常检测能提升数据的质量,挖掘出数据的潜在信息.基于分类、聚类等的检测方法依赖于数据的空间相关性,且复杂度很高,不适用于智能家居等小型物联网环境.基于数据距离的检测方法适用于此场景,但是存在误报率高的问题.针对这些问题,本文将传感器滑动窗口内的数据值作为离散随机变量,定义了数据流的信息熵,在此基础上提出了一种通过计算滑动窗口内信息熵进而检测数据异常的方法.模拟实验表明,本文提出的方法能高效地检测异常,并且有更高的检测率及更低的误报率,符合预期结果.【期刊名称】《软件》【年(卷),期】2018(039)009【总页数】5页(P69-73)【关键词】信息熵;滑动窗口;异常概率;异常检测;时间相关性;统计特征【作者】田黎明;张冬梅【作者单位】北京邮电大学网络空间安全学院,北京 100876;北京邮电大学网络空间安全学院,北京 100876【正文语种】中文【中图分类】TP393传感器作为系统感知信息和获取数据的重要设备,在生态环境监测、工农业生产监控乃至国防军工等领域都有广泛的应用。
由于传感器部署区域不确定且设备资源有限,其易受到外界因素的干扰和破坏,故广泛存在传感器数据的不可靠性问题,如何保障和提高传感器数据的质量是一个亟需解决的问题。
当前针对传感器数据异常检测的研究集中于无线传感器网络(WSN)环境[1]。
在WSN环境下,为了提高系统整体的可用性,大量的无线传感器被分散部署在能量和带宽均受限的地区,这些传感器节点密集组网、相互协作地提供数据服务。
在该环境下可以利用不同传感器节点数据流的时间与空间相关性进行异常检测[2]。
但是将这些检测方法应用于一些智能家居或智能楼宇等小型物联网环境时,由于环境中部署的同类型传感器节点数量少,数据的空间相关性不足,基于空间相关性进行检测不仅增加方法的复杂度,而且检测效果也不理想。
基于位置信息熵的局部敏感哈希聚类方法徐彭娜;魏静;林劼;江育娥【期刊名称】《计算机应用与软件》【年(卷),期】2018(035)003【摘要】在分析海量生物序列时,现有的聚类算法存在着时间效率不高、准确率较低,以及聚类结果的生物意义不足等问题.针对这些问题,提出一种基于位置信息熵的局部敏感哈希聚类方法.通过对生物序列使用K词计算其标准熵,将标准熵作为局部敏感哈希函数簇的特征向量,计算特征矩阵并应用于生物序列聚类.实验结果表明,该算法能够有效地提高时间效率和聚类的准确率.随着数据集的增大,也同样取得很好的效果,实验结果更具有生物解释性和实际意义.%In the analysis of massive biological sequences , the existing clustering algorithms have the problems of lowtime efficiency, low accuracy and insufficient biological significance of the clustering results .To solve these problems, alocal sensitive hash clustering method based on location information entropy wasproposed .By using K words to calculatethe standard entropy of a biological sequence , the standard entropy was used as the eigenvector of the local sensitive hashfunction cluster, and the feature matrix was calculated and applied to the biological sequenceclustering .Experimentalresults showed that the proposed algorithm effectively improved the efficiency of time and the accuracy of clustering .Asthe data set increased, the algorithm also achieved goodresults.The experimental results were more biologicallyinterpretative and practical.【总页数】7页(P230-235,252)【作者】徐彭娜;魏静;林劼;江育娥【作者单位】福建师范大学数学与信息学院福建福州350108;福建师范大学数学与信息学院福建福州350108;福建师范大学数学与信息学院福建福州350108;福建师范大学数学与信息学院福建福州350108【正文语种】中文【中图分类】TP3【相关文献】1.河南省高等教育资源配置评价指标体系研究——基于改进的信息熵的蚁群聚类方法 [J], 陈岩2.基于信息熵的高维数据流子空间聚类方法 [J], 张俊3.一种基于信息熵的人工鱼群聚类方法 [J], 刘高峰; 杨洋4.基于信息熵的食品安全事件聚类方法研究 [J], 辜萍萍5.基于信息熵的食品安全事件聚类方法研究 [J], 辜萍萍因版权原因,仅展示原文概要,查看原文内容请购买。
客观多因素权重分配方法及其应用吴静;吴晓燕;高忠长【摘要】综合模糊聚类技术和粗糙集理论中的信息熵原理,提出了一种多因素决策中确定各因素权重分配的新方法.利用模糊聚类分析对数据进行聚类,并提取最佳聚类;基于粗糙集中信息熵原理确定各因素的权重分配.算例结果表明:方法合理有效,具一定的可行性.【期刊名称】《上海航天》【年(卷),期】2011(028)003【总页数】4页(P60-63)【关键词】模糊聚类;粗糙集;信息熵;权重分配【作者】吴静;吴晓燕;高忠长【作者单位】空军工程大学导弹学院,陕西,三原,713800;空军工程大学导弹学院,陕西,三原,713800;空军工程大学导弹学院,陕西,三原,713800【正文语种】中文【中图分类】工业技术60 上海航天 AEROSPACESHANGHAI第28 卷 2011 年第 3 期文章编号: 1006 1630(2011)03 0060 04 客观多因素权重分配方法及其应用吴静,吴晓燕,高忠长(空军工程大学导弹学院,陕西三原 713800)摘要:综合模糊聚类技术和粗糙集理论中的信息煽原理,提出了一种多因素决策中确定各因素权宣分配的新方法。
利用模糊聚类分析对数据进行聚类,并提取最佳聚类 s 基于粗糙集中信息煽原理确定各因素的权重分配。
-算例结采表明方法合理有效,具一定的可行性。
关键词:模糊聚类;粗糙集;信息煽;权重分配中图分类号: TP18文献标志码:AObjective Multi-Factor Weight AllocationMethod and Its Application WU Ji吨, WU Xiao-yan,GAO Zhong-chang (The Missile Institute of Air Force EngineeringUniversity,Sanyuan713800Shaanxi,China) Abstract, The accuracyandreliabilityofmulti-factordecision-makingwaspartlydependedonthereasonableattribute weightallocation.Inorder toperformweight allocationreasonably and effectively inmultifactor decisionmaking,amulti-factor weightallocationmethodwasproposedbasedonthefuzzyclusteringanalysisinf uzzysetsandthe entropy theory inrough setsinthispaper.The source datawas clusteredbyfuzzyclustering analysis,andthebest clustering was extracted.The multi-factor weight allocationwas determinedbased on the entropy theory inrough sets.The calculationresult of an example showedthat theproposed approach wasreasonable and feasible.Keywords: Fuzzy clustering;Rough sets;Information entropy;Weight allocation 0引言解决多因素决策问题的重要前提就是需要确定各因素的权重分配,因此设计一个合理、有效的方法确定各因素的权重分配十分重要[1 ]。
一种基于K-means改进聚类的图像增强算法张霖泽;王晶琦;吴文【摘要】在低光照环境下,CMOS成像器件无法拍摄出清晰的图像.为了提升低照度条件成像器件输出图像的质量,根据低照度图像的特点,提出一种基于K-means 聚类的图像增强算法.通过改进的K-means算法将图像分块,并根据每一块图像的信息量分别进行直方图均衡.该方法与CMOS成像器件进行实验,可以在保留约98.6%图像细节(信息熵)的前提下,将图像的对比度提升至原图像的17倍,平均梯度提升至原图像的4倍.【期刊名称】《应用光学》【年(卷),期】2016(037)004【总页数】6页(P549-554)【关键词】K-means;聚类;图像增强;直方图均衡【作者】张霖泽;王晶琦;吴文【作者单位】南京理工大学电子工程与光电技术学院,江苏南京210094;南京理工大学电子工程与光电技术学院,江苏南京210094;南京理工大学电子工程与光电技术学院,江苏南京210094【正文语种】中文【中图分类】TN911.4在现代信息化社会中,人类所获取的80%信息来自于图像信息。
但人的视觉能力毕竟在所能感受的辐射光谱波段、分辨亮度、色度和细节差别的程度以及所能触及的空间与时间范围等诸多方面存在实际限制;针对这个问题,早在上个世纪,根据夜晚中的光线特性,人类制作出了可以捕获微弱光线的微光夜视仪和可以捕捉红外线的红外夜视仪。
但对于一般的成像器件,在夜晚捕获图像的能力仍较弱,为了使一般成像器件也可以在低照度条件下捕捉相对清晰的图像,使得低照度图像的处理变得十分重要。
在多种图像增强算法当中,直方图均衡算法较为简单,作用范围广泛,增强效果较为显著,所以被用在众多图像处理领域当中[1-5]。
最基础的直方图均衡算法是全局直方图均衡(GHE),这种方法是根据输入图像整体的灰度等级通过其累计概率密度函数(CDF)变换为新的灰度等级的一种算法。
这种方法在面对灰度等级较为集中,对比度不高的图像时有很明显的作用,可以使灰度等级分布得更加均匀;但是它的缺点是一视同仁,不能针对图像的特征进行直方图均衡。
新闻提取关键信息方法
以下是 6 条关于新闻提取关键信息方法的内容:
1. 先通篇浏览呀,就像你去逛一个超级大市场,得先大致逛一圈心里有数才行嘛!你看,比如这条新闻说:“某市发生了一起重大交通事故。
”那你首先得知道这是在说啥地方,重大交通事故大概是个什么情况嘛。
2. 然后呢,抓住重要的人物或主体呀,这可太关键了。
比如说“某明星涉嫌偷税漏税”,那这个明星不就是核心嘛,后续就重点看围绕他的事情发展呀。
3. 留意那些特别的数字和数据呀,好比商场里的打折力度一样吸引人。
像“今年粮食产量同比增长了10%”,这 10%不就很显眼嘛。
4. 别忘了关键的时间点呀,这就像你约朋友见面的时间,可不能含糊。
比如说“昨晚发生了火灾”,昨晚这个时间就得记住呀。
5. 找找事件的原因和结果呀,这不就跟追一部剧一样,得知道为啥发生和最后怎么样了。
像“因为暴雨导致山体滑坡”,这就是原因嘛,然后看看造成了啥结果。
6. 还要关注那些带有感情色彩的词呀,这能让你体会到事情的严重性或者趣味性呢。
比如“惊人的”“可喜的”之类的,能让你一下子感受到事情的不同呢。
我觉得呀,掌握这些方法,提取新闻关键信息就会变得容易多啦!。
基于改进的k-means算法的新闻聚类的研究新闻聚类是一种对海量新闻进行分类整理的技术手段,它能够帮助人们快速地了解新闻的主题和热点,对于新闻媒体和信息服务提供商而言具有重要意义。
基于k-means算法的新闻聚类是目前比较常见的一种方法,但是传统的k-means算法存在一些问题,如对初始聚类中心的敏感性较强、需要事先确定聚类数目等。
如何对k-means算法进行改进,提高其在新闻聚类中的应用效果成为了研究的热点之一。
最新的研究表明,通过引入一些改进措施,可以有效提高基于k-means算法的新闻聚类的性能。
以下是一项基于改进的k-means算法的新闻聚类研究的具体内容。
该项研究对传统的k-means算法进行了深入的分析,发现在新闻聚类的过程中,传统的k-means算法容易受到初始聚类中心的选择影响,因此容易陷入局部最优解。
为了解决这一问题,研究团队提出了一种基于密度的初始聚类中心选择方法。
具体而言,他们通过计算每个新闻样本点的密度来确定初始聚类中心,使得初始聚类中心更加合理地分布在整个样本空间中,从而有效避免了传统k-means算法对初始聚类中心敏感的问题。
在传统的k-means算法中,需要事先确定聚类数目,这对于新闻聚类来说是一个较为困难的问题,因为新闻的主题和数量是动态变化的。
研究团队提出了一种自适应的聚类数目确定方法,即通过评估聚类内部的紧密度和聚类之间的分离度来自适应地确定聚类数目。
这种方法在一定程度上解决了传统k-means算法需要事先确定聚类数目的问题,提高了其在新闻聚类中的灵活性和适用性。
传统的k-means算法对异常点较为敏感,容易受到异常点的干扰,从而影响聚类结果的准确性。
为了解决这一问题,研究团队引入了一种基于局部密度的异常点检测算法,通过计算每个样本点周围的局部密度来识别异常点,并对其进行有效的处理。
这种改进措施有效提高了基于k-means算法的新闻聚类对异常点的鲁棒性,使得聚类结果更加稳健和可靠。
信息熵在中文文本分类中的应用研究中文文本分类是自然语言处理领域的一个关键问题。
随着社交媒体、新闻资讯、电商评论等大量文本数据的快速增长,中文文本分类的重要性日益凸显。
信息熵是中文文本分类中常用的一种特征提取方法,本文将探讨其在中文文本分类中的应用研究。
一、信息熵概述信息熵指的是一个事件或信源输出的信息量大小的度量。
在信息处理领域,其被用作表示随机变量不确定性的度量标准。
信息熵的值越大,表示信息的不确定性越高。
在实际运用中,信息熵可用于衡量文本数据的特征值。
文本的特征值即文本中某个单词或某个词组出现的频率。
信息熵越大,表示该文本的特征值越分散,即文本中不同的单词或词组出现的频率相差越大;信息熵越小,表示该文本的特征值越聚集,即文本中不同的单词或词组出现的频率相差越小。
在中文文本分类中,大多数情况下选取的特征是词频或词向量。
当文本特征值较为分散时,中文文本分类器能够更好地对其进行分类,反之则分类效果较差。
而信息熵的引入,可以辅助分类器更好地识别文本特征。
二、信息熵在中文文本分类中的应用1. 中文分词中文文本分类的一个重要前置任务是中文分词。
中文分词的目的是将一段连续的中文文本划分为相对独立的词组,为后续文本分类工作打好基础。
在传统中文分词算法中,分词的方法分为规则和统计两种。
规则方法需要人工指定分词的语法规则,运用规则对文本进行分词。
而统计方法是指任意字符连续组合的大致可能性的估计,及统计一个对于一给定的文本 Q、候选分词 C 具有最大概率的路径。
统计分词方法在很大程度上依赖于语言模型,缺点是需要大量的文本数据去训练模型,因而需要时间和资源成本,并且会受限于数据的质量和数量。
信息熵可以应用于中文分词的分词歧义消解任务中。
当一段文本中可能存在多种分词方案时,我们可以采用信息熵较小的方案,即分词结果更为聚集的方案,来消解这种歧义。
通过对大量语料库的实验,信息熵法在中文分词歧义消解解决方案中具有显著的优势,能够更好地解决中文分词的歧义问题。
一种基于左右信息熵和互信息的新词发现方法以及装置随着语言技术的发展,新词发现已经成为现代自然语言处理领域的一个研究热点。
有针对新词发现的方法和技术,通过深入研究已经有很多研究业绩,比如基于规则、统计以及机器学习等。
在这些技术里,基于左右信息熵和互信息的新词发现方法是最常用的。
1、信息熵:信息熵是信息论中一个重要的概念,主要用来衡量一个系统内部信息含量的大小。
熵连接有关系的概率分布,它可以反映在一定时间内的随机变量的不确定性。
将信息熵用于新词发现,可以有效的估算受研究语料中变量之间的关联度,因此可以判断某个变量是否属于新词。
2、互信息:互信息又称复杂信息,它可以表示一个系统中两个变量之间的相关程度。
它可以评估某两个事件之间存在的内在联系。
利用互信息可以从句法结构中提取词组,并可以有效鉴定长句中的词组。
1、设计原理:在新词发现的过程中,首先从某一语料库中提取出一定的变量,将其中的变量进行排列组合,当满足一定的条件时,则可以判定出这个变量可能是新词。
在给定的中文语料库中,经过基于左右信息熵和互信息的新词发现方法,可以计算出每个变量的熵和互信息,从而得到某一变量是否属于新词的结论。
2、装置结构:基于左右信息熵和互信息的新词发现装置由计算机、字典、熵计算器、关联度判断器和互信息计算器等组成。
首先,计算机依次从字典中抽取变量,然后将变量通过熵计算器计算出熵值,通过关联度判断器根据变量的熵值判断变量是否属于新词;最后将变量通过互信息计算器计算出互信息值,再依次进行排列组合,最终可以得到某一变量是否属于新词的结论。
综上所述,基于左右信息熵和互信息的新词发现方法可以对给定语料库中的变量进行筛选,使用这种新方法可以更加有效的发现新词,且可以迅速地找到符合要求的组合。
同时,此类新词发现装置可以方便有效的进行新词发现,针对某一语料库,使用它可以让新词发现变得更加快捷和准确。
信息熵法和熵权法-概述说明以及解释1.引言1.1 概述概述信息熵法和熵权法是两种常用的数学方法,用于处理不确定性和多因素之间的关系。
在现代科学和工程领域中,信息熵法和熵权法被广泛应用于数据分析、决策支持、风险评估等方面。
信息熵法是基于信息论的一种方法,主要用于衡量系统的不确定性程度和信息量大小。
通过计算各个变量或因素的信息熵,可以揭示系统内部的结构和规律,从而进行有效的分析和预测。
熵权法是一种基于熵值理论的多因素决策方法。
通过引入熵权指标,可以综合考虑各个因素之间的差异性,从而进行全面的评估和排序。
熵权法在多属性决策、风险评估、环境管理等方面具有重要应用价值。
本文将深入探讨信息熵法和熵权法的原理、应用领域以及优缺点,以期为读者提供更多关于这两种方法的理解和应用。
1.2文章结构文章结构部分:本文主要包括引言、信息熵法、熵权法和结论四个部分。
在引言部分,我们将对信息熵法和熵权法进行简要介绍,并说明本文的目的。
在信息熵法部分,我们将介绍其定义与原理,以及其在实际应用中的领域。
在熵权法部分,我们将详细介绍其定义与原理,并探讨其应用领域。
最后,在结论部分,我们将总结信息熵法与熵权法的优点,并进行对比它们之间的差异。
通过对这两种方法的全面了解,读者将能够更好地了解它们的优势和适用性,从而为实际决策和问题解决提供更多的参考依据。
1.3 目的:本文的目的在于深入探讨信息熵法和熵权法这两种在信息论和决策分析中广泛应用的数学方法。
通过对它们的定义与原理、应用领域以及优点与差异的对比分析,旨在为读者提供更全面的理解和认识。
同时,通过对这两种方法的比较,探讨它们在不同情境下的适用性和优劣,为决策者和研究者提供更多的选择和参考。
最终,希望能够对读者对信息熵法和熵权法的应用进行深入思考,并为相关领域的学术研究和实践工作提供一定的帮助和指导。
2.信息熵法2.1 定义与原理信息熵法是一种数学工具,用于描述信息的不确定度或信息量的大小。
一种基于词聚类信息熵的新闻提取方法作者:牛伟农吴林于水源来源:《软件导刊》2020年第01期摘要:互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。
提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。
实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。
若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。
结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。
关键词:新闻提取;新话题;词向量;聚类;信息熵DOI: 10. 11907/rjdk.192209开放科学(资源服务)标识码(OSID):中图分类号:TP301文献标识码:A文章编号:1672-7800( 2020)001-0036-050 引言随着第四媒体的迅速发展,新闻行业迎来了新的发展机遇。
自媒体的出现和新闻发布渠道的多样化,为大众获取信息提供了便利。
但与此同时.大量信息的产生导致虚假新闻的有效控制受到了阻碍。
利用计算机技术在大量新闻数据中提取出新话题新闻,将焦点放在新话题新闻上,可以减少相关工作者需要关注的新闻数量,降低舆情控制难度。
自2013年9月“一带一路”倡议提出后,相关报道不断增加,一时间引起轰动[1]。
政府部门在面向有关“一带一路”的报道时,需在大量新闻中掌握新话题新闻,关注事态走向,令其向正确的方向发展,确保“一带一路”倡议顺利实施。
因此,本文针对“一带一路”相关新闻进行验证分析。
20世纪90年代,随着在日本神户第四届机器翻译高层会议的召开,自然语言处理( Natural Language Processing,NLP)技术由发展期逐渐进入繁荣期[2]。
自然语言处理作为人工智能的一部分,在文本分类[3-4]、问答系统[5]、机器阅读理解[6]和机器翻译[7]等领域有着广泛应用。
近年来,网络媒体的发展使得NLP在新闻行业的应用也取得了一定进展。
目前,部分学者对新闻信息提取进行了研究,包括基于中文命名实体识别和指代消解的新闻事件要素提取[8]、基于篇章主次关系的单文档摘要抽取[9]以及基于PageRank的新闻关键词提取[10]。
当前研究虽然解决了文章关键信息提取的问题,可以帮助读者快速阅读新闻,但并不能很好地处理在多文本中提取新话题新闻的任务。
综上,为减少“一带一路”新闻中相关冗余信息对分析工作带来的干扰,本文提出了一种基于词聚类信息熵的新闻提取方法,用于在多文本中提取新话题新闻。
总体流程如下:①利用分词工具对语料进行分词;②由于实验语料相关性较大,去停止词的同时对背景词进行去除;③生成word2vec词向量;④进行词频统计并筛选出历史高频词;⑤对历史高频词进行聚类,以减少单个词的词频变化以及同近义词对结果的影响;⑥在词聚类的基础上计算新闻的信息熵,将高熵新闻作为新话题新闻。
1 理论方法1.1 Word2vec词向量语言是人类智慧定义的一种高层符号组合而成的数据,这些数据并不是原生态数据。
在自然语言处理领域,需要将其还原成计算机可以理解的形式,即词向量编码,这是进行后续研究的基础。
在进行词编码时,需要保证原始文本信息的同时充分表达文本信息。
传统方法是,构建一个很大的词典,给出特定词的上位词及近义词等[11]。
但是这种做法需要大量的人工干预,而人为判断带有一定的主观性,难以精确计算词之间的相似度。
2013年,Coogle开源了一款用于词向量计算的工具,即Word2vec[12],其包括CBOW ( Continuous Bag-of-WordsModel)模型和Skip-C ram( Continuous Skip-C ram Model)模型。
Word2vec的基础是神经语言模型(Neural NetworkLanguage Model,NNLM[13])。
神经语言模型是用给定的前n一1个词预测第n个词,即输入w1,w2,…,wn-1,预测wn。
NNLM 模型的缺点是复杂度较高,而Word2vec可以降低模型复杂度。
1.1.1 基于CBOW方法的词向量编码CBOW可通过一句话的左右窗口去预测中间的词。
该模型在输入层(INPUT)输入目标词汇左右的词,即周围词的词向量,经过投影层(PROJECTION)后,在输出层( OUTPUT)输出当前词的词向量。
例如,在“‘一带一路’是实现共同繁荣的合作共赢之路”这句话中,将“繁荣”设置为目标词(target),再设置一个滑动窗口长度为2,即目标词汇前后各取2个词,加上目标词本身,一共5个词。
在这5个词中,除目标词外的其余词为背景词( context)。
如图1所示,首先,在输入层输人“实现”、“共同”、“的”、“合作”4個词的词向量;然后,在投影层将输入层的4个词向量求和累加,计算公式为:1.1.2 基于Skip-Gram方法的词向量编码Skip-Gram和CBOW相反,Skip-Gram是通过中间的词预测左右的词。
Skip-G ram模型输入是当前词的词向量,输出是周围词的词向量。
由于没有上下文,Skip-C ram模型在投影层是一个恒等投影[14]。
如图2所示,在输入层输人中间词汇“繁荣”的词向量,经过投影层后,在输出层输出“实现”、“共同”、“的”、“合作”4个词的词向量。
Skip-Gram模型的目标函数如式(2)所示,T为语料中的全部词汇数。
本实验语料基于CBOW方法进行词向量训练。
Word2vec虽是基于大量语料基础上学习而来体现相互之间关系的词向量,也存在一定问题,其在训练词向量时对每一个滑动窗口单独训练,没有利用包含在全局词共现矩阵中的统计信息,并且由于使用唯一的词向量表示词,对多义词无法很好地表示和处理。
1.2 基于K-means的词聚类针对Word2vec词向量无法很好表示和处理多义词的缺点以及语言所具有的灵活性[15],本实验提出基于K-means对词向量进行聚类。
语言的灵活性表现在,文本中存在多个表述同一含义的词汇,例如,“好处”、“利益”、“甜头”等词汇描述的意义相同,这些同义词、近义词的出现对高频词的筛选工作造成了一定干扰。
一方面,表述同一含义的词汇在语料中均大量出现,高频词中可能存在多个表达相同含义的词汇,导致词汇冗余,选定的高频词汇不具有代表性;另一方面,由于表达方式不同,表述同一含义的词汇可能交替出现,新文章中使用了高频词的替代词,导致高频词在新文章中出现次数减少,而替代词出现次数增加,从而引起信息熵的增加,导致计算误差。
为了减少上述干扰,实验采用对历史高频词进行聚类的方式,将相似词及共现词归为一个类别,统计每个类别中的词汇在新文章中出现的概率。
聚类是一种无监督学习算法,将相似对象归类到一个簇中。
聚类与分类算法的最大区别在于聚类的目标类别未知,分类的目标类别已知。
K-means聚类算法,也称k均值聚类算法( K-means Clustering Algorithm),是一种迭代求解的无监督聚类分析算法[16]。
K-means用来发现给定数据集的k个簇,簇的个数k由用户指定,每个簇中心采用簇中所含值的均值计算而成,即由簇中所有点的中心描述。
其核心原理为:①首先随机确定k个点作为质心;②将数据集中的每一个点分配到每一个簇中,为每个点找到距离其最近的质心;③将每个簇的质心更新为该簇中所有数据点的平均值;④重复第②③步,直到每个簇中的数据点和质心都不再发生变化。
1.3 信息熵在NLP中的应用1948年,香农借用热力学中熵的概念,提出了“信息熵”的概念,解决了信息的量化度量问题[17]。
信息熵是消除不确定性所需信息量的度量,也即未知事件可能含有的信息量。
一个系统包含了许多不确定性因素(x1,x2,…,xn),这些因素称为随机变量X。
要消除随机变量的不确定性,就要引入更多信息,这些信息的度量用“信息熵”表示。
需要引入的消除不确定性的信息量越多,信息熵越高,系统越不稳定;反之,信息熵越低,系统越稳定。
在自然语言处理中,信息熵反映内容的不确定性。
信息熵描述的是随机变量的不确定性,对于同一个随机变量,不同观测者从不同粒度上观察,得到的信息熵不一样。
对于文本而言,表达语义的最小粒度是词语,因此,本实验从词语的粒度计算文章信息熵。
经过词聚类后,信息熵计算如式(5)、式(6)所示,其中,p(Xk)为第k类中所有词汇出现的频率,labelk表示第k个类别,count(words)为待计算文章中的总词汇数。
值得注意的是,当作为随机变量的词汇在待计算文章中出现次数为0时,设置该词的概率为1 /count(words)2,相较于设置固定极小概率值更具灵活性。
2 实验过程2.1 数据来源本实验数据通过网络爬虫技术获取。
网络爬虫是指通过一段程序或者脚本,自动获取网络中的信息。
本实验结合Selenium模拟浏览器和Scrapy爬虫框架进行新闻抓取。
Selenium可以模拟真实浏览器,支持对js加载页面的抓取;Scrapy是一个为爬取网站数据而编写的应用框架,可以极大提高爬取速度。
本爬虫框架的核心工作流程是通过谷歌搜索“一带一路”相关新闻,然后通过xpath规则抽取返回的网页新闻列表链接,将获取到的URL存放到相应数据库中,通过读取数据库中的URL进行下一步新闻详情内容抓取。
详情内容抓取主要包括文章标题、日期、来源、正文4个部分。
新闻抓取流程如图3所示。
2.2 数据预处理实验语料根据日期对新闻进行正序排序,并对正文内容进行处理分析。
在对正文进行分析前,需要首先对语料进行一系列的分词、去停用词等预处理操作。
其中,分词使用了Pkuseg工具[18]的新闻领域模型,去停用词采用了停用词典的方式。
此外,在预处理阶段还进行了背景词的去除。
实验语料围绕“一带一路”这一主题展开,具有一定的特殊性。
因此,文本的高频词中存在大量背景词,即在所有文章中都频繁出现,但对文章区分度并不大的词汇[19],这些背景词无法满足利用历史高频词发现新话题文章的需求。
因此,本实验剔除了语料中对于新话题文章提取造成干扰的背景词,将剔除背景词后的历史高频词作为计算信息熵的随机事件。
表1中列出了语料中的部分背景词。
2.3 词频统计对于给定新闻,在计算信息熵前,首先需要确定与信息熵相关的随机变量,即能表达文章信息的词汇。
新闻的高频词在一定程度上表达了文章的主要内容以及一段时间内的新闻话题,因此本实验选取历史高频词作为计算文章信息熵的随机变量。
由于新闻语料的时效性,选取待计算文章前6天内新闻的高频词作为关键词。