文本聚类的现状研究
- 格式:doc
- 大小:46.00 KB
- 文档页数:7
面向大规模文本数据的主题建模与文本聚类研究主题建模和文本聚类是自然语言处理(NLP)领域中非常重要的任务,特别是在处理大规模文本数据时。
本文将探讨面向大规模文本数据的主题建模和文本聚类的研究,介绍其概念、方法和应用。
首先,我们来了解主题建模和文本聚类的定义和目标。
主题建模是一种从文本数据中自动发现潜在主题(或话题)的技术,目的是将文本数据划分为不同的主题群组。
文本聚类是将相似的文本实例聚集在一起,每个聚类可以表示一个特定的主题或分类。
主题建模和文本聚类旨在帮助用户对大规模文本数据进行理解、分析和组织。
在主题建模领域,最常用的方法是潜在语义分析(Latent Semantic Analysis, LSA)和潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)。
LSA通过执行奇异值分解(Singular Value Decomposition, SVD)来建模文本和词语之间的关系,从而发现文本的潜在主题。
LDA则是一种生成模型,假设每个文档可以被看作是从一组潜在主题分布中生成的,通过迭代优化算法来估计主题和词语的分布。
在文本聚类领域,常见的方法包括层次聚类、K均值聚类和谱聚类等。
层次聚类通过递归地将相似的文本聚集在一起,形成一个层次结构。
K均值聚类将文本实例划分为预先指定的K个聚类,通过迭代优化算法来最小化聚类内部差异。
谱聚类则利用图论中的谱分析来将文本划分为聚类。
除了这些传统方法外,近年来还出现了许多基于深度学习的主题建模和文本聚类方法。
例如,主题建模可以通过使用递归神经网络(Recursive Neural Networks, RNN)或变分自编码器(Variational Autoencoder, VAE)来进行,文本聚类可以通过卷积神经网络(Convolutional Neural Networks, CNN)或自注意力机制(Self-Attention Mechanism)来实现。
语义增强的文本聚类方法研究一、语义增强的文本聚类方法概述随着信息技术的快速发展,文本数据的爆炸式增长使得文本聚类技术在信息检索、知识管理、数据挖掘等领域变得尤为重要。
文本聚类是一种无监督学习方法,旨在将文本数据自动地划分为若干个具有相似特征的类别。
然而,传统的文本聚类方法往往依赖于词频、位置等表面特征,难以深入挖掘文本的语义信息。
语义增强的文本聚类方法通过引入语义分析技术,能够更准确地捕捉文本的内在含义,从而提高聚类的效果和质量。
1.1 语义增强文本聚类的核心特性语义增强的文本聚类方法的核心特性主要体现在以下几个方面:- 语义一致性:通过语义分析技术,能够确保聚类结果在语义层面上具有一致性,提高聚类的准确性。
- 多维度特征:除了传统的词频特征,还能够利用词义、句法、语义角色等多维度特征,丰富聚类的维度。
- 动态适应性:能够根据文本数据的特点和变化,动态调整聚类策略,提高聚类的适应性和灵活性。
1.2 语义增强文本聚类的应用场景语义增强的文本聚类方法在多个领域都有着广泛的应用,包括但不限于以下几个方面:- 信息检索:通过聚类技术,能够将用户查询的关键词与相关文档进行匹配,提高检索的准确性和效率。
- 知识管理:在知识库中,通过聚类技术可以发现知识之间的关联,优化知识结构,促进知识的传播和应用。
- 数据挖掘:在大规模文本数据中,通过聚类技术可以发现数据的内在模式和规律,为决策提供支持。
二、语义增强文本聚类方法的关键技术语义增强的文本聚类方法涉及多种关键技术,这些技术共同作用,提升聚类的效果和质量。
2.1 语义分析技术语义分析技术是语义增强文本聚类方法的核心。
它通过分析文本中的词汇、句法、语义角色等信息,提取文本的深层含义。
常见的语义分析技术包括:- 词义消歧:通过上下文信息,确定多义词的具体含义,提高语义分析的准确性。
- 句法分析:分析句子的结构,提取主语、谓语、宾语等成分,理解句子的语义关系。
- 语义角色标注:标注句子中各个成分的语义角色,理解句子的深层含义。
使用自然语言处理进行文本聚类的技术和实践在当今信息爆炸的时代,海量的文本数据不断涌现,如何从这些数据中提取有用的信息成为了一项重要的任务。
自然语言处理(Natural Language Processing, NLP)技术的发展为我们提供了一种有效的方式来处理和分析文本数据。
其中,文本聚类是一种常见的NLP应用,它可以将具有相似主题或内容的文本分组,帮助我们更好地理解和利用这些数据。
文本聚类的目标是将文本集合划分为若干个簇,使得每个簇内的文本相似度较高,而不同簇之间的文本相似度较低。
这样的划分可以帮助我们发现文本数据中的潜在模式和关系。
在实际应用中,文本聚类可以用于新闻分类、社交媒体分析、市场调研等领域。
要实现文本聚类,首先需要对文本进行预处理。
预处理包括去除特殊字符、停用词和标点符号,进行分词,以及词干化等操作。
这些操作可以将文本转化为机器可处理的形式,减少噪声对聚类结果的影响。
在预处理完成后,可以使用不同的算法来进行文本聚类。
常见的算法包括层次聚类、K均值聚类、密度聚类等。
层次聚类是一种自底向上的聚类方法,它通过计算文本间的相似度来构建聚类树,最终将文本划分为不同的簇。
K均值聚类是一种迭代的聚类方法,它将文本分为K个簇,通过最小化簇内样本的平方误差来优化聚类结果。
密度聚类是一种基于样本密度的聚类方法,它将样本空间划分为具有高密度的区域和低密度的区域,从而得到聚类结果。
除了传统的聚类算法,近年来,深度学习技术的发展也为文本聚类带来了新的思路和方法。
深度学习模型可以通过学习文本的分布表示来进行聚类,如使用自编码器、卷积神经网络和循环神经网络等。
这些模型可以从原始文本中提取更丰富的语义信息,从而改善聚类效果。
在实践中,文本聚类的应用广泛而多样。
例如,在新闻分类中,我们可以将新闻文本聚类为不同的主题,如政治、经济、体育等,以便更好地组织和检索新闻信息。
在社交媒体分析中,我们可以将用户的帖子聚类为不同的情感类别,如喜欢、厌恶、中立等,以便了解用户的情感倾向和兴趣。
基于机器学习的文本分类技术研究一、引言文本分类技术是近年来热门的研究方向之一。
基于机器学习的文本分类技术因其高效、精确、可扩展性等特点而受到广泛关注和应用。
本文将介绍基于机器学习的文本分类技术的研究现状、方法和应用。
二、研究现状目前,文本分类技术已被广泛应用于信息检索、文本挖掘、社交媒体分析、情感分析、垃圾邮件过滤、网络安全等领域。
而其中,机器学习技术是文本分类中最常用的方法之一。
机器学习方法通常分为两大类:监督学习和无监督学习。
监督学习需要大量的有标签数据作为学习样本,通过训练模型,来预测新样本的标签。
而无监督学习则是从未标注的数据中,自动发现数据之间的结构和模式,以便进行分类、聚类等任务。
在文本分类中,常用的监督学习算法有朴素贝叶斯、支持向量机、决策树、逻辑回归等。
这些算法的主要思想是通过分析文本数据的特征,来建立分类器,以便进行文本分类。
而无监督学习算法中,无监督文本聚类算法和主题模型是常用的方法。
无监督文本聚类算法通过将相似的文本分组,来发现文本之间的关系。
而主题模型则可以从无标签的文本库中学习主题模式,以发现文本之间的语义联系。
三、方法在机器学习的文本分类中,最常用的方法是朴素贝叶斯算法。
其主要思想是通过计算每个文本的词汇,来计算该文本属于某一类别的概率。
首先,将文本分为训练集和测试集。
然后,从训练集中提取特征,并计算特征出现的概率。
接着,将测试集中的文本进行分类,计算每个类别的概率值,并将概率值最大的类别作为该文本的分类结果。
除了朴素贝叶斯算法外,支持向量机、决策树、逻辑回归等算法也被广泛应用于文本分类。
这些算法的不同之处在于其分类思想和训练方式。
四、应用文本分类技术在各行各业都有广泛的应用。
首先,在信息检索领域,文本分类可以对搜索引擎的搜索结果进行分类,从而提高搜索结果的质量。
其次,在情感分析中,文本分类可以对用户在社交媒体上的评论进行分类,以便分析用户的情感倾向。
还有,在网络安全领域,文本分类可以对恶意软件和网络攻击进行分类,以保障网络安全。
响水县人民医院之欧侯瑞魂创作
特殊级抗菌药物临床使用会诊制度
根据卫生部《抗菌药物临床应用管理法子》和相关抗菌药物管理规定要求, 结合医院实际制定本制度.
1.对需使用特殊级抗菌药物的患者, 收治科室或主管医师应先填写会诊申请单报医教科, 由医教科组织特殊使用级抗菌药物会诊专家组成员进行会诊, 讨论、决定抗菌药物使用的品种、使用方法、使用时间以及其他事项, 患者收治科室或主管医师对会诊意见应严格遵照执行, 及时将治疗情况向医教科汇报, 以确保抗菌药物使用的平安可靠.
2.特殊使用级抗菌药物会诊专家由具有抗菌药物临床应用经验的感染性疾病科、呼吸科、重症医学科、微生物检验科、药学部份等具有高级专业技术职务任职资格的医师、药师或具有高级专业技术职务任职资格的抗菌药物专业临床药师担负.人员和资格由抗菌药物管理工作组负责认定.
3、需使用特殊级抗菌药物的临床科室应提前做好会诊前相关准备工作.
4、会诊法式:
(1)一般情况下, 由使用科室提出申请, 填写“特殊使用抗菌药物申请表”, 由医教科负责召集专家3人以上(包括临床药师1
人), 会诊批准同意后, 由副主任医师及以上人员开具处方使用, 会诊单装订入病历保管, 临床药师同时建立药历.
(2)紧急情况下使用的, 经治医师处方量不得超越1日用量, 并做好相关病情记录, 并于48小时内补办会诊审批手续.
5、临床抗菌药物三联及以上使用的参照上述法式进行.
6、医师未依照规定规画审批手续的, 依照医院相关管理规定处置.病历中如有使用未审批的按丙级病历处置
7、建议会诊专家名单为:宋一平王小兵张天庆陈学恩柏文祥潘爱平王继仿。
聚类分析的现状与前景研究聚类分析是一种常用的数据分析方法,旨在将相似的样本对象划分到同一类别中,同时确保不同类别之间的差异性最大化。
聚类分析在多个领域中得到了广泛应用,例如数据挖掘、生物学、社会网络分析等。
本文将从两个方面来探讨聚类分析的现状和前景研究。
首先,聚类分析的现状研究主要包括算法改进、应用拓展和可解释性提高等方面。
在算法改进方面,研究者们提出了许多新的聚类算法,例如谱聚类、密度聚类和基于密度的聚类等。
这些算法相对于传统的聚类算法具有更高的效率和准确性。
在应用拓展方面,聚类分析已经从传统的数值数据拓展到非数值数据,如文本、图像和网络数据等。
这些非数值数据的聚类分析需要基于特定的相似性度量和特征提取技术。
在可解释性提高方面,研究者们提出了一些辅助分析技术,例如聚类集成、聚类验证和聚类可视化等。
这些技术可以帮助用户更好地理解和解释聚类结果。
其次,聚类分析的前景研究主要包括深度学习、不确定性处理和多源数据融合等方面。
深度学习是近年来兴起的一种机器学习方法,通过自动学习数据表征来完成聚类任务。
深度学习的出现将极大地推动聚类分析的研究和应用。
不确定性处理是一种新的聚类分析思想,旨在处理数据中的不确定性信息。
不确定性处理可以提供更加准确和可信的聚类结果。
多源数据融合是将来聚类分析的一个重要方向,因为在许多实际应用中,数据往往来自于多个数据源,通过将不同数据源的信息进行融合,可以提高聚类分析的准确性和稳定性。
总之,聚类分析作为一种常用的数据分析方法,在现状研究方面已经取得了许多成果,在算法改进、应用拓展和可解释性提高等方面都有了显著进展。
而在未来的前景研究中,深度学习、不确定性处理和多源数据融合等将是主要的研究方向。
这些研究将进一步推动聚类分析在各个领域的应用,并为实际问题的解决提供更加准确和可靠的方法和工具。
⽹络舆情分析中的⽂本聚类算法2019-09-16【摘要】随着互联⽹的发展,⽹络逐渐成为社会舆情表达和传播的主要载体。
由于⽹络信息具有传播速度快、数据量⼤、隐蔽性强等特点,只有借助计算机技术才能够实现有效、全⾯、快速的⽹络舆情分析系统。
为了更好地了解和实现⽹络舆情系统中话题发现和热点检测的功能,本⽂主要介绍⽂本聚类的⼀些算法、技术和研究现状。
【关键词】⽹络舆情⽂本聚类1 引⾔⽹络舆情分析和预警系统通过对互联⽹中的各类信息,包括各⼤论坛、百度贴吧、微博等进⾏24⼩时监控,实时采集话题性强、时效性新的各类内容和消息。
系统架构主要包括舆情信息采集、信息预处理、信息分析、舆情信息上报四个模块。
舆情分析模块主要对处理后的⽹络⽂本数据进⾏分析、挖掘,以实现热点话题和敏感信息的识别和跟踪。
⽂本聚类作为⼀种⽆监督的机器学习⽅法,由于不需要进⾏训练,并且不需要预先对⽹络⽂本⼿⼯标注类别,因此具有较⾼的灵活性和⾃动化处理能⼒,成为⽹络舆情分析系统中组织⽂本信息、挖掘热点话题的主要技术⼿段。
2 关键技术和算法进⾏⽂本聚类之前,⾸要问题是对⽂本内容建⽴⽂本信息特征,即使⽤特定形式的特征向量(T1, V1, T2, V2, …,Tm, Vm)来表⽰⽂档,其中Ti表⽰特征词,由分词后获取,Vi表⽰第i个词在⽂档中的权重,m表⽰特征词的个数。
确定信息特征的常⽤技术是:先对⽂本信息进⾏词性标注、语义标注等预处理,构建统计词典,然后对⽂本进⾏分词处理和特征词权重的确定。
计算权重的⽅法包括布尔权重、词频权重和TFI-DF权重三种。
布尔权重是最简单的表⽰⽅法,若第i个特征词在本篇⽂档中出现,则其权重为1,否则为0;词频权重将第i个特征词在本篇⽂档中的出现概率作为对应的权值;TFI-DF权值由两部分组成,⼀部分是TF,表⽰⼀个词在本篇⽂本中出现的次数,即词频。
另⼀部分IDF表⽰所有⽂本中有多少篇包含了这个词,即逆向⽂档频率,通常由公式IDFi=log((1+|D|)/|Di|)计算得到,其中|D|表⽰⽂本总数,|Di|表⽰包含第i个关键词的⽂本数量。
基于语义分析的文本聚类算法研究随着互联网技术的快速发展和普及,大量的文本数据产生并积累,如何高效地对文本进行分类和聚类成为了重要的研究领域。
传统的基于词频统计的文本聚类方法存在着无法准确捕捉文本语义信息的问题,因此,基于语义分析的文本聚类算法的研究变得尤为重要。
本文将针对基于语义分析的文本聚类算法进行深入研究,并探讨其在实际应用中的优势和不足之处。
首先,我们将介绍基于语义分析的文本聚类算法的基本原理。
基于语义分析的文本聚类算法主要包括以下几个步骤:数据预处理、特征提取、相似度计算和聚类建模。
其中,数据预处理阶段包括对原始文本数据进行分词、去除停用词和词干提取等操作,以减少数据的维度。
而特征提取阶段则是将文本数据转化为数值特征表示的过程,常用的方法包括词袋模型和词向量模型等。
相似度计算阶段通过计算不同文本之间的相似度来度量它们的语义相似性,常用的相似度计算方法有余弦相似度和欧氏距离等。
最后,通过聚类建模,将相似度高的文本归为一类,实现文本的聚类操作。
接下来,我们将讨论基于语义分析的文本聚类算法的优势。
与传统的基于词频统计的方法相比,基于语义分析的文本聚类算法能够更准确地把握文本的语义信息,从而提高聚类的准确性和效果。
特别是在处理大规模文本数据时,基于语义分析的算法通常能够更好地区分不同类别的文本,提供更精细的聚类结果。
此外,基于语义分析的算法还可以应用于多领域的文本数据,具有较好的通用性和适应性。
然而,基于语义分析的文本聚类算法也存在一些不足之处。
首先,语义分析的过程通常较为复杂,计算量较大,导致算法的时间和空间复杂度较高。
其次,基于语义分析的算法对语言处理的要求较高,需要借助大量的语义资源和预训练模型进行支持,这增加了算法的部署和使用的困难度。
此外,由于语义分析本身的复杂性,算法在面对一些特殊情况时可能无法准确地捕捉到文本的语义信息,导致聚类结果的不准确。
为了克服上述问题,未来的研究可以从以下几个方面着手。
聚类算法在中文文本分类中的应用研究中文文本分类是信息检索、文本挖掘等领域中的重要研究方向,旨在将大量文本自动分为若干种类别,有助于提高信息检索和文本挖掘的效率。
而聚类算法是一种常用的文本分类方法,其被广泛应用于中文文本分类中。
一、聚类算法概述聚类算法是一种无监督学习方法,其主要目标是将一组数据分成若干个类别,使得每个类别内部的数据点相似度较高,而不同类别之间的相似度较低。
聚类算法通常包括层次聚类与划分聚类两类。
其中层次聚类又分为凝聚聚类与分裂聚类。
凝聚聚类从下往上逐渐将数据点聚合成多个类别,而分裂聚类则从上往下逐渐将数据点划分为多个类别。
划分聚类将数据点划分为多个类别,然后再逐渐细分为更小的类别。
二、聚类算法在中文文本分类中的应用中文文本分类是一个非常具有挑战性的问题,因为中文语言的复杂性和多样性,导致进行文本分类时往往需要考虑语义、上下文等因素。
因此,聚类算法被广泛应用于中文文本分类中。
1. 优点聚类算法在中文文本分类中有着许多优点。
首先,聚类算法是一种无监督学习方法,其不需要对训练数据进行标记,从而减轻了数据标记的负担。
其次,聚类算法能够自动学习文本样本之间的关系,找到文本样本之间的相似性,实现自动分类。
第三,聚类算法可以发现未知的类别,从而更好地应对新的数据输入。
2. 应用场景聚类算法在中文文本分类中的应用场景非常广泛。
例如,可以将一组新闻文章聚类成不同的主题类别,或者将一批产品评论聚类成不同的情感类别,从而更好地分析用户反馈和趋势等。
此外,聚类算法也可以应用于电商商品的分类、网页内容的分类等。
三、聚类算法在中文文本分类中的局限性聚类算法在中文文本分类中有其局限性,这主要表现在以下几个方面。
1. 局限于特征选择在使用聚类算法进行中文文本分类时,需要将文本样本转化为向量表示。
而不同的特征选择会对分类结果产生重大影响。
因此,需要针对不同的数据集进行特征选择,才能够达到较好的分类效果。
2. 局限于聚类数选择聚类算法需要指定聚类的数目,而聚类数的选择往往是一个非常困难的问题。
1 文本聚类研究现状1 文本聚类研究现状Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。
随着Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。
在中国互联网络信息中心(CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示,70.2% 的网络信息均以文本形式体现。
对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。
近年来,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。
作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。
文本聚类的主要应用点包括:(1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。
其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统Newsblaster[1] 。
该系统将新闻进行聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。
(2) 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。
比较典型的系统有Infonetware Real Term Search 。
Infonetware 具有强大的对搜索结果进行主题分类的功能。
另外,由Carrot Search 开发的基于Java 的开源Carrot2 搜索结果聚合聚类引擎2.0 版也是这方面的利用,Carrot2 可以自动把自然的搜索结果归类( 聚合聚类) 到相应的语义类别中,提供基于层级的、同义的以及标签过滤的功能。
(3) 改善文本分类的结果,如俄亥俄州立大学的Y.C.Fang 等人的工作[2] 。
(4) 文档集合的自动整理。
如Scatter/Gather[3] ,它是一个基于聚类的文档浏览系统。
2 文本聚类过程文本聚类主要依据聚类假设:同类的文档相似度较大,非同类的文档相似度较小。
作为一种无监督的机器学习方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。
文本聚类的具体过程如图 1 所示。
图 1 文本聚类过程2.1 文本信息的预处理文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式,即建立文本特征,以一定的特征项( 如词条或描述) 来代表目标文本信息。
要建立文本信息的文本特征,常用的方法是:对文本信息进行预处理( 词性标注、语义标注) ,构建统计词典,对文本进行词条切分,完成文本信息的分词过程。
2.2 文本信息特征的建立文本信息的特征表示模型有多种,常用的有布尔逻辑型、向量空间型、概率型以及混合型等。
其中,向量空间模型(V ector Space Model,VSM) 是近几年来应用较多且效果较好的方法之一[4] 。
1969 年,Gerard Salton 提出了向量空间模型VSM ,它是文档表示的一个统计模型。
该模型的主要思想是:将每一文档都映射为由一组规范化正交词条矢量张成的向量空间中的一个点。
对于所有的文档类和未知文档,都可以用此空间中的词条向量(T1 ,W 1 ,T 2 ,W2 ,…, Tn , Wn )来表示( 其中,Ti 为特征向量词条;Wi 为Ti 的权重)[5] 。
一般需要构造一个评价函数来表示词条权重,其计算的唯一准则就是要最大限度地区别不同文档。
这种向量空间模型的表示方法最大的优点在于将非结构化和半结构化的文本表示为向量形式,使得各种数学处理成为可能。
2.3 文本信息特征集的缩减VSM 将文本内容表示成数学上可分析处理的形式,但是存在的一个问题是文档特征向量具有惊人的维数。
因此,在对文本进行聚类处理之前,应对文本信息特征集进行缩减。
通常的方法是针对每个特征词条的权重排序,选取预定数目的最佳特征作为结果的特征子集。
选取的数目以及采用的评价函数都要针对具体问题来分析决定。
降低文本特征向量维数的另一个方法是采用向量的稀疏表示方法。
虽然文本信息特征集的向量维数非常大,但是对于单个文档,绝大多数向量元素都为零,这一特征也决定了单个文档的向量表示将是一个稀疏向量。
为了节省内存占用空间,同时加快聚类处理速度,可以采用向量的稀疏表示方法。
假设确定的特征向量词条的个数为n ,传统的表示方法为而(T1 ,W 1 ,T 2 ,W2 ,…, Tn , Wn )稀疏表示方法为(D 1 ,W1 ,D2 ,W2 ,Dp ,…,Wp , n)(Wi ≠0) 。
其中,Di 为权重不为零的特征向量词条;Wi 为其相应权重;n 为向量维度。
这种表示方式大大减小了内存占用,提升了聚类效率,但是由于每个文本特征向量维数不一致,一定程度上增加了数学处理的难度。
2.4 文本聚类在将文本内容表示成数学上可分析处理的形式后,接下来的工作就是在此数学形式的基础上,对文本进行聚类处理。
文本聚类主要有 2 种方法:基于概率[6] 和基于距离[7] 。
基于概率的方法以贝叶斯概率理论为基础,用概率的分布方式描述聚类结果。
基于距离的方法,就是以特征向量表示文档,将文档看成向量空间中的一个点,通过计算点之间的距离进行聚类。
目前,基于距离的文本聚类比较成熟的方法大致可以分为 2 种类型:层次凝聚法和平面划分法。
对于给定的文件集合 D ={d1 , d 2 ,…,di ,…, dn } ,层次凝聚法的具体过程如下:(1) 将D 中的每个文件di看成一个具有单个成员的簇ci ={di } ,这些簇构成了D 的一个聚类C={c1 ,c2 ,…,ci ,…,cn };(2) 计算C 中每对簇(ci ,cj ) 之间的相似度sim{ ci ,cj } ;(3) 选取具有最大相似度的簇对(ci ,cj ) 将ci 和cj 合并为一个新的簇ck =sim ci ∪cj ,从而构成了 D 的一个新的聚类C =(c1 , c 2 ,…,cn-1 );(4) 重复上述步骤,直至 C 中剩下一个簇为止。
该过程构造出一棵生成树,其中包含了簇的层次信息以及所有簇内和簇间的相似度。
对于给定的文件集合{}D ={d1 , d2 ,…,di ,…, dn } ,平面划分法的具体过程如下:(1) 确定要生成簇的数目k ;(2) 按照某种原则生成k 个聚类中心作为聚类的种子S=(s1 ,s2 ,…,si ,…,sk );(3) 对D 中的每个文件di,依次计算它与各个种子sj 的相似度sim (di ,sj );(4) 选取具有最大相似度的种子,将di 归入以sj 为聚类中心的簇cj ,从而得到 D 的一个聚类 C ={ci ,cj }(5) 重复此步骤若干次,以得到较为稳定的聚类结果。
这 2 种类型各有优缺点。
层次凝聚法能够生成层次化的嵌套簇,准确度较高。
但在每次合并时,需要全局地比较所有簇之间的相似度,并选出最佳的 2 个簇,因此执行速度较慢,不适合大量文件的集合。
而平面划分法相对来说速度较快,但是必须事先确定k 的取值,且种子选取的好坏对群集结果有较大影响。
综合考虑这 2 种聚类类型的优缺点,本文提出了一种基于向量空间模型的文本聚类的改进方法——LP 算法。
具体过程如下:对于给定的文件集合 D ={d1 , d 2 ,…,di ,…, dn }:(1) 将D 中的每个文件di看作是一个具有单个成员的簇ci ={di } ;(2) 任选其中一单个成员簇ci 作为聚类的起点;(3) 在其余未聚类的样本中,找到与ci 距离满足条件的dj ( 可以是与ci 距离最近的点,即相似度sim (c i ,dj ) 最大的dj ,也可以是与ci距离不超过阈值d 的点,即相似度sim (ci ,dj ) ≥d 的任意dj ) 。
将dj 归入ci 形成一个新的簇ck =sim ci ∪dj ;(4) 重复步骤(3) ,直至与ci 距离最近的dk 与ci之间的距离超过阈值 d ,此时认为已经聚完了一类;(5) 选择一个未聚类的单个成员簇,重复步骤(3) 和步骤(4) ,开始新的一轮聚类,直至所有的单个成员簇ci 都参与了聚类。
LP 算法不需要比较所有簇之间的相似度,执行速度较快,适合大量文件的集合,实用性更高。
同时,在聚类过程中不需要事先确定k 的取值,降低了与领域知识的依赖性,提高了灵活性。
3 实验设计本文采用搜狐研发中心搜狗实验室的互联网语料链接关系库SOGOU-T 。
该关系库提供了一个大规模互联网链接关系对应表,用于验证各种链接关系分析算法的有效性与可行性。
语料关系库中的数据分为10 大类(C000007 汽车,C000008 财经,C000010 IT ,C000013 健康,C000014 体育,C000016 旅游,C000020 教育,C000022 招聘,C000023 文化,C000024 军事) 。
语料关系库可供下载的共有 3 个版本:Mini 版,精简版,完整版。
本文使用前 2 个版本进行实验。
语料库的组织方式如下:为10 个大类各建立1 个文件夹,在每个文件夹中,每 1 份语料自成1 个.txt 文件。
实验过程如下:(1) 将所有文件夹下的.txt 文件随机连结成一个大的完整文件,同时保留.txt 文件的所属类别( 本实验保留了类别的最后2 位:07,08, …) 。
(2) 采用中国科学院计算技术研究所数字化室& 软件室发布的中文自然语言处理开放平台汉语词法分析系统ICTCLAS 。
利用ICTCLAS_Win ,将(1) 中的文件进行一级标注的词语切分。
(3) 统计标注好的切分词语的词频。
(4) 按照权重( 词频) 的大小整理切分词语,并保留权重超过一定限定值( 阈值) 的特征项。
( 本实验保留了词频大于100 的词语作为特征项) 同时,根据汉语的特点,在实验中设计了 2 种情况,以分析比较词性对于聚类效果的影响:1) 所有类型的词语都参与聚类;2) 只保留被标注为名词的词语。
(5) 根据(4) 中确定的切分词语构造空间向量的基向量,同时确定空间向量的维数等参数。
(6) 将语料库中的每一份语料文件(.txt 文件) 都表示为一个空间向量。
在实验过程中,采用了如下 2 种表示方法:1) 传统的空间向量表示方法:(T 1 ,W 1 ,T2 , W2 ,…, T n ,Wn ) ;2) 稀疏的空间向量表示方法:(D 1 ,W 1 ,D2 , W2 ,…,D p ,Wp ,n) 。
(7) 聚类:聚类过程是实验的重点,也是目标所在。
1) 在开始聚类前,首先对(6) 中已经表示好的文本空间向量做归一化处理。
向量归一化在模式识别中是很重要的一环,其目的是把事件的统计分布概率统一归纳在0-1 灰色聚类的隶属性上,这样,聚类过程对于每一个空间向量的敏感度都是一样的。