基于字符串相似性聚类的网络短文本舆情热点发现技术
- 格式:pdf
- 大小:347.44 KB
- 文档页数:5
互联网行业网络舆情监控方案第1章项目背景与目标 (2)1.1 项目背景 (2)1.2 项目目标 (2)第2章网络舆情监控体系设计 (3)2.1 监控体系框架 (3)2.2 监控关键指标 (3)2.3 舆情分析模型 (4)3.3 数据采集与处理 (4)3.1 数据源选择 (4)3.2 数据采集技术 (5)3.3 数据处理方法 (5)第四章舆情分析与挖掘 (5)4.1 舆情情感分析 (6)4.2 舆情话题挖掘 (6)4.3 舆情趋势分析 (6)第五章舆情监控平台建设 (7)5.1 平台架构设计 (7)5.2 平台功能模块 (7)5.3 平台安全性与稳定性 (8)第6章舆情预警与应对策略 (8)6.1 舆情预警机制 (8)6.1.1 预警体系构建 (8)6.1.2 预警级别划分 (8)6.2 应对策略制定 (8)6.2.1 基本原则 (9)6.2.2 应对策略内容 (9)6.3 应对策略实施与评估 (9)6.3.1 实施步骤 (9)6.3.2 评估与反馈 (9)第7章舆情监控团队建设与培训 (9)7.1 监控团队组织结构 (9)7.2 监控团队职责与任务 (10)7.3 培训与能力提升 (10)第8章舆情监控项目实施与管理 (11)8.1 项目实施流程 (11)8.1.1 项目启动 (11)8.1.2 需求分析 (11)8.1.3 系统设计 (11)8.1.4 系统开发与测试 (11)8.1.5 系统部署与培训 (11)8.1.6 项目验收 (12)8.2 项目风险管理 (12)8.2.1 风险识别 (12)8.2.2 风险评估 (12)8.2.3 风险应对 (12)8.2.4 风险监控 (12)8.3 项目效果评估 (12)8.3.1 评估指标 (12)8.3.2 评估方法 (12)8.3.3 评估结果应用 (12)第9章舆情监控案例分析与启示 (13)9.1 典型案例介绍 (13)9.2 案例分析与总结 (13)9.2.1 案例一分析 (13)9.2.2 案例二分析 (13)9.3 舆情监控启示 (14)第十章未来发展趋势与展望 (14)10.1 行业发展趋势 (14)10.2 技术创新方向 (14)10.3 舆情监控在社会治理中的应用展望 (15)第1章项目背景与目标1.1 项目背景互联网技术的迅速发展和普及,我国互联网行业呈现出爆炸式增长,网络用户数量持续攀升。
基于大数据的网络舆情分析系统设计与实现袁志远1徐怀超2郭金顺2冯盼3(1.西安交通大学管理学院,陕西西安710049;.西藏党委网信办网络舆情研究中心,西藏拉萨850000;.云南农业大学人文社会科学学院,云南昆明650000)摘要:为加强网络舆情管理,实现对互联网舆情可视化多维度智能分析,智能生成报告。
文章针对网络舆情,构建大数据网络舆情采集和数据挖掘体系,基于境内外海量互联网文本、图片、音视频等数据,运用静态计算和流式计算引擎和文本无关的声纹识别等技术,设计开发基于大数据的网络舆情分析系统,研究网络观点、话题及其发展态势、传播路径。
实现了网络舆情可视化多维度智能分析,智能生成报告,提高了网络舆情预警和分析能力。
关键词:大数据网络舆情云计算科学决策0引言根据中国互联网络信息中心发布的第45次《中国互联网络发展状况统计报告》,截至2020年3月,我国网民规模达9.04亿,手机网民规模达&97亿,使用手机上网的比例达99.3%,网络新闻用户规模达7.31亿,网络视频用户规模达8.5亿,在线政务服务用户规模达6.94亿。
互联网已成为人们生活、工作、学习、娱乐等不可分割的重要组成部分,已经成为各种话题、言论、信息传播的国际舞台,人民群众反映社会舆情的重要渠道,人民群众监督党政机关施政方略成效的考核平台,网络舆情在一定程度上反映着现实生活中人民意愿和诉求,如何利用互联网上海量的数据为政府、企业或社会机构提供决策支持成为互联网舆情研究的重要问题。
如何有效利用互联网海量数据分析舆情、掌握舆情,成为国际专家学者研究的内容,部分学者对此问题进行了研究,如祁泉淞(2020)[I]针对当前网络舆情危机治理中存在的问题,构建了网络舆情预警和分析体系,为政府和社会有效应对网络舆情提供了帮助。
王晰巍等(2020)[2]构建了大数据驱动的社交网络舆情用户情感主题分类模型,为跨语言的社交网络舆情用户情感主题图谱的可视化分析提供了前期的研究框架。
网络舆情监测与分析系统设计与实施方案第1章项目背景与需求分析 (3)1.1 舆情监测背景 (3)1.2 市场需求分析 (3)1.3 技术可行性分析 (3)第2章系统设计目标与架构 (4)2.1 设计目标 (4)2.2 系统架构设计 (4)2.2.1 整体架构 (4)2.2.2 功能模块划分 (5)2.3 技术选型 (5)第3章数据采集与预处理 (5)3.1 数据来源分析 (5)3.2 数据采集策略 (6)3.3 数据预处理方法 (6)第四章舆情信息提取与处理 (7)4.1 舆情信息提取 (7)4.1.1 舆情信息提取方法 (7)4.1.2 舆情信息提取流程 (7)4.2 文本去噪与分词 (8)4.2.1 文本去噪 (8)4.2.2 分词 (8)4.3 实体识别与关系抽取 (8)4.3.1 实体识别 (8)4.3.2 关系抽取 (9)第5章情感分析算法与应用 (9)5.1 情感分析概述 (9)5.2 情感极性判定 (9)5.3 情感强度分析 (10)第6章舆情热度评估与趋势预测 (10)6.1 舆情热度评估指标 (10)6.1.1 传播速度指标 (10)6.1.2 话题关注指标 (10)6.1.3 情感倾向指标 (10)6.1.4 话题活跃度指标 (10)6.2 舆情趋势预测方法 (11)6.2.1 时间序列分析方法 (11)6.2.2 灰色预测方法 (11)6.2.3 神经网络方法 (11)6.2.4 支持向量机方法 (11)6.3 基于时间序列的舆情分析 (11)6.3.1 数据预处理 (11)6.3.2 构建时间序列模型 (11)6.3.3 参数优化 (11)6.3.4 舆情趋势预测 (11)第7章用户画像与群体分析 (11)7.1 用户画像构建 (12)7.1.1 用户数据收集 (12)7.1.2 数据预处理 (12)7.1.3 特征提取 (12)7.1.4 用户画像建模 (12)7.1.5 用户画像更新 (12)7.2 群体行为分析 (12)7.2.1 群体特征分析 (12)7.2.2 群体兴趣偏好分析 (12)7.2.3 群体行为趋势预测 (12)7.2.4 群体影响力评估 (12)7.3 网络传播路径分析 (12)7.3.1 信息传播模型构建 (12)7.3.2 传播路径挖掘 (13)7.3.3 传播速度与范围分析 (13)7.3.4 传播策略优化 (13)第8章系统安全与隐私保护 (13)8.1 系统安全策略 (13)8.1.1 物理安全 (13)8.1.2 网络安全 (13)8.1.3 系统安全 (13)8.2 数据安全与隐私保护 (13)8.2.1 数据加密 (13)8.2.2 访问控制 (14)8.2.3 数据备份与恢复 (14)8.2.4 用户隐私保护 (14)8.3 法律法规与伦理规范 (14)8.3.1 法律法规 (14)8.3.2 伦理规范 (14)第9章系统实现与测试 (14)9.1 系统开发环境 (14)9.1.1 硬件环境 (14)9.1.2 软件环境 (15)9.2 系统实现与部署 (15)9.2.1 系统架构设计 (15)9.2.2 系统实现 (15)9.2.3 系统部署 (15)9.3 系统测试与优化 (15)9.3.1 系统测试 (15)9.3.2 系统优化 (16)第10章项目总结与展望 (16)10.1 项目总结 (16)10.2 技术展望 (16)10.3 应用前景分析 (17)第1章项目背景与需求分析1.1 舆情监测背景互联网技术的飞速发展和信息传播手段的多样化,网络已成为人们获取和交流信息的主要渠道。
基于手机短信信息流的热点事件识别刘金岭;王新功;周泓【摘要】随着手机通信技术的快速发展,短信文本数据流作为载体携带了越来越多的信息资源。
为了挖掘出短信文本信息流中富含的一些舆论焦点、社会热点问题,提出热点事件识别算法。
该算法采用词共现频度定义特征词相关度,综合前导信息集合及信息产生频率给出短信文本相似度,进而设计基于Single-Pass聚类模型的短信文本信息流在线分检算法。
在真实数据集上实验表明,各项性能指标都有不同程度的提高。
%10.3969/j.issn.1000-386x.2012.10.053【期刊名称】《计算机应用与软件》【年(卷),期】2012(000)010【总页数】5页(P200-204)【关键词】短信文本;信息流;热点事件;Single-Pass【作者】刘金岭;王新功;周泓【作者单位】淮阴工学院计算机工程学院江苏淮安223003;沧州师范学院计算机系河北沧州061001;淮阴工学院计算机工程学院江苏淮安223003【正文语种】中文【中图分类】TP3910 引言手机短信在人们的生活中扮演着越来越重要的角色,手机短信传播也被冠以“拇指文化”、“拇指文明”和“第五媒体”等美誉,发展成为一种时代潮流。
根据移动互联网传播领域的“3 -周期传播原理”[1],一条信息只要用手机上网传播给3个人,“3”在移动互联网中是无穷大的意思(∞)。
据12321网络不良与垃圾信息举报受理中心调查报告,2011年下半年中国手机用户平均每周收到短信息39.1条。
手机短信可以说是最贴近民众的一种媒体,具有极大价值的信息资源,富含一些社会热点问题、社会突发事件信息,还可以进行舆情预测等,而这些事件都是由大类别的短信文本反映出来的。
热点事件是指能引起人们极大关注的话题,一方面,它可能被关注持续的时间较长;另一方面,在某个时间段内它的关注程度可能很高。
热点事件识别与跟踪强调对新信息的发现能力,关心涉及特定主题类别的信息,给用户提供详实客观的热点事件信息,并且自动追踪用户关注的新闻事件,提供事件的来龙去脉及发展趋势,从中识别出各种突发事件、新事件以及关于已知事件的新信息,可广泛用于信息安全、舆情分析和预警等领域。
网鹰网络舆情监测系统美音网络传播研究中心WARNN(网鹰)舆情监测系统简介 WARNN(网鹰)拥有专业、成熟的产品开发团队和技术服务团队,不断追踪互联网前沿技术,深入研究各种类型用户的不同需求,坚持技术与需求互动、产品与服务并重的经营理念,为广大用户提供优质的专业产品和专业服务。
WARNN(网鹰舆情监测预警系统)基于搜索引擎技术和互联网信息深度挖掘技术,通过对大量互联网网站进行 7*24 小时全天候自动监测,并对提取的舆情信息进行中文分词、主题聚类、情感分析、实时预警、事件追踪、热点舆情发现、网络传播路径分析、舆情信息统计、舆情简报生成等一系列智能化处理,提供多途径舆情报送工作流程,满足政府或企业舆情管理部门对互联网舆情监管的需要,为决策层提供准确的舆情动态分析,为正确引导舆论提供科学依据和技术支持。
舆情管理人员舆情信息操作员……一、网鹰的核心竞争力(1)集群式协同工作模式如何使用普通PC 服务器处理海量的互联网数据?WARNN (网鹰)采用分布式结构设计,利用服务器集群协同工作,突破普通PC 服务器的性能瓶颈,系统性能随服务器数量的增加而增加,满足各种高端用户对海量数据的处理需求。
(2)自动破解各种反采集策略WARNN(网鹰)内置智能化反采集技术破解包,能够自动规避和破解目标网站的反采集策略,不会造成IP地址被目标网站封锁的情况。
(3)复杂网络环境下的自适应能力针对互联网环境具有复杂多变的特点,为最大限度地增强系统对环境的应变能力,尽量减少因环境变化而导致系统工作效能下降的问题,WARNN(网鹰)采用智能化自学习模型,在复杂多变的互联网环境中具有很强的自适应能力。
(4)强大的中文文本分析能力网鹰团队一直走在自然语言处理技术研究的前沿。
WARNN具有强大的中文文本分析和处理能力,可对海量的舆情信息进行中文分词、主题聚类、负面情感识别、热点舆情主动发现、网络传播路径追踪等等一系列处理,将最有价值的信息呈现给用户。
网络舆情检测与控制关键技术研究摘要:当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求日益多元,政府对监控与正确引导网络舆论的需求日益增加。
本文阐述了网络舆情特点及政府对网络舆情的管理现状,并在此基础上重点对网络舆情监测与控制关键技术进行了分析和研究,提出了一种网络舆情监控系统的实现模型,该模型能够提高网络舆情监测与分析的准确性、及时性,有效地推动我国网络舆情分析与预警工作。
关键词:网络舆情舆情监控聚类1、引言互联网已经日益渗透到了人们工作、学习、生活的各个领域,它在推动社会发展、为人们生活带来便利的同时,也在某些方面给人们造成了一些新的困扰,如网络犯罪、网络暴力、网络沉迷等问题,其中由于网络舆情而引发的网络舆论危机已经越来越成为政府部门关注的焦点。
然而,我国的网络舆论危机管理还处于一个起步阶段,管理的思路和框架还未理清理顺,这与我国目前网络舆论突发事件高发的现状是不相适应的,建立一个完善的网络舆论危机管理体系已经成为了当务之急。
2、网络舆情概述网络舆情是互联网发展到一定阶段的产物,是通过互联网表达和传播的,公众对自己关心或与自身利益紧密相关的各种公共事物所持有的多种情绪、态度和意见交错的总和。
网络环境下的舆情信息的主要来源有:新闻评论、bbs、博客、聚合新闻(rss)。
网络是一个自由、开放的空间,任何人都可以自由进入,各种社会群体、文化类型、价值观念、利益诉求、生活准则都可以在网络中找到立足之地。
但由于缺乏类似传统媒体那样严格的管理机制,网络舆论良莠不齐,积极的、健康的、真实的、虚假的、低俗的、反动的、暴力的等各种言论混杂在一起充斥着网络,增加了舆论的复杂性,在一定程度上也降低了网络舆论的质量和可信度。
3、我国政府网络舆情管理的现状及存在问题近几年随着国家对网络舆情的重视,先后出台了许多具有时效性的法律法规。
但是还要认识到我国政府应对网络舆情能力上的不足,主要体现在以下方面:3.1 舆情信息收集整理滞后、缺乏有效地信息收集体系在舆情信息爆发之前,由于没有掌握足够、正确的信息或者由于有关部门的极力阻止等方面,导致我们所获取的舆情信息相当的有限,从而未能及时的制止舆情信息的爆发,对此,政府应当建立健全的信息收集系统,从而方便对舆情信息的收集,把那些子虚乌有或者严重危害社会稳定的舆情信息及早的扼杀在摇篮里。
医药卫生知识服务系统建设需求说明书目录1 技术方案要求 (1)1.1 项目概述 (1)1.1.1 项目名称 (1)1.1.2 项目背景 (1)1.1.3 建设目标 (1)1.1.4 建设内容 (1)1.2 系统功能要求 (2)1.2.1 舆情监测子系统 (2)1.2.2 资源整合子系统 (11)1.2.3 资源检索子系统 (15)1.3 非功能要求 (18)1.3.1 成熟性与先进性 (18)1.3.2 开放性 (18)1.3.3 可用性 (18)1.3.4 可靠性 (19)1.3.5 稳定性 (19)1.3.6 可扩展性 (19)1.3.7 安全性 (19)1.3.8 可维护性 (19)1.4 系统集成要求 (19)1.5 性能需求 (20)1.6 实施要求 (21)1.6.1 项目工期要求 (21)1.6.2 项目管理要求 (22)1.6.3 组织保障要求 (22)1.6.4 项目质量要求 (22)1.6.5 文档交付需求 (22)1.6.6 项目培训需求 (23)1.6.7 项目验收需求 (23)1.6.8 售后服务需求 (24)1.7 其它要求 (25)1.7.1 领域经验要求 (25)1.7.2 保密要求 (25)1.7.3 归档要求 (25)1.7.4 项目移交要求 (25)1.7.5 知识产权要求 (26)1技术方案要求1.1项目概述1.1.1项目名称医药卫生知识服务系统。
1.1.2项目背景医药卫生知识服务系统旨在为医药卫生领域专家提供医药、卫生相关领域的即时、权威、可靠的知识服务,包括舆情监测服务、一站式检索服务(中英文科学文献、科学数据、资讯等)、可视化知识图谱等。
该系统已完成基本的系统设计,正在开发项目已完成除了舆情监测功能外的所有前台展示页面的基本功能,包括一站式检索服务和可视化知识图谱等。
然而,考虑到本系统涉及到的来源数据,尤其是科学数据,具有较强的随意性,系统需要较强的数据整合能力;另外,系统目前尚不能提供全文检索功能,需要进一步对全文数据进行分布式存储、建立索引、建立一整套可定义的成熟的排序算法。
一种基于LDA主题模型的话题发现方法郭蓝天;李扬;慕德俊;杨涛;李哲【摘要】Topic Detection is one of the most important techniques in hot topic extraction and evolution tracking. Due to the high dimensionality problem which hinders processing efficiency and topics mal⁃distribution problem which makes topics unclear, it is difficult to detect topics from a large number of short texts in social network. To address these challenges, we proposed a new LDA ( Latent Dirichlet Allocation) model based topic detection meth⁃od called CBOW⁃LDA topic modeling method. It utilizes a CBOW( Continuous Bag⁃of⁃Word) method to cluster the words, which generate word vectors and clustering by vectors similarity. This method decreases the dimensions of LDA output, and makes topic more clearly. Through the analysis of topic perplexity in the real⁃world dataset, it is obvious that topics detected by our method has a lower perplexity, comparing with word frequency weighing based vectors. In a condition of same number of topic words, perplexity is reduced by about 3%.%话题发现是提取热点话题并掌握其演化规律的关键技术之一。
文本挖掘知识点总结高中一、概述文本挖掘是指从大量的文本数据中,通过使用自然语言处理、机器学习和数据挖掘等技术,从中发掘出有价值的信息和知识。
它主要包括文本分类、文本聚类、文本信息抽取、情感分析、主题模型等内容。
文本挖掘技术的应用相当广泛,包括搜索引擎、舆情分析、情感分析、自然语言处理等方面。
二、文本挖掘的基本任务1. 文本分类文本分类是将文本数据按照一定的标准进行分类,常见的方法有朴素贝叶斯、支持向量机、神经网络等。
常见的应用包括垃圾邮件过滤、新闻分类、情感分类等。
2. 文本聚类文本聚类是将文本数据按照相似性进行分组归类,常见的方法有K-means、层次聚类等。
常见的应用包括信息检索、查重比对等。
3. 文本信息抽取文本信息抽取是从文本中抽取出结构化的信息,包括实体识别、关系抽取等。
常见的应用包括知识图谱构建、问答系统等。
4. 情感分析情感分析是通过文本内容分析用户情感倾向的技术,包括情感分类、情感强度分析等。
常见的应用包括舆情监控、产品评论分析等。
5. 主题模型主题模型是用来发现文本数据中的主题结构的技术,包括LDA、PLSI等。
常见的应用包括文档主题分析、文本摘要生成等。
三、文本挖掘的关键技术1. 自然语言处理(NLP)自然语言处理是文本挖掘的基础技术,包括分词、词性标注、句法分析、语义分析等。
它主要用来解决文本数据的预处理问题。
2. 信息检索信息检索是用来从大规模文本数据中高效地检索出相关文档的技术,包括倒排索引、BM25算法、TF-IDF算法等。
3. 机器学习机器学习是文本挖掘的核心技术,包括监督学习、无监督学习、半监督学习等。
常见的算法包括朴素贝叶斯、支持向量机、神经网络、K-means、LDA等。
4. 数据挖掘数据挖掘是用来从大规模数据中挖掘出有价值的信息和知识的技术,包括关联规则挖掘、异常检测、聚类分析等。
5. 文本表示文本表示是将文本数据转换成计算机可处理的形式的技术,包括词袋模型、TF-IDF、词嵌入模型等。
网络舆情监测系统设计与实现随着互联网的普及和发展,人们获取新闻和信息的途径越来越多样化。
网络已经成为人们获取信息和表达意见的重要平台,交换信息的方式也更加方便快捷。
但是,随着每个人都有发布信息的权利,也给网络带来了负面信息的风险。
这些信息可能对个人、组织或社会造成伤害。
因此,需要对网络舆情进行监测和管理,以确保网络信息的正确性和真实性。
本文将探讨网络舆情监测系统的设计和实现。
一、网络舆情监测系统的概述网络舆情监测系统是指一种基于网络数据采集、数据挖掘和分析的综合性系统。
该系统能够实时监测互联网上发布的文章、博客、微博、论坛等各种信息和资讯,发现公众舆情事件、热点话题、社会热点和相关人物的言论等。
该系统通过分析公众对不同的信息表达的情感、态度和观点,发现隐藏在文字背后的信息和真实的意图。
同时,它还可以对受众的特点进行分析,提高信息的传送效率和精密度。
二、网络舆情监测系统的设计目标网络舆情监测系统的设计目标如下:1. 全面监测网络舆情:系统需要能够全面监测网络上的内容,包括发布的新闻、评论、博客、帖子等信息。
2. 实时性:监测系统需要实时地对网络上的信息进行监测,及时发现和预警公众事件,避免舆情激化。
3. 多来源的数据采集:系统需要从多个来源采集数据,如搜索引擎、社交媒体、网络论坛等,扩大监测的覆盖面。
4. 多种类型的数据分析:系统需要包括多种类型的数据分析,如情感分析、主题分析、内容分析等,能够准确展现舆情事件的脉络。
5. 及时提供可视化结果:系统需要提供可视化的结果,如报表、图表、地图等,能够便于分析员直观了解舆情事件的态势。
三、设计系统架构网络舆情监测系统的架构如下:1. 数据采集模块:数据采集模块从多个来源采集数据,包括搜索引擎、社交媒体、网络论坛等。
采集数据的过程需要注意保护用户隐私和版权。
2. 数据预处理模块:在采集到的数据中,不可能都是有用的,还存在噪声和无关信息。
因此,需要对采集到的数据进行预处理,如去除噪声、提取关键词、去除标点符号等。
网络舆情热点信息自动发现方法
郑魁;疏学明;袁宏永
【期刊名称】《计算机工程》
【年(卷),期】2010(036)003
【摘要】根据公共安全网络舆情研究的需求,将中文分词技术应用于突发事件应急管理中,提出基于ICTCLAS分词技术的网络舆情热点信息的自动发现方法.该方法读入新闻文本并进行分词和词频统计,从词频表中去除停甩词,合并多单位关键词得到突发事件热点信息关键词列表,对网络信息及时进行检索,为突发事件应急决策提供技术支持.通过1个突发事件的实例验证了该方法的实用性和可靠性.
【总页数】3页(P4-6)
【作者】郑魁;疏学明;袁宏永
【作者单位】中国科学技术大学火灾科学国家重点实验室,合肥,230026;清华大学公共安全研究中心,北京,100084;清华大学公共安全研究中心,北京,100084;清华大学公共安全研究中心,北京,100084
【正文语种】中文
【中图分类】TP309.2
【相关文献】
1.基于泊松分布和伽马分布的网络舆情热点发现 [J], 罗泰晔
2.我国网络舆情热点话题发现研究综述 [J], 游丹丹;陈福集
3.基于主题模型和ARIMA算法的网络舆情热点发现研究 [J], 万红新;彭云
4.基于热点文件下载的网络舆情信息挖掘方法研究 [J], 杨琳;张德贤;唐亚娟
5.一种基于时间序列网络舆情热点事件发现模型 [J], 林丽娜;魏德志
因版权原因,仅展示原文概要,查看原文内容请购买。
第36卷第5期2010年5月北京工业大学学报JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGYVol.36No.5May2010
基于字符串相似性聚类的网络短文本舆情热点发现技术
杨 震,段立娟,赖英旭(北京工业大学计算机学院,北京 100124)
摘 要:将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.
实验结果表明,本文提出方法有效.
关键词:舆情分析;短文本处理;层次聚类中图分类号:TP393文献标志码:A文章编号:0254-0037(2010)05-0669-05
收稿日期:2009212210.
基金项目:国家“九七三”计划资助项目(2007CB311100);北京市自然科学基金资助项目(4102012,4102013);北京市教育委员会科技发展计划面上资助项目(KM200810005030);北京工业大学青年科学基金资助项目.
作者简介:杨 震(1979—),男,贵州六盘水人,讲师.
互联网络信息爆炸、信息泛滥、信息污染、信息扰民、信息惑众等问题的日益严重极大影响普通用户对互联网信息正常、合理的使用.更为严重的是,一些不法分子开始利用网络传播虚假和非法广告,散布谣言蛊惑人心,扰乱国家经济和社会秩序;敌对势力更是利用网络传播害国言论,制造事端,教唆动乱,严重地威胁着国家的稳定和安全.信息安全重心已转向应用和数据安全,基于内容对互联网信息传播和利用进行监管(即舆情监控)的国家和社会需求越来越强烈,成为学术界和产业界广泛关注的一个热点[1].
在需求的推动之下,众多研究者利用模式识别、人工智能、知识发现为代表的智能技术对网络信息进行内容分析、语义挖掘,进而实施有效的信息过滤、话题发现以及趋势预测.但需要指出的是,现有的技术实现距离需求期望仍有差距,解决互联网舆情预警问题的关键技术,特别是网络话题的发现技术还亟待提高,互联网内容安全形式不容乐观.一方面,针对普通网络信息(长文本信息)舆情态势分析及舆情预警关键技术的研究已经大规模地展开,并取得了一定的研究成果.总体来说,针对普通网络信息(长文本信息)的内容识别与过滤技术已经迈入实用阶段.在文本表达方面,Salton的向量空间模型和基于Markov过程的n2gram模型提供了有效的文本描述数学模型.在文本特征选择方面,提出了基于词频/倒文档频度(TF/IDF)、信息增益(IG)、CHI、互信息(MI)等统计量的专门特征选择方法,同时,还将主成分分析、线性
鉴别分析和奇异值分解的方法引入文本特征选择,衍生出了潜在语义索引(LSI)的重要概念.在文本聚类/分类方面,贝叶斯分类器、支撑向量机(SVM)、神经网络、自组织映射(SOM)、k近邻、k均值、决策树、关联规则、向量相似度量以及分类器集成等模型得到了广泛应用.
然而另一方面,针对以即时消息、在线聊天记录、BBS标题、手机短消息、微博客、博客评论、新闻评论等为代表的短文本信息舆情态势分析及舆情预警关键技术的研究力度不够,而恰恰是这一部分内容更能反映真实的网络舆情.但是由于短文本独特的语言特征(稀疏性、实时性、不规范性等)[2],使得一些针对
长文本的内容处理方法性能劣化,甚至不可用.因此,针对短文本自身特点,研究符合其特性的文本表达和特征选择方法,实现短文本的正确聚类成为了一个迫切的现实要求.
基于此,本文面向网上短文本信息舆情分析需求,基于字符串相似性研究短文本信息的聚类方法,以期解决短文本话题发现、传播及动态演变的特征分析等关键问题.北 京 工 业 大 学 学 报2010年1 网络短文本信息舆情分析系统架构网络短文本信息舆情分析系统架构如图1所示.首先系统对接收到的网络短文本信息进行数据接收和解码,把元数据送入元数据缓存,同时将其输入垃圾信息过滤器处理,将与舆情分析无关的短文本(包括SP定制信息、无意义信息、格式信息及其他无需进行内容监控和舆情预警的信息)判断为垃圾信息放入垃圾信箱,对有用信息内容进行话题发现,并对其传播和演变规律进行分析.系统根据用户反馈,对分类器进行更新和重建,逐渐逼近实际应用的使用需求.
图1 网络短文本信息舆情分析演示系统框图Fig.1 Flowchartofonlinepublicopinionhotspotdetection
在实现有用信息(舆情分析相关信息)和垃圾信息(舆情分析无关信息)分离之后,需要对有用信息的
聚类方法进行研究.短文本作为全新的文本媒体对象,具有其自身特点(稀疏性、实时性、不规范性等),使得传统的聚类分析方法在短文本表示这个层次上遇到了极大的困难.传统的文本表示模型,包括布尔模型、概率模型、向量空间模型都无法良好地表示,总会遇到特征向量稀疏性的问题,最终使得短文本的聚类变为简单层次上“词重现”一级的短文本聚集.
毫无疑问,对短文本间相似性的准确表达及正确度量将会对短文本聚类处理带来很大帮助,而传统的文本表示和特征提取方法会损失许多重要的信息,如特征的顺序、上下文等特征,因而无法准确表达短文本间的相似性,进而使得聚类性能劣化甚至不可用.
因此,如何基于短文本自身的特性确定其相似性成为本文重要的研究内容.本研究把每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性计算其相似性,在此基础上进行短文本聚类,进而发现网络舆情热点.由于这种方法免去了特征提取和文本表示过程,在一定程度上能够避免特征向量稀疏性的问题.
2 基于字符串相似性短文本聚类的热点发现短文本作为全新的文本媒体对象,具有独特的语言特性.为了避免由于特征向量稀释性导致短文本聚类蜕化为简单层次上“词重现”一级的短文本聚集,迫使研究者考虑能否跳过特征提取和文本表示环节,基于短文本的特性计算相似性.通过将每个短文本文档看成一个由文字、数字和标点构成的字符串,
那么可以借助比较2个字符串共同包含的子串个数和连续程度来衡量2个字符串的相似程度.当然共同的子串越多,2个短文本文档就越相似.这样一来,基于字符串相似性聚类的网络短文本舆情热点发现过程即可按照以下步骤处理:
步骤1 预处理步骤.对于采集的短文本M
i,i=1,2,3,…,k进行整理和清洗.
将输入的短文本信息
转换为统一编码,去除乱码等噪声信息.并按采集时间、上下文信息以及正文信息导入数据库.
步骤2 基于字符串相似性计算各个短文本之间的相似程度.假设字符串A,B间的相似性可表示为D(A,B),即以通过比较2个字符串共同包含的子串个数和连续程度来衡量2个字符串的相似程度,
寻找
076 第5期杨 震,等:基于字符串相似性聚类的网络短文本舆情热点发现技术短文本Mi,Mj的最佳匹配.
步骤3 基于短文本Mi,Mj之间的归一化相似度进行层次聚类(hierarchicalclustering)[3]分析.层次聚类法是一种高效的聚类算法,其基本思想是根据所定义的个体间相似度,从相似性最高的个体开始,向初始化空网络中添加新个体.过程终止后,此时该网络的组成就被认为是划分为了若干簇.层次聚类方法可分为凝聚的层次聚类和分裂的层次聚类.
步骤4 利用层次聚类可视化的特点,对话题间的联系进行直观的度量,发现话题,进而对其传播及动态演变的特征进行分析.
其中,字符串相似测度D(.)以及用以确定聚类数目的评价指标是本文接下来需要解决的重要问题.
211 基于编辑距离的字符串相似性计算假设短信Mi,Mj分别由m和n个字符组成,分别由{C
i1,Ci2,Ci3,…,Cim}和{Cj1,Cj2,Cj3,…,Cj
n}表示.
那么短文本Mi,Mj之间的相似度就可由其包含字符串之间的相似度计算而来.利用Hungarian算法去发现Mi,Mj和之间的最大匹配.设Mi在Mj中的最大匹配是{Cjj1,Cjj2,Cjj3,…,Cjjm},jk∈{1,2,3,…,n},k=1,
2,3,…,m.Mj在Mi中的最大匹配是{Cij1,Cij2,Cij3,…,Cijn},j
k
∈{1,2,3,…,m},k=1,2,3,…,n.那么基于
最大匹配,短文本Mi,Mj之间的相似度定义为其间的编辑距离(Levenshtein距离)[425]:
D(A,B)=Levenshtein(Mi,Mj).(1
)
在这样的定义下,D(・)越小,说明字符串越相似.
212 层次化聚类数目选择方法在层次化聚类分析中,如何选择恰当的聚类个数是一个非常复杂而又必须面对的问题.尽管众多研究者进行了广泛的研究,提出了各种聚类有效性指标,包括信息熵、Vwsj指标、Gapstatistic、IGP、Scat/Sep指标等[6],但如何确定数据的聚类个数仍然是一个富有挑战性的问题,一般来说只能通过试错法(trial2and2
error)迭代确定.实际上,一个好的聚类结果应该使得簇内的数据点之间是尽可能“紧凑”的,而簇间的数据点之间是尽可能“分离”的.这样一来,一个可行的聚类个数选择依据可以定义如下:
Q=簇内平均相似度簇间平均相似度.(2)可以对聚类簇的几何拓扑结构预先假定,或者不做任何限制,在此基础上度量平均相似度[627],本文使
用基于简单的点对(pair2wise)相似性的度量方法.假设待处理短文本集为S,假定其可能被划分为k簇,
即S={S
1,S2,…,Sk},其中用|S
k|表示簇中元素的个数,那么
Q=1k∑ki=1∑A,B∈Si1|Si|2D(A,B)1k2∑ki=1∑kj=1∑A∈Si,B∈Sj1|Si|・|Sj|D(A,B)(3)依据前述定义,显然Q值越小说明聚类所选择的数目越合理.
3 实验结果实验采用SMS短信库[8]作为评测语料库,这里我们使用了其中一个标注后的子集(共4486条短信).为了简化问题并且考虑到人工标注的可行性,将其标注为5个类别:日常生活、工作相关、非法和虚假信息、系统群发(非手写短信)和其他短信.使用这样的分类体系是基于以下的考虑:
1)这样的分类简单易行,且概念明确,易于标注实现;2)这样的分类体系虽然比较简单粗略,但其体系结构容易扩展,能为进一步的研究打下坚实的基础;3)这个分类体系也涵盖了一些研究热点所需要关注的短信类别.
176