基于微博的舆情监测与分析的研究
- 格式:doc
- 大小:18.50 KB
- 文档页数:4
微博平台上舆情热点分析研究近年来,随着微博的普及和流行,它已经成为了人们获取信息、交流思想的一种主流方式。
而微博的平台作为一个具有高度社交性的网络平台,也成为了观察和研究公众舆情的重要渠道之一。
因此,本文试图通过对微博平台上的舆情热点进行分析和研究,了解和探讨当前网络舆情的趋势和特征。
一、热点事件的形成和演变微博上的热点事件通常是由一个外界事件所引发的。
比如说,最近曝光的丑闻、政治事件、明星八卦等,都可以在微博上快速引爆话题。
这个过程与传统舆论的形成有些相似,但也有自己的特点:1. 速度快。
微博上的信息传播速度非常快,特别是对于一些重大事件,短短几分钟就可以让信息被广泛传播,引爆舆情。
2. 互动性强。
微博上的互动性是传统媒体无法比拟的,用户可以通过评论、转发等方式对事件进行热烈的讨论和互动,推动话题的演变和热度的爆发。
3. 话题存在时间短。
微博上的话题往往会存在很短的时间,随着时间的推移,话题讨论的热度逐渐降低,最终消散。
二、微博平台上的舆情特征微博平台上的舆情具有以下几个特征:1. 网络暴力比较严重。
由于微博上的用户可以匿名发言,因此一些网络暴力现象非常普遍,言语攻击、人身攻击等现象时有发生。
这也成为了微博平台上舆情管理的一大难点。
2. 舆情话题短暂,热度难以持久。
微博用户的注意力难以集中于某个话题很长一段时间,因此一个话题在微博上的讨论时间通常只会持续一个小时左右。
3. 星座类、美食类、养生保健类、情感类、娱乐八卦类话题是热门的话题。
这几个话题是微博上最受欢迎的话题,也是大多数用户会涉及到的话题。
三、微博平台上的舆情管理微博平台为了维护平台秩序,开辟了一些管理机制,例如禁言、屏蔽等服务。
实际上,这些管理机制也带来了新的问题,如何保证对等待处理的全面公正,是平台管理发展中需要探索的重要课题。
1. 对于恶意评论和攻击,微博平台规定可以禁言或者删除相关用户评论。
这项规定保障了用户的合法权益和言论自由。
基于大数据的微博舆情分析方法与实践近年来,随着互联网的快速发展,社交媒体平台成为人们获取和分享信息的重要渠道。
其中,微博作为一种短文本信息的传播平台,具有实时性、广泛性和开放性等特点,成为研究舆情的重要对象。
借助大数据技术,基于微博的舆情分析方法也得到了广泛应用。
一、基本步骤针对基于大数据的微博舆情分析,基本的步骤包括数据采集、数据预处理、情感分析和舆情可视化四个环节。
1. 数据采集:通过API接口或爬虫技术,从微博平台上获取相关的舆情数据。
数据可以包括微博文本、用户信息、评论、转发等。
2. 数据预处理:对采集到的数据进行清洗和去重,去除无用信息和噪声,保留需要分析的内容。
同时,对特殊字符、拼写错误等进行修正,方便后续的情感分析。
3. 情感分析:通过文本挖掘和自然语言处理技术,对每条微博进行情感倾向性的分类,判断其是正面、负面还是中性。
情感分析可以使用机器学习算法,如支持向量机、朴素贝叶斯等,也可以使用词典等规则方法。
4. 舆情可视化:将分析得到的结果以图表、词云等形式展示出来,为决策者提供直观的认识。
可视化结果能够帮助理解舆情的整体趋势和关键信息,更好地指导决策。
二、方法与技术在上述基本步骤的基础上,基于大数据的微博舆情分析方法涵盖了一系列的方法和技术。
以下是其中几种常见的方法:1. 文本挖掘:通过文本挖掘技术,提取微博中的关键词、词频等特征,利用特征向量表示微博文本。
常用的文本挖掘算法包括TF-IDF、Word2Vec等。
2. 情感分类:通过训练情感分类器,将微博文本划分为正面、负面和中性。
常见的情感分类算法有支持向量机、朴素贝叶斯、深度学习等。
3. 社会网络分析:通过分析微博用户的关系网络,揭示用户之间的交互关系和信息传播路径。
社会网络分析可以帮助理解舆情的来源和扩散过程。
4. 话题建模:通过主题模型等技术,识别出微博中的热门话题和关键词,帮助找到关注度高的舆情事件。
三、实践案例基于大数据的微博舆情分析方法已经在许多领域得到了广泛应用。
基于大数据分析的微博话题分析与舆情预测微博是中国最大的社交媒体平台之一,拥有海量的用户和信息资源。
基于大数据分析的微博话题分析与舆情预测,可以帮助我们深入了解用户的兴趣和态度,并从中找到有价值的信息,为决策者提供有力的决策依据。
一、微博话题分析1.1 微博话题的定义与获取微博话题是微博用户在特定时间范围内讨论和关注的特定事件、话题或热点问题。
为了进行微博话题分析,首先需要定义话题的范围和关键词,并通过微博API或其他数据抓取工具获取相应的微博数据。
1.2 微博话题的关联分析在微博中,用户的行为往往是有关联的。
通过对话题下的微博进行关联分析,可以发现不同话题之间的关系和影响力。
例如,可以利用网络分析方法,构建微博用户之间的关联图谱,进而分析不同话题之间的关联强度和传播路径。
1.3 微博话题的情感分析情感分析可以帮助我们了解用户对特定话题的态度和情感倾向。
通过对微博文本进行情感分析,可以得到积极、消极或中性的情感极性。
进一步分析用户对不同话题的情感倾向,有助于我们了解用户对不同事件的态度和评价。
二、微博舆情预测2.1 舆情定义与分类微博舆情是指在微博平台上用户对某一事件或话题所持有的观点和评论。
舆情可以根据情感倾向和影响力等因素进行分类,如正面舆情、负面舆情、中性舆情等。
通过对微博舆情进行分类和分析,可以快速了解社会公众对事件的反应和态度。
2.2 舆情感知与监测为了准确感知和监测微博舆情,可以利用自然语言处理和机器学习技术,对微博文本进行情感分析和情绪识别。
同时,可以借助大数据分析方法,实时监测微博平台上的热点话题和关键词,并利用数据挖掘技术挖掘隐藏在海量微博数据中的有价值信息。
2.3 舆情预测与应对措施基于大数据分析的微博舆情预测可以帮助政府、企业和组织及时掌握社会舆论动态,采取相应的应对措施。
通过建立预测模型,结合历史数据和当前社会环境,可以预测未来一段时间内的舆情走向。
根据预测结果,及时调整发言策略,引导公众情绪,维护社会稳定。
微博实时热点事件监测与分析方法研究微博是一种热门的社交媒体平台,拥有庞大的用户群体。
每天都会有大量的信息在微博上发布和分享,其中一些话题和事件会迅速引发广泛关注和讨论。
对这些微博实时热点事件进行监测和分析,能够帮助人们了解公众对某一特定事件的看法和态度,也可以为舆情研究者、社会科学家、政府机关等提供有价值的参考信息。
在微博实时热点事件监测与分析方法的研究中,主要有以下几个方面的内容:数据采集与处理、热点事件识别、情感分析和热点话题演化分析。
首先,要进行微博实时热点事件的监测与分析,首先需要采集相关的数据。
微博提供了API接口,允许第三方应用访问和获取微博内容。
对于研究者来说,可以通过API接口获取用户发布的微博,包括文本、图片、视频等多种形式的内容。
获取到的数据需要进行清洗和处理,去除重复、垃圾和无效的信息,确保数据的质量和可用性。
其次,热点事件的识别是微博实时热点事件监测与分析的重要环节。
热点事件是指在一段时间内引发广泛关注和讨论的话题或事件。
通过对大量微博数据进行文本挖掘和分析,可以发现一些持续被讨论和转发的话题,并识别出其中的热点事件。
常用的方法包括词频统计、关键词提取、社交网络分析等。
这些方法可以帮助我们找到受关注程度较高的话题和事件,进一步进行深入分析。
情感分析是微博实时热点事件监测与分析中的另一个重要任务。
通过对微博文本的情感分析,可以了解公众对某一事件的情感倾向和态度。
情感分析通常采用机器学习和自然语言处理的方法,对微博文本进行情感极性的判断,判断其是正面、负面还是中性的情感倾向。
情感分析的结果可以帮助我们更好地了解公众对热点事件的情感态度,为舆情分析和舆情处理提供参考依据。
最后,热点话题的演化分析是对微博实时热点事件的长期跟踪和分析。
热点话题随着时间的推移会发生变化,不同的事件和话题会在不同的阶段引起不同的关注度和讨论热度。
通过对微博数据的时序分析,可以观察热点话题的演化过程,包括话题的兴起、高峰和衰退。
微博舆情分析报告1. 引言近年来,随着社交媒体的快速发展,人们对于舆情分析的需求不断增加。
作为最大的中文社交媒体平台之一,微博扮演着重要的角色。
本文将对微博上的舆情进行分析,通过收集和分析用户在微博上的发言,揭示其中蕴含的信息和趋势,为决策者提供参考。
2. 数据收集为了进行舆情分析,我们首先需要收集微博上的相关数据。
可以通过以下步骤进行数据收集: 1. 确定分析的对象和关键词:根据研究目的,确定要分析的微博主题和相关关键词。
2. 使用微博开放平台API:通过微博开放平台提供的API,获取与关键词相关的微博数据。
3. 数据清洗和整理:对收集到的数据进行清洗和整理,去除重复和无关的内容,并按照时间和其他相关信息进行排序。
3. 文本分析在收集到微博数据后,我们需要对文本数据进行分析,以揭示其中的舆情信息。
以下是一些常用的文本分析方法: 1. 情感分析:通过使用自然语言处理技术,对微博文本进行情感分类,判断其中的情感倾向,例如正面、负面或中性。
2. 关键词提取:识别微博文本中的关键词和热点话题,帮助我们了解用户关注的焦点和讨论话题。
3. 主题模型:使用主题模型技术对微博文本进行聚类分析,找出其中的主题和相关性,以便更好地理解用户的观点和意见。
4. 可视化分析为了更好地呈现舆情分析的结果,将数据可视化是一种常见的方法。
以下是一些常用的可视化方法: 1. 情感分布图:通过绘制情感分布图,可以直观地展示微博文本中的情感倾向,帮助我们了解用户对于某一话题的整体情绪。
2. 关键词云图:将关键词绘制成词云图,可以显示用户关注的热点话题和关键词,帮助我们把握舆情中的重点词汇。
3. 时间趋势图:通过绘制时间趋势图,可以展示微博舆情随时间的变化,帮助我们观察到微博话题的发展和变化。
5. 结论通过对微博舆情的分析,我们可以得出以下结论: 1. 用户情感倾向:通过情感分析,我们可以了解用户对于某一话题的情感倾向,帮助我们更好地了解用户需求和态度。
基于机器学习的微博网络舆情分析研究随着互联网的快速发展,人们的社交媒体使用也越来越普及,微博作为中国最受欢迎的社交媒体之一,吸引了大量用户的参与和关注。
然而,与此同时,微博上爆发的各种言论、舆论也给社会和个人带来了很大的影响。
因此,对微博网络舆情进行分析和研究,已经成为一个非常重要的课题。
为了更好地理解微博网络舆情,研究者们开始采用机器学习技术进行分析。
机器学习是一种通过模型和算法让计算机从数据中自动学习和改进的技术,它可以帮助我们从庞大的微博数据中提取有价值的信息。
首先,基于机器学习的微博网络舆情分析需要对数据进行收集和预处理。
微博是一个充满噪声和干扰的平台,因此需要使用相应的技术来清洗和过滤数据。
例如,可以去除重复的微博和垃圾信息,并进行情感分析将微博划分为正面、负面和中性。
其次,机器学习可以帮助我们构建情感分析模型来判断微博的情感倾向。
通过使用标记好的微博数据集进行训练,我们可以建立一个分类器,用于自动识别微博的情感态度。
这样一来,我们就可以在海量的微博数据中迅速判断出用户对特定事件或话题的情绪态度,从而更好地理解舆情。
此外,机器学习还可以应用于主题分析。
通过分析微博中的关键词和上下文信息,我们可以使用聚类算法来识别不同话题下的微博。
这有助于我们发现和跟踪不同的舆情事件,并了解用户对这些事件的不同观点和讨论。
值得注意的是,机器学习在微博网络舆情分析中的应用并非一成不变的。
随着新的技术和算法的不断涌现,我们可以不断改进和优化分析模型,以提高分析的准确性和效果。
例如,近年来,深度学习和自然语言处理技术的发展使得我们能够更好地理解微博的语义和语境,从而更好地识别用户情感和观点。
此外,我们还可以结合其他技术来丰富微博网络舆情分析的内容。
例如,网络图谱和社交网络分析可以帮助我们了解微博用户之间的关系和影响力,从而更好地理解舆情的传播和影响机制。
对于微博网络舆情的分析和研究,在纵向上,我们可以通过时间序列分析来追踪舆情的演变和变化趋势;在横向上,我们可以将微博网络舆情与其他媒体数据进行比较,以获得更全面和准确的舆情分析结果。
微博舆情分析研究随着网络科技的高速发展,社交媒体成为了信息传播的主要渠道之一,微博作为国内最大的短文交流平台之一,在舆情热点爆发时具有很强的话语权。
因此,微博舆情分析研究也逐渐成为了学术界和商业界的热点话题。
一、微博舆情分析的背景和意义微博的出现打破了传统大众媒体的广播模式,让个体用户成为了信息发布者和传播者。
同时,微博用户的互动性和社交属性,为研究社会舆情提供了更加丰富和立体的数据。
通过对微博上的舆情进行分析和挖掘,可以揭示公众对事件、政策、产品等的态度和看法,为政府和企业制定合适的应对策略提供实时数据支持,也可为社会舆情研究提供有力的数据来源。
在舆情事件的传播过程中,微博作为一种及时的信息传播方式,深度表现出用户的社交属性,特别是热点事件的讨论,成为了社会舆情的重要组成部分。
通过对微博上的信息内容和用户行为进行分析,可以更好地了解公众对事件的态度和情绪,并挖掘影响因素,实现情绪预警和危机处置。
二、微博舆情分析的方法和技术手段微博舆情分析主要包括情感分析、主题挖掘、社会网络分析等方面。
其中情感分析是微博舆情分析的核心方法之一,通过对微博内容中的情感倾向进行分析,可以判断用户对事件或品牌的情感态度。
如何使情感分析具有较高的准确性是最大的挑战之一,通常采用的方法有基于情感词典的情感分析、基于机器学习的情感分析、基于深度学习的情感分析等。
主题挖掘是一种从文本中发现主题的技术,其目的是从微博文本中提取出事物或话题的核心概念,可以用于分析热点事件的发展趋势和结构,以及相关事件的影响力和关键人物。
工具和算法主要有主题模型和词汇频率-逆文档频率等。
社会网络分析是一种以社会关系为切入点的研究方法,通过网络节点和边的关系进行分析,对网络中的信息、意见和力量进行可视化表达。
在微博舆情分析中,社会网络分析主要用于研究热点事件中关键人物、意见领袖和互动情况。
三、微博舆情分析的应用与展望微博舆情分析已广泛应用于政府、企业、传媒等各个领域。
微博热点话题的舆情分析与预测方法研究随着互联网和社交媒体的快速发展,微博已成为全球范围内最受欢迎的社交平台之一。
微博上的热点话题涉及各个领域,包括娱乐、体育、科技、社会等,这些话题对于了解公众舆论和社会热点问题具有重要意义。
为了准确把握微博热点话题的动态,并预测相关舆论发展,需要借助有效的分析方法。
舆情分析是指对社会舆论的采集、整理、分析和运用的过程。
微博作为人们发布和传播信息的重要平台,其中蕴含的丰富信息给舆情分析提供了广阔的空间。
在进行微博热点话题的舆情分析时,可以利用以下几种方法:1. 文本挖掘方法:通过分析微博中的文本数据,挖掘出其中隐藏的知识和关系。
文本挖掘可以包括文本分类、情感分析、实体识别等技术。
例如,可以使用机器学习算法对微博文本进行分类,将其归类为正面、负面或中性。
同时,可以通过情感分析了解用户对于特定话题的情绪倾向,从而更好地把握舆论态势。
2. 社交网络分析方法:微博上的用户关系网络是了解用户之间的互动关系和信息传播路径的重要依据。
通过分析微博用户之间的关系和社交网络结构,可以揭示用户之间的影响力、信息传播模式等。
例如,可以通过社交网络分析找出在某一话题上具有影响力的关键用户,从而引导舆论的发展方向。
3. 时间序列分析方法:微博上的热点话题往往具有一定的时间特征,通过时间序列分析可以研究舆论的发展趋势和周期性。
例如,可以绘制话题在微博上的讨论数量随时间变化的曲线图,进而预测舆论的未来发展趋势。
除了舆情分析,预测微博热点话题的舆情也是一个重要的研究方向。
预测舆情可以帮助政府、企业和个人更好地制定决策,及时回应和引导社会热点问题。
为了预测微博热点话题的舆情,可以采用以下方法:1. 关键词和话题挖掘:通过对微博上的关键词、话题进行挖掘和分析,找出与舆论发展密切相关的关键词,并对话题进行分类和预测。
例如,可以通过分析用户讨论的关键词,提前发现新的热点话题,并估计其未来的影响力。
2. 时间序列分析和预测:通过时间序列分析方法对微博话题的讨论数量进行预测。
基于微博数据的舆情分析研究舆论是公众对于某一事件、问题或话题所持观点和评价的集合,通过舆情分析,可以了解公众对某一事件的态度、情绪以及关注度等信息。
而微博作为中国最具影响力的社交媒体平台之一,拥有庞大的用户基数和日益增长的活跃程度,成为了舆情分析的重要数据来源。
微博数据的舆情分析研究可以通过数据挖掘与分析的方法,深入挖掘微博用户在某一事件或话题上的观点、情绪等信息,并通过可视化分析等手段,将这些信息呈现出来。
本文将基于微博数据的舆情分析研究进行探讨。
首先,基于微博数据的舆情分析研究可以通过爬虫技术获取大量的微博数据。
由于微博平台的开放性,研究者可以自主选择感兴趣的事件或话题,爬取相关微博数据,并进行后续的分析。
这样的数据获取方式使得舆情分析更具实时性和全面性。
其次,舆情分析研究可以通过文本挖掘技术对微博数据进行情感分析。
情感分析是一种自然语言处理技术,可以通过对文本进行情感倾向性的判断,即判断文本表达的观点是积极的、消极的还是中性的。
通过对微博数据进行情感分析,可以了解公众对某一事件或话题的情感倾向,从而直观地了解其态度和观点。
另外,舆情分析研究还可以通过主题挖掘技术对微博数据进行主题分析。
主题挖掘是一种文本挖掘技术,可以自动地从大量文本数据中抽取出具有代表性的主题。
在微博数据的舆情分析中,主题挖掘可以帮助研究者发现公众对某一事件或话题关注的重点是什么,从而加深对公众关注度和热点问题的了解。
此外,舆情分析研究还可以通过网络图谱分析技术对微博数据进行网络分析。
网络图谱是一种表示网络关系的可视化工具,可以将微博用户之间的关注、转发和评论等关系呈现出来。
通过对微博数据进行网络图谱分析,可以了解公众在某一事件或话题上的信息传播路径和影响力,从而更好地分析舆情形势。
综上所述,基于微博数据的舆情分析研究具有重要的价值和意义。
通过对微博数据的挖掘与分析,可以客观地了解公众对某一事件、问题或话题的观点、情绪和关注度等信息,为政府、企业和组织等提供决策依据和反馈参考。
基于微博数据的舆情分析系统设计舆情分析是指对社会舆论进行收集、整理、分析和评价的过程,通过对微博数据的挖掘和分析,可以更好地了解社会舆论的动向和情感倾向,为政府、企事业单位以及个人提供决策参考和舆情风险防控的支持。
本文将详细介绍基于微博数据的舆情分析系统的设计。
一、系统需求分析在进行系统设计之前,我们首先需要对系统的需求进行分析,以确定系统的功能和特性。
基于微博数据的舆情分析系统应具备以下功能:1.微博数据的收集:系统需要从微博平台收集大量的微博数据,包括用户发布的微博内容、时间、地点等信息。
2.情感分析:系统需要对微博数据进行情感分析,以确定微博的情感倾向,如正面、负面或中性,以评估舆情的情绪走向。
3.实时更新:系统应能够实时更新微博数据,以保证舆情信息的准确性和实效性。
4.关键词提取与分类:系统需要从微博数据中提取出关键词,并进行分类,以便对各类关键词进行研究和分析。
5.舆情预警与可视化:系统应能够根据舆情数据进行预警,提示用户可能出现的舆情风险,并通过可视化展示舆情分析的结果,如词云、情感曲线等形式,便于用户直观了解舆情态势。
二、系统设计基于以上需求分析,我们将分为数据收集、情感分析、关键词提取与分类、舆情预警与可视化四个模块来设计舆情分析系统。
1.数据收集模块数据收集模块负责从微博平台获取数据并进行存储。
可以利用微博平台提供的API接口来实现数据的获取和存储。
在获取过程中,可以根据关键词、时间段、地域等条件来筛选微博数据,以提高数据的准确性和实效性。
同时,为了保证数据的实时更新,可以设置定时任务来定期更新微博数据。
2.情感分析模块情感分析模块是分析微博情感倾向的核心模块。
可以使用机器学习的方法,建立情感分类的模型,对微博文本进行情感分类。
常用的情感分类算法包括朴素贝叶斯、支持向量机、深度学习等。
在建立模型之前,需要先构建情感词典,并对其进行标注,以作为情感分类的依据。
情感分析的结果可以给出微博的正面、负面或中性情感倾向。
基于微博的舆情监测与分析的研究
作者:李婧刘志明崔朝国
来源:《智能计算机与应用》2013年第02期
摘要:微博凭借其操作简单、互动性强、传播迅捷的特点,发展飞速。
微博不仅已经渗透到社会各个方面,而且日益成为新闻舆论的重要源头。
网络舆情的形成和传播呈现的是病毒爆发式的增长方式,能对社会产生巨大的影响。
但基于微博的舆情监测和分析还是比较贫乏的。
在舆情监测和分析研究的基础上设计与实现了基于微博的Scool舆情监测分析系统。
针对微博覆盖面广、用户基数大、数据量巨大、更新速度快的特点,在此系统中信息的存储采取的是NoSQL与关系数据库结合的方式。
关键词:微博;舆情监测;舆情分析; Scool; NoSQL
中图分类号:TP311 文献标识码:A文章编号:2095-2163(2013)02-0050-04
0引言
目前,随着网络全球化的进程加快以及移动技术的推广,微博已经成为了网络舆情的主要源头和有效传播路径。
由于微博具有的进入门槛低、操作便捷、互动性强等特点,近两年在全国得到了迅速的普及,获得广泛的应用。
但是不可忽视的隐患也随之呈现。
微博已经成为了各种谣言和违法信息滋生、蔓延的主要平台,对社会也造成了无法预知的不良影响。
因此,开展微博的舆情监控和分析研究已是大势所趋,势在必行。
1研究现状
目前,已有针对网络舆情分析和挖掘的软件产品,较典型的有 Autonomy 网络舆情聚成系统、Goonie 互联网舆情监测系统、TRS 互联网舆情信息监控系统、方正智思舆情预警辅助决策支持系统、中科点击(北京)科技有限公司研发的军犬网络舆情监控系统等。
这些系统均能对网络舆情发挥一定的监测、分析和预警的作用,为社会和谐稳定提供了有效的技术和决策支持。
虽然如此,但针对微博舆情监测和分析的大部分系统却没有充分考虑到微博用户基数大、覆盖面广、数据量巨大、更新速度快的特点,而在这种情况下,采用普通的关系数据库显然无法满足要求,因此,引入NoSQL技术存储数据则是一个颇有前景的发展方向。
2微博舆情传播特点
基于上述对微博使用方式的分析,决定了微博舆情的传播将具有如下特点:
(1)信息生成和传播简便。
只要简单操作,就可以第一时间关注微博新闻中的相关人物,或转发传统新闻和论坛中的内容,而且由于移动终端对微博的支持,微博就超越了时间与地域的限制,完全实现了微博的简便简易性。
(2)传播信息快捷。
仅以“7 .23”动车事件为例,2011 年7 月23 日晚20 点38 分事故发生,4分钟后网友发出了第一条微博,比传统媒体提早了两个多小时。
(3)病毒爆发式的信息传播模式。
消息一经发出,用户的所有关注者都能收到,而这一群体再亦如此继续向外传播,则微博信息就呈现了病毒爆发式扩散传播的态势。
3基于noSQL的数据库设计
NoSQL最初出现于2009年6月11日由Oskarsson在旧金山发起并组织的一个非正式会议上。
NoSQL是当下数据库家族的外来者,虽然有些通用的特征,但却没有一个特征得到了明确定义。
根据舆情监控系统的数据实际情况,在其系统的数据库设计中引入NoSQL,当写入数据时,可在MySQL、NoSQL中分别写入一条数据的不同字段,而读取数据时,则从MySQL、NoSQL组合字段完成读取。
这一读/写过程如图1所示。
在如图1所示的组合结构中,MySQL中存储着需要查询字段中的数字、时间等类型的小字段,其后按照查询建立相应的索引,而NoSQL中则存储着包括大文本字段在内的其他并不需要的字段。
查询过程可描述为,首先将数据主键从MySQL中查询出来,再从NoSQL中直接取出对应的数据。
文中设计的架构模式使得MySQL和NoSQL能够各自发挥所长,即由MySQL实现关系存储,而NoSQL则实现数据存储。
这种设计的优点如下:节省MySQL的IO开销、提高MySQl Query Cache缓存命中率、改进了MySQL主从同步效率、提升了MySQL数据备份和恢复的速度、具有更好的扩展性。
还需一提的是,这种以MySQL为主、NoSQL为辅的架构设计与MySQL的单体架构相比,系统的多样性能和可扩展性均得到了有效提高。
4基于微博的Scool舆情监测分析系统设计与实现
基于微博的Scool舆情监测分析系统旨在取代传统的人工收集和监控工作,实现深入、高效挖掘,并实时得到微博网络中相对敏感的舆论信息,以警示管理人员及时采取相应措施。
基于微博的Scool舆情监测分析系统的实现过程是,每日需定时、周期地对新浪微博、腾讯微博、网易微博、搜狐微博进行网页抓取后,并对其内容实行解析后存入数据库,而后通过分词索引以建立搜索引擎,实现数据索引,再通过用户设定的关键词库对采集的数据进行关键词集过滤,由此获得敏感舆情信息文本返回给用户界面。
系统还应对收集的信息进行自然语言处理,从而识别得到热点话题和热门事件。
4.1软件体系结构
系统分为后台数据分析模块和前台数据展示模块。
后台模块负责实现数据抓取与分析,是系统的核心。
前台模块负责完成微博、Web数据展示和基本维护操作。
4.1.1前台结构
前台展示程序分为四大块,分别是:舆情信息展示、舆情搜索、用户监控网址和关键词设置、用户登录与管理。
其中,舆情整体全面展示则按五类来进行和表现,分别是:最新舆情展示、按网站类型展示、按监控网址展示、按话题事件展示和舆情统计。
前台模块的结构框架如图2所示。
前台展示程序主要基于JAVA开源SSH框架来进行构建而得以实现,其设计结构如图3所示。
在本系统的架构设计中,将在表示层上构设的Struts框架,在业务逻辑层构设的Spring框架以及在数据访问层构设
(1)表现层使用JSP来实现构建,为客户端提供对应用程序的访问;
(2)控制层接受客户端的请求,并根据不同的请求调用相应的事务逻辑,再将处理结果返回到相关的页面;
(3)业务逻辑层用来提供相关的业务逻辑;
(4)数据访问层提供对数据库的各种操作。
系统设计中的三大框架有机配合、协调统一,其各自实现功能为:
在表现层中,由Struts框架负责处理JSP页面的请求和转发工作;在系统中用Hibernate来封装数据库的连接类,通过该框架所提供的注解方式实现了实体类与数据库表结构间的映射关系,并由该框架完成在数据访问层与数据库间的交互工作,再通过Hibernate框架的二级缓存EHCache提供对用户关键词和行业恶劣情感词的高效缓存。
此外,系统使用Spring框架作为系统运行轻量级的容器,负责在业务逻辑层处理业务逻辑工作。
通过在配置文件中设置对象的创建方式及对象之间的关系,即可由Spring框架的IoC的容器来创建对象,同时也维护对象之间的依赖关系。
通过这三大框架的整合,有效降低了系统中各模块之间的相关性,由此形成一个结构科学、功能强大和层次清晰的框架体系。
4.1.2后台结构
由图6可知道,后台结构可分为数据缓冲池队列,线程池线程和数据库三部分。
其中,缓存队列负责数据流的来源,关键处理流程则拆分至各个线程中独立实现;线程控制数据缓存池
中数据流的走向,各线程本身的并发运行均交由线程池实现统一管理。
数据库则采用上述的NoSQL与关系数据库相结合的对应技术来主导实现。
4.2系统实现
用户注册、登录系统后,可以点击页面上的相应标签来查看有关的舆情记录。
同时,系统也会将每天最新的舆情记录完整、清晰地呈现。
用户还可以点击更多的舆情链接来查看当日之前任何一天的舆情记录。
可以点击系统主页上的舆情搜索标签来进行包含指定关键词的舆情记录,搜索页面如图7所示。
在输入框中输入关键词,就可以看到相关的信息。
5.结束语
在Scool舆情监测和分析系统设计与实现过程中,有关信息存储方面,本文主要提出了NoSQL和MySQL相结合的方法。
实验证明,采用这种信息存储的方法可节省MySQL的IO 开销、提高MySQL数据备份和恢复的速度、且比以前更容易实现扩展。
对其后类似系统的设计提供了有益借鉴,并显示了一定参考价值。
由于时间及技术的限制,测试和抓取的数据还不够连续和充分,下一步仍可继续完善和推进这一方面的工作。
参考文献:
[1]贾焰,刘江宁. 微博的舆情特点及其谣言治理[J]. 图书情报知识,2012(6):7-9.
[2]张玉峰,何超. 基于Web挖掘的网络智能分析研究[J]. ITA,2011(4):64-68.
[3]汝艳红. 微博信息传播的特点及发展趋势[J]. 青年记者,2012(8):27-30.
[4]钟瑛,刘利芳. 微博传播的舆论影响力[J]. 新闻与传播研究,2013(2):8-12.
[5]FOWLER M. NoSQL Distilled[M]. 2009:1-20
[6]齐海凤. 网络舆情热点发现与事件跟踪技术研究[D]. 哈尔滨:哈尔滨工程大学,2006:11-30.
[7]林大云. 基于Hadoop的微博信息挖掘[J]. 计算机光盘软件与应用,2012(1):7-9.
[8]曾润喜. 网络舆情管控工作机制研究[J]. 图书情报工作,2009(18):79-82.。