基于文本挖掘技术的社会网络舆情分析框架刍议——以某知名艺人偷
- 格式:pdf
- 大小:1.44 MB
- 文档页数:5
基于文本挖掘技术的网络舆情分析研究网络舆情作为一种重要的公众意见形态,在网络时代发展迅猛,成为政府、企业、媒体等各界关注的焦点。
随着互联网的广泛普及和社交媒体平台的兴起,网络舆情的产生和发展速度越来越快,舆情信息也越来越庞杂、复杂。
因此,如何利用科技手段对网络舆情进行深入研究和分析,成为一个重要的课题。
一、网络舆情概述网络舆情指的是通过互联网、社交媒体等信息渠道的公众对某种事件、人物、产品、组织等的不同观点、意见、评价、情绪的集中表达,包括正面情绪、中性情绪和负面情绪。
网络舆情的形成与传播速度快、范围广、广泛参与等特点密切相关,是公众表达意见和社会参与的重要渠道之一。
二、文本挖掘技术文本挖掘技术是指通过计算机技术对大量文本数据进行处理、分析和挖掘,从中挖掘出有用的信息和知识。
文本挖掘技术主要包括文本预处理、特征提取、分类聚类等子技术。
文本预处理是为了提高文本挖掘的效率和准确性,包括清洗文本、去除停用词、分词等操作;特征提取是指将文本中的关键信息提取出来,可以通过词袋模型、TF-IDF等方法进行提取;分类聚类是指将文本根据相似性分为不同类别,可以采用K-means算法、层次聚类等方法。
三、基于文本挖掘技术的网络舆情分析研究在网络舆情分析方面,文本挖掘技术可以帮助分析人员从大量的舆情数据中获取具有代表性的信息和关键词,进而对网络舆情进行深度分析和研究。
常用的文本挖掘方法包括情感分析、关键词提取、主题提取和网络节点分析等。
情感分析是文本挖掘中的一种重要方法,主要是对舆情信息进行情感分类,判断其所表达的情绪是正面的、中性的还是负面的。
情感分析可以通过机器学习、自然语言处理等技术来实现,可以帮助企业、政府等机构把握公众情绪,及时应对危机事件。
关键词提取是指从文本中提取与所分析对象相关的关键词,主要用来发掘文本的信息,快速了解文本所表达的主要内容。
关键词提取可以通过基于规则、基于统计等方法来实现,可以有效提高分析人员的工作效率。
基于文本挖掘的网络舆情分析方法研究近年来,随着互联网的快速发展,网络舆情已经成为了一个不容忽视的问题。
网络舆情可以影响社会的稳定和经济的发展,因此,对网络舆情的研究和分析越来越受到了广泛关注。
而基于文本挖掘的网络舆情分析方法则成为了一种有效的手段。
本文将探讨基于文本挖掘的网络舆情分析方法的研究。
一、文本挖掘文本挖掘是一种从文本数据中自动提取出有价值的知识的技术,主要是通过计算机处理和分析大量的文本数据,并发掘其中隐含的信息。
文本挖掘可以帮助人们快速发现有价值的信息,提高决策的精度和效果。
文本挖掘的主要任务包括:文本分类、文本聚类、关键词提取、情感分析等。
这些任务可以帮助人们深入挖掘文本数据的含义和关联性,从而发现文本数据中存在的价值。
二、网络舆情网络舆情是指在互联网上对事件、事物、人物等进行持续的评论、讨论、评判和反应的一种现象。
网络舆情的内容涵盖了社会、政治、文化、经济等各个领域,并且具有较高的舆论影响力。
网络舆情在现代社会中扮演着非常重要的角色,它能够对企业的品牌形象、政府的决策产生直接的影响。
网络舆情主要有两种类型:正面舆情和负面舆情。
正面舆情是指受到大众认可和欢迎的信息,例如企业推出的新产品受到用户欢迎;负面舆情则是指错误信息、负面评价等,例如企业产品被曝光存在质量问题。
三、基于文本挖掘的网络舆情分析方法基于文本挖掘的网络舆情分析方法主要包括以下几个步骤:1.文本采集与清洗首先需要从网络上采集大量的文本数据,例如新闻报道、微博、博客等,然后对这些文本数据进行清洗,去除无用信息。
2.文本标注将采集到的文本数据进行标注,提取文本中的关键信息,例如情感、主题和实体等。
3.特征提取对标注好的文本数据进行特征提取,这里的特征主要指文本中的词语、短语、句子等。
常用的特征提取方法有词袋模型、TF-IDF模型等。
4.文本分类/聚类/情感分析根据特征提取的结果,将文本数据进行分类、聚类或情感分析。
分类可以将文本数据分成不同的类别,例如正面舆情和负面舆情;聚类可以将文本数据按照相似性进行聚合,例如将不同的舆情分成同一组;情感分析可以分析文本中传递的情感,例如喜怒哀乐等。
基于文本挖掘的舆情分析预测模型研究随着互联网和社交媒体的普及,舆情分析已经成为了很多政府、企业和个人关注的焦点。
而文本挖掘技术的应用,为舆情分析提供了更加科学、深入和系统的方法。
一、什么是文本挖掘?文本挖掘(Text Mining)是一种综合应用计算机科学、自然语言处理、机器学习、统计学等多个学科的技术。
通过对大量文本数据的分析,提供一些可操作性的信息,以帮助用户快速掌握所研究的领域内信息。
二、舆情分析舆情分析是对社会舆论、网上舆论的调查、分析和研究。
舆情分析是对人们心理、情感、价值取向等方面的研究。
通过对舆情的分析,企业、政府、机构以及个人都可以全面的了解公众的关注点,反馈问题,想法和态度等,以及监测、评估和预测舆情的态势和动向。
三、基于文本挖掘的舆情分析预测模型1、数据收集:舆情分析预测的第一步是收集和整理数据。
数据的来源可能包括新闻、博客、社交网络、市场调查,等等。
这些数据全部或部分是文本数据,因此文本挖掘技术可以帮助快速的收集和整理大量的文本数据,并提取其中有用的信息。
2、文本预处理:文本预处理是文本挖掘的一个重要环节。
原始文本数据是一堆未经过处理、无结构化和无用数据,需要通过文本挖掘技术进行分词、句法分析、词性标注、去停词、去噪音处理等,并提取关键词、主题、情感等。
3、分析建模:分析建模是挖掘文本数据信息的关键环节。
文本挖掘通过机器学习算法,对海量的文本数据进行分析和建模,并找出数据规律和趋势。
通过对不同的数据集进行训练和测试,可以建立预测文本数据舆情的模型。
4、可视化展示:可视化展示是舆情分析预测的重要环节。
通过对预测舆情的可视化展示,可以直观的呈现预测结果。
包括舆情热点分析图、热词云图、情感色彩词云图、关键人物关系图等。
四、基于文本挖掘的舆情分析预测模型的应用1、政治政治情况是公共关注的热点之一,对政治舆情的分析和预测,对政府决策和政治环境的状况观察都有着至关重要的作用。
通过分析政治事件、政治人物、政治议题、政治语言以及市场调查等信息,可以对政治舆情进行分析和预测。
基于文本挖掘技术的社会网络舆情分析社会网络舆情是指人们在社交网络或其他在线平台上共同形成的意见和情绪,其对于社会的稳定和发展具有重要的影响。
随着社交网络的普及,人们对于舆情的关注程度也在逐渐提高。
针对这种情况,利用文本挖掘技术对社会网络舆情进行分析是非常必要的。
一、文本挖掘技术简介文本挖掘是一种将自然语言处理和数据挖掘结合起来的技术。
它将文本处理成结构化或半结构化数据,然后从这些数据中提取出有价值的信息。
文本挖掘技术包括分词、词性标注、实体识别、情感分析、主题模型等子技术。
其中,情感分析是社会网络舆情分析中最为常用的一种技术。
二、情感分析及其应用情感分析是指对文本中的情感进行识别和分类,一般可以分为正面情感、负面情感和中性情感三种。
在社会网络舆情分析中,情感分析可以用来判断用户对于一个话题的态度和情绪。
例如,当某个事件在社交网络上引起热议时,我们可以通过情感分析技术来判断用户对该事件的情感倾向。
情感分析的应用场景非常广泛。
在投资领域,情感分析可以预测股市走向的趋势;在营销领域,情感分析可以帮助企业了解用户需求,从而进行针对性的宣传推广。
在政治领域,情感分析可以用来预测选举结果及政治动向等。
三、社会网络舆情分析步骤社会网络舆情分析的步骤主要包括数据采集、数据处理、情感分析和可视化四个环节。
1.数据采集数据采集是社会网络舆情分析的第一步。
这一步主要是通过爬虫技术获取社交网络上用户发表的文本信息,并存储在数据库中。
爬虫的设计需要考虑到各种限制条件,如反爬虫机制、访问频率、代理IP等。
2.数据处理数据处理是社会网络舆情分析的关键步骤。
在这个环节中,我们需要对采集到的数据进行预处理,包括去除无意义的符号、停用词以及对文本进行分词和去重等操作。
3.情感分析情感分析是社会网络舆情分析的核心环节。
在这个环节中,我们需要利用情感分析技术对文本进行分类,分析用户的情感倾向。
例如,可以使用基于机器学习的情感分析模型对文本进行分类,得出每个文本的正面、负面和中性情感倾向。
文本挖掘技术在社交网络舆情分析中的应用社交网络的兴起和普及使得人们可以自由地分享观点、发表评论,在网络上形成了浩如烟海的信息。
然而,这样大量的信息汇聚在一起也给舆情分析带来了挑战。
在这个过程中,文本挖掘技术发挥着重要的作用。
本文将探讨文本挖掘技术在社交网络舆情分析中的应用,并讨论其对社会的影响。
一、文本挖掘技术简介文本挖掘技术是一种将自然语言处理、信息检索、机器学习等方法相结合的技术,旨在从大规模的文本数据中提取有用的信息。
它可以通过识别关键词、提取情感、主题等信息,帮助分析师更好地理解和解读文本数据。
二、社交网络舆情分析的挑战社交网络舆情分析面临着以下几个挑战。
1. 大规模数据处理:社交网络上的信息量庞大,需要处理海量的文本数据,使得舆情分析变得复杂且耗时。
2. 数据采集的难度:社交网络上的数据非结构化,多样性和复杂性使得数据收集成为一项艰巨的任务。
3. 情感分析的主观性:情感分析需要准确判断人们对某一事件或话题的情感倾向,但人们表达情感的方式千差万别,使得情感分析变得主观且容易出现误判。
三、文本挖掘技术在社交网络舆情分析中的应用1. 关键词提取:文本挖掘技术可以通过关键词提取帮助分析师快速了解社交网络上的热门话题。
通过提取关键词,分析师可以追踪特定事件或话题的讨论热度和趋势。
2. 情感分析:情感分析是社交网络舆情分析的重要一环。
文本挖掘技术可以帮助识别并分类用户的情感倾向。
通过分析用户发表的评论、推文等内容,可以确定用户对特定事件或产品的感受。
3. 主题提取:通过文本挖掘技术的主题提取功能,可以将社交网络上的大量评论、文章等内容归类为不同的主题。
这种方式可以帮助分析师更好地理解用户在社交网络上的关注点和兴趣。
4. 舆情预测:基于历史数据和文本挖掘技术的分析,舆情分析师可以预测未来某一事件或话题在社交网络上可能引起的反响和趋势。
这种预测能力对于政府、企业等机构做出应对措施具有重要意义。
四、文本挖掘技术对社会的影响1. 政府决策支持:文本挖掘技术可以帮助政府及时了解民意和舆情动态,为政府决策提供科学依据,促进决策的科学化和民主化。
基于文本挖掘技术的舆情预测研究随着信息技术的不断发展和交互式媒体的普及,舆情预测成为了一个越来越受到关注的话题。
在今后一段时间内,随着信息的量和复杂度的增加,如何运用现代科技,准确预测民意和舆情,将成为一个重要的研究领域。
基于文本挖掘技术的舆情预测研究,即是笔者所致力的一个研究方向。
一、舆情的现状舆情是指在社会各界的交流、传播中产生的涉及舆论的各种言论、事件、态度、意见等,它广泛地涉及到了政治、经济、文化、社会等方面的事物。
随着社会的发展和进步,人们对于舆情的关注度也不断提升,这一点我们从“热搜排行榜”、“话题榜”、“热门话题”等热点新闻中,都可以看到这一点的具体表现。
二、文本挖掘技术文本挖掘技术是一种将计算机技术与自然语言处理技术相结合的技术,它可以自动发现文本中隐藏的知识和规律,从文本集合中提取有用的信息和知识。
包括Word2Vec、TF-IDF、朴素贝叶斯等方法。
利用这些文本挖掘技术,我们可以对文本进行清洗、分词、摘要、关键词提取、分类、聚类、情感分析、问答系统等等。
这些方法的应用使得我们可以快速地了解和获取大量的舆情信息,并将其进行高效、准确的处理和分析。
三、舆情预测的应用简单来说,舆情预测的应用是用来预测未来事件的情感走向或者民意走向。
正如我们在第一部分所说的,随着社会的不断发展,人们对于各种信息的获取和积累也越来越便利,而如何将这些信息进行整合和分析,并且画出一张准确的舆情地图,是当前重要的研究方向。
而文本挖掘技术的应用,则是在这其中发挥着至关重要的作用。
例如,我们可以通过对社交媒体平台上大量的信息进行分析,预测未来可能出现的热点话题、热门新闻,对于企业等机构也可以用来监测投资风险、评估市场发展等。
四、文本挖掘技术的应用案例下面,我们来看一下文本挖掘技术在舆情预测方面的具体应用案例。
以某电商公司为例,该公司利用全网舆情语料库,运用文本挖掘技术对近期的电商行业舆情进行了分析和研究。
通过对大量的数据进行收集和处理,他们最终发现了该行业当前的一些发展趋势和未来可能会出现的热门话题,随后他们便在这些方向上进行了投入和改进,最终实现了市场的扩大和销售的增长。
基于文本挖掘技术的社会网络分析研究随着互联网的普及和信息化的进程,人们在社交网络上交流和分享信息无处不在,大量信息随之涌现。
这些信息看似是独立的,但是通过分析它们之间的联系和规律,可以发现其中蕴含着很多有价值的信息。
因此,文本挖掘技术和社会网络分析逐渐受到广泛的关注。
文本挖掘是从海量的非结构化文本中发掘有用的知识和信息的过程。
而社会网络分析是研究网络结构及其运作规律的一种科学方法。
将二者结合起来,可以通过分析社交网络上的文本信息,做出更深入的研究。
下面将从三个方面分别阐述基于文本挖掘技术的社会网络分析的研究。
一、情感分析与社交网络情感分析是对文本或语音中的情感状态进行分析,判断其情感倾向。
社交网络中的用户在发布信息时,往往会表达出个人的情感和态度。
通过情感分析可分析社交网络中的不同用户,建立用户之间的情感联系,深入挖掘人们在社交网络上的行为模式和心理状态。
例如,在社交网络上分析某个品牌的情感倾向,可以了解到用户对该品牌的态度和感受,通过情感倾向的正负向,可以判断该品牌在社交网络上的口碑反响,从而指导企业的品牌管理。
二、主题分析与社交网络主题分析是对文本中所述主题的识别。
社交网络上用户必然会聊天、交流、互动,这些行为都会包含很多主题。
通过对这些主题的分析,可以更好地理解用户的问题与热点,更加深入地挖掘用户之间的关系,解析社交网络中的动态分析与趋势变化。
例如,通过对某一微博话题的主题分析,在社交网络中找到与该话题相关的人或组织,进而探寻社交网络中信息传递的渠道与路径,并通过不断的主题分析,可以更加准确地掌握用户的兴趣点和需求,做出更科学的决策。
三、网络关系挖掘与社交网络在社交网络中,用户之间会产生各种各样的关系,比如关注、拉黑、好友等。
网络关系挖掘是对这些关系进行挖掘和分析,找出关系对社交网络发展和传播的影响。
通过分析网络关系的强度和密度,可以发现社交网络中的影响者和领袖,找出信息传播与社交影响的重要节点。
基于文本挖掘技术的社交媒体情感分析与舆情监控研究随着社交媒体的普及和广泛应用,人们越来越多地在社交媒体平台上表达情感和观点。
对这些海量的社交媒体数据进行情感分析和舆情监控,成为了许多企业、政府和研究机构的关注焦点。
本文将基于文本挖掘技术,探讨社交媒体情感分析与舆情监控的研究和应用。
社交媒体情感分析是通过分析社交媒体文本的内容和表达方式,自动判断其中蕴含的情感倾向。
情感分析通常包括情感分类和情感强度分析两个主要任务。
情感分类是将文本分为积极、消极或中性等情感类别,可以采用机器学习、深度学习等技术进行训练和分类。
情感强度分析是判断文本中情感的程度深浅,常用的方法包括基于词典的算法和基于机器学习的回归算法。
基于文本挖掘技术的社交媒体情感分析在许多应用场景中发挥了重要作用。
首先,情感分析可以用于企业的舆情监控。
通过分析用户在社交媒体上对于产品和服务的评价,企业可以了解用户对其产品的满意度和改进方向,并及时采取措施回应用户的反馈。
其次,情感分析对于政府部门的舆情监控也具有重要意义。
政府可以通过社交媒体情感分析了解公众对政策的意见和情感倾向,为政策制定提供参考意见。
此外,情感分析在金融领域的应用也日益重要。
通过分析社交媒体上对于股票、基金等金融产品的讨论和情感倾向,投资者可以及时调整投资策略。
在社交媒体情感分析中,面临着一些挑战。
首先,社交媒体上的文本通常包含大量的缩写、拼写错误等语言现象,使得情感分析的准确性和效果下降。
其次,社交媒体上存在大量的网络用语、词汇的多义性以及情感表达的隐晦特点,这些都给情感分析带来了困难。
另外,社交媒体数据产生快速且庞大,对于情感分析系统的实时性和处理能力提出了要求。
为了解决这些挑战,研究者们提出了各种基于文本挖掘的社交媒体情感分析算法和工具。
其中,常用的方法包括词典方法、机器学习方法和深度学习方法等。
词典方法是基于情感词典的方法,通过计算文本中情感词的数量和权重来判断整体情感倾向。
基于文本挖掘的网络舆情分析研究随着互联网的迅速发展,网络舆情成为了人们关注的焦点之一。
网络舆情的快速传播和影响力已经超越了传统媒体,成为了政府、企业和个人决策的重要参考。
然而,面对海量的网络信息,如何高效地分析和挖掘其中的舆情信息,成为了亟待解决的问题。
基于文本挖掘的网络舆情分析研究应运而生。
一、文本挖掘的定义和意义文本挖掘是一种通过自动化技术从大规模文本数据中提取有用信息的过程。
它涉及到自然语言处理、机器学习和数据挖掘等多个领域的交叉应用。
在网络舆情分析中,文本挖掘可以帮助我们从海量的网络文本中发现舆情事件、分析舆情态势和预测舆情走向。
通过文本挖掘,我们可以更加客观、准确地了解社会的动态,为决策提供科学依据。
二、文本挖掘在网络舆情分析中的应用1. 舆情事件发现通过文本挖掘技术,可以实时监测网络上的信息流,发现和追踪舆情事件。
例如,可以利用文本分类算法对网络文本进行分类,识别出与舆情事件相关的文本。
同时,文本聚类算法可以将相似的文本归类到一起,帮助我们发现舆情事件的演化过程。
2. 舆情态势分析舆情态势分析是对舆情事件进行全面、深入的分析,帮助我们了解舆情事件的发展趋势和影响力。
文本挖掘技术可以通过情感分析来判断网络文本中的情感倾向,从而了解舆情事件对公众的情绪和态度产生的影响。
此外,通过关键词提取和主题模型等技术,可以挖掘出舆情事件的核心议题和热点问题。
3. 舆情预测基于历史数据和文本挖掘技术,可以进行舆情事件的预测。
通过分析过去的舆情事件和相关的网络文本,可以建立预测模型,预测未来舆情事件的发展趋势。
这对于政府和企业制定应对策略具有重要意义。
三、文本挖掘技术在网络舆情分析中的挑战尽管文本挖掘技术在网络舆情分析中具有广阔的应用前景,但是也面临着一些挑战。
1. 数据质量问题网络上的文本数据质量参差不齐,包含大量的噪音和冗余信息。
如何准确地从海量的网络文本中提取有用信息,是一个亟待解决的问题。
2. 多样性和时效性问题网络舆情信息的多样性和时效性使得文本挖掘任务更加困难。
基于文本挖掘技术的舆情研究与分析近年来,随着社交媒体的飞速发展,人类产生的数据量呈现指数级增长。
这些文字、图片、视频等数字化数据被称为“大数据”,互联网上的各种信息以迅猛的速度传播着,很多人的思维与行动也因此发生了改变。
同时,由于信息传播的方便和低廉,大量虚假信息开始泛滥,引发了社会群体的焦虑和不信任感。
而这些真假难辨的信息和群体情绪的传播就是舆情的构成要素。
如何对舆情进行有效的研究和分析已成为一项具有重要意义的课题,而基于文本挖掘技术的舆情研究与分析也成为了一种热门的研究领域。
基于文本挖掘技术的舆情研究与分析,是一种将文本数据自动抽取、分析和理解的方法和技术。
其基本目的是通过计算机程序对海量的文本数据进行处理,从数据中挖掘信息并进行分析,以获取所需的舆情态势。
其中的基本技术包括数据预处理、特征提取、分类器训练和应用等等。
首先是数据预处理。
数据预处理是指在进行文本挖掘之前,对原始数据进行一系列的清洗、过滤和加工操作,以便于后续的处理和分析。
数据预处理的主要任务包括数据清洗、分词处理、文本过滤、去重等。
其中,分词处理是文本挖掘的重头戏之一,它是指将复杂的文本数据进行分割和划分,分割出独立的单词或汉字等特定单位,为后续的分析和处理提供方便。
其次是特征提取。
特征提取是指从大量的文本数据中提取出相关、有意义的信息,以便于后续的分析和处理。
特征可以是文本中某个单词、短语、主题、情感等等。
在特征提取的过程中,需要使用一些自然语言处理的方法,例如TF-IDF技术、主题模型、情感分析等。
第三是分类器训练。
分类器是基于机器学习算法,通过对已有文本数据的学习和判定,构建一个分类器,以便于对未来的文本数据进行分类。
分类器的核心是由一组特征和相关的权重和偏差构成的数学模型,可以为未知的文本数据进行分类和预测。
分类器的训练是将一部分标注有类别的文本数据,分为训练集和测试集,通过机器学习算法对训练集进行学习,确定分类器的权重和偏差,再通过测试集进行测试和优化,以达到较好的分类效果。
文本挖掘技术在网络舆情监测中的应用案例研究网络舆情监测是指通过收集、分析和评估网络上的公众言论和情绪,来了解和预测社会舆论动态的一种方法。
随着互联网的迅速发展,人们越来越多地倾向于通过网上平台表达自己的意见和情感,网络舆情就成为了社会舆论的重要组成部分。
为了更好地了解和掌握网络舆情,研究人员和企业普遍采用文本挖掘技术来进行分析和监测。
本文将通过介绍几个典型案例,探讨文本挖掘技术在网络舆情监测中的应用。
首先,文本挖掘技术在网络舆情监测中的应用之一是情感分析。
情感分析是评价和判断文本中所表达的情感倾向的过程。
通过对网络舆情中的言论进行情感分析,可以了解公众在某个事件或话题上的态度和情绪。
例如,在某个争议性事件中,利用情感分析技术可以分析用户在社交媒体上的发言,判断其是否对事件表示支持或反对,并分析出情感倾向的规律。
这个应用可以帮助政府和企业更好地了解公众对其政策或产品的态度,为决策提供参考。
其次,文本挖掘技术在网络舆情监测中的另一个应用是主题识别。
主题识别是从文本中自动识别出相关主题的过程。
使用主题识别技术可以深入挖掘网络舆情中的话题和讨论内容,帮助寻找关键词或关键短语,进而抓住公众的关注点和热点。
例如,在某个社会事件中,通过主题识别技术可以自动识别出与该事件相关的关键词、短语和主题,并进行统计和分析。
这样的应用可以帮助媒体了解公众关注的焦点,在新闻报道中进行合理的安排和引导。
此外,文本挖掘技术还可以应用于网络舆情监测中的用户画像分析。
用户画像是对用户个体或群体特征的综合描述。
通过对公众在社交媒体上的言论进行文本挖掘和分析,可以了解他们的性别、年龄、地理位置、职业等基本信息,从而帮助企业和政府更准确地了解目标受众的特征和需求。
例如,在市场营销中,通过分析网络舆情中的用户言论和行为,可以对用户进行细分,为特定的产品和服务开展精准营销活动提供支持。
此外,文本挖掘技术在网络舆情监测中还可以应用于事件预警和危机管理。
基于文本挖掘的舆情分析方法研究随着社交网络的发展,互联网上的舆情变得越来越重要。
舆情分析旨在从海量的网络数据中抽取有用的信息,对公众的态度和看法进行分析,以帮助政府和企业做出更好的决策。
其中,基于文本挖掘的舆情分析方法具有广泛的应用价值。
本文将介绍文本挖掘的基本概念,以及它在舆情分析中的应用。
一、文本挖掘概述文本挖掘是一种利用计算机技术处理和分析大量的文本信息的方法。
它主要包括文本分类、文本聚类、关键词提取等内容。
其中最常见的两个任务是情感分析和主题提取。
情感分析是指从文本中提取出情感信息,通常被用来对产品和服务的口碑进行分析。
主题提取是指从文本中提取出重要的主题或话题,可以帮助社会舆情监测、媒体关注度评估等。
文本挖掘技术通常涉及文本预处理、特征提取和分类器构建等步骤。
在文本预处理中,需要对文本进行分词、去除停用词、词干提取等工作。
特征提取过程中,一般会选取TF-IDF、主题模型等方法对文本进行特征提取。
构建分类器的方法有SVM、朴素贝叶斯等。
二、基于文本挖掘的舆情分析优势相比于传统的舆情分析方法,基于文本挖掘的舆情分析具有如下几个优势:1. 可自动化处理大批量数据:文本挖掘可以自动地从大批量的数据中提取有用信息,避免了人工处理过程中的主观性和误差。
2. 适应多样性的数据格式:基于文本挖掘的舆情分析不受数据格式的限制,即使是来自不同来源和不同格式的数据,也可以被有效的处理。
3. 快速发现有意义的信息:文本挖掘的快速计算和自动分析能力,可以在不断涌现的海量数据中快速发现有意义的信息。
三、基于文本挖掘的舆情分析实践基于文本挖掘的舆情分析在实践中已经得到了广泛的应用。
下面介绍一些典型的例子:1. 聚合新闻报道:可以通过爬虫技术将各种新闻来源的报道聚合在一起,进行分类汇总,从而更好地了解社会热点和事件的情况。
2. 监测社交网络:可以通过文本挖掘技术对社交网络中用户的言论进行分析,了解用户的情感和态度,预测事件的发展趋势。
基于文本挖掘的舆情分析方法研究舆情分析作为一种重要的社会调查手段,通过对用户在社交媒体、新闻论坛等平台上发表的言论进行有效整理和分析,能够帮助我们了解社会大众的态度、情感倾向以及舆论动向。
而文本挖掘技术则是一种重要的舆情分析方法。
本文将探讨基于文本挖掘的舆情分析方法的研究。
一、文本挖掘概述文本挖掘(Text Mining)是一种从大规模文本数据中提取潜在信息的技术。
它结合了自然语言处理、数据挖掘、机器学习等多个领域的知识,将文本数据转化为结构化信息,用于分析和挖掘隐藏在文本中的有用信息。
在舆情分析中,通过应用文本挖掘技术,可以识别和分析用户在社交媒体上发表的言论,从而准确了解社会舆情。
二、文本预处理在进行文本挖掘之前,需要进行文本预处理工作,包括分词、去停用词、词干提取、标注词性等。
分词是将原始文本切割成若干个词语的过程,去停用词是去除一些无意义的词语,如“的”、“了”等。
词干提取则是将词语还原为词干形式,以避免词形变化对文本分析的干扰。
标注词性是为了进一步分析词语的语法属性和义项。
三、情感分析情感分析是舆情分析的核心内容之一,旨在判断文本中蕴含的情感倾向。
通过文本挖掘技术和机器学习算法,可以将文本划分为正向情感、负向情感或中性情感。
情感分析可以帮助我们了解用户对某一事件、产品或行业的态度。
四、主题提取主题提取是舆情分析的另一个重要方面,旨在从大规模的文本数据中识别出用户关注度较高的主题。
通过文本挖掘技术,可以自动抽取和归类文本中的关键词和短语,并以此为基础,生成包含各个主题的文本摘要。
主题提取可以帮助我们了解用户关注的热点话题,并根据用户对不同主题的关注度制定相应的策略。
五、关键词提取除了主题提取外,关键词提取也是舆情分析的重要内容之一。
通过文本挖掘技术,可以自动抽取关键词,并根据关键词的出现频率和权重进行排序,以便更好地理解用户的关注点和关注程度。
关键词提取可以帮助我们直观地了解用户关注的内容,并为企业制定营销策略提供参考。
基于文本挖掘的舆情分析技术与应用一、背景介绍随着互联网和社交媒体的不断发展,各种信息越来越容易被传播和获取。
其中,舆情是一种重要的信息类型,它可以反映出社会上广泛关注的事件、话题或是人物的相关信息。
舆情分析是基于人们在网络上的讨论、评论和观点,通过对文本数据进行挖掘和分析,对社会舆论进行研究和预测。
在政治、金融、媒体等多个领域都具有广泛的应用价值和实践意义。
本文将介绍基于文本挖掘的舆情分析技术和应用。
二、舆情分析技术1.文本挖掘技术舆情分析的核心是对大量文本数据进行挖掘和处理。
文本挖掘技术是一种运用计算机技术对自然语言文本进行自动处理的技术,包括文本分类、文本聚类、信息抽取、情感分析等等。
文本挖掘技术通过对复杂的文本信息进行处理,将文本转换成结构化的数据,提高数据处理的效率和可靠性。
2.情感分析技术情感分析技术是一种能够判断文本情感倾向的技术,通过对文本内容进行分析和处理,预测文本中所表达的情感或感情状态。
它是舆情分析的核心技术之一,包括情感极性分析,情感强度分析,情感主题分析等。
在实践中,情感分析被广泛应用于品牌维护、政治舆论研究、金融投资等多个领域。
3.挖掘关键词技术关键词挖掘技术是一种提取文本中最有价值、最有代表性词汇的技术。
通过对文本中的词频、词语搭配等特征进行分析,从而得到文本中的关键词。
关键词挖掘技术常被应用于文本分类、特征提取、主题分析等方面。
在舆情分析中,关键词挖掘技术可以用来确定舆情的热点话题、重点传播渠道以及影响力之类的信息。
三、舆情分析应用1.政治舆论分析政治舆论分析是舆情分析的重要领域之一,根据网络舆情信息的特点和政治事件的特点,通过对海量数据的收集、存储、分析和评估,达到预测、引导和干预的目的。
政治舆情分析对政府机构、政治研究机构、政治议题研究机构和社会组织非常重要,因为政治舆情使研究者更了解围绕着政治事件和政治议题的人们的呼声与态度。
2.品牌声誉维护品牌声誉维护应用舆情分析技术以监测和管理各种对品牌的评价、评论和反应,为品牌管理提供支持。
基于文本挖掘技术的网络舆情监测与分析随着互联网技术的快速发展,人们生活中越来越依赖网络,网络舆情也成为各界关注的热点话题之一。
舆情是指在公共领域中会引起广泛关注和讨论的话题或事件,而网络舆情则是在网络中形成的群体情绪和态度的总和。
网络舆情不仅可以反映人们的关注程度,还可以对舆情话题进行跟踪和分析,从而为政府、企业和个人提供决策依据。
本文将讨论基于文本挖掘技术的网络舆情监测与分析的方法和应用。
一、文本挖掘技术的概述文本挖掘技术是一种自然语言处理的技术,它可以通过对文本的分析和处理,发现其中的模式和规律,从而提取出有用的信息。
文本挖掘技术通常包括文本预处理、特征提取、模型训练和模型应用等步骤。
其中,文本预处理主要包括文本的清理、分词、去除停用词、词干化等操作;特征提取主要是从处理后的文本中提取出有用的信息和特征;模型训练则是通过机器学习等算法,从样本数据中学习到模型的规律和特征;模型应用则是将学习得到的模型应用到新的文本数据中,进行分类、聚类和预测等操作。
二、网络舆情监测与分析的方法网络舆情监测与分析通常包括以下几个步骤:1. 数据收集。
通过网络爬虫和API接口等方式,收集与所关心的话题相关的数据,比如新闻、博客、微博、论坛、评论等。
2. 文本预处理。
对收集到的数据进行文本预处理,如清洗数据、分词、去除停用词、词干化等操作。
3. 特征提取。
从预处理后的文本中提取出有用的特征,如词频、TF-IDF、情感极性等。
4. 模型训练。
基于收集到的数据,通过机器学习等算法,训练模型,学习到舆情话题的规律和特征。
5. 模型应用。
将训练好的模型应用到新的舆情数据中,进行分类、聚类和预测等操作,获得舆情态度和情感分析等结果。
三、网络舆情监测与分析的应用1. 政府舆情监测。
政府部门可以利用网络舆情监测和分析技术,对当前社会热点话题和事件进行评估和预测,及时发现民众的意见和态度,更好地制定政策和宣传计划。
2. 企业口碑管理。
网络舆情预测与分析中的文本挖掘算法研究文本挖掘算法在网络舆情预测与分析中的应用已经成为研究的热点。
随着互联网的迅猛发展,人们在网络上表达情感和观点的方式也越来越多样化,这为舆情分析带来了巨大的挑战。
文本挖掘算法作为一种有效的工具,可以帮助人们从大量的网络文本中提取有用信息,预测和分析网络舆情。
本文将重点探讨网络舆情预测与分析中的文本挖掘算法研究,并提出一种基于深度学习和自然语言处理技术的新方法。
首先,我们需要了解什么是网络舆情预测与分析。
网络舆情是指通过互联网平台传播出来并引起公众关注和讨论的信息、事件或观点。
在信息爆炸时代,人们通过社交媒体、论坛、博客等渠道表达自己对社会事件、产品或服务等方面看法,并对这些信息进行传播和评论。
因此,通过对这些信息进行收集、处理和分析,可以帮助我们了解公众对某一事件或话题态度倾向,并提前预测可能引发公众关注的事件。
文本挖掘算法是网络舆情预测与分析的核心技术之一。
它通过自动化的方式从大量的文本数据中提取有用信息,包括情感倾向、主题、观点等。
文本挖掘算法主要包括文本分类、情感分析和主题模型等技术。
其中,文本分类是将未标注的文本数据自动分类到预定义的类别中,如正面和负面情感类别;情感分析是识别和提取文本中蕴含的情感倾向,如喜欢、厌恶等;主题模型是从大量未标注文本中自动识别出潜在主题。
在网络舆情预测与分析中,传统的机器学习方法被广泛应用于文本挖掘算法。
传统方法通常基于特征工程和统计模型,通过手工提取特征并训练模型来实现舆情预测与分析。
例如,在情感分析任务中,常用的特征包括词袋模型、TF-IDF权重等;而支持向量机(SVM)、朴素贝叶斯(Naive Bayes)等统计模型常被用于训练分类器。
然而,在面对大规模复杂网络数据时,传统方法存在一些局限性。
首先,特征工程需要大量的人工参与,耗时耗力。
其次,传统模型对于语义信息的理解有限,往往无法捕捉到文本中的隐含信息和复杂关系。
因此,研究人员开始关注基于深度学习和自然语言处理技术的文本挖掘算法。
基于文本挖掘的舆情监测技术研究随着互联网的发展,信息量愈发庞大,人们获取信息的方式也更为多样化,因此,舆情监测技术逐渐成为了社会管理和企业经营中必不可少的一项技术。
而基于文本挖掘的舆情监测技术,则是舆情监测技术中最为重要的一种。
一、什么是文本挖掘文本挖掘又被称为文本数据挖掘,是一种从大量的文本数据中自动发掘出有用的信息的技术。
通过分析文本内容,挖掘出其中的结构和规律,获得有用的信息,从而为人们提供了更加高效、准确、全面的信息服务。
文本挖掘适用于分类、聚类、预测分析、情感分析等多种领域,是各行各业中普遍使用的一种技术。
二、基于文本挖掘的舆情监测在现代社会,舆情监测已经成为了必备的一项社会管理和企业经营工具。
基于文本挖掘的舆情监测技术,则是舆情监测中最为重要的一种技术。
其基本思想是在大量的网民留言、新闻报道、微博博客等海量数据中提取有用的信息,来帮助政府和企业了解公众的情绪和态度。
通过分析这些数据,可以更好地了解公众对于某一事件或话题的关注度和态度,进而采取相应的措施应对。
基于文本挖掘的舆情监测技术主要包括以下几个方面。
1. 文本采集文本采集是指从互联网上获得有价值的文本信息。
文本采集涉及到多个维度,包括时间、来源、关键字等。
采集到的数据需要经过规范化处理,去除无效信息和冗余信息,以保证分析的准确性。
2. 内容分类在文本挖掘过程中,常常需要对文本内容进行分类。
内容分类是指将文本数据按照一定的标准进行分类,例如按照情感、主题等。
通过对文本进行分类,可以更加方便地进行分析,得到更加准确的结论。
3. 情感分析情感分析是基于文本挖掘的舆情监测的一个重要方面,是指通过对文本的情感态度进行分析和判断。
通过情感分析,可以了解公众在某一事件或话题上的情感倾向,功能包括情感倾向分析、情感强度分析、情感极性分析等。
4. 舆情可视化舆情可视化是指将复杂的舆情数据经过可视化处理,以图形的形式展现出来,来帮助研究人员更快、更直观地了解舆情信息。
网络舆情分析中的文本挖掘技术研究随着互联网的不断发展,网络舆情成为了一个越来越重要的话题,特别是在政治、商业等领域中,人们更加关注网络舆情的变化和趋势。
然而,由于互联网上数据量的爆炸式增长,如何从海量的信息中挖掘和分析有效的信息成为了一个亟待解决的问题。
在这个背景下,文本挖掘技术应运而生,成为了网络舆情分析中重要的研究方向。
一、文本挖掘技术的分类文本挖掘技术是利用计算机技术对非结构化文本数据进行统计、分类、分析和解释的一种技术。
它可以帮助人们从海量的文本信息中挖掘出有价值的信息,深入了解文本所隐藏的信息,如情感、主题、关系等。
文本挖掘技术的分类主要有以下三个方面:1. 文本预处理技术:包括分词、去噪、归一化等,主要是为了方便后续的文本分析和处理。
2. 文本分析技术:包括文本分类、主题识别、情感分析、实体识别等,主要是为了挖掘文本数据中有价值的信息。
3. 文本建模技术:包括向量空间模型、概率模型、语义模型等不同类型的模型,主要是为了利用模型对文本进行分类和预测。
二、文本挖掘技术在网络舆情分析中的应用网络舆情分析是通过对网络上的信息进行分析,从而把握社会热点、民意变化、商业趋势等,是政治和商业利益相关人员进行决策的重要参考。
然而,由于网络舆情分析的对象是广泛、瞬息万变的互联网世界,因此必须依靠文本挖掘技术才能更好地处理数据。
1. 基于文本分类的网络舆情监测网络舆情监测是通过对网络上的信息进行监测,了解和分析网络公众的反应和态度。
在实际应用中,文本分类技术被广泛应用于文本自动分类和信息过滤。
通过构建文本分类模型,可以将海量的文本信息归类,快速筛选出具有代表性、有价值的文本数据,并进行分析。
2. 基于主题识别的网络舆情分析主题识别是指对文本数据中的相关信息进行提取和分类,以获取有关特定主题的信息。
在网络舆情分析领域,主题识别被视为一种重要的技术,可以通过识别关键词和主题,对网络舆情进行更准确的分析。
3. 基于情感分析的网络舆情评价情感分析是对文本数据情感态度进行分析,包括正面、负面和中性情感的分类。
文本挖掘技术在网络舆情分析中的应用研究网络舆情分析是指对网络上产生的关于特定话题的信息进行收集、整理、分析和解读,以获取关于舆情态势和舆情趋势的有关信息。
通过分析网络舆情可以了解公众对特定事件、产品或机构的态度和情绪,对个人、企业和政府部门进行舆情管理和决策提供参考依据。
而文本挖掘技术作为一种自然语言处理和数据挖掘技术,已经成为网络舆情分析中的重要工具和方法。
首先,文本挖掘技术可以帮助快速收集和获取网络舆情数据。
网络上产生的大量文本信息对于人工收集和整理来说是一个巨大的挑战,而文本挖掘技术可以通过自动化的方式从网络中采集大量的文本数据,并对文本进行初步的预处理和整理。
例如,通过网络爬虫技术可以自动抓取相关网页上的文本数据,通过文本分类技术可以对文本进行分类,从而快速筛选出与特定话题相关的信息。
其次,文本挖掘技术可以帮助分析网络舆情的情感倾向。
情感分析是文本挖掘技术中的一个重要应用领域,其主要任务是对文本进行情感倾向的判断,即判断文本中表达的情绪是积极的、消极的还是中性的。
在网络舆情分析中,情感分析可以帮助了解公众对特定事件或话题的情绪态度,以及对相关方面产生的影响。
例如,在产品上市或政治事件发生后,可以通过情感分析技术快速收集和分析网络上的用户评论,得出公众对该产品或政治事件的情感倾向,以便制定相应的舆情管理和决策方案。
此外,文本挖掘技术还可以帮助发现网络舆情的关键词和主题。
关键词和主题是网络舆情分析中的重要指标,可以帮助快速了解和把握网络话题的核心内容。
在大规模的网络数据中,通过文本挖掘技术可以对文本进行关键词提取和主题模型分析,从而找出相关话题的核心关键词和主题。
例如,对于某个热门事件或话题,可以使用主题模型技术对很多文本进行聚类和分类,从而找出与该事件或话题相关的关键词和主题,以便了解公众的关注点和舆情热点。
此外,文本挖掘技术还可以帮助识别和过滤网络舆情中的虚假信息和谣言。
在网络舆情中,由于信息的自由度较高和传播速度较快,存在大量的虚假信息和谣言。
基于文本挖掘技术的社会网络舆情分析框架刍议——以某知名艺人偷税漏税事件为例张行健 焦 政 钟瑞童摘要:通过研究某知名演员偷税漏税事件的舆情走势,给出舆情分析框架,使用Word2vec模型分析人物关系,梳理事件背景,而后使用评论影响力指标筛选具有导向作用的舆论,再通过主题模型提取观点,分析舆情走势,并对不同主题观点下各类人群构成做量化分析。
该分析框架有助于决策者迅速精准把握热点事件舆情,了解公众心理,反映社会风气。
关键词:舆情分析;观点挖掘;主题模型;word2vec模型中图分类号:G206.3 文献标识码:A 文章编号:CN61-1487-(2019)010-0134-04一、引言公众人物的一举一动对整个社会有很大的影响,人民群众的看法也反映了整个社会对于公众人物的认知和判断。
某知名演员每年的个人收入高达数亿人民币,在去年该演艺明星被曝出令人咋舌的天价片酬,并且“一阴一阳大小合同”公然偷税漏税等行业内幕也随之浮出水面。
自某新闻从业人爆出该明星的阴阳合同之后,各职能部门和媒体就一直没有中断对于该演艺明星的调查。
终于,在去年10月3日,该演艺明星偷逃税案件的结果正式公布,引发媒体关注。
“央视网”报道税务部门依法查处该明星“阴阳合同”等偷逃税问题。
此事一出,各类媒体争相报道,微博、知乎、朋友圈都充斥着各种评论和看法,该演艺明星偷税漏税事件成为引爆社会舆论的焦点。
本研究应用爬虫技术和文本挖掘技术和自然语言处理方法,对该明星偷税漏税事件的社会网络舆情实证分析框架进行研究。
二、文献综述(一)社会网络舆情从李津浩在《采写编》2017年第2期发表的文章《从社会公众事件看网络舆情引导》中,可以准确地总结出公众人物的定义、特点及其对舆论的影响。
社会公众人物具有公众性、典型性、商业价值、社会影响力的特点,其中最典型的特点是其言行会对社会和公众产生的巨大影响力。
如果公众人物的行为举止得当,凭借他们的高知名度,会成为社会发展好的方面的代表,给公众以积极的影响。
公众人物如果言行不当,在新媒体这种环境下,极易引发众怒,舆论就会呈现一边倒的声讨批评,产生网络舆情。
在网络舆情的研究方面比较成熟、主流的分析方法主要有网络调查法、基于统计规则的模式识别方法、基于内容挖掘的主题检测方法等。
以上几种方法均存在一定的局限性,一些新的方法应运而生。
首先,在大数据时代的背景下,数据挖掘的方法已经在更大程度和更广范围应用到网络舆情的分析和研究之中。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
其次则是聚类(clustering)分析法,即根据对某种相似程度的度量,按照相似度将数据对象分组成为多个类或簇。
[2]于志刚.全媒体时代与编造、传播虚假信息的制裁思路[J].法学论坛,2014(2).[3]姜子倩.网络造谣行为刑法规制的实证分析[J].法学论坛,2015(6).[4]高铭暄,马克昌.刑法学[M].北京:高等教育出版社,北京大学出版社,2017.[5]孙万怀,卢恒飞.刑法应当理性应对网络谣言——对网络造谣司法解释的实证评估[J].法学,2013(11).[6]魏东.关于网络造谣入罪问题的法理检讨[J].山东警察学院学报,2014(6).[7]侯帅.论刑法对网络造谣行为的规制——以对“公共秩序”法益的理解为切入点[J].四川警察学院学报,2014(5). [8](意)贝卡利亚.论犯罪与刑罚[M].黄风译.北京:中国大百科全书出版社,2008.[9]刘宪权.网络造谣、传谣行为刑法规制体系的构建与完善[J].法学家,2016(6).[10]李永升,李瑜.网络造谣行为的刑法规制研究[J].河南科技大学学报(社会科学版),2016(1).作者简介:张天姝(1993—),女,山东淄博人,单位为上海政法学院,研究方向为刑法学。
(责任编辑:润兴)134聚类分析法已经被广泛应用于很多方面的数据分析研究中。
最后则是社会网络分析法(SNA),即通过对个体之间的关系构建模型并进行描述,对这些模型中包含的结构及其对个人和整个群体的影响进行分析。
我们可以将大数据应用到日常的舆情管理中,加强对各个网络平台的监管。
大数据技术的发展为传统网络舆情的管理拓宽了视野,我们可以运用大数据对网站、微博、微信等网络平台进行监控,对信息数据的传播和动态进行实时分析,以便从瞬息万变的舆情信息中找准重点,合理分配有限的资源,提高舆情管理效率。
(二)潜在狄利克雷(LDA)分布主题模型隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),首先由Blei,David M.、吴恩达和Jordan, Michael I 于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。
LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。
一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
它是一种主题模型,可以将文档集中每篇文档的主题,按照概率分布的形式给出;它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可;此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述。
本小组在文本挖掘技术层面上在文献的分类筛选中选择了LDA主题模型,LDA主题模型在国内的研究也已经较为成熟。
苑东东、赵杰煜、叶绪伦(2018)在《结合深度学习的监督主题模型》中,万子玮(2018)在《基于主题词的微博用户兴趣模型研究》中提出结合深度学习的监督主题模型,利用深度网络强大的非线性拟合能力,建立文档主题分布与标签之间的映射,利用变分期望最大化(EM)和深度网络训练方法,共同完成贝叶斯框架下模型参数的更新,通过改变网络结构和激活函数的类型,用于分类和回归任务。
在前人对LDA改进的基础上,将模型应用于微博用户兴趣的深度挖掘中,将模型的先验概率,更换为后验概率确定用户兴趣模型,提高了主题模型的计算效率,并且保证了主题兴趣挖掘的准确度。
最后,通过召回率、查准率等评价指标对模型进行评价分析,并分析模型应用于个性化广告推荐中的适用性。
三、该明星偷税漏税事件微博舆情分析(一)基于Word2vec模型的社会网络人物关系挖掘1.语料准备爬取知乎上关于“该明星偷税漏税”问题的回答共2022条。
选取知乎上关于“偷税漏税”事件的回答作为word2vec模型的训练语料的原因是,知乎上的回答大部分都是长文本,非常适合word2vec的训练,而且长文本可以将关于“偷税漏税”事件相关的过程来龙去脉阐释清楚,便于word2vec挖掘人物之间的关联度。
得到原始文本后,去除无关的网页标签数据,过滤出原始文本。
在语料数据预处理这个过程中,先将原始文本进行中文分词,由于我们最终的目的是要将“偷税漏税”事件相关联的公众人物挖掘出来并分析他们之间的关联度,所以我们注意的一点是对于人名的分词的准确度,构造精确的用户自定义字典。
由于word2vec注重于上下文的关联,所以将词频很高的语气词和助词等对上下文关联不起作用的词语去除,构造精确的停用词列表。
由于原始文本中有很多的与此事件阐述无关的网址,不能载入word2vec进行训练,所以将其剔除,最后去除所有的标点符号,得到可用于word2vec训练的文档。
以下给出语料预处理的具体步骤:第一步,将所有的回答载入一个文档中。
第二步,定义该明星偷税漏税问题的用户自定义字典,字典列表里包括明星的人名,其中也包含同一个人的多个称呼(如XXX和X老师),此外,还有相关知名影视公司。
第三步定义停用词,将词频较高的助词、语气词等定义为停用词,在分词之后这些词汇将会被过滤掉。
第四步,去除文本中所有的标点符号和网址链接,最终过滤出纯文本并将其分词,准备训练word2vec模型。
2.训练word2vec模型并输出相似度矩阵将知乎关于“该明星偷税漏税”问题所有的回答作为语料库训练word2vec模型,并挖掘相关人物的向量相似度(即人物相关性),并得到人物关系相似度矩阵。
图1 该明星偷税漏税时间关键人物关系网络由于矩阵中每一个人物关系相似度都超过0.9,所以要观察他们之间相对的相似度,要将其标准化。
为了防止人物关系相似度矩阵出现负数,用max-min方法对其进行标准化。
这种标准化的优点是:标准化后所有的数值都是非负的,并且原数据中最小的数标准化后变为0,最大的数标准化后变为1,可以让我们清晰地观察到关系相似度最高的两个人,还有最不相关的两个人。
将人物关系相似度矩阵进行可视化,转化为关系图:3.人物关系解读与事件梳理135从人物关系图中可以直观地看出,整个事件是以该明星为中心,向外辐射出与“偷税漏税”事件相关的人物,辐射出相关的人物有演艺人物4、新闻从业者1、演艺人物3、演艺人物2、演艺人物1。
在图中还可看出,与该明星关联性不大的演艺人物4,在此事件中,他和该明星是有一定的并列关系,因为他们同时被新闻从业者1所批判,因此演艺人物1和演艺人物4的相关性近似于0,说明在此事件中,演艺人物4和1毫不相关,互相不牵连。
这个模型最大的特点是能挖掘公众所不熟知的人物关系,比如演艺人物2和3,公众可能认为他们两个与“偷税漏税”事件毫不相关,其实不然,他们和这个事件的核心人物都有着非常大的关联度。
这个模型可以使公众有新的了解目标,主动地去搜寻看似不相关的人物的事件,而不是被动的接受媒体传播的信息。
(二)基于主题模型的舆论观点分析1.引入微博评论影响力指标过滤舆论导向信息使用Python+Selenium+Chrome编写爬虫程序。
截至目前,获取微博话题“#该明星偷税#”“#该明星偷税、漏税#”“#该明星大轰炸戏份9秒#”“#该明星偷税漏税调查结果#”“#该明星陷偷税门#”5个话题下内容无缺失的讨论文本共计2119条,并爬取发布者信息,共计1703条(同一个人可能有多条讨论)。
数据库变量类别分别为变量名、用户名、发布时间、转发量、评论量、点赞量、评论内容、性别、所在地、用户类别等。
使用转发、评论与点赞量构造微博评论影响力指标,衡量其言论所起到的舆论导向作用,过滤对舆论影响低的讨论。
指标计算方法如下:获取影响力指标大于等于1的讨论共计1003条,作为本次分析语料。
某明星新闻从业者1演艺人物1图2 微博话题下该明星事件讨论的词频图从词频图中我们可以清晰看出,作为事件主角的该明星的姓名出现次数遥遥领先其他词汇,总共出现了684次;其次是“偷税漏税”这一行为,总共出现了179次;像“罚款”“国家”“法律”“偷税”“逃税”这一类与国家法治制度相关的词汇出现次数紧随其后,基本都达到90次左右,这也体现了大多数微博用户对于国家基本法律的重视和对该明星违反国家基本法律政策的反对;除此之外,类似“视频”“明星”“大轰炸”“娱乐圈”这类有关娱乐圈电影明星的词汇的出现次数也有很多,基本上都达到了70次左右,说明部分微博用户认为该明星偷税漏税事件与整个娱乐圈风气具有一定的相关联度;最后,类似于“道歉”“补缴”“处罚”“依法”“刑事责任”“封杀”这类词汇的存在表明部分微博用户认为该明星有责任进行道歉以及受到处罚以正娱乐圈的风气。