基于搜索引擎关注度的网络舆情时空_省略_析_以谷歌趋势和百度指数比较为例_陈涛
- 格式:pdf
- 大小:707.93 KB
- 文档页数:5
基于知识图谱的国内网络舆情研究可视化分析苏楠;张璇;杨红岗;李睿【摘要】以2002-2011年CNKI数据库收录的994篇国内网络舆情研究核心期刊论文为样本,采用文献计量学方法,利用引文网络分析工具CiteSpace和社会网络分析工具Ucinet,绘制科学知识图谱,得出2002-2011年国内网络舆情研究的基本情况,挖掘出五大热点主题,并根据时区视图讨论了研究的前沿趋势。
% Taking 994 papers on online public opinion indexed by CNKI from 2002 to 2011 as samples, based on the citation network a-nalysis and visualization techniques, this paper tries to map out the scientific knowledge mapping in the field and explore the basic condi-tions of the related study in this specific period by citation analysis, co-citation analysis, co-word analysis. The paper reveals five hotspots, and the results show the trend of the study according to time zone view.【期刊名称】《情报杂志》【年(卷),期】2012(000)010【总页数】7页(P42-47,58)【关键词】网络舆情;知识图谱;热点主题;群体事件;可视化【作者】苏楠;张璇;杨红岗;李睿【作者单位】四川大学公共管理学院成都 610064;四川大学公共管理学院成都610064;四川大学公共管理学院成都 610064;四川大学公共管理学院成都610064【正文语种】中文【中图分类】D63据中国互联网络信息中心发布的《第30次中国互联网络发展状况统计报告》显示,截至2012年6月底,中国网民数量达到5.38亿,普及率达到39.9%,居全球首位。
百度与谷歌的比较研究摘要:众所周知,日常生活中很多时候需要用到各种搜索引擎,现今访问量居高不下,傲视群雄的两大搜索引擎分别是谷歌和百度,可以说,它们占据的是绝大多数的用户量。
对于两者之间的争论、比较也从没停止:谷歌以检索功能强大,信息准确而备受赞誉,而百度目前是全球最大的中文搜索引擎。
本文将对二者从检索技术,检索功能和检索方式等方面进行比较分析。
两大巨头,在网络搜索领域各有优势,重要的是用户根据自己实际的搜索需要选择适当的搜索引擎,以获得高效的搜索结果。
关键词:百度,谷歌,网络搜索引擎第一部分什么是网络搜索近几十年来的各项信息技术的快速发展都或多或少地推动了网络百科的壮大,最重要的推动网络百科发展的是网络检索技术。
网络搜索引擎是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的信息战展示回去的系统。
通常搜索引擎是由网络蜘蛛(spider)、索引与搜索引擎软件等部分组成。
网络蜘蛛是一个功能很强的程序,它定期根据预定地址查看相对应的网页,如果网页发生变化,则重新获取该网页,否则根据网页中的链接继续访问,直到访问完毕所有的链接,网络蜘蛛性能直接影响到获取网页的数量和网页的更新时间。
索引是对存放在临时数据库中由网络蜘蛛访问链接所得到的网页按一定规则组织起来的页面集合,索引的质量和存放结构会影响到检索的速度。
搜索引擎软件是用来筛选索引中的网页信息,把符合查询要求的网页进行分级排序并显示给用户,引擎的性能影响到检索的精度。
第二部分谷歌作为目前世界上使用率最高和搜索精度最高的全文搜索引擎,谷歌在检索技术、检索功能和检索方式上都很有自己的特点。
技术的先进表现在:首先,为了获取上亿的网页,谷歌为spider设计了一种分布式爬行系统,该系统通常由一个URL服务器将列表提供给爬行器(谷歌同时运行3个爬行器),每个爬行器同时保持与大约300个网络连接,这样就保证了广阔的搜索范围,几乎覆盖了102个国家和地区。
论网络舆情分析的关键技术一、引言随着互联网的普及和社交媒体应用的广泛使用,网络舆情已经成为一个社会、政治、经济和文化等各方面的重要问题。
网络舆情分析就成为了一个热门的话题。
网络舆情分析是一种数据分析技术,可以帮助企业、政府和个人获取当前的网络形势,发现问题、评估品牌形象和掌握消费者心态等。
本文将围绕网络舆情分析的关键技术进行探讨。
二、网络舆情分析的关键技术分类2.1.文本挖掘技术在网络舆情分析中,文本挖掘技术是一项非常重要的技术,它可以从一堆文本数据中发现有用的信息,比如:主题、情感、个人姓名、地点和其他实体等。
文本数据来源包括新闻报道、社交媒体、博客、论坛、评论和其他形式的用户生成内容等。
与传统的文本分析不同的是,文本挖掘技术可以自动地处理大量的文本数据,并将它们转化为有用的信息。
主要的文本挖掘技术包括关键词提取、分类、聚类、信息提取、情感分析、自然语言处理和机器学习等。
2.2.数据挖掘技术与文本挖掘技术相似,数据挖掘技术也是一种在网络舆情分析中非常重要的技术。
它可以从各种类型的数据集中挖掘出有用的信息,比如:消费者行为的模式、趋势和关系等。
数据集可以包括网络上的用户生成内容、销售数据、消费者调查、新闻报道、社交媒体和博客等。
主要的数据挖掘技术包括聚类、分类、预测、关联规则和异常检测等。
2.3.舆情表达与可视化技术舆情表达与可视化技术是一种重要的技术,可以将文本挖掘和数据挖掘的结果进行展示。
该技术可以将分析结果以图表、地图等方式直观地展现,以帮助用户更好地理解分析结果。
舆情表达与可视化技术可以为用户提供多种展现方式,比如:热力图、折线图、散点图、雷达图和树状图等。
2.4.信息融合信息融合技术可以将来自不同数据源的不同类型的信息进行整合,以便更好地分析相关数据。
该技术可以帮助用户从多个角度理解舆情信息,更好地捕捉事态发展的动态趋势和发展变化。
主要技术方法包括基于规则的融合方法、基于概率的融合方法和基于贝叶斯网络的融合方法等。
2023年11月第26卷第21期中国管理信息化China Management InformationizationNov.,2023Vol.26,No.21延边大学专利发展现状分析高松子(延边朝鲜族自治州知识产权保护中心,吉林 延吉 133001)[摘 要]为了全面客观地掌握延边大学科技创新成果情况,从专利视角挖掘延边大学创新发展能力,文章对1992年至2022年期间延边大学的专利情况进行了系统分析研究,梳理延边大学科技创新存在的主要特点和问题,并提出有助于提升创新质量与价值的发展建议。
[关键词]延边大学;专利;科技创新doi:10.3969/j.issn.1673-0194.2023.21.048[中图分类号]G306 [文献标识码]A [文章编号]1673-0194(2023)21-0164-05[收稿日期]2023-04-12[作者简介]高松子(1970— ),女,吉林延吉人,副研究员,主要研究方向:科技信息。
0 引 言专利发展水平是衡量一个地区综合实力、发展能力和核心竞争力的战略性标志[1]。
延边大学作为延网络舆情信息传播研究:以新浪微博“雾霾”话题为例[J ].图书情报工作,2015,59(7):14-22.[4]陈涛,林杰.基于搜索引擎关注度的网络舆情时空演化比较分析:以谷歌趋势和百度指数比较为例[J ].情报杂志,2013, 32(3):7-10,16.[5]张和平,陈齐海.基于灰色马尔可夫模型的网络舆情预测研究[J ].情报科学,2018,36(1):75-79.[6]黄亚驹,陈福集,游丹丹.基于混合算法和BP 神经网络的网络舆情预测研究[J ].情报科学,2018,36(2):24-29.[7]邹凯,左珊,陈旸,等.基于网络舆情的政府信息服务公众满意度评价研究[J ].情报科学,2016,34(2):45-49.[8]LAN M,SUNG S Y ,LOW H B,et al. A comparative study onterm weighting schemes for text categorization[C]//,Proceedings of IEEE International Joint Conference on Neural Networks. 2005:546-551.[9]LAN M,TAN C L,SU J,et al. Supervised and traditional term weighting methods for automatic text categorization [J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,31(4):721-735.[10]QUAN X,WENYIN L,QIU B. Term weighting schemes forquestion categorization [J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(5):1009-1021.[11]KO Y. A study of term weighting schemes using classinformation for text classification[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval,2012:1029-1030.[12]MIAO Y Q,KAMEL M. Pairwise optimized Rocchio algorithmfor text categorization [J ]. Pattern Recognition Letters, 2011,32(2):375-382.[13]LEOPOLD E,KINDERMANN J. Text categorization withsupport vector machines:How to represent texts in input space?[J ]. Machine Learning,2002,46(1-3):423-444.[14]CAI D,HE X. Manifold adaptive experimental design for textcategorization [J ]. IEEE Transactions on Knowledge and Data Engineering,2012,24(4):707-719.[15]ChANG C C,LIN C J. LIBSVM: A library for support vectormachines [J ]. ACM Transactions on Intelligent Systems and Technology (TIST ),2011,2(3):27-33.[16]田梅,朱学芳. 基于支持向量机的大学生网络信息偶遇影响因素研究[J ]. 图书情报工作,2018,62(8):84-92.边州人才培养、科学研究、社会服务、文化传承创新的主阵地[2],是专利创新主要执行者,加强创新体系和创新能力建设势在必行。
百度指数用户关注度是什么篇一:小脑袋百度竞价管理工具告诉你百度指数是什么小脑袋百度竞价管理工具告诉你百度指数是什么经常听到竞价优化的人在交流的时候,说什么百度指数,但是到底什么是百度指数,这些人就说不出个所以然来。
小脑袋百度竞价管理工具告诉你百度指数是什么。
我们所说的这个百度指数其实可以看做是谷歌趋势,虽然不是完全一个概念,但是两者却是非常相似的,可以用来研究关键词的一个参考工具。
百度指数可以通过图标的方式将关键词的搜索量按照时间的变化而统计显示出来。
与Google趋势相比,百度指数标出了与关键词搜索量相关的所谓“永华关注度”,而Google趋势只是给出了一个与绝对搜索量没有直接关系的相对数值。
而百度指数中显示的用户关注度数字与搜索次数是什么关系,百度并没有明确说明,SEO界也众说纷纭,有的人认为用户关注度就是搜索次数,而有的人认为不是,说这两个数值之间相差很大。
我们可以简单的理解为,搜索次数和用户的关注度是非常相关的,但是这个并不是对没有行业都是有效的,有些行业的某些关键词虽然搜索量很大,但是却不会有转化。
而不同的行业的关注度和有效的搜索次数之间的比例可能是不同的。
如果你只是想比较不同关键词的时间变化趋势,那可以忽略这个数据。
篇二:中超联赛媒体用户关注度的影响规律探析中超联赛媒体用户关注度的影响规律探析摘要本文以消费行为学为基础,借助百度指数,分析影响中超联赛媒体用户关注度的因素,探讨中超联赛媒体用户关注度的影响规律。
研究表明,媒体用户关注度受赛事宣传力度、赛事重要度、赛事精彩程度以及赛事地域性等因素影响。
关键词中超联赛媒体用户关注度影响规律中超联赛迄今为止已经举办了10个赛季,相比于之前的甲A联赛,中超联赛的开办标志着中国足球的职业化进程踏上了一个新的台阶。
但是,由于国家队在国际大型比赛中频频失利,联赛管理不严、赌球风气盛行等问题,直接导致广大球迷对中超联赛的关注度大不如前,媒体的相关报道也大幅减少,中超联赛失去了它应有的影响力,这些都不利于俱乐部可持续发展。
2023年11月第26卷第21期中国管理信息化China Management InformationizationNov.,2023Vol.26,No.21数字化时代高校网络舆情主题分类研究——以新浪微博为例贾隆嘉(东北师范大学 信息科学与技术学院,长春 130024)[摘 要]通过一种文本表示策略解决新浪微博主题分类研究所面临的特征权重表示不准确、模型解释性不强的问题。
【方法/过程】采取“选择前预测”构建特征加权向量,在训练集上通过交叉验证方式对特征加权向量的成效进行评价,选择最好评估结果对应的特征加权向量作为测试集的特征加权向量。
【结果/结论】对比传统W-Max、D-Max和D-TMax三种方法,本文提出的方法在微平均F1方面分别提升4.25%、5.03%和7.10%。
在网络舆情主题分类中,该方法可以为数据集构建更明确的特征加权向量,并增强模型的可解释性,同时提升分类性能。
[关键词]网络舆情;主题分类;文本表示策略;机器学习doi:10.3969/j.issn.1673-0194.2023.21.047[中图分类号]TP391;G647 [文献标识码]A [文章编号]1673-0194(2023)21-0158-070 引 言随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,成为思想文化信息的集散地和舆论的放大器。
高校学生是网民中对社会热点现象反映最积极、最活跃、最敏感的群体,极易通过互联网表达自己对社会热点问题的看法。
在某些情况下,他们的意见和建议得不到重视或延误解决,就可能在网上形成炒作,个体情绪可能传染到群体,演变为群体的不满情绪,激化矛盾,爆发形成网络舆情。
高校学生群体既有较强的公民责任感,又具备组织行动的天然优势,遇到某些敏感热门话题,一经煽动,极易激发他们的社会责任感和民族情怀,进而引发大规模的网络舆情。
高校网络舆情作为社会舆情的一个组成部分,在一定程度上反映并影响社会舆情的生成与发展。
网络舆情热点分析与事件追溯算法研究引言:随着互联网的快速发展和普及,网络舆情热点的产生和传播成为了一个重要的社会现象。
网络舆情热点指的是在特定时间段内引起广泛讨论和关注的事件或话题。
对于政府、企事业单位、媒体以及社会公众而言,了解和追踪网络舆情热点的产生、影响和演化,具有重要的应用价值。
本文将针对网络舆情热点分析和事件追溯的问题进行探讨,并提出相应的算法研究方向。
一、网络舆情热点分析算法研究1.1 文本挖掘与情感分析网络舆情热点分析的基础是对海量文章、评论等文本进行挖掘与分析。
目前存在的问题是如何高效准确地从大量文本中提取出与舆情热点相关的信息。
为了解决这一问题,可以采用文本挖掘的方法,结合情感分析技术,通过自然语言处理和机器学习算法,对文本进行分类和情感倾向性分析,以识别和追踪舆情热点的相关信息。
1.2 图网络分析网络舆情热点通常是由一系列相关的文章、评论、转发链等组成的。
为了更好地理解和分析舆情热点的形成和传播机制,可以将网络舆情热点表示为一个图网络,其中每个节点代表一个文本或者用户,边代表它们之间的关系。
通过图网络分析技术,可以发现舆情热点的核心节点、关键路径和社区结构,从而深入理解舆情热点的内在规律和特点。
1.3 主题模型和话题检测网络舆情涉及的话题种类繁多,如何准确捕捉舆情热点的主题和话题成为一个重要问题。
主题模型和话题检测技术可以从大量文本中自动地发现和提取出隐藏在背后的主题和话题。
通过引入主题模型和话题检测算法,可以对网络舆情热点进行更加细致的分析和描述,为后续的事件追溯提供重要线索。
二、事件追溯算法研究2.1 时间序列分析网络舆情热点往往会随着时间的推移产生演化和变化,为了准确把握舆情热点的发展趋势和变化规律,可以使用时间序列分析方法。
通过对舆情热点相关指标的时序数据进行统计和分析,可以发现和预测事件的发展动态,为决策者提供科学依据。
2.2 关联规则挖掘网络舆情热点通常是由一系列相关的事件和话题组成的,这些事件和话题之间存在着一定的关联性。
《浅析微博热搜榜泛娱乐化偏失问题》篇一一、引言微博作为中国最具影响力的社交媒体平台之一,其热搜榜一直是公众关注的焦点。
然而,近年来微博热搜榜的泛娱乐化偏失问题逐渐凸显,引发了社会各界的广泛关注和讨论。
本文将就微博热搜榜泛娱乐化偏失问题的现状、原因及影响进行浅析,并提出相应的解决对策。
二、微博热搜榜泛娱乐化偏失的现状微博热搜榜的泛娱乐化偏失主要表现为以下几个方面:一是娱乐新闻、明星八卦等非严肃话题占据榜单主流,导致社会热点、时事新闻等重要信息被掩盖;二是热搜榜的排名往往受到商业利益的影响,一些热门话题的炒作和炒作行为导致信息失真;三是热搜榜的多元化程度不足,缺乏对不同领域、不同层次的关注和报道。
三、微博热搜榜泛娱乐化偏失的原因1. 市场需求:微博作为社交媒体平台,其核心用户群体以年轻人为主,他们对娱乐、明星等话题的关注度较高,市场需求使得热搜榜更倾向于娱乐类话题。
2. 商业利益:一些热门话题的炒作和炒作行为可以带来商业利益,如广告收入、品牌合作等,这使得一些商业机构和媒体更愿意在热搜榜上投放娱乐类话题。
3. 算法推荐:微博的热搜榜算法在一定程度上会推荐热门话题,但算法本身存在一定局限性,容易受到人为干预和商业利益的影响,导致泛娱乐化偏失。
四、微博热搜榜泛娱乐化偏失的影响1. 信息失衡:泛娱乐化偏失导致社会热点、时事新闻等重要信息被掩盖,使得公众获取的信息失衡,影响对社会的认知和判断。
2. 价值观扭曲:过度关注娱乐类话题容易使公众的价值观扭曲,忽视社会责任感和公共利益。
3. 媒体形象受损:泛娱乐化偏失也会影响微博等社交媒体平台的形象和公信力,降低其在公众心中的信任度。
五、解决对策1. 加强监管:相关部门应加强对微博等社交媒体平台的监管,规范热搜榜的运营和管理,防止人为干预和商业利益的影响。
2. 引导舆论:媒体和舆论应引导公众关注更多元化的话题,关注社会热点、时事新闻等重要信息,避免过度关注娱乐类话题。
基金项目:本文系四川省教育厅网络文化研究中心“最新中日网络流行语的比较研究”阶段性成果,项目编号为WLWH16-39。
作者简介:梁晨,实验师,乐山师范学院党委宣传部融媒体中心,研究方向为新闻传播学。
刘紫英,副教授,乐山师范学院外国语学院,研究方向为对外传播。
基于百度指数和谷歌趋势分析日源流行语传播特征梁 晨,刘紫英摘 要 网络流行语从时间和空间上来看会表现出一定的演变规律。
百度指数和谷歌趋势是互联网平台对网络热度和舆情分析的工具,运用两种工具对网络流行语进行分析,直观地显示同一热词在我国和他国传播趋势。
近年来,我国的网络流行语中有部分源自日本,梳理这部分网络流行语,并以此为研究对象,运用百度指数和谷歌趋势分别对同一个网络流行语在中国和日本的热度进行分析,运用比较研究的方法可以较为准确地判别流行语的关注热度变化趋势。
关键词 日源词;百度指数;谷歌趋势;网络流行语中图分类号 G2 文献标识码 A 文章编号 1674-6708(2021)282-0122-04以青年群体为主体的互联网,每天都在产生大量的新词,其中有一部分新词来源于日本的动漫游戏产业。
如2020年的网络流行语“凡尔赛文学”来自日本少女漫画《凡尔赛玫瑰》。
在国内,已经有学者对日源网络流行语进行了梳理,唐怡、宋娜、赵康英等人整理了2008年至2018年《咬文嚼字》中的日源流行语[1]。
也有学者对一些特别的日源网络流行语做了个案分析,如周冬梅在传播学视角下探析了日源网络流行语“逆袭”的流行[2]。
张小平、宋丙秀等人同样以“逆袭”为个案,对网络流行语模因性语义做了传播分析[3]。
吴娅妮从跨文化角度解读了新媒体中的网络流行语现象[4]。
上述研究有的是理论上的新角度,有的是个案上的新特征,但在研究方法上都比较传统。
2006年,李山、邱荣旭、陈玲介绍了一种新的研究方法:基于百度指数的实证数据分析[5]。
王昊借鉴了这种方法对2010年至2012年的热词做了关注度分析[6]。
收稿日期:2012-12-13修回日期:2013-01-29基金项目:国家社会科学基金项目“突发事件网络舆情演化的动态监测预警模式研究”(编号:12BTQ055);宁波大学预研项目“突发事件的网络舆情监控预警模式研究”(编号:XYY1001)资助。
作者简介:陈涛(1973-),男,博士研究生,系主任,副教授,研究方向:网络舆情、数据挖掘;林杰(1967-),男,教授,博士生导师,研究方向:管理信息系统、数据挖掘。
基于搜索引擎关注度的网络舆情时空演化比较分析*———以谷歌趋势和百度指数比较为例陈涛1,2林杰1(1.同济大学经济与管理学院上海200092;2.宁波大学信息管理系宁波315211)摘要突发事件网络舆情热度在时间和空间上会呈现一定的演变规律,文中利用搜索引擎的关注度指标对网络舆情热度时空演变的情况进行了研究,并以“小悦悦事件”“郭美美事件”和“药家鑫事件”作为案例,比较了谷歌趋势和百度指数在关注度的时间和空间维度的变化特点。
结论表明搜索引擎关注度指标比较有效地反映突发事件网络舆情的变化情况。
关键词搜索引擎关注度网络舆情谷歌百度中图分类号TP319.3G350文献标识码A文章编号1002-1965(2013)03-0007-04Comparative Analysis of Temporal -Spatial Evolution of Online Public OpinionBased on Search Engine Attention ———Cases of Google Trends and Baidu IndexChen Tao 1,2Lin Jie 1(1.School of Economics and Management ,Tongji University ,Shanghai 200092;2.Department of Information Management ,Ningbo University ,Ningbo315211)AbstractThere are regular changes both in space and in time for the hotspots of online public opinion about emergencies.Through apply-ing attention indicator on the cases of events of "little Yue -yue","Guo Mei -mei"and "Yao Jia -xin",this paper analyzed the evolu-tion of online public opinion and discussed the difference of the changes and characteristics between Google Trends and Baidu Index.The conclusion shows that the attention indicators of search engines can effectively reflect the changes of online public opinion.Key wordssearch engineattentiononline public opinionGoogleBaidu0引言近年来,突发事件发生的频率、产生的影响、造成的损失都越来越大,应急管理及其相关研究变得十分紧迫。
互联网的普及和多种网络媒体的产生使网络媒体成为突发事件信息传播的重要渠道,形成了人们对于该事件的所有认知、态度、情感和行为倾向的集合,即网络舆情[1]。
突发事件发生有其随机性的显著特点,并在网络中激发广大网民的集中关注。
随着Web2.0的发展和普及,人们通过网络发表自己的观点见解的途径越来越多,突发事件被广大网民关注并形成广泛热议的深度和广度越来越便捷,网络舆情的热度演化在时间和空间两个维度上的监控尤为重要。
根据2012年7月艾瑞公司的统计数据,在目前中国的互联网搜索市场上,谷歌和百度共占据了95.6%的中文搜索流量。
2012年第二季度中国搜索引擎市场规模68.7亿元,环比增长25.2%,同比增长55.0%[2]。
搜索引擎已经成为人们日常生活必不可少的第32卷第3期2013年3月情报杂志JOURNAL OF INTELLIGENCEVol.32No.3Mar.2013工具(像:国际上使用最广泛的搜索引擎有Google、Yahoo等,在国内有百度、搜狗等搜索引擎),搜索引擎在知识获取、科技查新、网络营销、博客搜索、地图检索等各方面有了比较深入的应用[3-7]。
搜索引擎用户关注度是以数千万网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在搜索引擎中搜索频次的加权和,并以曲线图的形式展现。
目前典型的搜索引擎如谷歌和百度均对用户搜索量进行了分析,并提供了相关关键词的热度比较分析。
突发事件爆发以后,网民为了了解该突发事件的相关的新闻报道,往往会通过门户网站或者搜索引擎了解该事件的相关新闻报道,这种主动的搜索行为体现出了突发事件的被关注情况。
网络舆情中的舆情事件名称往往成为了搜索引擎的热点关键词,从舆情的热度分析角度考虑,如果用户通过搜索引擎进行查询的次数越多,说明该舆情事件被网民的关注度越高,从而该事件的热度就越高。
1搜索引擎关注度1.1谷歌趋势谷歌趋势(Google Trends)是谷歌开发的一款分析用户在谷歌中搜索过的关键词并展示该关键词的关注度的服务。
分析的结果会在地图上显示出对于关键词的地区关注度差异[8]。
谷歌趋势中的搜索量指数(Search Volume In-dex,SVI)体现了在一定区域内和一定时间段中针对某关键词T i实际搜索数与平均搜索量之间的比例关系[9],即SVI T itimepreriod =V T inow/EV zone jtimepreriod(1)其中V T i now表示当前针对关键词T i的搜索引擎搜索数量,EV zone jtimepreriod表示在考察搜索量的一定区域和一定时间段中所有关键词的平均搜索数量,该值越大,说明该关键词T i的被关注度越高。
搜索量指数(SVI)采用相应区域的总流量对数据进行了标准化处理,搜索量指数表明了针对某关键词对比当期平均搜索数量的相对上升和下降比例。
同时,当使用者改变了搜索数据的统计时间跨度将看到SVI 序列的变化情况。
例如,如果某一关键词T i当前的真实搜索数为1000,而所有关键词2012年平均搜索数是800,则SVI T i2012=1000/800=1.25;同理,若在2004-2012年所有关键词的平均搜索数降低到500,则T T i2004-2012=1000/500=2。
利用搜索量指数谷歌趋势可以对多个不同的关键词的搜索行为进行比较,也可以针对一个关键词在不同的地区和时间上的搜索行为进行比较;还提供一些关键词未来的搜索趋势预测。
同时还提供一项新功能,向用户提供关键词搜索分析的HT-ML代码,这样用户就可以在自己的Web页面中嵌入关键词的搜索分析结果。
谷歌趋势可以利用关键词搜索量指数应用于电子商务领域的热门商品统计与预测。
搜索量指数相对地反应了网民对某一关键词的关注程度,本文将利用搜索量指数变化规律探讨热点突发事件的时空演变规律及特点。
1.2百度指数百度指数与谷歌趋势相类似,2006年正式推出百度指数的数据分析功能模块,百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度。
它能形象地反映该关键词每天的变化趋势。
百度指数是以百度网页搜索和百度新闻搜索为基础的免费海量数据分析服务,用以反映不同关键词在过去一段时间里的“用户关注度”和“媒体关注度”。
通过百度指数可以发现、共享和挖掘互联网上最有价值的信息和资讯,直接、客观地反映社会热点、网民的兴趣和需求。
百度指数每天更新一次,并且提供自2006年6月至今任意时间段的用户关注度数据[10]。
同时,根据不同的关键词,机器自动从百度新闻搜索中获取与该关键词最相关的10条热门新闻,并将新闻按时间顺序均匀分布在“用户关注度”的曲线图上,以字母标识,每个字母对应一条新闻。
百度指数是综合反映该关键词在过去1天用户对它的关注和媒体对他的关注的一个参考值。
任意关键词的百度指数都是该关键词在比较期的数值/该关键词在基期的数值。
比较期的数值和基期的数值是通过当天的用户搜索量和百度新闻中过去30天相关的新闻数量相比得来的。
百度指数信息服务出现滞后于谷歌趋势。
但同样体现了某一关键词在特定时间段中被用户和媒体关注的强度。
2突发事件网络舆情的搜索引擎时空热度案例比较分析网络舆情热度的涵义是,当突发事件发生后,网络媒体和网民对事件的报道、讨论以及政府或者网络监管部门提供的引导机制在网络上所形成的突发事件舆情高涨程度[11]。
网络舆情的热度不仅仅体现在时间维度,同时还体现在不同地域网民对突发事件的关注强度。
2.1案例比较分析根据谷歌趋势、百度指数的定义和计算方法。
突发事件的发生发展过程中网民对该事件的关注程度可以通过搜索引擎查询数体现出来。
尤其是涉及到社会热点和话题的突发事件的谷歌搜索量指数以及百度指数都应能清晰地体现出来。
网络舆·8·情报杂志第32卷情往往与网民社会生活中相关的法律、道德、自然灾害、战争等方面事件较为紧密,尤其是涉及到法律、道德等方面的信息在网络上传播和发酵的广度和深度更为明显。
本文搜集了几个最典型的突发事件包括小悦悦事件、药家鑫事件以及郭美美事件。
之所以以上述三个典型的突发事件作为分析案例,这三个事件比较突出地体现了网民对相关事件的道德良知和法律规范认识,其时空热度变化比较显著。
为了有效地对三事件类别进行分类,对实验数据进行了预处理,首先利用网络爬虫从新浪网三事件网络新闻网民评论中抓取相关评论,然后利用停用词表过滤掉停用词,进而获取了网民评论中的类别高频实词(词频大于50),从获取的词语(包裹名词、形容词和动词等实词)语义特征可以观察到,三事件网民评论中的类别特征词如表1所示。
表1三突发事件网民评论中的高频类别特征词法律类别道德类别小悦悦事件(4076条网友评论)罪恶、判刑、赔偿、法律、交通事故、法院、公正、判决道德、良知、美德、冷淡、报应、素质、无视、义务、良心、反思、人性、向善、善良、灵魂、谴责、宽容、文明、舆论、相信、泯灭、报应、责任、忏悔、指责、见死不救、冷漠、冷淡、教育、缺德药家鑫事件(2985条网友评论)法律、法治、法制、公平、公正、正义、自首、赔偿、死刑、剥夺、威严、违法、判决、犯法、案件、诉讼、处死、律师、法院、罪孽、剥夺、枪毙、司法、制度、罪恶、违法、执行、赔偿、十恶不赦、罪有应得、宽大、杀人偿命良知、教训、宽容、道德、人性、败类、冷血、沦丧、价值观郭美美事件(6856条网友评论)严惩、法制、法治、检察院、侦查、替罪羊、真相、贪官、罪名、公安机关、立案、贪污、腐败、法律、罪行、立法、合法、司法、贪腐、判刑、判决、严惩、法规、公正、受害人、追究、追查、黑幕、内幕慈善、捐款、谎言、信任、相信、慎重、质疑、炒作、爱心、常理、无耻、鄙视、爱心、缺德、炫富、炫耀、恶心、脑残、黑暗、恶毒、解释、狡辩、善款、廉耻、质疑、怀疑、荒唐、龌龊、约束从表1的数据观察到,根据已经构建的语义词典[12],小悦悦事件中18名路人路过但都视而不见,漠然而去引起了广泛的社会道德热评,抽取的高频实词以道德类别为主;药家鑫事件则体现了广大网民对法律法规的认识,抽取的高频实词以法律类别为主;而郭美美事件则介于道德和法律之间。