基于PageRank的微博用户影响力评估模型研究
- 格式:pdf
- 大小:5.86 MB
- 文档页数:4
Research on User 's Influence in MicrobloggingZhang Xun (Computer Science and Technology)Directed by Liu ZhaohuiAbstract:Socialnetworkingis a multi-functional platform for information exchange, multimedia, and e-commerce. Each user in the social network has the responsibility of sharing and collecting information. Because of the different position of each user in the social network, the influence of information transmission is also different.Microblogging is a typical representative of today's social network, Based on microblogging, the main research work in this paper is as follows:A model of influence evaluation based on user behavior and user information content is proposed.In this model, the measurement of user behavior mainly consists of two parts, that is, the communication frequency between users and the importance of users.The communication frequency between users reflects the users’ will of exchanging information will, is the foundation of information sharing.The importanceof users is composed of two parts,one part is the tightness, it shows the magnitude of the interaction force between users, the other one is betweenness,it indicates the users’ capability of providing the shortest possible routing for another users, the two parts reflect the connectivity of user nodes in the social network.At the same time, the user informationIIIcontent is included in the evaluation model of user influence,the user influence ultimately depends on the degree of communication between users,the greater the flow of information, the greater the impact the user has on the entire micro-blog network structure.The method used in this paper is compared with the PageRank algorithm,UIA algorithm based on PageRank algorithm and user behavior.The PageRank is a classical method to calculate the users’influence,and the UIA algorithm is one of the mature methods to evaluate the user's influencenow. It is proved by experiments that the applicability of the proposed method in this paper.In addition, because the method is simple to operate, it can reduce the operation time and storage cost.Keywords:s ocial network microblogginguser influenceIV目录摘要 (I)Abstract (III)目 录 (V)第1章绪论 (1)1.1研究背景及意义 (1)1.2国内外研究现状 (2)1.2.1 用户影响力研究现状 (5)1.3本文的主要工作 (6)1.4本文组织结构 (7)第2章 相关理论基础 (9)2.1理论基础 (9)2.1.1六度分隔理论 (9)2.1.2 150法则 (11)2.2社交网络的发展 (11)2.3社交网络的组成元素 (13)2.4社交网络的特点 (14)2.5微博社交网络的拓扑结构 (16)2.5.1 图的概述 (16)第3章 用户影响力模型构建 (19)3.1用户行为影响力计算 (19)V3.1.1 信任度问题 (19)3.1.2用户通信频率 (20)3.1.2 用户重要度 (22)3.2用户信息内容 (24)3.2.1相似性产生的信任度 (24)3.3模型构建 (26)第4章 实验及分析 (27)4.1数据获取与计算 (27)4.2实验对比及分析 (34)第5章 总结与展望 (37)5.1本论文的主要工作 (37)5.2进一步的研究工作 (38)参考文献 (41)作者攻读学位期间的科研成果 (47)致 谢 (49)VI第1章绪论1.1 研究背景及意义信息时代的到来给人们的日常生活和生产带来了极大的便利,网络已经无处不在,网民数量也正在大规模增长,有关资料显示[1],2016年我国的网民数量为7.32亿,较2015的增长6.2%。
基于微博影响力的评价模型摘要本文研究的是微博用户和微博的影响力,以及最大好友圈和消息最佳发布问题。
对于问题一,首先,我们查阅相关文献,基于已给数据将用户粉丝数量,用户和粉丝的活跃度,粉丝的专注度作为我们评价微博用户影响力的指标。
根据这些指标,我们对题目所给表格中的数据进行统计,将得到的结果作为各个用户在各指标下得到的分数。
然后,我们建立了熵权模型,将这些数据进行标准化处理,对各个指标的权重进行了计算,分别得到了在不同人数的微博环境下各指标在评价用户影响力时所占权重。
最后,将各指标下分数与权重相乘,再将各个用户的所有指标分数求和得到最终用户影响力评分。
将其排序筛选后,得到影响力最大的十个大V编号。
对于问题二,首先,在问题一所建立模型的基础上,我们确立了将微博被转发次数和转发人的影响力作为我们评价微博影响力的指标。
然后,我们统计了各条微博在各指标下的数据。
其次,我们利用熵权模型将数据标准化处理,并求出了这两个指标在评价微博影响力时所占权重。
最后,我们将各微博各指标下分数与权重相乘,并将所有指标分数求和得到最终微博影响力评分。
将其排序筛选后,得到影响力最大的十条微博消息。
对于问题三,首先,我们根据题目对于好友圈的定义,将M={(i,j)}定义为关注情况矩阵,即第j用户关注第i用户的情况。
进而将多人相互关注的关系用函数关系式表达出来,将所有符合条件的用户编号写入矩阵E中。
然后,先通过对符合两两关注情况的用户进行筛选,再从筛选好的用户中逐步添加用户,判断是否为三人相互关注,四人相互关注,直至好友圈内不能再添加人为止。
此时的好友圈为最大好友圈。
最后,我们通过循环算法实现上述过程,得到了2000人微博环境下10人为最大好友圈,10000人微博环境下13人为最大好友圈,并求出了好友圈中所有用户的编号。
对于问题四,我们将其转化为优化问题,建立了0-1规划模型处理。
首先,将用户发布消息与微博用户之间相互关注的情形转化为0-1矩阵(0表示用户未发布消息或表示微博用户之间未相互关注,1则反之),分别表示为x和A。
基于微博数据的社会影响力分析的开题报告一、研究背景及意义当前数字化时代,互联网平台上的数据呈现出膨胀式增长的趋势。
针对这种趋势,如何通过数据挖掘及分析技术快速准确地识别信息传播、社会影响力等方面的重要信息成为了学术和工业界关注的热点问题。
微博作为中国最大的社交媒体平台之一,其庞大的用户数量、持续不断的信息流以及广泛的主题范围,使得微博数据成为批量获取和分析社会影响力的重要来源。
通过对微博数据的分析,可以深入了解社会热点事件的传播规律和影响力范围,发现刻画社会现象的关键特征,是进行社会调查、政策制定、民意监控等方面的重要依据。
此外,对于广告商和市场调查人员而言,分析微博数据也有着重要的商业利用价值。
因此,基于微博数据的社会影响力分析具有重要的理论价值和实际应用价值。
二、研究目标与内容本文的研究目标是对微博数据进行深入分析,探索微博在社会影响力方面的表现和影响规律。
具体来说,将从以下两个方面展开研究:(1)微博传播模型针对微博数据的信息传播规律,结合深度学习等技术,构建微博传播模型,深入分析微博信息的传播和热度变化规律,发现影响微博信息传播和社会影响力的关键因素。
(2)微博用户影响力评估通过对微博用户的行为数据进行分析,包括用户的关注、粉丝、点赞、转发等信息,综合评估用户的影响力。
根据不同的分析方法和模型,从多方面评估微博用户的社会影响力,挖掘出社会影响力巨大的“草根”网络红人。
三、研究方法与技术本文将采用数据挖掘和分析技术,包括:(1)文本预处理对微博数据进行数据清洗和文本预处理,包括去重、分词、去停用词、情感分析等。
(2)传播模型构建基于微博传播的特点和规律,采用深度学习和传统的传播模型,比如SIR,SI等,建立微博传播模型,并进行实验模拟和预测。
(3)用户影响力评估根据不同的指标和评价标准,如Pagerank、Klout、社交影响指数等,评估微博用户的影响力。
四、研究预期成果本文预计通过对微博数据进行深入分析,挖掘出微博信息传播和社会影响力的内在规律,形成以下预期成果:(1)基于微博传播模型分析微博信息的传播规律和影响力变化规律。
基于社会评级的微博动态影响力指数构建作者:姜伟伟,顾程来源:《新媒体研究》 2017年第11期摘要当前对社交媒体的研究集中于关注微博、微信的用户使用行为分析,缺乏对微博尤其是微博信息实时影响力的动态性研究。
本研究以页面评级(Page Rank)算法为基础,提出改进的社会评级(Social Rank)算法,结合用户微博使用行为分析得出的权重值,并将时间因素纳入微博动态影响力评估模型之中。
通过具体实例探讨了微博动态影响力指数构建的重要性和实用性。
研究认为社交媒体中大量数据的深度分析与挖掘可以更好地帮助市场营销以及舆情监管部门及时掌握信息的发展动态,从而更有效地推进品牌传播和干预舆论信息的走向。
关键词新媒体;微博;信息传播;动态影响力中图分类号 G2 文献标识码 A 文章编号 2096-0360(2017)11-0045-02随着互联网技术的不断发展,许多社交平台也从最初的萌芽逐渐发展成熟,人与人之间的空间距离得以进一步拉近。
特别是微博、微信等社交工具的出现,也更进一步地推动了互联网的发展,人们可以借助微博、微信,以及一些移动客户端随时进行信息的浏览、关注与分享。
大量的信息浏览、关注与分享也产生了大量的数据,数据尤其是实时数据的深度分析挖掘可以帮助舆情监管部门及时发现影响力最强的信息,从而有针对性地对其可能产生的负面影响及时进行干预,避免负面信息更大范围传播所带来的负面影响。
互联网信息的影响力主要通过信息排序获取,排序越靠前的信息人们对它的关注程度越高,影响力也就越大。
本研究认为新的微博影响力评估方法应强调信息辨识的问题,并考虑怎样解决时间因素对于信息影响力衰减的影响,进而实现一个兼顾全面性、及时性和真实性的实时互联网信息列表构建。
基于以上分析,本研究以微博信息为研究对象,结合以往有关网页排序的Page Rank 算法,在此基础上提出了Social Rank 的计算方法,得到相应微博用户的权重信息,并将时间因素纳入到信息影响力排名计算之中,构建了更为合理的微博动态影响力指数。
PageRank算法在社交网络用户影响力分析应用社交网络已经成为人们交流、分享信息和建立人际关系的重要平台。
在这个数字时代,社交网络中的用户影响力分析对于企业、个人和学术研究都具有重要意义。
而PageRank算法作为一种经典的网络分析算法,被广泛应用于社交网络用户影响力分析中。
一、PageRank算法简介PageRank算法是由谷歌创始人拉里·佩奇和谢尔盖·布林共同提出的一种网络分析算法。
它主要通过计算网页之间的链接关系来评估一个网页的重要性。
在社交网络用户影响力分析中,我们可以把用户看作是网页,用户之间的关注关系则相当于网页之间的链接关系。
二、PageRank算法在社交网络用户影响力分析中的应用1. 基于用户关注关系的影响力分析社交网络中的用户可以通过关注其他用户来表达对其的兴趣和尊重。
PageRank算法可以通过计算用户关注关系的权重,来评估每个用户的影响力。
具有较高PageRank值的用户往往意味着他们在社交网络中具有更大的影响力,他们的行为更容易引起其他用户的关注和转发。
2. 个人影响力的评估和排名社交网络平台和企业往往希望能够找到具有较大影响力的用户,与之合作或者进行广告推广。
PageRank算法可以帮助平台和企业对用户进行影响力的评估和排名。
通过分析用户的关注关系和行为,算法可以为每个用户计算出一个影响力得分,并根据得分对用户进行排序,便于平台和企业进行选择。
3. 预测用户在社交网络中的传播能力社交网络中的信息传播是用户影响力的重要体现。
PageRank算法可以根据用户的关注关系和信息传播路径,预测用户在社交网络中的传播能力。
具有较大传播能力的用户可以被认为是具有较高影响力的用户,他们的转发行为往往能够带动更多的用户参与和关注。
4. 社群发现与影响力分析的结合社交网络中的用户往往会形成不同的兴趣社群。
PageRank算法可以结合社群发现算法,对不同社群内的用户进行影响力分析。
收稿日期:2018 10 24;修回日期:2018 12 17 基金项目:国家教育部人文社会科学研究规划基金资助项目(18YJAZH087) 作者简介:罗芳(1977 ),女,湖北天门人,副教授,硕导,博士,主要研究方向为数据挖掘、自然语言处理(luof@whut.edu.cn);徐阳(1994 ),男,硕士,主要研究方向为社会计算、数据挖掘;蒲秋梅(1976 ),女,讲师,硕导,博士,主要研究方向为智能系统、社会计算;邱奇志(1969 ),女,副教授,硕导,博士,主要研究方向为智能计算、自然语言处理.基于PageRank的多维度微博用户影响力度量罗 芳1,徐 阳1,蒲秋梅2,邱奇志1(1.武汉理工大学计算机科学与技术学院,武汉430063;2.中央民族大学信息工程学院,北京100081)摘 要:以新浪微博为研究对象,提出一种适用性更广、考虑因素更全面的微博用户影响力度量算法,将用户基本属性、用户交互行为和用户博文内容三个维度因素融入传统PageRank算法中,提出了一种多维度微博用户影响力度量算法MDIR。
实验结果表明,MDIR算法相较于其他常用的五种影响力度量算法,能更加全面、真实地反映微博用户的实际影响力。
关键词:微博;用户影响力;PageRank;用户行为中图分类号:TP391 文献标志码:A 文章编号:1001 3695(2020)05 014 1354 05doi:10.19734/j.issn.1001 3695.2018.10.0798Multi dimensionalmeasureofmicrobloguserinfluencebasedonPageRankLuoFang1,XuYang1,PuQiumei2,QiuQizhi1(1.SchoolofComputerScience&Technology,WuhanUniversityofTechnology,Wuhan430063,China;2.SchoolofInformationEngineering,MinzuUniversityofChina,Beijing100081,China)Abstract:Thispaperintegratedthebasicattributesofuser,interactionbehaviorofuseranduser’smicroblogcontentintothePageRankalgorithm,andproposedamulti dimensionaluserinfluencemeasurementalgorithm,calledMDIR(multi dimensioninfluencerank).TheexperimentshowsthattheMDIRalgorithmcanreflecttheactualinfluenceofmicroblogusersmorecom prehensivelyandrealisticallythanotherfivecommonlyusedinfluencemeasurementalgorithms.Keywords:microblog;userinfluence;PageRank;userbehavior 随着互联网技术的迅速发展,以博客技术为代表,围绕用户互动与个性体验的互联网应用技术进一步推动了以开放、共享为特征的Web2.0时代向具有信息融合特征的Web3.0时代过渡。
社会网络中的影响力分析算法研究一、绪论随着互联网的普及和社交媒体的发展,社会网络中的用户数量不断增加,同时个人在网络上的影响力也成为了一个重要的话题。
社交网络中的影响力分析算法可以帮助我们更好地理解社会网络中的个体与网络之间的关系,同时也可以帮助企业或政府更好地进行社交媒体营销、舆情监测等应用。
二、社会网络中的关系模型社会网络中的关系可以用图论的模型来表示。
在社交网络中,每个用户可以看作是一个节点,同时用户之间的关系可以看作是图中的边。
不同的社交媒体平台使用的关系模型不同,例如Twitter中的关注、粉丝关系,Facebook中的好友关系等。
三、社会网络中的影响力分析算法在社会网络中,影响力可以根据不同的定义方式分为多种类型,例如节点影响力、边影响力等。
下面介绍几种比较常见的影响力分析算法。
1、PageRank算法PageRank算法最初是用来评估网页重要性的算法,但是它同样适用于社交媒体中用户的影响力评估。
该算法通过迭代的方式计算每个节点的PageRank值,其中每个节点的值等于该节点所有入度节点的PageRank值之和。
在社交媒体中,PageRank值较高的用户通常会有更广泛的影响力。
2、HITS算法HITS算法也是用来评估网页重要性的算法,但它不同于PageRank算法的是,它所考虑的是一些重要的网页被其他重要的网页所指向的情况。
同样,该算法同样适用于社交媒体中用户的影响力评估。
该算法通过迭代的方式计算每个节点的h值和a值。
其中h值表示该节点向外指向的节点的权值总和,a值表示指向该节点的节点的权值总和。
在社交媒体中,h值和a值都较高的用户通常会有更广泛的影响力。
3、Closeness Centrality算法Closeness Centrality算法用来评估每个节点到其他节点的距离,也就是评估该节点在信息传递时所需的初始时间。
在社交媒体中,Closeness Centrality值较高的用户通常能够更快地将信息传播到其他用户之间。
微博用户推荐模型的研究徐雅斌;石伟杰【摘要】Micro-blog user recommendation has great significance and value for improving the user experience and promoting the long-term development of the social network. In this paper, multiple features reflecting the correlation between micro-blog users are extracted. Combining the user features and ranks scores for potential users, top-n potential users are recommended for the target user. The experimental results based on the dataset gained from Sina Micro-Blog shows that the proposed method is feasible and effective, and it can provide personalized user recommendation with high performance for micro-blog users.%微博用户推荐对改善用户体验、促进社交网络长远发展具有重要意义。
该文提取了能够充分反映微博用户之间相关性的多个特征,并通过逻辑回归模型对潜在的用户进行评分排序,为目标用户推荐前N个潜在用户。
基于新浪微博数据集的实验结果表明,基于逻辑回归方法的用户推荐模型是切实有效的,可以为微博用户提供高性能的个性化用户推荐。
【期刊名称】《电子科技大学学报》【年(卷),期】2015(000)002【总页数】6页(P254-259)【关键词】逻辑回归;微博;个性化推荐;用户推荐【作者】徐雅斌;石伟杰【作者单位】北京信息科技大学计算机学院北京朝阳区 100101;北京信息科技大学网络文化与数字传播北京市重点实验室北京朝阳区 100101【正文语种】中文【中图分类】TP301微博作为社交网络的一种表现形式,是新一代社交、实时网络服务的典范,以其新颖的表现形式、独特的运营方式,快速吸引了大量的用户。
基于PageRank改进算法的微博影响力排名王东升【期刊名称】《现代计算机(专业版)》【年(卷),期】2015(000)019【摘要】针对微博用户影响力排名问题,对微博用户影响力关联要素进行分析,将粉丝与关注者的互动行为纳入到影响力评定方法之中,提出一种基于PageRank 的微博用户影响力排名算法(UI-Rank算法)。
实验表明算法的计算结果反映微博用户自身影响力的实际效果,能够提高微博用户影响力排名的准确度。
%Accordance with user influence ranking issue of micro-blog, related factors consists in user influence of micro-blog have get analysis. In-teractive behaviors between fans and followers are integrated into method of influence evaluation, presents the user influence ranking algo-rithm (UI-rank) of micro-blog based on PageRank. Experiment shows that computing result of the algorithm is quite consistent with actual effect of user themselves influence and it can improve accuracy of user influence ranking of micro-blog.【总页数】4页(P27-29,35)【作者】王东升【作者单位】上海海事大学信息工程学院,上海 201306【正文语种】中文【相关文献】1.基于改进PageRank算法的微博影响力模型研究 [J], 毕秋敏;李世辉;曾志勇2.基于PageRank的微博用户影响力算法研究 [J], 孙红;左腾3.PageRank模型的改进及微博用户影响力挖掘算法 [J], 毛国君;谢松燕;胡殿军4.基于PageRank的微博排名MapReduce算法研究 [J], 舒琰;向阳;张骐;张熊熊;张君瑛5.基于改进 PageRank算法的微博用户影响力排序研究 [J], 丁温雪;徐家兴;朱颢东因版权原因,仅展示原文概要,查看原文内容请购买。
基于PageRank的用户影响力评价改进算法王顶;徐军;段存玉;吴玥瑶;孙静【期刊名称】《哈尔滨工业大学学报》【年(卷),期】2018(050)005【摘要】为了解决传统微博用户影响力评价算法全面性和客观性差的问题,通过对微博用户影响力的定义和影响因素进行分析,鉴于微博社区网络与web页面网络的拓扑结构有着天然相似性的特点,提出了一种基于PageRank的用户影响力评价改进算法(Self and Followers User Influence Rank)SF-UIR.运用用户追随者数、用户是否认证、用户微博的传播能力三个指标对用户自身影响因素进行了量化,改善了PageRank值对用户影响力评价客观性差的问题.采用权重因子将追随者对其所关注用户的影响力贡献值进行科学的量化分配,解决了追随者影响力等值传递的弊端.与四类主流算法的对比实验结果表明:SF-UIR算法同时考虑了基于用户行为的自身影响因素和基于拓扑结构的追随者影响因素,能够有效地解决追随者数量排名算法中的"僵尸粉"干扰问题,能比平均转发数算法更真实地反映用户的影响力高低,能有效规避K-覆盖度算法中未考虑微博用户自身行为特征和将所有的追随者都一视同仁的严重缺陷,能极大地改进PageRank算法单纯依赖追随者数量和追随者质量的不足,从而能够更加全面、更加客观地反映微博用户的影响力.%To solve the less comprehensive and objective problem of the traditional microblog user influence evaluation algorithms,through the analysis of the definition and influencing factors of microblog user influence,this paper proposes an improved user influence ranking algorithm based on PageRank algorithm, named as Self and Followers User Influence Rank(SF-UIR). The user's ownfactors are quantified by using the three indicators,the number of followers,the situation of certification,and the microblog dissemination ability,and the poor objectivity situation of PageRank values for user influence ranking is improved. The disadvantage of influence equivalent transfer of the followers' influence is overcame by adopting weighting factor to distribute the influence contribution value of different followers scientifically and quantitatively. Compared with the four mainstream algorithms, the results show that the proposed algorithm is more comprehensive, more objective, and can reflect the influence of microblog users better because of considering the influencing factors based on the user's behavior and followers factors based on the topology,which can effectively solve the interference problem of"zombie fan"in a number of followers ranking algorithm. It can reflect the user's influence level more realistically than average forwarding number algorithm, and can availably avoid the serious defects of not taking the microblog user's behavior into account and giving equal treatment to all followers in K- coverage algorithm. The proposed algorithm can greatly improve the shortage of relying solely on the quantity and quality of followers in PageRank algorithm.【总页数】8页(P60-67)【作者】王顶;徐军;段存玉;吴玥瑶;孙静【作者单位】西北工业大学电子信息学院,西安710100;西北工业大学电子信息学院,西安710100;西北工业大学电子信息学院,西安710100;西北工业大学电子信息学院,西安710100;西北工业大学电子信息学院,西安710100【正文语种】中文【中图分类】TP393.092【相关文献】1.微博环境下基于用户行为与主题相似度的改进PageRank算法 [J], 朱颢东;丁温雪;杨立志;冯嘉美2.基于用户行为的改进PageRank影响力算法 [J], 王鹏;汪振;李松江;赵建平3.基于用户行为与页面分析的改进PageRank算法 [J], 王旭阳;任国盛4.基于用户兴趣与主题相关的PageRank算法改进研究 [J], 王冲;纪仙慧5.基于改进 PageRank算法的微博用户影响力排序研究 [J], 丁温雪;徐家兴;朱颢东因版权原因,仅展示原文概要,查看原文内容请购买。
一种新的微博社区用户影响力评估算法刘玲;杨长春【摘要】In recent years, Microblog users made contributions to the dissemination of information by virtue of its own influence in the microblog community, especially active users could spread information widely.In order to improve the accuracy of measuring the influence of users in microblog community, an improved influence algorithm based on traditional PageRank algorithm and user interactions (IUIR algorithm) is proposed.This algorithm created the final quality index of users through direct and indirect mass index, combining with the recent user activity to construct user influence assessment formula.Through the experimental analysis on the Sina microblog data collection to compare this proposed algorithm with the traditional PageRank algorithm, the results indicate that the algorithm could reflect the users' influence ranking more accurately.%近年来,微博用户都凭借其自身在社区中的影响力来对信息传播做出贡献,尤其是活跃的大V用户能够引起信息广泛的传播.为了在微博社区中提高用户影响力衡量的准确性,提出了一种基于传统的PageRank算法和用户交互行为的用户影响力改进算法(IUIR算法),此算法通过直接质量指数和间接质量指数来构建微博用户的质量指数,再结合近期用户的活跃度来构造用户影响力评价公式.在新浪微博数据集上进行实验,并与传统的PageRank算法作比较,结果表明,该算法能够更有效地反映微博用户影响力的排名.【期刊名称】《计算机应用与软件》【年(卷),期】2017(034)007【总页数】6页(P212-216,261)【关键词】微博社区;用户影响力;用户质量指数;近期活跃度;PageRank算法【作者】刘玲;杨长春【作者单位】常州大学信息科学与工程学院江苏常州 213164;常州大学信息科学与工程学院江苏常州 213164【正文语种】中文【中图分类】TP391随着Web2.0时代互联网技术的不断发展,微博以其独特的应用传播模式逐渐成为了新的信息互动和传播的社会化媒体,并且在社会网络中产生了巨大的影响力。
微博用户影响力问题的国内研究述评作者:受志敏张晓媛来源:《传播力研究》2019年第12期摘要:在微博迅速发展的新背景下,本文较为全面地梳理了2010-2019年国内专家学者对微博用户影响力的最新研究成果并进行了有效地分析与归纳,进而对微博用户影响力问题在当前阶段的研究不足进行了总结,对其未来发展方向作了展望。
关键词:微博;用户影响力;Page Rank算法;舆论领袖;热点话题识别与追踪近些年,微博已经发展成为一个重要的信息交流与传播平台,微博用户通过关注、评论、点赞和转发等功能来及时准确地传播和扩散消息。
微博是一个基于用户关系而进行信息的分享、传播以及获取的自由开放共享的新型在线交流平台。
总的来说,当前的微博研究主要呈现出以下三大特点:一是用户交互信息数量庞大;二是用户交互信息随时间变化快;三是用户交互信息的质量难以把控。
截止到2019年4月,从中国知网数据库中输入主题“微博用户影响力”可以搜索出2010年至2019年(截止到4月9日)相关文献625篇。
其中,涉及到的文献机构有清华大学、复旦大学、上海交通大学以及四川大学等40余所国内重点大学。
从图1可以看出,自从2010年开始出现微博相关研究成果开始,经历近10年的发展,众多学者对微博及其相关领域进行了广泛深入地研究。
图1中显示2013年到2017年的研究成果较多,但是从2016年开始却呈现出一种下降的趋势。
另一方面,表1中列出了与微博用户影响力研究密切相关的几个研究方向的文献数量。
从表1中的结果也可以看出,用户影响力方面的文献数量达到了108篇,并且关于信息传播和PageRank方面的文献也分别超过了50篇。
同时,从表1中的分类情况也可以分析出当前微博用户影响力的研究兴趣主要集中在影响力分析、信息传播、意见领袖和舆论领袖等方面。
现分别对影响力问题中每一个子问题的研究情况综述如下:一是在微博和用户的影响力研究方面,一些学者从不同的角度对微博以及用户影响力进行了广泛深入的研究。
一种改进的微博用户影响力评价算法
王琛;陈庶樵
【期刊名称】《信息工程大学学报》
【年(卷),期】2013(014)003
【摘要】微博用户的影响力研究是微博社区研究的一个热点.以新浪微博为研究对象,构建了用户活跃度和历史关注度两个评价指标,引入微博传播能力这一因子,提出了一种基于传统的PageRank算法的改进算法(user influence rank)模型,通过实验与传统算法进行对比,验证了该算法的有效性和准确性.
【总页数】5页(P380-384)
【作者】王琛;陈庶樵
【作者单位】信息工程大学国家数字交换系统工程技术研究中心,河南郑州450002;信息工程大学国家数字交换系统工程技术研究中心,河南郑州450002【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于粒子群的微博用户影响力评价算法研究 [J], 江玲;夏婷婷;蒋艺;范琳
2.一种微博用户影响力评价系统的设计与实现 [J], 闫兵
3.一种参数可调的微博用户影响力评价方法 [J], 江和松;陈平华;
4.一种改进的微博用户影响力评估算法 [J], 黄贤英; 阳安志; 刘小洋; 刘广峰
5.一种改进的微博用户影响力分析算法 [J], 李勇
因版权原因,仅展示原文概要,查看原文内容请购买。
基于 PageRank 的微博用户影响力度量
王晓彤
【期刊名称】《广东工业大学学报》
【年(卷),期】2016(033)003
【摘要】在微博社区中具有较高影响力的用户对信息推荐、市场营销、舆情控制等方面都起着重要作用。
针对现有仅考虑网络拓扑结构的影响力研究方法,以微博用户为基础,提出了一种新的微博用户影响力度量模型———UIRank模型。
此模型以用户之间的交互行为作为切入点,根据用户不同行为的权重差异确定用户间UIRank值的分配比例。
实验证明,文中提出的影响力度量方法相比已有的方法更加准确和高效。
【总页数】6页(P49-54)
【作者】王晓彤
【作者单位】广东工业大学计算机学院,广东广州510006
【正文语种】中文
【中图分类】TP393
【相关文献】
1.基于PageRank的微博用户影响力评估模型研究 [J], 谢橙瞬;周莲英
2.基于PageRank和用户行为的微博用户影响力评估 [J], 张俊豪;顾益军;张士豪
3.基于PageRank的微博用户影响力算法研究 [J], 孙红;左腾
4.基于改进 PageRank算法的微博用户影响力排序研究 [J], 丁温雪;徐家兴;朱颢
东
5.基于PageRank的多维度微博用户影响力度量 [J], 罗芳; 徐阳; 蒲秋梅; 邱奇志因版权原因,仅展示原文概要,查看原文内容请购买。
2018年第5满 y他息疼pit文章编号=1009 -2552 (2018)05 -0075 -04 DOI:10.13274/ki.hdzj.2018. 05. 018基于PageRank的微博用户影响力评估模型研究谢橙瞬,周莲英(江苏大学计算机科学与通信工程学院,江苏镇江212000)摘要:为解决PageRank算法对社交网络中的用户进行影响力评估时产生的“主题偏移”和P R值均匀分配问题,文中以新浪微博为例,构建了用户活跃度、人气值、兴趣度和用户价值四个评估指标,将用户的自身属性作为影响力的评定因子和分配因子,从内在和外在两方面综合考虑用户的影响力,基于PageRank算法提出一种对用户影响力进行综合评估的CIRank模型。
在真实微博数据集下,将CIRank模型与传统影响力评估模型结合新浪官方影响力排名进行比较分析,验证其准确性和可行性。
关键词:微博;用户影响力;PageRank;CIRank中图分类号:TP309 文献标识码:AResearch on evaluation model of microblog users5influencebased on PageRankXIE Cheng-shun,ZHOU Lian-ying(School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang 212000, Jiangsu Province,China) Abstract:In order to solve the problem ol“theme deviation”and the average distribution ol PR valuewhen the PageRank algorithm is used to evaluate the influence ol the users in the social network,thispaper constructs lour evaluation indicators as users5activity,popularity,interest and user value based onSina microblog,the users’own attribute is used as the evaluation factor and distribution factor olinfluence and it considers the influence ol users from the external and internal aspects,the CIRank modelis proposed to evaluate the user influence comprehensively based on the PageRank algorithm,and theCIRank model is compared with the traditional influence evaluation model and Sina’s official ranking toverily its accuracy and leasibility in the real microblog data.Keywords:microblog;user influence;PageRank ;CIRank0引百随着新媒体时代的到来,微博作为信息传播和 获取的载体,以其极快的信息传播速度,多元化的交 流方式和平民化的注册门槛,吸引了越来越多用户 的加人。
微博用户的影响力是对用户在微博社交网 络中传播信息能力以及对他人造成影响程度大小的 一种综合衡量,通过发现微博的高影响力用户,把握 信息传播的枢纽,可以为商业营销和舆情监控等方 面的研究提供指导。
本文从两个方面综合考虑微博用户的影响力,基于传统的PageRank算法,提出一种新的微博用户影响力评估模型。
1国内外相关研究微博作为一个用来获取信息的媒体[1],拥有十 分庞大的用户群体,微博的迅速发展与普及也吸引 了众多的学者的目光。
对于微博网络用户的影响力 研究可以归纳为以下三类,第一类是直接用粉丝的 数量来衡量用户的影响力[2],这种方法忽略了微博 中僵尸粉的存在,而且单以粉丝量来评估用户影响收稿日期:2017 -09-13作者简介:谢橙瞬(1992 -),男,在读硕士,研究方向为互联网大数 据分析。
—75—力不具有说服力。
第二类是从用户关系和用户行为 的角度对微博用户影响力进行评估,很多学者利用 PageRank[3]算法中各页面的链人链出情况模拟用 户之间的关系,加以改进并通过计算对用户影响力 进行排序,如Wengjianshu[4]基于PageRank算法思 想提出了 Tw itterR ank算法从而发现影响力大的用 户,陈浩[5]在利用PageRank算法思想的同时引人 了粉丝质量这一概念,在考虑用户连接关系的同时 又避免了微博僵尸粉的干扰,H allbert[6]等着力于研 究用户间的连接关系,通过连接关系的强弱来分配 用户影响力值。
第三类是基于统一资源定位符(URL)追踪的用户影响力评估,每一个互联网文件 中都包含唯一的U R L,其功能是定位互联网的资源[7] ,EytanBakshy[8]等从信息发布的U R L出发,将 信息传播模型与口碑效应原理相结合来计算每一个 用户的影响力值。
2微博用户的影响力评估2.1 PageRank算法PageRank算法由Google两位创始人Larry Page 和Sergey B rin提出,它的设计是基于这样一种思 想:被随机冲浪者访问频繁的网页是重要网页,赋予 其高P R值。
PageRank算法的表达式为:PageRankQpJ= 1 - q + q l g(1)M(P i)[(P.)式中,J P,是待研究的页面,P.是一个链人J P,的页面, M(Pi)是互联网中所有链人待研究页面的链接集 合,i(P.)表示页面P.所有的出链集合,^表示阻尼 系数,一般取值为0.85,表示用户到达某页面后继 续浏览下一页面的概率。
随着研究的深人,我们发现PageRank算法仍存 在一些不足之处:①各页面对其指向的页面分配相 同的P R值,这与现实情况不符合;②PageRank算法 仅通过链人链出来的情况来发现高质量网页,忽略 了网页本身的主题相关性,容易产生“主题偏移”的问题。
对此,本文在利用PageRank算法思想进行微 博用户影响力评估时,将用户的自身属性作为评定 因子和分配因子,避免以上两个问题的发生。
2.2用户影响力评估指标对于微博社交网络,综合网络中用户关系和用 户本身其行为特征,构建了用户活跃度、用户人气 值、用户兴趣度和用户价值4个评估指标。
2.2.1用户活跃度微博用户是微博社交网络的核心,用户在微博 社交网络中表现越活跃,对其粉丝的影响越大。
定 义用户的活跃度为:单位时间内用户更新的微博总 —76 —数和参与评论的次数,计算公式为:R. + C.AC.= 1T1(2)式中,表示用户^/在一段时间内的活跃度,R^是 用户y更新的微博总数,包括其原创或转发其他用 户的微博数,C是用户;参与评论的次数,t为统计 时间。
2.2.2用户人气值在微博社交网络中,有的微博用户的粉丝人数 虽然很多,但是在一段时间内粉丝人数增长缓慢,甚 至出现负增长的情况,就是所谓的“掉粉”,而有的 用户的粉丝数在一段时间内一直保持着高速增长,这代表用户具有很强的“吸粉”能力。
定义用户的 人气值为单位时间内用户粉丝的增长数,计算公 式为:P=(3)式中,P代表用户y的人气值,为一段时间内用 户j粉丝的增长数,T为统计时间。
2.2.3用户兴趣度用户对自己关注的用户越感兴趣,转发和评论 其微博的次数占自身转发和评论总次数的比率越 大,用户兴趣度表示用户对自己所关注的用户的感 兴趣程度,计算公式为:A T(i,j)二紙;,.)(4)式中,a t(,',/)表示用户的,对用户y的兴趣度,M(i,')表示用户i转发和评论用户y微博的总次 数,M为用户i转发和评论其所有关注用户微博的 总次数。
2.2.4用户价值综合用户活跃度和用户人气值这两个评估指 标,定义用户价值这一概念,计算公式为:/,.= aAC t + (1 - a)p(5)式中,纟表示用户y的自身价值,A C为用户y的活跃 度,P为用户j的人气值,a为权重因子,利用层次 分析法取a为0.75。
2.3基于PageRank算法的CIRank模型CIRank模型从外在和内在两方面综合考虑用 户的影响力,将用户的自身价值及其粉丝价值作为 评定因子注人CIRank模型表示用户的外在影响力,将粉丝传播用户信息所产生的影响作为用户的内在 影响力。
CIR ank模型对用户影响力的评估分为三 个步骤,先计算用户的外在影响力值,再计算用户的 内在影响力值,最后通过外在影响力值和内在影响力值求得用户的综合影响力值。
用户外在影响力值 的计算公式为:ER(j)= 0.51』+0.5^(6)式中,狀⑴表示用户i的外在影响力,取值为用户i的自身价值与其粉丝价值的加权和,取权重因子为 0.5,认为两者的重要程度是一样的。
用户内在影响 力值的计算公式为:SR(j)= (1 -q)+q i A T(i,j)SR(i)(7)式中,SR())表示用户)的内在影响力,将用户i对用户i的兴趣度A T(i,y)作为用户i影响力值的分 配因子,并加人阻尼系数q使最终计算结果趋于收 敛,q=0.85。
用户综合影响力值的计算公式为:CIR(j)= aER(j)+ pSR(j)(8)式中,C/R(i)表示用户i的综合影响力,取值为用 户外在影响力和内在影响力的加权和,粉丝对用户 微博的转发和评论是使用户信息传播更快更广的关 键,则由其产生的内在影响力应分予更多的权重,通 过对“帕累托二八法则”的理解和研究,本文取a= 0.2,13 =0.8。
本文先初始化微博社交网络各用户的C IR值均为1,再利用式(6) - (8)求得各用户最终收敛的C IR值,即综合影响力值,并对用户进行排名。
3实验结果与分析3.1微博数据的采集和处理近年来,新浪微博对用户数据的采集增加了许 多限制,通过新浪微博开放接口 A P I获取数据这种 高效的方法由于访问频率和权限被加以设置,很难 获取完整数据,而通过传统网络爬虫技术解析微博 页面来获取数据的方法需要爬取数量巨大的网络页 面,效率低下。
本文综合考虑这两种方法的优劣,将 A P I与网络爬虫技术相结合对2017年3月的微博 数据进行采集。