基于标签法的微博分类的研究:以新浪微博为例
- 格式:doc
- 大小:574.00 KB
- 文档页数:9
用户标签在社交网络中的应用研究随着社交网络的普及和用户数量的不断增长,用户标签已经成为了社交网络中不可或缺的一部分。
它是一种描述和分类用户的方式,通过用户对自己和他人的行为、兴趣、爱好等进行标记,可以方便地进行用户分类和精准推荐。
本文就用户标签在社交网络中的应用研究进行探讨。
一、用户标签的定义和分类用户标签是用户在社交网络中自主设定的标记,用来描述和分类自己的兴趣、爱好、特点等等。
它包括了用户的姓名、性别、年龄、职业、住址等基本信息,还有用户自己设置的标签,如兴趣爱好、喜欢的品牌、电影、音乐、书籍等等。
根据标签的分类方式,可以将用户标签分为无结构标签和结构化标签。
无结构标签是用户自己设置的一组文字或短语,没有固定格式和规范,如“购物狂人”、“电影迷”等等。
而结构化标签则是按照特定的格式或分类体系进行标记,如“颜色:红色;尺码:L”、“音乐类型:流行音乐;歌手:Taylor Swift”等等。
结构化标签相较无结构标签更为规范和具体,方便对标签进行统计和分类。
二、用户标签在社交网络中的应用1.社交关系发现以微博为例,用户通过微博账号关注其它用户,形成社交关系网。
当用户在微博中为自己或他人添加标签时,就可以借此发现其它与自己兴趣相同或相似的用户,加强社交网络之间的联系和交流,甚至可以推动商业活动的展开。
如巨头电商平台天猫利用社交网络中的标签进行商品推荐,通过用户标签掌握用户喜好,不断优化商品推荐系统,增强用户的购物体验。
2.信息检索与推荐用户标签可以作为检索和推荐的关键词,是用户信息检索和推荐的重要依据。
根据用户标签提供精准、个性化的信息推荐和搜索结果,有助于提高用户使用体验。
比较典型的案例是淘宝和京东,两个电商平台都利用用户标签进行商品推荐和检索。
用户在浏览网站时会被要求填写自己的兴趣、爱好、喜好等标签信息,网站会根据这些信息推送相关商品,最终实现商品销售。
3.个性化广告投放基于用户标签,广告投放可以更加个性化和精准。
《我国明星微博的传播效果研究——以新浪微博为例》篇一一、引言随着互联网的快速发展,社交媒体已成为人们获取信息、交流互动的重要平台。
其中,微博作为中国最具代表性的社交媒体之一,凭借其短小精悍的信息内容和广泛的用户基础,吸引了大量明星的入驻。
明星微博不仅为粉丝提供了一个与偶像互动的窗口,同时也成为了传播信息、推广品牌的重要途径。
本文以新浪微博为例,研究我国明星微博的传播效果。
二、研究背景与意义近年来,明星微博的影响力日益增强,其传播效果不仅体现在粉丝数量的增长,更体现在信息传播的速度、广度和深度上。
对明星微博的传播效果进行研究,有助于了解其在社交媒体中的影响力,为明星及企业提供有效的营销策略和传播策略。
同时,也为社交媒体平台的发展提供参考依据。
三、研究方法本研究采用定性和定量相结合的研究方法。
首先,通过文献回顾和案例分析,对明星微博的传播特点进行梳理。
其次,运用问卷调查和数据分析,对明星微博的传播效果进行量化分析。
最后,结合实际案例,对研究结果进行讨论和总结。
四、明星微博的传播特点1. 信息传播速度快:明星微博发布的信息往往能在短时间内被大量转发和评论,迅速传播开来。
2. 互动性强:粉丝可以通过评论、点赞、私信等方式与明星进行互动,形成良好的互动氛围。
3. 内容丰富多样:明星微博内容涉及生活、工作、情感等多个方面,形式多样,包括文字、图片、视频等。
五、明星微博的传播效果分析1. 粉丝数量与传播效果:粉丝数量是衡量明星微博影响力的重要指标之一。
粉丝数量越多,说明其影响力越大,传播效果越好。
2. 转发量与评论量:转发量和评论量是衡量信息传播广度和互动程度的重要指标。
高转发量和评论量说明信息传播广泛,互动程度高,传播效果好。
3. 传播路径与影响力扩散:明星微博的传播路径包括直接传播和间接传播。
直接传播主要通过粉丝与明星的互动实现,间接传播则通过粉丝的转发、评论等行为扩散。
影响力扩散是指明星微博对其他用户和社会的影响程度。
《我国明星微博的传播效果研究——以新浪微博为例》篇一一、引言随着互联网的飞速发展,社交媒体平台如新浪微博等已经成为人们日常生活中不可或缺的一部分。
尤其是对于明星而言,微博不仅是一个与粉丝互动的平台,更是一个传播信息、塑造形象的重要渠道。
本文将针对我国明星微博的传播效果进行研究,以新浪微博为例,探讨其传播特点、影响因素及效果评估。
二、明星微博的传播特点1. 传播速度快:明星微博通常能在短时间内迅速传播,吸引大量粉丝关注和转发。
2. 互动性强:明星通过微博与粉丝进行互动,回答粉丝提问,发布生活点滴,增强与粉丝的黏性。
3. 信息量大:明星微博涉及娱乐、生活、时尚等多个领域,信息量丰富,能满足不同粉丝的需求。
4. 影响力广:明星微博的影响力较大,能辐射到更广泛的群体,对社会舆论产生一定影响。
三、影响明星微博传播效果的因素1. 明星自身影响力:明星的知名度、人气、粉丝数量等都会影响其微博的传播效果。
2. 微博内容质量:微博内容的质量、话题性、趣味性等是吸引粉丝关注和转发的关键。
3. 互动程度:明星与粉丝的互动程度、回应速度等也会影响粉丝对明星的喜爱程度和忠诚度。
4. 传播渠道:除了微博自身平台外,其他媒体、社交平台的联动传播也能提高明星微博的传播效果。
四、明星微博的传播效果评估1. 粉丝数量:粉丝数量是衡量明星微博影响力的重要指标之一。
2. 转发量:转发量能反映微博内容的传播广度和影响力。
3. 评论数:评论数能反映粉丝对微博内容的关注度和参与度。
4. 舆情分析:通过舆情分析,可以了解粉丝对明星微博的态度、观点和情感倾向,从而评估微博的传播效果。
五、案例分析以某知名明星的微博为例,该明星在新浪微博上拥有大量粉丝,其微博内容涉及生活、工作、公益等多个方面。
通过分析该明星的微博数据,可以发现其微博具有较高的转发量和评论数,舆情分析显示粉丝对其微博内容持积极态度。
这表明该明星的微博传播效果较好,能有效地与粉丝互动,塑造积极的形象。
《新浪名人微博的传播特征研究》篇一一、引言新浪微博作为国内最具影响力的社交媒体平台之一,已经吸引了大量名人的入驻,这些名人的微博具有广泛的关注度和传播力。
本研究旨在通过对新浪名人微博的传播特征进行深入研究,揭示其传播规律,为更好地理解微博的传播机制和策略提供理论依据。
二、新浪名人微博的传播背景随着互联网技术的快速发展和智能手机的普及,微博等社交媒体平台逐渐成为人们获取信息、交流互动的重要渠道。
新浪微博作为其中的佼佼者,吸引了众多名人的加入,这些名人的微博不仅具有较高的关注度,而且对社会的舆论导向、文化传播等方面产生了深远的影响。
三、新浪名人微博的传播特征(一)信息传播的时效性新浪名人微博的信息传播具有极高的时效性。
名人们通过微博及时发布自己的生活、工作、观点等信息,迅速传播至粉丝群体,引发关注和讨论。
这种即时性的传播方式使得信息能够在短时间内迅速扩散,形成舆论热点。
(二)互动性的强化新浪名人微博具有较强的互动性,名人与粉丝之间可以通过评论、点赞、私信等方式进行实时互动。
这种互动不仅增强了名人与粉丝之间的联系,还为信息的二次传播提供了可能。
此外,名人的回复和互动往往能引发更多粉丝的关注和讨论,进一步扩大信息的传播范围。
(三)多元化的传播内容新浪名人微博的传播内容具有多样性,包括文字、图片、视频等多种形式。
这种多元化的传播方式使得信息更加生动、形象,易于被粉丝接受和传播。
同时,不同的传播内容能够满足不同粉丝的需求,提高粉丝的粘性和活跃度。
(四)影响力的扩散新浪名人微博的影响力不仅体现在其关注度和转发量上,还体现在其对社会舆论的引导上。
名人的观点和态度往往能引发广泛的社会关注和讨论,对社会的价值观、文化等方面产生深远的影响。
四、结论与建议通过对新浪名人微博的传播特征进行研究,我们发现其具有时效性强、互动性强、传播内容多元化以及影响力大等特点。
这些特点使得名人微博在信息传播、社会舆论引导等方面发挥着重要作用。
《新浪名人微博的传播特征研究》篇一一、引言随着互联网的快速发展,社交媒体在中国已经成为人们获取信息、交流思想的重要平台。
其中,新浪微博作为国内领先的社交媒体之一,汇聚了大量的名人用户。
这些名人微博不仅为粉丝提供了与偶像互动的机会,也成为了信息传播的重要渠道。
本文旨在研究新浪名人微博的传播特征,分析其传播机制和影响因素,为更好地理解微博传播提供参考。
二、新浪名人微博概述新浪微博上的名人用户涵盖了娱乐、体育、政治、经济等多个领域,他们拥有庞大的粉丝群体,每条微博都能引起广泛关注。
名人微博的传播不仅涉及个人信息的分享,还包括对社会热点事件的评论、对粉丝的互动等。
其传播速度快、范围广,具有很高的社会影响力。
三、新浪名人微博的传播特征1. 传播速度快,范围广名人微博的传播速度极快,一条热门微博能在短时间内被大量转发和评论。
同时,其传播范围广泛,不仅限于本国,还能迅速传播到国际社会。
2. 互动性强名人微博为粉丝提供了与偶像互动的机会,通过评论、点赞、私信等方式,粉丝可以与偶像进行实时交流。
这种互动性强的特点使得名人微博具有很高的粘性,吸引了大量用户的关注。
3. 信息内容多样名人微博的内容涵盖了娱乐、生活、工作等多个方面,既有个人感悟的分享,也有对社会热点事件的评论。
这种多样化的信息内容满足了不同用户的需求,使得名人微博具有很高的信息价值。
四、新浪名人微博的传播机制和影响因素1. 传播机制新浪名人微博的传播机制主要包括转发、评论、点赞等方式。
其中,转发是主要的传播方式,通过关注关系形成的信息传播网络,使得信息能够迅速传播。
同时,评论和点赞也能增加微博的曝光度,进一步扩大其影响力。
2. 影响因素(1)名人效应:名人微博的影响力与其知名度、粉丝数量、活跃度等因素密切相关。
知名度越高、粉丝数量越多的名人,其微博的传播力和影响力越大。
(2)内容质量:微博的内容质量直接影响到其传播效果。
有趣、有深度、有共鸣的内容更容易引起用户的关注和转发。
《新媒体时代网络广告研究——以新浪微博为例》姓名:杨景茹学号:2013710017学院:光明新闻传播学院课程:媒介管理新媒体时代网络广告研究——以新浪微博为例【摘要】我们目前处于快速发展的新媒体时代,自媒体平台的兴起给生活带来了许多乐趣的同时,网络广告也应运而生。
本文将以新浪微博为例,分析新媒体时代网络广告的发展环境、特点优势和面临的问题挑战。
【关键词】新浪微博;新媒体时代;广告营销;一、微博广告的兴起对微博广告发展的研究应追溯到新媒体时代自媒体的兴起,而微博广告的出现则离不开新媒体的迅速发展。
21世纪的媒介变革始于“去中心化”。
自2006年以Twitter为首的自媒体“微博”兴起,微博作为众多新媒介中的一员,由于具有即时、便捷、低门槛准入、个体化传播等特点,微博凭借时效性强、灵活性大、覆盖面广等优势迅速得到了广大用户的青睐,开辟了一方市场。
在Twitter迅速发展的刺激下,国内类似Twitter的同类社交网站紧随其后迅速出现。
微博作为社会交互性和受众参与性为核心的web2.0时代背景下的一种新型传播媒介,其自主平等的传播理念与创新的传播模式给予了用户前所未有的沟通体验,改变着传媒生态的格局。
2009年,新浪微博正式内测,随后进入微博市场。
与此同时,腾讯、搜狐等门户网站也先后进入微博市场,一时间国内微博网站百花齐放,我国进入了“微传播”时代。
短短几年时间,微博迅速发展成最流行的社会化新媒体,众多企业纷纷在微博上注册自己的官方账号,越来越多的商家借助微博的传播优势对自己的产品进行宣传推广,微博的商业价值也由于其庞大的用户群所带来的巨大的影响力慢慢凸显出来。
由此,微博广告应运而生。
微博营销是指通过微博平台为商家、个人等创造价值而执行的一种营销方式,也是指商家或个人通过微博平台发现并满足用户的各类需求的商业行为方式。
该营销方式注重价值的传递、内容的互动、系统的布局、准确的定位,微博的火热发展也使得其营销效果尤为显著。
《我国明星微博的传播效果研究——以新浪微博为例》篇一一、引言随着互联网的快速发展,社交媒体在中国已成为人们日常生活的重要组成部分。
其中,微博作为中国最大的社交媒体平台之一,吸引了众多明星的入驻。
这些明星通过微博与粉丝进行互动,传播信息,形成了独特的传播现象。
本文以新浪微博为例,探讨我国明星微博的传播效果。
二、明星微博的传播特点1. 粉丝基础庞大:明星微博拥有庞大的粉丝基础,这使得其信息传播具有广泛性。
2. 互动性强:明星通过微博与粉丝进行互动,增强粉丝的归属感和忠诚度。
3. 信息更新快:明星微博的信息更新速度快,能够及时传递最新动态。
4. 多元传播途径:除了文字,明星微博还通过图片、视频、直播等多种形式进行传播。
三、研究方法本文采用定性和定量研究相结合的方法,对明星微博的传播效果进行研究。
首先,通过内容分析法对明星微博的发布内容、互动情况等进行分析;其次,运用问卷调查法、访谈法等收集数据,分析粉丝的行为特征、对明星微博的认知和态度等。
四、研究结果1. 明星微博的内容分析通过对明星微博的内容进行分析,发现其内容主要包括生活分享、工作宣传、互动回复等。
其中,生活分享类内容更易引起粉丝的共鸣,工作宣传类内容则更具有传播价值。
此外,明星通过互动回复,增强与粉丝的粘性,提高粉丝的参与度。
2. 粉丝行为特征及认知态度通过问卷调查和访谈,发现粉丝主要通过手机端浏览和互动,对明星微博的关注度较高。
粉丝对明星微博的认知和态度受多种因素影响,如明星的个人魅力、微博内容的趣味性、互动性等。
大多数粉丝表示,通过关注明星微博,能够更深入地了解偶像的生活和工作,增强与偶像的情感联系。
3. 传播效果分析明星微博的传播效果主要体现在以下几个方面:一是扩大信息传播范围,使更多人了解明星的最新动态;二是增强明星与粉丝之间的互动,提高粉丝的归属感和忠诚度;三是通过粉丝的二次传播,进一步提高信息的传播效率。
具体数据表明,明星微博的转发量、点赞量、评论量等指标均呈上升趋势,说明其传播效果显著。
软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@ Journal of Software,2015,26(7):1626−1637 [doi: 10.13328/ki.jos.004655] ©中国科学院软件研究所版权所有. Tel: +86-10-62562563∗微博中用户标签的研究邢千里, 刘列, 刘奕群, 张敏, 马少平(清华大学计算机科学与技术系,北京 100084)通讯作者: 邢千里, E-mail: xingqianli@摘要: 微博环境中用户可以为自己添加标签,用户所添加的标签往往被视为是对自身特点和兴趣的重要描述信息.标签中所包含的信息可能有助于建立精确的用户描述,因此在个性化推荐、专家检索、影响力分析等应用中有潜在的应用价值.首先,在大规模数据上分析和研究了微博中用户添加标签的行为及标签内容分布的特点;之后,通过主题模型对用户的微博内容进行分析,实验结果表明:用户的标签越相似,微博内容也越相似,反之亦然;随后,分析了用户关注关系与微博和标签内容之间的联系,实验结果显示,有关注关系的用户之间微博和标签的内容越相似;基于这个发现,分别使用标签内容和微博内容对真实微博数据中的用户关注关系进行预测,结果表明:基于标签的预测方法其效果明显优于基于微博内容的预测方法,显示出用户标签在描述用户兴趣方面的价值.关键词: 微博;用户标签;主题模型;关注关系预测中图法分类号: TP391中文引用格式: 邢千里,刘列,刘奕群,张敏,马少平.微博中用户标签的研究.软件学报,2015,26(7):1626−1637.http://www.jos. /1000-9825/4655.htm英文引用格式: Xing QL, Liu L, Liu YQ, Zhang M, Ma SP. Study on user tags in Weibo. Ruan Jian Xue Bao/Journal of Software, 2015,26(7):1626−1637 (in Chinese)./1000-9825/4655.htmStudy on User Tags in WeiboXING Qian-Li, LIU Lie, LIU Yi-Qun, ZHANG Min, MA Shao-Ping(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)Abstract: Weibo allows users to add text tags in their profiles, which are descriptive to one’s personality and interests. The tag information can be very useful to user profiling in applications such as personalized recommendation, expert finding and social influence measuring. This paper first studies the characteristics of users’ tagging behavior and content of the tags based on large-scale data. By adopting topic model on users’ Weibo posts, it finds that the more tags two users have in common, the more similar their Weibo posts are and vice versa. It also finds that the users with connections to each other have more similar tags and Weibo posts. Based on this observation, this study uses tags and Weibo posts to predict user connections separately on real-world data. The experimental results show that the tag-based approach is significantly better than the approach based on Weibo posts, thus validating the effectiveness of user tags in describing user interests.Key words: Weibo; user tag; topic model; connection prediction微博中的领域专家寻找和针对微博用户的个性化推荐是当前社会计算的研究热点[1−5],挖掘用户的兴趣并建立有效的用户描述文档(user profile)是其中的关键步骤之一,用户描述文档的质量对于个性化推荐和专家检索的最终效果有着直接影响.已有工作通常使用用户之间的链接关系[1,2]、用户所发布的文本内容[4,5],以及其他个人描述信息[3]来建立用户描述文档.基于链接关系的方法试图利用用户关注关系之间所隐含的用户同质性来进行相似用户和内容的挖掘;而基于内容的方法则试图从用户曾经发布的微博等文本中发掘出用户所感兴∗基金项目: 国家高技术研究发展计划(863)(2011AA01A205); 国家自然科学基金(60903107, 61073071)收稿时间:2013-08-01; 修改时间: 2013-10-31, 2014-01-10; 定稿时间: 2014-05-21邢千里等:微博中用户标签的研究1627趣的主题,从而进行个性化推荐.然而,由于微博平台所固有的特点,用户所发布的微博往往长度短、内容杂,既包含用户感兴趣主题的相关内容,也有与之无关的感情抒发或是聊天内容,导致基于微博内容的方法常常受到噪声的困扰,很难非常准确地提取出用户的兴趣所在.在国外知名微博站点中,用户可以对其所关注的对象添加分组描述信息(称为List功能),并且分组名称和描述信息对所有用户公开.Ghosh等人[3]巧妙地利用了这个功能来对用户建立描述文档,他们收集其他用户对一个用户的分组描述信息,然后使用出现最多的一部分描述词作为对这个用户的描述.当需要查找某个特定领域的用户时,就可以根据这些描述信息进行检索.由于描述信息来自许多其他用户,因此出现频率较高的描述具有较高的可信度,往往能够在寻找领域专家方面得到不错的效果.这种方法存在的主要问题是: (1) 只有关注量较多的用户会获得足够的分组描述信息,而其他一些用户则完全没有或者只有很少的分组描述,导致只能为有限的一部分用户建立起描述文档;(2) 由于分组描述来自于其他用户,针对一个用户的描述信息往往反映出该用户在他人眼中的属性,例如“家人”、“朋友”、“明星”这样的描述,更多的用户从个人组织社交网络的角度对其他用户的描述,而非其感兴趣话题.新浪微博[6]是中国目前用户规模最大的微博平台之一,它虽然也提供了为其他用户分组和描述的功能,但是这部分信息并不像Twitter那样是公开的,因此,研究者无法获得用户为其他用户添加的分组描述信息.但除此之外,新浪微博还提供了一个允许用户对自己添加标签的功能,此功能允许用户用最多10个关键词对自己进行描述.新浪微博对用户标签的定义是:“添加描述自己职业、兴趣爱好等方面的词语,让更多人的找到你,让你找到更多同类”.因此,用户对自己所添加的标签将是对自身专家领域和兴趣的直接描述,这比Twitter的List功能包含了更多的信息量,而这些信息对建立更为准确而全面的用户描述文档十分有用.新浪微博的个人标签中包含了非常有价值的用户描述信息,但目前针对微博用户标签进行的研究相对较少.本文将对新浪微博中用户添加标签的行为及其内容特点进行研究,并且分析标签内容与用户微博内容和用户关注关系之间的联系,最终我们将通过关注关系预测任务来验证用户标签在实际应用中的价值.本文的主要贡献有以下几点:1)全面分析了微博用户添加标签的行为特点,验证了标签数与用户活跃度之间的联系,发现了不同标签位置上的总标签种类数目的变化规律;2)研究了用户的标签内容与微博内容之间的联系,实验结果表明:标签越相似的用户,其微博内容也越相似,反之亦然.这从侧面反映出短小的标签能够在一定程度上反映用户的微博内容;3)研究了用户的关注关系与标签和微博内容的联系,实验结果表明:存在关注关系的用户标签与微博内容比不存在关注关系的用户之间更相似,并且使用标签或微博内容的相似度进行关注关系预测的效果远远好于随机预测的效果.最后我们指出,使用标签内容进行预测的效果远好于使用微博内容进行预测的效果,说明了标签在描述用户兴趣方面的价值.本文首先介绍相关工作.第2节对新浪微博中用户添加个人标签的行为特点进行研究.第3节研究标签的内容分布及其与微博内容之间的联系.第4节研究标签和微博与用户关注关系之间的联系,并且分别使用标签和微博进行用户关注关系的预测.最后,给出总结与未来工作展望.1 相关工作目前,对微博环境下用户添加标签的行为进行研究的相关工作数量较少.已有工作中,陈渊等人[7]提出了一种结合标签扩散和微博内容关键词提取的标签推荐方法,他们指出:在好友个数不足的情况下,从微博内容简单根据词频提取关键词作为标签推荐即可得到较好的效果.但是他们在文献[7]中通过选取的个别用户实例只在直观上说明标签推荐效果的好坏,并没有进行定量分析.在Liang等人[8]的工作中,用户标签被用来发现微博中能够鉴别流言的领域专家.在这个工作中,标签被看作是微博用户对其自身专长领域的描述.给出一条流言,可以计算出一个用户通过各个标签与该流言产生关联的概率,进而获得与流言最相关的用户.他们使用了一个公开的流言数据集,通过人工方法标注出与每条流言相关的专家用户.实验结果表明,基于标签的方法效果好于基1628 Journal of Software 软件学报 V ol.26, No.7, July 2015于微博内容的语言模型方法.这个工作是用户标签在微博中的一个具体应用,实验结果表明了标签信息在实际应用中的价值,但是他们并没有对标签内容的分布、标签内容与微博内容之间的关联进行分析.国外知名微博客网站Twitter 并没有为用户提供给自己添加标签的功能,因此也没有与之直接相关的研究工作.然而,Ghosh 等人[3]利用Twitter 中的好友分组信息为用户建立描述信息,从而实现领域专家的查找工作.受此工作的启发,我们认为新浪微博中用户的个人标签既包含对专业领域的描述,也包含对兴趣爱好的描述,因此在专家检索和个性化推荐方面有更大的利用价值.以上提到的工作虽然涉及微博中的用户标签,但都没有对用户添加标签的行为、标签内容的特点和标签与其他用户信息(如微博内容、关注关系)之间的联系进行充分的研究,而这些将是本文所关注的主要问题.2 用户标签行为分析2.1 微博数据集我们首先从新浪微博中选取了一部分人气较高的账号作为种子,随后使用链接扩散方法抓取了2 631 313个用户的个人信息和关注关系数据.用户个人信息中包括了性别、所在地、出生日期、个人描述、微博官方认证信息、个人标签、工作信息、毕业院校和博客(传统博客)地址.其中,性别和所在地作为注册时必填,每一条用户的数据中都包含这两项;其他的信息则为用户选填,因此并非每个用户的个人信息中都会包含以上列出的所有项目.在我们的数据中,有52.6%的女性用户和47.4%的男性用户.在地域分布上,广东、北京、上海是用户分布最多的3个城市,分别占总用户数的20.9%,10.7%和8.5%. 2.2 用户添加标签行为的分析本节对用户添加标签的行为进行统计分析.首先,我们统计了数据集中所有用户的标签数量分布,结果如图1所示.40.6%的用户至少添加了一个标签,而59.4%的用户没有为自己添加任何标签.没有添加标签的用户可能并不知道新浪微博提供了添加标签的功能,或是知道这个功能但并没有使用.根据图1(a)所示的分布,在有标签的用户中,我们发现只有1个标签的用户和添加满10个标签的用户数量最多,而中间的用户数量相对较少.这个现象可以解释为在为自己添加标签的用户中存在着两种心理:一种是为了体验添加标签这项功能,所以只象征性地添加了1个标签;另一种则是非常乐意为自己添加尽可能多的标签,从而添加了系统规定的上限个数的 标签.(a) 用户的标签数量分布 (b) 不同年龄段用户的标签数目 (c) 认证/非认证用户的标签数分布Fig.1 图1进一步细分用户群体我们发现,男性用户和女性用户在为自己添加的标签数量上几乎没有差别.而在图1(b)中,不同年龄段的用户则表现出了一些差异:50岁及以上的用户和20岁~29岁的用户添加的平均标签数量最多,而年龄信息为空(none)的用户平均标签数最少.其中的原因我们推测:可能是50岁以上的用户有更多的时间投入到微博使用中,而20岁~29岁的年轻人是微博最活跃的用户群,因此,这些用户的信息完善程度更高.而没有年龄信息的用户相应的其他各项信息填写也不完善,因而导致标签数量少.此外,图1(c)的结果表明:经过新浪用户比例0.70.60.50.40.30.20.10.0108 64 2 0 标签数量平均标签数量4321无信息10~1920~2930~3940~4950~用户所占比例0.70.60.50.40.30.20.10.0108 6 4 20标签数量认证用户 无认证用户邢千里 等:微博中用户标签的研究1629微博官方认证的用户(加V 用户),明显比没有认证信息的用户倾向于添加更多的标签.根据上述结果我们想到,用户的标签数量可能在某种程度上能够反映出用户的活跃程度.我们进一步对拥有不同数量标签的用户在其他用户属性上进行了分析,图2显示出拥有不同数量标签的用户在所发微博数量、关注人数和关注者人数上的表现情况.从图中可以看到:标签越多的用户,其发布的微博平均数量也越多,关注的其他用户越多;关注者的数量走势虽然有一些波动,但整体也呈现上升趋势.这个现象表明,用户添加标签的数量与其微博活跃程度呈现出正相关关系.因此我们认为,用户为自己添加标签的行为可以作为衡量用户微博活跃程度和影响力的一个因素考虑在内.Fig.2 Involvement of users with different number of tags图2 不同标签数量的用户的微博活跃程度为了进一步验证用户标签数量和其他用户行为之间的关联性,我们使用第2.2节提到的除标签以外的其他用户信息作为特征,训练了一个二值分类器来预测用户是否会为自己添加标签.我们从数据集中随机抽取了 25 000个用户的数据作训练,使用C4.5决策树,在10交叉验证情况下得到预测准确率为73.6%.由于随机预测的准确率为60%,该结果说明,其他用户信息对于预测用户添加标签的行为是有帮助的,这个结果也验证了标签与其他用户信息之间的关联关系.但是应该注意到:在实际应用中,我们所用到的用户特征信息并不一定是先于用户标签而被添加的,因此在真实环境下并不一定能通过这些特征来预测用户的标签行为.3 用户标签的内容分析3.1 标签词语分布上一节中我们分析了用户添加标签的行为特点,本节中,我们对用户添加的标签内容进行分析.为了解用户一般使用哪些词语对自己进行描述,我们首先在实验数据集上统计了标签词语的频率分布.如图3所示:在横轴和纵轴都使用了对数坐标的情况下,标签词语的频率分布明显呈现出幂率分布[9]的形态,即,在对数坐标上近似线性分布.这意味着有大量的标签只出现过很少的次数,而只有很少一部分标签会频繁出现.Fig.3 Number of distinct tags on different frequencies图3 不同频率上的标签个数分布64003200160080040020010050108642标签个数平均微博数 平均关注人数 平均关注者数量标签出现次数标签种类1061051041031021011001001011021031041051061630 Journal of Software 软件学报 V ol.26, No.7, July 2015表1展示了我们的数据集中出现最频繁的10个标签以及它们在总的标签出现次数中所占的比例.可以看到:少数的高频标签占据了相当多的总出现次数,如“音乐”这个标签占了所有标签出现次数的 3.06%.表中所示的频率最高的10个标签加起来总共占了21.2%的标签出现次数.Table 1 Top ten popular tags 表1 最热门的前10条标签序号 标签出现次数所占比例(%)1 音乐195 542 3.06 2 电影179 982 2.813 80后146 621 2.294 美食136 534 2.135 旅游134 527 2.106 时尚122 104 1.917 90后120 425 1.88 8 听歌116 286 1.829 旅行113 369 1.77 10 宅 92 763 1.45 总计1 358 15321.20从表1中可以观察到:这些热门标签的内容多是大众性的兴趣爱好的描述,如“音乐”、“电影”、“美食”等;或者是对一些常见人群的描述,如“80后”、“90后”、“宅”.这些标签之所以被频繁使用,一是因为这其中的一些标签在用户添加标签的页面作为系统推荐选项出现,因此有更大的概率被用户看到和选中,而不用手动输入;二是此类标签对于新浪微博用户具有普适性,即,很多微博用户都会发现这样的标签在某种程度上符合对自己的描述.例如,在我们的数据集中,在有出生日期的用户中,有46.5%的用户出生于1980年~1989年之间,有44.6%的用户出生于1990年~1999之间.“80后”、“90后”两个标签非常符合对这些用户的描述,因此成为高频标签.新浪微博最多允许用户为自己添加10个标签,而且用户所添加的标签是有顺序的.我们发现:在不同的位置上,标签的分布情况有所不同.首先,我们统计了不同位置上不重复的标签个数.为保证每个位置上总的标签个数一致,使得结果可比,我们将所有的用户数据分成了10份,编号为1~10,第i 份数据中只包括恰好有i 个标签的用户.之后,我们对每一份数据分别进行统计.这样的统计方法保证了在每一份数据中,在每一个位置上总的标签出现次数是相同的.统计结果显示:对于所有的10份数据,随着标签位置越来越靠后,在该位置的不重复标签的个数(即标签的种类)呈现递减趋势.在越靠前的位置上,不重复标签数越多.图4展示了对有10个标签的用户所统计出的各个位置上的不重复标签数,随着位置的靠后,可以观察到一个非常明显的线性下降趋势.Fig.4 Number of distinct tags at different positions图4 不同位置上的不重复标签数一个位置上的不重复标签的数量一定程度上能够反映出该位置上标签分布的多样性,但是并不包含每个标签的出现频率信息,因此不能排除噪音干扰的可能.为了更好地衡量每个位置上标签分布的多样性,我们为每个位置计算标签分布的熵,其计算方法如下所示:不重复标签数量(×104)7.57.06.56.05.55.04.54.0108642标签位置邢千里 等:微博中用户标签的研究 163121log ,ni i i H p p ==−∑其中,p i 是第i 个不重复标签在当前位置上的出现概率.熵H 能够反映分布的混乱程度,H 的数值越大,表示分布的混乱程度越高.图5展示了对于有不同数量标签的用户,在各个位置上的标签分布的熵.其中,颜色越深的块表示熵越低,即,分布的混乱程度越小.可以看到:在图中每一行,颜色都是从左到右逐渐加深.说明对于每一组用户数据,标签位置越靠后,标签分布的混乱程度越低.这个变化规律与之前的不重复标签数的变化规律是一致的.我们进一步统计了热门标签(出现最频繁的标签)在不同位置上所占的比例.图6展示了表1中前3、前5、前10的标签在各个标签位置上所占的比例.可以看出:在越靠后的位置,热门标签所占比例越高.图4和图5的结果表明:在越靠后的位置,用户越倾向于添加常见的热门标签,因而导致不重复标签数和标签分布熵都小于靠前的位置.造成这一现象的原因可以是:当用户在添加标签时,首先想到的是最具个性化的标签,这类标签最能反映出自己与他人的区别,因此最先被用户添加,正是由于个性化标签的多样性,导致不重复标签数量多并且分布混乱;而在越靠后的位置,用户能够想到的个性化标签越来越少,这时就更有可能添加一些与自己比较相关的大众标签.按照上述现象及解释,我们认为:位置靠前的标签比位置靠后的标签更能描述用户的个性特征,因此可能在个性化推荐中具有更大的利用价值.在后续实验中,我们将根据这一发现对不同位置上的标签赋以不同的权重.Fig.5 Entropy of tag distribution at different positions Fig.6 Percentage of top tags at different positions 图5 不同位置上的标签分布熵(深色表示低熵值) 图6 不同位置上热门标签所占比例 3.2 用户标签与微博内容的联系 3.2.1 从微博内容中提取主题用户所发布的微博内容能够在一定程度上反映出用户的兴趣所在,因此常被用来提取用户所关注的主 题[4].标签作为一种更短更直接的用户描述,是否与用户的微博内容表达了相同的主题?在这一节中,我们研究用户标签与微博内容之间的关系,探索能否使用标签帮助或替代微博内容进行用户关注主题的提取.主题模型(topic model)[10,11]常被用来发掘文档-主题-词语之间的潜在生成关系.在主题模型中,一个文档被看作是由词语及其出现频率组成的向量(词袋模型),输入一个文档-词语的矩阵,主题模型会估计出两类参数:一类参数是文档在主题上的概率分布,另一类参数是主题在词语上的概率分布.如果将一个用户发布的所有微博内容看作该用户的描述文档,我们可以使用主题模型估计出该用户在不同主题上的概率分布,主题数量一般人为设定,数量远远少于文档中的词语数,因此,用户在主题上的概率分布可以看作是其在低维空间上的表示.在主题模型训练完成后,一个用户u 可以用如下的向量进行表示:121(,,...,),s.t. 1,T u u u u T iu i V p p p p ===∑ 其中,iup 是u 发布的微博内容产生主题i 的概率,T 是所有主题的数目.由于主题模型的计算代价较大(在标签位置用户标签数12.612.412.212.011.811.611.411.211.010.810.6101086 42123456789标签位置所占比例100.486 420.30.20.10.0Top 3Top 5 Top 101632 Journal of Software 软件学报 V ol.26, No.7, July 2015TwitterRank [4]一文中,作者只在1 000个Twitter 用户上使用了主题模型),为了将运行算法的时间控制在可接受的范围内,我们从数据中抽取出一部分用户的数据展开实验.从第 2.1节里所描述的数据集中,我们提取出标签中含有“互联网”字符串的用户,共5 901个.将用户做这样的限定是为了使得选出的用户在标签和微博内容上有一定的相似性,并且在关注关系上不至于过于稀疏,以保证后面实验中的相似度计算和关注关系预测不会得到过多为0的结果.我们抓取了这些用户在2012年11月之前最新发布的至多1 000条微博内容,共得到3 861 174条微博数据.对于每一个用户,我们首先对其微博进行了必要的噪音过滤,如去除文本长度过短(如内容只包括“赞”、“呵呵”等信息量较小的微博).随后,我们将其过滤后的所有微博内容合并在一起,使用中文分词工具ICTCLAS2013[12],对合并后的文本进行分词并使用中文停用词表过滤停用词后,得到用户的描述文本(向量形式).每个用户文本平均包含4 987个词.GibbsLDA [13]是一个常用的主题模型工具包,它使用Gibbs 采样方法进行参数估计.我们使用它在上面得到的用户描述文档上训练主题模型.在设置训练模型的参数时,我们将迭代次数设置为 1 000,并将主题个数设置为20和100,分别训练出两个模型,其他参数则使用了GibbsLDA 的默认值.我们在配有40G 内存,8核2.3GHz CPU 和Linux 环境的服务器下运行GibbsLDA,在我们的数据集上完成一次训练耗时为7~8小时. 3.2.2 计算用户微博内容的相似度在主题模型得到用户在主题上的概率分布后,我们使用第3.2.1节中的用户描述向量计算两个用户微博关注主题之间的距离,距离越大,说明相似度越低.我们使用了两种计算向量之间距离的方法.• 方法1(DIS 1)计算两个向量在各个维度上的差值的绝对值之和,表示为11(,)||.T i iu v u v i DIS V V p p ==−∑它衡量了用户在每个主题上的差别之和,其形式简单且易于理解.Weng 等人[4]也使用了类似的方法来度量两个用户在某个主题上的相似度;• 方法2(DIS 2)中,我们使用KL divergence [14]来度量两个向量之间的距离.KL divergence 在语言模型中常被用来衡量两个分布的近似程度,值越大,说明越不相似,计算方法如下:12(,)log .i T iu u v u i i v p DIS V V p p ==∑3.2.3 标签与微博内容的关系由于标签和微博内容都能够在一定程度上描述用户的兴趣,本节中,我们研究用户的标签内容与微博内容之间的关系.假设标签和微博都能够表示用户所关注的主题,那么标签相似的用户在微博内容上应该具有一定的相似度,反之亦然.下面我们通过实验来验证这个假设.为保证有充足的标签数据来计算相似度,我们从第3.2.1节中提到的5 901个用户中提取出所有含有10个标签的用户,并让他们两两组合生成用户对,共产生不重复的用户对2 160 081个.由于标签数量少、内容短,对于一个用户对〈u ,v 〉,我们用u 和v 之间的共有标签个数k 来衡量他们在标签内容上的相似度,k 越大,说明标签相似度越高.同时,我们使用第3.2.1节中训练得到的用户主题分布和第3.2.2节中的距离度量方法来衡量用户微博内容的相似度.图7中展示了共有标签数为k 的用户对微博之间的平均距离.由于共有标签在7个及以上的用户对个数非常少,为避免取平均值时引入的噪音,图中我们只展示了共有标签小于等于6的结果.从图7中可以看出:在两种计算微博距离的指标下,对于T =20和T =100两种情况,用户微博的平均距离基本上随着用户共有标签数量的增多而减小.这说明,当用户的标签越相似时,他们所发的微博内容也越相似.这个结果验证了“标签相似的用户微博内容也倾向于相似”的假设,暗示了标签文本虽然短小,但通过标签也能找到有共同兴趣的用户.图8显示了在两种距离度量下,用户之间的标签相似度(用共同标签数衡量)随微博内容距离变化的趋势.图中结果显示:用户间的微博内容距离越远,则标签的相似度越低,并且这个趋势在DIS 2下表现得尤为明显.图7与图8中的结果均表明:用户的微博与标签之间存在着较强的正相关关系,即,标签越相似的用户,微博内容越相。
2023年11月第26卷第21期中国管理信息化China Management InformationizationNov.,2023Vol.26,No.21数字化时代高校网络舆情主题分类研究——以新浪微博为例贾隆嘉(东北师范大学 信息科学与技术学院,长春 130024)[摘 要]通过一种文本表示策略解决新浪微博主题分类研究所面临的特征权重表示不准确、模型解释性不强的问题。
【方法/过程】采取“选择前预测”构建特征加权向量,在训练集上通过交叉验证方式对特征加权向量的成效进行评价,选择最好评估结果对应的特征加权向量作为测试集的特征加权向量。
【结果/结论】对比传统W-Max、D-Max和D-TMax三种方法,本文提出的方法在微平均F1方面分别提升4.25%、5.03%和7.10%。
在网络舆情主题分类中,该方法可以为数据集构建更明确的特征加权向量,并增强模型的可解释性,同时提升分类性能。
[关键词]网络舆情;主题分类;文本表示策略;机器学习doi:10.3969/j.issn.1673-0194.2023.21.047[中图分类号]TP391;G647 [文献标识码]A [文章编号]1673-0194(2023)21-0158-070 引 言随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,成为思想文化信息的集散地和舆论的放大器。
高校学生是网民中对社会热点现象反映最积极、最活跃、最敏感的群体,极易通过互联网表达自己对社会热点问题的看法。
在某些情况下,他们的意见和建议得不到重视或延误解决,就可能在网上形成炒作,个体情绪可能传染到群体,演变为群体的不满情绪,激化矛盾,爆发形成网络舆情。
高校学生群体既有较强的公民责任感,又具备组织行动的天然优势,遇到某些敏感热门话题,一经煽动,极易激发他们的社会责任感和民族情怀,进而引发大规模的网络舆情。
高校网络舆情作为社会舆情的一个组成部分,在一定程度上反映并影响社会舆情的生成与发展。
论文名称:基于标签法的微博分类的研究:以新浪微博为例拟研究的主要内容和思路:1.引言2.新浪微博的分类方法2.1新浪微博用户自助实现的分类2.2新浪微博系统提供的分类3.微博标签生成方法3.1标签生成方法设计思路3.2用户微博管理方法3.3运用层次分析法设置各个标签的权重3.3.1AHP方法:3.3.2微博三级标签体系4.总结及申明基于标签法的微博分类的研究:以新浪微博为例朱洋(华中师范大学信息管理学院)摘要:微博在我国快速发展,成为大众传播信息的重要载体、及时反映社情民意的网络平台,更是构架党和政府部门与普通民众交流的桥梁和纽带。
本文以新浪微博为例,对标签法在微微博内容的分类与检索进行研究,运用层次分析法建立三级标签体系,将综合发布者的微博标签、转发者和收藏者添加的微博标签来自动生成系统标签的方法为标准对微博进行了分类,以方便用户进行管理微博和检索微博。
关键词:微博标签法1.引言微博,即微博客(MicroBlog)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。
从 2006 年 Twitter 网站推出至今,微博发展迅速,在国内发展最好的是新浪微博。
新浪微博()是新浪旗下网站,是中国最具影响力的社会化媒体平台,是一个基于用户关系的信息分享、传播以及获取的平台。
新浪微博于2009年8月14日开始内测。
根据新浪公布的最新数据,截至2012年5月16日,新浪微博注册用户数已增至3.24亿。
由于微博具有单一性、迅捷性、碎片化、个性化、开放性、整合性、实时性和跟随性等特点,使得微博存在信息冗余、自发的组织性不强等问题,其所负载和传播的内容也呈现碎片化,给人良莠不齐、垃圾信息泛滥的印象。
因此,需要不断改善微博信息资源的组织方式,才能不断提高其生存能力。
对微博网站信息分类问题进行研究,不仅可以指导微博网站对信息的分类组织,也可以促进对网站信息分类问题研究的深入。
新浪微博用户领域分类标签的结构和互动研究杨尊琦;赵瑾珺【摘要】Using the social network analysis method,taking the users' reciprocal relationships of Sina microblog as the researching founda-tion,the authors analyze the network density of each category tags, so as to research the category tags structure. In order to study the inter-action between category tags in the microblog space,we change the original class, by category tags pattern that defines the users' category tags on the field,and regroup by the users' reciprocal relationships. The study indicates that entertainment,media,health and military are in-fluenced by sina microblog more obviously than cars and public welfare are. Five condensing subgroups have been found in the condensing subgroup analysis, in each group, each tag is influenced by and interacted with others. Thus the paper provides theoretical basis for monito-ring and guiding the public opinion,as well as predicting the influence between the category tags fields.%使用社会网络分析方法,以新浪微博用户互惠关系为研究基础,通过实证分析新浪微博用户领域分类标签的密度,研究微博用户领域分类标签结构;打破原来用户所处微博用户领域分类标签格局,依据用户互惠关系对其进行重新分组,探讨在微博空间中各领域标签的互动情况。
《我国明星微博的传播效果研究——以新浪微博为例》篇一一、引言随着互联网的快速发展,社交媒体在中国已经成为人们日常生活的重要组成部分。
其中,新浪微博作为中国最大的社交媒体平台之一,吸引了众多明星的入驻。
明星微博不仅成为了他们与粉丝互动的桥梁,更是一个具有极高传播效果的信息传播平台。
本文旨在以新浪微博为例,深入探讨我国明星微博的传播效果,为理解明星社交媒体影响力及其对传播活动的影响提供理论依据。
二、研究背景近年来,明星微博的影响力逐渐扩大,不仅在娱乐产业内产生深远影响,也在社会文化、商业经济等多个领域产生了广泛的影响。
明星通过微博与粉丝互动,发布生活动态、宣传作品等,极大地丰富了传播内容。
新浪微博以其庞大的用户基础和丰富的功能为明星提供了良好的传播环境。
三、研究方法本研究采用定性和定量相结合的研究方法。
首先,通过内容分析法对明星微博的发布内容、互动形式等进行深入研究;其次,运用问卷调查法和数据挖掘法分析明星微博的传播效果及其影响因素;最后,结合个案分析法,选取具有代表性的明星微博案例进行深入剖析。
四、明星微博的传播效果分析1. 传播速度与广度明星微博的传播速度和广度是惊人的。
一条微博经过粉丝的转发、评论和点赞,能够在短时间内迅速传播,覆盖大量的用户。
此外,明星的粉丝群体庞大,粉丝之间的互动和传播也进一步扩大了微博的传播范围。
2. 互动性与影响力明星微博具有较高的互动性。
通过与粉丝的互动,明星能够及时了解粉丝的需求和反馈,增强与粉丝的情感联系。
此外,明星的微博往往能引发社会舆论关注,对社会热点事件产生一定的影响力。
3. 商业价值与经济效益明星微博具有巨大的商业价值。
通过微博宣传作品、推广产品,可以为相关产业带来巨大的经济效益。
此外,明星微博还为品牌合作、广告代言等商业活动提供了平台,进一步扩大了明星的商业影响力。
五、影响因素分析1. 明星个人魅力与影响力明星的个人魅力与影响力是影响其微博传播效果的重要因素。
论文名称:基于标签法的微博分类的研究:以新浪微博为例拟研究的主要内容和思路:1.引言2.新浪微博的分类方法2.1新浪微博用户自助实现的分类2.2新浪微博系统提供的分类3.微博标签生成方法3.1标签生成方法设计思路3.2用户微博管理方法3.3运用层次分析法设置各个标签的权重3.3.1AHP方法:3.3.2微博三级标签体系4.总结及申明基于标签法的微博分类的研究:以新浪微博为例朱洋(华中师范大学信息管理学院)摘要:微博在我国快速发展,成为大众传播信息的重要载体、及时反映社情民意的网络平台,更是构架党和政府部门与普通民众交流的桥梁和纽带。
本文以新浪微博为例,对标签法在微微博内容的分类与检索进行研究,运用层次分析法建立三级标签体系,将综合发布者的微博标签、转发者和收藏者添加的微博标签来自动生成系统标签的方法为标准对微博进行了分类,以方便用户进行管理微博和检索微博。
关键词:微博标签法1.引言微博,即微博客(MicroBlog)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。
从 2006 年 Twitter 网站推出至今,微博发展迅速,在国内发展最好的是新浪微博。
新浪微博()是新浪旗下网站,是中国最具影响力的社会化媒体平台,是一个基于用户关系的信息分享、传播以及获取的平台。
新浪微博于2009年8月14日开始内测。
根据新浪公布的最新数据,截至2012年5月16日,新浪微博注册用户数已增至3.24亿。
由于微博具有单一性、迅捷性、碎片化、个性化、开放性、整合性、实时性和跟随性等特点,使得微博存在信息冗余、自发的组织性不强等问题,其所负载和传播的内容也呈现碎片化,给人良莠不齐、垃圾信息泛滥的印象。
因此,需要不断改善微博信息资源的组织方式,才能不断提高其生存能力。
对微博网站信息分类问题进行研究,不仅可以指导微博网站对信息的分类组织,也可以促进对网站信息分类问题研究的深入。
已有学者对微博进行了研究,主要集中在其传播机制、盈利、应用等问题上。
近年来,有一些学者开始对微博的信息组织问题进行研究:柯芳微认为博客作为一个信息生产系统,其由“混沌”到组织化的过程,其实可以看作一个“信息自组织”过程,信息会不断地有向聚合——群组界面信息聚合,个人界面信息聚合。
吴胜和苏琴根据微博的实时性、碎片化、跟随性特点,认为用户是微博网站信息分类时考虑的重要要素,提出了直接法、职能法、网战法、矩阵法四大微博网站信息分类模式,得出职能法是微博网站中使用频率最高的分类模式的结论。
刘乙坐和黄奇杰从传播的角度对微博进行分类,分为个人用户微博和组织用户微博。
陈渊,林磊,孙承杰和刘秉权通过对用户特征的分析,提出了给用户推荐标签,将用户标签化,这样来达到微博信息组织化的目的。
目前,基于标签法的微博分类的研究几乎是一片空白,原因在于微博网站作为web2.0网站,用户的交互性非常强,没有一个很好的机制能够对发布的微博进行主题和内容进行分类。
而现在一些web2.0网站的普遍做法是鼓励用户在发布内容时能够自定义主题或者贴上主题标签。
然而仅仅是靠发布者提供的主题给微博进行分类是很不可靠很不切实的。
微博网站信息标签分类问题进行研究,不仅可以指导微博网站对信息的分类组织,也可以为用户提供一个自行管理微博和检索的机制。
本文首先回顾已有的网站信息分类、博客信息分类研究成果;在此基础上,提出由发布者——转发者——收藏者对微博进行标签化分类的机制。
考虑到微博网站的相似性,本文以新浪微博为样本对标签法在微博分类上的应用进行研究。
2.新浪微博的分类方法新浪微博目前提供的微博分类主要突显在用户管理微博和微广场的几个应用功能上。
2.1新浪微博用户自助实现的分类用户可以对自己所关注的微博账号进行分组,将所关注的人和组织进行统一分类,如图1是某微博账号上的分组。
分为相互关注、特别关注、名人明星、同事等。
新浪微博提供多个标签的分组,比如可以把某账号同时分到特别关注和名人明星中。
新浪微博的分组功能基本上可以满足用户对关注者分组的需求。
图1用户对微博的分类表现在发布微博和收藏微博时可以选择添加标签。
在发表微博时不会提示添加标签,在发表之后可以给微博进行添加标签;在发表微博时可以在最前面加上“#主题#”表示微博的主题。
新浪微博没有在发表微博时提供标签是考虑到用户提供标签往往不够准确,而且标签没有必要给发布者的粉丝看到。
在收藏微博时系统会提示添加标签,可以添加最多两个标签,这样方便用户进行微博管理和查找微博。
如图2所示:图22.2新浪微博系统提供的分类新浪微博的广场一栏中有多个功能应用,其中名人堂、微话题、热门微博等提供了对微博进行分类的检索功能。
如下图3所示,用户可以在名人堂中对名人进行搜索,可以再搜索框中输入搜索,也可以点击分类标签一层层搜索。
图3如下图4所示,用户可以通过“微话题”来搜索感兴趣的微博。
图4如图5所示,用户可以在“热门微博”中找到时下热门话题。
热门话题的分类简单,每一大项最多分为三类。
如体育的下一层分类是全部、名人、媒体。
图5最直接的搜索方式是通过新浪微博的搜索框进行主题搜索,作为中国最大门户网站新浪网的子品牌,新浪微博的搜索功能还是很强大的,但是往往搜索得到的微博数量过多而不够准确。
可以发现,新浪微博虽然提供了多种多样的检索方式,但是没有一个很合理的机制对微博进行统一分类。
3.微博标签生成方法根据上面的论述,在微博发展的现阶段,急需建立一个微博分类的机制,而研究表明标签法检索是可行的,下文将详细探讨这一方法。
3.1标签生成方法设计思路设立两级标签,每条微博最多可以设置1个一级标签,3个二级标签,3个三级标签。
只有添加了一级标签才能添加二级和三级指标标签,没有有添加了二级标签也能添加三级标签。
通过对微博的内容特征的分析,由系统将设置若干个一级标签和二级标签。
一级标签可以根据实际情况由系统添加;二级标签和三级标签可以根据用户使用频度由系统自动生成。
比如某微博是描述本届欧洲杯的某些球员“思考人生“的现象,它的一级标签为体育,二级标签为足球,三级标签为欧洲杯。
用户发表微博时可以添加标签“思考人生”,当该微博被转发超过一定频次时,系统会在第三级标签中自动添加“思考人生”这一标签。
但由于该标签只具有时效性,当用户不再关注该标签时,系统会再删除该标签,这样就避免了二级标签和三级标签的数量无限的增长。
每当一个微博将要被浏览者或粉丝转发和收藏时,转发者或收藏者可以按照自己的理解为此微博添加标签。
系统会记录添加的标签,这样当被转发或收藏的次数增加到一定的规模,每一条微博就有多个标签,然后系统会将频次少的标签过滤掉,最多留下1个一级标签,3个二级标签,3个三级标签。
这样这条微博的三级标签体系就形成了。
用户就可以使用标签检索需要的微博了。
以下是具体的以浏览者和粉丝添加标签作为标签源的标签生成过程:(1)微博用户写好微博,接着用户按照个人意愿选择是否添加标签,最后发表微博。
(2)浏览者或粉丝转发或者收藏该微博,有选择性地为微博添加标签。
(3)系统对收集所有的标签计算其权重,每个标签的权重即为该标签在收集的所有标签中出现的次数。
(4)系统保留有限个权重高的标签,并按照一级标签在前低级标签在后、同级标签由高到低的原则给出微博的标签结果。
方法流程图如图 6所示。
图6.标签生成方法流程图3.2用户微博管理方法微博用户给自己发表的微博标签可能会因为系统的标签生成方法而改变,但是用户在自己的主页中查看和管理微博时的标签都是自己最初设定的。
也就是发布者通过自己的主页检索微博所使用的标签与其他用户检索发布者所使用的标签是不一样的。
同理用户转发或者收藏的微博也属于是自己发布的微博,同样在自己的主页中搜索时使用的是自己转发和收藏时设定的标签。
这样就保证了用户通过标签来管理微博的方法的实现。
3.3运用层次分析法设置各个标签的权重3.3.1AHP方法:层次分析法(Analytic Hierarchy Process简称AHP)是美国运筹学家T.L.Saaty教授于70年代初期提出的,AHP是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。
它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断结构(主要是两两比较)把专家意见和分析者的客观判断结果直接而有效地结合起来,将一层次元素两两比较的重要性进行定量描述。
而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。
3.3.2微博三级标签体系目标层一级标签二级标签三级标签三级标签体系A娱乐A1. 人物A2. 媒体A3. 电影A4. 音乐An. ……A11.首字母为A的明星A12.首字母为B的明星……A31.爱情片A32.动作片……B体育B1.足球B2.篮球B3.奥运会……Bn.………………C政治C1. 国内政治C2. 国外政治C3. ……Cn.………………D科技D1. 电脑D2. 手机D3. ……Dn.……………………………………………………当然这样分类的类目体系还很不够完善,就可以借鉴现有的比较权威的类目体系来解决这一问题。
比如可以利用信息组织中用于图书分类的《中图法》。
《中图法》是我国目前通用的图书分类工具,基本涵盖了各个知识领域,包括马列毛邓、哲学等5大类部,马列主义、毛泽东思想等22个基本大类。
如果参照中图法对新浪微博的类目体系进行改进,同时根据微博的特点对部分类目进行重新组合和扩展,就能加以完善。
由于本文旨在研究基于标签的微博分类的研究,暂且对类目体系的完善不做过多的考虑。
4.总结及申明本文对目前的微博检索方式进行了分析,选择了最具代表性的微博平台之一新浪微博为例,对其标签法的分类方式进行了说明。
随后提出了由发布者——转发者——收藏者对微博进行标签化分类的三级标签分类机制,旨在方便用户检索微博和管理微博。
由于本人的专业知识有限,而且时间紧迫,该研究只能算是个半成品,因为还缺乏对三级分类体系的优化和技术可能性的分析。
总之仅仅只限于理论层面,没有运用于实践。
参考文献[1] 熊回香,金晓耕.Web2·0环境下信息组织的优化研究[J].现代情报,2012,32(4)[2] 陈渊,林磊,孙承杰, 刘秉权.一种面向微博用户的标签推荐方法[J].智能计算机与应用,2011,1(3)[3] 沈振萍,谢阳群.基于微博客的竞争情报搜集研究:以新浪微博为例[J].情报杂志,2012,31(5)[4] 刘乙坐,黄奇杰.传播学视野下的微博基本分类初探[J].现代服务,2011,5[5] 武胜,苏琴.微博网站信息分类模式研究[J].图书情报工作网刊,2011[6] 柯芳.微博客的信息自组织研究[D].武汉:华中科技大学,2010。